Fakultät Informatik Institut für Software- und Multimediatechnik Lehrstuhl für Mediengestaltung AMVIS an auditive, motiondriven and visualizing Environment Diplomarbeit Marie Schacht Matrikel-Nummer: 2883089 Bearbeitungszeitraum: 01.10.2010 bis 30.06.2011 Hochschullehrer, Betreuer: Prof. Dr.-Ing. habil. Rainer Groh Selbstständigkeitserklärung Hiermit versichere ich, Marie Schacht, dass ich die Grundsätze wissenschaftlichen Arbeitens nach bestem Wissen und Gewissen eingehalten und die vorliegende Diplomarbeit mit dem Titel „AMVIS – an auditive, motiondriven and visualizing Environment“ selbstständig verfasst habe. Zur Erstellung wurden keine anderen Quellen und Hilfsmittel als die angegebenen benutzt. Ort, Datum: …………………………………… Unterschrift: …………………………………… Danksagung Herzlichen Dank an Professor Groh für die inspirierende Lehre und das Vertrauen hinsichtlich der Bearbeitung dieses Diplomthemas. Inhaltsverzeichnis Selbstständigkeitserklärung Danksagung 1. Einleitung 1 1.1 Motivation 1 1.2 Zielsetzung 2 1.3 Ergebnisse 2 1.4 Gliederung 3 2. Grundlagen 4 2.1 Natürliche Benutzerschnittstellen 4 2.2 Audiovisuelle Umgebungen 7 2.3 Technologie 12 2.4 Generative Gestaltung 24 3. Musik 34 3.1 Einstimmung 34 3.2 Musikalische Akustik 36 3.3 Klangfarbe und Timbre 39 3.4 Musikalische Grammatik 40 3.5 Visuelle Musik 43 3.6 Parallelen zwischen Musik und Malerei 47 4. AMVIS Konzeption 50 4.1 Anforderungen an AMVIS 51 4.2 Installationsaufbau und Software-Architektur 53 5. AMVIS auditive 57 5.1 Musizieren 57 5.2 Computergestützte Musikinstrumente 58 5.3 Musikalische Rollen in AMVIS 61 6. AMVIS motiondriven 63 6.1 Melodie 63 6.2 Harmonie 67 6.3 Rhythmus 68 6.4 Dirigent 69 7. AMVIS visualizing 70 7.1 Studien zu Visueller Musik 70 7.2 Grafische AMVIS-Oberfläche 73 7.3 Nutzer-Feedback 74 8. AMVIS Diskussion 75 8.1 Zusammenfassung der AMVIS Benutzerrollen 75 8.2 AMVIS – ein hybrides Werk 77 8.3 Ausblick 79 A. Literaturverzeichnis B. Abbildungsverzeichnis C. Tabellenverzeichnis D. Videoverzeichnis E. Softwareverzeichnis F. Anhang: Handout vvvv Kapitel 1: Einleitung Willkommen. Das einleitende Kapitel gibt einen Überblick zu den Schwerpunkten dieser Arbeit. Es führt ein in Forschungsthemen der RechercheKapitel und beschreibt Anforderungen an die Realisierung der Installation: „AMVIS – an auditive, motiondriven, visualizing Environment“. 1.1 Motivation Multisensorische Eindrücke formen die Erlebniswelt des Menschen. Die Faszination, visuelle und auditive Sinneswahrnehmungen miteinander in Beziehung zu setzen, reicht zurück bis in die griechische Antike. Mathematiker und Philosoph PYTHAGORAS vermutete bereits um 500 vor Christus einen Zusammenhang zwischen Tonleiter und Regenbogenfarbenspektrum. Künstler gegenstandloser Malerei wie WASSILIY KANDINSKI und PAUL KLEE waren bemüht, das zeitliche Moment der Musik im Bild zu verdeutlichen. In der Musischen Kunst begann man im 18. Jahrhundert mit dem Bau von sogenannten Farbenklavieren, bei denen durch Niederdrücken einer Taste der Ton mit farbigem Licht visualisiert wird. Der russische Komponist ALEXANDER SKRJABIN schrieb in die Partitur seiner 1915 uraufgeführten Sinfonie „Promethée“ eine eigene Lichtspur, die Anweisungen zur Kopplung von Tönen mit farbigem Licht gab. Seit Anfang des 20. Jahrhunderts finden audiovisuelle Experimente Ausdruck in abstrakten Filmen. Der Avantgarde-Künstler OSKAR FISCHINGER beispielsweise setzte sich jahrzehntelang intensiv mit Bild-Ton- und Ton-Bild-Beziehungen auseinander. Er war stets bemüht, zwischen visuellen und akustischen Formen eine ästhetische Korrespondenz herzustellen. Wissenschaftliche Erkenntnisse, technologische Fortschritte, Wahrnehmungsstudien und Ergebnisse künstlerischen Schaffens prägen die Weiterentwicklung der Beziehung zwischen Klanglichem und Visuellem. Seit Aufkommen digitaler Technologien im zwanzigsten Jahrhundert bieten sich für die Untersuchung des audiovisuellen Erkenntnisaustausches facettenreiche Möglichkeiten, insbesondere dahingehend, ein gleichberechtigtes Zusammenspiel dieser beiden ausdrucksstarken Medien zu erreichen. Kapitel 1: Einleitung 1.2 Zielsetzung Der Fokus dieser Arbeit liegt auf der Konzeption und Umsetzung einer Natürlichen Benutzerschnittstelle für gemeinsames Musizieren. Forschungsgegenstand bilden natürliche Interaktionsmethoden, Bild-Ton-Beziehungen, Interfaces für computergestütztes Musizieren und Technologien zur Kreation von Medieninstallationen. Die Benutzerschnittstelle soll als ein dynamisches System gestaltet sein, das durch multimodales Einwirken der Nutzer unmittelbar audiovisuelle Ereignisse generiert. Dafür sind musikalische und zugleich visuelle Instrumente in eine interaktive Mehrbenutzerumgebung einzubetten. Im Fokus stehen der Mensch und seine natürlichen Handlungsmethoden. Es sollen intuitiv erforschbare InterfaceKonzepte entworfen werden, welche musikunerfahrene Nutzer bei eigenem Musizieren unterstützen, und gleichermaßen die Intentionen geübter Musiker berücksichtigen. Der softwaretechnologische Aufbau des regelbasierten Systems soll modular erfolgen und erweiterbar sein. 1.3 Ergebnisse Der initialen Zielsetzung folgend wurde mit AMVIS eine musikalisch und visuell erfahrbare, bewegungsgesteuerte Umgebung kreiert, die mehreren Nutzern verschiedene Natürliche Interaktionsmethoden offeriert. Der Entwicklungsprozess gestaltete sich interdisziplinär und berücksichtigte sowohl wissenschaftliche Disziplinen der Informatik als auch Kunst und Musik. AMVIS ist benutzerzentriert gestaltet, und verhilft Musikern und Nichtmusikern zu eigenen Musiziererlebnissen. Musik ist per Definition die Ordnung von Tönen hinsichtlich Melodie, Harmonie und Rhythmus zu einer Gruppe von Klängen. Dies wurde AMVIS als Funktionsprinzip für gemeinsames Musizieren zugrunde gelegt und spiegelt sich in drei unterschiedlichen Nutzerrollen wider. AMVIS ist kein virtualisiertes klassisches Musikinstrument, sondern schöpft aus dem Digitalen, um das Zusammenspiel zu unterstützen. Das tonkünstlerische Gesamtwerk entsteht durch Interaktion der Nutzer mit dem System und miteinander, und ist teils Komposition, teils Improvisation. Die visualisierende AMVIS-Komponente bezieht Prinzipien Generativen Gestaltens ein und berücksichtigt Funktionsstrukturen Visueller Musik. Aus dem Blickwinkel der Informatik wurde eine Software programmiert, die ganzkörperliche und greifbare Nutzerinteraktionen in Echtzeit verarbeitet und zur Erzeugung paralleler auditiver und visueller Ausgaben nutzt. 2 von 79 Kapitel 1: Einleitung 1.4 Gliederung Die Konzeption, Gestaltung und Umsetzung einer audiovisuellen, bewegungsgesteuerten Umgebung ist vielschichtig. Diese Arbeit ist um eine holistische Darstellung bemüht und reflektiert den Erarbeitungsprozess mittels der Inhaltsstruktur. [siehe Abb. 1.1] Die Kapitel Zwei und Drei beschreiben Recherche- und Analyseergebnisse. Hier werden die Themenbereiche Natürliche Benutzerschnittstellen, Audiovisuelle Installationen, Programmierumgebungen, Tracking-Technologien, Generative Gestaltung und Musik beleuchtet. Alle darauffolgenden Kapitel führen sukzessive durch die Entwurfsphasen von AMVIS. Begonnen wird mit der Erläuterung von Anforderungen, Installationsaufbau und Softwarearchitektur. Im Anschluss wird die Erforschung und Realisierung der drei definierenden Eigenschaften musikalisch (Kapitel Fünf), interaktiv (Kapitel Sechs) und visualisierend (Kapitel Sieben) vorgestellt. Abschließend fasst Kapitel Acht die umgesetzten Ergebnisse zusammen, beleuchtet das hybride Werk AMVIS, und unterbreitet Konzepte für dessen Weiterentwicklung. Abbildung 1.1: Die Abbildung gibt einen Überblick zum AMVIS Entwurfsprozess und kennzeichnet, in welchem Kapitel dieser Arbeit die Beschreibung der einzelnen Teilbereiche erfolgt. 3 von 79 Kapitel 2: Grundlagen Das folgende Kapitel eröffnet mit der Charakterisierung Natürlicher Benutzerschnittstellen und stellt Gestaltungskriterien heraus. Anschließend erfolgt eine Einführung in interaktive audiovisuelle Mehrbenutzerumgebungen und die dafür benötigten Technologien, wobei die musikalische Komponente ausgeklammert und im nächsten Kapitel umfassend beleuchtet wird. Der dritte Bereich dieses Grundlagenkapitels beschäftigt sich mit Generativer Kunst und veranschaulicht Generatives Gestalten an einem Beispiel unter Einsatz der Programmierumgebung vvvv. 2.1 Natürliche Benutzerschnittstellen Nach Kommandozeileneingabe und Grafischen Benutzerschnittstellen (kurz GUI) bildet sich mit Natürlichen Benutzerschnittstellen (Engl.: „Natural User Interface“, kurz NUI) ein Paradigmenwechsel in der Mensch-MaschineKommunikation heraus. Nicht künstliche Kontrollgeräte wie Maus oder Tastatur sondern Berührung, Sprache, Geste und Bewegung sollen eine für den Menschen natürliche Eingabe ermöglichen. Ein Interface ist dann keine Grenzschicht mehr, sondern verschmilzt mit der nicht-digitalen Welt, und die benötigte Technologie verschwindet gänzlich im Hintergrund. Zu beachten ist, dass NUIs weder die Weiterentwicklung von GUIs sind, noch diese zu ersetzen bestreben. So gab es bereits Mitte der 1980er Jahre, als Computer mit grafischen Schnittstellen gerade erst Einzug in die Verbraucherhaushalte fanden, erste Veröffentlichungen zu Multitouch und gestenbasierter Eingabe durch BILL BUXTON1 und seine Forschergruppe der Universität Toronto. NUIs fokussieren eine natürliche Interaktionsmethodik. Nun muss geschaut werden, in welchem Anwendungskontext das von Vorteil ist. Für das Verfassen einer Email beispielsweise ist die Tastatur prädestiniert. Die Navigation in einem virtuellen dreidimensionalen Raum hingegen wird unter Einsatz von Gesten und Bewegungen erheblich erleichtert. 1 BILL BUXTON war Forscher im „Xerox PARC“ und an der Universität in Toronto, wo er bereits 1985 eine Arbeit zu „Multitouch Computing“ veröffentlichte. Er erhielt 2008 der Konferenz “CHI - Conference on Human Factors in Computing Systems” einen Preis für sein Lebenswerk. Derzeit ist er Chefforscher bei „Microsoft Research“. Kapitel 2: Grundlagen Abbildung 2.1: Neben Multitouch-Oberflächen und Gestenbasierten Schnittstellen sind auch Greifbare Benutzerschnittstellen (Engl.: „Tangible User Interface“, kurz TUI) und Audiobasierte Schnittstellen mit direkter Spracheingabe Natürliche Benutzerschnittstellen. Dieser Begriff ist jedoch erst seit wenigen Jahren geläufig und wurde maßgeblich von CHRISTIAN MOORE geprägt, der 2006 mit dem Aufbau einer offenen Forschungsgemeinschaft [URL: http://nuigroup.com] zur gemeinsamen Diskussion und Weiterentwicklung von NUI-Technologien begann. „The term natural is often understood to mean mimicry of the ‚real world‘. In our view, it is a design philosophy and a source for metrics enabling an interactive process to create a product. […] We see natural as referring to the way users interact with and feel about the product.‚ [Widgor2 2011] Natürlichkeit ist ein sehr weitläufiger und unscharfer Begriff. Für WIDGOR als NUI-Entwickler ist es eine Gestaltungsphilosophie. Im Kontext moderner Benutzerschnittstellen wird damit der Umgang des Menschen mit der Technologie charakterisiert und meint insbesondere, dass Funktionsprinzipien und Interaktionsmöglichkeiten direkt und instinktiv erfasst werden können, ohne aufwendige Lernprozesse. Demnach zielt die Gestaltung von Natürlicher Interaktion darauf, nur die Fähigkeiten des Menschen zu fordern, mit denen er bereits vertraut ist. Solche sogenannten ‚Simple Skills‘ [Blake 2010] hat er sich im Laufe seines Lebens in der realen Welt angeeignet und kann sie leicht auf andere Anwendungskontexte übertragen. Im Gegensatz zu ‚Simple Skills‘ stellt das Erlangen von ‚Composite Skills‘ eine hohe kognitive Beanspruchung dar. „Whenever possible do not force the users to learn something new. Do the design in a way that exploits the skills they already have. Let them adopt abilities to NUI contexts. Just when necessary bring in new skills.‚ [Buxton 01-2010] 2 DANIEL WIDGOR, DENNIS WIXON: Buch „Brave NUI World“, veröffentlicht im April 2011. WIDGOR ist User Experience Architekt und WIXON Forschungsleiter im Microsoft Surface Projekt. 5 von 79 Die Abbildung zeigt Beginn und Zeitraum von Forschungsaktivitäten und kommerzieller Produktisierung in den Bereichen Gestenerkennung, ComputerMaus und Direkte Manipulation. Die Gegenüberstellung soll die parallele Erforschung von GUI- und NUI-Technologien verdeutlichen. Kapitel 2: Grundlagen Im Folgenden werden charakteristische Eigenschaften Natürlicher Benutzerschnittstellen beschrieben. Dabei sind mit (B) gekennzeichnete Kriterien BUXTON zuzuordnen, mit (H) gekennzeichnete HENSELER3. Stimmen Theorien beider in der Bedeutung überein, ist die Auszeichnung: (B), (H). Ein NUI fokussiert den interagierenden Mensch. Die Technologie ist Mittel zum Zweck und bedarf keiner weiteren Aufmerksamkeit. (B) Die natürlichen Handlungsmodelle des Nutzers, seine motorischen, kognitiven und sozialen Kapazitäten, liegen dem NUI-System zugrunde. Dies setzt eine genaue Beobachtung menschlicher Interaktionsweisen voraus. Zur Ergründung dessen helfen Fragestellungen wie: ‚Wer macht was? Wo? Mit wem? Wie?‘ (B), (H) Ein NUI-System verhält sich adaptiv und kontextsensitiv. Es passt sich den Interessen und Bedürfnissen des Nutzers an und entspricht seinen Erwartungen. (B), (H) Die Interaktion mit einem NUI erfolgt unmittelbar. Der Nutzer kann seine Handlungsabsichten direkt verwirklichen. Es sollen keine neuen Komplexitäten hinzugefügt werden. (B), (H) Das auditive, visuelle oder taktile Feedback erfolgt ebenfalls unmittelbar. (H) Ein NUI ist multimodal erforschbar. Es ermöglicht den parallelen Einsatz von Gesten, Sprache, Körperbewegungen und physischer Manipulation. (B) Sowohl virtuelle als auch greifbare Artefakte kommunizieren ihre Funktion über ihre Gestalt. (H) Ein NUI kann verschiedene Ein- und Ausgabegeräte enthalten. Wichtig sind deren Kommunikation untereinander und eine möglichst natürliche Ausgabe. (B) Zusammenfassend lässt sich formulieren, dass Einfachheit, Unmittelbarkeit, Natürlichkeit, Multimodalität, Adaptivität und Kontextsensitivität wichtige Eigenschaften einer Natürlichen Benutzerschnittstelle sind und ein hochwertiges Nutzungserlebnis sowie eine effiziente Aufgabenerledigung begünstigen. [Buxton 2007, 03-2010, 01-2010], [Henseler 2010], [Blake 2010] [Schacht 2010], [Wigdor 2011], [Wikipedia: NUI] 3 WOLFGANG HENSELER beschäftigt sich mit der Erforschung von NUIs. Er ist Professor für ‚Digitale Medien‘ und ‚Usability‘ an der Hochschule Pforzheim und Kreativdirektor von SENSORY-MINDS, einem Designstudio für Neue Medien und innovative Technologien, das er im Mai 2009 mit Heiko Hoffmann und Jonas Pabst gründete. 6 von 79 Kapitel 2: Grundlagen 2.2 Audiovisuelle Umgebungen Audiovisuelle, interaktive Umgebungen repräsentieren ein hybrides Werk aus Kunst, Technik, Wissenschaft und Unterhaltung. Sichtbare und hörbare Informationen werden zueinander in Beziehung gesetzt. Ihre parallele Wiedergabe provoziert eine multisensorische Wahrnehmung. Integraler Bestandteil interaktiver Umgebungen ist die partizipative Rolle der Nutzer. Dies meint ihr aktives Mitwirken, zur Erzeugung von Klängen und Bildern. Bezüglich des Kunstcharakters interaktiver Systeme sei auf die Nähe zu Happening4 und Fluxus5 hingewiesen, zwei Bewegungen der Aktionskunst der 1960er Jahre. Im Folgenden werden, medientheoretisch geprägt, Eigenschaften und Komponenten audiovisueller Umgebungen beschrieben. [Anmerkung der Autorin: Diese Arbeit verwendet die Begriffe audiovisuelle Umgebung, interaktives System, Installation, interaktive audiovisuelle Umgebung, (Kunst-)Werk und deren Abwandlungen synonym, um, neben der Varianz im Ausdruck, Interpretationen der Daseinsform nahezulegen. Wenn auch nicht durchweg explizit formuliert, wird die Interaktivitätseigenschaft audiovisueller Umgebungen immer impliziert. Des Weiteren beschreiben die Begriffe Gestalter, Entwickler, Programmierer und Künstler Synonyme für den Produzenten einer audiovisuellen Umgebung.] Audiovisualisierung ist die Generierung und Beeinflussung von Bildmaterial auf Grundlage von Audiodaten. Dabei muss zwischen bloßer Darstellung des Audiosignals durch elektronische Geräte oder Software [siehe Abb. 2.2], und künstlerisch geprägtem Vorhaben, den musikalischen Höreindruck im bewegten Bild umzusetzen, unterschieden werden. Ein Computer kann mittels der Schnellen Fourier-Transformation (Engl.: „Fast Fourier Transformation“, kurz FFT) das Frequenzspektrum des Audiosignals in Echtzeit berechnen. Wird dieses dann als Eingabe in dem Visualisierungsprogramm weiterverarbeitet und ausgegeben, lassen sich die stetigen Veränderungen audiospezifischer Parameter wie Tonhöhe, Rhythmus und Lautstärke, sichtbar mitverfolgen. [siehe auch Kapitel 3.5: Visuelle Musik] 4 Ein Happening ist ein improvisiertes Ereignis, das das Bedürfnis des Künstlers widerspiegelt, über Nutzung des öffentlichen Raums in direkten Kontakt mit dem Publikum zu treten. 5 Bei einem Fluxus-Ereignis wird im Gegensatz zum Happening kein Gesamtkunstwerk angestrebt. Es gibt keine Lösungen und nichts Abgeschlossenes. Der Betrachter soll in den kreativen Prozess einbezogen werden. Fluxus erklärt sich als fließender Übergang zwischen Kunst und Leben. [Möller 1999] 7 von 79 Kapitel 2: Grundlagen Abbildung 2.2: Die Abbildung zeigt verschiedene Visualisierungen eines Audiosignals durch eine Analyse-Software. Oben links sieht man die Darstellung eines simulierten Oszilloskops, darunter die Spektralanzeige und unten links die Frequenzanalyse. Definition: Ein Oszilloskop ist ein Messgerät, das Eingangssignale über ihren zeitlichen Verlauf in einem zweidimensionalen Koordinatensystem darstellt. Echtzeitsystem bezieht sich auf die Eigenschaft des Computersystems (Software und Hardware), Ausgabeereignisse ohne spürbare Verzögerung zu liefern. Dies ist Voraussetzung für die Interaktion des Nutzers mit einer audiovisuellen Umgebung. Das System muss eine gefühlte Parallelität gewährleisten, selbst dann noch, wenn mehrere Ein- und Ausgabegeräte zum Einsatz kommen. Audiovisuelle Kommunikation vermittelt Informationen parallel über akustische und optische Signale. Die Unterhaltung zweier Personen von Angesicht zu Angesicht kann bereits als audiovisuelle Kommunikation verstanden werden, da das Gesprochene des Gegenübers zugleich sichtbar und hörbar ist. [Spielmann 2006] Eine Audiovisualisierung ist es jedoch nicht, weil die Bewegung des Mundes das Audiosignal maßgeblich formt, anstatt umgekehrt durch das Audiosignal manipuliert zu werden. Im Kontext medialer Umgebungen ist audiovisuelle Kommunikation die vom Künstler konzipierte und programmierte Ausgabe an den Benutzer. Ihre ästhetische Gestaltung ist bedeutsam und zugleich herausfordernd, denn der Informationsgehalt von bewegtem Bild und Ton sind abhängig von individueller Interpretation [Eggener 2009]. Intermedialität beschreibt das Zusammenwirken mehrerer Medien. Von besonderem Interesse sind dabei die Beziehungen der Medien zueinander. Die ästhetische Kopplung oder gezielte Entkopplung einzelner Medien soll eine Veränderung in der Wahrnehmung des Ganzen bewirken. Intermedialität hat sich historisch verändert. Sie ist fortwährendem Wandel unterzogen und mit Aufkommen des Computers hat sich sogar eine neue virtuelle Art derselben herausgebildet. Medientheoretiker KITTLER befürchtet, dass die verschiedenen Einzelmedien im Universalmedium Computer verschwinden könnten, oder zumindest nur noch auf der multimedialen Ober- 8 von 79 Kapitel 2: Grundlagen fläche als unterscheidbare Effekte existieren. SCHRÖTER hingegen versteht digitale Medien als virtualisierte analoge Medien. Damit sind sie eine spezifische Form derer und bereichern Intermedialität, anstatt sie aufzulösen. „Die verschiedenen Medien existieren, abgelöst von ihrer technischen Materialität, als virtuelle Form auf einer einheitlichen, derselben, Basis: dem digitalen Code.‚ [Schröter 2002, Zitat leicht modifiziert für ein besseres Verständnis] Audiovisuelle Medien sind sowohl visuell als auch auditiv wahrnehmbar und repräsentieren eine Teilmenge aller Medien. Der Sammelbegriff Medien umfasst traditionelle, handwerkliche (zum Beispiel Gemälde, Skulptur), analog technische (zum Beispiel Foto, VHS-Video) und digitale (zum Beispiel Internet, H264-codiertes Video) Kommunikationsmittel. Bezieht man den Begriff Audiovisuelles Medium auf die gesamte Umgebung, anstatt nur auf die Monomedien, genügt die bloße Addition von Ton und Bild einer Definition nicht. Deshalb sollen die Begriff Prozessualität hinzugezogen werden. „Medien dienen grundsätzlich der Erweiterung der menschlichen Wahrnehmung in Raum und Zeit. […] Sie sind viel mehr als bloß Mittel und Verstärker der menschlichen Kommunikation.‚ [Hartmann, zitiert in Eggener 2009] Prozessualität beschreibt den offenen Projektcharakter, die dialogische Struktur und die Unabgeschlossenheit einer audiovisuellen Umgebung. Sie ist dynamisch und in ständiger Verwandlung durch gemeinsame Interaktionshandlungen der Nutzer – nicht starre Präsentation eines vollendeten Werkes. Die Konzentration liegt auf dem Zeitfluss, den Ereignissen und der Schaffung einer Atmosphäre. [Möller 1999] Interaktivität beschreibt jegliche Manifestation wechselseitiger Beziehungen in einer audiovisuellen Umgebung. Dies umfasst Wechselbeziehungen zwischen Nutzern und Umgebung, zwischen Nutzern untereinander, und in gewisser Weise auch zwischen den Sinnesmodalitäten Sehen und Hören jeden einzelnen Nutzers. Interaktivität ist dicht verwoben mit dem Prinzip der Prozessualität und lebt vom Dialog. Interaktion bezeichnet die wechselseitige Beeinflussung von Nutzern und Umgebung. Sie ist die handlungsgetriebene Kommunikation, welche sowohl über Gesten, Laute, Bewegungen oder dergleichen, als auch über andere Medien wie Mobiltelefon oder greifbare physische Objekte (Engl.: „Tangibles“) erfolgt, und ermöglicht den Nutzern teils manipulierendes, teils kontrollierendes und teils generierendes Mitgestalten der Ausgabeereignisse. Benutzer einer interaktiven Umgebung ist, wer als Besucher kam. Das einstige Publikum wird zu Interaktionshandlungen aufgefordert und erfährt 9 von 79 Kapitel 2: Grundlagen so die Transformation. Benutzer sind meist integraler Bestandteil der Installation und provozieren oder beeinflussen maßgeblich die vom System erzeugten und vom Künstler gestalteten, visuellen und auditiven Antworten. In gewisser Weise vollenden sie den Schaffensprozess durch ihr „mitgestaltendes Eingreifen“ [Block 2004]. Umgebung meint die Gesamtheit der Installation als ein offenes System. Sie unterliegt ständigem Wandel, ist zugänglich und dreidimensional erforschbar. Sie ermöglicht dem Nutzer ein multisensorisches Gesamterleben. Die audiovisuelle Umgebung ist ein „Kunstwerk in Bewegung“. [Eco, zitiert in Möller 1999] Der Gestalter der Umgebung hat ein zugrundeliegendes Regelsystem formuliert, das als Gerüst für Handlungen der Nutzer dient, ohne konkrete Inhalte festzulegen. Umgebung ist ein Raum in der Wirklichkeit mit physischen Objekten, Klangereignissen, projizierten Visualisierungen und Allem dazwischen. Bild und Ton können sowohl flächig als auch räumlich verteilt werden. Letzteres lässt sich als Immersion beschreiben und meint die vollkommene Einbettung des Nutzers, um intensive Wahrnehmungs- und Interpretationsprozesse herbeizuführen. [Block 2004] Zu unterscheiden ist dies von der Immersion der Virtuellen Realität, die auf eine Separation des Nutzers von der Außenwelt und damit einhergehende Entkörperlichung zielt. Multimodalität beschreibt die dem Nutzer durch die Installation angebotenen, vielfältigen Interaktionsmöglichkeiten, wie zum Beispiel Körperbewegung, Sprache oder Geste. Dieses Verständnis von Multimodalität entspricht dem BLATTNERs, DANNENBERGs und LEEs [erläutert in Henkens 2011]. Andere Auffassungen beziehen sensorische Modalitäten mit ein, was jedoch in dieser Arbeit als Multisensorische Wahrnehmung differenziert wird. Multisensorische Wahrnehmung resultiert aus dem Zusammenspiel von Sichtbarem und Hörbarem (und Riechbarem, Fühlbarem, Schmeckbarem). In audiovisuellen Umgebungen werden mindestens die beiden Sinnesorgane Auge und Ohr parallel angesprochen, was beim Nutzer eine mehrdimensionale Informationsaufnahme bewirkt. Die Multisensorische Verarbeitung führt wahrgenommene Informationen in einer Gesamtwahrnehmung der Umgebung zusammen. Dabei kann eine sensorische Verarbeitung durch eine andere gleichzeitig ablaufende beeinflusst werden. [Shi 2011] Die menschliche Wahrnehmung ist ein umfassender Prozess, an dem, neben der sensorischen Informationsaufnahme, insbesondere auch erlerntes und erfahrenes Vorwissen teilhaben. Dies führt zu der Schlussfolgerung, dass die von der Installation erzeugten Ausgabeereignisse von jedem Nutzer individuell wahrgenommen werden. 10 von 79 Kapitel 2: Grundlagen Abschließend soll „Pi“ als Beispiel für eine interaktive, audiovisuelle Mehrbenutzerumgebung vorgestellt werden. Die Installation „Pi“ wurde von MEMO AKTEN erschaffen und in einem Zelt auf dem Glastonbury Festival of Contemprorary Performing Arts in England im Juni 2008 eingerichtet. Sämtliche visuellen und klanglichen Ereignisse wurden ausschließlich durch die Bewegungen der Besucher, aufgenommen von insgesamt sechs Kameras, generiert. Es wurden zwei visuell erfahrbare Zonen innerhalb des Zeltes definiert, und vier audiovisuell erlebbare, die jeweils einem bestimmten Musikinstrument (Bass, Schlagzeug, Tasten, Streicher) zugeordnet waren. Dem Zusammenklang möglicher auditiver Ereignisse wurde zuvor bei der Gestaltung besondere Aufmerksamkeit gegeben, damit das Ergebnis immer wohlklingend und ästhetisch erscheint. [Akten 2008] „I really enjoy dancing but I have no musical talent whatsoever. So I think this is Teilnehmerstimmen: a really good way putting the two together.‚ „I think it’s fantastic, to be able to move and to change the sounds. Just perfect.‛ „It was an amazing experience. Controlling everything is like you’re god.‚ Die Zitate geben Eindrücke von Besuchern wieder, nachdem sie mit der Installation interagiert haben. Abbildung 2.3: Das Bild zeigt einen Nutzer bei seiner Interaktion mit der Installation „Pi“. Video 2.1 Das entsprechende Video kann unter folgender URL abgerufen werden: http://vimeo.com/1582964 Abbildung 2.4: Das Bild zeigt mehrere Nutzer in zwei der vier audiovisuellen Zonen der Installation „Pi“. Man erkennt die Trennung an den projizierten schmalen Dreiecken. 11 von 79 Kapitel 2: Grundlagen 2.3 Technologie Die Schaffung eines interaktiven Erlebnisraums, welcher dem Nutzer die Kommunikation mit Programmen über Körperbewegungen, Gesten, Geräusche, Sprache oder anderen Medien wie zum Beispiel Mobiltelefonen eröffnet, bedarf des Zusammenspiels von Sensoren, Software und Hardware. Der folgende Abschnitt stellt die für AMVIS relevanten Komponenten und deren Alternativen vor. ‚Technology is an important element, not as a force to drive future development, but because of the opportunities that it affords. However, the tail of technology should not be wagging the dog of human needs.‚ Bill Buxton 2.3.1 Trackingsysteme Die Bestimmung der Position eines Menschen im Raum, die Verfolgung seiner Bewegungen (Engl.: „Motion Tracking“) und die Abschätzung seiner Handlungsabsicht [Forschungsbereich Gestenerkennung; wird hier nicht behandelt] stellen herausfordernde Aufgaben an die Informatik. Im Bereich der Bewegungsverfolgung kommen verschiedenste Sensoren zum Einsatz. Der folgende Abschnitt stellt drei mögliche Klassifizierungen von Trackingsystemen vor. Begonnen wird mit einer Unterscheidung nach physikalischen Eigenschaften und Prinzipien, welche den einzelnen SensorTechnologien zugrunde liegen. Optische Trackingsysteme setzen Kameras ein. Um die Objekte sinnvoll voneinander und vom Hintergrundbild zu separieren, und um dann Positions- und Orientierungsdaten aus den Bildern zu gewinnen, bedarf es Methoden der Bildverarbeitung und Mustererkennung (zusammengefasst im Feld „Computer Vision“). Je nach Typ der eingesetzten Kamera müssen optische Systeme weiter differenziert werden. Beim Tracking mit RGB-Kameras wird nach markerbasiertem und markerlosem Vorgehen unterschieden. Marker (zum Beispiel definierte Schwarz-Weiß-Muster) werden vorher beim System registriert und können dann im Bild wiedergefunden werden. Markerloses Tracking (zum Beispiel Konturfindungs-Algorithmus) kommt ohne die künstlichen Referenzen aus. 3D-Kameras nehmen neben dem zweidimensionalen Abbild der Szene auch die Entfernungen der Objekte auf. Beispiel für eine 3-DKamera ist die TOF-Kamera. TOF ist das Akronym für „time of flight“ (Deutsch: Laufzeitverfahren) und beschreibt ein indirektes Verfahren zur Distanzmessung. Hierbei werden viele kleine Licht- 12 von 79 Kapitel 2: Grundlagen punkte in die Szene gesendet, die dann, von allen Objekten reflektiert, wieder zurück gelangen. Die Kamera misst die Zeit der Abwesenheit jeden einzelnen Punktes. Bei der Mechanischen Kopplung werden die zu trackenden Objekte über Stangen und Gelenke, oder über Seile mit festen Referenzpunkten verbunden. In den Gelenken befinden sich Beugungssensoren, und an den Seilenden Spannungssensoren. Beim Magnetischen Tracking wird durch einen Sender ein künstliches, magnetisches Feld erzeugt. Innerhalb dieses Feldes bewegen sich Magnetfeldsensoren, welche die Bewegungsströme messen, was eine Lagebestimmung ermöglicht. Einem Akustischen Tracking-System liegt, wie auch der TOF-Kamera und dem Globalen Positionssystem, das physikalische Funktionsprinzip der Laufzeitmessung zu Grunde. Hier werden Lautsprecher aufgestellt, die Ultraschallimpulse ausstrahlen. Die Objekte im Raum reflektieren das Signal und Mikrofone nehmen es in wieder Empfang. Ein System misst die Laufzeit für die Signalübertragung vom Sender zum Empfänger. Globale Positionssysteme sind satellitengestützte Systeme zur Positionsbestimmung. Die Satelliten sind gleichmäßig im All verteilt, untereinander synchronisiert und versenden stetig ihre exakte Position und Zeit. Ein Empfänger kann anhand der Laufzeit dieser Signale den Abstand zu drei Satelliten ermitteln und erhält darüber seine Position. Kinematische Tracking-Systeme sind Inertialsysteme. Sie können Position und Orientierung ohne äußere Referenzen bestimmen. Ausgehend von einem Anfangszustand messen sie die Bewegungsänderungen bezüglich Translation und Rotation mittels Beschleunigungs- und Drehratensensoren. Hybride Systeme kombinieren verschiedene Sensortechnologien, um die Schwächen einzelner auszugleichen. [Stricker 2002], [Schröder 2005], [Steger 2004], [Matias 2011] 13 von 79 Kapitel 2: Grundlagen Eine andere mögliche Klassifizierung von Tracking-Systemen kann über ihr Bezugssystem (Objekt – Referenz/Sender – Sensor/Empfänger) erfolgen: Bei Outside-In-Systemen (zum Beispiel optische) sind die Referenzen am Objekt und die Sensoren außerhalb befestigt. In Umkehrung dessen sind bei Inside-Out-Systemen (zum Beispiel magnetische) die Sensoren am Objekt befestigt und externe Quellen messen die gesendeten Signale oder generierten Felder. Inside-In-Systeme (zum Beispiel mechanische) haben sowohl Referenzen als auch Sensoren direkt am Objekt. Eine weitere mögliche Klassifizierung soll abschließend mit KORNs Übersicht zu Sensortechnologien vorgestellt werden, welche sich ebenfalls am Bezugssystem orientiert [siehe Abb. 2.5; Bezugssystem wurde durch Autorin ergänzt]. KORN, der sich im Hinblick auf die Umsetzung einer interaktiven, musikalischen Mehrbenutzerumgebung mit Sensortechnologien beschäftigte, legt seiner Veranschaulichung die Unterscheidung in physikalisch und berührungslos (Engl.: „touchless“) zugrunde und ordnet Sensortypen direkt zu. Des Weiteren markiert er die Technologien, welche gesamtkörperliche Bewegungen (Engl.: „Full Body Interaction“) verfolgen können mit (F), und Sensoren, die sich zum Erkennen perkussiver6 Gesten eignen, mit (P). [Korn 2009] Abbildung 2.5: Die Abbildung zeigt KORNs Übersicht zu Sensortechnologien. Mit (F) gekennzeichnete können gesamtkörperliche Bewegungen des Nutzers erfassen, wohingegen mit (P) markierte sich im Einsatz in interaktiven Umgebungen als Controller eignen. Die BezugssystemKlassifizierung wurde durch die Autorin ergänzt. 6 Perkussiv ist zurückzuführen auf Perkussion, was im musikalischen Bereich das Spielen von Schlaginstrumenten umschreibt. 14 von 79 Kapitel 2: Grundlagen 2.3.2 Tracking und Gestenerkennung in AMVIS Eine Natürliche Benutzerschnittstelle soll dem Mensch dieselbe unbeschwerte Interaktionsweise ermöglichen, wie er sie in der realen Welt erfährt. Dazu gehören freie Bewegungen, das Greifen nach Objekten, das Kommunizieren über Sprache, das Drehen des Kopfes für eine Änderung des Sichtfeldes, und so weiter. Im vorigen Abschnitt wurden Sensortechnologien zum Erkennen und Verfolgen von physischen Objekten vorgestellt. Nur eine Auswahl derer ermöglicht gesamtkörperliches Tracking [siehe Abb. 2.5, mit (F) markierte] und ist somit für die Nutzerverfolgung in interaktiven Umgebungen in Betracht zu ziehen. Eine weitere Beschneidung der Auswahlmenge erfolgt durch die Anforderung, die Nutzerinteraktion natürlich zu gestalten. Motion-Capture-Methoden (Deutsch: Bewegungserfassung) sind zwar sehr präzise, zwingen jedoch den Nutzer in Ganzkörperanzüge mit tragbaren Sensoren oder Markern. Folglich ist optisches, markerloses Tracking die einzig akzeptable Lösung. Allerdings wird durch das Fehlen der Marker auch das Sehen für den Computer erschwert. Trotz wirksamer Computer-Vision-Algorithmen wird die Robustheit von RGB-Kamera-gestützten Tracking-Systemen durch Umgebungsfaktoren wie schwankende Lichtverhältnisse und überladene Hintergründe stark beeinträchtigt. 3D-Kameras Schaffen dem weitestgehend Abhilfe. Im Folgenden wird dies am Beispiel des Tracking-Systems der Kinect näher erläutert. Die Kinect wurde Anfang November 2010 von Microsoft als Eingabegerät zu Steuerung der Videospielkonsole Xbox 360 mittels Ganzkörperbewegungen, Gesten und Sprache auf den Endverbrauchermarkt gebracht. Sie ist eine Entwicklung von Microsoft und PrimeSense, und wurde bereits am ersten Juni 2009 unter ihrem Arbeitstitel „Project Natal“ auf einer Spielemesse in Los Angeles vorgestellt. Der vereinfachte Zugang zu natürlichen Eingabemethoden und der, im Verhältnis zu 3D-Kamerasystemen, niedrige Preis von 150 US-$ bei Verkaufsstart rückten die Kinect umgehend in das Interesse vieler Forscher (zum Beispiel im Feld der Robotik oder des Interaktionsdesigns), Programmierer und Künstler, weltweit. Nur wenige Tage nach der Veröffentlichung wurden inoffiziell im Internet Gerätetreiber bereitgestellt, mit Hilfe derer die Nutzung der Kinect in einem Xbox-fremden Kontext, mittels Computern, möglich wurde. [Kar 2011], [Wikipedia: Kinect] „Kinect is making nothing which wasn't already technically possible, possible. It is just making it accessible, not just in terms of price, but also in terms of simplicity and ease.‚ [Akten 2010] Der nächste Abschnitt stellt die Gerätekomponenten der Kinect vor und erläutert das Vorgehen beim Tracking und bei der Gestenerkennung. 15 von 79 Kapitel 2: Grundlagen In der Kinect kommen mehrere Abbildung 2.6: Komponenten wie folgt zum Ein- Die Abbildung stellt das satz: Eine RGB-Kamera liefert das Eingabegeräte Kinect Videobild. Ein 3D-Kamerasystem, dar und bezeichnet die dessen Komponenten. bestehend aus einer Infrarot-Lampe, dem Sender, und einem Tiefensensor, dem Empfänger, bildet das optische Motion-Tracking-System. Vier Mikrofone können die Stimmen der Nutzer aufnehmen, und Umgebungsgeräusche ausblenden. Ein Motor kann das Gerät um +/- 27 Grad nach oben und unten schwenken. Eine interne Software bereitet die Daten zur Weiterverarbeitung auf. Das Trackingsystem arbeitet mit Abbildung 2.7: Laufzeitmessung und Triangulierung. Zur Ermittlung der Tiefeninformationen wirft die Infrarot-Lampe ein definiertes Punktmuster auf die Umgebung [siehe Abb. 2.7] und misst mittels des Laufzeitverfahrens [siehe Abschnitt 2.3.1, DOF-Kamera] die Distanzen zu Menschen und Objekten. Zudem wird ein Gitter in die Szene projiziert, um über ein Triangulierungsverfahren dessen Deformationsinformationen zu erhalten. Das Bild, aufgenommen durch ein Nachsichtgerät, zeigt die Reflexion der von der IR-Lampe ausgesendeten Lichtpunkte. Abbildung 2.8: Das Bild stellt die aufgenommenen Tiefendaten einer Szene dar. Für den Bereich Gestenerkennung Abbildung 2.9: gilt: es gibt keine eindeutigen Zustände, sondern nur Wahrscheinlichkeiten, mittels derer die Software Entscheidungen zur Handlungsabsicht des Nutzers trifft. Ist eine bestimmte Mindestwahrscheinlichkeit erreicht, wird die Nutzerbewegung akzeptiert und interpretiert, um dann die Aktion auszulösen. Die Abbildung 2.9 zeigt das sogenannte StickFigure-Modell (Deutsch: Stabmodell). Es wird als Vektorskelett mit zwanzig Die Abbildung zeigt das Stick-Figure-Modell des Kinect-SDKs, bestehend aus einem Vektorskelett mit 20 Knotenpunkten. 16 von 79 Kapitel 2: Grundlagen (im Kinect-SDK: 20, in der NITE-Middleware von PrimeSense: 15) Gelenkpunkten über die gefilmten Personen gelegt, nachdem diese erfolgreich die „Psi-Pose“ zur Kalibrierung ausgeführt haben. Die Skelettdaten bilden die Grundlage für differenzierbare Bewegungsverfolgung und Gestenerkennung. Das Kinect-SDK kann bis zu zwei Nutzer gleichzeitig verfolgen. Für eine optimale Erkennung sollten diese sich innerhalb eines Abstandes von 1,20 Metern bis 3,50 Metern positionieren. [Gieselmann 2011], [Kar 2011] Über das Stick-Figure-Modell lassen sich die Bewegungen des Nutzers den Körperteilen zuordnen und individuell verfolgen. Um ihm nun ganzkörperliche Eingabemethoden zu ermöglichen, kann die Middleware FAAST7 eingesetzt werden. FAAST emuliert Tastatur- und Mauseingaben, die dann als Eingabe für laufende Applikationen dienen. In der gegenwärtigen Version 0.08 können vierunddreißig verschiedene Skelettaktionen des Nutzers differenziert werden. Dies sind zum Beispiel oder . Die Zuweisung der ausgeführten Stellungen und Bewegungen zu TastaturEingabeereignissen wird in einer Konfigurationsdatei festgelegt. Die Befehle haben folgende Syntax: bezeichnet die ausgeführte Pose oder gestenartigen Bewegung, welche dann die Aktion auslösen soll. legt eine, auf die jeweilige Aktion bezogene, Mindestgrenze für die Aktivierung fest. Entfernungen werden in Zoll gemessen, Winkel in Grad angegeben. legt den virtuellen Ereignistyp fest. bezeichnet das konkrete zu emulierende Ereignis. Möchte man beispielsweise festlegen, dass der linke Arm, ab einer erreichten Distanz zur Schulter von 16 Zoll (40,64 cm) in Richtung der Kamera, einen Klick der linken Maustaste auslöst, formuliert man den Befehl: [Tajeddini 2011], [FAAST, URL: http://projects.ict.usc.edu/mxr/faast] 7 Das Flexible Action Articulated Skeletonic Toolkit (FAAST) wurde vom kalifornischen Institute for Creative Technologies entwickelt bietet eine schnelle und einfache Lösung, um ganzkörperliche Aktionen in für den Computer verständliche Kommandos zu übersetzen. [URL:http://projects.ict.usc.edu/mxr/faast] 17 von 79 Kapitel 2: Grundlagen 2.3.3 Protokolle für den Austausch von Toninformationen Die Kommunikation zwischen zwei aktiven Anwendungen auf einem Computer wird durch Protokolle ermöglicht. Der folgende Abschnitt stellt die beiden Protokolle für den Austausch von musikbezogenen Daten vor. Das Akronym MIDI („Musical Instrument Digital Interface“) beschreibt eine digitale Schnittstelle für Musikinstrumente. MIDI ist ein 1983 geschaffener, internationaler Standard für den Austausch digitaler (Musik-) Daten zwischen Computern und elektronischen Musikinstrumenten wie zum Beispiel Synthesizern oder Midi-Keyboards. Das MIDI-Protokoll gibt die Codierung der MIDI-Nachrichten vor. Es lassen sich Datenpakete zur Steuerung des Zielgeräts senden, und musikalische Befehle, wie zum Beispiel ‚Note-on‘ (Bedeutung: „Note x wird aktiviert“) oder ‚Velocity‘ (Bedeutung: „Anschlagstärke“). [Wikipedia: MIDI] Die MIDI-Notennummern 21 bis 108 adressieren 88 Noten, was dem Tastenumfang eines klassischen Klaviers gleichkommt. Es gibt 16 MIDI-Kanäle, über die parallel Nachrichten gesendet werden können. Das MIDI-Protokoll wurde ursprünglich zur gegenseitigen Steuerung von elektronischen Musikinstrumenten geschaffen. Führt nun kein MIDI-Kabel zur externen Hardware, sondern sollen Programme untereinander Informationen austauschen, muss zuerst ein virtuelles MIDIKabel erzeugt werden. Dafür gibt es kleine Hilfsprogramme, wie zum Beispiel MIDI Yoke [URL: http://www.midiox. com] oder loopMIDI [URL: http://www.tobias-erichsen.de/loopMIDI.html]. Die Software MIDI-OX [URL: http://www.midiox.com] dient der Überwachung aller MIDI-Aktivitäten auf dem System und ermöglicht das Verbinden von Anwendungen mittels der virtuellen MIDI-Kabel. Das „Open Sound Control“ - Protokoll (Akronym: OSC) kann als eine Weiterentwicklung des MIDI-Protokolls betrachtet werden. Es wurde 1997 am CNMAT8 entwickelt und ermöglicht die nachrichtenbasierte Kommunikation zwischen Programmen auf einem oder mehreren Computern, elektronischen Musikinstrumenten und anderen Geräten. Es wird hauptsächlich für die Echtzeitverarbeitung von Toninformationen in Netzwerken oder Medieninstallationen verwendet. Der Transport der Befehle erfolgt meist über das Netzwerkprotokoll UDP, jedoch nicht zwingend, da OSC unabhängig vom Transportprotokoll ist. Weil es die moderne Netzwerkstruktur nutzt, können Informationen nicht nur lokal, sondern auch global versendet werden. Im Gegensatz zu MIDI erlaubt OSC eine freie Adressierung und bietet eine höhere Auflösung. [Uni Weimar: OSC], [URL: http://opensoundcontrol.org], [Wikipedia: OSC] 8 CNMAT („Center for New Music & Audio Technologie“) ist der Fachbereich für Neue Musik und Tontechnik der UC („University of California“) Berkelay. 18 von 79 Kapitel 2: Grundlagen Nennenswerte Protokolle zum Austausch nicht-musikbezogener Daten, die in interaktiven Medienumgebungen Anwendung finden, sind TUIO [URL: http:// www.tuio.org] für die Übermittlung von Ereignissen auf tangiblen Multitouch-Oberflächen, und DMX [http://www.dmxcontrol.de] zur Übertragung von lichttechnik-bezogenen Steuersignalen. 2.3.4 Programmierumgebungen Für die Realisierung von interaktiven Medieninstallationen benötigt man eine Entwicklungsumgebung, welche mit verschiedenen EingabeTechnologien (physisch oder interaktiv) umgehen kann, des Weiteren Bildund Tonmaterial generieren und verarbeiten kann, und mehrere Möglichkeiten der Datenausgabe unterstützt. Es bedarf demnach eines flexiblen, umfangreichen ‚Werkzeugkastens‘, welcher die gesamte Datenverarbeitung in Echtzeit bewältigen kann. Die vielfältigen Anforderungen schränken die Auswahl an Programmierumgebungen deutlich ein. Im Folgenden werden die bekanntesten vorgestellt, beginnend mit den textbasierten Programmierumgebungen openFrameworks und Processing, gefolgt von den grafischen Patch-Umgebungen Max und PureData, und endend mit der hybriden Umgebung vvvv. Dabei fällt die Einführung in vvvv umfassender aus, was sich darin begründet, dass vvvv als Entwicklungsumgebung für AMVIS gewählt wurde. Tabelle 2.1: x - x - x x x x x x - x x x x x x x x x x - x x x x - Kreatives Programmieren unter Verwendung diverser Bibliotheken Generatives Gestalten (z.B.: Datenvisualisierung); Programmierung von Grafik, Animation und Interaktion AudioProgrammierung und Verarbeitung AudioProgrammierung EchtzeitVideoSynthese; Schnittstelle zu diversen physischen Ein- & Ausgabegeräten 19 von 79 Die Tabelle unterstützt die Differenzierung der in diesem Abschnitt vorgestellten fünf Programmierumgebungen durch Gegenüberstellung ausgewählter Eigenschaften. Kapitel 2: Grundlagen openFrameworks (oF) basiert auf der mächtigen, flexiblen Programmiersprache C++ und ermöglicht kreatives Programmieren. Es ist geeignet für Gestalter und Künstler im Bereich interaktiver Medien. openFrameworks stellt, wie der Name bereits vermuten lässt, Gerüste (Engl.: „framework“) in Form von Bibliotheken bereit, unter Verwendung derer sich eigene spezifizierte C++ Programme schreiben lassen. oF wurde von Zach Lieberman, Theo Watson, Aturo Castro und Weiteren an der ‚Parsons School of Design‘, dem ‚MediaLabPrado‘ und dem ‚Hangar Center for the Arts‘ entwickelt. Processing ist eine javabasierte Scriptsprache und Umgebung für generatives Programmieren. Es wurde 2001 von Ben Fry und Casey Reas insbesondere für Studenten, Künstler und Gestalter entwickelt, da der simple Aufbau eines Processing-Programmes, genannt Sketch (Deutsch: Skizze), das Kennenlernen der Grundstrukturen des Programmierens ermöglicht. Jeder Processing-Sketch integriert die beiden Systemfunktionen setup( ) zur Initialisierung und draw( ) für die wiederholte Ausführung des Codes. In Abbildung 2.10 ist solch ein Processing-Sketch dargestellt. Man sieht den Quellcode und die Ausgabe eines Programms zur generativen Erzeugung von Kreisen mittels Rekursion [siehe Abschnitt 2.4.2]. Abbildung 2.10: Die Abbildung zeigt Quellcode und grafische Ausgabe eines Processing-Sketches zur Rekursion, und liefert ein Beispiel für textbasiertes Programmieren generativer Grafiken. 20 von 79 Kapitel 2: Grundlagen Die Umgebungen PureData, Max und vvvv sind modular aufgebaut und bieten eine grafische Programmierschnittstelle. So lassen sich Anwendungen programmieren, ohne dass Code explizit geschrieben wird. Anstelle dessen werden Objekte in einem Patch platziert und miteinander verbunden. Ein Patch bezeichnet ein mit der jeweiligen Umgebung erstelltes Programm. Er besteht aus Objekten und den Verbindungen zwischen ihnen. Jeder Patch kann als Subpatch wieder Objekt eines anderen Patches sein. So lassen sich aus wenigen simplen Patches diverse komplexere zusammengesetzen. Max ist eine patchbasierte Programmierumgebung für die Entwicklung von Echtzeit-Multimedia-Anwendungen, mit starkem Fokus auf Audio-Programmierung. 1986 begann Miller Puckette mit der Entwicklung am IRCAM9 in Paris. Anfangs war Max ausschließlich für den Macintosh als neuartiges Werkzeug für Computer-Musiker konzipiert. Mittlerweile ist es auch für Windows-Systeme erhältlich. Es wird von dem kalifornischen Unternehmen Cycling‘74 weiterentwickelt und kommerziell vertrieben, im Gesamtpaket mit MSP (zur Audio-Verarbeitung) und Jitter (zur EchtzeitVideoverarbeitung). Max wird häufig für Klanginstallationen und Live Performances verschiedenster Art eingesetzt. PureData (PD) wurde 1990, ebenfalls von Miller Puckette, für die Erzeugung interaktiver Computermusik entwickelt. Es ist dem ursprünglichen Max bezüglich der Kernkonzepte sehr ähnlich, sollte jedoch auch Zugang zu weiterennicht-musikbezogenen Bereichen schaffen. So ist PD nun eine patchbasierte Programmierumgebung für Audio-, Video- und Grafikverarbeitung in Echtzeit. Im Gegensatz zu Max ist PD als openSource Software frei nutzbar. [Noble 2009], [URL: http://processing.org], [URL: www.openframeworks.cc], [http://cycling74.com], [http://puredata.info] vvvv ist eine hybride Programmierumgebung. Hybrid meint, dass die Programmierung sowohl grafisch als auch textbasiert erfolgen kann. Ausgewählte Stärken von vvvv sind die Datenverarbeitung in Echtzeit, das Bereitstellen diverser Ein- und Ausgabemöglichkeiten, die Integration von DirectX für multimediaintensive Anwendungen, der Umgang mit verschiedensten Datentypen wie zum Beispiel ‚Values‘, ‚Strings‘, ‚Textures‘ oder ‚Meshes‘, die Manipulation von Objekten im zwei- und dreidimensionalen Raum, die Analyse von Audiosignalen, die Bereitstellung von Animationswerkzeugen und die eingebaute Client-Server-Architektur, welche die Kontrolle über mehrere Render-Computer von einem oder mehreren Servern aus ermöglicht. [vvvv 2011], [http://vvvv.org] 9 IRCAM ("Institut de Recherche et de Coordination Acoustique/Musique") ist ein Institut in Paris, das sich mit Musikwissenschaft und elektroakustischer Musik beschäftigt. 21 von 79 Kapitel 2: Grundlagen „vvvv ist ein Toolkit für die Echtzeit-Video-Synthese. Es ist entworfen worden, um das Handling von großen Medien-Umgebungen mit physischen Schnittstellen, die mit mehreren Benutzern gleichzeitig interagieren können, von in Echtzeit animierten Grafiken, Audio, Licht und Video, zu erleichtern.‚ [MESO10] Abbildung 2.11: Die Abbildung veranschaulicht das vvvv immanente EVA – Grundprinzip am Beispiel eines simplen Patches: Hier werden die zwei Eingabewerte 3 und 14 im AdditionsNode verarbeitet. Die Summe 17 wird anschließend von einem Wert in eine Zeichenkette umgewandelt, damit sie als Eingabe für den Text-Node taugt, da dessen Ausgabe vom RendererNode grafisch dargestellt werden kann. Die Abbildung 2.4 veranschaulicht das vvvv immanente EingabeVerarbeitung-Ausgabe – Prinzip und zeigt oben links einen einfachen Patch zur Addition zweier Werte und der grafischen Ausgabe ihrer Summe. Objekte wie ‚AsString‘ und ‚+‘ werden als Nodes bezeichnet, das Objekt mit dem Wert ‚3‘ ist eine Eingabebox. Ein Node hat im oberen Bereich seine Eingänge, sogenannte Input-Pins, die je nach Funktion des Nodes verschiedene Datentypen verlangen. Unten am Node befinden sich die Output-Pins mit den Ausgabedaten, welche über Verbindungen (Engl.: „Links“) wieder als Input an weitere Nodes geleitet werden können. Dieser modulare Aufbau ermöglicht das Erstellen mächtiger Funktionalitäten 10 Die MESO Digital Interiors GmbH ist ein in Frankfurt/Main ansässiges Unternehmen, das 1997 von vier Designern und einem Informatiker gegründet wurde. Im Juli 1998 begannen sie mit der Entwicklung von vvvv. Anfangs wurde die Software ausschließlich intern eingesetzt. Seit Dezember 2002 ist vvvv öffentlich und im nicht-kommerziellen Bereich frei nutzbar. [URL: http://www.meso.net] 22 von 79 EVA: Gespeicherte feste Werte (im Bsp. Input 1) oder an den Input-Pins ankommende Daten (im Bsp. Input 2) werden im Node verarbeitet und von den Output-Pins aus über Links weiterversendet. Kapitel 2: Grundlagen durch Verknüpfen mehrerer ‚Bausteine‘, die für sich betrachtet nur elementare Aufgaben erfüllen. Im Gegensatz zu Entwicklungsumgebungen wie Processing wird der Code in vvvv permanent in Grafik übersetzt, anstatt erst kompiliert und im Anschluss ausgeführt zu werden. Jede Veränderung im Patch bewirkt eine sofortige Änderung im Verhalten des mit vvvv erstellten Programms. 23 von 79 Kapitel 2: Grundlagen 2.4 Generative Gestaltung Im vorangehenden Abschnitt zu Programmierumgebungen wird bei Processing, openFrameworks und vvvv deren unterstützendes Potenzial bei der Erzeugung generativer Grafiken betont. Es soll nun geklärt und an Beispielen veranschaulicht werden, was dies meint. Dabei erfolgt zunächst die Auseinandersetzung mit Generativer Kunst und Generativer Bildgestaltung. Hierfür werden insbesondere die Erläuterungen von PHILIP GALANTER 11 [Galanter 2003, 2004], dessen komplexitätstheoretisch geprägte Definition zu Generativer Kunst häufig zitiert wird, und HARTMUT BOHNACKER, BENEDIKT GROß und JULIA LAUB [Bohnacker 2009, 2010], deren international geschätztes Gesamtwerk (2009 veröffentlichtes Buch 12 , diverse Programmierbeispiele, Website, Lehre) einen umfassenden Überblick zur Erzeugung von Bildern mittels Code gibt, herangezogen. 2.4.1 Generative Kunst ‚Generative is as old as art itself. […] It refers to any art practice where the artist uses a system, such as a set of natural language rules, a computer program, a machine, or other procedural invention, which is set into motion with some degree of autonomy contributing to or resulting in a completed work of art.‛ [Galanter 2003] Generative Kunst (Engl.: „Generative Art“) ist so alt, wie die Kunst selbst. Sie ist tief verwurzelt im menschlichen künstlerischen Schaffen und erscheint zum Beispiel da, wo durch iterative Anwendung von Symmetrie und Geometrie generative Formen entstehen. [siehe Abb. 2.12] Generative Kunst ist entkoppelt von Technologien zu betrachten. Abbildung 2.12: Die Abbildung zeigt ein Beispiel für nichtdigitale, visuelle Generative Kunst. Zu sehen ist ein Fußbodenmosaik des Markusdoms in Venedig, das zwischen 1204 und 1450 von mehreren Künstlergenerationen geschaffen wurde. 11 Philip Galanter beschäftigt sich seit seinem Studienbeginn 1971 mit den verschiedensten Ausprägungen Generativer Kunst, auch wenn er es damals noch nicht so definierte. Er ist Professor für ‚Generative Art‘ und ‚Physical Computing‘ an der A&M Universität in Texas. Weitere Forschungsinteressen Galanters liegen im Bereich Klangkunst, Musik und Komplexitätstheorie. 12 Das Buch „Generative Gestaltung“ vermittelt Grundlagen zum Entwickeln komplexer Visualisierungsstrategien und verdeutlicht den veränderten Gestaltungsprozess, welcher zu einem Paradigmenwechsel im Design führt. Es stellt Arbeiten verschiedener Medienkünstler, Architekten und Gestalter vor, und ist überblickgebendes Werk und Inspirationsquelle zugleich. 24 von 79 Kapitel 2: Grundlagen Sie ist eine Form künstlerischen Schaffens, jedoch keine abstrakte Kunstrichtung. Ihr Kern sind wohldefinierte, abgeschlossene Systeme, welche sich auf Theorien verschiedener Wissenschaften, wie zum Beispiel jene der theoretischen Informatik oder Physik, stützen können. System meint vom Künstler aufgestellte Regelwerke. Solche Systeme können geordnet oder zufällig sein und unterschiedliche Komplexitätsgrade aufweisen. Wichtig ist die definierte Beziehung zwischen Ursache und Wirkung. Das Ergebnis ist oft nicht vorhersagbar. Die indirekte Produktionsmethode definiert das Werk, und nicht etwa die Frage nach dessen Aussageabsicht. Generative Kunst ist als die in gewissem Umfang autonome Abarbeitung einer prozeduralen Erfindung zu verstehen. Ein Computer ermöglicht die effiziente Abarbeitung, ist jedoch keine Bedingung. Deshalb sollte Generative Kunst nicht fälschlicherweise als Computerkunst definiert werden. „Generative Art preceded computer art. […] New forms of generative art will come after the computer as well.‚ [Galanter 2003] Die visuellen oder hörbaren Endprodukte zeitgenössischer Generativer Kunst sind in diversen Bereichen anzusiedeln, wie zum Beispiel Computergrafik, Videokunst, Elektronische Musik, Architektur oder Informationsgestaltung. Musikerzeugende Generative Kunst beschreibt zufällige Klangkompositionen, die durch ein System generiert werden und permanenten Änderungen unterliegen. Ein frühes Beispiel liefert WOLFGANG AMADEUS MOZARTs ‚Musikalisches Würfelspiel‘ (veröffentlicht um 1793, nach seinem Tod) zur Komposition vieler Variationen eines Walzers, das Inspiration weiterer musikbezogener generativer Systeme ist. Mozart komponierte eine Grundmelodie mit hundertsechsundsiebzig (176) Takten, aus denen der Spieler unter Zuhilfenahme zweier Würfel und einer Zuweisungstabelle, der Reihe nach, sechzehn (16) Takte selektiert. Der Einsatz von zwei Würfeln, deren Augenzahlen summiert werden, dient dem zufälligen Generieren von elf (11) möglichen Ereignissen mit der Ergebnismenge: Dies führt zu einer Anzahl von möglichen Taktvariationen der Grundkomposition. Man bezeichnet das Hervorbringen künstlerischer Strukturen mittels kombinatorischer Zufallsoperationen als Aleatorik 13 . [Ihmels 2004], [Geyer 2010], [Würfelspiel] 13 Aleatorik (Lat.: „Würfel“) beschreibt eine Erscheinungsform des musikalischen, künstlerischen oder literarischen Werkes. Dieses wird unter Zuhilfenahme des ‚gelenkten Zufalls‘ gestaltet. 25 von 79 Kapitel 2: Grundlagen Abbildung 2.13 veranschaulicht das Funktionsprinzip eines Musikalischen Würfelspiels. [Es sei darauf hingewiesen, dass musiktheoretische Grundlagen umfassend in Kapitel 3.4: ‚Musikalische Grammatik‘ behandelt werden.] Abbildung 2.13: MOZARTs musikalisches Würfelspiel dient IHMELS14 [Ihmels 2004] als Abstraktionsgrundlage zur Beschreibung der Methodik Generativer Kunst: „Die konsequente Anwendung eines vordefinierten Handlungsprinzips zum bewussten Ausschluss oder als Ersatz individueller ästhetischer Entscheidungen setzt die Generierung neuer gestalterischer Inhalte aus dafür bereitgestelltem Material in Gang.‚ Des Weiteren formuliert er, als Resultat der intensiven Auseinandersetzung mit verschiedenen Künstlern und deren Werken, der aktuelle Anspruch an Generative Kunst sei: „eine sich ständig weiterentwickelnde Form zu schaffen; eine Form, die ihr eigenes Entwicklungspotential prozessual ausschöpft.‚ 14 TJARK IHMELS und JULIA RIEDEL setzen sich in ihrem Artikel „Die Methodik der generativen Kunst“ ausführlich mit dem Thema auseinander und analysieren Beispielwerke verschiedener Jahrzehnte. Ihmels erhielt im Jahr 2000 die Professur für „Interaktive Medien“ an der Fachhochschule Mainz, und leitet seit 2001 das Institut für Mediengestaltung. Riedel ist seit 1998 wissenschaftliche Mitarbeiterin an diesem Institut. 26 von 79 In der Abbildung wird die Erzeugung eines periodisch ablaufenden Musikstücks, eines Walzers (3/4 Takt), dargestellt. Ausgangspunkt sind eine Grundkomposition mit genügend vielen Takten, zwei Würfel, die als Zufallsgenerator dienen, und eine Zuweisungstabelle. Im Beispiel wurde der erste Takt der generierten Melodie bereits mit einer ‚2‘ erwürfelt. Für den zweiten Takt liefern die Würfel die Summe ‚5‘. Diese dient nun als Zeilenindex für die Tabelle welche dem neuen zweiten Takt den zugrundeliegenden dritten Takt zuweist. Mit diesem System lassen sich aus einer Grundkomposition viele (genau: 214.358.881 - 1) Variationen generieren. Kapitel 2: Grundlagen 2.4.2 Generatives Gestalten Generatives Gestalten beschreibt die prozessorientierte Entwurfsmethode welche, ästhetisch bewertet, zu Generativer Kunst führt. Der folgende Abschnitt beschäftigt sich mit der Charakterisierung Generativer Gestaltung und beschreibt einige ausgewählte Prinzipien zur Aufstellung von regelbasierten Systemen, im Kontext bilderzeugender, computergenerierter Gestaltung. Digitales Gestalten mit dem Computer kann auf zwei Weisen erfolgen. Weit verbreitet ist das sogenannte computergestützte Gestalten. Als typisches Beispiel sei digitales Zeichnen in einem vektorbasierten Grafikprogramm angeführt. Für die Software wurden aus der realen Welt bekannte Werkzeuge wie zum Beispiel Pinsel oder Schablone virtualisiert und teilweise um Funktionalitäten erweitert. Dies erleichtert den Arbeitsprozess der Umsetzung und führt meist schneller zu qualitativ hochwertigen Ergebnissen. Laut BOHNACKER [Bohnacker 2004] repräsentiert computergestütztes Gestalten zwar einen gewissen Fortschritt, zu einer Innovation im Erfassen des Potenzials der ‚Universalmaschine‘ führt jedoch nur computergeneriertes Gestalten. Generatives Gestalten reflektiert die Wechselwirkungen zwischen Mensch und Computer in neuartiger Form. Ästhetik und Algorithmen greifen ineinander. Die Erzeugung von Bildinhalten wird in gewissem Umfang an den Computer übergeben, der Mensch behält jedoch immer die Kontrolle. Die Methode Generative Gestaltung erweitert den Möglichkeitsraum eines Gestalters. Neues Entwurfsmedium ist der Programmcode. BOHNACKER formuliert zur Untermauerung dessen drei charakteristische Eigenschaften: Emergenz meint die Gestaltung von Komplexität aus einfachen Mitteln, was teilweise zu einer spontanen Herausbildung neuer Eigenschaften führt. Das Zusammenwirken einzelner Komponenten kann ein komplexes System hervorbringen, dessen Ergebnisse bei zuvor losgelöster Betrachtung der Komponentenfunktionen nicht zu erwarten waren. Simulation bezieht sich auf die Nachahmung von realen Abläufen. Für das Aufstellen der Regelwerke werden Prozesse, Bedingungen und Eigenschaften aus anderen Zusammenhängen simuliert. Diese Regelwerke enthalten zum Beispiel genetische Algorithmen für Evolutionsprozesse, oder definieren das Verhalten von Objekten unter Einwirkung physikalischer Kräfte wie Abstoßung oder Gravitation. Werkzeug beschreibt die eigentliche Innovation, denn der Gestalter selbst wird ermächtigt, seine individuellen Werkzeuge zu programmieren. Er ist nun nicht mehr auf den fest definierten Möglichkeitsraum von GestaltungsSoftware beschränkt. 27 von 79 Kapitel 2: Grundlagen Der Kern Generativer Gestaltung und zugleich Hauptunterschied gegenüber klassischem, computergestützten Vorgehen liegt im veränderten Entwurfsprozess [siehe Abb. 2.14]. Vom Gestalter wird Abstraktion verlangt, welche zudem in Regeln formuliert und in Programmcode niedergeschrieben werden muss. Die zugrundeliegende Gestaltungsidee wird demnach indirekt umgesetzt. Abbildung 2.14: Die Abbildung zeigt BOHNACKERs Schema zum Entwurfsprozess für Generatives Gestalten. Würden Regelformulierung und Programmierung entfallen, entspräche das dem traditionellen Gestalten, wo eine Idee unter Zuhilfenahme von Zeichenwerkzeugen, digitaler oder physischer Natur, im Bild umgesetzt wird. Die visuellen Ergebnisse Generativer Gestaltung sind das Resultat einer anfänglichen Gestaltungsabsicht und der jeweils herrschenden Bedingungen. Solange der Algorithmus läuft befinden sich die über Parameter gesteuerten Elemente wie zum Beispiel Linien, Formen, Farben oder Typografie in ständiger Bewegung und Weiterentwicklung. Erweitert man die sichtbare Ausgabe um die Dimension Zeit, lassen sich die Auswirkungen von Parameteränderungen direkt mitverfolgen. Es entsteht eine Animation. Durch Simulation von physikalischen Kräften, Schwarmverhalten, oder Wachstums- und Wucherungsprozessen, wirken die animierten Bewegungspfade der künstlich geschaffenen Objekte natürlich und man ist geneigt, dem digitalen Etwas einen gewissen Eigensinn zuzusprechen. Trotz des, oder vielmehr insbesondere wegen des autonom agierenden Systems benötigt ein generiertes Endprodukt die Bewertung des Gestalters. Durch Veränderung des Regelwerks oder Modifikation einzelner Parameter, wie zum Beispiel Farbe und Größe, fächert sich eine Varianz neuer Visualitäten auf. Abstraktion und Bewertung im Entwurfsprozess kristal- 28 von 79 Kapitel 2: Grundlagen lisiert BOHNACKER als die zwei wichtigsten benötigten Kompetenzen eines Gestalters in diesem Feld heraus. Generative Gestaltung ist als inspirierende Technik zu verstehen, die, teils gezielt ergebnisorientiert und teils experimentell angewendet, neue Bildwelten zu erschließen vermag. Besonders im Bereich der Datenvisualisierung wird, neben vielen weiteren, davon Gebrauch gemacht. Im Folgenden werden exemplarisch einige Prinzipien vorgestellt, die häufig in Algorithmen Anwendung finden. Rekursion beschreibt die Definition einer Funktion durch sich selbst. [siehe auch Abb.2.10] So können beispielsweise verästelte Strukturen erzeugt werden. Sukzessive entsteht eine immer feiner definierte Struktur. Um die Regelmäßigkeit einer rekursiven Darstellung aufzulösen, könnten Parameter mit Zufallswerten beeinflusst werden. Abbildung 2.15: Zu sehen ist eine generierte Grafik aus dem Projekt „Spinal Network“ von Digitalkünstler und Interaktionsdesigner ANTHONY MATTOX. Viele Techniken generativer Gestaltung, wie zum Beispiel Zufall, Wiederholung und Iteration kommen hier zum Einsatz. „Spinal Network“ ist ein Processing-Programm, das auf einem Partikelsystem basiert. Gegenseitige Abstoßung der einzelnen Partikel und geordnet zufälliger Wind versetzen das System in Bewegung. Sind zwei Partikel nah beieinander, wird eine Verbindungslinie erzeugt. Die verdrehten Bänder erinnern an DNA-Stränge oder andere biologische Phänomene. Wiederholung meint die Vervielfältigung eines Moduls nach vorgegebenem Muster. [siehe auch Abb.2.18] Dabei müssen nicht alle Objekte genaue Duplikate des ursprünglichen sein. Auch hier lassen sich andere Regeln einmischen. Außerdem kann die sukzessive Zunahme der Veränderung einzelner Parameter wie zum Beispiel xyz-Positionierung, Größe oder Farbe definiert werden. Iteration beschreibt Programmierschleifen. Die wiederholte Ausführung einer Funktion, deren neue Eingabewerte die Ergebnisse der zuvor ausgeführten Funktion sind, kann aus relativ einfachen Formeln komplexe Gebilde erzeugen. 29 von 79 Kapitel 2: Grundlagen Zufall ist ein wichtiges Prinzip, um Regelmäßigkeit aufzubrechen und scheinbar Unvorhersehbares einfließen zu lassen. Wird beispielsweise der Bewegungspfad von Objekten zufällig animiert, so fördert die unerwartete Richtungsänderung das Empfinden einer gewissen Natürlichkeit, im Sinne von: ‚der Natur entsprungen anstatt computergeneriert‘. Um diesen Eindruck zu bestärken können weitere, differente Zufallsgeneratoren hinzugefügt, andere Regeln eingemischt und Teilmengen mit unterschiedlichen Parametern abgespalten werden, denn der Ergebnisraum eines Zufallsgenerators allein weist schlussendlich durch die konsequente Zufälligkeit wieder eine hohe Gleichförmigkeit auf. Als Zufallsgenerator bezeichnet man einen Algorithmus, der das Erzeugen zufälliger Zahlenwerte ermöglicht. Prinzipiell lassen sich die beiden Zufallsgeneratoren Random (Deutsch: Zufall) und Noise (Deutsch: Rauschen) unterscheiden. Abbildung 2.16: Attraktoren werden eingesetzt, um Abstoßungs- und Anziehungskräfte zu simulieren, ähnlich dem physikalischen Phänomen Magnetismus. So sollen Objekte genau dann besonders stark angezogen oder abgestoßen werden, wenn sie sich in der Nähe des Attraktors befinden. Dazu wird zuerst die Distanz gemessen, welche dann die Intensität der Kraft bestimmt, die schlussendlich auf den Geschwindigkeitsvektor einwirkt. In der Abbildung werden die zufällig erzeugten Werte der random() und noise() Funktionen dargestellt. Man erkennt bei random(), die relativ gleichmäßige Verteilung. Die mit noise() erzeugten Zufallswerte sind nicht völlig zufällig, sondern liegen immer nahe bei ihren Nachbarn. Abbildung 2.17: Die Darstellung ist eine Momentaufnahme der grafischen Ausgabe eines generativ gestalteten, audioreaktiven vvvv Programms, das auf Attraktoren basiert. Video 2.2 Das entsprechende Video kann unter folgender URL abgerufen werden: http://vimeo.com/20258559 30 von 79 Kapitel 2: Grundlagen 2.4.3 Generatives Gestalten mit vvvv Es gibt mittlerweile viele Programme und Skriptsprachen, teils ausgereift, teils experimentell, mithilfe derer Generatives programmiert wird. Zu ihnen zählen die bereits vorgestellten Programmierumgebungen openFrameworks, Processing und vvvv, sowie APPLEs patchbasierter Quartz Composer oder das textbasierte Cinder. Der folgende Abschnitt führt exemplarisch in Generatives Gestalten mit vvvv ein. vvvv stellt diverse Funktionen in Form von Nodes bereit. Der Umfang reicht von elementaren Booleschen Operatoren wie AND und OR, über ein-, zwei- und dreidimensionale Primitive wie Linie, Kreis und Kugel bis hin zu Bildverarbeitungsalgorithmen und dynamischen Systemen. Der Kern Generativer Gestaltung ist das Verwandeln großer Objektmengen in regelbasierte Strukturen. Die Erzeugung dieser Objektmengen kann durch das Prinzip der Wiederholung erfolgen. Die Vervielfältigung von Objekten repräsentiert ein Kernkonzept von vvvv und wird über sogenannte Spreads realisiert. Spreads bilden das Pendant zu Listen in der textbasierten Programmierung. Fast alle Nodes in vvvv können mit solchen Listen umgehen. [Hitthaler 2005] Die Abbildung 2.18 veranschaulicht den Umgang mit Spreads und stellt zwei Ansätze zur deren Erzeugung vor, neben denen weitere existieren [siehe Abb. 2.19]. Im Bild sieht man zwei Patches, die jeweils eine Menge von Rechtecken erzeugen und darstellen. Das eine Objekt Quad existiert in der grafischen Ausgabe drei beziehungsweise vier Mal. Dies erklärt sich wie folgt: Der Transformations-Node ermöglicht unter anderem das Verschieben eines Primitivs im Koordinatensystem. Weil nun der Input-Pin für die Verschiebung entlang der x-Achse eine Liste von Werten anstelle eines einzelnen bekommt, werden weitere Quads erzeugt und an den jeweiligen Koordinaten-Paaren positioniert. Im rechten Patch wird die horizontale Verschiebung um eine vertikale erweitert. Dass die Liste für die y-Translation nur zwei Werte liefert, es aber bereits vier x-Werte gibt, stellt keine Schwierigkeit dar. vvvv wiederholt die Reihe der Listeneinträge, so dass der dritte gleich dem ersten und der vierte gleich dem zweiten Wert ist. Den Quads in diesem Beispiel wurden mittels einer weiteren Liste unterschiedliche Farbtöne direkt zugewiesen. Im linken Patch hingegen wurde von dem LinearSpread-Node Gebrauch gemacht, welcher eine definierte Anzahl von Werten innerhalb eines festzulegenden Intervalls geordnet ausgibt. So verändert sich der Farbton sukzessive. 31 von 79 Kapitel 2: Grundlagen Abbildung 2.18: In der Abbildung wird eine Grundtechnik der Generativen Gestaltung: Wiederholung, und derer Anwendung in vvvv verdeutlicht. Abbildung 2.19: Die Abbildung veranschaulicht Einsatz und Wirkung verschiedener Spread-Nodes (geradlinig, kreisförmig, Gaussverteilt). Abschließend sollen mit Abbildung 2.19 zwei weitere Spread-Nodes vorgestellt werden. Der CircularSpread-Node erzeugt in diesem Patch siebzehn Wertepaare, die gleichmäßig auf einem Kreis verteilt sind. Sie bestimmen die xy-Positionen der Quads. Mittels der durch den GaussianSpread-Node generierten Liste aus Zufallswerten innerhalb eines bestimmten Intervalls werden die Quads skaliert. Der LinearSpread-Node gibt in diesem Beispiel zehn geordnete Werte für die Farbtöne aus. Weil zehn kleiner siebzehn ist, wird die Liste wiederholt, und weil zehn kein ganzzahliger Teiler von siebzehn ist, entsteht ein größerer Sprung in der sukzessiven Farbwertveränderung, zu erkennen rechts im Bild zwischen Gelb und Cyan. 32 von 79 Kapitel 2: Grundlagen Es wird deutlich, dass, obwohl sich der ‚Quellcode‘, sprich die Anzahl verwendeter Nodes und Verbindungen, unwesentlich vergrößert hat, die wenigen Parametermanipulationen bereits eine gesteigerte Vielfalt bewirken. Somit werden, unbeeinflusst durch die Simplizität des gewählten Beispiels, der Entwurfsprozess und das Potenzial Generativer Gestaltung deutlich. 33 von 79 Kapitel 3: Musik Musik ist das "kunsthafte Spiel der Empfindungen des Gehörs" [Immanuel Kant], oder wissenschaftlich formuliert: Musik sind bewusst herbeigeführte, organisierte Schallereignisse. Dem Mythos nach war die Musik ein Geschenk Apollons1 und seiner neun Musen an die Menschen. Musik ist Physik, Philosophie, Mathematik, Physiologie, Anthropologie, Kunst, Kognition, Ästhetik, und so vieles mehr. Diese Arbeit versucht nicht, die Vielschichtigkeit des Begriffs Musik aufzulösen. Vielmehr sollen einige physikalische und theoretische Grundlagen, wissenschaftliche Erkenntnisse und medienphilosophische Betrachtungsweisen vorgestellt werden, die richtungsweisend für den musikalischen Umgang mit AMVIS sind. Außerdem rückt die Beziehung zwischen Musik und Bild erneut ins Untersuchungsfeld, nachdem in Kapitel 2.2 im Kontext Audiovisueller Umgebungen bereits eine erste Annäherung erfolgte. Neben den überblickgebenden Inhalten dieses Kapitels wird in Kapitel Fünf die Auseinandersetzung fortgeführt. 3.1 Einstimmung „In ihrem Kern ist Musik reine Mathematik - berechenbare Luftschwingungen deren Frequenzen sich nach physikalischen Regeln überlagern. Und doch geschieht eine Art Wunder: Mathematik verwandelt sich in Gefühl.“ [Bethge 2003] Musik ist eine Ausdrucksform, die weltweit unmittelbar verstanden, jedoch individuell wahrgenommen und interpretiert wird. Sie ist die einzige Kunstgattung, die ohne Gegenständliches auskommt und dennoch stark emotionale Antworten provozieren kann. Malerei, Dichtung oder Bildhauerei hingegen versuchen, sofern sie nicht abstrakt geprägt sind, die Welt darzustellen, um über die Nähe zur Wirklichkeit den Rezipienten emotional zu erreichen. Diverse wissenschaftliche Befunde verschiedener Forschungsbereiche bestärken die Annahme der tiefen Verankerung der Musik im Wesen des Menschen. So haben zum Beispiel Hirnforscher herausgefunden, dass Melodien und Rhythmen auf genau die Hirnregionen wirken, welche für die Verarbeitung von Trauer, Freude und Sehnsucht zuständig sind. „Musik stimuliert das körpereigene Selbstbelohnungssystem.‚ [Altenmüller, zitiert in Bethge 2003] Andere Versuchsreihen belegen, dass sowohl wenige Monate alte Babys, als auch Erwachsene ohne jegliche 1 Apollon war in der griechischen und römischen Mythologie unter anderem der Gott der Künste, insbesondere der Musik, der Dichtkunst und des Gesangs. [Wikipedia: Apollon] Kapitel 3: Musik musikalische Schulung, höchstempfindlich auf Musik reagieren und sensibilisiert sind auf das Unterscheiden von Harmonien und Disharmonien, oder das Heraushören schiefer Töne. Musik ist seit jeher dem Menschen immanent. Unter anderem wird vermutet, dass Musik einst entstand, um die Gruppe zusammenzuhalten, denn Menschen sind auf soziale Beziehungen angewiesen. Schon die Steinzeitmenschen sammelten sich ums Lagerfeuer und musizierten. Die Sumerer zupften ihre Leiern, und die Ägypter bliesen Trompeten. Das Empfinden von Zusammenklängen und Rhythmen ist kulturell geprägt. Im Laufe der Menschheitsgeschichte haben sich verschiedene Tonsysteme, Rhythmusstrukturen und Spielweisen herausgebildet. Dennoch kann man Musik als universelle Sprache deuten, denn allen Ausprägungen gemeinsamer Grundgehalt sind die Physik des Schalls und die Physiologie des Gehörs. „So wie ein Lichtstrahl die Augen und ein Geräusch die Ohren anspricht, so scheint ein Akkord den Gefühlssinn des Menschen zu reizen – und ebendiese Tatsache ist es, die Forscher immer mehr von der archaischen Kraft der Musik überzeugt.“ [Bethge 2003] Musik wird von jedem individuell wahrgenommen und kann sowohl tiefempfundene Begeisterung als auch Traurigkeitsgefühle auslösen. Manche Musikstücke provozieren sogar körperliche Reaktionen wie Weinen, Gänsehaut oder Herzklopfen. Nach einer Reihe von Probandenbefragungen kristallisierten Wissenschaftler heraus, dass plötzliche Lautstärkewechsel, unerwartete Harmonien oder Melodieverläufe, eine einsetzende Singstimme oder auffällige rhythmische Strukturen solch starke Gefühle wecken können. [Bethge 2003] „Musik bringt nicht nur den Hörnerv, sondern den ganzen Körper zum Schwingen. […] Beim Musikhören wird der Körper Musik und die Musik wird Körper.“ [Flusser 1991] 35 von 79 Abbildung 3.1: Das Bild zeigt „Apollon mit der Leier“. Es ist Fragment eines Wandbildes und befindet sich gegenwärtig im Palatin in Rom. Das Fresko wurde nach griechischem Vorbild von einem Römischen Meister um 50 nach Christus gemalt. Kapitel 3: Musik 3.2 Musikalische Akustik Die Musikalische Akustik (Synonym: Psychoakustik) ist ein interdisziplinäres Forschungsfeld zwischen Musik und Physik, und weiteren Wissenschaften wie zum Beispiel Mathematik, Psychologie und Physiologie. Sie beschäftigt sich mit der Beschreibung des Zusammenhanges zwischen physikalischer Schallerzeugung, dessen Ausbreitung und menschlicher Schallwahrnehmung. Man unterscheidet zwischen Schallereignis, das die objektiv messbaren physikalischen Wechselgrößen des Schalls (zum Beispiel Frequenz, Spektrum) umfasst, und Hörereignis, dem subjektiven Eindruck des Schalls beim Rezipienten, das durch psychoakustische Empfindungsgrößen (zum Beispiel Lautheit, Tonheit) beschrieben wird. Ein Schallereignis ist entweder ein Ton, ein Klang, ein Geräusch oder ein Knall. Im Folgenden werden diese Begriffe näher differenziert. Abbildung 3.2: Die Abbildung stellt die Schwingungen der in der Akustik unterschiedenen vier Schallereignisse dar. Ton und Klang sind periodische Schallschwingungen. Geräusche sind nichtperiodische Schwingungen. Ein Knall ist eine kurz andauernde, stark gedämpfte Schwingung mit großer Amplitude. Schall ist ein physikalischer Schwingungsvorgang. In der Akustik beschreibt der Begriff Schall mechanische Schwingungen im hörbaren Frequenzbereich von 16 Hz bis 20 kHz. Ausgehend von einer Schallquelle breitet er sich wellenförmig aus. Dabei wird Energie übertragen, deren Mittelwert man als Schallintensität definiert. Die Schallwellen versetzen das sie umgebende Medium (Gas, Flüssigkeit oder Festkörper) in Schwingungen. Die Schallausbreitung in der Luft erfolgt durch schnelle Luftdruckschwankungen: Gasmoleküle leiten durch ihre Bewegung einen Druckunterschied weiter und übermitteln so das Signal. Klatscht man beispielsweise in die Hände wird die Luft zwischen den Handflächen verdrängt, was eine kurze lokale Druckänderung zur Folge hat und den Schall erzeugt. Schallwellen benötigen ein Übertragungsmedium aus beweglichen Teilchen und können sich im Gegensatz zu elektromagnetischen Wellen wie zum Beispiel Licht nicht im luftleeren Raum ausbreiten. 36 von 79 Kapitel 3: Musik Schallschwingungen pflanzen sich in einem Medium als Longitudinalwellen fort, deren Ausbreitungsgeschwindigkeit vom jeweiligen Material abhängt. Die Frequenz f [Hz] gibt die Anzahl der Schwingungen einer Schallwelle je Sekunde an und bestimmt die somit Tonhöhe. Hohe Töne haben eine große, tiefe Töne eine niedrige Frequenz. Der Ton a‘ („eingestrichenes a‚), welcher weltweit dem Stimmen von Musikinstrumenten als Referenz dient, ist beispielsweise durch eine Frequenz von 440 Hz festgelegt. Die Amplitude der Frequenz bestimmt die Lautstärke. Besteht ein Audiosignal aus genau einer Frequenz, wird es als reiner Ton, oder Sinuston bezeichnet. Solche Töne können praktisch nur elektronisch erzeugt werden. In der musikalischen Akustik versteht man unter einem Ton eine im Allgemeinen nicht-sinusförmige regelmäßige Schwingung. Diese lässt sich durch Zerlegung in eine Fourier-Reihe als Summe von Sinustönen, sogenannten Teilschwingungen, exakt darstellen. Abbildung 3.3: Die Abbildung zeigt die Frequenz eines Tons als Summe der Frequenzen von Sinustönen. Sobald auch nur eine Teilschwingung kein ganzzahliges Vielfaches der Grundfrequenz ist, wird die Gesamtschwingung nicht mehr periodisch. Dann ist der Schall Geräusch statt Klang. Ein Ton ist die einfachste Form von Klang. Die Überlagerung von Schallwellen unterschiedlicher Frequenz bildet Geräusche oder Klänge. Geräusche entstehen durch mehrere unregelmäßige Schwingungen. Die verschiedenen Frequenzen in Geräuschen stehen in keinem bestimmten Verhältnis zueinander. Dominierende Frequenzen formen den Charakter des Geräusches. Klänge hingegen basieren auf periodischen Schwingungen. Als Klang bezeichnet man das Zusammenwirken der Schwingungen eines Grundtones mit den Schwingungen der Obertöne, deren Frequenz ein ganzzahliges Vielfaches der Grundfrequenz ist. Auch die Verbindung von mehreren gleichzeitig erklingenden Grundtönen mitsamt ihrer Obertöne wird als Klang beschrieben. Die Klangfarbe wird durch das Hervortreten einzelner Obertöne, in Zusammenwirkung mit dem Grundton und gewissen Rauschanteilen, unter Berücksichtigung der Laut- 37 von 79 Kapitel 3: Musik stärke und der zeitlichen Hüllkurve näherungsweise bestimmt. Wegen dieser vielen, teils subjektiv wahrnehmbaren Einflussgrößen lassen sich Klangfarbenunterschiede nur auf multidimensionalen Skalen abbilden. BENEDINI liefert dazu ein Funktionsschema [Benedini 1979], auf das hier jedoch nicht weiter eingegangen wird. Schallereignisse erreichen das Gehör des Rezipienten als Druckschwankungen der Luft. Das auditive System ist verantwortlich für deren Umsetzung in Sinneswahrnehmungen. Man unterteilt es in peripheres und zentrales auditives System. Außenohr, Mittelohr und Innenohr bilden das periphere auditive System. [siehe Abb. 3.4] Abbildung 3.4: Die Zeichnung stellt die anatomischen Strukturen des Außenohrs, Mittelohrs und Innenohrs dar. Schallwellen werden in den zahlreichen Höhlen der Ohrmuschel gesammelt, gelangen durch den äußeren Gehörgang und wirken auf das Trommelfell ein. Von dort aus leitet das Mittelohr den Schall über die Gehörknöchelchen Hammer, Amboß und Steigbügel zum Innenohr, wo sich die Haarzellen, die Sinneszellen des Gehörs, befinden. Diese reagieren auf die mechanischen Reize (Schwingungen) mit dem Aussenden von Nervenimpulsen. Über den Hörnerv, mit dem das zentrale auditive System beginnt, werden diese Impulse an die auditiven Zentren des Gehirns weitergeleitet, dort verarbeitet und interpretiert. [Rossing 2008], [Wikipedia: Psychoakustik], [Jüttemann 2010], [Lärmorama: Akustik], [Hess 2006], [Kauer 2003] 38 von 79 Kapitel 3: Musik 3.3 Klangfarbe und Timbre [Exkurs] Nach gewöhnlichem Sprachgebrauch ist der Begriff Klangfarbe oft gleichbedeutend mit dem Begriff Timbre. Auffällig ist lediglich, dass Timbre meist als Charakteristikum für die Singstimme genannt wird, wohingegen Klangfarbe sich auf Musikinstrumente bezieht. Viele lexikalische und wissenschaftliche Erklärungen, sowie Klangforscher BENEDINI differenzieren hier nicht weiter. Jedoch zeigen einige Theoretiker in ihren Betrachtungen feine Unterschiede auf. Klangfarbe ist maßgeblich geprägt durch die unterschiedliche Intensität der mitschwingenden Obertöne. Je stärker hohe Obertöne beigemischt sind, desto schärfer klingt ein Ton. Timbre ist ein Charakteristikum der auditiven Wahrnehmung, das sich wie folgt beschreiben lässt: ein Zuhörer kann zwei Klänge mit gleicher Lautstärke und gleicher Tonhöhe als ungleich wahrnehmen.[Rossing 2008] Bei Saiteninstrumenten ändert sich das Timbre bereits durch verschiedene Stricharten. Sowohl Instrumente als auch die Gesangsstimme sind mit einem Timbre ausgestattet. Diese erste Beschreibung zum Begriff Timbre kommt der von Klangfarbe gleich. RIEMANN definiert um 1900, dass das Timbre nicht nur von der Zusammensetzung des Klanges aus Obertönen abhängt, sondern auch von der „...durch die Verschiedenartigkeit des resonierenden Materials bedingten Färbung des Klanges.‚ [Jessulat 2005] ROSSING beschreibt Klangfarbe als eine Teilmenge von Timbre und betont, dass für die Ermittlung des Timbres die zeitliche Hüllkurve und insbesondere der Tonanschlag bedeutend seien. JESSULAT zieht wiederum aus RIEMANNs Umgang mit dem Begriff Timbre den Schluss, dass Timbre eine spezielle Ausprägung von Klangfarbe ist. „Zu vage, um für wissenschaftliche Reflektionen tauglich zu sein, scheint der Begriff Timbre ein poetisches Moment zu beinhalten.‚ [Jessulat 2005] Mit der Aussage des Zitats und der Feststellung, dass die feinen Differenzen zwischen Klangfarbe und Timbre nicht klar definiert werden können, soll auch in dieser Arbeit allgemein gültig die Rede von Klangfarbe sein. 39 von 79 Kapitel 3: Musik 3.4 Musikalische Grammatik Dieser Abschnitt führt ein in die für AMVIS relevanten Grundlagen der Musiktheorie und verdeutlicht mathematische Zusammenhänge. Eine definierte Folge von Einzeltönen bezeichnet man als Tonleiter (Synonym: Tonskala). Sie kennt eigentlich nur fließende Übergänge zwischen Schwingungszahlen, wird aber diskretisiert und je nach Kultur unterschiedlich einteilt. Gebräuchlich sind Tonleitern mit fünf (pentatonisch), sieben (heptatonisch) oder zwölf (chromatisch) Tönen, wobei die heptatonischen Dur- und Moll-Tonleitern am häufigsten verwendet werden. Dur und Moll bezeichnen in der Musik das Tongeschlecht. Unterscheidungskriterium ist das Intervall Terz, vom Grundton aufwärts. Abbildung 3.5: Die Abbildung zeigt eine aufsteigende C-DurTonleiter. Es werden die einzelnen Töne bezeichnet, die Abstände der aufeinanderfolgenden Töne benannt, ebenso wie und vorkommende Intervalle. Wäre der Ton ‚e‘ um einen Halbton tiefer, dann wäre das Intervall vom Grundton ‚c‘ aufwärts eine Kleine Terz, und anstelle einer C-Dur wäre es eine C-Moll-Tonleiter. [siehe auch Abb. 3.7] In Klängen mit genau zwei Tönen stehen die beiden Grundfrequenzen in einem bestimmten Verhältnis zueinander. Dieses bezeichnet man als Intervall [siehe Abb. 3.5]. Die beiden Töne einer Oktave klingen besonders ähnlich. Das hat folgende Ursache: Es wurde bereits erklärt, dass die Frequenzen der mitschwingenden Obertöne ganzzahlige Vielfache der Grundfrequenz sind. Hoher und tiefer Oktavton stehen zueinander im Verhältnis 2:1. Demnach kommt der hohe Ton im Oktavintervall sowohl als Grundton als auch als erster Oberton des tiefen Grundtons vor. Das Verhältnis der Frequenzen ist entscheidend für das Klangempfinden. Man unterscheidet hier zwischen konsonant und dissonant. [siehe Tabelle 3.1] Wissenschaftliche Befunde belegen [Bethge 2003], dass dem Menschen die Musikalität bereits im frühen Kindesalter innewohnt, da schon wenige Monate alte Babys konsonante von dissonanter Musik unterscheiden können. [Jüttemann 2010], [Rossing 2008] 40 von 79 Kapitel 3: Musik 0 1 2 3 4 5 6 7 8 9 10 11 12 Prime kleine Sekunde große Sekunde kleine Terz große Terz Quarte Tritonus Quinte kleine Sexte große Sexte kleine Septime große Septime Oktave Konsonanz Dissonanz Dissonanz Konsonanz Konsonanz Konsonanz ‚Teufelsintervall‘ Konsonanz Konsonanz Konsonanz Dissonanz Dissonanz Konsonanz Tabelle 3.1: 1:1 16:15 9:8 6:5 5:4 4:3 3:2 8:5 5:3 9:5 15:8 2:1 Abbildung 3.6 greift die in Abbildung 3.5 vorgestellte C-Dur Tonleiter auf, ergänzt die Halbtonschritte zwischen den Ganztönen, und verdeutlicht die sogenannte Enharmonische Verwechslung: Der Tonumfang im westlichen Tonsystem umfasst innerhalb einer Oktave von ‚c‘ bis ‚h‘ zwölf Töne, deren Tonhöhe sich jeweils um einen Halbton zum nächsten Nachbarn unterscheidet. Auf der Klaviatur unten im Bild wird das deutlich. In der Notenschrift kann man mittels sogenannter Vorzeichen einen Stammton um einen halben Ton erhöhen („Kreuz‚) oder erniedrigen („b‚). Auf einem Klavier, welches gleichstufig gestimmt ist, liegen beispielsweise ‚dis‘ und ‚es‘ auf derselben schwarzen Taste. Die Töne haben zwar andere Namen und werden unterschiedlich notiert [siehe Notenzeile a.) und b.)], aber die gleiche Tonhöhe. Man nennt diese Umdeutung Enharmonische Verwechslung. Bei einer anderen Stimmung, wie zum Bespiel der reinen, liegen ‚dis‘ und ‚es‘ lediglich dicht beieinander. [Wikipedia: Enharmonische Verwechslung] Die Tabelle gibt einen vollständigen Überblick zu Tonintervallen, deren Klangempfindung und dem Frequenzverhältnis. Oktave, Quarte und Quinte benennen die perfekten Intervalle. Man empfindet ihren Klang als besonders harmonisch. Der Tritonus umfasst drei Ganztöne und gilt als besonderes Intervall. Er wurde seit jeher als ein sehr instabiles Intervall angesehen. Abbildung 3.6: Die Abbildung unterstützt das Verständnis für die im westlichen Tonsystem zu unterscheidenden zwölf Halbtöne und veranschaulicht die Verwendung von Vorzeichen („Kreuz, „b“) in der Notenschrift. 41 von 79 Kapitel 3: Musik Abbildung 3.7: Die Abbildung zeigt beispielhaft einige Akkorde, Drei- und Vierklänge, ausgehend vom Grundton ‚c‘. Klänge aus mehr als zwei Tönen werden Akkorde genannt. Vereinfacht lässt sich formulieren, dass in der Musiktheorie horizontal aneinandergereihte Töne eine Melodie ergeben und vertikal übereinander gestapelte Töne bilden einen Akkord. Der umfassendere Begriff Harmonik beschreibt ebenfalls den Zusammenklang verschiedener Töne, wird jedoch vielmehr im Gesamtkontext verstanden und bezieht den jeweiligen Klangvorrat und dessen Verwendung mit ein. In Musikstücken mit Liedcharakter dienen Akkorde der Begleitung und geben der Melodie abschnittsweise einen harmonischen Bezug. Die in einem Akkord vorkommenden Einzeltöne können entweder gemeinsam erklingen oder nacheinander, in verschieden gemischter Reihenfolge. Der Fachbegriff für diese aufgelösten Akkorde lautet Arpeggio und leitet sich von dem italienischen Wort „arpa‚ (Deutsch: Harfe) ab. Gemeint ist demnach, der Akkord solle „harfenartig‚ gespielt werden. [Wikipedia: Arpeggio] Akkordfolgen bestimmen die Harmonik und prägen den wahrgenommenen Charakter des Musikwerkes. Besonders zu beachten ist dabei die Reihenfolge der Akkorde. Werden diese umgeordnet kann die harmonische Wirkung eine ganz andere sein, trotz der Verwendung desselben Akkordvorrats. Auch ein Akkord allein vermag bereits, Empfindungen zu wecken. Als Dynamik bezeichnet man in der Musik die Differenzierung in der Lautstärke. [Jüttemann 2010] Man unterscheidet 1) einheitliche Lautstärken, wie piano = leise und forte = laut, außerdem 2) gleitende Veränderungen, wie crescendo = zunehmend und decrescendo = abnehmend, und 3) die scharfe Betonung einer einzelnen Note: forzando. 42 von 79 Kapitel 3: Musik 3.5 Visuelle Musik Die Herausbildung der Beziehung zwischen Klanglichem und Visuellem hat eine bedeutende Geschichte, deren Anfänge weit zurückreichen. Mathematiker und Philosoph Pythagoras vermutete bereits um 500 vor Christus einen Zusammenhang zwischen Tonleiter und Regenbogenfarbenspektrum (von außen nach innen: rot, orange, gelb, grün, blau, indigoblau, violett), und wies jedem Ton eine Farbe zu. Visuelle Musik ist eine dynamische Kunstform, geprägt durch wissenschaftliche Erkenntnisse, technologische Fortschritte, Wahrnehmungsstudien und Ergebnisse künstlerischen Schaffens. Seit Aufkommen digitaler Technologien im zwanzigsten Jahrhundert bieten sich für die Untersuchung des audiovisuellen Erkenntnisaustausches facettenreiche Möglichkeiten, insbesondere dahingehend, nicht nur Ton aus Bild oder Bild aus Ton hervorzubringen, sondern Bild und Ton gleichberechtigt zusammenwachsen zu lassen, so dass sich beide umeinander bereichern. Diese Arbeit definiert Visuelle Musik verallgemeinernd als eine Kunst, die jegliche Wechselbeziehungen zwischen Ton und Bild erforscht. Davon ausgehend wird im Folgenden ein Klassifizierungsvorschlag unterbreitet, welcher durch die Ausführungen von JACK OX und CINDY KEEFER [Ox 2008] inspiriert wurde. Bestimmender Einflussfaktor für die Unterscheidung ist die Art der audiovisuellen Beziehung. i. Beschreibung: Die visuelle Komposition ist ein stilles, statisches Bild und repräsentiert die freie, künstlerische Interpretation eines konkreten Musikwerkes. Sie ist weder von linearer, noch von zeitbasierter Form. Beziehung: Ein Musikstück führt zum Bild. Beispiel: PAUL KLEE beschäftigte sich in den 1910er Jahren intensiv mit den Parallelen zwischen Musik und Malerei und betrachtete den Rhythmus als wichtigstes Verbindungselement. Das zeitliche Moment der Musik verdeutlicht KLEE durch das Heranwachsen der Bildelemente aus dem dunklen Grund zu größter Lichthaltigkeit. [Jewanski 2011] Abbildung 3.8: PAUL KLEE: „Fuge in Rot“, 1921 43 von 79 Kapitel 3: Musik ii. Beschreibung: Die visuelle Darstellung greift die „Syntax‚ der Musik und die Veränderung über die Zeit auf. Es erfolgt eine direkte, bewegte Übersetzung. Beziehung: Klang oder Musik führen zu bewegten Bildern. Beispiel: a.) Schon im 18. Jahrhundert wurden Töne von Cembalo, Klavier oder Orgel an Farb- und Lichtwerte gekoppelt. Abbildung 3.9 zeigt Bainbridge Bishop’s Farborgel zum „Musikmalen‚ von 1877. Hier wurde ein lichtproduzierender Apparat auf einer gewöhnlichen Orgel platziert. Ein System aus Hebeln und Fensterklappen ermöglichte, dass sich farbiges Licht auf dem Bildschirm mischte, entsprechend den jeweils gespielten Tasten. [Peacock 1987] Abbildung 3.9: BAINBRIDGE BISHOP: Farborgel,1877 b.) Das Video 3.1 zeigt eine moderne Umsetzung des lichtproduzierenden Apparates. Hier wurde ein digitales Klavier mit einem Computer verbunden und der Tastenanschlag mittels eines vvvv-Programms visualisiert. Video 3.1: SCHACHT, digitale Farborgel, 2011, URL: http://vimeo.com/23449490 c.) Abstrakte Visuelle Musik ist eine Gegenwartskunst, bei der häufig algorithmisch manipulierte Grafiken der Visualisierung von Musik dienen. [siehe Kap. 2.4.2, Video 2.2] iii. Beschreibung: Der Übergang von ii. zu iii. ist fließend. Wichtiges Unterscheidungskriterium ist die Ton-Bild-Beziehung. Licht, Form und Bewegung sollen so behandelt werden, wie Ton, Rhythmus, Klangfarbe und Dynamik, um ein gleichberechtigtes Zusammenspiel dieser beiden ausdrucksstarken Medien zu erreichen. Beziehung: Es erfolgt ein gleichberechtigter audiovisueller Erkenntnisaustausch. Beispiel: Die in Kapitel 2.2 vorgestellte audiovisuelle Installation „Pi‚ [siehe Kap. 2.2, Video 2.1] soll hier als Beispiel dienen. Visuelles und akustisches Material haben jeweils eine eigene Daseinsberechtigung und einen gewissermaßen eigenen Charakter. Sie bedingen sich nicht. Ihr gemeinsames, abgestimmtes Auftreten jedoch führt zu einer gegenseitigen Bereicherung. 44 von 79 Kapitel 3: Musik iv. Beschreibung: Diese letzte Differenzierung ist die Umkehrung zu i. und ii. Hier wird das Bild direkt in Geräusch oder Klang übersetzt. Beziehung: Bildmaterial führt zu Geräusch oder Klang. Beispiel: Das Bemalen oder Zerkratzen von optischen Tonspuren liefert hier ein Beispiel. Außerdem sollen OSKAR FISCHINGERs2 „Tönende Ornamente‚ erwähnt werden. Nachdem FISCHINGER 1932 erkannte, dass sich die abstrakten Ornamente, die er in seinen Filmen verarbeitete, nicht grundlegend von den Mustern unterscheiden, die Töne auf einer optischen Tonspur erzeugen, begann er, Tonspurbilder von Hand zu malen. Dabei wollte er herausfinden, welche unregelmäßigen oder stilisierten Muster wohl welche Geräusche erzeugen würden, und ob sich das in Einklang mit Tonleitern und Harmonik bringen ließe. „Die Tönenden Ornamente‚ stellen nicht den Kern FISCHINGERs Untersuchungen dar. Auch gelang es ihm nie, eine künstlerisch zufriedenstellende Fassung herzustellen. [Fischinger 1993] Abbildung 3.10: FISCHINGER mit Ornamentrollen zur synthetischen Tonerzeugung, 1932 2 Der Avantgarde-Künstler OSKAR FISCHINGER (*1900, † 1967) war studierter MaschinenbauIngenieur und gilt als Pionier des abstrakten Films. Er war fasziniert von Ton-Bild und Bild-Ton – Beziehungen und forschte daran sein Leben lang. Er war stets bemüht, zwischen visuellen und akustischen Formen eine ästhetische Korrespondenz herzustellen. Er entwickelte eine Wachsschneidemaschine (1934), mit deren Hilfe er organisch-fließende Bildsequenzen erstellte, unter anderem als Visualisierung für Musik. Er erfand auch den Lumigraphen (1940), einen drucksensitiven Apparat in Gestalt einer Trennwand, der von zwei Personen gespielt wurde und dann beides, Ton und Klang, erzeugte. [Fischinger 1993] 45 von 79 Kapitel 3: Musik In der zeitgenössischen Visuellen Musik werden unter Verwendung von Computertechnologie Animationen geschaffen oder Filme komponiert, denen musikalische Parameter und Prinzipien zugrunde liegen. Auch werden teils musikalische Kompositionsalgorithmen zur generativen Erzeugung animierter Bilder eingesetzt. [Essl 2007] In Kapitel 2.2 wurde Audiovisualisierung als die Erzeugung und Manipulation von Bildmaterial auf Grundlage von Audiodaten definiert. Folglich ist sie, sofern künstlerische Ambitionen vorherrschen, Visuelle Musik von der Struktur ii. Wenn darüber hinaus eine Synthese musikalischer und visueller Rhythmen, Strukturen und Bewegungen angestrebt wird, vergrößert sich die Nähe zur Struktur iii. 46 von 79 Kapitel 3: Musik 3.6 Parallelen zwischen Musik und Malerei Abschließend soll eine theoretische Untersuchung der Ton-Bild-Beziehung von WOLFGANG RUTTKOWSKI vorgestellt werden. In seinem wissenschaftlichen Aufsatz „Das Schichtenverhältnis im Musikkunsthandwerk‚ verdeutlicht RUTTKOWSKI, dass im musikalischen Werk parallel zum gemalten, mehrere Schichten unterschieden werden können. Im Folgenden werden seine schichtenästhetischen Betrachtungen tabellarisch gegenübergestellt. Es gilt zu beachten, dass die Tabelle zwar von oben nach unten gelesen wird, sie jedoch den Schichtenaufbau von unten nach oben beschreibt. Die untersten Schichten Eins und Zwei sind die konkreten Vordergrundschichten. Die obersten Schichten Vier und Fünf bilden abstrahierte Hintergrundschichten. Sie beziehen sich auf das Erscheinen des Werkes. Die Mittelschicht repräsentiert das Gegenständliche. Musik hat nichts Gegenständliches. Dennoch kann der parallele Schichtenvergleich trotz dieses Ausfalls fortgesetzt werden, wie sich zeigen wird. Was Malerei, Bildhauerei und Dichtkunst über die Gegenstandsschicht vermitteln wollen, schafft Musik auf andere Weise. [Ruttkowski 1979] „Bei Musik ist die Sprache so eng zusammengerafft […], dass die Worte verschmelzen und nur die reinen, bedeutungslosen Töne bleiben. Von diesem Standpunkt erscheint die Musik als die höchste, die dichteste Dichtung.“ VILÉM FLUSSER Töne sind gegeben mit ihren Eigenschaften: - Tonhöhe (Tonfrequenz) - Tonintensität (Lautstärke) - Klangfarbe - Tondauer Farben sind gegeben mit ihren Qualitäten: - Farbton (Farbfrequenz) - Farbintensität - Farbabschattung - Für die Tondauer gibt es in Malerei keine Entsprechung, weil Malerei im Gegensatz zu Musik nicht die Zeit gestaltet, sondern den Raum. Hinzu kommen die negativen Gegenpole der Töne: - Tonlosigkeit: Pausen - gegenseitige Verdeckung: Geräusch Gleichermaßen kann eine Negation der Farben erfolgen: - Farblosigkeit: Schwarz - gegenseitige Neutralisierung von Farben: Grau: nach der Brechung, Weiß: vor der Brechung 47 von 79 Tabelle 3.2: Schichtenästhetische Betrachtungen zu Musik und Malerei Kapitel 3: Musik Töne verbinden sich horizontal zu Melodien. [ leer ]: Farben können sich nur vertikal verbinden, weil Malerei nicht in der Zeit verläuft. Fortsetzung Tabelle 3.2: Schichtenästhetische Betrachtungen zu Musik und Malerei Töne verbinden sich vertikal zu Harmonien oder Dissonanzen. Primärfarben verbinden sich zu Sekundärfarben, Tertiärfarben,… oder zu Grautönen. Pausen und jeweilige Obertöne machen den Ton selbst erlebbar. Durch Konturierung und Schattierung werden Farben begrenzt und können einzeln wirken. [ leer ]: Musik hat keine Gegenstandsschicht. Gegenständliche Malerei ist bemüht, die Welt darzustellen, um über die Nähe zur Wirklichkeit den Betrachter emotional zu erreichen. [ leer ]: Abstrakte Malerei hingegen ist bestrebt, den emotionalen Gehalt unter Auslassung der Gegenstandsschicht zu vermitteln, gleich der Musik. Musik löst unmittelbar emotionale Erlebnisse wie Stimmungen und Gefühle aus, intensiver als die Malerei. Ihr ungegenständlicher Charakter ermöglicht verschiedenartige Verbindungen mit anderen Künsten. Dabei verstärkt Musik potenziell deren emotionale Schicht. Emotionale Erlebnisse sollen über die Gegenstandsschicht ausgelöst werden. Direkte, echte Bewegtheit: Bewegung ist in Musik direkter und stärker verwirklicht als in Malerei und Dichtung. Die Töne selbst bewegen sich in der Zeit und entfalten sich zu Melodien, welche Lautstärkeschwankungen unterliegen können. Der Eindruck der Bewegtheit wird durch die musikalische Zeitstruktur erzeugt. Auch wird Musik direkt und ausschließlich in der Zeit des Hörens aufgenommen. Assoziierte Bewegtheit: In der gegenständlichen Malerei wird Lebendigkeit abgebildet. Durch Konkretheit wird der Eindruck des Lebendigen geschaffen, der jedoch durch seine Zeitlosigkeit wieder an Ausdrucksstärke verliert. Man muss in ein Bild Lebendigkeit und Bewegung hineinassoziieren. 48 von 79 Kapitel 3: Musik Abstrakte Malerei hinterlässt im Bild nur Spuren von Bewegtheit, beispielsweise durch den Pinselstrich. Diese werden jedoch nicht unmittelbar erlebt. Gestaltqualitäten von Formen, Konturen und Farbkombinationen im Bild sollen lebendige Eindrücke hervorrufen 49 von 79 Fortsetzung Tabelle 3.2: Schichtenästhetische Betrachtungen zu Musik und Malerei Kapitel 4: AMVIS Konzeption Inhalt dieses Kapitels, und aller folgenden, ist die Beschreibung der auditiven, bewegungsgesteuerten, visualisierenden Umgebung AMVIS. Dabei werden verschiedene Konzeptionspfade, der technische Aufbau sowie kontextbezogene Forschungsergebnisse anderer Wissenschaftler einbezogen. Die Abbildung 4.1 gibt einen Überblick zum Entwurfsprozess und verdeutlicht zugleich die Inhaltsstruktur dieser Arbeit. Abbildung 4.1: Die Abbildung gibt einen Überblick zum AMVIS Entwurfsprozess und kennzeichnet, in welchem Kapitel dieser Arbeit die Beschreibung der einzelnen Teilbereiche erfolgt. In den Kapiteln Zwei und Drei wurden Natürlichen Benutzerschnittstellen, Audiovisuelle Installationen, Programmierumgebungen, Tracking-Technologien, Generative Gestaltung und relevante musikbezogene Themen ausführlich, unter Zuhilfenahme diverser Quellen, beschrieben. Diese Inhalte bilden das Fundament für die Konzeption und Umsetzung der interaktiven Installation AMVIS. Die Vielschichtigkeit einer audiovisuellen Umgebung erfordert eine separate Entwicklung von Teilkomponenten. Die Inhaltsstruktur dieser Arbeit greift das auf und stellt in den Kapiteln Fünf (auditive), Sechs (motiondriven) und Sieben (visualizing) die musikalische, die interaktive und die visualisierende Komponente vor. Recherche- und Analyse Ergebnisse, welche konkret den jeweiligen Teilbereich betreffen, sind ebenfalls im entsprechenden Kapitel untergebracht. Abschließend werden in Kapitel Acht die Ergebnisse zusammengefasst und unter Einbezug voriger Analyse-Resultate diskutiert. Kapitel 4: AMVIS Konzeption 4.1 Anforderungen an AMVIS Die Entwicklung von AMVIS erforderte systematisches Vorgehen und eine interdisziplinäre Sichtweise. Verschiedene Rollen aus den Bereichen Informatik, Musik, Kunst und Didaktik galt es zu verkörpern. [siehe Abb. 4.2] Abbildung 4.2: Die Abbildung veranschaulicht, welche Perspektiven auf den Entwicklungsprozess von AMVIS Einfluss nahmen. AMVIS soll als Musikinstrument, als interaktive Installation, als Natürliche Benutzerschnittstelle, als Lernumgebung und als audiovisueller Erlebnisraum wahrgenommen werden können. Ziel ist es, mehrere Nutzer zu befähigen, eine gemeinsame musikalische und visuelle Komposition im ‚Hier und Jetzt‘ zu erschaffen. Die NUI-Entwickler-Rolle legt dem AMVIS-System menschliche Handlungsmodelle zugrunde. Nutzer sollen über Gesten und Bewegungen mit der Schnittstelle kommunizieren können. Zum Übersetzen der Nutzerhandlungen in auditiv und visuell wahrnehmbare Informationen bedarf es moderner Technologien. Diese sollen in den Hintergrund eingebettet werden. Im Fokus stehen die interagierenden Benutzer. Verschiedene musikalische ‚Aufgaben‘ finden in unterschiedlichen Interaktionsweisen ihre Entsprechung. Der Umgang mit AMVIS soll intuitiv erfasst werden können, anstatt unter hoher kognitiver Last erlernt werden zu müssen. [siehe Kapitel 2.1] Der UX-Gestalter (Engl.: „User Experience Design“) konzeptioniert das Gesamtbenutzungserlebnis. Die direkte Interaktion des Nutzers mit AMVIS soll einfach, elegant und zugleich faszinierend sein. Sie muss sowohl zweckdienlich als auch ästhetisch reizvoll gestaltet sein. [Schacht 2010] Das Interaktionsziel ist Gemeinsames Musizieren. 51 von 79 Kapitel 4: AMVIS Konzeption Die Nutzer von AMVIS sind entweder erfahrene Musiker oder Nichtmusiker. Erstere spielen ein oder mehrere Instrumente, kennen Tonleitern, verstehen den Akkordaufbau und sind meist geübt im Zusammenspiel. Nichtmusiker haben zumindest ein, durch Musikhören geprägtes, instinktives Verständnis für Melodien, Harmonien und Rhythmen. Klares Ziel ist die Integration beider Nutzertypen. Der Nichtmusiker soll wohlklingende Kompositionen kreieren können, was durch eine Beschränkung des Tonmaterials begünstigt werden würde. Andererseits dürfen die Ambitionen des Musikers nicht durch fehlende Halbtöne irritiert werden. Eine mögliche Lösung über Modus-Wechsler widerspricht den Anforderungen des NUIGestalters. Hier ergibt sich ein konzeptionell herausforderndes Spannungsfeld. Auch Anforderungen anderer imaginierter Entwickler-Rollen stehen in einem konfliktpotenzialbehafteten Verhältnis zueinander. So muss die von NUI-Entwickler und Interface-Gestalter geforderte Schlichtheit und Reduziertheit der visuellen Präsentation der Benutzerschnittstelle mit künstlerischem Gestaltungsanspruch zusammenfinden. Ebenfalls darf die vom Interaktions- und UX-Gestalter geforderte simple Benutzbarkeit nicht zur Unterforderung eines erfahrenen Musikers führen. Der Komponist ist bemüht, ein funktionierendes musikalisches Gesamtwerk zu schaffen, dass sich aus einer Melodie und Begleitharmonien zusammensetzt, die einem gemeinsamen Grundrhythmus nachgehen. Folglich muss AMVIS so gestaltet sein, dass mehreren Nutzern, mit und ohne musikalisches Vorwissen, dies möglich ist. Auch sollen musikalische Zusammenhänge visuell erschlossen werden können. Als Lernumgebung soll AMVIS dem interessierten Nutzer musiktheoretische Grundlagen zu Intervallen und Akkorden vermitteln. Der Grafikgestalter kreiert die visuellen Elemente und legt Wert auf deren Zusammenspiel. Darstellungen von Musizierkomponenten, Visualisierungen von Klanglichem und Feedback-Visualisierungen von Interaktionshandlungen sollen miteinander harmonieren. Insbesondere sollen keine Schieberegler, Menüs oder Buttons den Bildrhythmus stören. Der Generative Gestalter stellt Regelwerke auf und bewertet diese ästhetisch. Er ist bestrebt, das Gesamtwerk AMVIS, bestehend aus Software, Hardware, Umgebung und Nutzern, als ein wohldefiniertes, in sich geschlossenes System zu kreieren. AMVIS selbst soll das Generative ‚Kunstwerk‘ sein. Die Musik und Visualisierungen sind Resultate. [siehe Kapitel 2.4] Der Software-Entwickler implementiert die Anforderungen. AMVIS soll die Nutzerinteraktionen in Echtzeit verarbeiten und parallel auditive und visuelle Ausgaben erzeugen. Das System soll modular aufgebaut werden und erweiterbar sein. 52 von 79 Kapitel 4: AMVIS Konzeption 4.2 Installationsaufbau und Software-Architektur Abbildung 4.3: Die Abbildung skizziert den Installationsaufbau. AMVIS ist eine gestenbasierte und greifbare Natürliche Benutzerschnittstelle. Die Akteure können unter Einsatz des gesamten Körpers mit dem System interagieren. Dafür bedarf es keiner tragbaren Sensoren, sondern allein der Kinect. [siehe Kapitel 2.3.2]. Ihr 3D-Kamera-System ermöglicht markerloses Tracking. Sie wird im AMVIS-System eingesetzt, um die Position und den Bewegungspfad der Nutzerhände im Raum zu ermitteln. Der grundlegende Installationsaufbau ist in Abbildung 4.3 skizziert. Die Erläuterungen zu den Interaktionstechniken und musikalischen Rollen folgen in Kapitel Fünf und Sechs. AMVIS nutzt als Eingabegeräte die Kinect und ein Mikrofon, welches in eine ‚Trommel‘ eingebaut ist. Die visuelle Ausgabe wird durch einen Beamer auf eine Wandfläche projiziert, die auditive Ausgabe erfolgt über Lautsprecher. AMVIS ist eine musikalische Microworld1. Dies meint, den Benutzern werden maßgeschneiderte Werkzeuge zum Musizieren angeboten, die sich aus kleinen, miteinander vernetzten Software-Modulen zusammensetzen. Im Folgenden wird der technologische Aufbau des AMVIS-Systems beschrieben. 1 Der Begriff Microworld wurde von SEYMOUR PAPERT, dem Entwickler der Programmiersprache LOGO, geprägt. [Essl 2007] 53 von 79 Kapitel 4: AMVIS Konzeption Abbildung 4.4: Die Abbildung zeigt den Aufbau des AMVISSystems. [Anmerkung: Die logische Struktur der Abbildung folgt dem EVAPrinzip. Verbindungslinien, welche oben an einer Box ankommen, bringen den Input. In der Box erfolgt die Verarbeitung. Linien, die unten von einer Box wegführen, leiten den Output weiter.] Die Abbildung 4.4 veranschaulicht, welche Software- und HardwareKomponenten AMVIS beinhaltet, und wie diese miteinander kommunizieren. Die Nutzerinteraktion bedingt und schließt den Funktionskreislauf. AMVIS wurde mit der patchbasierten Entwicklungsumgebung vvvv programmiert, da diese den vielfältigen Anforderungen an eine interaktive Medieninstallation weitestgehend gewachsen ist. vvvv kann die gesamte Datenverarbeitung in Echtzeit bewältigen, mit verschiedenen Ein- und Ausgabetechnologien umgehen, und Ton- und Bildmaterial generieren. [siehe Kapitel 2.3.4]. Unter Zuhilfenahme eines ‚Kinect-Plugins‘ kommen die Bewegungsdaten erfasster Nutzer direkt in vvvv an und können weiterverarbeitet werden. Wenn jedoch Gesten erkannt werden müssen, nehmen die Daten aus der Kinect den Umweg über die in Kapitel 2.3.2 vorgestellte FAAST Middleware. Nach der Erkennung emuliert FAAST für verschiedene Gesten jeweils eine andere Tastatureingabe, welche dann von vvvv abgefangen wird. Entsprechend der Nutzereingaben werden in vvvv Grafiken animiert, generiert, und an den Beamer als visuelle Ausgabe weitergeleitet. Im Entwurfsprozess stellte sich heraus, dass vvvv für intensive Klangproduktion ungeeignet ist, weshalb diese in die modulare Programmierumgebung Usine verlagert wurde. Insbesondere die hohe Latenzzeit von durchschnittlich 250 Millisekunden war nicht akzeptabel. Erklingt der angespielte Ton merklich später, als die Handlungsausführung mit entsprechendem visuellen Feedback erfolgt, kann AMVIS kaum zum Musizieren genutzt werden. Des Weiteren bietet vvvv nur wenig Möglichkeiten, die AudioProduktion von Grund auf zu programmieren. 54 von 79 Kapitel 4: AMVIS Konzeption Abbildung 4.5 verdeutlicht, welche Ansätze für die Erzeugung des AudioMaterials verfolgt wurden. Außerdem wird gezeigt, wie viel Handlungsspielraum dem Programmierer für die Erzeugung und Manipulation einzelner Töne gegeben ist. Das Einbinden von Audio-Samples beschreibt den ungünstigsten Konzeptionspfad. Hier werden fertige Tonaufnahmen, gespeichert in einem AudioDateiformat wie zum Beispiel ‚WAV‘ oder ‚MP3‘, abgespielt und pausiert. Maximal die Lautstärke kann noch verändert werden. Bindet man hingegen ein VST 2 --Instrument ein, werden die Audiosignale erzeugt, anstelle von abgespielt. Diese Lösung ist weit eleganter und bietet ausreichend Manipulationsmöglichkeiten. vvvv unterstützt zwar VST-Plugins, jedoch nicht zufriedenstellend. Zum Einen verursachte der parallele Einsatz mehrerer VST-Plugins Programmabstürze, und zum Anderen war die Latenzzeit zu hoch. [Im Video 4.1 wird dies verdeutlicht. Es zeigt die grafische Ausgabe eines vvvv-Patches, in dem Klangobjekte ausgelöst werden. Die Klangproduktion erfolgt durch ein VST-Plugin mit vvvv als VST-Host. Das Video ist der Abgabe-CD beigefügt.] Eine dritte Möglichkeit zur Audioproduktion bietet der Einsatz von kommerzieller Software wie zum Beispiel Ableton. Hier würden die Steuerdaten von vvvv aus mittels der Protokolle MIDI oder OSC [siehe Kapitel 2.3.3] weiterversendet werden. Am meisten Flexibilität jedoch ermöglicht eine Programmierumgebung, die auf Audioproduktion fokussiert ist, wie zum Beispiel Max [siehe Kapitel 2.3.4] oder Usine. Abbildung 4.5: Die Abbildung gibt einen Überblick zu den Möglichkeiten der Generierung und Manipulation von TonMaterial. 2 VST (Engl.: „Virtual Studio Technology“) ist eine von Steinberg Media Technologies entwickelte Schnittstelle für Audiobearbeitungssoftware. Sie ermöglicht die Kommunikation zwischen der Software (VST-Host) und VST-Instrumenten (VSTi) oder VST-Effekten. 55 von 79 Kapitel 4: AMVIS Konzeption Für die Übermittlung der Audio-Informationen wie zum Beispiel Tonhöhe, Tondauer, Lautstärke und Klangfarbe an Usine kommt das Datenübertragungs-Protokoll MIDI zum Einsatz. Der Nutzereingabe entsprechend stellt vvvv eine MIDI-Nachricht zusammen, welche anschließend über ein virtuelles MIDI-Kabel weitergeleitet wird. [siehe Kapitel 2.3.3] Usine ist eine flexible Audio-Software für die Erstellung und Manipulation elektronischer Musik, in Echtzeit. Sie erlaubt das Einbinden von Plugins sowie das Empfangen und Weiterleiten von Audio- und Midi-Daten. Usine ist, wie auch vvvv, modular aufgebaut. In einem Patch lassen sich diverse Module zu einer individuellen Audioproduktions-Umgebung verknüpfen. Die Patches können in dem übergeordneten Gitter, einem Mischpult ähnlich, platziert werden. Usine wurde als Audio-Software für AMVIS gewählt, weil es über MIDI ansprechbar ist, VST-Plugins einbinden kann, Audio in Echtzeit mit geringen Latenzzeiten verarbeitet, die Audio-Produktion von Grund auf ermöglicht, und von daher jegliche Möglichkeiten zu Manipulation bietet. Des Weiteren kann Usine Patches und VST-Plugins mit einem Master-Tempo synchronisieren und ist kostenfrei nutzbar. Im Hinblick auf die Weiterentwicklung von AMVIS stellt es ein gelungenes Werkzeug zur Programmierung generativer Klänge dar. Außerdem unterstützt es die räumlich verteilte Klangausgabe. Es können verschiedene Audio-Signale auf bis zu 32 Kanäle verteilt werden. [URL: http://www.sensomusic.com/usine] Abbildung 4.5: Die Abbildung zeigt einen Usine-Patch und verdeutlicht modularen Aufbau dieser AudioProgrammierumgebung. 56 von 79 Kapitel 5: AMVIS auditive Das englischsprachige Adjektiv auditive beschreibt Sinneseindrücke, die mit dem Ohr wahrgenommen werden. Dies könnte jegliches akustische Signal im hörbaren Frequenzbereich sein, wie zum Beispiel das Rauschen eines Baches, die Sirene eines Feuerwehrwagens oder ein Violinkonzert. Bezogen auf AMVIS ist eindeutig das Wahrnehmen der gemeinsam produzierten Musik gemeint. Dieses Kapitel stellt die Musiziermöglichkeiten in AMVIS vor. Zu Beginn jedoch sollen die Unterschiede von Musizieren und Klangerzeugung beleuchtet werden. 5.1 Musizieren Die Kernanforderung an AMVIS lautet, mehreren Akteuren gemeinsames Musizieren zu ermöglichen. Demnach liegt die Frage nach einer Differenzierung von Musizieren und Klangerzeugung nah. In der musikalischen Akustik fasst man Geräusche, Klänge und Töne unter dem Begriff Schall zusammen. Gegenüber den nichtperiodischen Schwingungsvorgängen bei Geräuschen, bewegen sich die Luftmoleküle bei Klängen gleichsam. Jede Gruppe periodisch schwingender Schallwellen, zusammengesetzt aus einem oder mehreren Grundtönen und deren mitschwingenden Obertönen, bezeichnet man als Klang. [siehe Kapitel 3.2] Klang ist in seiner einfachsten Form Ton das Element, aus dem sich Musik aufbaut. Ob das Zusammenklingen mehrerer Töne als wohlklingend empfunden wird, hängt insbesondere davon ab, in welchem Verhältnis die beteiligten Grundfrequenzen zueinander stehen. [siehe Tabelle 3.1] Jedoch ist das Gestalten von Wohlklang kein Kriterium für die Unterscheidung von Musizieren und Klangerzeugen. Dissonanzen sind gleichermaßen Bestandteil von Musik wie Konsonanzen. Vielmehr ist es das Organisieren von Klängen, gegenüber wahllosem Erzeugen, das Musizieren charakterisiert. Musizieren ist eine im Menschen tief verankerte Fähigkeit, die Bewusstheit über den Prozess des Musikerzeugens verlangt. „Musik ist die Kunst, Töne in bestimmter Gesetzmäßigkeit hinsichtlich Rhythmus, Melodie, Harmonie zu einer Gruppe von Klängen und zu einer stilistisch eigenständigen Komposition zu ordnen.“ [Duden: Musik] Kapitel 5: AMVIS auditive In der eben angeführten Definition von Musik wurde herausgestellt, dass das geordnete Miteinander von Melodie, Harmonie und Rhythmus zu einem musikalischen Gesamtwerk führt. AMVIS greift das auf und gestaltet diese drei als musikalische Rollen. Man stelle sich eine minimal besetzte Musikgruppe, bestehend aus einem Melodie-Instrument, zum Beispiel Saxophon, einem Harmonie-Instrument, zum Beispiel Klavier, und einem Rhythmus-Instrument, zum Beispiel Schlagzeug vor. Deren Zusammenspiel funktioniert dann, wenn das Schlagzeug den Grundrhythmus festlegt, dem Klavier und Saxophon folgen. Insbesondere die Begleitharmonien müssen im Takt sein. Einem Melodieinstrument gesteht man mehr Varianz und Eigenheit zu, sowohl im Rhythmus, als auch in der Tonauswahl. Das Spielen dieser drei Beispielinstrumente, und ebenso das gemeinsame Musizieren erfordern Übung und musikalisches Vorwissen. Die Nutzer von AMVIS sind Musiker und Nichtmusiker. Eine reine Virtualisierung klassischer Musikinstrumente wäre nicht zielführend. Entweder würden Nichtmusiker ausgeschlossen werden, oder aber das Zusammenspiel entspräche eher Klangproduktion als gemeinsamem Musizieren. Deshalb sind die drei musikalischen Rollen Melodie, Harmonie und Rhythmus in AMVIS entsprechend ihrer Funktion im musikalischen Gesamtwerk gestaltet. Was dies meint, wird im Folgenden detailliert beschrieben. 5.2 Computergestützte Musikinstrumente Als benutzerfreundlich gestaltete Software verhilft AMVIS sowohl Musikern als auch Nichtmusikern zu eigenen Musiziererlebnissen. Ein Computerprogramm kann zwar nicht Musizieren, aber durchaus dabei unterstützen. Der österreichische Komponist und Programmierer KARLHEINZ ESSL hat anschaulich beschrieben, in welchem Ausmaß die Software Einfluss auf den eigenen Musikproduktionsprozess nehmen kann. [Essl 1999] Er unterscheidet drei mögliche Bedienkonzepte: 1. Der „Autopilot“ ist eine Klangerzeugungsmaschine. Hier betätigt der Nutzer lediglich den Startknopf und lässt sich irgendwo hinführen. Dieses ‚Irgendwo‘ ist dabei immer ein Anderes. 2. Der "Zugführer" ist an vordefinierte Fahrwege gebunden, kann aber selbst das Ziel festlegen und einflussnehmende Komponenten bestimmen. 3. Der „Instrumentalist“ hat sämtliche Freiheiten. Für ihn ist die Software das virtualisierte Musikinstrument. 58 von 79 Kapitel 5: AMVIS auditive Führt man die Benutzungsstrategien ESSLs auf den SoftwareEntwicklungsprozess zurück, ergeben sich drei grundlegende Prinzipien, nach denen in klangproduzierender Software Töne angespielt werden können. [siehe Abb. 5.1] Abbildung 5.1: Die Abbildung zeigt grundlegende Strategien, wie der Tonanschlag in einem computergestützten ‚Musikinstrument‘ realisiert werden kann, auf Grundlage von ESSLs Kategorisierung. Ist der Nutzer „Instrumentalist“, spielt er allein die Töne an, definiert Tonhöhen und bestimmt den Rhythmus. Als „Zugführer“ legt der Nutzer Tonhöhen und Rhythmusstrukturen fest, und ein fortlaufender computergenerierter Grundanschlag bringt die Komposition zum Erklingen. Wird die Software generativ programmiert [siehe Kap. 2.4], ertönen Klänge zufällig, ohne Zutun des Nutzers. Der „Autopilot“ ist für AMVIS irrelevant, da automatische Klangproduktion nicht zu eigenem Musizieren führt. Der „Zugführer“ hingegen findet in der Harmonie-Rolle seine Entsprechung und der „Instrumentalist“ beschreibt die Melodie-Rolle. Bevor die Erläuterung dieser Benutzungsstrategien erfolgt, sollen vier „Zugführer“- Interface-Konzepte für computergestütztes Musizieren vorgestellt werden. Das Anspielen der Töne übernimmt dabei das System. Tonhöhe, Tonanzahl und Rhythmus kann der Nutzer festgelegen. 59 von 79 Kapitel 5: AMVIS auditive Das erste Konzept ist eine Tonmatrix. Entlang der y-Achse wird die Tonhöhe definiert, entlang der x-Achse der Rhythmus. Die in der Matrix platzierten Klangobjekte werden permanent von links nach rechts angeschlagen. Haben zwei Töne dieselbe y-Position, jedoch unterschiedliche Tonhöhen, erklingen sie gleichzeitig. Abbildung 5.2: Das zweite Konzept erinnert an einen Radarschirm. Der Tonanschlag erfolgt durch einen rotierenden ‚Arm‘. Die Platzierung der Klangobjekte auf unterschiedlichen Kreisbahnen variiert die Tonhöhe. Liegen Töne auf derselben Geraden vom Kreisradius, erklingen sie parallel. Abbildung 5.3: Interface-Konzept für den Tonanschlag: Scanline Interface-Konzept für den Tonanschlag: Radar Abbildung 5.4: Im dritten Konzept breitet sich der Anschlag in konzentrischen Kreisen aus. In Umkehrung zum vorigen erklingen hier Töne, die auf derselben Kreisbahn liegen, gleichzeitig, und die Tonhöhenveränderung erfolgt entlang der Geraden. Interface-Konzept für den Tonanschlag: Pulsar Abbildung 5.5: Das vierte Konzept bietet die meisten Freiheitsgrade. Gleich dem RadarKonzept liegen die Töne auf Kreisen, deren Durchmesser die Tonhöhe bestimmt. Jedoch hat jeder Kreis einen eigenen Tonanschlag. So können komplexere Rhythmen gestaltet werden. Interface-Konzept für den Tonanschlag: Züge 60 von 79 Kapitel 5: AMVIS auditive 5.3 Musikalische Rollen in AMVIS Im Folgenden werden die musikalischen Rollen, welche jeweils durch einen Nutzer eingenommen werden können, vorgestellt. Die Beschreibung der entsprechenden Interaktionstechnik erfolgt in Kapitel Sechs, und Erläuterungen zur grafischen Benutzungsoberfläche sind in Kapitel Sieben angesiedelt. Die Funktion von Harmonie im musikalischen Gesamtwerk ist das Begleiten der Melodie. Dafür wird eine Folge von meist wenigen Akkorden über den Verlauf eines Musikstücks fortwährend wiederholt und gleichmäßig angeschlagen. Aufgrund dieser charakteristischen Merkmale eignet sich für die Harmonie-Rolle in AMVIS das „Zugführer“-Konzept. Der Akkordanschlag und die Wiederholung werden vom System übernommen. Damit ist sichergestellt, dass die Begleitakkorde exakt auf den definierten Grundschlag erklingen. Der Nutzer kann sich in Ruhe seine Akkorde zusammenstellen und diese dann der Melodie in Gestalt eines selbstspielenden Musikinstruments zugrunde legen. Abbildung 5.6 zeigt die beiden Möglichkeiten des Akkord-Anschlags, in denen sich Ansätze der zuvor vorgestellten Interface-Konzepte „Pulsar“ [siehe Abb. 5.4] und „Radar“ [siehe Abb. 5.3] widerspiegeln. Sollen alle Akkordtöne gleichzeitig erklingen, erfolgt der Anschlag durch sich ausbreitende konzentrische Kreise. Um die Akkorde aufgelöst [siehe Kap. 3.4: Arpeggio] anzuspielen, rotiert der ‚Radar-Arm‘. Abbildung 5.6: Die Abbildung stellt die Interface-Konzepte für das gleichzeitige und sequentielle Anspielen eines Akkords in AMVIS dar und zeigt die entsprechende Notenschrift. 61 von 79 Kapitel 5: AMVIS auditive „[…] Besonders ergreifend wird die Musik jedoch gerade dann, wenn sie mathematisch unscharf wird und sich gleichsam gegen einen allzu starren Rhythmus auflehnt.“ [Bethge 2003] Die Melodie ist Protagonist in einer musikalischen Komposition. Sie folgt dem eigenen Impuls und definiert sich als eine Aufeinanderfolge von Tönen mit verschiedenen Tonhöhen und Tondauern. Dem entsprechend ist sie in AMVIS als virtualisiertes Musikinstrument gestaltet. Im Gegensatz zur Harmonie bringt der Benutzer selbst die Melodie zum Klingen. Der Rhythmus gibt dem Musikstück eine Struktur und hält es zusammen. Er ist die Abfolge einzelner Schläge und dient der Zeitgliederung. Die Rhythmus-Rolle in AMVIS legt das Tempo für den Grundanschlag der Harmonien fest. Die Rolle des Dirigenten ist im Gegensatz zu den vorigen keine aktiv musizierende, sondern eine koordinierende. Er kommt da zum Einsatz, wo es eines Modus-Wechslers bedarf und verkörpert die folgenden Funktionalitäten: 1. Der Dirigent wählt für die gesamte AMVIS-Umgebung das audiovisuelle Ambiente, bestehend aus Klangfläche, Farbschema der Tonhöhenvisualisierung und Klangfarbe der Melodie. 2. Er kommuniziert direkt mit den Musikern, anstatt mit dem Interface. Der Harmonie-Rolle kann er die Freigabe für den AkkordAufbau-Modus erteilen. Ähnlich verhält es sich mit dem RhythmusInstrument. Auf Zeichen des Dirigenten übernimmt das System den Rhythmus-Anschlag als Grundschlag für die Harmonien. 3. In seiner Funktion als Musiklehrer kann der Dirigent beim AkkordAufbau Intervallbezeichnungen und Empfehlungen zur Zusammenstellung der Akkorde einblenden lassen. 62 von 79 Kapitel 6: AMVIS motiondriven Die Natürliche Interaktion mit AMVIS bezieht den gesamten menschlichen Körper ein. Sie findet in verschiedenen Musizierräumen statt. Diese sind weniger örtlich, als vielmehr durch Interaktionstechnik und musikalische Rolle voneinander abgegrenzt. In welcher Weise das Melodieanschlagen, das Akkordaufbauen, das Rhythmusgeben, und das Dirigieren umgesetzt sind, wird nun erläutert. 6.1 Melodie Das Melodiespielen in AMVIS erfolgt durch eine handbewegungsbasierte Interaktionstechnik. Grundanforderung an die Melodie ist, dass eine Tonhöhe ausgewählt, die Tondauer bestimmt und der Ton individuell angeschlagen werden kann. Zudem soll ein Tonvorrat über mindestens zwei Oktaven bereitgestellt werden. Im Folgenden werden zwei initiale Interaktionskonzepte für die Melodie-Rolle vorgestellt und deren Schwachstellen aufgezeigt, um anschließend das daraus resultierende in AMVIS realisierte zu erläutern. Abbildung 6.1: Die Abbildung stellt ein initiales Interaktionskonzept für das Melodiespielen dar. Kapitel 6: AMVIS motiondriven In diesem Konzept liegen Halbtöne übereinandergestapelt als Schichten im Raum. Die Interaktion erfolgt vertikal. Zuerst wählt der Nutzer mit der rechten Hand die Tonhöhe. Dann schlägt er mit der linken Hand den Ton an und bestimmt die Tondauer. Damit ist sichergestellt, dass Töne auch unter Auslassung dazwischenliegender Halbtöne gespielt werden können. Dennoch lassen sich folgende Schwachstellen finden: 1.) Das Anspielen ausgewählter Töne mit eigener Tondauer kann auch simpler, ohne die Notwendigkeit einer bi-manuellen Ausführung erfolgen. [siehe Konzept Zwei und AMVIS-Konzept] 2.) Die Aufteilung der Einzeltöne in waagerechte, übereinandergestapelte Schichten lässt nur einen geringen Tonumfang zu, da die maximale senkrechte Ausdehnung der doppelten Armlänge des Nutzers entspricht. Dieser muss jeden Ton bewusst anwählen können, was nur dann möglich ist, wenn auch die einzelnen Tonschichten ausreichend hoch sind. Im zweiten Konzept schweben die verschiedenen Tonhöhen als imaginäre Kugeln im Raum. Sie sind auf zwei Kreisbahnen angeordnet, deren Zentrum die Hüfte des Nutzers bildet. Beide Hände können zum Anschlagen der Töne eingesetzt werden. Abbildung 6.2: In der Abbildung wird ein weiteres initiales Interaktionskonzept für das Melodiespielen veranschaulicht. 64 von 79 Kapitel 6: AMVIS motiondriven Dieses Konzept ermöglicht ebenfalls das bewusste Anschlagen ausgewählter Töne nach eigenem Rhythmus. Schwierigkeiten liegen hier gleichermaßen im gering abbildbaren Tonumfang. Weit auseinanderliegende Tonhöhen sind jedoch im Gegensatz zum ersten Entwurf deutlich einfacher zu treffen, da beide Hände eingesetzt werden können. Außerdem schafft die halbkreisartige Anordnung von der Körpermitte aus gleiche Distanzen. Die Bewegungsausführung entspricht einer Trommel-Geste. Reduziert man die Anzahl der Töne, steigt die Treffsicherheit, was eine bessere Benutzbarkeit impliziert. Ein solches Konzept könnte eingesetzt werden, um gestenbasierte, virtuelle Schlaginstrumente zu realisieren. Das AMVIS Melodie-Konzept legt die Töne als Quader auf einer horizontalen Ebene nebeneinander in den Raum. Durch die waagerechte Verteilung vergrößert sich der darstellbare Tonumfang. Die Quader haben gegenüber den im ersten Ansatz vorgestellten Schichten definierte Ausmaße in x-, yund z-Richtung. Ihre Ausdehnung in die Raumtiefe erfolgt bis zu einer bestimmten z-Grenze, welche als eine imaginierte Ebene senkrecht im Raum steht. Der Nutzer benötigt nun keine zweite Hand mehr zum Tonanspielen, sondern bringt die angewählte Tonhöhe zum Erklingen, indem er die zGrenze durchstößt. Abbildung 6.3: Die Abbildung veranschaulicht die Interaktionstechnik zum Melodiespielen in AMVIS. 65 von 79 Kapitel 6: AMVIS motiondriven Abbildung 6.4: Das Foto verdeutlicht die Interaktionstechnik zum Melodiespielen in AMVIS. Das Foto zeigt die Umsetzung des Konzepts in einer, auf den Entwicklungsstand bezogen, frühen AMVIS-Version, und stellt das Handlungsprinzip anschaulich dar. Man sieht einen Nutzer beim Anspielen eines Tons. Das Zustandsübergangsdiagramm dafür gestaltet sich wie folgt. Gelangt die Hand des Nutzers in die durch die Tonquader besetzte xy-Fläche, kann die Tonhöhe ausgewählt werden, es erklingt jedoch noch kein Ton. Erst wenn die Hand die z-Grenze durchstößt, wird der Ton angespielt und so lange gehalten, bis die Hand den aktiven Bereich wieder verlässt. Abbildung 6.5: Die Abbildung zeigt das Zustandsübergangsdiagramm für das Anspielen von Melodietönen in AMVIS. 66 von 79 Kapitel 6: AMVIS motiondriven 6.2 Harmonie Im Gegensatz zur Melodie erfolgt das Anspielen der Harmonie in AMVIS durch das System. [siehe Kapitel 5.3] Demnach bedarf es hier keiner Interaktion. Jedoch stellt der Nutzer zuvor die Begleitakkorde zusammen. Ein Akkord in AMVIS beinhaltet bis zu vier verschiedene Töne, welche aus dreizehn kreisförmig angeordneten Einzeltönen selektiert werden können. Die Tonhöhen werden in Halbtonschritten, ausgehend vom jeweiligen Akkordgrundton und endend mit dessen Oktavton, aufwärts gezählt. Abbildung 6.6: Die Abbildung zeigt ein Harmonie-System, bestehend aus drei Akkorden, welches sich gerade im Aufbau befindet. Die oberen beiden Akkorde, basierend auf den Grundtönen „c“ und „g#“, sind bereits erstellt. Der untere, basierend auf dem Grundton „e“, wird gerade bearbeitet. Die Interaktionstechnik für das Auswählen von Akkordtönen ist ebenfalls handbewegungsbasiert, aber unabhängig von den z-Koordinaten. Es werden nur die Verschiebungen in x- und y-Richtung ausgewertet. Das folgende Zustandsübergangsdiagramm verdeutlicht den Akkordaufbau. Abbildung 6.7: Die Abbildung zeigt das Zustandsübergangsdiagramm für das Auswählen von Akkordtönen in AMVIS. Zu Beginn legt der Nutzer unter Verwendung des Melodie-Instruments die Grundtöne für die zu erstellenden Begleitakkorde fest. Diese erscheinen als Kreise mit Farben entsprechend ihrer Tonhöhe auf der graphischen Oberfläche und bringen jeweils dreizehn Objekte als Repräsentanten für 67 von 79 Kapitel 6: AMVIS motiondriven dreizehn mögliche Akkordtöne mit. Wird nun die Hand über einen Akkordknoten bewegt und ‚berührt‘ diesen drei Sekunden lang ohne Unterbrechung, spreizen sich die chromatischen Einzeltöne ab und der Akkordbau ist aktiv. Überfährt man einen Ton mit der Hand wird dieser angewählt, erfolgt dies ein zweites Mal wird er wieder abgewählt. Ein Akkord baut sich aus dem stets selektierten Grundton und maximal drei weiteren auf. Danach ist das Anwählen gesperrt. Ein neuer Ton kann erst wieder hinzugefügt werden, wenn dafür ein anderer abgewählt wird. Verlässt die Hand die aktive Akkordbauzone, schließt sich der Knoten wieder, behält jedoch die selektierten Einzeltöne bei. 6.3 Rhythmus Der Grundrhythmus wird mittels greifbarer Interaktion an das System kommuniziert. Wie bereits in Kapitel 4.2 erwähnt, steht dafür eine Trommel bereit, in welcher sich ein Mikrofon befindet. [siehe Abb. 6.8] Nach Analyse des Audio-Signals können die in der physischen Welt natürlich erzeugten Trommelschläge zur Manipulation der digitalen Klangproduktion verwendet werden. Die Rhythmus-Trommel ist ein sogenanntes „Instrument Tangible“, ein in AMVIS eingebettetes physisches Artefakt, welches eine Verbindung zwischen digitaler und realer Welt schafft. [Schacht 2010] Abbildung 6.8: Die Abbildung dient der Erinnerung an den in Kapitel 4.2 vorgestellten Installationsaufbau und ordnet die Benutzerrollen zu. 68 von 79 Kapitel 6: AMVIS motiondriven 6.4 Dirigent Die Interaktion des Dirigenten mit dem System erfolgt gestenbasiert. Die Gestenerkennung übernimmt die FAAST Middleware. [siehe Kapitel 2.3.2] Für die in Kapitel 5.3 erläuterten Dirigenten-Funktionalitäten stehen folgende fünf Gesten bereit: erlaubt die globale Rhythmus-Synchronisation. Dies erfolgt nur, solange der Arm gestreckt ist, was sich darin begründet, dass der Grundschlag in einem Musikwerk keinen stetigen Änderungen unterliegt. Die Auswahl der Geste für diese Aktion orientiert sich an zwischenmenschlicher Kommunikation. Es wird davon ausgegangen, dass die Rhythmus-Trommel links vom Dirigenten platziert ist. Streckt dieser den Arm nach links, deutet er auf den Nutzer am Rhythmus-Instrument. [siehe Abb. 6.9] aktiviert den Akkord-Aufbau. Die Begründung für die Auswahl dieser Geste gleicht der vorigen. Der Nutzer des Harmonie-Instruments ist rechts vom Dirigenten positioniert. deaktiviert den Akkord-Aufbau. wechselt zum nächsten audiovisuellen Ambiente. blendet die Hilfs-Ebene des Musiklehrers ein. Bei erneutem Springen verschwindet diese wieder. Die Auswahl und Zuweisung der Gesten zu Aktionen kann leicht in der FAAST-Konfigurationsdatei geändert werden. Zur Selektion dieser fünf führte insbesondere die Überlegung, dass sie bewusst ausgeführt werden sollen, anstelle von ‚zufällig passieren‘. Würde man beispielsweise die Stellung der Füße berücksichtigen, könnte der Nutzer sich nicht frei im Raum bewegen, ohne Aktionen auszulösen. 69 von 79 Kapitel 7: AMVIS visualizing Nachdem bereits das musikalische und das interaktive Charakteristikum von AMVIS behandelt wurden, soll nun das visualisierende vorgestellt werden. Den Einstieg in die Thematik gestalten drei videobasierte Studien zu Visueller Musik. Im Anschluss wird die projizierte grafische Oberfläche von AMVIS erläutert. Der dritte Abschnitt dieses Kapitels stellt die Visualisierung des Nutzer-Feedbacks vor. 7.1 Studien zu Visueller Musik Visuelle Musik beschäftigt sich mit den Wechselbeziehungen zwischen Bild und Ton. Angestrebt wird eine Synthese musikalischer und visueller Rhythmen, Strukturen und Bewegungen. Dient, unter Einsatz von Computertechnologie, das Audio-Signal der Generierung und Manipulation von grafischen Elementen, spricht man von Audiovisualisierung. [siehe Kap. 2.2] Audiovisualisierung ist Visuelle Musik der Struktur ii. [siehe Kap. 3.5] Vom Tonmaterial ausgehend erfolgt eine „ […] Überführung melodischer, harmonischer und rhythmischer Zusammenhänge in Bilder durch die Gestaltung von Zeit und Raum.“ [Visual Music Award] Musik besteht aus Tönen, deren physikalische Merkmale sich über die Zeit ändern. Diese Merkmale sind die klanglichen Parameter Tonhöhe, Tondauer, Lautstärke und Klangfarbe. Bei Audiovisualisierungen wird eine Beziehung zwischen klanglichen Parametern und visuellen Parametern [siehe Abb. 7.1] hergestellt. Man bezeichnet das als ‚Mapping‘. Abbildung 7.1: Die Abbildung zeigt visuelle Parameter, die zu klanglichen Parametern in Beziehung gesetzt werden können. Kapitel 7: AMVIS visualizing Durch die Veränderung der klanglichen Parameter über die Zeit, unterliegen auch die zugeordneten visuellen Parameter stetigem Wandel, was zu bewegten Bildern führt. Im Folgenden werden drei videobasierte Studien vorgestellt. Sie dienten der Annäherung an die Gestaltung der Visualisierung in AMVIS bezüglich der verschiedenen Musizierrollen. Die Programmierung erfolgte mit vvvv. Zur Übermittlung der klanglichen Parameter kamen teilweise externe Geräte zum Einsatz. Die vorherrschende Bild-Ton-Beziehung ist jeweils eine andere. Das Video 7.1 zeigt eine Überführung der klanglichen Parameter Lautstärke und Tonhöhe in die visuellen Parameter Größe und Farbton. Im Video 7.2 visualisiert der Farbton die Tonhöhe, die Anzahl der Harmonie-Kreise entspricht der Anzahl der Töne im Akkord, und die Größe der kleinen Kreise variiert entsprechend der Lautstärke des Rhythmus-Schlags. Außerdem wird die Audiovisualisierung um ein zum Klangteppich passendes, gegenständliches Hintergrundvideo bereichert. Das Video 7.3 wurde bereits in Kapitel 3.5 als Beispiel für eine digitale Farborgel erwähnt. Es zeigt den Bild-Ton-Bezug relativ direkt, ohne die visuellen Parameter künstlerisch zu abstrahieren. Außerdem ist die Anordnung der grafischen Objekte einem Klavier nachempfunden. Von daher eignet sich eine derartige Darstellung für die grafische Oberfläche der Melodie-Musizierrolle in AMVIS. Neben den Parameter-Mappings kommen in allen drei Videos Animationsmethoden zum Einsatz, um die skalierenden Bewegungen fließender zu gestalten und den Nachhall der Töne zu visualisieren. Video 7.1: Studie No.1, Visuelle Musik, URL: http://vimeo.com/23097663 71 von 79 Kapitel 7: AMVIS visualizing Video 7.2: Studie No.2, Visuelle Musik, URL: http://vimeo.com/23107293 Video 7.3: Studie No.3, Visuelle Musik, URL: http://vimeo.com/23439182 72 von 79 Kapitel 7: AMVIS visualizing 7.2 Grafische AMVIS - Oberfläche Die grafische AMVIS - Oberfläche wird von einem Beamer an die Wand projiziert. Sie bildet die Interaktionsobjekte ab, visualisiert klangliche Parameter und Nutzer-Feedback, und gestaltet das AMVIS-Ambiente. Logische Repräsentationen und künstlerische Visualisierung bilden eine Einheit. Dennoch müssen die Interaktionsobjekte eindeutig identifizierbar und mittels der Handbewegungen anspielbar sein. Folglich orientiert sich die Gestaltung der grafischen Oberfläche an der musikalischen Rolle. Die Darstellung des Melodie-Instruments ist an ein Klavier angelehnt und berücksichtigt die beiden möglichen Nutzer-Typen Musiker und Nichtmusiker. Solange die Hand entlang der x-Achse verschoben wird, erklingen ausschließlich die Töne der C-Dur-Tonleiter. Außerdem wird die handbewegungsbasierte Interaktionstechnik durch die nach unten spitz zulaufenden Rauten bedacht. Die Leerräume zwischen den Klangobjekten sind bedeutsam, da es im Gegensatz zu einer Touch-Oberfläche keinen direkten Berührungspunkt gibt, sondern nur Abschätzungen. Die Hand schwirrt frei durch den Raum. Im Gegensatz zur Melodie erlaubte die Gestaltung des HarmonieInstruments mehr künstlerische Freiheiten, weil das System den Tonanschlag übernimmt. Die grafische Darstellung basiert auf Polygonen und der Delaunay-Triangulation. Wird ein Akkord-Knoten hinzugefügt oder entfernt, ordnet sich das gesamte Harmonie-System visuell um. Außerdem befindet es sich in ständiger seichter Bewegung und hat audioreaktive Merkmale. Das Farbschema für die Tonhöhen und das Ambiente-Video werden vom Dirigenten mittels einer Geste ausgewählt. Somit hat er zwar Einfluss auf die visuelle Darstellung, jedoch keine Interaktionsobjekte. Abbildung 7.2: Die Abbildung zeigt die grafische AMVISOberfläche mit Melodie-Instrument und Harmonie-System. 73 von 79 Kapitel 7: AMVIS visualizing 7.3 Nutzer-Feedback Die Interaktion mit Objekten der grafischen Oberfläche erfolgt aus der Mitte des Raums heraus über Bewegungen der Arme und Hände. Der Nutzer muss stets wissen, wo er aus Sicht des Systems steht, um das grafische Interface manipulieren zu können. Dafür wird das Videosignal des KinectTiefenbilds genommen, bearbeitet, und visuell ausgegeben. In Kapitel 2.3.2 wurde ein Tiefenkamera-Bild gezeigt. Es ist funktional, jedoch visuell nicht ansprechend. Um zu der in Abbildung 7.3 dargestellten Visualisierung zu gelangen, wurde wie folgt vorgegangen: Das Tiefenbild wird als zweidimensionales, niedrig aufgelöstes Schwarz-Weiß Bild dargestellt. Die Abstufungen der Grautöne repräsentieren die räumliche Anordnung der Objekte. Je näher sich ein Objekt an der Kinect befindet, umso heller wird es abgebildet. Das Tiefenkamera-Bild geht als Video-Signal an vvvv. Der ‚Pipet‘-Node tastet das Bild ab und gibt die Farbwerte jeden Bildpixels aus. An der Position jeden Pixels wird eine Kugel erzeugt, deren Verschiebung in z-Richtung aus dem Helligkeitswert resultiert. Abbildung 7.3: Das Foto zeigt die Feedback-Visualisierung des AMVIS – Nutzers. 74 von 79 Kapitel 8: AMVIS - Diskussion AMVIS ist eine Natürliche Benutzerschnittstelle in Gestalt einer audiovisuellen Mehrbenutzerumgebung. Ihr liegen menschliche Handlungsmodelle wie gestenbasierte Kommunikation und ganzkörperliche Bewegungen zugrunde. Die Nutzer sind Aufführender, Komponist und aktiver Zuhörer zugleich. Dieses abschließende Kapitel präsentiert die zuvor separat erläuterten Benutzerrollen im Gesamten, stellt den Bezug zu Ergebnissen aus den ersten beiden Recherche-Kapiteln her und unterbreitet Konzepte zur Weiterentwicklung der Umgebung. 8.1 Zusammenfassung der AMVIS Benutzerrollen In den vorigen drei Kapiteln wurden die Benutzerrollen im musikalischen, im interaktiven und im visuellen Bezug vorgestellt. Es erfolgt nun eine tabellarische Zusammenfassung dessen. Melodie ist eine Aufeinanderfolge von Tönen mit verschiedenen Tonhöhen und Tondauern in der Zeit, die durch Intervalle miteinander verbunden sind. [Enzyklo: Melodie] Harmonie bedeutet Einklang und Ausgewogenheit, und meint in der Musik Akkorde. Sie ist Zusammenklang mehrerer Töne. [Enzyklo: Harmonie] Rhythmus ist eine Abfolge einzelner Schläge und dient der Zeitgliederung. [Enzyklo: Rhythmus] Die Melodie ist Protagonist des Musikstücks. Sie ist selbstständig und folgt dem eigenen Impuls. Eine sich wiederholende Folge von Akkorden gibt der Melodie abschnittsweise harmonischen Bezug. Akkorde sind parallel oder sequentiell angeschlagene Gruppen von Einzeltönen. Der Rhythmus regelt den Verlauf von Klangereignissen. Harmonien erklingen im Musikwerk auf den Grundschlag vom Rhythmus. In der Melodie entstehen darüberhinaus eigene Rhythmen aus der zeitlichen Folge von Tönen verschieden langer Dauern. Die AMVIS-Melodie repräsentiert das virtualisierte Musikinstrument. Der Nutzer spielt die Töne an, bestimmt Tonhöhen und Tondauern. Ihm wird ein Tonvorrat über zwei Oktaven Im AMVIS-HarmonieKonzept wird der Nutzer ermächtigt, Akkorde aus bis zu vier Einzeltönen aufzubauen und eine geordnete Akkordfolge zusammenzustellen. Den gleichmäßigen Die AMVIS-RhythmusRolle befähigt den Nutzer, das globale Grundtempo einzuspielen und hat somit Einfluss auf den Akkordanschlag. Tabelle 8.1: Die Tabelle fasst die aktiven Musizierrollen bezüglich der in den Kapiteln Fünf, Sechs und Sieben vorgestellten Merkmale zusammen. Kapitel 8: Diskussion inklusive aller Halbtöne zur Verfügung gestellt. und sich wiederholenden AkkordAnschlag übernimmt das System. Fortsetzung Tabelle 8.1: Bewegung der Hand zur Selektion und zum Anspielen von Melodietönen, und Bewegung des Körpers (Gehen) zum ‚Erlaufen‘ des gesamten Tonvorrats Bewegung der Hand zur Selektion einzelner Akkordtöne greifbare Interaktion Handbewegungsbasiert Handbewegungsbasiert perkussive Geste Tonhöhenauswahl: Bewegungsverfolgung der Hand in xyRichtung Bewegungsverfolgung der Hand in xyRichtung FFT-Analyse des Audio-Signals Visuelle Präsentation der Klangobjekte auf projizierter Wandfläche Visuelle Präsentation der Klangobjekte auf projizierter Wandfläche physisches Objekt (Instrument Tangible) Kinect Kinect Mikrofon digitale Farborgel Polygongerüst (DelaunayTriangulation) - Die Tabelle fasst die aktiven Musizierrollen bezüglich der in den Kapiteln Fünf, Sechs und Sieben vorgestellten Merkmale zusammen. Tonanschlag: Bewegungsverfolgung der Hand in z-Richtung Ein Dirigent ist der Leiter eines musischen Ensembles. Tabelle 8.2: Der Dirigent wählt für die AMVIS-Umgebung das audiovisuelle Ambiente. Er erteilt die Freigabe für den Akkordaufbau und die RhythmusSynchronisation mit dem System. Er kann unterstützende Hilfsebenen für die Akkordauswahl und das Intervalllernen ein- und ausblenden. Die Tabelle fasst die Dirigentenrolle zusammen. Ausführen von Gesten mittels einem oder beider Arme andere Nutzer, Visuelle Präsentation der Klangobjekte auf projizierter Wandfläche Kinect Konfigurationsdatei für die FAAST Middleware 76 von 79 Kapitel 8: Diskussion 8.2 AMVIS – ein hybrides Werk AMVIS ein Digitales Musikinstrument (kurz: DMI). Es setzt sich aus einem Steuerungsmodul und einem Klangerzeugungsmodul zusammen. Über Mapping-Konzepte werden die beiden Komponenten zueinander in Beziehung gesetzt. [Miranda 2006] Mittels gestenbasierter und tangibler Interaktion kann das Instrument angesprochen werden. Die Sensortechnologie der Kinect und ein Mikrofon ermöglichen dies. In vvvv werden die Nutzereingaben auf die visuellen und auf die auditiven Parameter gemappt. Die Klangsynthese erfolgt in Usine. Die Audiovisuelle Installation AMVIS setzt sichtbare und hörbare Informationen zueinander in Beziehung. Es werden gestische Parameter in audiovisuelle überführt. Ein audiovisueller Parameter besteht aus einem klanglichen und einem davon unabhängigen visuellen Parameter. Die parallele Ausgabe von Bild und Ton begünstigt multisensorische Wahrnehmungsprozesse. AMVIS-Nutzer haben eine partizipative Rolle und gestalten die Umgebung aktiv mit. Dadurch unterliegt sie ständigem Wandel. Es bestehen wechselseitige Beziehungen der Nutzer mit AMVIS und der Nutzer miteinander. Als eine Natürliche Benutzerschnittstelle fokussiert AMVIS seine Akteure und bettet die Technologie in den Hintergrund ein. Für die Bewegungsverfolgung bedarf es keiner tragbaren Sensoren. Es kann mit dem Musizieren nach Betreten der AMVIS Umgebung sofort begonnen werden. Dem System wurden neben den motorischen Kapazitäten in Form von gestenbasierter Eingabe, mit der Dirigentenrolle und dem abgestimmten Zusammenspiel gleichermaßen soziale Kapazitäten zugrunde gelegt. Über die Ambiente-Auswahl und den definierbaren Grundschlag können Nutzer die Umgebung ihren Bedürfnissen anpassen. Die Interaktion und audiovisuelles Feedback erfolgen unmittelbar. Ohne die systemseitige Berechnung in Echtzeit könnte kein digitales Musikinstrument gespielt werden. AMVIS ist multimodal erforschbar. Es werden natürliche gestenbasierte und greifbare Interaktionsmethoden angeboten, die dem Anwendungskontext entsprechen. Die Rhythmus-Trommel kommuniziert über ihr physisches Erscheinen die Funktion und Benutzung. Auch das virtualisierte Klavier legt seine Verwendung nah. Durch die künstlerisch geprägte Abstraktion des Melodie-Systems könnte es sein, dass eine anfängliche Erläuterung vonnöten ist. 77 von 79 Kapitel 8: Diskussion In Kapitel 3.6 wurde RUTTKOWSKIs schichtenästhetische Betrachtung zum Musikkunstwerk und der Malerei vorgestellt. Im Folgenden soll nun das audiovisuelle Werk AMVIS in das Schichtenmodell eingeordnet werden. AMVIS führt musikalisches und bildliches Material zusammen. Die Parameter des Einzeltons werden in Farbqualitäten übersetzt. Selbst die Tondauer findet eine Entsprechung, da die Bilder in AMVIS keine statischen, sondern bewegte sind. Töne verbinden sich horizontal zu Melodien und vertikal zu Harmonien. Im visuellen Bereich wird neben der vertikalen Verbindung von Primärfarben zu Mischfarben eine horizontale Verbindung der Bildelemente geschaffen. Dies erfolgt durch die Echtzeit-Animation des grafischen Objekts des in dem Moment gespielten Tons. Musik und abstrakte Bildelemente haben keine Gegenstandsschicht. Jedoch sind die AMBIENTE-Komponenten Klangteppich und entsprechendes Videomaterial gegenständlich. AMVIS hat das Potenzial, beim Nutzer vielschichtige emotionale Erlebnisse unmittelbar auszulösen. Dies erfolgt über: - eigenes Musizieren - Musikhören - abstrakte animierte Grafiken synchron zur Musik - gegenständliches Bildmaterial - natürliche Interaktionstechniken für den Umgang mit AMVIS - soziale Interaktion der Nutzer untereinander Multidimensionale echte Bewegtheit: Die Töne der Musik sind in Bewegung, die projizierten Bilder sind in Bewegung, sowie auch die Nutzer. Aus ihrer Bewegung resultieren überhaupt erst die Musik und das Bild. 78 von 79 Tabelle 8.3: AMVIS schichtenästhetisch betrachtet Kapitel 8: Diskussion 8.3 Ausblick AMVIS ist ein modular aufgebautes System, das bereits verschiedene Musizierrollen anbietet, aber durchaus ergänzt werden kann. Sollen noch weitere, frei spielbare Melodieinstrumente hinzugefügt werden, wären externe Geräte am geeignetsten. Diese könnten über eine Midi-Schnittstelle ebenfalls Einfluss auf die grafischen und klanglichen Parameter nehmen. Weitere gestenbasierte Rollen sind mit nur einer Kinect und einem Computer gegenwärtig nicht realisierbar. Außerdem würde es an Platz vor dem projizierten grafischen Interface mangeln. Für das Verbinden von Sichtbarem und Hörbarem mittels greifbarer Interaktion, könnte ein physischer, von den Nutzern manipulierbarer Farbscheinwerfer zum Einsatz kommen. Dieser taucht den Interaktionsraum mitsamt den Nutzern in einfarbiges Licht. Aus dem Video-Bild der Kinect RGB-Kamera würde dann mittels des in Kapitel 7.3 vorgestellten ‚Pipet‘Nodes in vvvv der durchschnittliche Farbwert ermittelt und auf einen klanglichen Parameter gemappt werden. Beobachtet man Musiker an klassischen Instrumenten oder Sänger, fällt deren ausdrucksstarke Körperhaltung auf. Ein Nachvorne-Schwanken des Oberkörpers bezeichnet oft eine musikdynamische Veränderung [siehe Kapitel 3.4: Dynamik]. Dies könnte ebenfalls in AMVIS übersetzt werden, um gleitende Veränderungen der Lautstärke herbeizuführen oder Töne zu akzentuieren. Jedoch müsste dann dem Nutzer eine relativ starre Grundhaltung auferlegt werden. Eine gestenbasierte Eingabe allein über das Vorwärtsbeugen des Oberkörpers passiert wahrscheinlich oft aus Versehen. Aber man könnte eine zusätzliche Kondition einführen, damit nicht jede Oberkörperbewegung zu einer Lautstärkeschwankung führt. Das virtualisierte AMVIS Melodie-Instrument wird durch Bewegungen der Hand angespielt, ohne weitere Differenzierung. Um die Interaktion mit digitalen Musikinstrumenten facettenreicher zu gestalten, können klassische Instrumente als Inspiration dienen. Anschließend muss überlegt werden, wie die Interaktionstechnik im Digitalen getrackt und realisiert wird. Abbildung 8.1: Die Abbildung gibt einen Überblick zu möglichen Natürlichen Interaktionstechniken mit Musikinstrumenten. 79 von 79 A. Literaturverzeichnis [Akten 2008] Memo Akten: Glastonbury Pi URL: http://www.msavisuals.com/glastonbury_pi, Juni 2008 [Akten 2010] Memo Akten: Kinect – why it matters URL: http://memo.tv/kinect_why_it_matters, Nov. 2010 [Blake 2010] Joshua Blake: Developing Natural User Interfaces with Microsoft Silverlight and WPF 4 Touch URL: http://live.visitmix.com/MIX10/Sessions/EX18, MIX Konferenz, Las Vegas, März 2010 [Benedini 1979] K. Benedini: Ein Funktionsschema zur Beschreibung von Klangfarbenunterschieden Lehrstuhl für Elektroakustik, TU München, Springer Verlag, 1979 [Bethge 2003] Philip Bethge: Die Musikformel In: Der Spiegel 31/2003, Jul. 2003 [Block 2004] Friedrich W. Block, Christiane Heibach, Karin Wenz: Ästhetik digitaler Poesie Hatje Cantz Verlag, 2004 [Bohnacker 2009] Hartmut Bohnacker, Benedikt Groß, Julia Laub: Generative Gestaltung Schmidt Hermann Verlag, Nov. 2009 [Bohnacker 2010] Hartmut Bohnacker, Benedikt Groß: Generative Gestaltung@ decoded‘10 Vortrag auf der „decoded – conference for code and design“, München, Okt. 2010, URL: http://vimeo.com/19429561 [Buxton 2007] Bill Buxton: Sketching User Experiences Microsoft Research, Toronto, Canada, Morgan Kaufmann Verlag, Mai 2007 [Buxton 01-2010] Bill Buxton: NUI with Bill Buxton URL: http://channel9.msdn.com/posts/LarryLarsen/CES-2010-NUI-with-Bill-Buxton, Interview, International CES, Jan. 2010 [Buxton 03-2010] Bill Buxton: Making User Interfaces Natural URL: http://research.microsoft.com/en-US/about/feature/nui-video.aspx, Microsoft Research, März 2010 [Blake 2010] Joshua Blake: Developing Natural User Interfaces with Microsoft Silverlight and WPF 4 Touch URL: http://live.visitmix.com/MIX10/Sessions/EX18, MIX Konferenz, Las Vegas, März 2010 [Duden: Musik] Duden Online: Musik URL: http://www.duden.de/rechtschreibung/Musik, Abruf: 06.06.2011 [Eggener 2009] Christoph Eggener: Multimedia & Multimodalität – Interaktion zwischen akustischer und visueller Wahrnehmung bei der Rezeption audiovisueller Medien Diplomarbeit, Studiengang Medientechnik, Fachhochschule Düsseldorf, März 2009 [Essl 2007] Karlheinz Essl: Wandlungen der elektronischen Musik In: Zwischen Experiment und Kommerz. Zur Ästhetik elektronischer Musik, Wiener Jahrbuch für Musikwissenschaft, Wien, 2007 [Essl 1999] Karlheinz Essl: Der Wiener Komponist Karlheinz Essl Interview mit Karlheiz Essl, geführt von Dr. Hanno Ehrler, Bayrischer Rundfunk, URL: http://www.essl.at/bibliogr/ehrler.html, Sept. 1999 [Enzyklo: Harmonie] ENZYKLO Online Enzyklopädie: Harmonie URL: http://www.enzyklo.de, Abruf: 21.06.2011 [Enzyklo: Melodie] ENZYKLO Online Enzyklopädie: Melodie URL: http://www.enzyklo.de, Abruf: 21.06.2011 [Enzyklo: Rhythmus] ENZYKLO Online Enzyklopädie: Rhythmus URL: http://www.enzyklo.de, Abruf: 21.06.2011 [Fischinger 1993] Herbert Gehr (Red.): Optische Poesie. Oskar Fischinger – Leben und Werk. Katalog, Deutsches Filmmuseum, Frankfurt am Main, 1993 [Flusser 1991] Vilém Flusser: Die Geste des Musikhörens In: Gesten: Versuch einer Phänomenologie, Düsseldorf, 1991 [Galanter 2003] Philip Galanter: What is Generative Art? Complexity Theory as a Context for Art Theory Interactive Telecommunications Program, New York University, New York, USA, 2003 [Galanter 2004] Philip Galanter: Generative art is as old as art Thomas Petersen, Kristine Ploug: Interview mit Philip Galanter, URL: http://www.artificial.dk/articles/galanter.htm, Sept. 2004 [Geyer 2010] Elke Geyer: Aleatorik in der Musik: bekannte Zufallskompositionen URL: http://www.suite101.de/content/aleatorik-in-der-musik-bekannte-zufallskompositionena90684, Okt. 2010 [Gieselmann 2011] Hartmut Gieselmann: Tanz der Skelette In: c’t magazin für computertechnik, Heft 8/2011, Seite 100 – 108, März 2011 [Henkens 2011] Dana Henkens: Kombination gestenbasierter Interaktion in multimodalen Anwendungen Bakkalaureatsarbeit, Studiengang Medieninformatik, TU Dresden, Jan. 2011 [Henseler 2010] Wolfgang Henseler: Von GUI zu NUI URL: http://createordie.de/cod/artikel/Von-GUI-zu-NUI-2819.html, Jan. 2010 [Hess 2006] Prof. Dr.-Ing. Wolfgang Hess: Einführung in die musikalische Akustik Skript Universität Bonn, Institut für Kommunikationswissenschaften, Jan. 2006 [Hitthaler 2005] Thomas Hitthaler: Generative Erzeugung von Design mit vvvv Diplomarbeit im FH-Studiengang MultiMediaArt, Fachhochschule Salzburg, Mai 2005 [Ihmels 2004] Tjark Ihmels, Julia Riedel: Die Methodik der generativen Kunst URL: http://www.medienkunstnetz.de/themen/generative_tools/generative_art, Abruf: 12.06.2011 [Jessulat 2005] Ariane Jessulat, Andreas Ickstadt, Martin Ullrich: Zwischen Komposition und Hermeneutik Königshausen & Neumann Verlag, 2005 [Jewanski 2011] Jörg Jewanski: Werkbeschreibung: Fuge in Rot URL: http://www.see-this-sound.at/werke/133, Abruf: 05.06.2011 [Jüttemann 2010] Herbert Jüttemann: Mechanische Musikinstrumente 2. Auflage, Dohr Verlag, Köln, Dez. 2010 [Lärmorama: Akustik] Fachstelle Lärmschutz, Kanton Zürich: Akustik URL: http://www.laermorama.ch/laermorama/modul_akustik/index-akustik.html, Abruf: 04.06.2011 [Kar 2011] Abhishek Kar: Skeletal Tracking using Microsoft Kinect Department of Computer Science and Engineering, IIT Kanpur, Indien, 2011 [Kauer 2003] Sebastian Kauer: Entwicklung einer Multimedia-Lehranwendung zur Psychoakustik: Auditive Wahrnehmung und die Rolle kritischer Bandbreiten Magisterarbeit im Fachgebiet Kommunikationswissenschaft, TU Berlin, 2003 [Korn 2009] Jacob Korn: Konzeption und Entwicklung einer musikalischen Mehrbenutzerumgebung Diplomarbeit im Studiengang Medientechnologie, TU Ilmenau, am Fraunhofer IDMT, in Kooperation mit der TMA Hellerau, Okt. 2009 [Matias 2011] Helder Matias: Augmented Reality Gaming am Beispiel der AR.Drone von Parrot Hochschule FOM Neuss, URL: http://winfwiki.wi-fom.de/index.php/Augmented_Reality_Gaming_ am_Beispiel_der_AR.Drone_von_Parrot#Komponenten_von_einem_ARGS, Stand: Jan. 2011 [Miranda 2006] Eduardo Reck Miranda , Marcelo M. Wanderley: New Digital Musical Instruments Verlag: A-R Editions; Auflage: Pap/Com, Juli 2006 [Möller 1999] Klaus Möller: Kunst im Internet - Netzkunst, Untersuchungen zur Ästhetischen Bildung URL: http://www.screenshock.com/theory/kmdipl/inhalt.htm, Stand: 1999 [Noble 2009] Joshua Noble: Programming Interactivity: Unlock the Power of Arduino, Processing, and OpenFrameworks O'Reilly Media Verlag, Aug. 2009 [Ocarina 2008] iPhone Anwendung: Ocarina URL: http://ocarina.smule.com [Orbitone 2010] Andreas Doms, Lukas Meyer, Florian Werndl, Max Doempfer, Thomas Thomé, Sergej Mut, Michel Gotta: Orbitone Media System Design, University of Applied Science Darmstadt, 2009-2010, URL: http://orbitone.de [Ox 2008] Jack Ox, Cindy Keefer: On Curating Recent Digital Abstract Visual Music In: The New York Digital Salon's ‘Abstract Visual Music’, Katalog und Webseite URL: http://www.centerforvisualmusic.org/Ox_Keefer_VM.htm, 2006 - 2008 [Peacock 1987] Kenneth Peacock: Instruments to Perform Color-Music: Two Centuries of Technological Experimentation ISAST, Pergamon Press, Großbritanien, eingereicht: Aug. 1987, gedruckt: 1988 [Rossing 2008] Thomas D. Rossing: Musical Acoustics In: AccessScience, Mc-Graw-Hill Companies, 2008 [Ruttkowski 1979] Dr. Wolfgang Ruttkowski: Das Schichtenverhältnis im Musikkunstwerk Wissenschaftlicher Aufsatz, Kyoto Sangyo University, zuerst in: Zeitschrift für Ästhetik 24/1, 1979 [Schacht 2010] Marie Schacht: Natürliche Interaktion mit Tangible User Interfaces Belegarbeit im Studiengang Medieninformatik, TU Dresden, Juni 2010 [Schröder 2005] Christian Schröder: Tracking Technologies for Virtual Environments Ausarbeitung, Einführung in Tracking-Technologien, Proseminar Augmented Reality, Juli 2005 [Schröter 2002] Jens Schröter: Intermedialität, Medienspezifik und die universelle Maschine Aufsatz: ausgearbeitete Fassung eines Vortrages, welcher auf der Jahrestagung des SFB 447 am 29.11.2002 gehalten wurde, URL: http://www.theorie-der-medien.de/text_detail.php?nr=46#fn1 [Shi 2011] Dr. Zhuanghua Shi: Multisensorische Wahrnehmung Seminar, Ludwig-Maximilians Universität München, Fakultät Psychologie, Mai 2011 [Snibbe 2000] Scott Sona Snibbe, Golan Levin: Interactive dynamic abstraction In: NPAR '00 Proceedings of the 1st international symposium on Non-photorealistic animation and rendering, ACM New York, USA, 2000 [Spielmann 2006] Yvonne Spielmann, Dr. Petra Löffler: Audiovisualität In: Seminar Video, Lehrstuhl für Medienwissenschaft, Universität Regensburg, Dez. 2006 [Steger 2004] Daniel Steger: Motion Capture mit optisch-magnetischem Trackingsystemen in VRApplikationen Diplomarbeit, Fakultät Informatik, TU Chemnitz, Juli 2004 [Steinböck 2010] Matthias Steinböck: Musikerzeugung mit MultiTouch-Interfaces Bachelorarbeit, TU Wien, Apr. 2008 [Stricker 2002] Didier Stricker: Computer-Vision-basierte Tracking- und Kalibrierungsverfahren für Augmented Reality Dissertation, Fachbereich Informatik, TU Darmstadt, Nov. 2002 [Tajeddini 2011] Damon Tajeddini: Minority Report im Fernsehsessel In: c’t magazin für computertechnik, Heft 11/2011, Seite 168 – 171, Mai 2011 [Uni Weimar: OSC] Medien Wiki der Bauhaus-Universität Weimar: OSC URL: http://www.uni-weimar.de/medien/wiki/OSC, Stand: 07.01.2011 [Visual Music Award] Visual Music Award: Visuelle Musik URL: http://visualmusicaward.de, Abruf: 07.06.2011 [vvvv 2011] Elliot Woods, René Westhof et al.: Linear Spread – illustrated guide to vvvv URL: http://vvvv.org/contribution/illustrated-guide-to-vvvv-for-newbies-in-computer-arts, Feb. 2011 [Wigdor 2011] Daniel Wigdor, Dennis Wixon: Brave NUI World: Designing Natural User Interfaces for Touch and Gesture Morgan Kaufmann Verlag, Apr. 2011 [Wikipedia: Apollon] Wikipedia – die freie Enzyklopädie: Apoll URL: http://de.wikipedia.org/wiki/Apoll, Stand: 29.03.2011 [Wikipedia: Enharmonische Verwechslung] Wikipedia – die freie Enzyklopädie: Enharmonische Verwechslung URL: http://de.wikipedia.org/wiki/Enharmonische_Verwechslung, Stand: 17.06.2011 [Wikipedia: Kinect] Wikipedia – die freie Enzyklopädie: Kinect URL: http://en.wikipedia.org/wiki/Kinect, Stand: 12.06.2011 [Wikipedia: MIDI] Wikipedia – die freie Enzyklopädie: Musical Instrument Digital Interface URL: http://de.wikipedia.org/wiki/Musical_Instrument_Digital_Interface, Stand: 28.05.2011 [Wikipedia: NUI] Wikipedia – die freie Enzyklopädie: Natural User Interface URL: http://en.wikipedia.org/wiki/Natural_user_interface, Stand: 06.05.2011 [Wikipedia: OSC] Wikipedia – die freie Enzyklopädie: Open Sound Control URL: http://de.wikipedia.org/wiki/Open_Sound_Control, Stand: 22.11.2010 [Wikipedia: Psychoakustik] Wikipedia – die freie Enzyklopädie: Psychoakustik URL: http://de.wikipedia.org/wiki/Psychoakustik, Stand: 04.11.2010 [Wiktionary: Musik] Wiktionary – das freie Wörterbuch: Musik, Bedeutungen URL: http://de.wiktionary.org/w/index.php?title=Musik, Stand: 16.05.2011 B. Abbildungsverzeichnis Abbildung 1.1: Überblick zur Inhaltsstruktur der Diplomarbeit 3 Abbildung 2.1: Abbildung zur parallelen Erforschung von GUI- und NUI Technologien 5 [Buxton 2007] Abbildung 2.2: Visualisierungen der Analyse eines Audiosignals 8 [URL: http://www.bias-inc.de/produkte/reveal.html] Abbildung 2.3: Momentaufnahme der Installation „Pi“, I 11 [Akten 2008] Abbildung 2.4: Momentaufnahme der Installation „Pi“, II 11 [Akten 2008] Abbildung 2.5: Übersicht zu Sensortechnologien nach KORN 14 [Korn 2009] Abbildung 2.6: Aufbau einer Kinect 16 Abbildung 2.7: Abbildung der Infrarot-Lichtpunkte, die die IRLampe einer Kinect in den Raum wirft 16 [URL: http://q8-station.com/2010/11/09/what-does-urroom-look-like-when-the-lights-are-off-and-kinect-is-on] Abbildung 2.8: Tiefenbild einer Kinect 16 [Gieselmann 2011] Abbildung 2.9: Darstellung des Stick Figure Modells und Benennung der Knotenpunkte 16 Abbildung 2.10: Abbildung eines Processing-Sketches und seiner grafischen Ausgabe 20 Abbildung 2.11: Abbildung zum EVA-Grundprinzip in vvvv 22 Abbildung 2.12: Bild eines Fußbodenmosaiks als Beispiel für nichtdigitale, visuelle Generative Kunst 24 [URL: http://stubber.math-inf.uni-greifswald.de/ mathematik+kunst/pic/symmetrie/san_marco1.jpg] Abbildung 2.13: Veranschaulichung des Funktionsprinzips eines Musikalischen Würfelspiels 26 Abbildung wurde komponiert aus Quellbildern: [URL: www.floetennoten.net/noten/wuerfelspiel.html] Abbildung 2.14: schematische Darstellung des Entwurfsprozesses für Generative Gestaltung 28 [Bohnacker 2009] Abbildung 2.15: Generierte Grafik aus dem Projekt „Spinal Network“ von Anthony Mattox 29 [URL: http://anthonymattox.com/work/spinal-network] Abbildung 2.16: Abbildung zufällig generierter Werte mittels der Funktionen random() und noise() 30 [Bohnacker 2009] Abbildung 2.17: Abbildung zu Attraktoren 30 Abbildung 2.18: Abbildung von zwei vvvv Patches zu Spreads 32 Abbildung 2.19: Abbildung eines vvvv Patches zu Spreads und Generativem Gestalten 32 Abbildung 3.1: Auszug des römischen Freskos: „Apollon mit Leier“ 35 [URL: http://upload.wikimedia.org/wikipedia/commons/ e/e1/ R%C3%B6mischer_Meister_um_50_001.jpg] Abbildung 3.2: Darstellung der Schwingungen der vier Schallereignisse Ton, Geräusch, Klang, Knall 36 [URL: http://de.wikibooks.org/wiki/Grundlagen_ der_Akustik:_Obert%C3%B6ne_und_Fourier-Analyse] Abbildung 3.3: Darstellung von Frequenzen, deren Summe einen akustischen Ton ergibt 37 Abbildung angelehnt an [Hess 2006] Abbildung 3.4: Abbildung zur auditiven Wahrnehmung 38 [Kauer 2003] Abbildung 3.5: Abbildung einer C-Dur Tonleiter und Benennung von Intervallen 40 Abbildung 3.6: Darstellung eines Tonsystems mit 12 Halbtonschritten, in Notenschrift notiert und als Klaviatur verbildlicht 41 Abbildung 3.7: Darstellung zu Akkordbildungen 42 Abbildung 3.8: Beispiel für Visuellle Musik i.: Paul Klee: Fuge in Rot, 1921 43 [URL: http://www.tzvi-avni.com/kleef2.jpg] Abbildung 3.9: Beispiel für Visuellle Musik ii.: Bainbridge Bishop: Farborgel, 1877 44 [Peacock 1987] Abbildung 3.10: Beispiel für Visuellle Musik iv.: Oskar Fischinger mit Ornamentrollen, 1932 45 [Fischinger 1993] Abbildung 4.1: Überblick zum AMVIS Entwurfsprozess 50 Abbildung 4.2: Gruppierung Interdisziplinärer Sichtweisen 51 Abbildung 4.3: Skizze zum AMVIS Installationsaufbau 53 Abbildung 4.4: Darstellung zum technologischen Aufbau 54 Abbildung 4.5: Überblick zu Möglichkeiten der Generierung des Ton-Materials 55 Abbildung 4.6: Abbildung eines Usine-Patches 56 [URL: http://www.sensomusic.com/usine/ images/ss08v5.jpg] Abbildung 5.1: Strategien für die Klangerzeugung in computergestützten Musikinstrumenten 59 Abbildung 5.2: Tonanschlag-Interfacekonzept: „Scanline“ 60 Abbildung 5.3: Tonanschlag-Interfacekonzept: „Radar“ 60 Abbildung 5.4: Tonanschlag-Interfacekonzept: „Pulsar“ 60 Abbildung 5.5: Tonanschlag-Interfacekonzept: „Züge“ 60 Abbildung 5.6: Interface-Konzepte für das Anspielen eines Akkordes in AMVIS 61 Abbildung 6.1: Darstellung des ersten Interaktionskonzepts für das Melodiespielen 63 Abbildung 6.2: Darstellung des zweiten Interaktionskonzepts für das Melodiespielen 64 Abbildung 6.3: Darstellung des AMVIS - Interaktionskonzepts für das Melodiespielen 65 Abbildung 6.4: Foto zur Anwendung der Interaktionstechnik für das Melodiespielen in AMVIS 66 Abbildung 6.5: Zustandsübergangsdiagramm für das Anspielen von Melodietönen 66 Abbildung 6.6: Darstellung des Harmonie-Systems in AMVIS 67 Abbildung 6.7: Zustandsübergangsdiagramm für das Auswählen von Akkordtönen 67 Abbildung 6.8: Darstellung des Installationsaufbaus und Zuordnung von Benutzerrollen 68 Abbildung 7.1: Abbildung von visuellen Parametern 70 Abbildung 7.2: Darstellung der grafischen AMVIS Oberfläche 73 Abbildung 7.3: Foto der Feedback-Visualisierung des Nutzers 74 Abbildung 8.1: Natürliche Interaktion mit Musikinstrumenten 79 C. Tabellenverzeichnis Tabelle 2.1: Gegenüberstellung ausgewählter Eigenschaften der fünf vorgestellten Programmierumgebungen 19 Tabelle 3.1: Überblick zu Tonintervallen, deren Klangempfindung und Frequenzverhältnis 41 Tabelle 3.2: Schichtenästhetische Betrachtungen zu Musik und Malerei 47 Tabelle 8.1: Zusammenfassung der AMVIS Musizierrollen 75 Tabelle 8.1: Zusammenfassung der Dirigentenrolle 76 Tabelle 8.3: Schichtenästhetische Betrachtung von AMVIS 78 D. Videoverzeichnis Video 2.1: audiovisuelle Installation „Pi” 11 [URL: http://vimeo.com/1582964] Video 2.2: Generative Gestaltung mit Attraktoren 30 [URL: http://vimeo.com/23439182] Video 3.1: visualisiertes Piano, „Farborgel” 2011 44 [URL: http://vimeo.com/23449490] Video 4.1: Audiogenerierung mit vvvv und einem VST-Plugin 55 [siehe Abgabe-CD: “Kap-4_Latenztest”] Video 7.1: Visuelle Musik, Studie No. 1 71 [URL: http://vimeo.com/23097663] Video 7.2: Visuelle Musik, Studie No. 2 72 [URL: http://vimeo.com/23107293] Video 7.3: Visuelle Musik, Studie No. 3 [URL: http://vimeo.com/23439182] 72 E. Softwareverzeichnis vvvv hybride Programmierumgebung v45beta25.1 [URL: http://vvvv.org/downloads] Usine modulare Umgebung für Echtzeit-Audio Produktion und Manipulation v2.7.7.0 [URL: http://www.sensomusic.com/usine] ASIO4all universeller Audio Treiber zur Latenzverringerung v2.10 [URL: http://www.asio4all.com/] loopMIDI virtuelles Midi Kabel v1.0.1.7 [URL: http://www.tobias-erichsen.de/loopMIDI.html] FAAST Gestenerkennung und Emulation von Tastaturund Mauseingaben v0.08 [URL: http://projects.ict.usc.edu/mxr/faast] PrimeSense NITE Kinect Middleware v1.3.1.5 [URL: http://www.openni.org/downloadfiles/openni-compliantmiddleware-binaries/33-latest-unstable] OpenNI Kinect Treiber für Windows Computer V1.1.0.41 [URL: http://www.openni.org/downloadfiles/openni-binaries/20-latestunstable] SensorKinect Kinect Treiber für Windows Computer v5.0.1 [URL: http://projects.ict.usc.edu/mxr/wp-content/uploads/2011/04/ SensorKinect-Win-OpenSource32-5.0.1.zip] F. Anhang Handout zum Programmieren mit vvvv, für Beginner vvvv – WICHTIGE SHORTCUTS Ctrl + I (‚i‘) Detailansicht zum Node öffnen Ctrl + Tab zwischen offenen Patches wechseln Ctrl + P neuen Patch erstellen Ctrl +W Patch schließen Ctrl + Q bestehenden Patch öffnen Node + F1 Help-Patch öffnen (Help-Patches sind Modultest, Dokumentation und Einführung in den Node) MAUS Links Doppel Node - Browser Rechts Doppel IO - Box Rechts + Drag durch Patch navigieren Mitte Haupt-Menü öffnen FENSTER (z.B. RENDERER, INSPEKTOR, SUBPATCHES) Alt + 1 im Fenster öffnen Alt + 2 als Box inline Alt + 3 verstecken PATCH AUFRÄUMEN Ctrl + Y Linien umwandeln (3 Modi: gerade, eckig, Bézier) Alt + L Nodes anordnen (horizontal oder vertikal)