Universität Karlsruhe (TH) Fakultät für Informatik Institut für Algorithmen und Kognitive Systeme Prof. Dr. J. Calmet Kreativität in der Musik durch Spezifizierung Diplomarbeit von Stefan Kink Stand: 1. Februar 2005 Betreuer: Prof. Dr. J. Calmet Betreuender Mitarbeiter: Dipl. Inform. Anusch Daemi Erklärung Hiermit erkläre ich, die vorliegende Arbeit selbständig erstellt und keine anderen als die angegebenen Quellen und Hilfsmittel benutzt zu haben. Karlsruhe, den 1. Februar 2005 Danksagung Ich möchte an dieser Stelle all jenen danken, welche entscheidende Bedeutung an der Entstehung dieser Diplomarbeit haben. Ich danke Herrn Prof. Dr. Calmet, der mir diese Arbeit ermöglicht hat und an dessen Institut ich mich sehr wohl fühlte. Vielen Dank an Anusch Daemi, Doktor in Spe, der mich bei dieser Arbeit betreut und begleitet hat. Herzlicher Dank an Boris Yoffe, der mit seinen Ideen den Anstoß gab am Institut für Algorithmen und Kognitive Systeme eine Diplomarbeit auszuschreiben, die Informatik mit Musik verbindet. Besonders bedanken möchte ich mich bei Herrn Prof. Dr. Thomas Troge von der Musikhochschule Karlsruhe. Er hat viel Zeit für mich aufgebracht und ein Auge darauf gehabt, dass die musikalischen Zusammenhänge sinnvoll berücksichtigt wurden. Deshalb bin ich mir sicher, dass diese Arbeit, obwohl ich Musik nur“ als Hobby betreibe, auch musikwissenschaftlich akzeptabel ist. ” Meiner Praxisgruppe vom VLL 2003 (Solveig Rebholz, Charlotte Becher, Claire Kahmann, Manfred Frank) danke ich für die hervorragende mentale Unterstützung und die Motivation. Ihr seid super :-) Ganz zum Schluss natürlich noch der Dank an meine Eltern für all die Unterstützung jeder Art, ohne Euch wäre es echt schwierig geworden (auch wenn man mal von meiner Nichtexistenz absieht, die ohne Euch Realität wäre :-) ) Noch mal ganz zum Schluss bedanke ich mich bei meinem Computer, der brav die Tipparbeit überstand und nicht ein Mal mein schon Geschriebenes vergessen hat. Ich weiß das zu schätzen und behandle ihn in Zukunft noch pfleglicher als sonst. Inhaltsverzeichnis 1 Einleitung 1 1.1 Menschliche musikalische Wahrnehmung . . . . . . . . . . . . . . . 1 1.2 Forschungsgebiete . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Ziel der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2 Computer und Musik 6 2.1 MIDI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2 Csound . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.3 Sequenzer und Arrangierhilfen . . . . . . . . . . . . . . . . . . . . . 8 2.4 Notensatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3 Ontologie 10 4 Musikalische Grundbegriffe 13 4.1 Ton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.2 Metrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.3 Takt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.4 Rhythmik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.5 Tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4.6 Harmonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 4.7 Klang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.8 Melodie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.9 Noten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.10 Puls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 i ii INHALTSVERZEICHNIS 5 Entwicklung der Ontologie in natürlicher Sprache 5.1 19 Hörerlebnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 5.1.1 Klang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 5.1.2 Geräusch 5.1.3 Pause . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 5.2 Melodielinie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 5.3 Begleitlinie 5.4 Harmonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 5.5 Zeitmaß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 5.5.1 Metrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 5.5.2 Takt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 5.5.3 regelmäßig-unregelmäßiges Zeitmaß . . . . . . . . . . . . . . 23 5.5.4 Rhythmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 5.5.5 unregelmäßiges Zeitmaß . . . . . . . . . . . . . . . . . . . . 23 5.6 Lautstärke und Puls . . . . . . . . . . . . . . . . . . . . . . . . . . 24 5.7 Musikstück . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 5.8 Datentypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 5.9 Besonderheiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 6 Darstellung von Ontologien 26 6.1 RDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 6.2 DAML+OIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 6.3 OWL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 6.3.1 6.4 Kurzübersicht über OWL . . . . . . . . . . . . . . . . . . . 27 OWL-Entwicklungswerkzeug . . . . . . . . . . . . . . . . . . . . . . 30 7 Die Ontologie in OWL 7.1 32 Formale Besonderheiten . . . . . . . . . . . . . . . . . . . . . . . . 34 7.1.1 Überdeckung . . . . . . . . . . . . . . . . . . . . . . . . . . 34 7.1.2 disjoint . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 7.1.3 Value Partition . . . . . . . . . . . . . . . . . . . . . . . . . 35 7.2 Datentyp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 7.3 Hörerlebnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 INHALTSVERZEICHNIS 7.4 iii Unterklassen von Hörerlebnis . . . . . . . . . . . . . . . . . . . . . 38 7.4.1 Klang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 7.4.2 Pause . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 7.4.3 Geräusch . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 7.5 Zeitmass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 7.6 Harmonieobjekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 7.7 Lautstärkenverhältnis . . . . . . . . . . . . . . . . . . . . . . . . . . 43 7.8 Linie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 7.9 7.8.1 Begleitlinie . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 7.8.2 HarmonieLinie . . . . . . . . . . . . . . . . . . . . . . . . . 46 7.8.3 LautstärkenVerhältnisLinie . . . . . . . . . . . . . . . . . . . 46 MelodieLinie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 7.10 Puls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 7.10.1 Pulsfolge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 7.11 Musikstück . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 8 Beispiel 49 9 Spezielle Forschungsergebnisse 54 9.1 Metrumerkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 9.2 Genaueres zu ausgewählten Metrumerkennern . . . . . . . . . . . . 56 9.2.1 Goto & Muraoka 1994 . . . . . . . . . . . . . . . . . . . . . 56 9.2.2 Dixon 2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 9.3 Transkription . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 9.4 Sonstiges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 9.5 Kommerzielle Systeme . . . . . . . . . . . . . . . . . . . . . . . . . 65 10 Zusammenfassung und Ausblick 66 10.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 10.2 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 10.2.1 Klang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 10.2.2 Stil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 10.2.3 Liedtext . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 10.2.4 Musikalischer Kontext . . . . . . . . . . . . . . . . . . . . . 68 iv Literaturverzeichnis INHALTSVERZEICHNIS 71 Abbildungsverzeichnis 1.1 1.2 1.3 slow down“ in voller Länge . . . . . . . . . . . . . . . . . . . . . . ” slow down“, die erste Minute . . . . . . . . . . . . . . . . . . . . . ” slow down“, die ersten 24 Sekunden . . . . . . . . . . . . . . . . . ” 2 3 3 4.1 Leeres Notensystem . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.2 Unterschiedliche Notenlängen . . . . . . . . . . . . . . . . . . . . . 17 4.3 Noten mit unterschiedlicher Tonhöhe . . . . . . . . . . . . . . . . . 17 4.4 Pausen unterschiedlicher Länge . . . . . . . . . . . . . . . . . . . . 18 6.1 Die Protege-Oberfläche . . . . . . . . . . . . . . . . . . . . . . . . . 31 7.1 Der Klassengraph . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 7.2 Die Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 7.3 Datentypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 7.4 Value Partition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 7.5 Hörerlebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 7.6 Zeitmass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 7.7 HarmonieObjekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 7.8 Lautstärkenverhältnis . . . . . . . . . . . . . . . . . . . . . . . . . . 44 7.9 Linie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 7.10 Puls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 8.1 Lied Alle meine Entchen“ . . . . . . . . . . . . . . . . . . . . . . . 49 ” 9.1 Beat-Tracking-System . . . . . . . . . . . . . . . . . . . . . . . . . 58 9.2 Graph zum Gruppierungsalgorithmus . . . . . . . . . . . . . . . . . 61 v vi ABBILDUNGSVERZEICHNIS Tabellenverzeichnis vii viii TABELLENVERZEICHNIS Kapitel 1 Einleitung Diese Diplomarbeit beschäftigt sich damit, wie Musik im Computer so repräsentiert werden kann, dass sie die menschliche Wahrnehmung integrieren kann. Durch die Erstellung einer Ontologie ist es möglich, den Kontext, in dem ein Musikstück steht, zu erfassen und zu formalisieren. Analysen von verschiedener solcher Kontexte erlauben evtl. Rückschlüsse auf die Kreativität, beispielsweise könnte anhand der formalisierten Konzepte erkannt werden, ab wann eine Vortragsweise interessant“ klingt und wann nicht. ” Zuerst wird kurz beleuchtet, wie Menschen überhaupt Musik wahrnehmen. Es folgt ein kurzer Überblick, womit sich aktuelle Forschung derzeit beschäftigt. Der Abschluss des Kapitels dient dazu, die Inhalte der folgenden Kapitel aufzuzeigen. 1.1 Menschliche musikalische Wahrnehmung Es gibt eine Reihe von Hilfsmitteln, die Musikern beim Komponieren, Darstellen oder Aufführen von Musik helfen. So gibt es das Datenformat MIDI (Musical Instruments Digital Interface), mit dem Kompositionen synthetisch abgespielt werden können. Echte Programmiersprachen wie Csound ermöglichen komplexe Klangerzeugungen zu implementieren und anschließend abzuspielen. Notensatzsysteme helfen, die übliche Notennotierung im Rechner schnell und effizient darzustellen. Mit Sequenzersoftware können Tonaufnahmen arrangiert und angepasst werden. All diese Entwicklungen sind schon sehr ausgereift. Sie dienen dem Menschen als Hilfe zur Umsetzung seiner musikalischen Kreativität. Die Analyse von gespielter Musik dagegen ist viel komplexer, und noch nicht so weit erforscht. Der Mensch verfügt über ein akustisches Sinnesorgan, dessen Fähigkeiten erstaunlich sind: 1 2 KAPITEL 1. EINLEITUNG • Wir können entscheiden, woher ein akustisches Signal kommt • wir können Stimmen von einander unterscheiden, auch wenn wir, wie beispielsweise in einem Restaurant, mehrere Stimmen hören. • wir können für uns unwichtige Signale in gewissen Grenzen ausblenden. • Wir können uns auf ein Geräusch bewusst konzentrieren Wir wissen zwar, dass das menschliche Sinnesorgan bestimmte Aufgaben schnell erfüllen kann, aber wir wissen nicht wie es das tut. Hinzu kommt noch, dass der Mensch nicht einfach nur hört, also den Sinneseindruck aufnimmt, sondern auch gleichzeitig bewertet und interpretiert. Deshalb ist das Nachbauen schon von einzelnen dieser Fähigkeiten eine echte Herausforderung. Bisher ist es noch nicht gelungen, ein künstliches Ohr zu konstruieren, das annährend die Fähigkeiten des menschlichen Ohrs hat. Das Musik hören ist nun eine besonders anspruchsvolle Aufgabe für das Ohr. Auf Signalebene betrachtet besteht Musik nur aus Frequenzen zu bestimmten Zeiten mit einer bestimmten Lautstärke. Betrachtet man das Wellenbild, dann kann man darin mit bloßem Auge nicht viel erkennen. Als kurzes Beispiel dient das Lied Eve” rything I need“ vom Album slow down“ des Bluesmusikers Keb Mo. In Abbildung ” 1.1 sieht man die Wellenanzeige des Liedes. Das Lied dauert insgesamt 3:56 min. Da es in Stereo aufgenommen ist, gibt es die zwei Kurven in der Abbildung, eine für den rechten, eine für den linken Kanal. Auf der x-Achse ist die Zeit aufgetragen, auf der y-Achse der Pegel (die Lautstärke). Man kann eigentlich nur erkennen, dass das Lied am Ende ausgeblendet wird, und ohne langes Intro beginnt. Bei der ca. 76. Sekunde scheint in dem Lied eine kurze Pause oder ein Break zu sein. Viel mehr ist nicht zu erkennen. Abbildung 1.2 zeigt die erste Minute des Stücks in Abbildung 1.1: slow down“ in voller Länge ” der Waveanzeige. Hier kann man immerhin den Grundschlag erahnen. Wenn man das Lied gehört hat, dann weiß man, dass die größten Ausschläge vom Schlagzeug stammen. Wo allerdings Strophen sind, oder wo der Refrain beginnt ist auch hier 1.2. FORSCHUNGSGEBIETE 3 Abbildung 1.2: Die erste Minute von slow down“ ” nicht zu sehen. Abbildung 1.3 zeigt die ersten 24 Sekunden. Hier kann man nun das Schlagzeug besser erkennen, und auch gerade so, ab wann die Begleitung richtig einsetzt. Aber es sollte doch deutlich werden, dass in solch einer Darstellung über das, was man tatsächlich hören wurde, nur ganz wenig Information extrahieren kann. Abbildung 1.3: Die ersten 24 Sekunden von slow down“ ” 1.2 Forschungsgebiete Es gibt einige Versuche, aus einem Musikstück das Metrum zu extrahieren ([Dixon ’00], [Goto & Muraoka ’94], [Seppänen ’01], [Rosenthal et al. ’94]), die auf relativ einfach strukturierten Musikstücken sehr gute Ergebnisse erzielen. Werden die Musikstücke aber komplexer, und dadurch interessanter, dann werden die Ergebnisse schlechter. 4 KAPITEL 1. EINLEITUNG Ein weiteres Gebiet auf dem geforscht wird, beschäftigt sich mit der Extrahierung von Melodien oder Basslinien aus vorgespielten Musikstücken ([Goto ’99], ). Die Ergebnisse reichen von gut bis schlecht und schwanken stark. Transkriptionssysteme ([Timo Viitaniemi ’03], [Bello et al. ’00], [Klapuri ’98], [Wolkersdorfer ’]) versuchen, gehörte Musik in Notenschrift umzusetzen. Die erkannten Noten sind zwar meist richtig, doch es werden bei weitem nicht alle Noten erkannt. [Shuttleworth & Wilson ’95] beschäftigt sich mit der Erkennung von Harmonien, [Meredith et al. ’01] mit sich wiederholende Musikpattern. 1.3 Ziel der Arbeit Es gibt aber bisher noch keine Datenstruktur, mit der ein komplexes Musikstück im Rechner so gehalten werden kann, dass es wirklich bearbeitet bzw. analysiert werden kann. Das Ziel dieser Arbeit ist deshalb eine Repräsentation eines Musikstücks, die einerseits dem Rechner in Zukunft zugänglich gemacht werden kann, andererseits aber das menschliche Hören so weit wie möglich berücksichtigt. Dazu wird eine Ontologie entwickelt. Kurz gesagt versucht eine Ontologie ein Denkmodell über eine bestimmte Wissensdomäne zu repräsentieren. Dazu werden Abstrakte gebildet und zu einander in Beziehung gesetzt. Es wird also eine Menge von Konstrukten und ihren Beziehungen zueinander entwickelt, die zusammen ein Musikstück, das angehört wurde, darstellen können. Um musikalische Richtigkeit der Ontologie zu gewährleisten, wurde eng mit Prof. Dr. Troge der Musikhochschule Karlsruhe zusammen gearbeitet. Diese Ontologie wird in OWL, der Ontologie Web Language, repräsentiert. Sie basiert auf RDF, sowie DAML+OIL und benutzt zur Darstellung die Metasprache XML. 1.4 Aufbau der Arbeit Folgende Übersicht zeigt kurz, welche Inhalte in dieser Arbeit behandelt werden: • In Kapitel 2 wird beleuchtet welche wo Computer und Musik mit einander verbunden sind. Ein Schwerpunkt liegt darauf, den Computer als Hilfsmittel für Musiker und Komponisten zu betrachten. • In Kapitel 3 wird geklärt, was unter dem Begriff Ontologie“ zu verstehen ” ist. Da in den weiteren Kapiteln eine Ontologie entworfen werden soll, ist 1.4. AUFBAU DER ARBEIT 5 eine gründliche Betrachtung von Ontologie“ notwendig. ” • In Kapitel 4 werden musikalische Grundlagen erklärt, die dann in den späteren Kapiteln verwendet werden. Zum einen kann nicht vorausgesetzt werden, dass jeder die notwendigen Begriffe überhaupt kennt, zum anderen wird durch genauere Definitionen eventuellen Mißverständnissen vorgebeugt. • In Kapitel 5 die Musik-Ontologie entwickelt. Dabei wird noch kein Wert auf Formalia gelegt, sondern die Zusammenhänge der einzelnen Aspekten von Musikstücken sollen aufgezeigt werden. • Kapitel 6 beschreibt die Entstehung von OWL und gibt eine Kurzübersicht über die Konzepte, die in OWL verfügbar sind. OWL wurde gewählt, um die Musik-Ontologie darzustellen. • Die einzelnen Bestandteile der Musik-Ontologie in OWL werden in 7 genau erläutert. • In Kapitel 8 wird am Beispiel des Liedes Alle meine Entchen“ gezeigt, wie ” die Ontologie praktisch funktioniert. • 9 nimmt Bezug auf bisherige Forschungen. • Der Ausblick 10 zeigt auf, wo an dieser Ontologie noch weiter gearbeitet werden kann. Kapitel 2 Computer und Musik Computer spielen auf verschiedenen Teilgebieten der Musik eine große Rolle: Notation, Komposition, Klangerzeugung, Nachbearbeitung, und vieles mehr. Dabei handelt es sich um Werkzeuge, die den Menschen unterstützen sollen, Musik zu gestalten. 2.1 MIDI Für den Kompositions- und Notationsbereich wurde das MIDI-Datenformat (Musical Instruments Digital Interface) entwickelt. MIDI-Daten sind keine Audiodaten. Das heißt, bei MIDI wird keine echte Musik, wie sie klingt produziert, sondern lediglich notiert, wie sie klingen soll. Man kann sich MIDI-Daten analog zur Notenschrift vorstellen. Über bestimmte MIDI-Befehle wird programmiert, wie lange welcher Ton von welchem Instrument in welcher Lautstärke gespielt werden soll. Die ganze MIDI-Sprache ist ein wenig an das Klavier angepasst, da zur MIDIEingabe und Bearbeitung oftmals MIDI-Keyboards verwendet werden. Beispiele für MIDI-Befehle sind: • Note On: Bestimmt den Anschlagszeitpunkt für eine Note, vorstellbar wie das drücken einer Taste am Klavier • Note off: Bestimmt den Endezeitpunkt der Klangerzeugung, ähnlich dem loslassen der Klaviertaste. Das heißt, dass bestimmte Instrumente noch einen Nachhall haben können, obwohl der Note-off-Befehl schon abgesetzt wurde. • Velocity: Die Geschwindigkeit, mit der eine Klaviertaste gedrückt werden soll. Dies codiert die Lautstärke. • PitchBend: Damit kann man die Tonhöhe eines Tons, während er gespielt wird, in Grenzen verändern. 6 2.1. MIDI 7 Damit also ein MIDI-Stück erklingen kann, werden die MIDI-Daten an einen MIDIfähigen Klangerzeuger geschickt, beispielsweise ein Keyboard, eine Soundkarte, oder ein Synthesizer. Ein Synthesizer ist ein Gerät, dass elektronisch Klänge erzeugt. Damit nun das MIDI-Gerät weiß, welcher Ton wie klingeln soll, wird jedem Ton eine Instrumentennummer mitgegeben. Ein MIDI-Klangerzeuger hat eine Tabelle, die einer Nummer ein Instrument zuordnet, und erzeugt somit den Ton mit dem gewünschten Instrument. Die Klänge werden synthetisch erzeugt, das heißt wenn ein Klarinettenton gefordert wird, dann wird synthetisch ein Klang erzeugt, der nach Klarinette klingen soll. Die Qualität hängt deshalb stark vom verwendeten Synthesizer ab. Je qualitativ hochwertiger, und damit auch teurer, ein Klangerzeuger ist, desto näher kommt die Tonqualität an die tatsächliche Qualität des echten Instrumentes heran. Trotzdem gelingt es bisher nicht mit vertretbarem Aufwand einen klang zu erzeugen, der einem echten“ Instrumentenklang zum verwechseln ” ähnlich ist. Dieses Prinzip hat nun zwei Nachteile: 1. Die Qualität der erklingenden Musik ist absolut abhängig vom verwendeten MIDI-Gerät. Der Komponist kann vorher nicht wissen, wie die MIDI-Datei auf einem anderen Gerät abgespielt klingt. Zudem kann passieren, dass ein gefordertes Musikinstrument auf dem Zielgerät gar nicht vorhanden ist. 2. Da die MIDI-Instrumente nur über Nummern geregelt sind, kann es vorkommen, dass auf dem einen Gerät eine Flöte die Nummer hat, die auf einem anderen Gerät ein Bassinstrument inne hat. Um den zweiten Punkt abzuschwächen wurde der Standard General MIDI“ be” schlossen. General MIDI legt fest, welche Instrumente auf den Nummern eins bis 128 zu liegen haben. Damit ist zumindest sichergestellt, dass auf General-MIDIGeräten die am weiten verbreitetsten Instrumente auf denselben Nummern liegen, und somit die MIDI-Dateien einigermaßen gleich klingen. Vorteile von MIDI sind: • MIDI-Dateien sind sehr klein. Dadurch können sie sehr gut auf Web-Seiten als Hintergrundmusik, oder auf Handys als Klingeltöne eingesetzt werden. • MIDI-Daten sind einfach zu erstellen und zu editieren. Die Eingabe von Musik über ein MIDI-Keyboard ist sehr schnell und bequem. • MIDI-Daten können nicht nur Musikinstrumente ansteuern, sondern auch Effekte. Mit Hilfe von MIDI-Daten könnte beispielsweise ein Hall-Effekt angesteuert werden. Die MIDI-Webseite findet man unter [MIDI-Manufracturers-Association ’]. Einen Einstieg in die digitale Musikverarbeitung mit Hilfe von MIDI bietet das Buch [Peter Gorges ’97], tieferes Wissen findet sich in [Braut ’93]. 8 KAPITEL 2. COMPUTER UND MUSIK 2.2 Csound Csound ist eine der am meisten verbreiteten Programmiersprachen für die Entwicklung von Musikstrukturen und Klangdesign. Sie wurde von Barry Vercoes entwickelt [Vercoes ’]. Insbesondere zum Sound-Design geeignet, lassen sich aber auch komplexe Kompositionen in Csound erstellen. Wie bei einer Programmiersprache gibt der Komponist Zeile für Zeile Befehle in einen Texteditor ein, die nach dem Erstellen dieses Source Codes mit dem Programm Csound kompiliert werden. Am Ende dieser Kompilierung steht eine Klangdatei, z.B. im RIFF (.wav) oder .aif Format. Eine solche Befehlsfolge könnte in Pseudocode so aussehen: • Nehme einen Sinus • Weise dem Sinus die Frequenz 440 Hz zu • Weise dem Sinus die Lautstärke -5dB zu • Spiele den Sinus genau 5 Sekunden lang Csound ist eine Programmiersprache, ein Musikstück wird in Prinzip durch zwei Dateien festgelegt: 1. mittels so genannten Orchesterdateien“ werden die Instrumente festgelegt ” 2. in Score“-Dateien stehen die Partituren ” Es gibt eine Reihe von unterstützenden Programmen, die das komponieren von Musik in Csound unterstützen, beispielsweise die graphische Benutzeroberfläche Max [Cycling-74 ’] Die komplette Csound Dokumentation findet sich unter [CSound ’], grundlegende und weiterführende Kenntnisse über Csound vermittelt das Buch [Boulanger ’00] 2.3 Sequenzer und Arrangierhilfen Wertvolle Hilfe leisten Computer beim produzieren von Musik, zum Beispiel in Tonstudios. Musiker können einzelne Teilstücke eines Musiktitels einspielen, die dann in so genannten Sequenzerprogrammen arrangiert werden. Der Rechner kann die so angeordneten Musikfragmente in Echtzeit abspielen, was das Ausprobieren verschiedener Arrangiermöglichkeiten erheblich beschleunigt. Doch diese Programme helfen nicht nur beim arrangieren, sie können auch einige Unterschiedliche Effekte auf bestimmte Tonspuren legen, und diese ebenfalls in Echtzeit berechnen. Beispiele für Effekte: 2.4. NOTENSATZ 9 • Verzerren, ähnlich zu den Gitarrenverzerrern • Hall, als ob man sich in einer großen Kirche befände • Pitchen, eine Tonspur in der Tonhöhe manipulieren. Wird zum Beispiel eine Stimme nach oben gepiched, dann entsteht der so genannte Mickey-Mouse” Effekt“. Die Stimme klingt dann comicartig. Auch für die Komposition von Filmmusik sind solche Programme vorteilhaft. Durch sie kann die Musik den bewegten Bildern framegenau angepasst werden. Beispielsweise setzt ein Trommelwirbel genau dann ein, wenn etwas Dramatisches auf der Leinwand geschieht. Beispiele für Sequenzer-Programme wären Logic Pro von Emagic, mittlerweile von Apple Computers übernommen [Emagic ’], und ProTools von Digidesign [Digidesign ’] Durch die Echtzeitfähigkeit werden sogar Live-Auftritte mit Computerunterstützung möglich. 2.4 Notensatz Ein Komponist, der Musik für Streichorchester oder ähnliches komponiert, freut sich über einen bequemen Noteneditor. Ohne Computer ist es doch recht aufwändig, komplette Partituren von Hand zu schreiben. Nicht allein die Vielzahl von Noten macht es sehr langwierig, auch sollte das Ergebnis für die Musiker, die das Stück dann spielen sollen, lesbar sein. Durch komplexe Notensatzprogramme ist es einem Komponist möglich, eine saubere, sogar druckfähige Version von seinem Musikstück zu gestalten. Auch das Noten eingeben ist komfortabler als von Hand, da mit Hilfe eines Keyboards über MIDI-Daten sehr große Teile eines Werkes einfach eingespielt werden können. Bekannte Notensatzprogramme sind Capella“ der gleichnamigen Firma ” [Capella ’], oder Finale“ der Firma Klemm Music [Klemm-Music ’]. ” Kapitel 3 Ontologie Ursprünglich ist die Ontologie ein Zweig der Philosophie, genauer der Metaphysik. Während sich die Physik mit der Existenz der materiellen Dinge und deren Bewegungen befasst, sind es bei der Metaphysik die Gründe der Dinge und der dahinter stehenden Ideen. Der Begriff Ontologie kommt aus dem Griechischen: ontos“ heißt das Sein“ ” ” und logos“ das Wort“. Sie beschäftigt sich mit dem Sein, bzw. mit den ” ” Möglichkeiten und den Bedingungen des Seins. Eine große Rolle spielt dabei der Unterschied zwischen dem vom Menschen Wahrgenommenen und der Realität. Barry Smith legt in [Smith ’04] drei grundlegende Sichtweisen fest, einer liegt eine idealistische, einer eine skeptischen und einer eine aufbauenden Philosophie zugrunde: • eine Sicht, in der so etwas wie eine objektive Realität der Konzepte oder grundsätzliche Aussagen in unseren Wissensrepräsentationssystemen entsprechen würden, nicht existiert • eine Sicht, in der wir nicht wissen können, was eine objektive Realität ist, so dass kein praktischer Nutzen aus dem Versuch, eine solche Entsprechung einzurichten, gezogen werden kann. Also es gibt eine objektive Realität, aber wir können sie nicht erkennen. • eine Sicht, in der der Begriff Realität“ in jedem Fall nicht mehr anzeigt, ” als ein Konstrukt aus Konzepten, so dass jedes Konzept-System im Prinzip einen gleichwertigen Anspruch hat, seine eigene Realität“ oder Mögliche ” ” Welt“ zu haben. Damit erklärt sich auch der Bezug zur Informatik. Sehr oft wird versucht, Erkanntes oder Erdachtes, kurz gesagt Wissen“, zu repräsentieren, zu speichern, ” 10 11 zu kommunizieren und weiter zu verarbeiten. Eine grundlegende Einführung findet sich in [Sowa ’00]. Wissen“ ist sehr breit gefächert zu verstehen: Zum ” Beispiel Regeln in einem technischen Anwendungsbereich, Inhalt von Webseiten, oder das Wissen darüber, welcher Wein zu welchen Speisen passt. Wir Menschen verwenden die ganze Zeit gespeichertes Wissen“. Wir merken ” uns viele verschiedene Sachen aus vielen Bereichen und sind in der Lage, selber Gelerntes mit Zusätzlichem Wissen aus Büchern, Vorträgen oder Ähnlichem zu verbinden. Das erweitert unser Wissen und hilft uns bei Entscheidungsfindungen. Will man nun Such-, Kommunikations- und Entscheidungsaufgaben einem Automaten überlassen, so stellt sich die Frage, wie man dem Automat genau dieses “ Wissen“ zur Verfügung stellt. Es wird also eine Repräsentation gesucht, wofür sich im Laufe der Zeit der Begriff Ontologie“ eingebürgert hat. ” T. Gruber ([T.R.Gruber ’93] definiert Ontologie als: explizite formale Spezifika” tion einer gemeinsamen Konzeptualisierung“ (shared conceptualization). So betrachtet ist eine Ontologie also eine formale Beschreibung einer Wissensdomäne mit einer standardisierten Terminologie und Beziehungen zwischen den dort definierten Konzepten. Diese Terminologie wird im Allgemeinen durch eine Taxonomie festgelegt. Zu dem Ausgangselement Klasse kommen dann noch Relationen, Funktionen und Axiome hinzu. So kann es also auch unterschiedliche Ontologien für unterschiedliche Wissenschaftsbereiche geben, sogar für den gleichen Bereich mit unterschiedlichen, vielleicht auch konkurrierenden Terminologien. Leider ist die Definition der Ontologie als eine Konzeptualisierung“ nicht beson” ders präzise, da auch diese Konzeptualisierung“ nicht scharf definiert ist. ” Gruninger und Lee unterscheiden in [M.Gruninger & Lee ’02] drei Anwendungsfelder: • Kommunikation: Sollen zwei Programme miteinander kommunizieren, so müssen sie entweder selbst die Interpretationsvorschrift für die Daten mit sich führen oder aber sie liefern diese in Form von Metadaten aus einer für beiden Seiten zugänglichen Ontologie mit. • Automatisches Schließen: Auf Grund der in der Ontologie vorhandenen Ableitungsregeln lassen sich logische Schlüsse ziehen. Diese müssen dann auch nicht mehr stets von neuem übermittelt werden. • Wissensrepräsentation und -wiederverwendung Ontologien sind also in allen Bereichen der Informatik von Bedeutung, die sich mit Wissen in irgendeiner Form beschäftigen. Diese sind zum Beispiel künstliche 12 KAPITEL 3. ONTOLOGIE Intelligenz, Datenbanken und Informationssysteme, aber auch angrenzende Gebiete (zum Beispiel Softwaretechnik oder Multimedia-Kommunikation) oder Anwendungsgebiete wie e-commerce [Fensel ’00]. Eine große Datenbank für Ontologien findet sich z.B unter Ontolingua ([Farquhar et al. ’97], [Gruber ’96]) oder CyC ([Lenat & Guha ’90]). Ontologien spielen zurzeit eine große Rolle im Bereich des Semantic Web“ ” [Berners-Lee et al. ’01]. Ziel des Semantic Web“ ist es, Web-Dokumente mit ” einer Semantik“ mit Hilfe von Metadaten ( tags“) zu versehen, die ihren Inhalt ” ” näher beschreiben. Zusätzlich sollen die Dokumente durch Ableitungsregeln miteinander verknüpft werden. Damit sollen zum Beispiel Suchmaschinen unterstützt werden, benötigte Informationen gezielt und effizient zu finden und gleichzeitig zu verbinden. Ontologien sollen dazu dienen, genau diese Metadaten und Verknüpfungsregeln zu liefern. [w3c ’] Die Gesellschaft für Informatik [GI ’] sieht folgende ungelöste Probleme bezüglich Ontologien: • Wie lassen sich gut verwertbare Metadaten für sehr große Ressourcenbestände erzeugen und konsistent weiterentwickeln? Lässt sich das Annotieren von Dokumenten sinnvoll automatisieren? • Können Ressourcen klar und eindeutig klassifiziert werden, z.B. in Dokumente, Daten, Metadaten, physische und virtuelle Aktoren (actors), physische Einheiten? • Wie lassen sich Metadaten in (möglicherweise überlappende und inkonsistente) Ontologien einordnen? Wie werden Synonyme, Homonyme und zirkuläre Definitionen behandelt? • Macht es Sinn, nach einer gemeinsamen, allen Ontologien unterliegenden Top-level-, Universal- oder Meta-Ontologie zu suchen - oder führt dies zu ähnlichen Schwierigkeiten wie die Suche nach einem objektiven Weltbild in der Physik? Einen guten Einblick in das Entwickeln von Ontologien, speziell für Wissensmanagement und das Semantic Web findet man in [Asuncion Gomez-Perez ’04]. Kapitel 4 Musikalische Grundbegriffe Um die Musik-Ontologie verstehen zu können, sind Kenntnisse über musikalische Begriffe nötig, die im folgenden vermittelt werden sollen. 4.1 Ton Ein Ton entsteht durch periodische Schwingungen eines elastischen Körpers. Diese Schwingungen werden über ein Medium dem Ohr zugeführt. Der einfachste Ton ist der durch genau eine Frequenz definierte Sinuston. In der Natur kommen einfache Sinustöne praktisch nicht vor. Die Töne, die natürlich erzeugt werden, sind meist komplexer. Das heißt, sie haben einen Grundton (eine Grundschwingung), und mehrere gleichzeitig erklingende Obertöne, die die Klangfarbe ausmachen. Bei jeder natürlichen Tonerzeugung wird neben dem Grundton noch eine Vielzahl höherer Töne zum Schwingen angeregt. Man nennt diese Obertöne, Partialtöne, Teiltöne, die Folge dieser Töne heißt Obertonreihe. Die Gesamtheit aller Obertöne ergibt das Frequenzspektrum eines Tons. Zu beachten ist, dass der Begriff Obertöne“ die Grundfrequenz nicht mit ein” schließt. Der erste Oberton ist daher bereits der zweite Teilton. Die Frequenzen der Obertöne hängen von der Physik des jeweiligen Klangerzeugers ab, es sind seine Eigenfrequenzen. Es gibt Instrumente mit harmonischen und solche mit nichtharmonischen Obertonreihen. Bei Instrumenten mit harmonischen Obertonreihen sind die Frequenzen der Obertöne ganzzahlige Vielfache der Frequenz des Grundtons. In diesem Fall nennt man die Obertöne auch Harmonische. Der erste Oberton (zweite Harmonische) hat die doppelte Frequenz des Grundtons, der zweite Oberton (dritte Harmonische) die dreifache Frequenz, der dritte Oberton (vierte Harmonische) die vierfache Frequenz usw. Bei Instrumenten mit nichtharmonischen Obertonreihen stehen die Frequenzen der 13 14 KAPITEL 4. MUSIKALISCHE GRUNDBEGRIFFE Teiltöne in komplizierten nicht ganzzahligen Verhältnissen zueinander. Höhere Obertöne sind bei natürlichen Tönen in der Regel leiser (pegelschwächer) als tiefere, da für ihre schnellere Schwingung mehr Energie verloren geht. Die spezifischen Pegel von Obertönen ermöglichen nicht nur die Unterscheidung von Instrumenten, etwa zwischen einer Klarinette und einer Violine oder Oboe, sondern auch von menschlichen Stimmen. Insgesamt bestimmen im Prinzip drei Parameter einen Ton: Tonhöhe, Lautstärke und Klangfarbe. 4.2 Metrum Eigentlich ist Metrum ein Begriff aus der Sprachlehre. Darin ist das Metrum das abstrakte Schema der in so genannten Versfüßen gemessenen Silbenabfolge. Verschiedene Metren kommen durch die Kombination von kurzen und langen Silben zustande. Schon hier ist Metrum also ein Begriff, der mit Betonung zu tun hat. In der Musik bezeichnet Metrum den gleichmäßigen Grundschlag, der sich durch ein Musikstück, oder zumindest einen Teil des Stücks wie ein roter Faden hindurch zieht. Wichtig ist, dass das musikalische Metrum an sich unbetont ist. 4.3 Takt Ein Takt ist die Zusammenfassung von mehreren Schlägen aus dem Metrum. Diese Schläge bilden nun eine metrisch geordnete Einheit von betonten und unbetonten Zählzeiten. Die Taktart eines Stücks oder Teilstücks wird in Form eines Bruchs angegeben. Nenner legt fest, welcher Notenwert einem Schlag entspricht. Der Zähler zeigt die Anzahl von Schlägen pro Takt an. Ein Beispiel: 3/4 Takt bedeutet, dass es in einem Takt 3 Schläge gibt, deren Abstand von einander eine Viertelnote entspricht. 4.4 Rhythmik Die Rhythmik ist die Lehre von der unterschiedlichen Bedeutung der Tondauern innerhalb der metrischen Einheiten. Diese Tondauern bilden Akzentmuster, die auf den Grundschlag (das Metrum) gelegt werden. Nur in Ausnahmefällen sind Metrum und Rhythmus identisch, in der Regel ist der Rhythmus komplexer. Aber durch die Wiederkehr eines Musters behält der Rhythmus den Bezug zum Taktintervall. 4.5. TEMPO 4.5 15 Tempo In der klassischen Musik ist es üblich, die Geschwindigkeit, mit der ein Musikstück gespielt werden soll, ungefähr anzugeben. Dazu gibt es beispielsweise folgende Anweisungen: • Prestissimo: äußerst schnell • Vivacissimo: äußerst schnell • Presto: (sehr) schnell • vivace: lebhaft • Allegro: schnell, heiter • Moderato: mäßig bewegt • Largo: breit • adagio: langsam Dies sind nur einige, die dem Interpret des Musikstücks eine ungefähre Vorstellung geben sollen, wie schnell ein Stück gespielt werden soll. Hinzu kommen noch weitere Anweisungen, die eine Tempoänderung eines Stücks beschreiben. Hier vier Beispiele: 1. Ritardando (langsamer werdend) 2. Meno mosso (weniger bewegt) 3. Stringendo (drängend) 4. Accelerando (schneller werdend) Auch dies ist nur eine kleine Auswahl. 4.6 Harmonie Die Harmonielehre beschäftigt sich mit der Bedeutung von Klängen, die zur gleichen Zeit erklingen. Den Abstand zwischen zwei Tönen nennt man Intervall. Erklingen drei oder mehr Töne unterschiedlicher Tonhöhe gleichzeitig, so nennt man dies Akkord. Manche klingen angenehm in unseren Ohren, manche fremd und manche klingen sogar fast schmerzhaft. 16 4.7 KAPITEL 4. MUSIKALISCHE GRUNDBEGRIFFE Klang Ein Klang beschreibt ein musikalisches Hörerlebnis, das als Einheit und als har” monisch“ empfunden wird. Jeder einzelne Ton, der von einem Instrument erzeugt wird, ist ein Klang. Klänge können unterschiedlich lang sein. Ein Klang darf auch seine Lautstärke oder sogar Tonhöhe verändern, so lange er immer noch vom Menschen als Einheit empfunden wird. 4.8 Melodie Melodie leitet sich vom griechischen Wort melos, Lied oder Weise, ab. Eine Melodie ist eine Folge von Tönen, die zeitlich nacheinander erklingen. Sie ist künstlerisch geformt, in sich geschlossen und selbstständig. Ein wesentliches Merkmal einer Melodie ist, dass nicht der absolute, sondern der relative Tonhöhenverlauf charakteristisch für sie ist. Das liegt unter anderem auch daran, dass nur wenige Menschen über das absolute Gehör verfügen. Mit dem absoluten Gehör sind Menschen in der Lage, einem erklingenden Ton die absolute Tonhöhe zuzuordnen. Alle Menschen, die nicht über das absolute Gehör verfügen, haben das so genannte relative Gehör. Sie können zwar, mit etwas Training, hören, um wie viele Halbtöne zwei klingende Töne auseinander liegen, aber die absolute Lage werden sie nicht bestimmen können. Wichtig für die spätere Ontologie ist, dass man grob zwei Unterscheidungen von Melodien treffen kann: Homophone und polyphone Melodien. Eine homophone (einstimmige) Melodie im Wortsinn meint, dass außer der Melodie nichts anderes zu hören ist, auch keine Begleitung. Beispielsweise geschieht dies beim gregorianischen Gesang. Im weiteren Sinne meint eine homophone Melodie auch eine solche, die nur von einfachen Akkorden begleitet wird oder die Begleitung ganz deutlich als solche zu erkennen ist und die Melodie sich klar davon absetzt. Eine polyphone (vielstimmige) Melodie lässt in jeder Stimme eine gleichberechtigte melodische Entwicklung zu. Beispiele hierfür wäre eine Fuge oder ein Kanon. Bei einem komplexen polyphonen Satz lässt sich eine Hauptmelodie nicht heraushören. Dennoch ist es so, dass wir Menschen in Musik immer eine Melodie suchen. Daher kann es sein, dass unterschiedliche Menschen bei polyphonen Sätzen eine unterschiedliche Wichtigkeit der einzelnen Stimmen zu bestimmten Zeiten wahrnehmen. In der klassischen Musik werden sehr häufig polyphone Melodien verwendet, beispielsweise im Fugenteil der Toccata von Bach. In der Popmusik sind dagegen homophone Melodien häufiger zu finden. 4.9. NOTEN 4.9 17 Noten Noten werden verwendet, um Musik zu notieren. Eine Note gibt an, wie lange und auf welcher Tonhöhe ein Ton zu klingen hat. Dazu dient ein Notenwert: Eine so genannte ganze Note“ dauert einen Takt (Takt wird unten erläutert), eine ” halbe Note“ dauert halb so lang wie eine ganze Note“, eine viertel Note“ ein ” ” ” Viertel so lang, usw. Noten werden in einem Notensystem notiert. Ein leeres Notensystem zeigt Abbildung 4.1. Lediglich die Unterteilung in Takte ist zu sehen. Abbildung 4.1: Ein leeres Notensystem Eine Note wird dargestellt durch einen Kreis, und eventuell einen Strich nach oben oder nach unten, der am linken Rand des Kreises ansetzt. Noten werden direkt auf einen der fünf Querstriche des Notensystems geschrieben, oder zwischen zwei Querstriche. Dadurch wird die Tonhöhe der Note bestimmt. Die Länge einer Note, also ob es sich beispielsweise um eine ganze Note“ oder eine ” viertel Note“ handelt, ergibt sich aus der Darstellung der Note. In 4.2 ist zu sehen, ” wie unterschiedlich lange Noten dargestellt werden, und wie am Anfang der Takt, ein 4/4 Takt, festgelegt wird. Abbildung 4.3 zeigt dann Noten mit unterschiedlicher Tonhöhe. Abbildung 4.2: Noten der gleichen Tonhöhe, die unterschiedlich lang sind Abbildung 4.3: Noten mit unterschiedlicher Tonhöhe Pausen werden auch notiert. Wie für Noten gibt es Symbole für Pausen, deren Länge im Bezug zum Takt steht: Ganze Pausen, Halbe Pausen, usw. Die Längen von aufeinander folgenden Pausen addiert sich. Die Symbole sind in Abbildung 18 KAPITEL 4. MUSIKALISCHE GRUNDBEGRIFFE 4.4 zu sehen. Abbildung 4.4: Pausen unterschiedlicher Länge 4.10 Puls Puls ist eigentlich kein echter Begriff aus der Musik. Er wird aber in den folgenden Kapiteln verwendet. Es handelt sich dabei um einen Impuls, der vor allem gefühlt“ wird. Er entsteht ” vor allem durch plötzliche Lautstärkeveränderungen, die bestimmte Stellen in Musikstücken besonders wichtig erscheinen lassen. Ein Puls entsteht beispielsweise, wenn ein sehr langer, leiser Ton durch einen kurzen etwas lauteren Unterbrochen wird. Pulse können unterschiedlich stark ausfallen. Ein Trompeter kann beispielsweise einen Ton hart oder eher weich anblasen. Das Anblasen eines Tons erzeugt immer einen Puls. Der härtere Anstoß macht aber den Ton an sich wichtiger als der weiche. Der Puls, der von dem akzentuierten Ton hervorgeht, wird als wichtiger erachtet. Kapitel 5 Entwicklung der Ontologie in natürlicher Sprache Was geschieht physikalisch, wenn Menschen Musik hören? Musik setzt sich aus Frequenzen zusammen, die zu bestimmten Zeiten bestimmte Lautstärken annehmen. Kurz gesagt besteht Musik also aus den drei Komponenten Zeit, Frequenzen und Lautstärke, die das menschliche Ohr wahrnehmen kann. Allerdings bezieht sich dies nicht nur auf Musik, sondern generell auf alles, was akustisch wahrnehmbar ist. Europäische Musik hat aber Merkmale, die sie von einer Ansammlung von Geräuschen oder Ähnlichem unterscheidet. Europäische Musik zeichnet sich durch Metrum und Rhythmen aus. Metrum ist der gleichmäßige, unbetonte Grundschlag, der sich durch ein Musikstück hindurch zieht. Er legt die Geschwindigkeit eines Stückes fest. Rhythmus ist ein (wiederkehrendes) Akzentmuster, das auf dem Metrum aufbaut. Das alleine reicht aber noch nicht aus, um europäische Musik, zu beschreiben. Beispielsweise kann eine arbeitende Maschine auch so etwas wie Metrum und Rhythmus erzeugen, aber im Allgemeinen wird so etwas nicht als Musik betrachtet. Das Sprichwort der Ton macht die Musik“ liefert einen weiteren Hinweis. Eu” ropäische Musik besteht auch aus Tönen und Klängen. Diese grenzen sich von Geräuschen dadurch ab, dass sie eine feste Tonhöhe haben. Physikalisch gesehen ist die Tonhöhe die Hauptfrequenz. Die anderen Frequenzen, die bei einem Klang mitschwingen, legen die Klangfarbe fest. Zwei unterschiedliche Instrumente, beispielsweise eine Trompete und eine Klarinette, können denselben Ton spielen und wir Menschen erkennen die gleiche Tonhöhe. Dennoch wird die Unterschiedlichkeit der Töne wahrgenommen, nämlich dass ein Ton von einer Klarinette, der andere von einer Trompete erzeugt wurde. Doch irgendwelche Töne allein reichen auch noch nicht vollends aus, um Musik zu machen. Ein Windspiel reiht auch Töne aneinander, aber als Musik werden seine Klänge eher nicht empfunden. Wenn Klänge aber eine Melodie bilden, sind alle Zweifel beseitigt, ebenso wenn Harmonien hörbar werden. 19 20KAPITEL 5. ENTWICKLUNG DER ONTOLOGIE IN NATÜRLICHER SPRACHE 5.1 Hörerlebnis Der Kernpunkt der Musik-Ontologie ist das Hörerlebnis. Alles, was irgendwie hörbar ist soll ein Hörerlebnis sein. Jedes dieser Hörerlebnisse findet über einen begrenzten Zeitraum statt (wenn man von Krankheiten, wie z.B. Trinitus absieht). Damit hat jedes Hörerlebnis einen Anfangszeitpunkt und ein Endzeitpunkt. Hörbar werden diese durch ihre Frequenzen. Folglich braucht jedes Hörerlebnis erstmal mindestens eine ihm zugeordnete Frequenz. Das Konstrukt Hörerlebnis wird nun in drei disjunkte Untermengen aufgeteilt. 1. Ein Klang ist ein Hörerlebnis, das eine Tonhöhe hat. Klänge sind die Hauptbestandteile von Musik (siehe 4.7). 2. Ein Geräusch ist ein Hörerlebnis, das mindestens zwei Frequenzen hat, aber keine Tonhöhe. Wenn nur eine Frequenz zu hören ist, so ist die Tonhöhe festgelegt und das Hörerlebnis somit ein Klang. Trotzdem können sich Klänge in der Klangfarbe unterscheiden. Dafür sind die Nebenfrequenzen zuständig. 3. Die dritte Untermenge ist ein Sonderfall. Sie beschreibt genau den Fall, dass in einem Zeitintervall nichts zu hören ist. In der Musik wird dieses Phänomen Pause genannt und oftmals als Stilmittel eingesetzt. Deshalb muss auch dieser Fall berücksichtigt werden und als eigene Menge bestehen. Notwendig für ein Hörerlebnis sind genau ein Startzeitpunkt, genau ein Endzeitpunkt und genau eine Lautstärke. Das Hörerlebnis muss die (später genauer erklärten) Mengen Geräusch, Klang und Pause überdecken. Das heißt, ein Hörerlebnis muss immer entweder ein Geräusch, oder ein Klang, oder eine Pause sein. All diese Hörerlebnisse beeinflussen das Metrum und Rhythmusempfinden des Menschen einmal direkt, und einmal durch das Lautstärkeverhältnis zweier Hörerlebnisse zueinander. Um diesen indirekten Einfluss zu modellieren, wird später (hier referenzieren) das Konstrukt Puls“ eingeführt. ” 5.1.1 Klang In 4.7 wurde beschrieben, was ein Klang ist. Diese Definition wird hier modifiziert. In dieser Ontologie hat die Menge Klang“ eine festgelegte Tonhöhe und eine ” festgelegte Lautstärke. Dies wird nötig, weil ein eigentlicher Klang so viele Parameter hat, die sich während der Zeitdauer, die ein Klang zu hören ist, permanent ändern. Wenn man nun die Zeitdauer der Objekte der Menge Klang“ ” sehr kurz macht, so kann ein eigentlicher Klang durch viele Klang“-Objekte ” approximiert werden. Wenn also beispielsweise ein Geiger einen sehr langen Ton erst gerade anspielt, aber nach und nach mit Vibrato versieht und dazu noch immer lauter spielt, dann ist dies eigentlich nur ein Klang. In der Musik-Ontologie 5.2. MELODIELINIE 21 müsste jetzt dieser Klang in sehr kleine Zeitintervalle aufgeteilt werden, und für jedes Zeitintervall ein eigenes Klang-Objekt existieren. Damit können auch komplexe und komplizierte Interpretationen von Musikern modelliert werden. Die Kategorie Klang wird aufgeteilt in die zwei Teile Melodieklang und Begleitklang. Diese sind disjunkt und jeder Klang in einem Musikstück muss entweder ein Melodieklang oder ein Begleitklang sein. Menschen suchen in der Musik, die sie hören, eine Melodie. Trivial ist das bei einem einstimmigen Stück, beispielsweise einem Kinderlied. Sobald aber das Kinderlied mit einer Gitarre begleitet wird, wird der Unterschied zwischen Melodie und Begleitung sehr deutlich. Damit kann man einen Klang schnell zur Melodie zuordnen oder eben zur Begleitung. Ein Klang ist also entweder ein Melodieklang oder er dient zur Begleitung. 5.1.2 Geräusch Alles, was kein Klang und auch keine Pause ist, ist ein Geräusch. Musik besteht nicht immer nur aus Klängen. Besonders im rhythmischen Bereich werden viele Geräusche eingesetzt. Trommeln erzeugen in der Regel keine Töne mit Tonhöhe. Pauken dagegen schon. Der Übergang ist also fließend. Manchmal werden aber auch mit Absicht Geräusche aus der Umwelt in Musikstücken eingesetzt. So donnern zum Beispiel im Finale der Ouvertüre 1812 von Peter Tschaikowsky Kanonen. Musik besteht zwar nicht nur aus Geräuschen, aber sie werden durchaus zur Gestaltung verwendet. 5.1.3 Pause Die Pause ist ein besonderes Stilmittel in der Musik. Sie wird oft als Überraschungsmoment verwendet, weil eine Pause ein herausragendes Ereignis ist. Eine Pause findet auch Verwendung als Übergang bei Tempiwechseln, Taktwechseln oder sogar Stilwechseln. 5.2 Melodielinie Eine Melodielinie besteht aus einer Menge von Melodieklängen. Das ist einfach bei Kinderliedern, die normalerweise aus genau einer Melodielinie bestehen. Hier gehören alle Melodieklänge zu einer Melodielinie. Bei einem Kanon wird es schon schwieriger. Hier kommt man auch in den Konflikt, was denn nun Melodie (siehe 4.8) und was Begleitung ist. Jeder Mensch wird vielleicht zu einem Zeitpunkt eine 22KAPITEL 5. ENTWICKLUNG DER ONTOLOGIE IN NATÜRLICHER SPRACHE andere Stimme als Melodie empfinden, und dieses Verhalten wird in der Ontologie berücksichtigt. Eine Melodielinie ist in der Regel einstimmig. Es können mehrere Melodielinien nebeneinander existieren und ein Melodieklang kann Teil mehrerer Melodielinien sein. Beispielsweise wenn sich in einem Kanon an einer Stelle zwei Melodien kurzzeitig auf einem Ton treffen. Dieser Ton gehört dann zu beiden Melodien. Die Melodielinie hat auch auf die Rhythmenbildung Einfluss, da jede Melodie selber einen Rhythmus hat, und eventuell sogar zusammen mit der Begleitlinie einen bildet. 5.3 Begleitlinie Alle Klänge, die nicht zur Melodie gehören, also die Begleitklänge, gehören zu einer Begleitlinie. Im Gegensatz zur Melodielinie sind die Begleitlinien in der Regel mehrstimmig. Beispielsweise wird eine Gitarrenbegleitung normalerweise als eine Begleitlinie empfunden. 5.4 Harmonie Die Menge der Harmonieobjekten beschreibt eine Harmoniebeziehung zwischen mindestens zwei Klängen. Ein Harmonieobjekt besteht über einen bestimmten Zeitraum. Deshalb müssen die Klänge, die die Harmonie (siehe 4.6)bestimmen, natürlich im selben Zeitraum erklingen. Ein Harmonieobjekt kann man sich analog zu Gitarrenakkorden vorstellen, die über Textzeilen stehen. Die Harmonieobjekte können nun eine Harmonielinie bilden. 5.5 Zeitmaß Die Zeiteinteilung ist essentiell für jedes Musikstück. Das Zeitmaß bildet das Allgemeinste, was im Bezug auf Zeiteinteilung möglich ist. Jedes Zeitmaß gilt nur für ein bestimmtes Zeitintervall und hat deshalb eine Startzeit und eine Endzeit. Es wird unterteilt in regelmäßiges und unregelmäßiges Zeitmaß. Unter regelmäßiges Zeitmaß fallen das Metrum (4.2, der Rhythmus (??) und das Konstrukt regelmäßig-unregelmäßiges Zeitmaß. 5.5.1 Metrum Das Metrum ist gekennzeichnet durch ein Zeitintervall. Das ist genau die Zeit, die zwischen zwei Schlägen vergeht. Auf der Startzeit liegt der erste Schlag, alle weite- 5.5. ZEITMASS 23 ren können dann berechnet werden, falls die Musik elektronisch genau erzeugt oder bearbeitet wurde. Sobald aber Menschen Musik machen, wird die Zeiteinteilung automatisch etwas ungenauer, da das menschliche Zeitgefühl nicht perfekt ist. Die Zeitintervalle zwischen zwei Schlägen sind also um Nuancen verschieden. Je besser ein Musiker ist, desto kleiner sind die Untschiede. Aufgrund dessen wird noch ein Ungenauigkeitsfaktor eingeführt. Wir Menschen sind tolerant, wenn die einzelnen Unterschiede zwischen den Zeitintervalle klein genug sind. Wie klein diese sein müssen, lässt sich nicht genau bestimmen, da besonders zwei Faktoren dabei eine Rolle spielen: 1. Je langsamer ein Stück ist, desto größer können die Ungenauigkeiten sein. 2. Jeder Mensch ist unterschiedlich empfindlich für zeitliche Schwankungen. 5.5.2 Takt Ein Takt ist ein Metrum mit Betonung (4.3). Instanz von Takt könnte zum Beispiel ein 34 Takt sein, allerdings auf einen bestimmten Zeitraum beschränkt. 5.5.3 regelmäßig-unregelmäßiges Zeitmaß Unter das Konstrukt regelmäßig-unregelmäßiges Zeitmass fallen Ereignisse, bei denen die Zeitabstände zwar nicht mehr gleich, aber dennoch regelmäßig (zum Beispiel linear) sind. Dazu gehören Stellen, bei denen ein Musikstück schneller (accelerando, siehe 4.5) oder langsamer (ritardando) wird. 5.5.4 Rhythmus Man braucht auf jedenfall ein Behälter für Rhythmus (siehe 4.4), in dem Rhythmusmuster gehalten werden. Auch ist klar, dass sich ein Rhythmus von den anderen Zeitmassen unterscheidet, da ein Ryhthmus durchaus auch gegen das Metrum laufen kann, beispielsweise synkopiert. 5.5.5 unregelmäßiges Zeitmaß Unregelmäßiges Zeitmass ist nun alles, was nicht unter das regelmäßige Zeitmaß fällt. Solche Objekte sind in der Musik eher selten. Ein Beispiel hierfür ist eine Kadenz, in der ein Musiker völlig frei improvisieren kann. Auch kommt so etwas manchmal bei moderneren Liedern am Anfang vor, wenn sich ein Stück erst langsam entwickelt. 24KAPITEL 5. ENTWICKLUNG DER ONTOLOGIE IN NATÜRLICHER SPRACHE 5.6 Lautstärke und Puls Wie wird nun ein Zeitmaß gefunden? Eine große Rolle spielen dabei die Lautstärkenverhältnisse von Klängen. Wenn auf sehr leise (laute) Klänge plötzlich ein lauter (leiser) folgt, dann wird dies vom Mensch als Puls“ empfunden. So entsteht ” ein Muster von betonten und unbetonten Stellen, die dann das Zeitmass prägen. Also wird die Menge Puls“ benötigt. ” Um Pulse generieren zu können werden Lautstärkenverhältnisse verwendet. Sie bestimmen aus zwei Klängen ein Lautstärkenverhältnis. Alle Lautstärkenverhältnisse bilden dann eine Lautstärkenverhältnislinie. Zwei Dinge haben Einfluss auf einen Puls: Zum einen ein Hörerlebnis direkt (zum Beispiel ein Paukenschlag), zum anderen ein Lautstärkeverhältnis. Die gewonnen Pulse bilden nun eine Pulsfolge. Diese wiederum beeinflusst letztendlich das Zeitmaß, insbesondere das Metrum und den Takt. 5.7 Musikstück Ein Musikstück ist letztendlich die Klasse, die ein gehörtes Musikstück zusammenfasst. Da Musikstücke sehr unterschiedlich sind, ist es schwer, festzulegen, was ein Musikstück haben muss. Ein Musikstück hat eine bestimmte Länge und ist zeitlich begrenzt durch einen Startzeitpunkt und einen Endzeitpunkt. Ein sehr einfaches Beispiel für ein Musikstück sind Kinderlieder (zum Beispiel Bruder Jakob“, alle ” ” meine Entchen“, usw.), von einem Kind gesungen. Diese Lieder haben alle eine Melodie und ein Metrum. Deshalb wird das Vorhandensein von mindestens einem Zeitmaß, sowie mindestens einer Linie (Melodielinie, Begleitlinie, Harmonielinie) vorausgesetzt. Linie deshalb, weil auch Hintergrundmusik, bei der die Melodie fehlt, als Musik anerkannt wird. Diese Musik hat aber deshalb eine Begleitlinie. Auch das Aneinanderreihen von Akkorden gilt als Musik, dann aber existiert eine Harmonielinie. 5.8 Datentypen Die Datentypenklassen werden eingeführt, um Anknüpfungspunkte zu anderen Ontologien zu ermöglichen. Es ist durchaus vorstellbar, dass beispielsweise die Zeiteinteilungen oder Frequenzen in einer Physik-Ontologie definiert werden, die dann in die Musik-Ontologie eingebunden wird. 5.9. BESONDERHEITEN 5.9 25 Besonderheiten Diese Sichtweise grenzt mancherlei Art von Musik aus. Die Grenzen zwischen Musik und Nicht-Musik sind fließend; was manche Menschen noch als Musik anerkennen, wird von anderen abgelehnt. Musik ist eine Kunstform, das heißt, es lässt sich keine einfache Regel aufstellen, was nun als Musik zählen darf und was nicht. Diese Arbeit beschäftigt sich nur mit europäischer Musik, also Musik, die dem europäischen Kulturkreis zugeordnet wird. Dies Umfasst sowohl die Klassische Musik von Komponisten wie Mozart, Beethoven, u.v.m., Popmusik, Volksmusik, Lieder, oder ähnlich geartete Musik. Die sogenannte neue Musik“, die mit Komponisten ” wie Stockhausen ihre Anfänge fand, wird nicht berücksichtigt. Kapitel 6 Darstellung von Ontologien Für die Entwicklung von Ontologien und um Ontologien für Computer verwertbar zu machen, entstanden eine Reihe von Sprachen. Im Folgenden wird auf die Entstehung von OWL (Ontologie Web Language) eingegangen. Diese wird in 7 für die Repräsentation der Ontologie auf dem Computer verwendet. 6.1 RDF RDF in Kombination mit XML (Genaues zu XML findet sich beispielsweise in [Harold ’02]) entstand vor allem aus dem semantic web. Im Hintergrund steht die Idee, ein semantisches Netz als einen Graphen zu sehen. XML wird für die Annotierung und Strukturbeschreibung von Daten und Dokumenten verwendet. RDF bietet die Möglichkeit, Ressourcen durch Eigenschaften zu beschreiben und diesen Werte zuzuordnen. Die Werte können auch Verweise auf andere Ressourcen beinhalten. Die RDF-Spezifikation findet man in [Brickley & Guha ’04] 6.2 DAML+OIL Die US-Behörde DARPA hat DAML (DARPA Agent Markup Language) definiert. Diese Sprache soll Programmen und Agenten als Verständigungssprache dienen ( an esperanto for machines“). OIL (urpsrünglich: Ontology Inference Layer, neu: ” Ontology Interchange Language) entsprang einer ähnlichen Idee, wurde aber in Europa entwickelt. [Harmelen & Patel-Schneider ’01] zeigt die DAML+OIL-Sprache genau. 26 6.3. OWL 6.3 27 OWL OWL ist nun die Weiterentwicklung von DAML+OIL. Kurz zusammengefasst: Mit OWL ist es möglich, Ontologien in XML-formatierten Dokumenten zu beschreiben. OWL gibt es in 3 Ausbaustufen: 1. OWL Lite 2. OWL DL (Description Logic) 3. OWL Full Die Lite-Version ist für einfache Implementierungen gedacht und ermöglicht einen leichteren Einstieg in OWL. Sie enthält Restriktionen gegenüber den beiden anderen Versionen, wodurch sie einfacher benutzbar ist. OWL Full die mächtigste Version. RDF-Dokumente sind im Allgemeinen voll kompatibel zu OWL Full. Deshalb ist freies Mischen von OWL Full und dem RDF-Schema erlaubt. Es wird auch keine strenge Trennung von Klassen, Eigenschaften (properties), Individuals und Datenwerten gefordert. OWL DL unterstützt die selben OWL-Sprachkonstrukte wie OWL Full, macht aber Einschränkungen auf bestimmte Features. Es gibt zwei Hauptgründe für die Einführung von OWL DL: 1. Es wurden bereits mächtige Logik-Systeme entwickelt, die OWL DL Dokumente unterstützen. 2. OWL DL ist entscheidbar. OWL Full dagegen ist nicht entscheidbar. 6.3.1 Kurzübersicht über OWL OWL benutzt zur Darstellung ein Klassenkonzept. Mit diesen Klassen kann eine Hierarchie aufgebaut werden. Damit steht schon eine wichtige Relation zwischen Klassen fest: Eine Klasse kann Unterklasse einer anderen Klasse sein oder sie kann Oberklasse zu einer anderen Klasse sein. Das zweite wichtige Konstrukt sind Properties. Eine Property, die eine Klasse mit einer anderen verbindet, wird ObjektProperty genannt. Eine Property, die eine Klasse mit einem Datentyp (RDFLiterale oder XML Schema Datentypen) verbindet, heißt Datatype-Property. Andere Arten von Properties gibt es nicht. Ins Deutsche übersetzt würde Property in diesem Fall Eigenschaft“ oder “Relation“ heißen. Eigenschaften werden aber ” gewöhnlich durch Eigenschaftswörter beschrieben. Da aber Properties Relationen zwischen Objekten oder Objekten und Datentypen sind, wäre die Bezeichnung Eigenschaft“ unter Umständen irreführend. Der Begriff Relation könnte zwar ver” wendet werden, aber da es sich bei Property“ um ein definiertes Konstrukt von ” 28 KAPITEL 6. DARSTELLUNG VON ONTOLOGIEN OWL handelt, scheint der auch in anderen Zusammenhängen übliche Begriff Re” lation“ nicht passend zu sein. Deshalb wird im Folgenden das Wort Property“ als ” Bezeichnung verwendet. Folgende OWL-Konstrukte über Klassen und Properties werden in der MusikOntologie verwendet: • Funktionale Property: Über Properties kann ausgesagt werden, dass sie nur einen Wert besitzen. Wenn eine Property eine Funktionale Property ist kann sie nicht mehr als einen Wert für jedes Individuum haben (sie kann auch keinen Wert haben). Dieses Charakteristikum wird auch als Besitz einer einwertigen Eigenschaft bezeichnet. Funktionale Property ist eine Abkürzung für die Aussage, dass eine Eigenschaft entweder die minimale Kardinalität 0 und die maximale Kardinalität 1 hat. Beispiel: hatPersonalausweis kann als Funktionale Property definiert werden. Daraus kann ein logischer Denker schließen, dass kein Individuum mehr als einen Personalausweis haben kann. Das heißt aber nicht, dass jede Person mindestens einen Personalausweis haben muss. • Inverse Property: Es kann ausgesagt werden, dass eine Property die Inverse einer anderen Property ist. Sei die Property P1 Inverse zur Property P2. Wenn das Individuum X mit Individuum Y durch P2 verknüpft ist, dann ist Y mit X durch P1 verknüpft. Beispiel: Wenn hatKind die Inverse zu hatElternteil ist und Stefan hatMutter Dora, dann kann ein logisch Denkender ableiten, dass Dora hatKind Stefan. • someValuesFrom: Die Einschränkung someValuesFrom wird über eine Property unter Berücksichtigung einer Klasse ausgesagt. Eine spezielle Klasse kann eine Einschränkung für eine Property haben, die besagt, dass mindestens ein Wert dieser Eigenschaft von einem bestimmten Typ ist. Zum Beispiel kann die Klasse SemanticWebPaper eine someValuesFrom Restriktion für die Property hasKeyword haben, die aussagt, dass irgendein Wert der hasKeyword-Property eine Instanz der Klasse SemanticWebTopic sein soll. Dies erlaubt es für die Möglichkeit, dass es mehrere Keywords gibt und so lang eines oder mehrere davon eine Instanz der Klasse SemanticWebTopic sind, dass das Paper die someValuesFrom Einschränkung erfüllt. Anders als allValuesFrom, erzwingt someValuesFrom nicht, dass alle Werte der Property Instanzen der gleichen Klasse sind. Wenn myPaper eine Instanz der SemanticWebPaper Klasse ist, dann ist myPaper durch die hasKeyword Property mit mindestens einer Instanz der SemanticWebTopic Klasse verbunden. Es kann aber nicht abgeleitet werden (wie es mit allValuesFrom abgeleitet werden könnte), dass alle Werte von hasKeyword Instanzen der SemanticWebTopic Klasse sind. 6.3. OWL 29 • allValuesFrom: Eine Einschränkung allValuesFrom wird über eine Property unter Berücksichtigung einer Klasse gemacht. Das heißt, dass diese Property für diese spezielle Klasse eine lokale Wertebereichseinschränkung hat. Wenn also eine Instanz der Klasse durch diese Property mit einem anderen Individuum verknüpft ist, dann muss zwangsläufig das zweite Individuum eine Instanz dieser lokalen Wertebereichsbeschränkung sein. Beispiel: Die Klasse Person kann eine Property hatTochter haben, die eingeschränkt ist auf allValuesFrom der Klasse WeiblichenGeschlechts. Das heißt, dass wenn eine Person Ansgar hatTochter Marlies, dann kann abgeleitet werden, dass Marlies eine Instanz der Klasse WeiblichenGeschlechts ist. Diese Beschränkung erlaubt es, die Property hatTochter mit anderen Klassen zu verwenden, z.B. der Klasse Katze, und dabei eine entsprechende Wertebereichseinschränkung für die Verwendung mit dieser Klasse zu nutzen. In diesem Falle würde hatTochter die lokale Wertebereichseinschränkung von Katze haben, wenn die Property mit dieser Klasse verknüpft wird und die lokale Wertebereichsbeschränkung Person, wenn sie mit der Klasse Person verknüpft wird. Wichtig ist, dass aus einer allValuesFrom Einschränkung nicht abgeleitet werden kann, dass es tatsächlich mindestens einen Wert für die Property gibt. • hasValue: (property values): Von einer Property kann verlangt werden, dass sie bestimmte Individuen als Wert besitzt. Zum Beispiel können Instanzen der Klasse Katholiken als die Leute charakterisiert werden, die als Wert für die Religion katholisch haben. (Der Wert Religion, katholisch, ist eine Instanz der Klasse von Religionen) disjointWith: Klassen können als disjunkt voneinander definiert werden. Zum Beispiel können Mann und Frau als disjunkte Klassen definiert werden. Wenn also ein Individuum eine Instanz von Mann und gleichzeitig eine Instanz von Frau ist, so kann durch die disjointWith Aussage eine Inkonsistenz abgeleitet werden. Ähnlich kann abgeleitet werden, dass wenn A eine Instanz von Mann ist, A keine Instanz von Frau ist. • unionOf, complementOf, intersectionOf: OWL DL und OWL Full erlauben beliebige boolsche Kombinationen von Klassen und Properties: unionOf, complementOf und intersectionOf. Zum Beispiel kann man durch die Benutzung von unionOf aussagen, dass eine Klasse Dinge enthält, die entweder USBürger oder DeutscheStaatsbürger sind. Durch die Benutzung von complementOf kann man aussagen, dass Kinder keine ErwachseneBürger sind (d.h. die Klasse Kinder ist eine Unterklasse des Gegenteils von ErwachseneBürger). Staatsbürgerschaft der EU kann umschrieben werden als Vereinigung von Staatsbürgerschaften aller Mitgliedsstaaten. 30 KAPITEL 6. DARSTELLUNG VON ONTOLOGIEN • minCardinality, maxCardinality, cardinality: In OWL Lite sind Kardinalitäten auf mindestens, höchstens oder genau 0 oder 1 eingeschränkt. OWL full dagegen erlaubt Kardinalitätsaussagen für beliebige nichtnegative Integerwerte. Zum Beispiel würde die Klasse Person die Kardinalität der Property hatElternteil auf eine maximale Kardinalität von 2 beschränken Die komplette Dokumentation [McGuinness & Harmelen ’04] 6.4 von OWL findet sich unter OWL-Entwicklungswerkzeug Das Entwicklungswerkzeug, das verwendet wurde, heisst Protege 2000 [Grosso et al. ’00]. Es wurde von Stanford Medical Informatics [Stanford-Medical-Informatics ’] und der Stanford University School of Medicine [Medicine ’a] entwickelt, um Ontologien einfacher konstruieren zu können, Dateneingabemasken nach Belieben zu verändern und um Datensätze einzugeben. Protege ist eine Plattform, die mit Fenstern für Tabellen, Diagrammen, Animationen oder Ähnlichem erweitert werden kann, um auch andere wissensbasierte Systeme integrieren zu können. Außerdem können die Bibliotheken, die Protege verwendet, eingesetzt werden, um Zugang zu anderen Wissensbasen zu erhalten und diese graphisch darzustellen. Implementiert wurde es unter Java 2 als open source software. Erhältlich ist es unter [Medicine ’b] Für Protege gibt es ein OWL/RDF-Plugin, das es möglich macht, die eingegebene Ontologie als OWL-Datei auszugeben. Das Plugin OWLViz erstellt aus den angelegten Klassen einen Klassengraph und zeigt ihn mit Hilfe von dem Tool GraphViz [AT&T ’] an. Um die Konsistenz der Ontologie zu überprüfen, wurde RACER [Volker Haarslev ’] verwendet. RACER steht für Renamed ABox and Concept Expression Reasoner. 6.4. OWL-ENTWICKLUNGSWERKZEUG Abbildung 6.1: Screenshot von der Protege-Oberfläche 31 Kapitel 7 Die Ontologie in OWL In diesem Kapitel wird vorgestellt, welche Klassen es in der Musikontologie in OWL gibt und wie sie über Properties und ihre Restrictions miteinander verknüpft sind. Klassen werden im Text durch Grossschreibung kenntlich gemacht: klassenname. Properties werden durch eine Schreibmaschinenschrift gekennzeichnet: Property. Restriktionen über Klassen werden mit Hilfe von mathematischen Zeichen dargestellt. Die Klasse KlasseEins habe die Properties PropertyOne, PropertyTwo und PropertyThree, die sie mit Klasse KlasseZwei oder KlasseDreiverbindet. Es sollen folgende Restriktionen über Klasse gelten: ∃ PropertyOne KlasseZwei = PropertyTwo = 1 ∀ PropertyThree KlasseZwei Die erste Restriktion würde bedeuten, dass es für jede Instanz von KlasseEins eine Instanz von KlasseZwei gibt, mit der das Objekt von KlasseEins verbunden ist. Die zweite Restriktion sagt aus, dass es für jede Instanz von KlasseEins genau eine Instanz von KlasseZwei oder KlasseDrei gibt, mit der das Objekt von KlasseEins verbunden ist. Die letzte Restriktion legt fest, dass alle Objekte von PropertyThree, die mit KlasseEins verbunden sind, vom Typ KlasseZwei sind. Eine Gesamtübersicht der Klassen ist in Abbildung 7.1 zu sehen. Alle OntologieKlassen sind Unterklassen der Klasse OWL:Thing, was nach der OWL-Definition so sein muss. Alle diese Klassen sind untereinander verschieden, also disjoint (7.1.2). Eine Gesamtübersicht über alle Properties und ihre Inversen zeigt Abbildung 7.2 32 33 Abbildung 7.1: Der Klassengraph in OWL 34 KAPITEL 7. DIE ONTOLOGIE IN OWL Abbildung 7.2: Die Properties und ihre Inversen 7.1 Formale Besonderheiten In den folgenden Abschnitten werden an einigen Stellen Besonderheiten verwendet, die in diesem Abschnitt erklärt werden. 7.1.1 Überdeckung Oftmals wird gefordert, das eine Klasse ihre Unterklassen überdeckt“. Damit ist ” gemeint, dass eine Instanz der Oberklasse auch immer genau eine Instanz einer ihrer Unterklassen sein muss. Damit kann es eigentlich keine Instanz der Oberklasse geben. Am folgenden Beispiel wird die Funktion klar: Gegeben sei die Klasse Person“. Sie soll die Unterklassen Weibliche Person“ und ” ” 7.2. DATENTYP 35 Männliche Person“ haben. Wenn nun die Klasse Person“ ihre Unterklassen über” ” deckt, dann folgt daraus dass eine Instanz von Person“ immer entweder eine Weib” ” liche Person“ oder eine Männliche Person“ sein. ” 7.1.2 disjoint Mehrere Klassen können zueinander disjoint“ erklärt werden. Seien die Klassen A ” und B disjoint, dann kann eine Instanz der Klasse A nicht auch eine Instanz der Klasse B sein. Schaut man sich das Beispiel aus ?? an, so ist es sinnvoll, die Klassen Weibliche Person“ und Männliche Person“ disjoint zueinander zu machen, da eine ” ” Person auf ein Geschlecht festgelegt ist. In OWL wird dies mit einem sogenannten Covering Axiom“ realisiert. Über die ” Klasse Person“ gelegt, würde dies so aussehen: ” ∪ Weibliche Person ∪ Männliche Person 7.1.3 Value Partition Value Partition ist ein Design Pattern. Es wird verwendet, wenn bestimmten Klassen für eine Eigenschaft spezifische Werte annehmen können. Beispielsweise könnte man Mahlzeiten immer eine der Kategorien scharf“, mittelscharf“ oder mild“ ein” ” ” ordnen. In OWL würde man dazu eine Klasse Value Partition“ erstellen, deren Unterklas” sen mögliche Eigenschaften sind. Die benötigte Unterklasse wäre in diesem Fall eine Klasse Schärfe Value Partition“. Diese erhält dann die Unterklassen Scharf“ ” ” , Mittelscharf“ und Mild“. Diese sind disjunkt und werden von ihrer Elternklasse ” ” überdeckt. Eine Property, sie heisse hatSchärfegrad“, bekommt als Domäne eine ” Mahlzeit“ und als Range eine Unterklasse von Schärfe Value Partition“. Unter” ” klassen der Klasse Mahlzeit“ werden jetzt über eine some Value-Restriktion (siehe ” 6.3.1) mit einer der entsprechenden Klassen verknüpft: ∃ hatSchärfegrad Scharf würde nun dafür sorgen, dass eine Mahlzeit als scharf bezeichnet wird. 7.2 Datentyp Datentyp ist eine Ansammlung von Klassen, in der relativ einfache Datentypen gehalten werden. Andere Klassen verweisen über Properties auf diese Datentypen. Anstelle einer extra Klasse hierfür hätten auch Datatype - Properties verwendet werden können. Frequenzen könnten auch als float dargestellt werden. Allerdings 36 KAPITEL 7. DIE ONTOLOGIE IN OWL ist es durchaus vorstellbar, dass Frequenzen in einer Physik-Ontologie genauer definiert werden. Dann wäre es sinnvoller, diese Definition auch in der MusikOntologie zu verwenden. Durch die verwendete Objektstruktur ist dies nun ohne weiteres möglich. Die Datentypen sind untereinander verschieden (disjoint). Folgende disjointe (vgl. 7.1.2) Datentypen sind für die Musikontologie vorgesehen: • Frequenz • Lautstärke • Zeitpunkt • Zeitdifferenz • Sortierung Wobei die Zeitdifferenz noch zwei Unterklassen besitzt: 1. KleinstesWahrnehmbaresIntervall beschreibt das kleinste Zeitintervall, dass Menschen noch als Zeitintervall empfinden können. 2. menschlicheZeitlicheUngenauigkeit beschreibt die Abweichung, die zwei Zeitintervalle von einander haben dürfen, damit sie vom Menschen als gleich empfunden werden. Es gibt keinen ganz genauen Wert, bei jedem Mensch ist diese Abweichung geringfügig anders. Die Lautstärke hat eine festgelegte Instanz, nämlich die Lautstärke Unhörbar“, ” die für den Menschen nicht mehr zu hören ist. Diese wird später wichtig für die Konstruktion der Klasse Pause. Die Sortierung ist ein Hilfskonstrukt, dass es möglich machen soll, Inhalte eines bestimmten Objekts zu sortieren. Für die Musik-Ontologie ist im Prinzip nur eine Sortierung notwendig, nämlich die nach der Zeit. Deshalb gibt es die Unterklasse SortierungNachZeit. Sie soll dafür sorgen, dass Objekte in der zeitlich chronologischen Reihenfolge angeordnet werden. 7.3 Hörerlebnis Hörerlebnis ist die Klasse, zu der alles gehört, was irgendwie hörbar ist. Sie überdeckt ihre Unterklassen Geräusch, Klang und Pause, d.h. ein Hörerlebnis ist immer ein Geräusch oder ein Klang oder eine Pause. Dies wird dargestellt durch das Covering Axiom (vgl. 7.1.1): ∪ Geräusch ∪ Klang ∪ Pause 7.3. HÖRERLEBNIS 37 Abbildung 7.3: Die Klasse Datentypen“ ” Ein Hörerlebnis hat die folgenden Objektproperties: • beginntZumZeitpunkt • endetZumZeitpunkt • hatFrequenz • hatLautstärke • hörerlebnisBeeinflusstPuls beginntZumZeitpunkt verbindet ein Hörerlebnis mit einem Zeitpunkt, zu dem das Hörerlebnis beginnt. Es handelt sich um eine funktionale Property, das heißt jedes Hörerlebnis kann nur mit einem Objekt über die Property der Art beginntZumZeitpunkt verknüpft sein. Da jedes Hörerlebnis genau einen Startpunkt haben muss, ist gibt es die Kardinalitätsrestriktion auf eins: = beginntZumZeitpunkt = 1 Damit ist sichergestellt, dass jedes Hörerlebnis auch genau einen Startzeitpunkt besitzt. endetZumZeitpunkt ist analog zu beginntZumZeitpunkt, legt aber das zeitliche Ende fest. 38 KAPITEL 7. DIE ONTOLOGIE IN OWL hatFrequenz assoziiert ein Hörerlebnis mit einer Frequenz, bedeutet also, dass diese Frequenz beim Hörerlebnis mitschwingt. Deshalb ist diese Property auch nicht funktional, da sehr viele Frequenzen bei einem Hörerlebnis beteiligt werden können. hatFrequenz besitzt zwei Tochterproperties: • hatHauptFrequenz • hatNebenFrequenz Diese spielen vor allem bei der Unterklasse Klang eine Rolle und werden dort näher erklärt. Die Property hatLautstärke verknüpft ein Hörerlebnis mit einer Lautstärke. Auch diese Property ist funktional (es kann also nur eine Lautstärke pro Hörerlebnis geben). Mit der Restriktion: = hatLautstärke = 1 wird festgelegt, dass ein Hörerlebnis auch mit einer Lautstärke verknüpft ist. Die Property hörerlebnisBeeinflusstPuls verbindet ein Hörerlebnis mit einem Puls. Ein Hörerlebnis kann theoretisch mehrere Pulse beeinflussen, aber nicht jedes Hörerlebnis tut dies auch. Deshalb gibt es keine Restriktion. 7.4 Unterklassen von Hörerlebnis Die Unterklassen von Hörerlebnis sind Klang, Pause und Geräusch. 7.4.1 Klang Ein Klang ist ein Hörerlebnis mit Hauptfrequenz und möglicherweise Nebenfrequenzen. Um dies Auszudrücken, werden die Tochterproperties hatHauptfrequenz und hatNebenfrequenz von hatFrequenz benötigt. hatHauptFrequenz bestimmt die Frequenz, die die Tonhöhe des Klangs bestimmt. hatNebenFrequenz sind alle Frequenzen, die mitschwingen, aber nicht die Tonhöhe, sondern die Klangfarbe festlegen. Die Festlegung auf die Tonhöhe geschieht über eine Restriktion über die Property hatHauptFrequenz: = hatHauptFrequenz = 1, 7.4. UNTERKLASSEN VON HÖRERLEBNIS 39 es ist also genau ein Objekt des Typs Frequenz mit einem Klang verknüpft, nämlich genau die Frequenz, die die Tonhöhe festlegt. Da es beliebig viele (oder eben auch keine) Nebenfrequenzen geben kann, gibt es keine Restriktion auf die Property hatNebenFrequenz. Zusätzlich zu diesen beiden erhält die Klasse Klang noch die Property beeinflusstHarmonieObjekt, die einen Klang mit einem Harmonieobjekt verknüpft. Dadurch kann ausgedrückt werden, welche Harmonien (also auch mehrere) ein Klang beeinflusst. Die Klasse Klang wird unterteilt in die zwei Klassen • MelodieKlang • BegleitKlang Diese zwei Klassen soll nur unterscheiden, dass Instanzen der einen Klasse zur Melodie gehören, die anderen eben nicht. Um dies zu realisieren, wurde das DesignPattern Value Partition (vgl. 7.1.3) verwendet. Dazu wird eine Klasse ValuePartition angelegt, die als Unterklasse sämtliche Unterscheidungen enthält, die in der Ontologie benötigt werden. Da dies in der Musik-Ontologie nur die MelodyValuePartition (zur Unterscheidung ob ein Klang ein Melodieklang ist oder nicht) ist, gibt es bis jetzt keine anderen. Die Klasse MelodyValuePartition hat nun zwei Unterklassen, die Klasse Ja und die Klasse Nein. Diese werden mit dem Covering Axiom (vgl. 7.1.2) ∪ Ja ∪ Nein überdeckt, eine MelodyValuePartiton ist also entweder vom Typ Ja oder vom Typ Nein. Abbildung 7.4: Die Klasse ValuePartition“ mit Unterklasse MelodyVa” ” luePartition“ 40 KAPITEL 7. DIE ONTOLOGIE IN OWL Die Property gehörtZuMelodie verbindet einen Begleitklang oder einen Melodieklang mit einer MelodyValuePartiton und ist funktional (ein Klang kann nur mit einer MelodyValuePartition verbunden sein). Durch die Restriktion ∃ gehörtZuMelodie Ja der Klasse Melodieklang wird also ausgedrückt, dass ein Klang der Klasse Melodieklang auch tatsächlich zur Melodie gehören muss. Dazu Analog verhält sich die Restriktion ∃ gehörtZuMelodie Nein der Klasse Begleitklang. 7.4.2 Pause Die Pause ist das Hörerlebnis, wenn nichts zu hören ist. Deshalb bekommt sie außer den Porperties, die sie von Hörerlebnis erbt, nur noch die Restriktion ∃ hatLautstärke hasV alueU nhörbar, zusammen mit der Kardinalität der Lautstärke auf den Wert eins folgt daraus, dass die Lautstärke des Hörerlebnisses Pause unhörbar sein muss. 7.4.3 Geräusch Ein Geräusch ist ein Hörerlebnis, das nicht Klang und nicht Pause ist. Dafür sorgt der Ausdruck: ¬ ( Klang ∪ Pause) 7.5 Zeitmass Zeitmass ist die Oberklasse für alle musikalischen Zeiteinteilungen eines Stücks. Sie überdeckt ihre Unterklassen RegelmaessigesZeitmass und UnregelmaessigesZeitmass. Es gibt folgende Properties: • beginntZumZeitpunkt • endetZumZeitpunkt • zeitmassWirdBeeinflusstVon 7.5. ZEITMASS 41 Abbildung 7.5: Die Klasse Hoererlebnis“ ” beginntZumZeitpunkt und endetZumZeitpunkt legen das Zeitintervall fest, für das das Zeitmass gilt. Da es nur jeweils einen Start- und Endzeitpunkt gibt, sind die folgende Restriktionen notwendig: = beginntZumZeitpunkt= 1 =endetZumZeitpunkt = 1 Da jedes Zeitmass von einer Pulsfolge geprägt wird, gibt es die Property zeitmassWirdBeeinflusstVonPulsFolge. Eine Restriktion legt fest, dass es auf jeden Fall eine solche Pulsfolge gibt: ∃ zeitmassWirdBeeinflusstVon PulsFolge Die Unterklasse RegelmaessigesZeitmass hat zwei neue Properties: • hatAbweichung, ordnet einem Zeitmass eine Zeitdifferenz zu • hatZeitdifferenz, verbindet ein Zeitmass mit einer Zeitdifferenz RegelmaessigesZeitmass enthält alle Zeiteinteilungen, die äquidistant sind oder zumindest dem Menschen so erscheinen. Die einzelnen Zeitintervalle werden über hatZeitdifferenz festgelegt, die Abweichungen über die Property hatAbweichung. Die Klasse RegelmaessigesZeitmass hat die Unterklassen Metrum, Rhythmus und RegelmaessigUnregelmaessigesZeitmass. Metrum und Rhythmus entsprechen dem normalen Verständnis von Metrum und Rhythmus. RegelmaessigUnregelmaessigesZeitmass ist ein Konstrukt, in das Zeitmaße fallen, die zwar auf den ersten Blick unregelmäßig erscheinen, aber trotzdem nicht ohne Ordnung sind, wie zum Beispiel eine Tempoverschärfung. 42 KAPITEL 7. DIE ONTOLOGIE IN OWL Die Klasse UnregelmaessigesZeitmass beinhaltet nun alle Zeiteinteilungen, die keinem erkennbaren Muster folgen. Dazu kann beispielsweise eine Kadenz gehören. Abbildung 7.6: Die Klasse Zeitmass 7.6 Harmonieobjekt Die Klasse HarmonieObjekt stellt harmonische Beziehungen zwischen Instanzen der Klasse Klang dar. Es gibt folgende Properties: • beginntZumZeitpunkt • endetZumZeitpunkt • wirdBeeinflusstVonKlang • wirdBeeinflusstVonBegleitungsKlang • wirdBeinflusstVonMelodieKlang Da ein HarmonieObjekt nur für einen bestimmten Zeitraum hörbar ist, werden die Properties beginntZumZeitpunkt und endetZumZeitpunkt verwendet und wieder beschränkt: = beginntZumZeitpunkt = 1 = endetZumZeitpunkt = 1 Den Bezug zwischen einem HarmonieObjekt und einem Klang stellt die Property wirdBeenflusstVonKlang her. Sie hat zwei Unterproperties: 7.7. LAUTSTÄRKENVERHÄLTNIS 43 • wirdBeeinflusstVonBegleitklang • wirdBeenflusstVonMelodieKlang Mit diesen kann noch genauer ausgedrückt werden, ob Melodieklänge an der Harmonie beteiligt sind oder nicht. Damit überhaupt eine Harmoniebeziehung bestehen kann, werden mindestens zwei Klänge benötigt. Dafür sorgt die Restriktion >= wirdBeeinflusstVonKlang >= 2 HarmonieObjekte kann man sich ähnlich vorstellen wie die Gitarrenakkorde, die sich in Songbüchern über den Textzeilen befinden. Zusätzlich wird beim HarmonieObjekt durch die Zuordnung zu Klängen gleich mitbestimmt, wie der Akkord klingt (bezüglich der Klangfarben). Abbildung 7.7: Die Klasse HarmonieObjekt 7.7 Lautstärkenverhältnis Die Klasse Lautstärkenverhältnis soll Lautstärkebeziehungen zwischen zwei Klängen beschreiben. Dazu werden zwei Lautstärken benötigt, um das Verhältnis bestimmen zu können. Die Properties holtLautstärkeEins und holtLautstärkeZwei verbinden beide ein Lautstärkenverhältnis mit einer Lautstärke. Da ternäre Properties in OWL nicht möglich sind, wird über die Restriktionen = holtLautstärkeEins = 1 und = holtLautstärkeZwei = 1 44 KAPITEL 7. DIE ONTOLOGIE IN OWL sichergestellt, dass genau zwei Lautstärken berücksichtigt werden. istLautstärkenVerhältnisVon verbindet ein Lautstärkenverhältnis mit einer LautstärkenverhältnisLinie. Diese erhält nun keine Restriktion auf Existenz, da nicht gesichert ist, dass sich die Lautstärken, die über die holtLautstärke-Properties bestimmt sind, auf Hörerlebnisse beziehen. Natürlich ergeben in der Musik-Ontologie nur Lautstärkenverhältnisse zwischen Klängen einen Sinn. beeinflusstPuls verbindet ein Lautstärkenverhältnis mit einem Puls. Darüber wird der Einfluss veranschaulicht, den Lautstärkeverhältniss letztendlich auf Zeitmaße aller Art haben, da die Pulse ja über die PulsFolge Einfluss auf Zeitmass haben. Abbildung 7.8: Die Klasse Lautstärkenverhältnis 7.8 Linie Die Klasse Linie ist ein Behälter für Ansammlungen von Objekten gleichen Typs, die nach Zeit sortiert sind. Sie hat die Unterklassen BegleitLinie, HarmonieLinie, LautstärkenVerhältnisLinie und PulsFolge, die allepaarweise disjunkt sind. Die Klasse Linie überdeckt all ihre Unterklassen, eine Instanz Linie muss also immer auch Instanz von genau einer Unterklasse der Klasse Linie sein. Eine Linie 7.8. LINIE 45 hat einen Startzeitpunkt, einen Endzeitpunkt und ist nach Zeit sortiert. Deshalb gibt es die funktionalen Properties • beginntZumZeitpunkt • endetZumZeitpunkt die eine Linie mit einem Zeitpunkt verbinden. Durch die Restriktionen = beginntZumZeitpunkt = 1 und = endetZumZeitpunkt = 1 wird sichergestellt, dass es jeweils genau einen assoziierten Zeitpunkt gibt. Die Property nachZeitSortiert ordnet einer Linie eine Sortierung nach Zeit zu. Diese Property wird so eingeschränkt, dass es genau eine Zeitsortierung geben muss, durch = nachZeitSortiert = 1. Damit bleibt die chronologische Reihenfolge der Objekte in der Linie gewahrt. Abbildung 7.9: Die Klasse Linie 7.8.1 Begleitlinie Die Begleitlinie fasst Begleitklänge zusammen. Dazu dient die Property hatBegleitKlang, die der Begleitlinie einen Begleitklang zuordnet. Eine Begleitlinie besteht aus mindestens einem Begleitklang, dazu dient die Restriktion: 46 KAPITEL 7. DIE ONTOLOGIE IN OWL >= hatBegleitKlang >= 1. Damit wird der Begleitlinie mindestens ein Begleitklang zugeordnet. Die Beeinflussung der Zeiteinteilung durch die Begleitlinie wird durch die Property beeinflusstZeitmass beschrieben. Sie ordnet einer Begleitlinie (oder auch einerMelodielinie oder auch einer PulsFolge) ein Zeitmass zu. 7.8.2 HarmonieLinie Die Harmonielinie ist der Container für HarmonieObjekte. Dazu werden mindestens zwei HarmonieObjekte benötigt. Dafür sorgt die Property hatHarmonieObjekt, die einer Linie ein HarmonieObjekt zuordnet. Damit auch mindestens zwei Objekte vorhanden sind gilt die Beschränkung: >= hatHarmonieObjekt >= 2 7.8.3 LautstärkenVerhältnisLinie In dieser Linie werden die Lautstärkenverhältnisse zusammengefasst. Analog zur Harmonielinie wird mit der Property hatLautstärkeVerhältnis und der Restriktion >= hatLautstärkenVerhältnis >= 2 für mindestens zwei Lautstärkenverhältnis-Objekte gesorgt. Da aus der Lautstärkenverhältnislinie die Pulse bestimmt werden, wird die Property bestimmtPulse benötigt. Sie ordnet einer LautstärkenVerhältnisLinie ein Puls-Objekt (siehe unten) zu. 7.9 MelodieLinie Im einfachsten Fall beschreibt eine Melodielinie genau die Melodie eines Stücks. Dazu werden die Melodieklänge benötigt. Eine Melodielinie sollte mindestens drei Klänge haben, die nacheinander klingen. Ein Klang ist ganz sicher noch keine Melodie, zwei wohl auch nicht. Bei drei Klängen aber scheint zum ersten Mal ein Melodiemuster erkennbar. Deshalb wurde die Mindestanzahl auf drei gesetzt. Die geschieht durch die Property hatMelodieKlang, die eine MelodieLinie mit einem Melodieklang verbindet. Für mindestens drei Melodieklänge sorgt >= hatMelodieKlang >= 3 7.10. PULS 47 Da auch die Melodie großen Einfluss auf das Zeitmaß hat, wird eine Verbindung gebraucht. Diese Verbindung ist die Property beeinflusstZeitmass, die schon bei der Beschreibung der Klasse BegleitLinie vorgestellt wurde. 7.10 Puls Pulse entstehen durch Anwendung der Property bestimmtPuls der Klasse LautstärkenverhältnisLinie und einem Einfluss durch Hörerlebnisse: ∃ pulseWirdBestimmtVon LautstärkenVerhältnisLinie ∃ wirdBeeinflusstVonHörerlebnis Ein Puls geschieht zu einem bestimmten Zeitpunkt. Deshalb gilt: = beginntZumZeitpunkt = 1 Zusätzlich gehört ein Puls einer Pulsfolge an: ∃ wirdBeinflusstVonHörerlebnis Hörerlebnis Abbildung 7.10: Die Klasse Puls 7.10.1 Pulsfolge In der PulsFolge werden alle Pulse gesammelt. Dazu dient die Property hatPuls. Eine leere Pulsfolge macht wenig Sinn, deshalb wird mit 48 KAPITEL 7. DIE ONTOLOGIE IN OWL ∃ hatPuls Puls dafür gesorgt, dass es mindestens einen Puls gibt. Da die PulsFolge das Zeitmaß beeinflusst, ist die Pulsfolge auch Domäne der Property beeinflusstZeitmass. 7.11 Musikstück Das Musikstück beinhaltet nun alles, was zu hören ist. In der Klasse Musikstück werden deshalb die Mindestvoraussetzungen festgelegt, die ein Musikstück ausmachen. Da jedes Musikstück zeitlich begrenzt ist, legen = beginntZumZeitpunkt = 1 = endetZumZeitpunkt = 1 Den Zeitrahmen fest. Die Property hat legt nun fest, welche Linen oder Zeitmasse zu dem Musikstück gehören. Durch die Beschränkungen: ∃ hat Zeitmass ∃ hat Line Wird bestimmt, dass jedes Musikstück über mindestens ein Zeitmass verfügt, und mindestens eine Linie. Damit können auch einige Spezialfälle bedient werden: Beispielsweise verfügt ein Musikstück in der Karaokeversion über keine Melodie, hat aber dafür mindestens ein Zeitmaß und mindestens eine Begleitlinie. Ein einstimmig gesungenes Kinderlied verfügt über eine Melodielinie und ein Zeitmaß. So wird also der minimale Rahmen für ein Musikstück gesteckt. Kapitel 8 Beispiel Wie die Ontologie funktioniert, soll am Beispiel des Kinderliedes Alle meine Ent” chen“ gezeigt werden. Betrachtet wird der sehr einfache Fall, dass das Lied von einem Synthesizer gespielt wird, der einen sehr regelmäßigen Ton erzeugt. Jeder Ton soll auch gleich laut sein. Damit werden für einen gespielten Ton nur 2 Klänge der Ontologie benötigt: Ein sehr kurzes, kaum wahrnehmbares Anklinggeräusch, und der eigentliche Ton. Die Geschwindigkeit soll genau 60 Schläge pro Minute sein. Die einzelne Tonlänge und Tonbezeichnung soll der Abbildung 8.1 entnommen werden. Abbildung 8.1: Das Lied Alle meine Entchen“ mit Bezeichnung aller No” ten Das Lied besteht aus 27 Noten. Als erstes werden die Klänge extrahiert. Damit ergeben sich, wenn für jede Note 2 Klänge benötigt werden, 54 Klangobjekte. Da alle diese Klänge zur Melodie gehören, sind es MelodieKlänge. Das heißt, es wird eine Instanz der Klasse Ja“ benötigt, die jedem Klang zugeordnet werden kann. ” Bei den Klängen muss die Hauptfrequenz bestimmt werden. Hier ist ein echter Unterschied zur menschlichen Wahrnehmung, da nur wenige Menschen die Tonhöhe exakt sondern nur relativ festlegen können, dies aber in der Ontologie gefordert wird. Da natürlich die relativen Tonhöhenunterschiede in den exakten enthalten sind, ist die menschliche Wahrnehmung hinreichend berücksichtigt. Dieses Mehrwissen ist sinnvoll, wenn man später ein gehörtes Musikstück noch tiefer gehend untersuchen oder mit anderen vergleichen will. Ähnliches gilt auch für die Nebenfrequenzen. 49 50 KAPITEL 8. BEISPIEL Der erste Klang wird wie folgt gebaut: Es wird ein Frequenzobjekt für die Frequenz 262 Hertz und mehrere Frequenzobjekte für die Nebenfrequenzen benötigt. • ein ZeitPunkt - Objekt mit dem Zeitstempel 0, zu dem der Klang beginnt, • ein ZeitPunkt - Objekt mit dem Zeitstempel 1, zu dem der Klang endet, • ein MelodyValuePartition-Objekt mit dem Wert Ja, • ein LautstärkenVerhältnis-Objekt, das C1 mit C1.2 vergleicht, • ein LautstärkenVerhältnis-Objekt, das eine Pause mit C1 vergleicht, • ein Lautstärkeobjekt, das die gehörte Lautstärke angibt. Hier gibt es nun wieder mehrere Möglichkeiten: Entweder man gibt ähnlich zur Frequenz den tatsächlichen Lautstärkewert an, beispielsweise in sone, oder aber man behilft sich mit relativen Aussagen wie forte, piano, oder Ähnlichem, was der menschlichen Wahrnehmung näher käme, • ein LautstärkenVerhältnis-Objekt, das C1 mit C1.2 vergleicht, • ein LautstärkenVerhältnis-Objekt, das eine Pause mit C1 vergleicht, Dann sieht C1 so aus: • C1 beginntZumZeitpunkt 0 • C1 endetZumZeitpunkt 1 • C1 hatHauptFrequenz 262 • C1 hatNebenFrequenz ... (Im Frequenzbild ablesbar, aber vom Menschen nicht bestimmbar) • C1 hat NebenFrequenz ... • C1 hat NebenFrequenz ... • ... • C1 istMelodieKlang Ja • C1 beeinflusst LautstärkenVerhältnis C1zuC1.2 • C1 beeinflusst LautstärkenVerhältnis PausezuC1 51 Es ist nur eine Melodie erkennbar, deshalb werden alle MelodieKlänge in der zeitlich richtigen Reihenfolge in eine Melodielinie, die auch so heißen soll, eingebunden. Damit wäre die Melodie vollständig erfasst. Die Voraussetzung über die klare und einfache Struktur des Klangs des Synthesizers ist eine kleine Schwierigkeit beim Finden von LautstärkenVerhältnissen. Wie oben erwähnt gibt es aber für jeden notierten Ton zwei Klänge. Und genau das ist ausschlaggebend. Es gibt nämlich einen Lautstärkeunterschied zwischen dem Anschlag des Tones und dem restlichen klingenden Ton. Damit entsteht durch jeden Ton ein LautstärkenVerhältnis. Aber wir erhalten auch für zwei aufeinander folgende Töne zusammen ein LautstärkenVerhältnis, nämlich das Ausklingen des ersten Tons und der Anschlag des zweiten Tons. Bevor das Lied erklingt nehmen wir an, es sei Still gewesen. Dadurch erzeugt auch der erste Ton mit der vorangegangen Pause ein LautstärkenVerhältnis. Damit entstehen pro Ton insgesamt zwei LautstärkenVerhältnisse. Zu beachten ist, dass das LautstärkenVerhältnis, das zwischen Abklingen des vorigen und Anschlagen des aktuellen Tons, sowie das, das der aktuelle Ton selbst erzeugt, zeitlich so nah beisammen, dass sie auch gleichzeitig wahrgenommen werden. Das LautstärkenVerhältnis zwischen dem Anschlag von C1 und dem Ausklingen von C1, es heiße C1zuC1.2“ sieht nun so aus: ” • C1zuC1.2 holtLaustärkeEins C1 • C1zuC1.2 holtLaustärkeZwei C1.2 • C1zuC1.2 beeinflusstPuls PulsC1 All diese Lautstärkenverhältnisse werden in einer LautstärkenVerhältnisLinie zusammengefasst, im Folgenden Lautstärkenlinie genannt. Diese beginnt zum Zeitpunkt 0 und endet zum Zeitpunkt 40. Aus dieser LautstärkenVerhältnisline werden 27 Pulse abgeleitet, für alle zwei fast gleichzeitigen Lautstärkenverhältnisse. Diese Pulse sind die einzigen, die dem Lied entnommen werden können. Damit bilden sie alle zusammen die einzige PulsFolge. Die Instanz dazu wird im folgenden Pulsfolge genannt. Der Puls auf Schlag 1 (PulsC1) sieht so aus: • PulsC1 beginnt zumZeitpunkt 0 • Puls C1 gehörtZuPulsFolge Pulsfolge • Puls C1 pulsWirdBestimmtVon Lautstärkenlinie • Puls C1 wirdBeeinflusstVonHörerlebnis C1 • Puls C1 BeeinflusstVonHörerlebnis C1.2 52 KAPITEL 8. BEISPIEL Aus der Pulsfolge kann nun das einfache Metrum entnommen werden: Alle Sekunde einen Schlag, die Metruminstanz dazu soll einfach Metrum“ heißen. ” Damit sieht das Metrum so aus: • Metrum beginntZumZeitpunkt 0 • Metrum endetZumZeitpunkt 40 • Metrum hatZeitdifferenz 60 Sekunden • Metrum wirdBeeinflusstVon Pulsfolge Da das Lied elektronisch und deshalb exakt erzeugt wurde, ist die Abweichung der Zeitdifferenzen nicht messbar, deshalb bleibt die Property hatAbweichung unbesetzt. Beim Takt gibt es mehrere Interpretationsmöglichkeiten. Es könnte sich, allein vom hören her, sowohl um einen 4/4-Takt als auch ein 2/4-Takt handeln. Die Betonung in diesem Stück ist aber nicht besonders ausgeprägt, deshalb wird mancher Mensch Vielleicht auch gar keinen Takt erkennen können. Unterschiedliche Menschen werden hier Unterschiedlich entscheiden. Hier wird deutlich, dass innerhalb der Ontologie mehrere Interpretationen für ein und das selbe Stück möglich sind. Das ist auch nötig, um die menschliche Wahrnehmung abbilden zu können. Deshalb ist es absolut zulässig, dass mehrere Interpretationsmöglichkeiten vorhanden sind. Es gilt nun eine Entscheidung zu treffen, da diese aber in diesem Fall keine weit reichenden Auswirkungen auftreten, wird einfach ein 4/4 Takt festgelegt. Bei der Rhythmuserstellung gibt es auch mehrere Möglichkeiten: • Man kann dem Lied genau einen Rhythmus zuordnen, der sich von Anfang bis Ende durchzieht. • Man kann den Rhythmus zerteilen, Takt 1 und 2 zusammen zu einem Rhythmus, Takt 3 und 4, Takt 5 und 6, Takt 7 und 8, Takt 9 und 10. Damit erhält man 5 Rhythmen. Diese Einteilung macht deshalb Sinn, weil jeweils ein Rhythmus mindestens einem anderen gleicht: – Takt 1+2 und Takt 7+8 – Takt 3+4, Takt 5+6, Takt 9+10 Da der Mensch diese Wiederholung erkennt, ist eine solche Einteilung sinnvoll. • Eine weiter mögliche Einteilung in zwei Rhythmen wäre Takt 1 bis 6 und dann Takt 7 bis 10 zusammen zu fassen. Der erste Rhythmus wäre der, der musikalischen Aufwärtsbewegung, der zweite der, der musikalischen Abwärtsbewegung. 53 Keine der vorgestellten Möglichkeiten ist qualitativ besser oder hochwertiger als die anderen. In diesem Fall wird sich für die Möglichkeit mit nur einem RhythmusObjekt (im folgenden Rhythmus genannt) entschieden, um es möglichst einfach zu belassen. Da keine Töne gleichzeitig erklingen, existiert auch kein HarmonieObjekt, und damit auch keine HarmonieLinie. Jetzt kann das Musikstück AlleMeineEntchen“ zusammengebaut werden: ” • AlleMeineEntchen beginntZumZeitpunkt 0 • AlleMeineEntchen endetZumZeitpunkt 40 • AlleMeineEntchen hat Melodie • AlleMeineEntchen hat Metrum • AlleMeineEntchen hat Rhythmus • AlleMeineEntchen hat 4/4Takt Kapitel 9 Spezielle Forschungsergebnisse In diesem Kapitel sollen bereits existierende Systeme vorgestellt werden, die sich mit Musikanalyse beschäftigen, und eventuell mit der bisher vorgestellten Ontologie verbinden lassen. 9.1 Metrumerkennung Bei der Metrumerkennung wird versucht, aus einem laufenden Musikstück die Taktschläge zu finden. Die meisten Menschen können schon kurz nach Beginn eines Liedes den Takt mitklatschen oder mitklopfen. Masataka Goto und Yoichi Muraoka beschreiben in [Goto & Muraoka ’94] ein System, das in Echtzeit versucht, die zeitlichen Positionen von Schlägen zu erkennen. Da es sich hauptsächlich auf Erkennung von Basedrum und Snaredrum beschränkt, funktioniert dies nur zuverlässig solcher Musik, die zur Rhythmusgestaltung ein Schlagzeug verwendet. Die Software, ein Multiagentensystem, wurde für einen Parallelcomputer (Fujitsu AP1000) implementiert, und erkannte die Schläge in 27 von 30 kommerziellen Popsongs korrekt. Masataka Goto und Yoichi Muraoka entwarfen noch ein weiteres Multiagentensystem ([Goto & Muraoka ’95]), dass für Musikstücke ohne Schlagzeug geplant wurde. Es verwendet im Prinzip aber die gleichen Verfahren wie das vorher genannte. In [Goto ’97] wird beschrieben, wie Snare- und Basedrum aus den Audiodaten extrahiert werden, und wie Drumpatterns bei der Takterkennung helfen können. Ein etwas älteres System namens Machine Rhythm“ wird in [Rosenthal et al. ’94] ” vorgestellt, welches auf Mididaten operiert. Zuerst geschieht eine Vorverarbeitung, die Noten die, (fast) gleichzeitig erklingen, zu einem Block zusammenfasst. Dann wird ein Segment, dass am Anfang des Stückes steht, heraus gesucht, und eine Anzahl von Hypothesen über den Rhythmus des Segments gemacht. Nun wird der Rest der Stückes sequentiell durchsucht. Jede Hypothese wird nun erweitert, um 54 9.1. METRUMERKENNUNG 55 die nächste Note zu erklären. Gibt es mehrere mögliche Erklärungsmöglichkeiten, so wird eine neue Hypothese erstellt. Erreicht die Anzahl der Hypothesen ein Limit, wird eine Topliste erstellt und der Rest in Zukunft nicht mehr beachtet. Das System hat Anlaufschwierigkeiten, falls es in dem zu erst ausgewählten Segment keine brauchbaren Hypothesen findet, und es verliert ab und an die Taktspur. Ein System, dass Taktschläge in Musik mit oder ohne Schlagzeug erkennt, wird in [Goto ’01] vorgestellt, was quasi die Zusammenführung der beiden vorigen System ist. Dazu werden drei Arten von musikalischer Information verwendet: Die Anschlagszeiten (time onsets), Akkordwechsel und Schlagzeug-patterns. Das System ist echtzeittauglich, als Eingabe dienen CD-Aufnahmen von Popmusik. Allerdings waren die Aufnahmen alle im 4/4 Takt und hatten ein relativ konstantes Tempo. Die Erkennungsrate lag beim Test zwischen 85% und 95%. Simon Dixon geht das Problem in [Dixon ’00] ebenfalls mit einem Multiagentensystem an. Im grossen und ganzen basiert es auf drei Algorithmen: Der erste versucht herausstechende akustische Ereignisse zu erkennen, der zweite fasst diese Ereignisse in Gruppen zusammen, je nach dem Zeitintervall zwischen zweien. Anschließend versuchen mehrere Agenten diese Hypothesen durch das ganze Musikstück zu verfolgen. Die Ergebnisse sind bei Pop/Rockmusik recht gut (die korrekte Erkennungsrate liegt zwischen 90 und 100%), doch bei Jazz wird die Leistung schlechter (ca 75%). In [Dixon ’01] beschreibt Dixon ein System zur automatischen Extraktion von Tempo aus expressiven Darbietungen. Damit sind Darbietungen von Musikstücken gemeint, bei denen der Interpret auf Grund besonders gefühlvoller Interpretation kein absolut regelmässiges Metrum verwendet, sondern immer wieder Tempo heraus nimmt oder anzieht. Um auch hier zum Erfolg zu kommen, wurden für jedes detektierte musikalische Ereignis noch einige Faktoren berechnet: Notendauer, dichte von gleichzeitigen Noten, Lautstärke und Tonhöhe der Noten. Das System braucht ungefähr ein fünftel der Abspieldauer des zu analysierenden Stücks, arbeitet also nicht ganz in Echtzeit. Die Ergebnisbewertung ist nicht einfach, da das System für unterschiedliche Musikstile unterschiedlich gute Ergebnisse liefert. Sie schwanken zwischen 70% und 100%. Jano Seppänen beschreibt in [Seppänen ’01] ein Modell zur Metrumsbestimmung. Dazu werden vier Schritte verwendet: 1. Sound-On-Set-Erkennung 2. Schätzung des kleinst möglichen Metrums, genannt Tatum“ (in der Regel ” ist das tatsächliche Metrum ein ganzzahliges Vielfaches des Tatums) 3. Einschätzung der Wichtigkeit der einzelnen Tatum-Pulse 4. Schätzung des tatsächlichen Metrums 56 KAPITEL 9. SPEZIELLE FORSCHUNGSERGEBNISSE Die Erkennungsraten schwanken um die 75% [Cise ’] beschäftigt sich mit dem Konzept der Stärke der Taktschläge. Damit ist meint, dass Menschen den Takt beispielsweise in Hard-Rock-Musik als stärker“ ” empfinden als in klassischer Musik. Es wurde gezeigt, dass man mit Hilfe von Wavelettransformationen und Autokorrelationen dieses Empfinden gut simulieren kann. In ([Dixon ’02]) wurde untersucht, wie gut“ Menschen den Takt aus einer ge” fühlsbetonten Darbietung erkennen. Dazu lies er mehrere Probanden den Takt zu einem Klavierstück von Mozart, das an einem elektronischen Flügel vorgespielt wurde, mit dem Fuss dazu klopfen. Anschließend wurde das Ergebnis mit den tatsächlichen Daten aus der Aufzeichnung des Flügels verglichen. Das Ergebnis: Die menschliche Takterkennung ist sehr tolerant bezüglich kurzer Temposchwankungen, nur wenn die Änderung andauert, dann wird dies auch als Tempoänderung wahrgenommen. Bei Musik, die von Bands gespielt wird, sind im Normalfall das Schlagzeug und der Bass Rhythmusträger. Beim Schlagzeug zeigt vor allem die Basedrum die wichti” gen“ Schläge an. In [Alghoniemy & Tewfik ’99] wird beschrieben, wie durch Tiefpassfilter die Basedrum, bzw. der Bass aus Audiodaten extrahiert werden kann. Mit Hilfe eines Parsingalghorithmus, der an [Ziv & Lempel ’77] angelehnt ist, wird versucht, gewisse Regelmäßigkeiten zu erkennen. 9.2 Genaueres zu ausgewählten Metrumerkennern In diesem Abschnitt werden die Systeme zur [Goto & Muraoka ’94] und [Dixon ’00] beschrieben 9.2.1 Metrumerkennung von Goto & Muraoka 1994 Aus CD-Aufnahmen von Popmusik (Popularmusik) soll in Echtzeit das Metrum bestimmt werden. Dabei soll ein Schlag einer Viertelnote entsprechen. Das System stützt sich darauf, dass in Popsongs hauptsächlich das Schlagzeug für den Rhythmus verantwortlich ist. Folgende 4 Schwierigkeiten wurden von den Autoren beim Erkennen von Metrum in akustischen Signalen beschrieben: 1. Musik von kommerziellen CD-Aufnahmen besteht meist aus Klängen verschiedenster Instrumente. Es ist schwer, den Beginn von Noten präzise zu erfassen. Bei MIDI-Daten dagegen fällt dieses Problem weg. 9.2. GENAUERES ZU AUSGEWÄHLTEN METRUMERKENNERN 57 2. Kurze, besonders hohe Lautstärkepegel (Peaks) zu finden, die über einer bestimmten Schwelle liegen ist eine einfache Technik, die in einfachen Fällen zur Metrumbestimmung ausreicht. Leider reicht sie in diesem Falle nicht, weil es sehr viele Peaks mit hoher Energie gibt, die nicht direkt mit dem Metrum verbunden sind. 3. Nicht auf jedem Schlag muss etwas zu hören sein und es gibt auch keinen speziellen Klang, der direkt die Positionen der Schläge angibt. Deshalb sind verschiedene Interpretationen des Signals an einer bestimmten Stelle möglich. 4. Im Allgemeinen ist es schwierig zu entscheiden welchem Notenwert ein Schlag entspricht, und ob ein Schlag stark oder ein schwach ist. Das System berücksichtigt mehrere mögliche Positionen von Schlägen gleichzeitig. Es berechnet die Glaubhaftigkeit von jedem Zeitpunkt, an dem ein Ton beginnt zu erklingen (onset-times), damit die nachfolgende Bearbeitung unwahrscheinliche Zeitpunkte vernachlässigen kann. Dazu werden mehrere Agenten verwendet. Jeder Agent interpretiert diese Zeiten, und sagt den nächsten Schlag seiner eigenen Strategie folgend voraus. Die Position des nächsten Schlages wird dann nach dem glaubwürdigsten Agenten bestimmt. Das System macht zwei weitere Annahmen: 1. Popsongs sind im 4/4 Takt geschrieben 2. die Basedrum erklingt eher auf die starken Schläge eins und drei, die Snaredrum eher auf die schwachen Schläge zwei und vier. Das Wissen über die Trommeln wird nur dazu verwendet, um den Typ des bereits detektierten Schlages (stark - schwach) zu bestimmen, nicht aber um den Schlag überhaupt als solchen zu erkennen. Zur Feststellung der Dauer einer Viertelnote wird die Zeit angenommen, die zwischen zwei Schlägen verstreicht (IBI: inter-beatinterval). Abbildung 9.1 zeigt, wie das System funktioniert. Zuerst werden die Musikdaten von analogen in digitalen Signalen umgewandelt. Im Block der Frequenzanalyse wird zuerst eine Fourier-Transformation angewendet, dann die On-SetKomponenten (mögliche Tonanfänge), extrahiert. Während dann die tatsächlichen On-Set-Zeitpunkte gesucht werden, wird versucht, Basedrum und Snaredrum zu erkennen. Anschließend versuchen mehrere Agenten über Hypothesen das tatsächliche Metrum vorherzusagen. Die Beat-Information-Generation wählt aus den Hypothesen die am besten zutreffende aus, die dann über die Beat-InformationTransmission an andere Anwendungen über ein Netzwerk weitergeleitet werden kann. Zur Frequenzanalyse wird eine gefensterte schnelle Fouriertransformation (FFT) verwendet. Eine On-Set Komponente besitzt einen Grad. Dieser beschreibt die 58 KAPITEL 9. SPEZIELLE FORSCHUNGSERGEBNISSE Abbildung 9.1: System Geschwindigkeit der Itensitätserhöhung. Die On-Sets-Komponente und ihr dazugehöriger Grad wird von dem Frequenzspektrum extrahiert. Aus den Frequenzen, deren Grad in der letzten Zeit angestiegen ist, werden die On-set-Komponenten ermittelt. Das sind die Frequenzen die den Bedingungen genügen: ( p(t, f ) > pp np > pp p(t, f ) ist die Energie des Spektrums der Frequenz f zum Zeitpunkt t. pp und np werden definiert durch: pp = max(p(t − 1, f ), p(t − 1, f + −1), p(t − 2, f )) np = min(p(t + 1, f ), p(t + 1, f + −1)) 9.2. GENAUERES ZU AUSGEWÄHLTEN METRUMERKENNERN 59 Der Grad d(t, f ) des Energieanstiegs berechnet sich so: d(t, f ) = p(t, f ) − pp + max(0, p(t + 1, f ) − p(t, f )) Die On-set-time wird über die Aufsummierung von d(t, f ) ermittelt. Die Wahrscheinlichkeit dieser Zeit wird aus dem Verhältnis ihres Spitzenwertes (peak) zu dem neuesten maximalen Spitzenwert gewonnen. Mehrere dieser On-set-timefinders werden vom System beschäftigt, von denen Jeder seine Informationen an das ihm zugehörige Agentenpaar schickt. Die Frequenzen der Base- und Snaredrum des zu untersuchenden Musikstücks werden aus den gewonnen On-set-Komponenten gewonnen. An allen Zeitpunkten, an denen On-set-Komponenten gefunden wurden, findet das System Peaks auf der Frequenzachse und erstellt ein Histogramm, das mit den Energieanstiegsgraden gewichtet wird. Die Basedrumfrequenz ist dann der niedrigste Peak, die Snare der höchste im Histogramm. Die Agenten interpretieren die Ergebnisse der Frequenzanalyse und stellen ihre eigenen Hypothesen auf, wann der nächste Schlag kommen müsste, seine Eigenschaft (stark oder schwach), seine Wahrscheinlichkeit und das IBI (interbeat-interval). Jeweils zwei Agenten bilden ein Paar und arbeiten mit demselben IBI und versuchen gemeinsam Vorhersagen über die nächsten Schlagzeiten zu treffen, deren Unterschied ein halbes IBI ist. Dadurch kann ein Agent die richtigen Schläge ermitteln, während der andere die Mitte der zwei aufeinander folgenden korrekten Schläge durchsucht. Ein Agentenpaare unterscheidet sich von den anderen dadurch, dass sie ihre Informationen von anderen On-Set-Time-Findern erhalten. Die Agenten können die Parameter ihrer On-Set-Time-Findern verändern auf Grund ihrer eigenen Einschätzung. Jeder Agent bewertet seine Hypothese. Ob ein Schlag stark oder schwach gewichtet wird, wird aus der Base- und Snaredrumanalyse gefolgert. Die von Agenten gemachten Hypothesen werden in Gruppen nach Schlagzeit und IBI zusammengefasst. Jede Gruppe hat eine Gesamtwahrscheinlichkeit, die durch die Summe aller Wahrscheinlichkeiten der einzelnen Hypothesen gebildet wird. Die am höchsten bewertete Hypothese in der am höchsten bewerteten Gruppe wird ausgewählt. Implementiert wurde das Beat-Tracking-System auf einem Fujitsu AP 1000. Dieser ist ein 32 bittiger Mainframerechner mit 64-512 Sparc-CPUs (33-44 Mhz, 40 MIPS). 60 KAPITEL 9. SPEZIELLE FORSCHUNGSERGEBNISSE 9.2.2 Dixon 2000 Dixon möchte mit seinem System [Dixon ’00] aus Musik die Stellen der Taktschläge herausfinden. Die Musikstücke liegen in einem Standardformat für digitale Audiodaten vor. Es soll ohne höhere Kenntnisse von Metrik funktionieren und es werden keine speziellen Annahmen über die zu analysierende Musik gemacht. Die kognitiven Mechanismen, die der Mensch bei der Metrumerkennung verwendet werden, bleiben unberücksichtigt. Tatsächlich wird versucht, so genannte Events“ in dem Musikstück zu finden, aus ” denen rhythmische Informationen gewonnen werden können. Diese Events“ basie” ren auf On-Sets“, d.h. Startpunkte von Noten, perkussive Klänge eingeschlossen. ” Die Notenlänge wird nicht beachtet. Das System führt drei Schritte nacheinander aus: 1. Signalbearbeitung 2. verschiedene Metrumschätzungen durch mehrere Agenten 3. Auswahl der endgültigen Hypothese Zuerst findet also die Signalbearbeitung statt. Um On-Sets zu finden wird das Eingangssignal durch einen einfachen Hochpassfilter geschickt und die Summe von kleinen überlappenden Fenstern des Signals berechnet. Mit Hilfe einer linearen Regression (??) in 4 Punkten werden Peaks in dieser Summe gesucht. Es werden so zwar nur herausragende Ereignisse gefunden, diese sind aber ideal für die Aufgabe der Tempofindung. Um das richtige Tempo in einem Musikstück zu finden stellt das System einige Tempohypothesen auf. Diese können entweder in BPM (beats per minute) oder in Sekunden (wie bei Inter-Onset-Intervals, sogenannte IOIs) gemessen werden. Normalerweise bezeichnet IOI die Zeit zwischen zwei aufeinander folgenden Startpunkten von Noten. Dixon erweitert die Definition auf alle Zeiten zwischen Notenanfängen von Ereignispaaren, die durch ein dazwischenliegendes Ereignis getrennt werden. Der Algorithmus fasst alle möglichen Paare von Onsets, die innerhalb 2.5 Sekunden auftreten, zu einer Gruppe zusammen. Abbildung 9.2 verdeutlicht das. Jede Gruppe wird nach Anzahl ihrer Mitglieder bewertet. Die hoch bewerteten Gruppen entsprechen normalerweise dem Takt, oder aber kleinen ganzzahligen Vielfachen oder Teilern des Taktes. Der bisher beschriebene Algorithmus findet so mehrere Hypothesen (nämlich die bewerteten Gruppen) über das Tempo des Musikstücks, aber nicht die genauen Zeiten der Taktschläge. Nun beginnt die Metrumschätzung durch mehrere gleich funktionierende Agenten. Jeweils ein Agent wird durch zwei Dinge charakterisiert: 1. seinen Status, der die aktuelle Hypothese der Taktfrequenz und seiner Phase ist 9.2. GENAUERES ZU AUSGEWÄHLTEN METRUMERKENNERN 61 Abbildung 9.2: Gruppierung von IOIs 2. seiner Geschichte, die eine Folge von Taktorten ist, die der Agent bisher gefunden hat. Jeder Agent wird auf Grund seiner Geschichte bewertet. Sein Wert ist höher, je größere Regelmäßigkeiten er in den Abständen von Events gefunden hat, je wichtiger die gewählten Events waren und je seltener er Lücken in der Folge hat. Anfangs werden Agenten erzeugt, für jede Tempohypothese des vorigen Algorithmus einer. Die Agenten unterscheiden sich anfangs nur um ihren Startpunkt. Als Startpunkte dienen ein paar wenige Events aus dem Anfangsbereich des Stücks. Also wird für jedes dieser Events je ein Agent für jede Hypothese mit Phase 0 erzeugt. Die Agenten haben damit einen Startpunkt, und eine Hypothese, mit der sie den nächsten Schlag des Metrums abschätzen können. Nun beginnt die Hauptschleife über alle Events. Jedes Event wird gemäss ihrer Reihenfolge an jeden Agenten weitergegeben. Die Agenten vergleichen die Onset-Zeit des Events mit der von ihnen vorhergesagten Taktzeitpunkts, an dem ein Event auftreten sollte. Jeder Agent hat zwei Toleranzbereiche: 1. Einen inneren, in dem der Agent sicher ist, dass das Event zu der vorhergesagten Taktzeit passt 2. einen äusseren, in dem der Agent sich nicht sicher ist ob das Event als Taktzeit anerkannt werden soll. Fällt das Event in den ersten Bereich, so wird es der Geschichte hinzugefügt und die Hypothesen über Tempo und Phase aktualisiert. Fällt das Event in den zweiten Bereich, dann wird ein geklonter Agent initialisiert, der das Event als Taktzeit annimmt, während der eigentliche Agent das Event verwirft. Dieses Vorgehen soll verhindern, dass eine Taktzeit auf Grund von schwächeren 62 KAPITEL 9. SPEZIELLE FORSCHUNGSERGEBNISSE Events oder Temposchwankungen verloren geht. Wenn ein Event akzeptiert wurde, aber mehr als einen Schlag von der vorigen vom Agenten angenommenen Schlagzeit entfernt ist, dann werden die fehlenden Schläge mit einer Interpolation eingefügt. Jeder Agent hat einen Vertrauenswert. Je höher dieser Wert ist, desto wahrscheinlicher hat der Agent die richtige Tempohyphotese. Für jede erkannte Taktzeit wird der Vertrauenswert des Agenten erhöht. Um wie viel entscheidet das Gewicht des Events, und seine Nähe zur vorhergesagten Taktzeit. Das Gewicht eines Events wird in der Amplitudenstärke des Event-Onsets gemessen. Dieser Wert wird dann um die Differenz zwischen der vorhergesagten und der tatsächlichen Taktzeit vermindert. Der Endwert für den Agenten wird dann berechnet durch den bisher ermittelten Wert, vermindert um die Wertigkeit jeden Taktschlags, der interpoliert werden musste. Dann werden alle Wichtigkeiten noch normalisiert, damit Agenten, die schnellere Tempi bearbeiten, keinen Vorteil aufgrund höherer Anzahl von Taktschlägen haben. Wenn es vorkommt, dass zwei oder mehr Agenten die gleiche Folgerung über Tempo und Phase der Taktschläge haben, dann wird der am höchsten bewertete Agent beibehalten und die anderen verworfen. Die Hauptschleife endet, wenn alle Events abgearbeitet wurden. Dann geht man davon aus, dass der Agent das richtige Tempo und Metrum erfasst hat, der am höchsten bewertet wurde. Bei einem informellen Test wurde die Musik angehört. Zeitgleich lief ein Band mit, das einen perkussiven Sound an den Stellen hatte, an denen das System Taktschläge festgestellt hat. So kann man erkennen, dass die Ergebnisse näherungsweise korrekt sind. Natürlich ist dies keine sehr präzise Vorgehensweise. Etwas präzisere Testergebnisse brachte ein Vergleich der Takteinschätzung des Systems mit einer Einschätzung, die von Hand“ berechnet wurde. Von Hand“ meint, ” ” dass die Musikstücke mit einem Standardwaveeditor untersucht werden, und eine Anzahl von Taktschlägen gefunden werden, die durch klare perkussive Events (als Peak im Waveeditor erkennbar) markiert sind. Diese Taktschläge wurden dann zur Interpolation der Fehlenden benutzt. Drei der getesteten Songs sind Popmusik mit sehr gleichmäßigem Tempo, das klar durch einfache und auffallende Schlagzeugpattern markiert wird, ähnlich derer, die Goto [Goto & Muraoka ’94] verwendet. Bei dieser Musik wird normalerweise jedes Instrument einzeln aufgenommen und mit einer Metronomspur synchronisiert. Dadurch ist das Metrum sehr gleichmäßig und schwankt nur in sehr kleinen Grenzen. Bei diesen drei Songs machte das System keine Fehler. Soul, bzw. Motownmusik ist synkopierter und beinhaltet größere Temposchwankungen. Außerdem ist der Umgang mit dem Takt etwas freizügiger, manchmal hinkt es etwas hinterher ( laid ” back“), manchmal ist es doch exakt. Bei dieser Art von Musik traten die ersten Fehler auf. Bob Dylans Musik war wegen seiner typischen Art gegen den rhythmischen Kon- 9.3. TRANSKRIPTION 63 text zu singen und zu spielen noch schwieriger für das System zu detektieren. Obwohl der Takt menschlichen Zuhörern durchaus klar ist, spielt das Schlagzeug keine hervorgehobene Rolle, und die Übereinstimmung zwischen dem Metrum und den auftretenden musikalischen Ereignissen ist wesentlich kleiner als bei den anderen beiden Musikstilen. Hier verlor das System manchmal die Synchronisation und erkannte die Off-Beats als Metrum. Das Tempo wurde aber immer noch richtig eingeschätzt. Bei Bossa nova traten zwischendurch auch Tempofehler auf, das System fing sich später aber wieder. Jazzstücke wurden einerseits wegen ihrer Komplexität an manchen Stellen ausgesucht, und andererseits, weil es auch für Menschen nicht einfach ist, dem Takt zu folgen. Der Agent, der am meisten punktete, fand hier in einem Großteil noch das Tempo, aber an manchen Stellen doch fehlerhaft. Bei einer Klaviersonate von Mozart verlor das System öfters die Synchronisation und erkannte den Offbeat als Metrum. Eine frühere Version des Systems erkannte auch in manchem Popsongs einen um einen halben Takt verschobenen Takt. Wenn man die Wichtigkeitsberechnung weglässt, dann erkennt das System das ganze Stück I don’t remember of a thing“ ” verschoben. In der Popmusik unterscheidet die Wichtigkeit von Events den Beat vom Offbeat, aber beispielsweise im Jazz kann das auch anders sein. Während die vorigen Systeme auf Parallelrechnern arbeiteten, hat dieses System moderatere Hardwareanforderungen. Bei den Tests wurde ein Personalcomputer des Jahres 2001 verwendet, der ungefähr 10 Sekunden benötigte, um ein durchschnittlich langes Stück zu untersuchen. 9.3 Transkription In [Timo Viitaniemi ’03] wird ein Transkriptionssystem für einstimmige Melodien beschrieben. Eine Person singt, pfeift oder summt eine Melodie, das Programm erstellt daraus Mididaten. Dazu werden drei probabilistische Modelle verwendet: Ein Hidden-Markov-Modell für die Tonhöhenkurve, ein musikwissenschaftliches Modell (für Vorzeichen und Tonart), und ein Modell für die Zeitdauer der einzelnen Noten. Die besten Ergebnisse: 12% Fehler beim Singen, 9% beim Singen nur mit Silben, 14% Summen und 19% Pfeifen. Von Masataka Goto und Yoichi Muraoka stammt ein Konzept zur Melodie und Basslinienerkennung in Audiosignalen in Echtzeit ([Goto ’99]). Mit Hilfe einer Frequenzanalyse werden die Hauptfrequenzen für die Melodie und den Bass heraus gefiltert. Ein Multiagentensystem, bei dem jeder Agent eine hypothetische Melodie oder Basslinie verfolgt, soll dann die tatsächlich vorhandene Linie detektieren. Eingaben waren 10 CD-Aufnahmen von Pop, Jazz, und klassischer Musik, als Ausgabe erhält man kontinuierliche quantitative Werte mit Zeitstempel. Es war auf 64 KAPITEL 9. SPEZIELLE FORSCHUNGSERGEBNISSE diese Art gut möglich, die Bass und Melodielinien zu erkennen. Goto beschreibt in [Goto ’00] nocheinmal genauer die Funktionsweise der Hauptfrequenzerkennung (Predominant-F0). An der Tampere Universität in Finnland wurde versucht aus synthetisierten MIDIStücken und CD-Aufnahmen Noten zu transkibieren ([Klapuri ’98]). Dazu wird das schon oben erwähnte Metrumerkennungssystem verwendet ([Seppänen ’01]), ergänzt um eine Tonhöhenschätzung, Soundtrennung und Harmonieanalyse. Die Ergebnisse wurden mit dem verglichen, was trainierte Musiker transkripieren würden. Als Ergebnis kann man festhalten, dass die erkannten Noten zwar meist stimmig sind, aber doch eine Menge nicht erkannt wird. Als offensichtlichste Folgerung wurde angegeben, dass das System zwar ein anwendbares musikalisches Gehör hat, es aber absolut nichts von Musik versteht. [Bello et al. ’00] beschreibt ein System zur Notentranskription von Klavierstücken. Dabei gelten folgende Einschränkungen: Die Töne müssen zwischen C4 und B6 liegen, es dürfen nicht mehr als 3 Töne gleichzeitig gespielt werden und diese dürfen nicht über eine Oktave hinaus gehen. Realisiert werden die Kernfunktionen über ein Blackboardsystem, eine recht komplexes Problemlösungsmodel, das die Organisation von Wissen und Daten beschreibt. Man kann es sich so vorstellen: Viele Experten versuchen ein Problem zu lösen dass auf einer Tafel aufgeschrieben ist. Jeder Experte wird aber nur dann aktiv, wenn sein spezielles Wissen gefragt ist. Sein Ergebnis schreibt er auf die Tafel. Mit Hilfe dieses neuen Wissens können nun andere Experten weiterarbeiten [Engelmore & Morgan ’88]. Das Blackboardsystem als Kern des Ganzen hat folgende Aufgaben: 1. Extraktion der numerischen Parameter durch Signalanalyse (Fouriertransformation, Autokorrelation) 2. Entfernen von nicht hörbaren oder irrelevanten Daten 3. Verwendung von musikalischem Wissen um Muster oder Formen in der Komposition zu finden 4. Verwendung von Erfahrungswerten bei der Erkennung von musikalischen Strukturen in der Audiodatei Dem Blackboard hilft ein neuronales Netz, die getroffenen Hypothesen über Noten zu verbessern. Ausgegeben wurde entweder eine Punktedatei der CSOUNDMusikprogrammiersprache oder die Klaviaturansicht. Ein weiteres Transkriptionssystem beschreibt [Forsberg ’98]. Folgende vier Schritte werden durchgeführt, bis am Ende aus einem Sample eine Klaviaturdarstellung erzeugt wird: Spektralanalyse, partial tracking, Parametrisierung und Tonerkennung. Das System funktioniert auf sehr einfach gebauten Musikstücken recht gut, kommt aber bei komplexen Stücken schnell an seine Grenzen. 9.4. SONSTIGES 9.4 65 Sonstiges Um Dreiklänge oder einzelne Noten zu erkennen wurden in [Shuttleworth & Wilson ’95] trainierte neuronale Netze verwendet. Leider liegen die Erkennungsraten unter 60%. Wir Menschen können schnell entscheiden, ob eine Person spricht oder singt, auch wenn die Übergänge manchmal fliessend sind. In [Timo Viitaniemi ’03] wird versucht, diese Unterscheidung von einem Rechner treffen zu lassen. Eine Frequenzanalye untersucht die Daten auf spezifische Eigenheiten, zum Beispiel wird ein Vibrato eigentlich nur beim Singen verwendet. Diese Vibratofrequenz lässt sich in der Aufnahme finden. Die Erkennung der einzelnen Eigenheiten liegt bei über 50%. Anscheinend ist es also schwierig zu entscheiden ob eine Person singt oder spricht, falls keine Referenzdateien vorliegen. Um Musikmuster, und dann auch ihre Wiederholungen in notierten Musikstücken zu finden, wurde ein Patternmachingalgorithmus in [Meredith et al. ’01] verwendet. Als Eingabe dient eine Matrixnotation des Musikstücks. Eine echte Ergebnisauswertung ist leider nicht vorhanden. Eine on-set-basierte Segmentierung von Klängen (am Beispiel Sprache) wird in [Smith ’96] behandelt. Zuerst wird versucht durch einen Filter, der möglichst genau dem Verhalten des menschlichen Ohrs ähnelt, die On-Set-Zeiten und Frequenzen zu ermitteln. Anschließend werden diese Daten durch ein Neuronales Netz ( integrate ” and fire“) nach Zeit und Frequenz zu Segmenten zusammengefasst. Dadurch gelang es aus dem gesprochenen Ausdruck neuronal information processing systems“ die ” einzelnen Phoneme zu detektieren. In [Steyn ’04] wird gezeigt wie Musik, beispielsweise eine Partitur, in der Music ” Markup Language“ MML beschrieben werden kann. Diese MML ist eine XMLSprache. 9.5 Kommerzielle Systeme Ein Wav-to-Midi-System findet sich unter [Wolkersdorfer ’]. Das System soll echte Musik aus unkomprimierten Musikdaten (wav-Dateien) in MIDI-Daten umwandeln. Eine Demoversion ist herunterladbar. Bei vorgespielten Midi-Daten sind die Ergebnisse recht gut, bei CD-Aufnahmen oder gar Livemusik gibt es keine Angabe. Native Instruments“ vertreibt ein Programm, dass Takterkennung in Echtzeit aus ” akustischen Eingabedaten bietet. Das System scheint aber nur auf tieffrequente Anteile zu reagieren [Software-Synthesis-GmbH ’]. Kapitel 10 Zusammenfassung und Ausblick 10.1 Zusammenfassung Bisher wurde die menschliche Musikwahrnehmung betrachtet. Darauf aufbauend wurde eine Ontologie entwickelt, die unter Berücksichtigung der menschlichen Wahrnehmung, ein gehörtes Musikstück fassen kann. Dabei wurde Wert auf Erweiterbarkeit und mögliche Integration anderer Ontologien gelegt. In der Ontologie können Musikdarbietungen von europäischer Musik mit wenigen Einschränkungen repräsentiert werden. Die Musikontologie beschreibt das Minimum, was nötig ist, um ein Musikstück zu beschreiben. Darüber hinaus sind einige Erweiterungen sinnvoll und wünschenswert. 10.2 Ausblick 10.2.1 Klang In Kapitel 5.1.1 wurde beschrieben, dass ein natürlicher Klang zu komplex ist, um ihn direkt als Klasse in die Ontologie aufzunehmen. Deshalb muss ein komplexer Klang aus mehreren Einzelklängen zusammengebaut werden. Diese Lösung funktioniert zwar, aber sie benötigt unter Umständen eine Vielzahl an Einzelklängen. Man könnte nun versuchen, einen Behälter einzuführen, der diese Einzelklänge zusammenfasst zu einem echten Klang. Eine andere Möglichkeit könnte sein, den Frequenz- und Lautstärkeverlauf eines echten Klangs mathematisch zu beschreiben. Dann würde anstelle der festgelegten Frequenzen und der Lautstärke deren gesamter Verlauf in den Eigenschaften des Klangs auftreten. Allerdings ist die mathematische Beschreibung sicher nicht einfach zu finden. Jeder Klang wird irgendwie erzeugt, entweder von einem Instrument, einer Sän66 10.2. AUSBLICK 67 gerin, einem Lautsprecher, oder ganz anderen Dingen. Jeder dieser Klangerzeuger hat ein spezifisches Frequenz-, bzw. Obertonspektrum. In der Ontologie ist dies bis jetzt unberücksichtigt. Menschen können aber bestimmten Klängen bestimmte Klangerzeuger zuordnen. Das heißt allerdings nicht, dass ein Mensch von jedem Klang den Klangerzeuger erkennt. Also könnte eine Klasse Klangerzeuger“ ein” geführt werden, die als Unterklasse alle möglichen Arten von Instrumenten oder Ähnlichem besitzt. Dann müsste Klängen ein Klangerzeuger zugeordnet werden können. Dabei müsste berücksichtigt werden, dass nicht jedes Instrument einer Art genau dasselbe Frequenzspektrum besitzt wie ein baugleiches anderes Instrument. Hinzu kommt, dass unterschiedliche Musiker auf ein und demselben Instrument anders klingende Töne spielen. Auch die Temperatur spielt bei sehr vielen Instrumenten eine Rolle. Eine Trompete wird beispielsweise von Musikern warm gespielt, bevor ein Konzert gegeben wird, weil zum einen die Trompete warm anders klingt, und zum anderen der Trompeter schönere Töne spielen kann, wenn seine Mundmuskulatur aufgewärmt wurde. Materialunterschiede spielen ebenfalls eine Rolle. Eine Trompete, die versilbert wurde, klingt weicher als eine Trompete, die verchromt wurde. Noch weicher klingt eine unlackierte Trompete. Sogar das Mundstück hat massiven Einfluss auf die Klangfarbe. Und trotz alledem erkennen geübte Menschen bei allen gehörten Tönen, die von unterschiedlichen Musikern auf unterschiedlichen Trompeten bei unterschiedlichen Temperaturen gespielt werden, dass es sich um Klänge einer Trompete handelt. 10.2.2 Stil Es gibt verschiedene Musikstile, deren Musikstücke die Ontologie abdecken kann. Zum einen die klassische Musik, die sich in weitere, meistens entstehungszeitliche Gruppen fassen lässt, zum anderen auch die moderne Unterhaltungsmusik, zum Beispiel Rock, Pop, Jazz. Die letzteren lassen sich auch noch weiter in Untergruppen aufteilen. Bei der klassischen Musik dürfte die Zuordnung eines Stücks zu einer Stilrichtung eindeutig sein. Normalerweise wird ein Komponist einer Epoche zu geordnet und damit ist die Stilrichtung klar. Allerdings lassen sich die epochalen Eigenheiten in den Werken finden. Bei der modernen Unterhaltungsmusik dagegen sind die Grenzen sehr fließend. So kann man zum Beispiel die CDs von Nils Petter Molvaer im Fachhandel sowohl unter Jazz als auch unter Elektronischer Musik finden. Beim Anhören von Musik versucht ein Mensch meistens, das gehörte zu kategorisieren oder mit anderen ihm bekannten Musikstücken zu vergleichen. Deshalb wäre eine Integration der Musikstile in die Ontologie eine Verbesserung. Die Hauptschwierigkeit dürfte dabei sein, harte Kriterien zu finden, welche einen bestimmten Stil ausmachen, so dass er nicht mit einem anderen verwechselt werden kann. 68 KAPITEL 10. ZUSAMMENFASSUNG UND AUSBLICK 10.2.3 Liedtext Bei Liedern spielt der Text, der gesungen wird, eine große inhaltliche Rolle. Bisher wurde der Text nicht berücksichtigt, obwohl er oft im Einklang mit der Stimmung des Stückes steht. Beispielsweise wird bei Liebesliedern der Textsinn durch besonders wohlklingende Harmonien und liebliche Melodieführungen untermalt. Ab und an findet sich auch das Gegenteil dazu, dass also das was zu Hören ist an Melodie und Harmonie im Gegensatz zum Text steht. Ein Beispiel hierzu wäre das Schlaflied“ von der Gruppe die Ärzte“. ” ” 10.2.4 Musikalischer Kontext Wenn Menschen Musik hören, so beschränkt sich die menschliche Wahrnehmung nicht nur auf das reine Hören, sondern es finden eine Menge Vorgänge parallel dazu statt. Wie schon beschrieben wird versucht, eine Melodie zu finden, man versucht das Musikstück zu erkennen, das Stück wird mit Musik verglichen, die man schon kennt, und vieles mehr. Hinzu kommt, dass jeder Mensch einen anderen kulturellen Hintergrund hat. Erwachsene haben schon mehr Musik gehört als Kinder, und damit auch mehr Erfahrung mit Musik. Dieses Vorwissen spiegelt sich auch in der Bewertung des Musikstücks wieder. Doch auch zwischen Erwachsenen ist die Erfahrung und Vorbildung in Musik sehr unterschiedlich. Verbunden mit dem unterschiedlichen Geschmack, den Menschen entwickeln, spielt dies eine große Rolle beim Hören und Bewerten von Musik. Wenn also im Computer Musik möglichst Ähnlich zum Menschen betrachtet werden soll, so muss es eine Möglichkeit geben Musikwissen und Erfahrung nicht nur zu Verfügung zu stellen, sondern auch weiter zu sammeln. Durch jedes gehörte und analysierte Musikstück soll ein Stück Erfahrung hinzu gewonnen werden. Wenn unterschiedliche Musiker ein und das selbe Stück interpretieren, dann entstehen nach der vorgelegten Ontologie zwei unterschiedliche Musikstücke. Dies stimmt auch in so weit, dass jeder Interpret seine eigene Vorstellung von einem Stück mit hineinlegt. Diese eigene Vorstellung entsteht aus der im vorigen Abschnitt erklärten musikalischen Vorbildung und dem eigenen Geschmack. Besonders in der klassischen Musik gibt es für versierte Musikhörer immense Unterschiede zu entdecken, beispielsweise von welchem Pianist ein Klavierkonzert gespielt wird. Trotzdem erkennen Menschen das unterschiedlich interpretierte Stück als das selbe. Daraus ergeben sich zwei Wünsche an die Ontologie: 1. Die Eigenheit von Interpretationen sollte bemerkt und gespeichert werden 2. Unterschiede zu anderen Interpretationen des gleichen Musikstücks sollten integriert werden können. 10.2. AUSBLICK 69 Ein möglicher Ansatz könnte die in [Daemi & Calmet ’04] vorgestellte Vorgehensweise zur Quantifizierung unterschiedlicher Kontexte sein. 70 KAPITEL 10. ZUSAMMENFASSUNG UND AUSBLICK Literaturverzeichnis [Alghoniemy & Tewfik ’99] M. Alghoniemy und A. Tewfik. Rhythm and Periodicity Detection in Polyphonic Music, 1999. [Asuncion Gomez-Perez ’04] Oscar Corcho Asuncion Gomez-Perez, Mariano Fernandez-Lopez. Ontological Engineering. Springer Verlag, 2004. [AT&T ’] AT&T. GraphViz. URL: http://www.graphviz.org. [Bello et al. ’00] J. Bello, G. Monti und M. Sandler. Techniques for Automatic Music Transcription, 2000. [Berners-Lee et al. ’01] T. Berners-Lee, J. Hendler und O. Lassila. The Semantic Web. Scientific American, 05 2001. [Boulanger ’00] Richard Boulanger. The Csound Book: Perspectives in Software Synthesis, Sound Design, Signal Processing, and Programming. The MIT Press, 2000. [Braut ’93] Christian Braut. Das MIDI Buch. Sybex Verlag, 1993. [Brickley & Guha ’04] Dan Brickley und R.V. Guha. RDF Vocabulary Description Language 1.0: RDF Schema. W3C Recommendation, http://www.w3.org/TR/rdf-schema/, 2004. [Capella ’] Capella. Capella. URL: http://www.whc.de/. [Cise ’] Computer Science Cise. HUMAN PERCEPTION AND COMPUTER EXTRACTION OF MUSICAL BEAT STRENGTH George Tzanetakis, Georg Essl. [CSound ’] CSound. CSound Dokumentation. URL: http://www.ugrad. physics.mcgill.ca/reference/Csound/INDEX.html. [Cycling-74 ’] Cycling-74. Max. URL: http://www.cycling74.com/products/ maxmsp.html. 71 72 LITERATURVERZEICHNIS [Daemi & Calmet ’04] Anusch Daemi und Jacques Calmet. Assessing Conflicts in Ontologies. WSEAS Transactions on Information Science and Applications, 1, Nr. 5, S. 1289 – 1294, 2004. [Digidesign ’] Digidesign. ProTools. URL: http://www.digidesign.com/. [Dixon ’00] Simon Dixon. A Lightweight Multi-agent Musical Beat Tracking System. In Pacific Rim International Conference on Artificial Intelligence, S. 778–788, 2000. [Dixon ’01] S. Dixon. Automatic extraction of tempo and beat from expressive performances, 2001. [Dixon ’02] Simon Dixon. Pinpointing the Beat: Tapping to expressive performances, 2002. [Emagic ’] Emagic. finale.htm. Logic Pro. URL: http://www.klemm-music.de/coda/ [Engelmore & Morgan ’88] R.S Engelmore und A.J. Morgan. Blackboard Systems. Addison-Wesley publishing, 1988. [Farquhar et al. ’97] Adam Farquhar, Richard Fikes und James Rice. The Ontolingua Server: A Tool for Collaborative Ontology Construction. International Journal of Human Computer Studies, 46, Nr. 6, S. 707 – 727, 1997. [Fensel ’00] Dieter Fensel. Ontologies: A silver bullet for Knowledge Management and Electronic Commerce. Springer Verlag, 2000. [Forsberg ’98] Johan Forsberg. format, 1998. Automatic conversion of sound to the MIDI- [GI ’] web-redaktion der GI. Gesellschaft für Informatik. URL: http://www. gi-ev.de/. [Goto & Muraoka ’94] M. Goto und Y. Muraoka. A Beat Tracking System for Acoustic Signals of Music. In ACM Multimedia, S. 365–372, 1994. [Goto & Muraoka ’95] Masataka Goto und Yoichi Muraoka. Beat tracking based on multiple-agent architecture – A real-time beat tracking system for audio signals–. In Victor Lesser (Hrsg.), Proceedings of the First International Conference on Multi–Agent Systems. MIT Press, 1995. [Goto ’97] M. Goto. Music understanding at the beat level: Real-time beat tracking for audio signals, 1997. [Goto ’99] M. Goto. A real-time music scene description system: Detecting melody and bass lines in audio signals, 1999. LITERATURVERZEICHNIS 73 [Goto ’00] Masataka Goto. A Robust Predominant-F0 Estimation Method for Real-time Detection of Melody and Bass Lines in CD Recordings, 2000. [Goto ’01] Masataka Goto. An Audio-based Real-time Beat Tracking System for Music With or Without Drum-sounds, 2001. [Grosso et al. ’00] W. Grosso, H. Eriksson, R. Fergerson, J. Gennari, S. Tu und M. Musen. Knowledge Modeling at the Millennium – The Design and Evolution of Protege, 2000. [Gruber ’96] Thomas R. Gruber. Ontolingua: A mechanism to support portable ontologies. Technical Report Technical Report KSL-91-66, Stanford University, 1996. [Harmelen & Patel-Schneider ’01] Frank van Harmelen und Patel-Schneider. DAML+OIL. DARPA und EU http://www.daml.org/2001/03/daml+oil-index.html, 2001. Peter (IST), [Harold ’02] Elliotte R. Harold. Die XML Bibel. (2. Auflage). mitp, 2002. [Klapuri ’98] A. Klapuri. Automatic transcription of music, 1998. [Klemm-Music ’] Klemm-Music. Finale. URL: http://www.klemm-music.de/ coda/finale.htm. [Lenat & Guha ’90] Douglas B. Lenat und Ramanathan V. Guha. Building Large Knowledge-based Systems: Representation and Inference in the Cyc Project. Addison-Wesley, 1990. [McGuinness & Harmelen ’04] Deborah L. McGuinness und Frank van Harmelen. OWL Web Ontology Language. W3C Recommendation, http://www.w3.org/TR/owl-features/, 2004. [Medicine ’a] Stanford University School of Medicine. Stanford University School of Medicine. URL: http://med.stanford.edu/. [Medicine ’b] Standford Medical Informatics Stanford University School of Medicine. Protege. URL: http://protege.stanford.edu/. [Meredith et al. ’01] David Meredith, Geraint A. Wiggins und Kjell Lemstrom. Pattern Discovery and Pattern Matching in Polyphonic Music and Other Multidimensional Datasets, 2001. [M.Gruninger & Lee ’02] M.Gruninger und J. Lee. Ontology - applications and design, 2002. [MIDI-Manufracturers-Association ’] MIDI-Manufracturers-Association. URL: http://www.midi.org. MIDI. 74 LITERATURVERZEICHNIS [Peter Gorges ’97] Alex Merck Peter Gorges. Keyboards, MIDI, Homerecording. Carstensen Verlag, 1997. [Rosenthal et al. ’94] D. Rosenthal, M. Goto und Y. Muraoka. Rhythm tracking using multiple hypotheses, 1994. [Seppänen ’01] Jarno Seppänen. Computational Models Of Musical Meter Recognition. Diplomarbeit, Tampere Univ. of Tech., Tampere, Finland, 2001. [Shuttleworth & Wilson ’95] Tim Shuttleworth und Roland Wilson. The Recognition of Musical Structures using Neural Networks, 1995. [Smith ’96] Leslie S. Smith. Onset-based Sound Segmentation. In David S. Touretzky, Michael C. Mozer und Michael E. Hasselmo (Hrsg.), Advances in Neural Information Processing Systems, Bd. 8, S. 729–735. The MIT Press, 1996. [Smith ’04] Barry Smith. Beyond Concepts:Ontology as Reality Representation, 2004. [Software-Synthesis-GmbH ’] Software-Synthesis-GmbH. URL: http://www.nativeinstruments.de. nativeinstruments. [Sowa ’00] John F. Sowa. Knowledge Representation. Brooks/Cole, 2000. [Stanford-Medical-Informatics ’] Stanford-Medical-Informatics. Standford Medical Informatics. URL: http://camis.stanford.edu/. [Steyn ’04] Jaques Steyn. A Modular Approach to XML Music Notation and Representation, 2004. [Timo Viitaniemi ’03] Antti Eronen Timo Viitaniemi, Anssi Klapuri. A Probabilistic Model For The Transcription Of Single-Voices Melodies, 2003. [T.R.Gruber ’93] T.R.Gruber. A Translation Approach to Portable Ontologies, Knowledge Acquisition, 5: 199-220 1993. ” [Vercoes ’] Barry Vercoes. Barry Vercoes. URL: http:http://web.media.mit. edu/~bv/. [Volker Haarslev ’] Michael Wessel Volker Haarslev, Ralf Möller. RACER. URL: http://www.sts.tu-harburg.de/~r.f.moeller/racer/. [w3c ’] w3c. semantic web. URL: http://www.w3.org/2001/sw/. [Wolkersdorfer ’] Peter Wolkersdorfer. Midimaster. URL: http://midimaster. de/windex.htm. LITERATURVERZEICHNIS 75 [Ziv & Lempel ’77] Jacob Ziv und Abraham Lempel. A Universal Algorithm for Sequential Data Compression. IEEE Transactions on Information Theory, 23, Nr. 3, S. 337–343, 1977.