Titel der Arbeit

Werbung
Universität Karlsruhe (TH)
Fakultät für Informatik
Institut für
Algorithmen und Kognitive Systeme
Prof. Dr. J. Calmet
Kreativität in der Musik durch
Spezifizierung
Diplomarbeit
von
Stefan Kink
Stand: 1. Februar 2005
Betreuer: Prof. Dr. J. Calmet
Betreuender Mitarbeiter: Dipl. Inform. Anusch Daemi
Erklärung
Hiermit erkläre ich, die vorliegende Arbeit selbständig erstellt und keine anderen
als die angegebenen Quellen und Hilfsmittel benutzt zu haben.
Karlsruhe, den 1. Februar 2005
Danksagung
Ich möchte an dieser Stelle all jenen danken, welche entscheidende Bedeutung an
der Entstehung dieser Diplomarbeit haben.
Ich danke Herrn Prof. Dr. Calmet, der mir diese Arbeit ermöglicht hat und an
dessen Institut ich mich sehr wohl fühlte.
Vielen Dank an Anusch Daemi, Doktor in Spe, der mich bei dieser Arbeit betreut
und begleitet hat.
Herzlicher Dank an Boris Yoffe, der mit seinen Ideen den Anstoß gab am
Institut für Algorithmen und Kognitive Systeme eine Diplomarbeit auszuschreiben, die Informatik mit Musik verbindet.
Besonders bedanken möchte ich mich bei Herrn Prof. Dr. Thomas Troge
von der Musikhochschule Karlsruhe. Er hat viel Zeit für mich aufgebracht
und ein Auge darauf gehabt, dass die musikalischen Zusammenhänge sinnvoll
berücksichtigt wurden. Deshalb bin ich mir sicher, dass diese Arbeit, obwohl ich
Musik nur“ als Hobby betreibe, auch musikwissenschaftlich akzeptabel ist.
”
Meiner Praxisgruppe vom VLL 2003 (Solveig Rebholz, Charlotte Becher,
Claire Kahmann, Manfred Frank) danke ich für die hervorragende mentale
Unterstützung und die Motivation. Ihr seid super :-)
Ganz zum Schluss natürlich noch der Dank an meine Eltern für all die Unterstützung jeder Art, ohne Euch wäre es echt schwierig geworden (auch wenn
man mal von meiner Nichtexistenz absieht, die ohne Euch Realität wäre :-) )
Noch mal ganz zum Schluss bedanke ich mich bei meinem Computer, der
brav die Tipparbeit überstand und nicht ein Mal mein schon Geschriebenes
vergessen hat. Ich weiß das zu schätzen und behandle ihn in Zukunft noch
pfleglicher als sonst.
Inhaltsverzeichnis
1 Einleitung
1
1.1
Menschliche musikalische Wahrnehmung . . . . . . . . . . . . . . .
1
1.2
Forschungsgebiete . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.3
Ziel der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.4
Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2 Computer und Musik
6
2.1
MIDI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.2
Csound . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.3
Sequenzer und Arrangierhilfen . . . . . . . . . . . . . . . . . . . . .
8
2.4
Notensatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3 Ontologie
10
4 Musikalische Grundbegriffe
13
4.1
Ton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2
Metrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.3
Takt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.4
Rhythmik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.5
Tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.6
Harmonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.7
Klang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.8
Melodie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.9
Noten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.10 Puls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
i
ii
INHALTSVERZEICHNIS
5 Entwicklung der Ontologie in natürlicher Sprache
5.1
19
Hörerlebnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.1.1
Klang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.1.2
Geräusch
5.1.3
Pause . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.2
Melodielinie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.3
Begleitlinie
5.4
Harmonie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.5
Zeitmaß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.5.1
Metrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.5.2
Takt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.5.3
regelmäßig-unregelmäßiges Zeitmaß . . . . . . . . . . . . . . 23
5.5.4
Rhythmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.5.5
unregelmäßiges Zeitmaß . . . . . . . . . . . . . . . . . . . . 23
5.6
Lautstärke und Puls . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.7
Musikstück . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.8
Datentypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.9
Besonderheiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
6 Darstellung von Ontologien
26
6.1
RDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
6.2
DAML+OIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
6.3
OWL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6.3.1
6.4
Kurzübersicht über OWL . . . . . . . . . . . . . . . . . . . 27
OWL-Entwicklungswerkzeug . . . . . . . . . . . . . . . . . . . . . . 30
7 Die Ontologie in OWL
7.1
32
Formale Besonderheiten . . . . . . . . . . . . . . . . . . . . . . . . 34
7.1.1
Überdeckung . . . . . . . . . . . . . . . . . . . . . . . . . . 34
7.1.2
disjoint . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
7.1.3
Value Partition . . . . . . . . . . . . . . . . . . . . . . . . . 35
7.2
Datentyp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
7.3
Hörerlebnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
INHALTSVERZEICHNIS
7.4
iii
Unterklassen von Hörerlebnis . . . . . . . . . . . . . . . . . . . . . 38
7.4.1
Klang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
7.4.2
Pause . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
7.4.3
Geräusch
. . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
7.5
Zeitmass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
7.6
Harmonieobjekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
7.7
Lautstärkenverhältnis . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.8
Linie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
7.9
7.8.1
Begleitlinie . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7.8.2
HarmonieLinie . . . . . . . . . . . . . . . . . . . . . . . . . 46
7.8.3
LautstärkenVerhältnisLinie . . . . . . . . . . . . . . . . . . . 46
MelodieLinie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
7.10 Puls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.10.1 Pulsfolge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
7.11 Musikstück . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
8 Beispiel
49
9 Spezielle Forschungsergebnisse
54
9.1
Metrumerkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
9.2
Genaueres zu ausgewählten Metrumerkennern . . . . . . . . . . . . 56
9.2.1
Goto & Muraoka 1994 . . . . . . . . . . . . . . . . . . . . . 56
9.2.2
Dixon 2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
9.3
Transkription . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
9.4
Sonstiges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
9.5
Kommerzielle Systeme . . . . . . . . . . . . . . . . . . . . . . . . . 65
10 Zusammenfassung und Ausblick
66
10.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
10.2 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
10.2.1 Klang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
10.2.2 Stil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
10.2.3 Liedtext . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
10.2.4 Musikalischer Kontext . . . . . . . . . . . . . . . . . . . . . 68
iv
Literaturverzeichnis
INHALTSVERZEICHNIS
71
Abbildungsverzeichnis
1.1
1.2
1.3
slow down“ in voller Länge . . . . . . . . . . . . . . . . . . . . . .
”
slow down“, die erste Minute . . . . . . . . . . . . . . . . . . . . .
”
slow down“, die ersten 24 Sekunden . . . . . . . . . . . . . . . . .
”
2
3
3
4.1
Leeres Notensystem . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2
Unterschiedliche Notenlängen . . . . . . . . . . . . . . . . . . . . . 17
4.3
Noten mit unterschiedlicher Tonhöhe . . . . . . . . . . . . . . . . . 17
4.4
Pausen unterschiedlicher Länge . . . . . . . . . . . . . . . . . . . . 18
6.1
Die Protege-Oberfläche . . . . . . . . . . . . . . . . . . . . . . . . . 31
7.1
Der Klassengraph . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
7.2
Die Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
7.3
Datentypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
7.4
Value Partition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
7.5
Hörerlebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
7.6
Zeitmass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
7.7
HarmonieObjekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.8
Lautstärkenverhältnis . . . . . . . . . . . . . . . . . . . . . . . . . . 44
7.9
Linie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7.10 Puls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
8.1
Lied Alle meine Entchen“ . . . . . . . . . . . . . . . . . . . . . . . 49
”
9.1
Beat-Tracking-System . . . . . . . . . . . . . . . . . . . . . . . . . 58
9.2
Graph zum Gruppierungsalgorithmus . . . . . . . . . . . . . . . . . 61
v
vi
ABBILDUNGSVERZEICHNIS
Tabellenverzeichnis
vii
viii
TABELLENVERZEICHNIS
Kapitel 1
Einleitung
Diese Diplomarbeit beschäftigt sich damit, wie Musik im Computer so repräsentiert werden kann, dass sie die menschliche Wahrnehmung integrieren kann. Durch
die Erstellung einer Ontologie ist es möglich, den Kontext, in dem ein Musikstück steht, zu erfassen und zu formalisieren. Analysen von verschiedener solcher
Kontexte erlauben evtl. Rückschlüsse auf die Kreativität, beispielsweise könnte
anhand der formalisierten Konzepte erkannt werden, ab wann eine Vortragsweise
interessant“ klingt und wann nicht.
”
Zuerst wird kurz beleuchtet, wie Menschen überhaupt Musik wahrnehmen. Es
folgt ein kurzer Überblick, womit sich aktuelle Forschung derzeit beschäftigt. Der
Abschluss des Kapitels dient dazu, die Inhalte der folgenden Kapitel aufzuzeigen.
1.1
Menschliche musikalische Wahrnehmung
Es gibt eine Reihe von Hilfsmitteln, die Musikern beim Komponieren, Darstellen oder Aufführen von Musik helfen. So gibt es das Datenformat MIDI (Musical Instruments Digital Interface), mit dem Kompositionen synthetisch abgespielt
werden können. Echte Programmiersprachen wie Csound ermöglichen komplexe
Klangerzeugungen zu implementieren und anschließend abzuspielen. Notensatzsysteme helfen, die übliche Notennotierung im Rechner schnell und effizient darzustellen. Mit Sequenzersoftware können Tonaufnahmen arrangiert und angepasst
werden. All diese Entwicklungen sind schon sehr ausgereift. Sie dienen dem Menschen als Hilfe zur Umsetzung seiner musikalischen Kreativität. Die Analyse von
gespielter Musik dagegen ist viel komplexer, und noch nicht so weit erforscht.
Der Mensch verfügt über ein akustisches Sinnesorgan, dessen Fähigkeiten erstaunlich sind:
1
2
KAPITEL 1. EINLEITUNG
• Wir können entscheiden, woher ein akustisches Signal kommt
• wir können Stimmen von einander unterscheiden, auch wenn wir, wie beispielsweise in einem Restaurant, mehrere Stimmen hören.
• wir können für uns unwichtige Signale in gewissen Grenzen ausblenden.
• Wir können uns auf ein Geräusch bewusst konzentrieren
Wir wissen zwar, dass das menschliche Sinnesorgan bestimmte Aufgaben schnell
erfüllen kann, aber wir wissen nicht wie es das tut. Hinzu kommt noch, dass der
Mensch nicht einfach nur hört, also den Sinneseindruck aufnimmt, sondern auch
gleichzeitig bewertet und interpretiert.
Deshalb ist das Nachbauen schon von einzelnen dieser Fähigkeiten eine echte Herausforderung. Bisher ist es noch nicht gelungen, ein künstliches Ohr zu konstruieren, das annährend die Fähigkeiten des menschlichen Ohrs hat.
Das Musik hören ist nun eine besonders anspruchsvolle Aufgabe für das Ohr. Auf
Signalebene betrachtet besteht Musik nur aus Frequenzen zu bestimmten Zeiten
mit einer bestimmten Lautstärke. Betrachtet man das Wellenbild, dann kann man
darin mit bloßem Auge nicht viel erkennen. Als kurzes Beispiel dient das Lied Eve”
rything I need“ vom Album slow down“ des Bluesmusikers Keb Mo. In Abbildung
”
1.1 sieht man die Wellenanzeige des Liedes. Das Lied dauert insgesamt 3:56 min.
Da es in Stereo aufgenommen ist, gibt es die zwei Kurven in der Abbildung, eine
für den rechten, eine für den linken Kanal. Auf der x-Achse ist die Zeit aufgetragen, auf der y-Achse der Pegel (die Lautstärke). Man kann eigentlich nur erkennen,
dass das Lied am Ende ausgeblendet wird, und ohne langes Intro beginnt. Bei der
ca. 76. Sekunde scheint in dem Lied eine kurze Pause oder ein Break zu sein. Viel
mehr ist nicht zu erkennen. Abbildung 1.2 zeigt die erste Minute des Stücks in
Abbildung 1.1: slow down“ in voller Länge
”
der Waveanzeige. Hier kann man immerhin den Grundschlag erahnen. Wenn man
das Lied gehört hat, dann weiß man, dass die größten Ausschläge vom Schlagzeug
stammen. Wo allerdings Strophen sind, oder wo der Refrain beginnt ist auch hier
1.2. FORSCHUNGSGEBIETE
3
Abbildung 1.2: Die erste Minute von slow down“
”
nicht zu sehen. Abbildung 1.3 zeigt die ersten 24 Sekunden. Hier kann man nun das
Schlagzeug besser erkennen, und auch gerade so, ab wann die Begleitung richtig
einsetzt. Aber es sollte doch deutlich werden, dass in solch einer Darstellung über
das, was man tatsächlich hören wurde, nur ganz wenig Information extrahieren
kann.
Abbildung 1.3: Die ersten 24 Sekunden von slow down“
”
1.2
Forschungsgebiete
Es gibt einige Versuche, aus einem Musikstück das Metrum zu extrahieren
([Dixon ’00], [Goto & Muraoka ’94], [Seppänen ’01], [Rosenthal et al. ’94]), die auf
relativ einfach strukturierten Musikstücken sehr gute Ergebnisse erzielen. Werden
die Musikstücke aber komplexer, und dadurch interessanter, dann werden die Ergebnisse schlechter.
4
KAPITEL 1. EINLEITUNG
Ein weiteres Gebiet auf dem geforscht wird, beschäftigt sich mit der Extrahierung
von Melodien oder Basslinien aus vorgespielten Musikstücken ([Goto ’99], ). Die
Ergebnisse reichen von gut bis schlecht und schwanken stark.
Transkriptionssysteme ([Timo Viitaniemi ’03], [Bello et al. ’00], [Klapuri ’98],
[Wolkersdorfer ’]) versuchen, gehörte Musik in Notenschrift umzusetzen. Die erkannten Noten sind zwar meist richtig, doch es werden bei weitem nicht alle Noten
erkannt.
[Shuttleworth & Wilson ’95] beschäftigt sich mit der Erkennung von Harmonien,
[Meredith et al. ’01] mit sich wiederholende Musikpattern.
1.3
Ziel der Arbeit
Es gibt aber bisher noch keine Datenstruktur, mit der ein komplexes Musikstück
im Rechner so gehalten werden kann, dass es wirklich bearbeitet bzw. analysiert
werden kann. Das Ziel dieser Arbeit ist deshalb eine Repräsentation eines Musikstücks, die einerseits dem Rechner in Zukunft zugänglich gemacht werden kann,
andererseits aber das menschliche Hören so weit wie möglich berücksichtigt. Dazu
wird eine Ontologie entwickelt. Kurz gesagt versucht eine Ontologie ein Denkmodell über eine bestimmte Wissensdomäne zu repräsentieren. Dazu werden Abstrakte gebildet und zu einander in Beziehung gesetzt. Es wird also eine Menge von
Konstrukten und ihren Beziehungen zueinander entwickelt, die zusammen ein Musikstück, das angehört wurde, darstellen können. Um musikalische Richtigkeit der
Ontologie zu gewährleisten, wurde eng mit Prof. Dr. Troge der Musikhochschule
Karlsruhe zusammen gearbeitet.
Diese Ontologie wird in OWL, der Ontologie Web Language, repräsentiert. Sie
basiert auf RDF, sowie DAML+OIL und benutzt zur Darstellung die Metasprache
XML.
1.4
Aufbau der Arbeit
Folgende Übersicht zeigt kurz, welche Inhalte in dieser Arbeit behandelt werden:
• In Kapitel 2 wird beleuchtet welche wo Computer und Musik mit einander
verbunden sind. Ein Schwerpunkt liegt darauf, den Computer als Hilfsmittel
für Musiker und Komponisten zu betrachten.
• In Kapitel 3 wird geklärt, was unter dem Begriff Ontologie“ zu verstehen
”
ist. Da in den weiteren Kapiteln eine Ontologie entworfen werden soll, ist
1.4. AUFBAU DER ARBEIT
5
eine gründliche Betrachtung von Ontologie“ notwendig.
”
• In Kapitel 4 werden musikalische Grundlagen erklärt, die dann in den
späteren Kapiteln verwendet werden. Zum einen kann nicht vorausgesetzt
werden, dass jeder die notwendigen Begriffe überhaupt kennt, zum anderen
wird durch genauere Definitionen eventuellen Mißverständnissen vorgebeugt.
• In Kapitel 5 die Musik-Ontologie entwickelt. Dabei wird noch kein Wert auf
Formalia gelegt, sondern die Zusammenhänge der einzelnen Aspekten von
Musikstücken sollen aufgezeigt werden.
• Kapitel 6 beschreibt die Entstehung von OWL und gibt eine Kurzübersicht
über die Konzepte, die in OWL verfügbar sind. OWL wurde gewählt, um die
Musik-Ontologie darzustellen.
• Die einzelnen Bestandteile der Musik-Ontologie in OWL werden in 7 genau
erläutert.
• In Kapitel 8 wird am Beispiel des Liedes Alle meine Entchen“ gezeigt, wie
”
die Ontologie praktisch funktioniert.
• 9 nimmt Bezug auf bisherige Forschungen.
• Der Ausblick 10 zeigt auf, wo an dieser Ontologie noch weiter gearbeitet
werden kann.
Kapitel 2
Computer und Musik
Computer spielen auf verschiedenen Teilgebieten der Musik eine große Rolle: Notation, Komposition, Klangerzeugung, Nachbearbeitung, und vieles mehr. Dabei
handelt es sich um Werkzeuge, die den Menschen unterstützen sollen, Musik zu
gestalten.
2.1
MIDI
Für den Kompositions- und Notationsbereich wurde das MIDI-Datenformat (Musical Instruments Digital Interface) entwickelt. MIDI-Daten sind keine Audiodaten.
Das heißt, bei MIDI wird keine echte Musik, wie sie klingt produziert, sondern
lediglich notiert, wie sie klingen soll. Man kann sich MIDI-Daten analog zur Notenschrift vorstellen. Über bestimmte MIDI-Befehle wird programmiert, wie lange
welcher Ton von welchem Instrument in welcher Lautstärke gespielt werden soll.
Die ganze MIDI-Sprache ist ein wenig an das Klavier angepasst, da zur MIDIEingabe und Bearbeitung oftmals MIDI-Keyboards verwendet werden.
Beispiele für MIDI-Befehle sind:
• Note On: Bestimmt den Anschlagszeitpunkt für eine Note, vorstellbar wie
das drücken einer Taste am Klavier
• Note off: Bestimmt den Endezeitpunkt der Klangerzeugung, ähnlich dem
loslassen der Klaviertaste. Das heißt, dass bestimmte Instrumente noch einen
Nachhall haben können, obwohl der Note-off-Befehl schon abgesetzt wurde.
• Velocity: Die Geschwindigkeit, mit der eine Klaviertaste gedrückt werden
soll. Dies codiert die Lautstärke.
• PitchBend: Damit kann man die Tonhöhe eines Tons, während er gespielt
wird, in Grenzen verändern.
6
2.1. MIDI
7
Damit also ein MIDI-Stück erklingen kann, werden die MIDI-Daten an einen MIDIfähigen Klangerzeuger geschickt, beispielsweise ein Keyboard, eine Soundkarte,
oder ein Synthesizer. Ein Synthesizer ist ein Gerät, dass elektronisch Klänge erzeugt. Damit nun das MIDI-Gerät weiß, welcher Ton wie klingeln soll, wird jedem
Ton eine Instrumentennummer mitgegeben. Ein MIDI-Klangerzeuger hat eine Tabelle, die einer Nummer ein Instrument zuordnet, und erzeugt somit den Ton mit
dem gewünschten Instrument. Die Klänge werden synthetisch erzeugt, das heißt
wenn ein Klarinettenton gefordert wird, dann wird synthetisch ein Klang erzeugt,
der nach Klarinette klingen soll. Die Qualität hängt deshalb stark vom verwendeten
Synthesizer ab. Je qualitativ hochwertiger, und damit auch teurer, ein Klangerzeuger ist, desto näher kommt die Tonqualität an die tatsächliche Qualität des echten
Instrumentes heran. Trotzdem gelingt es bisher nicht mit vertretbarem Aufwand
einen klang zu erzeugen, der einem echten“ Instrumentenklang zum verwechseln
”
ähnlich ist. Dieses Prinzip hat nun zwei Nachteile:
1. Die Qualität der erklingenden Musik ist absolut abhängig vom verwendeten
MIDI-Gerät. Der Komponist kann vorher nicht wissen, wie die MIDI-Datei
auf einem anderen Gerät abgespielt klingt. Zudem kann passieren, dass ein
gefordertes Musikinstrument auf dem Zielgerät gar nicht vorhanden ist.
2. Da die MIDI-Instrumente nur über Nummern geregelt sind, kann es vorkommen, dass auf dem einen Gerät eine Flöte die Nummer hat, die auf einem
anderen Gerät ein Bassinstrument inne hat.
Um den zweiten Punkt abzuschwächen wurde der Standard General MIDI“ be”
schlossen. General MIDI legt fest, welche Instrumente auf den Nummern eins bis
128 zu liegen haben. Damit ist zumindest sichergestellt, dass auf General-MIDIGeräten die am weiten verbreitetsten Instrumente auf denselben Nummern liegen,
und somit die MIDI-Dateien einigermaßen gleich klingen.
Vorteile von MIDI sind:
• MIDI-Dateien sind sehr klein. Dadurch können sie sehr gut auf Web-Seiten
als Hintergrundmusik, oder auf Handys als Klingeltöne eingesetzt werden.
• MIDI-Daten sind einfach zu erstellen und zu editieren. Die Eingabe von
Musik über ein MIDI-Keyboard ist sehr schnell und bequem.
• MIDI-Daten können nicht nur Musikinstrumente ansteuern, sondern auch
Effekte. Mit Hilfe von MIDI-Daten könnte beispielsweise ein Hall-Effekt angesteuert werden.
Die MIDI-Webseite findet man unter [MIDI-Manufracturers-Association ’]. Einen
Einstieg in die digitale Musikverarbeitung mit Hilfe von MIDI bietet das Buch
[Peter Gorges ’97], tieferes Wissen findet sich in [Braut ’93].
8
KAPITEL 2. COMPUTER UND MUSIK
2.2
Csound
Csound ist eine der am meisten verbreiteten Programmiersprachen für die Entwicklung von Musikstrukturen und Klangdesign. Sie wurde von Barry Vercoes
entwickelt [Vercoes ’]. Insbesondere zum Sound-Design geeignet, lassen sich aber
auch komplexe Kompositionen in Csound erstellen. Wie bei einer Programmiersprache gibt der Komponist Zeile für Zeile Befehle in einen Texteditor ein, die nach
dem Erstellen dieses Source Codes mit dem Programm Csound kompiliert werden.
Am Ende dieser Kompilierung steht eine Klangdatei, z.B. im RIFF (.wav) oder
.aif Format. Eine solche Befehlsfolge könnte in Pseudocode so aussehen:
• Nehme einen Sinus
• Weise dem Sinus die Frequenz 440 Hz zu
• Weise dem Sinus die Lautstärke -5dB zu
• Spiele den Sinus genau 5 Sekunden lang
Csound ist eine Programmiersprache, ein Musikstück wird in Prinzip durch zwei
Dateien festgelegt:
1. mittels so genannten Orchesterdateien“ werden die Instrumente festgelegt
”
2. in Score“-Dateien stehen die Partituren
”
Es gibt eine Reihe von unterstützenden Programmen, die das komponieren von Musik in Csound unterstützen, beispielsweise die graphische Benutzeroberfläche Max
[Cycling-74 ’] Die komplette Csound Dokumentation findet sich unter [CSound ’],
grundlegende und weiterführende Kenntnisse über Csound vermittelt das Buch
[Boulanger ’00]
2.3
Sequenzer und Arrangierhilfen
Wertvolle Hilfe leisten Computer beim produzieren von Musik, zum Beispiel in
Tonstudios. Musiker können einzelne Teilstücke eines Musiktitels einspielen, die
dann in so genannten Sequenzerprogrammen arrangiert werden. Der Rechner kann
die so angeordneten Musikfragmente in Echtzeit abspielen, was das Ausprobieren
verschiedener Arrangiermöglichkeiten erheblich beschleunigt. Doch diese Programme helfen nicht nur beim arrangieren, sie können auch einige Unterschiedliche Effekte auf bestimmte Tonspuren legen, und diese ebenfalls in Echtzeit berechnen.
Beispiele für Effekte:
2.4. NOTENSATZ
9
• Verzerren, ähnlich zu den Gitarrenverzerrern
• Hall, als ob man sich in einer großen Kirche befände
• Pitchen, eine Tonspur in der Tonhöhe manipulieren. Wird zum Beispiel eine
Stimme nach oben gepiched, dann entsteht der so genannte Mickey-Mouse”
Effekt“. Die Stimme klingt dann comicartig.
Auch für die Komposition von Filmmusik sind solche Programme vorteilhaft.
Durch sie kann die Musik den bewegten Bildern framegenau angepasst werden.
Beispielsweise setzt ein Trommelwirbel genau dann ein, wenn etwas Dramatisches
auf der Leinwand geschieht.
Beispiele für Sequenzer-Programme wären Logic Pro von Emagic, mittlerweile
von Apple Computers übernommen [Emagic ’], und ProTools von Digidesign
[Digidesign ’]
Durch die Echtzeitfähigkeit werden sogar Live-Auftritte mit Computerunterstützung möglich.
2.4
Notensatz
Ein Komponist, der Musik für Streichorchester oder ähnliches komponiert, freut
sich über einen bequemen Noteneditor. Ohne Computer ist es doch recht aufwändig, komplette Partituren von Hand zu schreiben. Nicht allein die Vielzahl von
Noten macht es sehr langwierig, auch sollte das Ergebnis für die Musiker, die das
Stück dann spielen sollen, lesbar sein. Durch komplexe Notensatzprogramme ist
es einem Komponist möglich, eine saubere, sogar druckfähige Version von seinem
Musikstück zu gestalten. Auch das Noten eingeben ist komfortabler als von Hand,
da mit Hilfe eines Keyboards über MIDI-Daten sehr große Teile eines Werkes einfach eingespielt werden können.
Bekannte Notensatzprogramme sind Capella“ der gleichnamigen Firma
”
[Capella ’], oder Finale“ der Firma Klemm Music [Klemm-Music ’].
”
Kapitel 3
Ontologie
Ursprünglich ist die Ontologie ein Zweig der Philosophie, genauer der Metaphysik.
Während sich die Physik mit der Existenz der materiellen Dinge und deren
Bewegungen befasst, sind es bei der Metaphysik die Gründe der Dinge und der
dahinter stehenden Ideen.
Der Begriff Ontologie kommt aus dem Griechischen: ontos“ heißt das Sein“
”
”
und logos“ das Wort“. Sie beschäftigt sich mit dem Sein, bzw. mit den
”
”
Möglichkeiten und den Bedingungen des Seins. Eine große Rolle spielt dabei
der Unterschied zwischen dem vom Menschen Wahrgenommenen und der Realität.
Barry Smith legt in [Smith ’04] drei grundlegende Sichtweisen fest, einer liegt eine
idealistische, einer eine skeptischen und einer eine aufbauenden Philosophie zugrunde:
• eine Sicht, in der so etwas wie eine objektive Realität der Konzepte oder
grundsätzliche Aussagen in unseren Wissensrepräsentationssystemen entsprechen würden, nicht existiert
• eine Sicht, in der wir nicht wissen können, was eine objektive Realität ist,
so dass kein praktischer Nutzen aus dem Versuch, eine solche Entsprechung
einzurichten, gezogen werden kann. Also es gibt eine objektive Realität, aber
wir können sie nicht erkennen.
• eine Sicht, in der der Begriff Realität“ in jedem Fall nicht mehr anzeigt,
”
als ein Konstrukt aus Konzepten, so dass jedes Konzept-System im Prinzip
einen gleichwertigen Anspruch hat, seine eigene Realität“ oder Mögliche
”
”
Welt“ zu haben.
Damit erklärt sich auch der Bezug zur Informatik. Sehr oft wird versucht,
Erkanntes oder Erdachtes, kurz gesagt Wissen“, zu repräsentieren, zu speichern,
”
10
11
zu kommunizieren und weiter zu verarbeiten. Eine grundlegende Einführung
findet sich in [Sowa ’00]. Wissen“ ist sehr breit gefächert zu verstehen: Zum
”
Beispiel Regeln in einem technischen Anwendungsbereich, Inhalt von Webseiten,
oder das Wissen darüber, welcher Wein zu welchen Speisen passt.
Wir Menschen verwenden die ganze Zeit gespeichertes Wissen“. Wir merken
”
uns viele verschiedene Sachen aus vielen Bereichen und sind in der Lage, selber
Gelerntes mit Zusätzlichem Wissen aus Büchern, Vorträgen oder Ähnlichem zu
verbinden. Das erweitert unser Wissen und hilft uns bei Entscheidungsfindungen.
Will man nun Such-, Kommunikations- und Entscheidungsaufgaben einem
Automaten überlassen, so stellt sich die Frage, wie man dem Automat genau
dieses “ Wissen“ zur Verfügung stellt. Es wird also eine Repräsentation gesucht,
wofür sich im Laufe der Zeit der Begriff Ontologie“ eingebürgert hat.
”
T. Gruber ([T.R.Gruber ’93] definiert Ontologie als: explizite formale Spezifika”
tion einer gemeinsamen Konzeptualisierung“ (shared conceptualization). So betrachtet ist eine Ontologie also eine formale Beschreibung einer Wissensdomäne
mit einer standardisierten Terminologie und Beziehungen zwischen den dort definierten Konzepten.
Diese Terminologie wird im Allgemeinen durch eine Taxonomie festgelegt. Zu dem
Ausgangselement Klasse kommen dann noch Relationen, Funktionen und Axiome
hinzu.
So kann es also auch unterschiedliche Ontologien für unterschiedliche Wissenschaftsbereiche geben, sogar für den gleichen Bereich mit unterschiedlichen, vielleicht auch konkurrierenden Terminologien.
Leider ist die Definition der Ontologie als eine Konzeptualisierung“ nicht beson”
ders präzise, da auch diese Konzeptualisierung“ nicht scharf definiert ist.
”
Gruninger und Lee unterscheiden in [M.Gruninger & Lee ’02] drei Anwendungsfelder:
• Kommunikation: Sollen zwei Programme miteinander kommunizieren, so
müssen sie entweder selbst die Interpretationsvorschrift für die Daten mit
sich führen oder aber sie liefern diese in Form von Metadaten aus einer für
beiden Seiten zugänglichen Ontologie mit.
• Automatisches Schließen: Auf Grund der in der Ontologie vorhandenen Ableitungsregeln lassen sich logische Schlüsse ziehen. Diese müssen dann auch
nicht mehr stets von neuem übermittelt werden.
• Wissensrepräsentation und -wiederverwendung
Ontologien sind also in allen Bereichen der Informatik von Bedeutung, die sich
mit Wissen in irgendeiner Form beschäftigen. Diese sind zum Beispiel künstliche
12
KAPITEL 3. ONTOLOGIE
Intelligenz, Datenbanken und Informationssysteme, aber auch angrenzende Gebiete (zum Beispiel Softwaretechnik oder Multimedia-Kommunikation) oder Anwendungsgebiete wie e-commerce [Fensel ’00].
Eine große Datenbank für Ontologien findet sich z.B unter Ontolingua
([Farquhar et al. ’97], [Gruber ’96]) oder CyC ([Lenat & Guha ’90]).
Ontologien spielen zurzeit eine große Rolle im Bereich des Semantic Web“
”
[Berners-Lee et al. ’01]. Ziel des Semantic Web“ ist es, Web-Dokumente mit
”
einer Semantik“ mit Hilfe von Metadaten ( tags“) zu versehen, die ihren Inhalt
”
”
näher beschreiben. Zusätzlich sollen die Dokumente durch Ableitungsregeln
miteinander verknüpft werden. Damit sollen zum Beispiel Suchmaschinen unterstützt werden, benötigte Informationen gezielt und effizient zu finden und
gleichzeitig zu verbinden. Ontologien sollen dazu dienen, genau diese Metadaten
und Verknüpfungsregeln zu liefern. [w3c ’]
Die Gesellschaft für Informatik [GI ’] sieht folgende ungelöste Probleme bezüglich
Ontologien:
• Wie lassen sich gut verwertbare Metadaten für sehr große Ressourcenbestände erzeugen und konsistent weiterentwickeln? Lässt sich das Annotieren von
Dokumenten sinnvoll automatisieren?
• Können Ressourcen klar und eindeutig klassifiziert werden, z.B. in Dokumente, Daten, Metadaten, physische und virtuelle Aktoren (actors), physische
Einheiten?
• Wie lassen sich Metadaten in (möglicherweise überlappende und inkonsistente) Ontologien einordnen? Wie werden Synonyme, Homonyme und zirkuläre
Definitionen behandelt?
• Macht es Sinn, nach einer gemeinsamen, allen Ontologien unterliegenden
Top-level-, Universal- oder Meta-Ontologie zu suchen - oder führt dies zu
ähnlichen Schwierigkeiten wie die Suche nach einem objektiven Weltbild in
der Physik?
Einen guten Einblick in das Entwickeln von Ontologien, speziell für Wissensmanagement und das Semantic Web findet man in [Asuncion Gomez-Perez ’04].
Kapitel 4
Musikalische Grundbegriffe
Um die Musik-Ontologie verstehen zu können, sind Kenntnisse über musikalische
Begriffe nötig, die im folgenden vermittelt werden sollen.
4.1
Ton
Ein Ton entsteht durch periodische Schwingungen eines elastischen Körpers. Diese
Schwingungen werden über ein Medium dem Ohr zugeführt.
Der einfachste Ton ist der durch genau eine Frequenz definierte Sinuston. In der
Natur kommen einfache Sinustöne praktisch nicht vor. Die Töne, die natürlich erzeugt werden, sind meist komplexer. Das heißt, sie haben einen Grundton (eine
Grundschwingung), und mehrere gleichzeitig erklingende Obertöne, die die Klangfarbe ausmachen.
Bei jeder natürlichen Tonerzeugung wird neben dem Grundton noch eine Vielzahl
höherer Töne zum Schwingen angeregt. Man nennt diese Obertöne, Partialtöne,
Teiltöne, die Folge dieser Töne heißt Obertonreihe. Die Gesamtheit aller Obertöne
ergibt das Frequenzspektrum eines Tons.
Zu beachten ist, dass der Begriff Obertöne“ die Grundfrequenz nicht mit ein”
schließt. Der erste Oberton ist daher bereits der zweite Teilton. Die Frequenzen
der Obertöne hängen von der Physik des jeweiligen Klangerzeugers ab, es sind seine
Eigenfrequenzen. Es gibt Instrumente mit harmonischen und solche mit nichtharmonischen Obertonreihen.
Bei Instrumenten mit harmonischen Obertonreihen sind die Frequenzen der Obertöne ganzzahlige Vielfache der Frequenz des Grundtons. In diesem Fall nennt man
die Obertöne auch Harmonische. Der erste Oberton (zweite Harmonische) hat die
doppelte Frequenz des Grundtons, der zweite Oberton (dritte Harmonische) die
dreifache Frequenz, der dritte Oberton (vierte Harmonische) die vierfache Frequenz usw.
Bei Instrumenten mit nichtharmonischen Obertonreihen stehen die Frequenzen der
13
14
KAPITEL 4. MUSIKALISCHE GRUNDBEGRIFFE
Teiltöne in komplizierten nicht ganzzahligen Verhältnissen zueinander.
Höhere Obertöne sind bei natürlichen Tönen in der Regel leiser (pegelschwächer)
als tiefere, da für ihre schnellere Schwingung mehr Energie verloren geht. Die spezifischen Pegel von Obertönen ermöglichen nicht nur die Unterscheidung von Instrumenten, etwa zwischen einer Klarinette und einer Violine oder Oboe, sondern
auch von menschlichen Stimmen.
Insgesamt bestimmen im Prinzip drei Parameter einen Ton: Tonhöhe, Lautstärke
und Klangfarbe.
4.2
Metrum
Eigentlich ist Metrum ein Begriff aus der Sprachlehre. Darin ist das Metrum das
abstrakte Schema der in so genannten Versfüßen gemessenen Silbenabfolge. Verschiedene Metren kommen durch die Kombination von kurzen und langen Silben
zustande. Schon hier ist Metrum also ein Begriff, der mit Betonung zu tun hat. In
der Musik bezeichnet Metrum den gleichmäßigen Grundschlag, der sich durch ein
Musikstück, oder zumindest einen Teil des Stücks wie ein roter Faden hindurch
zieht. Wichtig ist, dass das musikalische Metrum an sich unbetont ist.
4.3
Takt
Ein Takt ist die Zusammenfassung von mehreren Schlägen aus dem Metrum. Diese
Schläge bilden nun eine metrisch geordnete Einheit von betonten und unbetonten
Zählzeiten. Die Taktart eines Stücks oder Teilstücks wird in Form eines Bruchs
angegeben. Nenner legt fest, welcher Notenwert einem Schlag entspricht. Der Zähler zeigt die Anzahl von Schlägen pro Takt an. Ein Beispiel: 3/4 Takt bedeutet,
dass es in einem Takt 3 Schläge gibt, deren Abstand von einander eine Viertelnote
entspricht.
4.4
Rhythmik
Die Rhythmik ist die Lehre von der unterschiedlichen Bedeutung der Tondauern
innerhalb der metrischen Einheiten. Diese Tondauern bilden Akzentmuster, die
auf den Grundschlag (das Metrum) gelegt werden. Nur in Ausnahmefällen sind
Metrum und Rhythmus identisch, in der Regel ist der Rhythmus komplexer. Aber
durch die Wiederkehr eines Musters behält der Rhythmus den Bezug zum Taktintervall.
4.5. TEMPO
4.5
15
Tempo
In der klassischen Musik ist es üblich, die Geschwindigkeit, mit der ein Musikstück
gespielt werden soll, ungefähr anzugeben. Dazu gibt es beispielsweise folgende Anweisungen:
• Prestissimo: äußerst schnell
• Vivacissimo: äußerst schnell
• Presto: (sehr) schnell
• vivace: lebhaft
• Allegro: schnell, heiter
• Moderato: mäßig bewegt
• Largo: breit
• adagio: langsam
Dies sind nur einige, die dem Interpret des Musikstücks eine ungefähre Vorstellung geben sollen, wie schnell ein Stück gespielt werden soll. Hinzu kommen noch
weitere Anweisungen, die eine Tempoänderung eines Stücks beschreiben. Hier vier
Beispiele:
1. Ritardando (langsamer werdend)
2. Meno mosso (weniger bewegt)
3. Stringendo (drängend)
4. Accelerando (schneller werdend)
Auch dies ist nur eine kleine Auswahl.
4.6
Harmonie
Die Harmonielehre beschäftigt sich mit der Bedeutung von Klängen, die zur gleichen Zeit erklingen. Den Abstand zwischen zwei Tönen nennt man Intervall. Erklingen drei oder mehr Töne unterschiedlicher Tonhöhe gleichzeitig, so nennt man
dies Akkord. Manche klingen angenehm in unseren Ohren, manche fremd und
manche klingen sogar fast schmerzhaft.
16
4.7
KAPITEL 4. MUSIKALISCHE GRUNDBEGRIFFE
Klang
Ein Klang beschreibt ein musikalisches Hörerlebnis, das als Einheit und als har”
monisch“ empfunden wird. Jeder einzelne Ton, der von einem Instrument erzeugt
wird, ist ein Klang. Klänge können unterschiedlich lang sein. Ein Klang darf auch
seine Lautstärke oder sogar Tonhöhe verändern, so lange er immer noch vom Menschen als Einheit empfunden wird.
4.8
Melodie
Melodie leitet sich vom griechischen Wort melos, Lied oder Weise, ab. Eine Melodie
ist eine Folge von Tönen, die zeitlich nacheinander erklingen. Sie ist künstlerisch
geformt, in sich geschlossen und selbstständig. Ein wesentliches Merkmal einer
Melodie ist, dass nicht der absolute, sondern der relative Tonhöhenverlauf charakteristisch für sie ist. Das liegt unter anderem auch daran, dass nur wenige Menschen
über das absolute Gehör verfügen. Mit dem absoluten Gehör sind Menschen in der
Lage, einem erklingenden Ton die absolute Tonhöhe zuzuordnen. Alle Menschen,
die nicht über das absolute Gehör verfügen, haben das so genannte relative Gehör.
Sie können zwar, mit etwas Training, hören, um wie viele Halbtöne zwei klingende
Töne auseinander liegen, aber die absolute Lage werden sie nicht bestimmen können.
Wichtig für die spätere Ontologie ist, dass man grob zwei Unterscheidungen von
Melodien treffen kann: Homophone und polyphone Melodien.
Eine homophone (einstimmige) Melodie im Wortsinn meint, dass außer der Melodie nichts anderes zu hören ist, auch keine Begleitung. Beispielsweise geschieht dies
beim gregorianischen Gesang. Im weiteren Sinne meint eine homophone Melodie
auch eine solche, die nur von einfachen Akkorden begleitet wird oder die Begleitung
ganz deutlich als solche zu erkennen ist und die Melodie sich klar davon absetzt.
Eine polyphone (vielstimmige) Melodie lässt in jeder Stimme eine gleichberechtigte
melodische Entwicklung zu. Beispiele hierfür wäre eine Fuge oder ein Kanon. Bei
einem komplexen polyphonen Satz lässt sich eine Hauptmelodie nicht heraushören.
Dennoch ist es so, dass wir Menschen in Musik immer eine Melodie suchen. Daher
kann es sein, dass unterschiedliche Menschen bei polyphonen Sätzen eine unterschiedliche Wichtigkeit der einzelnen Stimmen zu bestimmten Zeiten wahrnehmen.
In der klassischen Musik werden sehr häufig polyphone Melodien verwendet, beispielsweise im Fugenteil der Toccata von Bach. In der Popmusik sind dagegen
homophone Melodien häufiger zu finden.
4.9. NOTEN
4.9
17
Noten
Noten werden verwendet, um Musik zu notieren. Eine Note gibt an, wie lange
und auf welcher Tonhöhe ein Ton zu klingen hat. Dazu dient ein Notenwert: Eine
so genannte ganze Note“ dauert einen Takt (Takt wird unten erläutert), eine
”
halbe Note“ dauert halb so lang wie eine ganze Note“, eine viertel Note“ ein
”
”
”
Viertel so lang, usw.
Noten werden in einem Notensystem notiert. Ein leeres Notensystem zeigt Abbildung 4.1. Lediglich die Unterteilung in Takte ist zu sehen.
Abbildung 4.1: Ein leeres Notensystem
Eine Note wird dargestellt durch einen Kreis, und eventuell einen Strich nach oben
oder nach unten, der am linken Rand des Kreises ansetzt. Noten werden direkt
auf einen der fünf Querstriche des Notensystems geschrieben, oder zwischen zwei
Querstriche. Dadurch wird die Tonhöhe der Note bestimmt.
Die Länge einer Note, also ob es sich beispielsweise um eine ganze Note“ oder eine
”
viertel Note“ handelt, ergibt sich aus der Darstellung der Note. In 4.2 ist zu sehen,
”
wie unterschiedlich lange Noten dargestellt werden, und wie am Anfang der Takt,
ein 4/4 Takt, festgelegt wird. Abbildung 4.3 zeigt dann Noten mit unterschiedlicher
Tonhöhe.
Abbildung 4.2: Noten der gleichen Tonhöhe, die unterschiedlich lang sind
Abbildung 4.3: Noten mit unterschiedlicher Tonhöhe
Pausen werden auch notiert. Wie für Noten gibt es Symbole für Pausen, deren
Länge im Bezug zum Takt steht: Ganze Pausen, Halbe Pausen, usw. Die Längen
von aufeinander folgenden Pausen addiert sich. Die Symbole sind in Abbildung
18
KAPITEL 4. MUSIKALISCHE GRUNDBEGRIFFE
4.4 zu sehen.
Abbildung 4.4: Pausen unterschiedlicher Länge
4.10
Puls
Puls ist eigentlich kein echter Begriff aus der Musik. Er wird aber in den folgenden
Kapiteln verwendet.
Es handelt sich dabei um einen Impuls, der vor allem gefühlt“ wird. Er entsteht
”
vor allem durch plötzliche Lautstärkeveränderungen, die bestimmte Stellen in Musikstücken besonders wichtig erscheinen lassen. Ein Puls entsteht beispielsweise,
wenn ein sehr langer, leiser Ton durch einen kurzen etwas lauteren Unterbrochen
wird.
Pulse können unterschiedlich stark ausfallen. Ein Trompeter kann beispielsweise
einen Ton hart oder eher weich anblasen. Das Anblasen eines Tons erzeugt immer einen Puls. Der härtere Anstoß macht aber den Ton an sich wichtiger als der
weiche. Der Puls, der von dem akzentuierten Ton hervorgeht, wird als wichtiger
erachtet.
Kapitel 5
Entwicklung der Ontologie in
natürlicher Sprache
Was geschieht physikalisch, wenn Menschen Musik hören? Musik setzt sich aus
Frequenzen zusammen, die zu bestimmten Zeiten bestimmte Lautstärken annehmen. Kurz gesagt besteht Musik also aus den drei Komponenten Zeit, Frequenzen
und Lautstärke, die das menschliche Ohr wahrnehmen kann. Allerdings bezieht
sich dies nicht nur auf Musik, sondern generell auf alles, was akustisch wahrnehmbar ist. Europäische Musik hat aber Merkmale, die sie von einer Ansammlung von
Geräuschen oder Ähnlichem unterscheidet.
Europäische Musik zeichnet sich durch Metrum und Rhythmen aus. Metrum ist
der gleichmäßige, unbetonte Grundschlag, der sich durch ein Musikstück hindurch
zieht. Er legt die Geschwindigkeit eines Stückes fest. Rhythmus ist ein (wiederkehrendes) Akzentmuster, das auf dem Metrum aufbaut. Das alleine reicht aber
noch nicht aus, um europäische Musik, zu beschreiben. Beispielsweise kann eine
arbeitende Maschine auch so etwas wie Metrum und Rhythmus erzeugen, aber im
Allgemeinen wird so etwas nicht als Musik betrachtet.
Das Sprichwort der Ton macht die Musik“ liefert einen weiteren Hinweis. Eu”
ropäische Musik besteht auch aus Tönen und Klängen. Diese grenzen sich von
Geräuschen dadurch ab, dass sie eine feste Tonhöhe haben. Physikalisch gesehen
ist die Tonhöhe die Hauptfrequenz. Die anderen Frequenzen, die bei einem Klang
mitschwingen, legen die Klangfarbe fest. Zwei unterschiedliche Instrumente, beispielsweise eine Trompete und eine Klarinette, können denselben Ton spielen und
wir Menschen erkennen die gleiche Tonhöhe. Dennoch wird die Unterschiedlichkeit
der Töne wahrgenommen, nämlich dass ein Ton von einer Klarinette, der andere
von einer Trompete erzeugt wurde. Doch irgendwelche Töne allein reichen auch
noch nicht vollends aus, um Musik zu machen. Ein Windspiel reiht auch Töne aneinander, aber als Musik werden seine Klänge eher nicht empfunden. Wenn Klänge
aber eine Melodie bilden, sind alle Zweifel beseitigt, ebenso wenn Harmonien hörbar werden.
19
20KAPITEL 5. ENTWICKLUNG DER ONTOLOGIE IN NATÜRLICHER SPRACHE
5.1
Hörerlebnis
Der Kernpunkt der Musik-Ontologie ist das Hörerlebnis. Alles, was irgendwie hörbar ist soll ein Hörerlebnis sein. Jedes dieser Hörerlebnisse findet über einen begrenzten Zeitraum statt (wenn man von Krankheiten, wie z.B. Trinitus absieht).
Damit hat jedes Hörerlebnis einen Anfangszeitpunkt und ein Endzeitpunkt. Hörbar werden diese durch ihre Frequenzen. Folglich braucht jedes Hörerlebnis erstmal
mindestens eine ihm zugeordnete Frequenz. Das Konstrukt Hörerlebnis wird nun
in drei disjunkte Untermengen aufgeteilt.
1. Ein Klang ist ein Hörerlebnis, das eine Tonhöhe hat. Klänge sind die Hauptbestandteile von Musik (siehe 4.7).
2. Ein Geräusch ist ein Hörerlebnis, das mindestens zwei Frequenzen hat, aber
keine Tonhöhe. Wenn nur eine Frequenz zu hören ist, so ist die Tonhöhe
festgelegt und das Hörerlebnis somit ein Klang. Trotzdem können sich Klänge
in der Klangfarbe unterscheiden. Dafür sind die Nebenfrequenzen zuständig.
3. Die dritte Untermenge ist ein Sonderfall. Sie beschreibt genau den Fall, dass
in einem Zeitintervall nichts zu hören ist. In der Musik wird dieses Phänomen
Pause genannt und oftmals als Stilmittel eingesetzt. Deshalb muss auch dieser
Fall berücksichtigt werden und als eigene Menge bestehen.
Notwendig für ein Hörerlebnis sind genau ein Startzeitpunkt, genau ein Endzeitpunkt und genau eine Lautstärke. Das Hörerlebnis muss die (später genauer erklärten) Mengen Geräusch, Klang und Pause überdecken. Das heißt, ein Hörerlebnis
muss immer entweder ein Geräusch, oder ein Klang, oder eine Pause sein.
All diese Hörerlebnisse beeinflussen das Metrum und Rhythmusempfinden des
Menschen einmal direkt, und einmal durch das Lautstärkeverhältnis zweier Hörerlebnisse zueinander. Um diesen indirekten Einfluss zu modellieren, wird später
(hier referenzieren) das Konstrukt Puls“ eingeführt.
”
5.1.1
Klang
In 4.7 wurde beschrieben, was ein Klang ist. Diese Definition wird hier modifiziert.
In dieser Ontologie hat die Menge Klang“ eine festgelegte Tonhöhe und eine
”
festgelegte Lautstärke. Dies wird nötig, weil ein eigentlicher Klang so viele
Parameter hat, die sich während der Zeitdauer, die ein Klang zu hören ist,
permanent ändern. Wenn man nun die Zeitdauer der Objekte der Menge Klang“
”
sehr kurz macht, so kann ein eigentlicher Klang durch viele Klang“-Objekte
”
approximiert werden. Wenn also beispielsweise ein Geiger einen sehr langen Ton
erst gerade anspielt, aber nach und nach mit Vibrato versieht und dazu noch
immer lauter spielt, dann ist dies eigentlich nur ein Klang. In der Musik-Ontologie
5.2. MELODIELINIE
21
müsste jetzt dieser Klang in sehr kleine Zeitintervalle aufgeteilt werden, und für
jedes Zeitintervall ein eigenes Klang-Objekt existieren.
Damit können auch komplexe und komplizierte Interpretationen von Musikern
modelliert werden.
Die Kategorie Klang wird aufgeteilt in die zwei Teile Melodieklang und Begleitklang. Diese sind disjunkt und jeder Klang in einem Musikstück muss entweder
ein Melodieklang oder ein Begleitklang sein.
Menschen suchen in der Musik, die sie hören, eine Melodie. Trivial ist das
bei einem einstimmigen Stück, beispielsweise einem Kinderlied. Sobald aber
das Kinderlied mit einer Gitarre begleitet wird, wird der Unterschied zwischen
Melodie und Begleitung sehr deutlich. Damit kann man einen Klang schnell zur
Melodie zuordnen oder eben zur Begleitung. Ein Klang ist also entweder ein
Melodieklang oder er dient zur Begleitung.
5.1.2
Geräusch
Alles, was kein Klang und auch keine Pause ist, ist ein Geräusch. Musik besteht
nicht immer nur aus Klängen. Besonders im rhythmischen Bereich werden viele
Geräusche eingesetzt. Trommeln erzeugen in der Regel keine Töne mit Tonhöhe.
Pauken dagegen schon. Der Übergang ist also fließend. Manchmal werden aber
auch mit Absicht Geräusche aus der Umwelt in Musikstücken eingesetzt. So donnern zum Beispiel im Finale der Ouvertüre 1812 von Peter Tschaikowsky Kanonen.
Musik besteht zwar nicht nur aus Geräuschen, aber sie werden durchaus zur Gestaltung verwendet.
5.1.3
Pause
Die Pause ist ein besonderes Stilmittel in der Musik. Sie wird oft als Überraschungsmoment verwendet, weil eine Pause ein herausragendes Ereignis ist. Eine
Pause findet auch Verwendung als Übergang bei Tempiwechseln, Taktwechseln
oder sogar Stilwechseln.
5.2
Melodielinie
Eine Melodielinie besteht aus einer Menge von Melodieklängen. Das ist einfach
bei Kinderliedern, die normalerweise aus genau einer Melodielinie bestehen. Hier
gehören alle Melodieklänge zu einer Melodielinie. Bei einem Kanon wird es schon
schwieriger. Hier kommt man auch in den Konflikt, was denn nun Melodie (siehe
4.8) und was Begleitung ist. Jeder Mensch wird vielleicht zu einem Zeitpunkt eine
22KAPITEL 5. ENTWICKLUNG DER ONTOLOGIE IN NATÜRLICHER SPRACHE
andere Stimme als Melodie empfinden, und dieses Verhalten wird in der Ontologie
berücksichtigt. Eine Melodielinie ist in der Regel einstimmig.
Es können mehrere Melodielinien nebeneinander existieren und ein Melodieklang
kann Teil mehrerer Melodielinien sein. Beispielsweise wenn sich in einem Kanon
an einer Stelle zwei Melodien kurzzeitig auf einem Ton treffen. Dieser Ton gehört
dann zu beiden Melodien.
Die Melodielinie hat auch auf die Rhythmenbildung Einfluss, da jede Melodie selber
einen Rhythmus hat, und eventuell sogar zusammen mit der Begleitlinie einen
bildet.
5.3
Begleitlinie
Alle Klänge, die nicht zur Melodie gehören, also die Begleitklänge, gehören zu
einer Begleitlinie. Im Gegensatz zur Melodielinie sind die Begleitlinien in der Regel
mehrstimmig. Beispielsweise wird eine Gitarrenbegleitung normalerweise als eine
Begleitlinie empfunden.
5.4
Harmonie
Die Menge der Harmonieobjekten beschreibt eine Harmoniebeziehung zwischen
mindestens zwei Klängen. Ein Harmonieobjekt besteht über einen bestimmten
Zeitraum. Deshalb müssen die Klänge, die die Harmonie (siehe 4.6)bestimmen,
natürlich im selben Zeitraum erklingen. Ein Harmonieobjekt kann man sich analog
zu Gitarrenakkorden vorstellen, die über Textzeilen stehen. Die Harmonieobjekte
können nun eine Harmonielinie bilden.
5.5
Zeitmaß
Die Zeiteinteilung ist essentiell für jedes Musikstück. Das Zeitmaß bildet das Allgemeinste, was im Bezug auf Zeiteinteilung möglich ist. Jedes Zeitmaß gilt nur
für ein bestimmtes Zeitintervall und hat deshalb eine Startzeit und eine Endzeit.
Es wird unterteilt in regelmäßiges und unregelmäßiges Zeitmaß. Unter regelmäßiges Zeitmaß fallen das Metrum (4.2, der Rhythmus (??) und das Konstrukt
regelmäßig-unregelmäßiges Zeitmaß.
5.5.1
Metrum
Das Metrum ist gekennzeichnet durch ein Zeitintervall. Das ist genau die Zeit, die
zwischen zwei Schlägen vergeht. Auf der Startzeit liegt der erste Schlag, alle weite-
5.5. ZEITMASS
23
ren können dann berechnet werden, falls die Musik elektronisch genau erzeugt oder
bearbeitet wurde. Sobald aber Menschen Musik machen, wird die Zeiteinteilung
automatisch etwas ungenauer, da das menschliche Zeitgefühl nicht perfekt ist. Die
Zeitintervalle zwischen zwei Schlägen sind also um Nuancen verschieden. Je besser
ein Musiker ist, desto kleiner sind die Untschiede. Aufgrund dessen wird noch ein
Ungenauigkeitsfaktor eingeführt. Wir Menschen sind tolerant, wenn die einzelnen
Unterschiede zwischen den Zeitintervalle klein genug sind. Wie klein diese sein
müssen, lässt sich nicht genau bestimmen, da besonders zwei Faktoren dabei eine
Rolle spielen:
1. Je langsamer ein Stück ist, desto größer können die Ungenauigkeiten sein.
2. Jeder Mensch ist unterschiedlich empfindlich für zeitliche Schwankungen.
5.5.2
Takt
Ein Takt ist ein Metrum mit Betonung (4.3). Instanz von Takt könnte zum Beispiel
ein 34 Takt sein, allerdings auf einen bestimmten Zeitraum beschränkt.
5.5.3
regelmäßig-unregelmäßiges Zeitmaß
Unter das Konstrukt regelmäßig-unregelmäßiges Zeitmass fallen Ereignisse, bei
denen die Zeitabstände zwar nicht mehr gleich, aber dennoch regelmäßig (zum
Beispiel linear) sind. Dazu gehören Stellen, bei denen ein Musikstück schneller
(accelerando, siehe 4.5) oder langsamer (ritardando) wird.
5.5.4
Rhythmus
Man braucht auf jedenfall ein Behälter für Rhythmus (siehe 4.4), in dem Rhythmusmuster gehalten werden. Auch ist klar, dass sich ein Rhythmus von den anderen Zeitmassen unterscheidet, da ein Ryhthmus durchaus auch gegen das Metrum
laufen kann, beispielsweise synkopiert.
5.5.5
unregelmäßiges Zeitmaß
Unregelmäßiges Zeitmass ist nun alles, was nicht unter das regelmäßige Zeitmaß
fällt. Solche Objekte sind in der Musik eher selten. Ein Beispiel hierfür ist eine
Kadenz, in der ein Musiker völlig frei improvisieren kann. Auch kommt so etwas
manchmal bei moderneren Liedern am Anfang vor, wenn sich ein Stück erst langsam entwickelt.
24KAPITEL 5. ENTWICKLUNG DER ONTOLOGIE IN NATÜRLICHER SPRACHE
5.6
Lautstärke und Puls
Wie wird nun ein Zeitmaß gefunden? Eine große Rolle spielen dabei die Lautstärkenverhältnisse von Klängen. Wenn auf sehr leise (laute) Klänge plötzlich ein
lauter (leiser) folgt, dann wird dies vom Mensch als Puls“ empfunden. So entsteht
”
ein Muster von betonten und unbetonten Stellen, die dann das Zeitmass prägen.
Also wird die Menge Puls“ benötigt.
”
Um Pulse generieren zu können werden Lautstärkenverhältnisse verwendet. Sie bestimmen aus zwei Klängen ein Lautstärkenverhältnis. Alle Lautstärkenverhältnisse
bilden dann eine Lautstärkenverhältnislinie. Zwei Dinge haben Einfluss auf einen
Puls: Zum einen ein Hörerlebnis direkt (zum Beispiel ein Paukenschlag), zum anderen ein Lautstärkeverhältnis. Die gewonnen Pulse bilden nun eine Pulsfolge. Diese
wiederum beeinflusst letztendlich das Zeitmaß, insbesondere das Metrum und den
Takt.
5.7
Musikstück
Ein Musikstück ist letztendlich die Klasse, die ein gehörtes Musikstück zusammenfasst. Da Musikstücke sehr unterschiedlich sind, ist es schwer, festzulegen, was ein
Musikstück haben muss. Ein Musikstück hat eine bestimmte Länge und ist zeitlich
begrenzt durch einen Startzeitpunkt und einen Endzeitpunkt. Ein sehr einfaches
Beispiel für ein Musikstück sind Kinderlieder (zum Beispiel Bruder Jakob“, alle
”
”
meine Entchen“, usw.), von einem Kind gesungen. Diese Lieder haben alle eine
Melodie und ein Metrum. Deshalb wird das Vorhandensein von mindestens einem
Zeitmaß, sowie mindestens einer Linie (Melodielinie, Begleitlinie, Harmonielinie)
vorausgesetzt. Linie deshalb, weil auch Hintergrundmusik, bei der die Melodie
fehlt, als Musik anerkannt wird. Diese Musik hat aber deshalb eine Begleitlinie.
Auch das Aneinanderreihen von Akkorden gilt als Musik, dann aber existiert eine
Harmonielinie.
5.8
Datentypen
Die Datentypenklassen werden eingeführt, um Anknüpfungspunkte zu anderen Ontologien zu ermöglichen. Es ist durchaus vorstellbar, dass beispielsweise die Zeiteinteilungen oder Frequenzen in einer Physik-Ontologie definiert werden, die dann
in die Musik-Ontologie eingebunden wird.
5.9. BESONDERHEITEN
5.9
25
Besonderheiten
Diese Sichtweise grenzt mancherlei Art von Musik aus. Die Grenzen zwischen Musik und Nicht-Musik sind fließend; was manche Menschen noch als Musik anerkennen, wird von anderen abgelehnt. Musik ist eine Kunstform, das heißt, es lässt sich
keine einfache Regel aufstellen, was nun als Musik zählen darf und was nicht.
Diese Arbeit beschäftigt sich nur mit europäischer Musik, also Musik, die dem europäischen Kulturkreis zugeordnet wird. Dies Umfasst sowohl die Klassische Musik
von Komponisten wie Mozart, Beethoven, u.v.m., Popmusik, Volksmusik, Lieder,
oder ähnlich geartete Musik. Die sogenannte neue Musik“, die mit Komponisten
”
wie Stockhausen ihre Anfänge fand, wird nicht berücksichtigt.
Kapitel 6
Darstellung von Ontologien
Für die Entwicklung von Ontologien und um Ontologien für Computer verwertbar
zu machen, entstanden eine Reihe von Sprachen. Im Folgenden wird auf die Entstehung von OWL (Ontologie Web Language) eingegangen. Diese wird in 7 für die
Repräsentation der Ontologie auf dem Computer verwendet.
6.1
RDF
RDF in Kombination mit XML (Genaues zu XML findet sich beispielsweise in
[Harold ’02]) entstand vor allem aus dem semantic web. Im Hintergrund steht
die Idee, ein semantisches Netz als einen Graphen zu sehen. XML wird für die
Annotierung und Strukturbeschreibung von Daten und Dokumenten verwendet.
RDF bietet die Möglichkeit, Ressourcen durch Eigenschaften zu beschreiben und
diesen Werte zuzuordnen. Die Werte können auch Verweise auf andere Ressourcen
beinhalten.
Die RDF-Spezifikation findet man in [Brickley & Guha ’04]
6.2
DAML+OIL
Die US-Behörde DARPA hat DAML (DARPA Agent Markup Language) definiert.
Diese Sprache soll Programmen und Agenten als Verständigungssprache dienen
( an esperanto for machines“). OIL (urpsrünglich: Ontology Inference Layer, neu:
”
Ontology Interchange Language) entsprang einer ähnlichen Idee, wurde aber in
Europa entwickelt.
[Harmelen & Patel-Schneider ’01] zeigt die DAML+OIL-Sprache genau.
26
6.3. OWL
6.3
27
OWL
OWL ist nun die Weiterentwicklung von DAML+OIL. Kurz zusammengefasst: Mit
OWL ist es möglich, Ontologien in XML-formatierten Dokumenten zu beschreiben.
OWL gibt es in 3 Ausbaustufen:
1. OWL Lite
2. OWL DL (Description Logic)
3. OWL Full
Die Lite-Version ist für einfache Implementierungen gedacht und ermöglicht einen
leichteren Einstieg in OWL. Sie enthält Restriktionen gegenüber den beiden anderen Versionen, wodurch sie einfacher benutzbar ist. OWL Full die mächtigste
Version. RDF-Dokumente sind im Allgemeinen voll kompatibel zu OWL Full. Deshalb ist freies Mischen von OWL Full und dem RDF-Schema erlaubt. Es wird auch
keine strenge Trennung von Klassen, Eigenschaften (properties), Individuals und
Datenwerten gefordert. OWL DL unterstützt die selben OWL-Sprachkonstrukte
wie OWL Full, macht aber Einschränkungen auf bestimmte Features. Es gibt zwei
Hauptgründe für die Einführung von OWL DL:
1. Es wurden bereits mächtige Logik-Systeme entwickelt, die OWL DL Dokumente unterstützen.
2. OWL DL ist entscheidbar. OWL Full dagegen ist nicht entscheidbar.
6.3.1
Kurzübersicht über OWL
OWL benutzt zur Darstellung ein Klassenkonzept. Mit diesen Klassen kann eine
Hierarchie aufgebaut werden. Damit steht schon eine wichtige Relation zwischen
Klassen fest: Eine Klasse kann Unterklasse einer anderen Klasse sein oder sie kann
Oberklasse zu einer anderen Klasse sein. Das zweite wichtige Konstrukt sind Properties. Eine Property, die eine Klasse mit einer anderen verbindet, wird ObjektProperty genannt. Eine Property, die eine Klasse mit einem Datentyp (RDFLiterale oder XML Schema Datentypen) verbindet, heißt Datatype-Property. Andere Arten von Properties gibt es nicht. Ins Deutsche übersetzt würde Property
in diesem Fall Eigenschaft“ oder “Relation“ heißen. Eigenschaften werden aber
”
gewöhnlich durch Eigenschaftswörter beschrieben. Da aber Properties Relationen
zwischen Objekten oder Objekten und Datentypen sind, wäre die Bezeichnung
Eigenschaft“ unter Umständen irreführend. Der Begriff Relation könnte zwar ver”
wendet werden, aber da es sich bei Property“ um ein definiertes Konstrukt von
”
28
KAPITEL 6. DARSTELLUNG VON ONTOLOGIEN
OWL handelt, scheint der auch in anderen Zusammenhängen übliche Begriff Re”
lation“ nicht passend zu sein. Deshalb wird im Folgenden das Wort Property“ als
”
Bezeichnung verwendet.
Folgende OWL-Konstrukte über Klassen und Properties werden in der MusikOntologie verwendet:
• Funktionale Property: Über Properties kann ausgesagt werden, dass sie nur
einen Wert besitzen. Wenn eine Property eine Funktionale Property ist kann
sie nicht mehr als einen Wert für jedes Individuum haben (sie kann auch
keinen Wert haben). Dieses Charakteristikum wird auch als Besitz einer einwertigen Eigenschaft bezeichnet. Funktionale Property ist eine Abkürzung
für die Aussage, dass eine Eigenschaft entweder die minimale Kardinalität 0
und die maximale Kardinalität 1 hat.
Beispiel: hatPersonalausweis kann als Funktionale Property definiert werden.
Daraus kann ein logischer Denker schließen, dass kein Individuum mehr als
einen Personalausweis haben kann. Das heißt aber nicht, dass jede Person
mindestens einen Personalausweis haben muss.
• Inverse Property: Es kann ausgesagt werden, dass eine Property die Inverse
einer anderen Property ist. Sei die Property P1 Inverse zur Property P2.
Wenn das Individuum X mit Individuum Y durch P2 verknüpft ist, dann ist
Y mit X durch P1 verknüpft.
Beispiel: Wenn hatKind die Inverse zu hatElternteil ist und Stefan hatMutter
Dora, dann kann ein logisch Denkender ableiten, dass Dora hatKind Stefan.
• someValuesFrom: Die Einschränkung someValuesFrom wird über eine Property unter Berücksichtigung einer Klasse ausgesagt. Eine spezielle Klasse
kann eine Einschränkung für eine Property haben, die besagt, dass mindestens ein Wert dieser Eigenschaft von einem bestimmten Typ ist.
Zum Beispiel kann die Klasse SemanticWebPaper eine someValuesFrom Restriktion für die Property hasKeyword haben, die aussagt, dass irgendein
Wert der hasKeyword-Property eine Instanz der Klasse SemanticWebTopic
sein soll. Dies erlaubt es für die Möglichkeit, dass es mehrere Keywords gibt
und so lang eines oder mehrere davon eine Instanz der Klasse SemanticWebTopic sind, dass das Paper die someValuesFrom Einschränkung erfüllt. Anders als allValuesFrom, erzwingt someValuesFrom nicht, dass alle Werte der
Property Instanzen der gleichen Klasse sind. Wenn myPaper eine Instanz
der SemanticWebPaper Klasse ist, dann ist myPaper durch die hasKeyword
Property mit mindestens einer Instanz der SemanticWebTopic Klasse verbunden.
Es kann aber nicht abgeleitet werden (wie es mit allValuesFrom abgeleitet
werden könnte), dass alle Werte von hasKeyword Instanzen der SemanticWebTopic Klasse sind.
6.3. OWL
29
• allValuesFrom: Eine Einschränkung allValuesFrom wird über eine Property
unter Berücksichtigung einer Klasse gemacht. Das heißt, dass diese Property
für diese spezielle Klasse eine lokale Wertebereichseinschränkung hat. Wenn
also eine Instanz der Klasse durch diese Property mit einem anderen Individuum verknüpft ist, dann muss zwangsläufig das zweite Individuum eine
Instanz dieser lokalen Wertebereichsbeschränkung sein.
Beispiel: Die Klasse Person kann eine Property hatTochter haben, die eingeschränkt ist auf allValuesFrom der Klasse WeiblichenGeschlechts. Das heißt,
dass wenn eine Person Ansgar hatTochter Marlies, dann kann abgeleitet
werden, dass Marlies eine Instanz der Klasse WeiblichenGeschlechts ist. Diese Beschränkung erlaubt es, die Property hatTochter mit anderen Klassen
zu verwenden, z.B. der Klasse Katze, und dabei eine entsprechende Wertebereichseinschränkung für die Verwendung mit dieser Klasse zu nutzen. In
diesem Falle würde hatTochter die lokale Wertebereichseinschränkung von
Katze haben, wenn die Property mit dieser Klasse verknüpft wird und die
lokale Wertebereichsbeschränkung Person, wenn sie mit der Klasse Person
verknüpft wird.
Wichtig ist, dass aus einer allValuesFrom Einschränkung nicht abgeleitet
werden kann, dass es tatsächlich mindestens einen Wert für die Property
gibt.
• hasValue: (property values): Von einer Property kann verlangt werden, dass
sie bestimmte Individuen als Wert besitzt. Zum Beispiel können Instanzen
der Klasse Katholiken als die Leute charakterisiert werden, die als Wert für
die Religion katholisch haben. (Der Wert Religion, katholisch, ist eine Instanz
der Klasse von Religionen)
disjointWith: Klassen können als disjunkt voneinander definiert werden. Zum
Beispiel können Mann und Frau als disjunkte Klassen definiert werden. Wenn
also ein Individuum eine Instanz von Mann und gleichzeitig eine Instanz von
Frau ist, so kann durch die disjointWith Aussage eine Inkonsistenz abgeleitet
werden. Ähnlich kann abgeleitet werden, dass wenn A eine Instanz von Mann
ist, A keine Instanz von Frau ist.
• unionOf, complementOf, intersectionOf: OWL DL und OWL Full erlauben
beliebige boolsche Kombinationen von Klassen und Properties: unionOf,
complementOf und intersectionOf. Zum Beispiel kann man durch die Benutzung von unionOf aussagen, dass eine Klasse Dinge enthält, die entweder
USBürger oder DeutscheStaatsbürger sind. Durch die Benutzung von complementOf kann man aussagen, dass Kinder keine ErwachseneBürger sind
(d.h. die Klasse Kinder ist eine Unterklasse des Gegenteils von ErwachseneBürger). Staatsbürgerschaft der EU kann umschrieben werden als Vereinigung von Staatsbürgerschaften aller Mitgliedsstaaten.
30
KAPITEL 6. DARSTELLUNG VON ONTOLOGIEN
• minCardinality, maxCardinality, cardinality: In OWL Lite sind Kardinalitäten auf mindestens, höchstens oder genau 0 oder 1 eingeschränkt. OWL full
dagegen erlaubt Kardinalitätsaussagen für beliebige nichtnegative Integerwerte. Zum Beispiel würde die Klasse Person die Kardinalität der Property
hatElternteil auf eine maximale Kardinalität von 2 beschränken
Die
komplette
Dokumentation
[McGuinness & Harmelen ’04]
6.4
von
OWL
findet
sich
unter
OWL-Entwicklungswerkzeug
Das
Entwicklungswerkzeug,
das
verwendet
wurde,
heisst
Protege
2000 [Grosso et al. ’00]. Es wurde von Stanford Medical Informatics
[Stanford-Medical-Informatics ’] und der Stanford University School of Medicine [Medicine ’a] entwickelt, um Ontologien einfacher konstruieren zu können,
Dateneingabemasken nach Belieben zu verändern und um Datensätze einzugeben.
Protege ist eine Plattform, die mit Fenstern für Tabellen, Diagrammen, Animationen oder Ähnlichem erweitert werden kann, um auch andere wissensbasierte
Systeme integrieren zu können. Außerdem können die Bibliotheken, die Protege
verwendet, eingesetzt werden, um Zugang zu anderen Wissensbasen zu erhalten
und diese graphisch darzustellen. Implementiert wurde es unter Java 2 als open
source software. Erhältlich ist es unter [Medicine ’b]
Für Protege gibt es ein OWL/RDF-Plugin, das es möglich macht, die eingegebene
Ontologie als OWL-Datei auszugeben. Das Plugin OWLViz erstellt aus den
angelegten Klassen einen Klassengraph und zeigt ihn mit Hilfe von dem Tool
GraphViz [AT&T ’] an.
Um die Konsistenz der Ontologie zu überprüfen, wurde RACER [Volker Haarslev ’]
verwendet. RACER steht für Renamed ABox and Concept Expression Reasoner.
6.4. OWL-ENTWICKLUNGSWERKZEUG
Abbildung 6.1: Screenshot von der Protege-Oberfläche
31
Kapitel 7
Die Ontologie in OWL
In diesem Kapitel wird vorgestellt, welche Klassen es in der Musikontologie in OWL
gibt und wie sie über Properties und ihre Restrictions miteinander verknüpft sind.
Klassen werden im Text durch Grossschreibung kenntlich gemacht: klassenname.
Properties werden durch eine Schreibmaschinenschrift gekennzeichnet: Property.
Restriktionen über Klassen werden mit Hilfe von mathematischen Zeichen dargestellt. Die Klasse KlasseEins habe die Properties PropertyOne, PropertyTwo
und PropertyThree, die sie mit Klasse KlasseZwei oder KlasseDreiverbindet.
Es sollen folgende Restriktionen über Klasse gelten:
∃ PropertyOne KlasseZwei
= PropertyTwo = 1
∀ PropertyThree KlasseZwei
Die erste Restriktion würde bedeuten, dass es für jede Instanz von KlasseEins
eine Instanz von KlasseZwei gibt, mit der das Objekt von KlasseEins verbunden ist.
Die zweite Restriktion sagt aus, dass es für jede Instanz von KlasseEins genau
eine Instanz von KlasseZwei oder KlasseDrei gibt, mit der das Objekt von
KlasseEins verbunden ist.
Die letzte Restriktion legt fest, dass alle Objekte von PropertyThree, die mit KlasseEins verbunden sind, vom Typ KlasseZwei sind.
Eine Gesamtübersicht der Klassen ist in Abbildung 7.1 zu sehen. Alle OntologieKlassen sind Unterklassen der Klasse OWL:Thing, was nach der OWL-Definition
so sein muss. Alle diese Klassen sind untereinander verschieden, also disjoint
(7.1.2).
Eine Gesamtübersicht über alle Properties und ihre Inversen zeigt Abbildung 7.2
32
33
Abbildung 7.1: Der Klassengraph in OWL
34
KAPITEL 7. DIE ONTOLOGIE IN OWL
Abbildung 7.2: Die Properties und ihre Inversen
7.1
Formale Besonderheiten
In den folgenden Abschnitten werden an einigen Stellen Besonderheiten verwendet,
die in diesem Abschnitt erklärt werden.
7.1.1
Überdeckung
Oftmals wird gefordert, das eine Klasse ihre Unterklassen überdeckt“. Damit ist
”
gemeint, dass eine Instanz der Oberklasse auch immer genau eine Instanz einer ihrer Unterklassen sein muss. Damit kann es eigentlich keine Instanz der Oberklasse
geben.
Am folgenden Beispiel wird die Funktion klar:
Gegeben sei die Klasse Person“. Sie soll die Unterklassen Weibliche Person“ und
”
”
7.2. DATENTYP
35
Männliche Person“ haben. Wenn nun die Klasse Person“ ihre Unterklassen über”
”
deckt, dann folgt daraus dass eine Instanz von Person“ immer entweder eine Weib”
”
liche Person“ oder eine Männliche Person“ sein.
”
7.1.2
disjoint
Mehrere Klassen können zueinander disjoint“ erklärt werden. Seien die Klassen A
”
und B disjoint, dann kann eine Instanz der Klasse A nicht auch eine Instanz der
Klasse B sein. Schaut man sich das Beispiel aus ?? an, so ist es sinnvoll, die Klassen
Weibliche Person“ und Männliche Person“ disjoint zueinander zu machen, da eine
”
”
Person auf ein Geschlecht festgelegt ist.
In OWL wird dies mit einem sogenannten Covering Axiom“ realisiert. Über die
”
Klasse Person“ gelegt, würde dies so aussehen:
”
∪ Weibliche Person ∪ Männliche Person
7.1.3
Value Partition
Value Partition ist ein Design Pattern. Es wird verwendet, wenn bestimmten Klassen für eine Eigenschaft spezifische Werte annehmen können. Beispielsweise könnte
man Mahlzeiten immer eine der Kategorien scharf“, mittelscharf“ oder mild“ ein”
”
”
ordnen.
In OWL würde man dazu eine Klasse Value Partition“ erstellen, deren Unterklas”
sen mögliche Eigenschaften sind. Die benötigte Unterklasse wäre in diesem Fall
eine Klasse Schärfe Value Partition“. Diese erhält dann die Unterklassen Scharf“
”
”
, Mittelscharf“ und Mild“. Diese sind disjunkt und werden von ihrer Elternklasse
”
”
überdeckt. Eine Property, sie heisse hatSchärfegrad“, bekommt als Domäne eine
”
Mahlzeit“ und als Range eine Unterklasse von Schärfe Value Partition“. Unter”
”
klassen der Klasse Mahlzeit“ werden jetzt über eine some Value-Restriktion (siehe
”
6.3.1) mit einer der entsprechenden Klassen verknüpft:
∃ hatSchärfegrad Scharf
würde nun dafür sorgen, dass eine Mahlzeit als scharf bezeichnet wird.
7.2
Datentyp
Datentyp ist eine Ansammlung von Klassen, in der relativ einfache Datentypen
gehalten werden. Andere Klassen verweisen über Properties auf diese Datentypen.
Anstelle einer extra Klasse hierfür hätten auch Datatype - Properties verwendet
werden können. Frequenzen könnten auch als float dargestellt werden. Allerdings
36
KAPITEL 7. DIE ONTOLOGIE IN OWL
ist es durchaus vorstellbar, dass Frequenzen in einer Physik-Ontologie genauer
definiert werden. Dann wäre es sinnvoller, diese Definition auch in der MusikOntologie zu verwenden. Durch die verwendete Objektstruktur ist dies nun ohne
weiteres möglich. Die Datentypen sind untereinander verschieden (disjoint). Folgende disjointe (vgl. 7.1.2) Datentypen sind für die Musikontologie vorgesehen:
• Frequenz
• Lautstärke
• Zeitpunkt
• Zeitdifferenz
• Sortierung
Wobei die Zeitdifferenz noch zwei Unterklassen besitzt:
1. KleinstesWahrnehmbaresIntervall beschreibt das kleinste Zeitintervall, dass Menschen noch als Zeitintervall empfinden können.
2. menschlicheZeitlicheUngenauigkeit beschreibt die Abweichung, die
zwei Zeitintervalle von einander haben dürfen, damit sie vom Menschen als
gleich empfunden werden. Es gibt keinen ganz genauen Wert, bei jedem
Mensch ist diese Abweichung geringfügig anders.
Die Lautstärke hat eine festgelegte Instanz, nämlich die Lautstärke Unhörbar“,
”
die für den Menschen nicht mehr zu hören ist. Diese wird später wichtig für die
Konstruktion der Klasse Pause.
Die Sortierung ist ein Hilfskonstrukt, dass es möglich machen soll, Inhalte eines bestimmten Objekts zu sortieren. Für die Musik-Ontologie ist im Prinzip nur
eine Sortierung notwendig, nämlich die nach der Zeit. Deshalb gibt es die Unterklasse SortierungNachZeit. Sie soll dafür sorgen, dass Objekte in der zeitlich
chronologischen Reihenfolge angeordnet werden.
7.3
Hörerlebnis
Hörerlebnis ist die Klasse, zu der alles gehört, was irgendwie hörbar ist. Sie
überdeckt ihre Unterklassen Geräusch, Klang und Pause, d.h. ein Hörerlebnis ist immer ein Geräusch oder ein Klang oder eine Pause.
Dies wird dargestellt durch das Covering Axiom (vgl. 7.1.1):
∪ Geräusch ∪ Klang ∪ Pause
7.3. HÖRERLEBNIS
37
Abbildung 7.3: Die Klasse Datentypen“
”
Ein Hörerlebnis hat die folgenden Objektproperties:
• beginntZumZeitpunkt
• endetZumZeitpunkt
• hatFrequenz
• hatLautstärke
• hörerlebnisBeeinflusstPuls
beginntZumZeitpunkt verbindet ein Hörerlebnis mit einem Zeitpunkt, zu
dem das Hörerlebnis beginnt. Es handelt sich um eine funktionale Property,
das heißt jedes Hörerlebnis kann nur mit einem Objekt über die Property der
Art beginntZumZeitpunkt verknüpft sein. Da jedes Hörerlebnis genau einen
Startpunkt haben muss, ist gibt es die Kardinalitätsrestriktion auf eins:
= beginntZumZeitpunkt = 1
Damit ist sichergestellt, dass jedes Hörerlebnis auch genau einen Startzeitpunkt
besitzt.
endetZumZeitpunkt ist analog zu beginntZumZeitpunkt, legt aber das zeitliche
Ende fest.
38
KAPITEL 7. DIE ONTOLOGIE IN OWL
hatFrequenz assoziiert ein Hörerlebnis mit einer Frequenz, bedeutet also,
dass diese Frequenz beim Hörerlebnis mitschwingt. Deshalb ist diese Property auch
nicht funktional, da sehr viele Frequenzen bei einem Hörerlebnis beteiligt
werden können.
hatFrequenz besitzt zwei Tochterproperties:
• hatHauptFrequenz
• hatNebenFrequenz
Diese spielen vor allem bei der Unterklasse Klang eine Rolle und werden dort
näher erklärt.
Die Property hatLautstärke verknüpft ein Hörerlebnis mit einer Lautstärke. Auch diese Property ist funktional (es kann also nur eine Lautstärke pro
Hörerlebnis geben). Mit der Restriktion:
= hatLautstärke = 1
wird festgelegt, dass ein Hörerlebnis auch mit einer Lautstärke verknüpft
ist.
Die Property hörerlebnisBeeinflusstPuls verbindet ein Hörerlebnis mit
einem Puls. Ein Hörerlebnis kann theoretisch mehrere Pulse beeinflussen,
aber nicht jedes Hörerlebnis tut dies auch. Deshalb gibt es keine Restriktion.
7.4
Unterklassen von Hörerlebnis
Die Unterklassen von Hörerlebnis sind Klang, Pause und Geräusch.
7.4.1
Klang
Ein Klang ist ein Hörerlebnis mit Hauptfrequenz und möglicherweise Nebenfrequenzen. Um dies Auszudrücken, werden die Tochterproperties hatHauptfrequenz und hatNebenfrequenz von hatFrequenz benötigt. hatHauptFrequenz bestimmt die Frequenz, die die Tonhöhe des Klangs bestimmt. hatNebenFrequenz
sind alle Frequenzen, die mitschwingen, aber nicht die Tonhöhe, sondern die
Klangfarbe festlegen.
Die Festlegung auf die Tonhöhe geschieht über eine Restriktion über die Property
hatHauptFrequenz:
= hatHauptFrequenz = 1,
7.4. UNTERKLASSEN VON HÖRERLEBNIS
39
es ist also genau ein Objekt des Typs Frequenz mit einem Klang verknüpft,
nämlich genau die Frequenz, die die Tonhöhe festlegt.
Da es beliebig viele (oder eben auch keine) Nebenfrequenzen geben kann, gibt
es keine Restriktion auf die Property hatNebenFrequenz.
Zusätzlich zu diesen beiden erhält die Klasse Klang noch die Property beeinflusstHarmonieObjekt, die einen Klang mit einem Harmonieobjekt verknüpft. Dadurch kann ausgedrückt werden, welche Harmonien (also auch mehrere) ein Klang beeinflusst.
Die Klasse Klang wird unterteilt in die zwei Klassen
• MelodieKlang
• BegleitKlang
Diese zwei Klassen soll nur unterscheiden, dass Instanzen der einen Klasse zur
Melodie gehören, die anderen eben nicht. Um dies zu realisieren, wurde das DesignPattern Value Partition (vgl. 7.1.3) verwendet.
Dazu wird eine Klasse ValuePartition angelegt, die als Unterklasse sämtliche
Unterscheidungen enthält, die in der Ontologie benötigt werden. Da dies in der
Musik-Ontologie nur die MelodyValuePartition (zur Unterscheidung ob ein
Klang ein Melodieklang ist oder nicht) ist, gibt es bis jetzt keine anderen. Die
Klasse MelodyValuePartition hat nun zwei Unterklassen, die Klasse Ja und
die Klasse Nein. Diese werden mit dem Covering Axiom (vgl. 7.1.2)
∪ Ja ∪ Nein
überdeckt, eine MelodyValuePartiton ist also entweder vom Typ Ja oder vom
Typ Nein.
Abbildung 7.4: Die Klasse ValuePartition“ mit Unterklasse MelodyVa”
”
luePartition“
40
KAPITEL 7. DIE ONTOLOGIE IN OWL
Die Property gehörtZuMelodie verbindet einen Begleitklang oder einen Melodieklang mit einer MelodyValuePartiton und ist funktional (ein Klang
kann nur mit einer MelodyValuePartition verbunden sein). Durch die Restriktion
∃ gehörtZuMelodie Ja
der Klasse Melodieklang wird also ausgedrückt, dass ein Klang der Klasse Melodieklang auch tatsächlich zur Melodie gehören muss.
Dazu Analog verhält sich die Restriktion
∃ gehörtZuMelodie Nein
der Klasse Begleitklang.
7.4.2
Pause
Die Pause ist das Hörerlebnis, wenn nichts zu hören ist. Deshalb bekommt sie
außer den Porperties, die sie von Hörerlebnis erbt, nur noch die Restriktion
∃ hatLautstärke hasV alueU nhörbar,
zusammen mit der Kardinalität der Lautstärke auf den Wert eins folgt daraus,
dass die Lautstärke des Hörerlebnisses Pause unhörbar sein muss.
7.4.3
Geräusch
Ein Geräusch ist ein Hörerlebnis, das nicht Klang und nicht Pause ist. Dafür sorgt
der Ausdruck:
¬ ( Klang ∪ Pause)
7.5
Zeitmass
Zeitmass ist die Oberklasse für alle musikalischen Zeiteinteilungen eines Stücks.
Sie überdeckt ihre Unterklassen RegelmaessigesZeitmass und UnregelmaessigesZeitmass. Es gibt folgende Properties:
• beginntZumZeitpunkt
• endetZumZeitpunkt
• zeitmassWirdBeeinflusstVon
7.5. ZEITMASS
41
Abbildung 7.5: Die Klasse Hoererlebnis“
”
beginntZumZeitpunkt und endetZumZeitpunkt legen das Zeitintervall fest, für
das das Zeitmass gilt. Da es nur jeweils einen Start- und Endzeitpunkt gibt, sind
die folgende Restriktionen notwendig:
= beginntZumZeitpunkt= 1
=endetZumZeitpunkt = 1
Da jedes Zeitmass von einer Pulsfolge geprägt wird, gibt es die Property zeitmassWirdBeeinflusstVonPulsFolge. Eine Restriktion legt fest, dass es auf jeden
Fall eine solche Pulsfolge gibt:
∃ zeitmassWirdBeeinflusstVon PulsFolge
Die Unterklasse RegelmaessigesZeitmass hat zwei neue Properties:
• hatAbweichung, ordnet einem Zeitmass eine Zeitdifferenz zu
• hatZeitdifferenz, verbindet ein Zeitmass mit einer Zeitdifferenz
RegelmaessigesZeitmass enthält alle Zeiteinteilungen, die äquidistant sind
oder zumindest dem Menschen so erscheinen. Die einzelnen Zeitintervalle werden
über hatZeitdifferenz festgelegt, die Abweichungen über die Property hatAbweichung.
Die Klasse RegelmaessigesZeitmass hat die Unterklassen Metrum, Rhythmus und RegelmaessigUnregelmaessigesZeitmass. Metrum und Rhythmus entsprechen dem normalen Verständnis von Metrum und Rhythmus. RegelmaessigUnregelmaessigesZeitmass ist ein Konstrukt, in das Zeitmaße fallen,
die zwar auf den ersten Blick unregelmäßig erscheinen, aber trotzdem nicht ohne
Ordnung sind, wie zum Beispiel eine Tempoverschärfung.
42
KAPITEL 7. DIE ONTOLOGIE IN OWL
Die Klasse UnregelmaessigesZeitmass beinhaltet nun alle Zeiteinteilungen,
die keinem erkennbaren Muster folgen. Dazu kann beispielsweise eine Kadenz gehören.
Abbildung 7.6: Die Klasse Zeitmass
7.6
Harmonieobjekt
Die Klasse HarmonieObjekt stellt harmonische Beziehungen zwischen Instanzen
der Klasse Klang dar. Es gibt folgende Properties:
• beginntZumZeitpunkt
• endetZumZeitpunkt
• wirdBeeinflusstVonKlang
• wirdBeeinflusstVonBegleitungsKlang
• wirdBeinflusstVonMelodieKlang
Da ein HarmonieObjekt nur für einen bestimmten Zeitraum hörbar ist, werden
die Properties beginntZumZeitpunkt und endetZumZeitpunkt verwendet und
wieder beschränkt:
= beginntZumZeitpunkt = 1
= endetZumZeitpunkt = 1
Den Bezug zwischen einem HarmonieObjekt und einem Klang stellt die Property wirdBeenflusstVonKlang her. Sie hat zwei Unterproperties:
7.7. LAUTSTÄRKENVERHÄLTNIS
43
• wirdBeeinflusstVonBegleitklang
• wirdBeenflusstVonMelodieKlang
Mit diesen kann noch genauer ausgedrückt werden, ob Melodieklänge an der Harmonie beteiligt sind oder nicht.
Damit überhaupt eine Harmoniebeziehung bestehen kann, werden mindestens zwei
Klänge benötigt. Dafür sorgt die Restriktion
>= wirdBeeinflusstVonKlang >= 2
HarmonieObjekte kann man sich ähnlich vorstellen wie die Gitarrenakkorde, die
sich in Songbüchern über den Textzeilen befinden. Zusätzlich wird beim HarmonieObjekt durch die Zuordnung zu Klängen gleich mitbestimmt, wie der Akkord
klingt (bezüglich der Klangfarben).
Abbildung 7.7: Die Klasse HarmonieObjekt
7.7
Lautstärkenverhältnis
Die Klasse Lautstärkenverhältnis soll Lautstärkebeziehungen zwischen zwei
Klängen beschreiben. Dazu werden zwei Lautstärken benötigt, um das Verhältnis bestimmen zu können. Die Properties holtLautstärkeEins und holtLautstärkeZwei verbinden beide ein Lautstärkenverhältnis mit einer Lautstärke. Da ternäre Properties in OWL nicht möglich sind, wird über die Restriktionen
= holtLautstärkeEins = 1 und
= holtLautstärkeZwei = 1
44
KAPITEL 7. DIE ONTOLOGIE IN OWL
sichergestellt, dass genau zwei Lautstärken berücksichtigt werden.
istLautstärkenVerhältnisVon verbindet ein Lautstärkenverhältnis mit
einer LautstärkenverhältnisLinie. Diese erhält nun keine Restriktion auf
Existenz, da nicht gesichert ist, dass sich die Lautstärken, die über die
holtLautstärke-Properties bestimmt sind, auf Hörerlebnisse beziehen. Natürlich ergeben in der Musik-Ontologie nur Lautstärkenverhältnisse zwischen Klängen
einen Sinn.
beeinflusstPuls verbindet ein Lautstärkenverhältnis mit einem Puls.
Darüber wird der Einfluss veranschaulicht, den Lautstärkeverhältniss letztendlich
auf Zeitmaße aller Art haben, da die Pulse ja über die PulsFolge Einfluss auf
Zeitmass haben.
Abbildung 7.8: Die Klasse Lautstärkenverhältnis
7.8
Linie
Die Klasse Linie ist ein Behälter für Ansammlungen von Objekten gleichen Typs,
die nach Zeit sortiert sind. Sie hat die Unterklassen BegleitLinie, HarmonieLinie, LautstärkenVerhältnisLinie und PulsFolge, die allepaarweise disjunkt sind.
Die Klasse Linie überdeckt all ihre Unterklassen, eine Instanz Linie muss also
immer auch Instanz von genau einer Unterklasse der Klasse Linie sein. Eine Linie
7.8. LINIE
45
hat einen Startzeitpunkt, einen Endzeitpunkt und ist nach Zeit sortiert. Deshalb
gibt es die funktionalen Properties
• beginntZumZeitpunkt
• endetZumZeitpunkt
die eine Linie mit einem Zeitpunkt verbinden. Durch die Restriktionen
= beginntZumZeitpunkt = 1 und
= endetZumZeitpunkt = 1
wird sichergestellt, dass es jeweils genau einen assoziierten Zeitpunkt gibt.
Die Property nachZeitSortiert ordnet einer Linie eine Sortierung nach Zeit zu.
Diese Property wird so eingeschränkt, dass es genau eine Zeitsortierung geben
muss, durch
= nachZeitSortiert = 1.
Damit bleibt die chronologische Reihenfolge der Objekte in der Linie gewahrt.
Abbildung 7.9: Die Klasse Linie
7.8.1
Begleitlinie
Die Begleitlinie fasst Begleitklänge zusammen. Dazu dient die Property
hatBegleitKlang, die der Begleitlinie einen Begleitklang zuordnet. Eine
Begleitlinie besteht aus mindestens einem Begleitklang, dazu dient die Restriktion:
46
KAPITEL 7. DIE ONTOLOGIE IN OWL
>= hatBegleitKlang >= 1.
Damit wird der Begleitlinie mindestens ein Begleitklang zugeordnet.
Die Beeinflussung der Zeiteinteilung durch die Begleitlinie wird durch die Property beeinflusstZeitmass beschrieben. Sie ordnet einer Begleitlinie (oder
auch einerMelodielinie oder auch einer PulsFolge) ein Zeitmass zu.
7.8.2
HarmonieLinie
Die Harmonielinie ist der Container für HarmonieObjekte. Dazu werden
mindestens zwei HarmonieObjekte benötigt. Dafür sorgt die Property hatHarmonieObjekt, die einer Linie ein HarmonieObjekt zuordnet. Damit auch
mindestens zwei Objekte vorhanden sind gilt die Beschränkung:
>= hatHarmonieObjekt >= 2
7.8.3
LautstärkenVerhältnisLinie
In dieser Linie werden die Lautstärkenverhältnisse zusammengefasst. Analog
zur Harmonielinie wird mit der Property hatLautstärkeVerhältnis und der
Restriktion
>= hatLautstärkenVerhältnis >= 2
für mindestens zwei Lautstärkenverhältnis-Objekte gesorgt.
Da aus der Lautstärkenverhältnislinie die Pulse bestimmt werden, wird
die Property bestimmtPulse benötigt. Sie ordnet einer LautstärkenVerhältnisLinie ein Puls-Objekt (siehe unten) zu.
7.9
MelodieLinie
Im einfachsten Fall beschreibt eine Melodielinie genau die Melodie eines Stücks.
Dazu werden die Melodieklänge benötigt. Eine Melodielinie sollte mindestens drei Klänge haben, die nacheinander klingen. Ein Klang ist ganz sicher
noch keine Melodie, zwei wohl auch nicht. Bei drei Klängen aber scheint zum ersten Mal ein Melodiemuster erkennbar. Deshalb wurde die Mindestanzahl auf drei
gesetzt. Die geschieht durch die Property hatMelodieKlang, die eine MelodieLinie mit einem Melodieklang verbindet. Für mindestens drei Melodieklänge
sorgt
>= hatMelodieKlang >= 3
7.10. PULS
47
Da auch die Melodie großen Einfluss auf das Zeitmaß hat, wird eine Verbindung
gebraucht. Diese Verbindung ist die Property beeinflusstZeitmass, die schon
bei der Beschreibung der Klasse BegleitLinie vorgestellt wurde.
7.10
Puls
Pulse entstehen durch Anwendung der Property bestimmtPuls der Klasse LautstärkenverhältnisLinie und einem Einfluss durch Hörerlebnisse:
∃ pulseWirdBestimmtVon LautstärkenVerhältnisLinie
∃ wirdBeeinflusstVonHörerlebnis
Ein Puls geschieht zu einem bestimmten Zeitpunkt. Deshalb gilt:
= beginntZumZeitpunkt = 1
Zusätzlich gehört ein Puls einer Pulsfolge an:
∃ wirdBeinflusstVonHörerlebnis Hörerlebnis
Abbildung 7.10: Die Klasse Puls
7.10.1
Pulsfolge
In der PulsFolge werden alle Pulse gesammelt. Dazu dient die Property hatPuls. Eine leere Pulsfolge macht wenig Sinn, deshalb wird mit
48
KAPITEL 7. DIE ONTOLOGIE IN OWL
∃ hatPuls Puls
dafür gesorgt, dass es mindestens einen Puls gibt.
Da die PulsFolge das Zeitmaß beeinflusst, ist die Pulsfolge auch Domäne der
Property beeinflusstZeitmass.
7.11
Musikstück
Das Musikstück beinhaltet nun alles, was zu hören ist. In der Klasse Musikstück werden deshalb die Mindestvoraussetzungen festgelegt, die ein Musikstück
ausmachen. Da jedes Musikstück zeitlich begrenzt ist, legen
= beginntZumZeitpunkt = 1
= endetZumZeitpunkt = 1
Den Zeitrahmen fest.
Die Property hat legt nun fest, welche Linen oder Zeitmasse zu dem Musikstück
gehören. Durch die Beschränkungen:
∃ hat Zeitmass
∃ hat Line
Wird bestimmt, dass jedes Musikstück über mindestens ein Zeitmass verfügt,
und mindestens eine Linie. Damit können auch einige Spezialfälle bedient werden:
Beispielsweise verfügt ein Musikstück in der Karaokeversion über keine Melodie,
hat aber dafür mindestens ein Zeitmaß und mindestens eine Begleitlinie. Ein einstimmig gesungenes Kinderlied verfügt über eine Melodielinie und ein Zeitmaß. So
wird also der minimale Rahmen für ein Musikstück gesteckt.
Kapitel 8
Beispiel
Wie die Ontologie funktioniert, soll am Beispiel des Kinderliedes Alle meine Ent”
chen“ gezeigt werden.
Betrachtet wird der sehr einfache Fall, dass das Lied von einem Synthesizer gespielt
wird, der einen sehr regelmäßigen Ton erzeugt. Jeder Ton soll auch gleich laut sein.
Damit werden für einen gespielten Ton nur 2 Klänge der Ontologie benötigt: Ein
sehr kurzes, kaum wahrnehmbares Anklinggeräusch, und der eigentliche Ton. Die
Geschwindigkeit soll genau 60 Schläge pro Minute sein. Die einzelne Tonlänge und
Tonbezeichnung soll der Abbildung 8.1 entnommen werden.
Abbildung 8.1: Das Lied Alle meine Entchen“ mit Bezeichnung aller No”
ten
Das Lied besteht aus 27 Noten. Als erstes werden die Klänge extrahiert. Damit
ergeben sich, wenn für jede Note 2 Klänge benötigt werden, 54 Klangobjekte. Da
alle diese Klänge zur Melodie gehören, sind es MelodieKlänge. Das heißt, es wird
eine Instanz der Klasse Ja“ benötigt, die jedem Klang zugeordnet werden kann.
”
Bei den Klängen muss die Hauptfrequenz bestimmt werden. Hier ist ein echter Unterschied zur menschlichen Wahrnehmung, da nur wenige Menschen die Tonhöhe
exakt sondern nur relativ festlegen können, dies aber in der Ontologie gefordert
wird. Da natürlich die relativen Tonhöhenunterschiede in den exakten enthalten
sind, ist die menschliche Wahrnehmung hinreichend berücksichtigt. Dieses Mehrwissen ist sinnvoll, wenn man später ein gehörtes Musikstück noch tiefer gehend
untersuchen oder mit anderen vergleichen will.
Ähnliches gilt auch für die Nebenfrequenzen.
49
50
KAPITEL 8. BEISPIEL
Der erste Klang wird wie folgt gebaut: Es wird ein Frequenzobjekt für die Frequenz
262 Hertz und mehrere Frequenzobjekte für die Nebenfrequenzen benötigt.
• ein ZeitPunkt - Objekt mit dem Zeitstempel 0, zu dem der Klang beginnt,
• ein ZeitPunkt - Objekt mit dem Zeitstempel 1, zu dem der Klang endet,
• ein MelodyValuePartition-Objekt mit dem Wert Ja,
• ein LautstärkenVerhältnis-Objekt, das C1 mit C1.2 vergleicht,
• ein LautstärkenVerhältnis-Objekt, das eine Pause mit C1 vergleicht,
• ein Lautstärkeobjekt, das die gehörte Lautstärke angibt. Hier gibt es nun
wieder mehrere Möglichkeiten: Entweder man gibt ähnlich zur Frequenz den
tatsächlichen Lautstärkewert an, beispielsweise in sone, oder aber man behilft sich mit relativen Aussagen wie forte, piano, oder Ähnlichem, was der
menschlichen Wahrnehmung näher käme,
• ein LautstärkenVerhältnis-Objekt, das C1 mit C1.2 vergleicht,
• ein LautstärkenVerhältnis-Objekt, das eine Pause mit C1 vergleicht,
Dann sieht C1 so aus:
• C1 beginntZumZeitpunkt 0
• C1 endetZumZeitpunkt 1
• C1 hatHauptFrequenz 262
• C1 hatNebenFrequenz ... (Im Frequenzbild ablesbar, aber vom Menschen
nicht bestimmbar)
• C1 hat NebenFrequenz ...
• C1 hat NebenFrequenz ...
• ...
• C1 istMelodieKlang Ja
• C1 beeinflusst LautstärkenVerhältnis C1zuC1.2
• C1 beeinflusst LautstärkenVerhältnis PausezuC1
51
Es ist nur eine Melodie erkennbar, deshalb werden alle MelodieKlänge in der zeitlich richtigen Reihenfolge in eine Melodielinie, die auch so heißen soll, eingebunden.
Damit wäre die Melodie vollständig erfasst.
Die Voraussetzung über die klare und einfache Struktur des Klangs des Synthesizers ist eine kleine Schwierigkeit beim Finden von LautstärkenVerhältnissen. Wie
oben erwähnt gibt es aber für jeden notierten Ton zwei Klänge. Und genau das ist
ausschlaggebend. Es gibt nämlich einen Lautstärkeunterschied zwischen dem Anschlag des Tones und dem restlichen klingenden Ton. Damit entsteht durch jeden
Ton ein LautstärkenVerhältnis.
Aber wir erhalten auch für zwei aufeinander folgende Töne zusammen ein LautstärkenVerhältnis, nämlich das Ausklingen des ersten Tons und der Anschlag des
zweiten Tons. Bevor das Lied erklingt nehmen wir an, es sei Still gewesen. Dadurch
erzeugt auch der erste Ton mit der vorangegangen Pause ein LautstärkenVerhältnis. Damit entstehen pro Ton insgesamt zwei LautstärkenVerhältnisse.
Zu beachten ist, dass das LautstärkenVerhältnis, das zwischen Abklingen des vorigen und Anschlagen des aktuellen Tons, sowie das, das der aktuelle Ton selbst erzeugt, zeitlich so nah beisammen, dass sie auch gleichzeitig wahrgenommen werden.
Das LautstärkenVerhältnis zwischen dem Anschlag von C1 und dem Ausklingen
von C1, es heiße C1zuC1.2“ sieht nun so aus:
”
• C1zuC1.2 holtLaustärkeEins C1
• C1zuC1.2 holtLaustärkeZwei C1.2
• C1zuC1.2 beeinflusstPuls PulsC1
All diese Lautstärkenverhältnisse werden in einer LautstärkenVerhältnisLinie zusammengefasst, im Folgenden Lautstärkenlinie genannt. Diese beginnt zum Zeitpunkt 0 und endet zum Zeitpunkt 40.
Aus dieser LautstärkenVerhältnisline werden 27 Pulse abgeleitet, für alle zwei fast
gleichzeitigen Lautstärkenverhältnisse.
Diese Pulse sind die einzigen, die dem Lied entnommen werden können. Damit bilden sie alle zusammen die einzige PulsFolge. Die Instanz dazu wird im folgenden
Pulsfolge genannt.
Der Puls auf Schlag 1 (PulsC1) sieht so aus:
• PulsC1 beginnt zumZeitpunkt 0
• Puls C1 gehörtZuPulsFolge Pulsfolge
• Puls C1 pulsWirdBestimmtVon Lautstärkenlinie
• Puls C1 wirdBeeinflusstVonHörerlebnis C1
• Puls C1 BeeinflusstVonHörerlebnis C1.2
52
KAPITEL 8. BEISPIEL
Aus der Pulsfolge kann nun das einfache Metrum entnommen werden: Alle Sekunde
einen Schlag, die Metruminstanz dazu soll einfach Metrum“ heißen.
”
Damit sieht das Metrum so aus:
• Metrum beginntZumZeitpunkt 0
• Metrum endetZumZeitpunkt 40
• Metrum hatZeitdifferenz 60 Sekunden
• Metrum wirdBeeinflusstVon Pulsfolge
Da das Lied elektronisch und deshalb exakt erzeugt wurde, ist die Abweichung der
Zeitdifferenzen nicht messbar, deshalb bleibt die Property hatAbweichung unbesetzt.
Beim Takt gibt es mehrere Interpretationsmöglichkeiten. Es könnte sich, allein
vom hören her, sowohl um einen 4/4-Takt als auch ein 2/4-Takt handeln. Die Betonung in diesem Stück ist aber nicht besonders ausgeprägt, deshalb wird mancher
Mensch Vielleicht auch gar keinen Takt erkennen können. Unterschiedliche Menschen werden hier Unterschiedlich entscheiden. Hier wird deutlich, dass innerhalb
der Ontologie mehrere Interpretationen für ein und das selbe Stück möglich sind.
Das ist auch nötig, um die menschliche Wahrnehmung abbilden zu können. Deshalb ist es absolut zulässig, dass mehrere Interpretationsmöglichkeiten vorhanden
sind.
Es gilt nun eine Entscheidung zu treffen, da diese aber in diesem Fall keine weit
reichenden Auswirkungen auftreten, wird einfach ein 4/4 Takt festgelegt.
Bei der Rhythmuserstellung gibt es auch mehrere Möglichkeiten:
• Man kann dem Lied genau einen Rhythmus zuordnen, der sich von Anfang
bis Ende durchzieht.
• Man kann den Rhythmus zerteilen, Takt 1 und 2 zusammen zu einem Rhythmus, Takt 3 und 4, Takt 5 und 6, Takt 7 und 8, Takt 9 und 10. Damit erhält man 5 Rhythmen. Diese Einteilung macht deshalb Sinn, weil jeweils ein
Rhythmus mindestens einem anderen gleicht:
– Takt 1+2 und Takt 7+8
– Takt 3+4, Takt 5+6, Takt 9+10
Da der Mensch diese Wiederholung erkennt, ist eine solche Einteilung sinnvoll.
• Eine weiter mögliche Einteilung in zwei Rhythmen wäre Takt 1 bis 6 und
dann Takt 7 bis 10 zusammen zu fassen. Der erste Rhythmus wäre der,
der musikalischen Aufwärtsbewegung, der zweite der, der musikalischen Abwärtsbewegung.
53
Keine der vorgestellten Möglichkeiten ist qualitativ besser oder hochwertiger als
die anderen. In diesem Fall wird sich für die Möglichkeit mit nur einem RhythmusObjekt (im folgenden Rhythmus genannt) entschieden, um es möglichst einfach zu
belassen.
Da keine Töne gleichzeitig erklingen, existiert auch kein HarmonieObjekt, und
damit auch keine HarmonieLinie.
Jetzt kann das Musikstück AlleMeineEntchen“ zusammengebaut werden:
”
• AlleMeineEntchen beginntZumZeitpunkt 0
• AlleMeineEntchen endetZumZeitpunkt 40
• AlleMeineEntchen hat Melodie
• AlleMeineEntchen hat Metrum
• AlleMeineEntchen hat Rhythmus
• AlleMeineEntchen hat 4/4Takt
Kapitel 9
Spezielle Forschungsergebnisse
In diesem Kapitel sollen bereits existierende Systeme vorgestellt werden, die sich
mit Musikanalyse beschäftigen, und eventuell mit der bisher vorgestellten Ontologie verbinden lassen.
9.1
Metrumerkennung
Bei der Metrumerkennung wird versucht, aus einem laufenden Musikstück die
Taktschläge zu finden. Die meisten Menschen können schon kurz nach Beginn eines
Liedes den Takt mitklatschen oder mitklopfen. Masataka Goto und Yoichi Muraoka beschreiben in [Goto & Muraoka ’94] ein System, das in Echtzeit versucht, die
zeitlichen Positionen von Schlägen zu erkennen. Da es sich hauptsächlich auf Erkennung von Basedrum und Snaredrum beschränkt, funktioniert dies nur zuverlässig
solcher Musik, die zur Rhythmusgestaltung ein Schlagzeug verwendet. Die Software, ein Multiagentensystem, wurde für einen Parallelcomputer (Fujitsu AP1000)
implementiert, und erkannte die Schläge in 27 von 30 kommerziellen Popsongs
korrekt.
Masataka Goto und Yoichi Muraoka entwarfen noch ein weiteres Multiagentensystem ([Goto & Muraoka ’95]), dass für Musikstücke ohne Schlagzeug geplant wurde.
Es verwendet im Prinzip aber die gleichen Verfahren wie das vorher genannte.
In [Goto ’97] wird beschrieben, wie Snare- und Basedrum aus den Audiodaten
extrahiert werden, und wie Drumpatterns bei der Takterkennung helfen können.
Ein etwas älteres System namens Machine Rhythm“ wird in [Rosenthal et al. ’94]
”
vorgestellt, welches auf Mididaten operiert. Zuerst geschieht eine Vorverarbeitung,
die Noten die, (fast) gleichzeitig erklingen, zu einem Block zusammenfasst. Dann
wird ein Segment, dass am Anfang des Stückes steht, heraus gesucht, und eine
Anzahl von Hypothesen über den Rhythmus des Segments gemacht. Nun wird der
Rest der Stückes sequentiell durchsucht. Jede Hypothese wird nun erweitert, um
54
9.1. METRUMERKENNUNG
55
die nächste Note zu erklären. Gibt es mehrere mögliche Erklärungsmöglichkeiten,
so wird eine neue Hypothese erstellt. Erreicht die Anzahl der Hypothesen ein Limit,
wird eine Topliste erstellt und der Rest in Zukunft nicht mehr beachtet. Das System
hat Anlaufschwierigkeiten, falls es in dem zu erst ausgewählten Segment keine
brauchbaren Hypothesen findet, und es verliert ab und an die Taktspur.
Ein System, dass Taktschläge in Musik mit oder ohne Schlagzeug erkennt, wird in
[Goto ’01] vorgestellt, was quasi die Zusammenführung der beiden vorigen System
ist. Dazu werden drei Arten von musikalischer Information verwendet: Die Anschlagszeiten (time onsets), Akkordwechsel und Schlagzeug-patterns. Das System
ist echtzeittauglich, als Eingabe dienen CD-Aufnahmen von Popmusik. Allerdings
waren die Aufnahmen alle im 4/4 Takt und hatten ein relativ konstantes Tempo.
Die Erkennungsrate lag beim Test zwischen 85% und 95%.
Simon Dixon geht das Problem in [Dixon ’00] ebenfalls mit einem Multiagentensystem an. Im grossen und ganzen basiert es auf drei Algorithmen: Der erste versucht
herausstechende akustische Ereignisse zu erkennen, der zweite fasst diese Ereignisse in Gruppen zusammen, je nach dem Zeitintervall zwischen zweien. Anschließend versuchen mehrere Agenten diese Hypothesen durch das ganze Musikstück zu
verfolgen. Die Ergebnisse sind bei Pop/Rockmusik recht gut (die korrekte Erkennungsrate liegt zwischen 90 und 100%), doch bei Jazz wird die Leistung schlechter
(ca 75%).
In [Dixon ’01] beschreibt Dixon ein System zur automatischen Extraktion von
Tempo aus expressiven Darbietungen. Damit sind Darbietungen von Musikstücken
gemeint, bei denen der Interpret auf Grund besonders gefühlvoller Interpretation kein absolut regelmässiges Metrum verwendet, sondern immer wieder Tempo
heraus nimmt oder anzieht. Um auch hier zum Erfolg zu kommen, wurden für jedes detektierte musikalische Ereignis noch einige Faktoren berechnet: Notendauer,
dichte von gleichzeitigen Noten, Lautstärke und Tonhöhe der Noten. Das System
braucht ungefähr ein fünftel der Abspieldauer des zu analysierenden Stücks, arbeitet also nicht ganz in Echtzeit. Die Ergebnisbewertung ist nicht einfach, da das
System für unterschiedliche Musikstile unterschiedlich gute Ergebnisse liefert. Sie
schwanken zwischen 70% und 100%.
Jano Seppänen beschreibt in [Seppänen ’01] ein Modell zur Metrumsbestimmung.
Dazu werden vier Schritte verwendet:
1. Sound-On-Set-Erkennung
2. Schätzung des kleinst möglichen Metrums, genannt Tatum“ (in der Regel
”
ist das tatsächliche Metrum ein ganzzahliges Vielfaches des Tatums)
3. Einschätzung der Wichtigkeit der einzelnen Tatum-Pulse
4. Schätzung des tatsächlichen Metrums
56
KAPITEL 9. SPEZIELLE FORSCHUNGSERGEBNISSE
Die Erkennungsraten schwanken um die 75%
[Cise ’] beschäftigt sich mit dem Konzept der Stärke der Taktschläge. Damit ist
meint, dass Menschen den Takt beispielsweise in Hard-Rock-Musik als stärker“
”
empfinden als in klassischer Musik. Es wurde gezeigt, dass man mit Hilfe von
Wavelettransformationen und Autokorrelationen dieses Empfinden gut simulieren
kann.
In ([Dixon ’02]) wurde untersucht, wie gut“ Menschen den Takt aus einer ge”
fühlsbetonten Darbietung erkennen. Dazu lies er mehrere Probanden den Takt zu
einem Klavierstück von Mozart, das an einem elektronischen Flügel vorgespielt
wurde, mit dem Fuss dazu klopfen. Anschließend wurde das Ergebnis mit den tatsächlichen Daten aus der Aufzeichnung des Flügels verglichen. Das Ergebnis: Die
menschliche Takterkennung ist sehr tolerant bezüglich kurzer Temposchwankungen, nur wenn die Änderung andauert, dann wird dies auch als Tempoänderung
wahrgenommen.
Bei Musik, die von Bands gespielt wird, sind im Normalfall das Schlagzeug und der
Bass Rhythmusträger. Beim Schlagzeug zeigt vor allem die Basedrum die wichti”
gen“ Schläge an. In [Alghoniemy & Tewfik ’99] wird beschrieben, wie durch Tiefpassfilter die Basedrum, bzw. der Bass aus Audiodaten extrahiert werden kann.
Mit Hilfe eines Parsingalghorithmus, der an [Ziv & Lempel ’77] angelehnt ist, wird
versucht, gewisse Regelmäßigkeiten zu erkennen.
9.2
Genaueres zu ausgewählten Metrumerkennern
In diesem Abschnitt werden die Systeme zur
[Goto & Muraoka ’94] und [Dixon ’00] beschrieben
9.2.1
Metrumerkennung
von
Goto & Muraoka 1994
Aus CD-Aufnahmen von Popmusik (Popularmusik) soll in Echtzeit das Metrum
bestimmt werden. Dabei soll ein Schlag einer Viertelnote entsprechen. Das System stützt sich darauf, dass in Popsongs hauptsächlich das Schlagzeug für den
Rhythmus verantwortlich ist.
Folgende 4 Schwierigkeiten wurden von den Autoren beim Erkennen von Metrum
in akustischen Signalen beschrieben:
1. Musik von kommerziellen CD-Aufnahmen besteht meist aus Klängen verschiedenster Instrumente. Es ist schwer, den Beginn von Noten präzise zu
erfassen. Bei MIDI-Daten dagegen fällt dieses Problem weg.
9.2. GENAUERES ZU AUSGEWÄHLTEN METRUMERKENNERN
57
2. Kurze, besonders hohe Lautstärkepegel (Peaks) zu finden, die über einer
bestimmten Schwelle liegen ist eine einfache Technik, die in einfachen Fällen
zur Metrumbestimmung ausreicht. Leider reicht sie in diesem Falle nicht, weil
es sehr viele Peaks mit hoher Energie gibt, die nicht direkt mit dem Metrum
verbunden sind.
3. Nicht auf jedem Schlag muss etwas zu hören sein und es gibt auch keinen
speziellen Klang, der direkt die Positionen der Schläge angibt. Deshalb sind
verschiedene Interpretationen des Signals an einer bestimmten Stelle möglich.
4. Im Allgemeinen ist es schwierig zu entscheiden welchem Notenwert ein Schlag
entspricht, und ob ein Schlag stark oder ein schwach ist.
Das System berücksichtigt mehrere mögliche Positionen von Schlägen gleichzeitig.
Es berechnet die Glaubhaftigkeit von jedem Zeitpunkt, an dem ein Ton beginnt
zu erklingen (onset-times), damit die nachfolgende Bearbeitung unwahrscheinliche
Zeitpunkte vernachlässigen kann. Dazu werden mehrere Agenten verwendet. Jeder Agent interpretiert diese Zeiten, und sagt den nächsten Schlag seiner eigenen
Strategie folgend voraus. Die Position des nächsten Schlages wird dann nach dem
glaubwürdigsten Agenten bestimmt. Das System macht zwei weitere Annahmen:
1. Popsongs sind im 4/4 Takt geschrieben
2. die Basedrum erklingt eher auf die starken Schläge eins und drei, die Snaredrum eher auf die schwachen Schläge zwei und vier.
Das Wissen über die Trommeln wird nur dazu verwendet, um den Typ des bereits
detektierten Schlages (stark - schwach) zu bestimmen, nicht aber um den Schlag
überhaupt als solchen zu erkennen. Zur Feststellung der Dauer einer Viertelnote
wird die Zeit angenommen, die zwischen zwei Schlägen verstreicht (IBI: inter-beatinterval).
Abbildung 9.1 zeigt, wie das System funktioniert. Zuerst werden die Musikdaten von analogen in digitalen Signalen umgewandelt. Im Block der Frequenzanalyse wird zuerst eine Fourier-Transformation angewendet, dann die On-SetKomponenten (mögliche Tonanfänge), extrahiert. Während dann die tatsächlichen On-Set-Zeitpunkte gesucht werden, wird versucht, Basedrum und Snaredrum
zu erkennen. Anschließend versuchen mehrere Agenten über Hypothesen das tatsächliche Metrum vorherzusagen. Die Beat-Information-Generation wählt aus den
Hypothesen die am besten zutreffende aus, die dann über die Beat-InformationTransmission an andere Anwendungen über ein Netzwerk weitergeleitet werden
kann.
Zur Frequenzanalyse wird eine gefensterte schnelle Fouriertransformation (FFT)
verwendet. Eine On-Set Komponente besitzt einen Grad. Dieser beschreibt die
58
KAPITEL 9. SPEZIELLE FORSCHUNGSERGEBNISSE
Abbildung 9.1: System
Geschwindigkeit der Itensitätserhöhung. Die On-Sets-Komponente und ihr dazugehöriger Grad wird von dem Frequenzspektrum extrahiert.
Aus den Frequenzen, deren Grad in der letzten Zeit angestiegen ist, werden die
On-set-Komponenten ermittelt. Das sind die Frequenzen die den Bedingungen genügen:
(
p(t, f ) > pp
np
> pp
p(t, f ) ist die Energie des Spektrums der Frequenz f zum Zeitpunkt t.
pp und np werden definiert durch:
pp = max(p(t − 1, f ), p(t − 1, f + −1), p(t − 2, f ))
np = min(p(t + 1, f ), p(t + 1, f + −1))
9.2. GENAUERES ZU AUSGEWÄHLTEN METRUMERKENNERN
59
Der Grad d(t, f ) des Energieanstiegs berechnet sich so:
d(t, f ) = p(t, f ) − pp + max(0, p(t + 1, f ) − p(t, f ))
Die On-set-time wird über die Aufsummierung von d(t, f ) ermittelt. Die Wahrscheinlichkeit dieser Zeit wird aus dem Verhältnis ihres Spitzenwertes (peak) zu
dem neuesten maximalen Spitzenwert gewonnen. Mehrere dieser On-set-timefinders werden vom System beschäftigt, von denen Jeder seine Informationen an
das ihm zugehörige Agentenpaar schickt.
Die Frequenzen der Base- und Snaredrum des zu untersuchenden Musikstücks
werden aus den gewonnen On-set-Komponenten gewonnen. An allen Zeitpunkten,
an denen On-set-Komponenten gefunden wurden, findet das System Peaks auf der
Frequenzachse und erstellt ein Histogramm, das mit den Energieanstiegsgraden
gewichtet wird. Die Basedrumfrequenz ist dann der niedrigste Peak, die Snare der
höchste im Histogramm.
Die Agenten interpretieren die Ergebnisse der Frequenzanalyse und stellen
ihre eigenen Hypothesen auf, wann der nächste Schlag kommen müsste, seine
Eigenschaft (stark oder schwach), seine Wahrscheinlichkeit und das IBI (interbeat-interval). Jeweils zwei Agenten bilden ein Paar und arbeiten mit demselben
IBI und versuchen gemeinsam Vorhersagen über die nächsten Schlagzeiten zu
treffen, deren Unterschied ein halbes IBI ist. Dadurch kann ein Agent die richtigen
Schläge ermitteln, während der andere die Mitte der zwei aufeinander folgenden
korrekten Schläge durchsucht.
Ein Agentenpaare unterscheidet sich von den anderen dadurch, dass sie ihre
Informationen von anderen On-Set-Time-Findern erhalten. Die Agenten können
die Parameter ihrer On-Set-Time-Findern verändern auf Grund ihrer eigenen
Einschätzung. Jeder Agent bewertet seine Hypothese. Ob ein Schlag stark oder
schwach gewichtet wird, wird aus der Base- und Snaredrumanalyse gefolgert. Die
von Agenten gemachten Hypothesen werden in Gruppen nach Schlagzeit und IBI
zusammengefasst. Jede Gruppe hat eine Gesamtwahrscheinlichkeit, die durch die
Summe aller Wahrscheinlichkeiten der einzelnen Hypothesen gebildet wird. Die
am höchsten bewertete Hypothese in der am höchsten bewerteten Gruppe wird
ausgewählt.
Implementiert wurde das Beat-Tracking-System auf einem Fujitsu AP 1000. Dieser ist ein 32 bittiger Mainframerechner mit 64-512 Sparc-CPUs (33-44 Mhz, 40
MIPS).
60
KAPITEL 9. SPEZIELLE FORSCHUNGSERGEBNISSE
9.2.2
Dixon 2000
Dixon möchte mit seinem System [Dixon ’00] aus Musik die Stellen der Taktschläge
herausfinden. Die Musikstücke liegen in einem Standardformat für digitale Audiodaten vor. Es soll ohne höhere Kenntnisse von Metrik funktionieren und es werden
keine speziellen Annahmen über die zu analysierende Musik gemacht. Die kognitiven Mechanismen, die der Mensch bei der Metrumerkennung verwendet werden,
bleiben unberücksichtigt.
Tatsächlich wird versucht, so genannte Events“ in dem Musikstück zu finden, aus
”
denen rhythmische Informationen gewonnen werden können. Diese Events“ basie”
ren auf On-Sets“, d.h. Startpunkte von Noten, perkussive Klänge eingeschlossen.
”
Die Notenlänge wird nicht beachtet.
Das System führt drei Schritte nacheinander aus:
1. Signalbearbeitung
2. verschiedene Metrumschätzungen durch mehrere Agenten
3. Auswahl der endgültigen Hypothese
Zuerst findet also die Signalbearbeitung statt.
Um On-Sets zu finden wird das Eingangssignal durch einen einfachen Hochpassfilter geschickt und die Summe von kleinen überlappenden Fenstern des Signals
berechnet. Mit Hilfe einer linearen Regression (??) in 4 Punkten werden Peaks in
dieser Summe gesucht. Es werden so zwar nur herausragende Ereignisse gefunden,
diese sind aber ideal für die Aufgabe der Tempofindung.
Um das richtige Tempo in einem Musikstück zu finden stellt das System einige
Tempohypothesen auf. Diese können entweder in BPM (beats per minute) oder
in Sekunden (wie bei Inter-Onset-Intervals, sogenannte IOIs) gemessen werden.
Normalerweise bezeichnet IOI die Zeit zwischen zwei aufeinander folgenden Startpunkten von Noten. Dixon erweitert die Definition auf alle Zeiten zwischen Notenanfängen von Ereignispaaren, die durch ein dazwischenliegendes Ereignis getrennt
werden. Der Algorithmus fasst alle möglichen Paare von Onsets, die innerhalb 2.5
Sekunden auftreten, zu einer Gruppe zusammen. Abbildung 9.2 verdeutlicht das.
Jede Gruppe wird nach Anzahl ihrer Mitglieder bewertet. Die hoch bewerteten
Gruppen entsprechen normalerweise dem Takt, oder aber kleinen ganzzahligen
Vielfachen oder Teilern des Taktes.
Der bisher beschriebene Algorithmus findet so mehrere Hypothesen (nämlich die
bewerteten Gruppen) über das Tempo des Musikstücks, aber nicht die genauen
Zeiten der Taktschläge. Nun beginnt die Metrumschätzung durch mehrere gleich
funktionierende Agenten. Jeweils ein Agent wird durch zwei Dinge charakterisiert:
1. seinen Status, der die aktuelle Hypothese der Taktfrequenz und seiner Phase
ist
9.2. GENAUERES ZU AUSGEWÄHLTEN METRUMERKENNERN
61
Abbildung 9.2: Gruppierung von IOIs
2. seiner Geschichte, die eine Folge von Taktorten ist, die der Agent bisher
gefunden hat. Jeder Agent wird auf Grund seiner Geschichte bewertet. Sein
Wert ist höher, je größere Regelmäßigkeiten er in den Abständen von Events
gefunden hat, je wichtiger die gewählten Events waren und je seltener er
Lücken in der Folge hat.
Anfangs werden Agenten erzeugt, für jede Tempohypothese des vorigen Algorithmus einer. Die Agenten unterscheiden sich anfangs nur um ihren Startpunkt. Als
Startpunkte dienen ein paar wenige Events aus dem Anfangsbereich des Stücks.
Also wird für jedes dieser Events je ein Agent für jede Hypothese mit Phase 0
erzeugt. Die Agenten haben damit einen Startpunkt, und eine Hypothese, mit der
sie den nächsten Schlag des Metrums abschätzen können.
Nun beginnt die Hauptschleife über alle Events. Jedes Event wird gemäss ihrer Reihenfolge an jeden Agenten weitergegeben. Die Agenten vergleichen die Onset-Zeit
des Events mit der von ihnen vorhergesagten Taktzeitpunkts, an dem ein Event
auftreten sollte. Jeder Agent hat zwei Toleranzbereiche:
1. Einen inneren, in dem der Agent sicher ist, dass das Event zu der vorhergesagten Taktzeit passt
2. einen äusseren, in dem der Agent sich nicht sicher ist ob das Event als Taktzeit anerkannt werden soll.
Fällt das Event in den ersten Bereich, so wird es der Geschichte hinzugefügt und
die Hypothesen über Tempo und Phase aktualisiert.
Fällt das Event in den zweiten Bereich, dann wird ein geklonter Agent initialisiert,
der das Event als Taktzeit annimmt, während der eigentliche Agent das Event
verwirft.
Dieses Vorgehen soll verhindern, dass eine Taktzeit auf Grund von schwächeren
62
KAPITEL 9. SPEZIELLE FORSCHUNGSERGEBNISSE
Events oder Temposchwankungen verloren geht.
Wenn ein Event akzeptiert wurde, aber mehr als einen Schlag von der vorigen vom
Agenten angenommenen Schlagzeit entfernt ist, dann werden die fehlenden Schläge
mit einer Interpolation eingefügt.
Jeder Agent hat einen Vertrauenswert. Je höher dieser Wert ist, desto wahrscheinlicher hat der Agent die richtige Tempohyphotese. Für jede erkannte Taktzeit wird
der Vertrauenswert des Agenten erhöht. Um wie viel entscheidet das Gewicht des
Events, und seine Nähe zur vorhergesagten Taktzeit. Das Gewicht eines Events
wird in der Amplitudenstärke des Event-Onsets gemessen. Dieser Wert wird dann
um die Differenz zwischen der vorhergesagten und der tatsächlichen Taktzeit vermindert.
Der Endwert für den Agenten wird dann berechnet durch den bisher ermittelten
Wert, vermindert um die Wertigkeit jeden Taktschlags, der interpoliert werden
musste. Dann werden alle Wichtigkeiten noch normalisiert, damit Agenten, die
schnellere Tempi bearbeiten, keinen Vorteil aufgrund höherer Anzahl von Taktschlägen haben. Wenn es vorkommt, dass zwei oder mehr Agenten die gleiche Folgerung über Tempo und Phase der Taktschläge haben, dann wird der am höchsten
bewertete Agent beibehalten und die anderen verworfen.
Die Hauptschleife endet, wenn alle Events abgearbeitet wurden. Dann geht man
davon aus, dass der Agent das richtige Tempo und Metrum erfasst hat, der am
höchsten bewertet wurde.
Bei einem informellen Test wurde die Musik angehört. Zeitgleich lief ein Band
mit, das einen perkussiven Sound an den Stellen hatte, an denen das System Taktschläge festgestellt hat. So kann man erkennen, dass die Ergebnisse näherungsweise
korrekt sind. Natürlich ist dies keine sehr präzise Vorgehensweise.
Etwas präzisere Testergebnisse brachte ein Vergleich der Takteinschätzung des Systems mit einer Einschätzung, die von Hand“ berechnet wurde. Von Hand“ meint,
”
”
dass die Musikstücke mit einem Standardwaveeditor untersucht werden, und eine
Anzahl von Taktschlägen gefunden werden, die durch klare perkussive Events (als
Peak im Waveeditor erkennbar) markiert sind. Diese Taktschläge wurden dann zur
Interpolation der Fehlenden benutzt.
Drei der getesteten Songs sind Popmusik mit sehr gleichmäßigem Tempo, das klar
durch einfache und auffallende Schlagzeugpattern markiert wird, ähnlich derer, die
Goto [Goto & Muraoka ’94] verwendet. Bei dieser Musik wird normalerweise jedes
Instrument einzeln aufgenommen und mit einer Metronomspur synchronisiert. Dadurch ist das Metrum sehr gleichmäßig und schwankt nur in sehr kleinen Grenzen.
Bei diesen drei Songs machte das System keine Fehler. Soul, bzw. Motownmusik ist
synkopierter und beinhaltet größere Temposchwankungen. Außerdem ist der Umgang mit dem Takt etwas freizügiger, manchmal hinkt es etwas hinterher ( laid
”
back“), manchmal ist es doch exakt. Bei dieser Art von Musik traten die ersten
Fehler auf.
Bob Dylans Musik war wegen seiner typischen Art gegen den rhythmischen Kon-
9.3. TRANSKRIPTION
63
text zu singen und zu spielen noch schwieriger für das System zu detektieren.
Obwohl der Takt menschlichen Zuhörern durchaus klar ist, spielt das Schlagzeug
keine hervorgehobene Rolle, und die Übereinstimmung zwischen dem Metrum und
den auftretenden musikalischen Ereignissen ist wesentlich kleiner als bei den anderen beiden Musikstilen.
Hier verlor das System manchmal die Synchronisation und erkannte die Off-Beats
als Metrum. Das Tempo wurde aber immer noch richtig eingeschätzt. Bei Bossa
nova traten zwischendurch auch Tempofehler auf, das System fing sich später aber
wieder.
Jazzstücke wurden einerseits wegen ihrer Komplexität an manchen Stellen ausgesucht, und andererseits, weil es auch für Menschen nicht einfach ist, dem Takt
zu folgen. Der Agent, der am meisten punktete, fand hier in einem Großteil noch
das Tempo, aber an manchen Stellen doch fehlerhaft. Bei einer Klaviersonate von
Mozart verlor das System öfters die Synchronisation und erkannte den Offbeat als
Metrum.
Eine frühere Version des Systems erkannte auch in manchem Popsongs einen um
einen halben Takt verschobenen Takt. Wenn man die Wichtigkeitsberechnung weglässt, dann erkennt das System das ganze Stück I don’t remember of a thing“
”
verschoben. In der Popmusik unterscheidet die Wichtigkeit von Events den Beat
vom Offbeat, aber beispielsweise im Jazz kann das auch anders sein. Während
die vorigen Systeme auf Parallelrechnern arbeiteten, hat dieses System moderatere Hardwareanforderungen. Bei den Tests wurde ein Personalcomputer des Jahres
2001 verwendet, der ungefähr 10 Sekunden benötigte, um ein durchschnittlich langes Stück zu untersuchen.
9.3
Transkription
In [Timo Viitaniemi ’03] wird ein Transkriptionssystem für einstimmige Melodien
beschrieben. Eine Person singt, pfeift oder summt eine Melodie, das Programm
erstellt daraus Mididaten. Dazu werden drei probabilistische Modelle verwendet:
Ein Hidden-Markov-Modell für die Tonhöhenkurve, ein musikwissenschaftliches
Modell (für Vorzeichen und Tonart), und ein Modell für die Zeitdauer der einzelnen
Noten. Die besten Ergebnisse: 12% Fehler beim Singen, 9% beim Singen nur mit
Silben, 14% Summen und 19% Pfeifen.
Von Masataka Goto und Yoichi Muraoka stammt ein Konzept zur Melodie und
Basslinienerkennung in Audiosignalen in Echtzeit ([Goto ’99]). Mit Hilfe einer Frequenzanalyse werden die Hauptfrequenzen für die Melodie und den Bass heraus
gefiltert. Ein Multiagentensystem, bei dem jeder Agent eine hypothetische Melodie oder Basslinie verfolgt, soll dann die tatsächlich vorhandene Linie detektieren.
Eingaben waren 10 CD-Aufnahmen von Pop, Jazz, und klassischer Musik, als Ausgabe erhält man kontinuierliche quantitative Werte mit Zeitstempel. Es war auf
64
KAPITEL 9. SPEZIELLE FORSCHUNGSERGEBNISSE
diese Art gut möglich, die Bass und Melodielinien zu erkennen. Goto beschreibt
in [Goto ’00] nocheinmal genauer die Funktionsweise der Hauptfrequenzerkennung
(Predominant-F0).
An der Tampere Universität in Finnland wurde versucht aus synthetisierten MIDIStücken und CD-Aufnahmen Noten zu transkibieren ([Klapuri ’98]). Dazu wird
das schon oben erwähnte Metrumerkennungssystem verwendet ([Seppänen ’01]),
ergänzt um eine Tonhöhenschätzung, Soundtrennung und Harmonieanalyse. Die
Ergebnisse wurden mit dem verglichen, was trainierte Musiker transkripieren würden. Als Ergebnis kann man festhalten, dass die erkannten Noten zwar meist stimmig sind, aber doch eine Menge nicht erkannt wird. Als offensichtlichste Folgerung
wurde angegeben, dass das System zwar ein anwendbares musikalisches Gehör hat,
es aber absolut nichts von Musik versteht.
[Bello et al. ’00] beschreibt ein System zur Notentranskription von Klavierstücken.
Dabei gelten folgende Einschränkungen: Die Töne müssen zwischen C4 und B6
liegen, es dürfen nicht mehr als 3 Töne gleichzeitig gespielt werden und diese
dürfen nicht über eine Oktave hinaus gehen. Realisiert werden die Kernfunktionen
über ein Blackboardsystem, eine recht komplexes Problemlösungsmodel, das die
Organisation von Wissen und Daten beschreibt. Man kann es sich so vorstellen:
Viele Experten versuchen ein Problem zu lösen dass auf einer Tafel aufgeschrieben
ist. Jeder Experte wird aber nur dann aktiv, wenn sein spezielles Wissen gefragt
ist. Sein Ergebnis schreibt er auf die Tafel. Mit Hilfe dieses neuen Wissens können
nun andere Experten weiterarbeiten [Engelmore & Morgan ’88].
Das Blackboardsystem als Kern des Ganzen hat folgende Aufgaben:
1. Extraktion der numerischen Parameter durch Signalanalyse (Fouriertransformation, Autokorrelation)
2. Entfernen von nicht hörbaren oder irrelevanten Daten
3. Verwendung von musikalischem Wissen um Muster oder Formen in der Komposition zu finden
4. Verwendung von Erfahrungswerten bei der Erkennung von musikalischen
Strukturen in der Audiodatei
Dem Blackboard hilft ein neuronales Netz, die getroffenen Hypothesen über Noten zu verbessern. Ausgegeben wurde entweder eine Punktedatei der CSOUNDMusikprogrammiersprache oder die Klaviaturansicht.
Ein weiteres Transkriptionssystem beschreibt [Forsberg ’98]. Folgende vier Schritte werden durchgeführt, bis am Ende aus einem Sample eine Klaviaturdarstellung
erzeugt wird: Spektralanalyse, partial tracking, Parametrisierung und Tonerkennung. Das System funktioniert auf sehr einfach gebauten Musikstücken recht gut,
kommt aber bei komplexen Stücken schnell an seine Grenzen.
9.4. SONSTIGES
9.4
65
Sonstiges
Um
Dreiklänge
oder
einzelne
Noten
zu
erkennen
wurden
in
[Shuttleworth & Wilson ’95] trainierte neuronale Netze verwendet. Leider
liegen die Erkennungsraten unter 60%.
Wir Menschen können schnell entscheiden, ob eine Person spricht oder singt, auch
wenn die Übergänge manchmal fliessend sind. In [Timo Viitaniemi ’03] wird versucht, diese Unterscheidung von einem Rechner treffen zu lassen. Eine Frequenzanalye untersucht die Daten auf spezifische Eigenheiten, zum Beispiel wird ein
Vibrato eigentlich nur beim Singen verwendet. Diese Vibratofrequenz lässt sich in
der Aufnahme finden. Die Erkennung der einzelnen Eigenheiten liegt bei über 50%.
Anscheinend ist es also schwierig zu entscheiden ob eine Person singt oder spricht,
falls keine Referenzdateien vorliegen.
Um Musikmuster, und dann auch ihre Wiederholungen in notierten Musikstücken
zu finden, wurde ein Patternmachingalgorithmus in [Meredith et al. ’01] verwendet. Als Eingabe dient eine Matrixnotation des Musikstücks. Eine echte Ergebnisauswertung ist leider nicht vorhanden.
Eine on-set-basierte Segmentierung von Klängen (am Beispiel Sprache) wird in
[Smith ’96] behandelt. Zuerst wird versucht durch einen Filter, der möglichst genau
dem Verhalten des menschlichen Ohrs ähnelt, die On-Set-Zeiten und Frequenzen zu
ermitteln. Anschließend werden diese Daten durch ein Neuronales Netz ( integrate
”
and fire“) nach Zeit und Frequenz zu Segmenten zusammengefasst. Dadurch gelang
es aus dem gesprochenen Ausdruck neuronal information processing systems“ die
”
einzelnen Phoneme zu detektieren.
In [Steyn ’04] wird gezeigt wie Musik, beispielsweise eine Partitur, in der Music
”
Markup Language“ MML beschrieben werden kann. Diese MML ist eine XMLSprache.
9.5
Kommerzielle Systeme
Ein Wav-to-Midi-System findet sich unter [Wolkersdorfer ’]. Das System soll echte
Musik aus unkomprimierten Musikdaten (wav-Dateien) in MIDI-Daten umwandeln. Eine Demoversion ist herunterladbar. Bei vorgespielten Midi-Daten sind die
Ergebnisse recht gut, bei CD-Aufnahmen oder gar Livemusik gibt es keine Angabe.
Native Instruments“ vertreibt ein Programm, dass Takterkennung in Echtzeit aus
”
akustischen Eingabedaten bietet. Das System scheint aber nur auf tieffrequente
Anteile zu reagieren [Software-Synthesis-GmbH ’].
Kapitel 10
Zusammenfassung und Ausblick
10.1
Zusammenfassung
Bisher wurde die menschliche Musikwahrnehmung betrachtet. Darauf aufbauend
wurde eine Ontologie entwickelt, die unter Berücksichtigung der menschlichen
Wahrnehmung, ein gehörtes Musikstück fassen kann. Dabei wurde Wert auf Erweiterbarkeit und mögliche Integration anderer Ontologien gelegt. In der Ontologie
können Musikdarbietungen von europäischer Musik mit wenigen Einschränkungen
repräsentiert werden.
Die Musikontologie beschreibt das Minimum, was nötig ist, um ein Musikstück zu
beschreiben. Darüber hinaus sind einige Erweiterungen sinnvoll und wünschenswert.
10.2
Ausblick
10.2.1
Klang
In Kapitel 5.1.1 wurde beschrieben, dass ein natürlicher Klang zu komplex ist, um
ihn direkt als Klasse in die Ontologie aufzunehmen. Deshalb muss ein komplexer
Klang aus mehreren Einzelklängen zusammengebaut werden. Diese Lösung funktioniert zwar, aber sie benötigt unter Umständen eine Vielzahl an Einzelklängen.
Man könnte nun versuchen, einen Behälter einzuführen, der diese Einzelklänge
zusammenfasst zu einem echten Klang. Eine andere Möglichkeit könnte sein, den
Frequenz- und Lautstärkeverlauf eines echten Klangs mathematisch zu beschreiben. Dann würde anstelle der festgelegten Frequenzen und der Lautstärke deren
gesamter Verlauf in den Eigenschaften des Klangs auftreten. Allerdings ist die mathematische Beschreibung sicher nicht einfach zu finden.
Jeder Klang wird irgendwie erzeugt, entweder von einem Instrument, einer Sän66
10.2. AUSBLICK
67
gerin, einem Lautsprecher, oder ganz anderen Dingen. Jeder dieser Klangerzeuger
hat ein spezifisches Frequenz-, bzw. Obertonspektrum. In der Ontologie ist dies
bis jetzt unberücksichtigt. Menschen können aber bestimmten Klängen bestimmte
Klangerzeuger zuordnen. Das heißt allerdings nicht, dass ein Mensch von jedem
Klang den Klangerzeuger erkennt. Also könnte eine Klasse Klangerzeuger“ ein”
geführt werden, die als Unterklasse alle möglichen Arten von Instrumenten oder
Ähnlichem besitzt. Dann müsste Klängen ein Klangerzeuger zugeordnet werden
können.
Dabei müsste berücksichtigt werden, dass nicht jedes Instrument einer Art genau
dasselbe Frequenzspektrum besitzt wie ein baugleiches anderes Instrument. Hinzu
kommt, dass unterschiedliche Musiker auf ein und demselben Instrument anders
klingende Töne spielen. Auch die Temperatur spielt bei sehr vielen Instrumenten
eine Rolle. Eine Trompete wird beispielsweise von Musikern warm gespielt, bevor
ein Konzert gegeben wird, weil zum einen die Trompete warm anders klingt, und
zum anderen der Trompeter schönere Töne spielen kann, wenn seine Mundmuskulatur aufgewärmt wurde.
Materialunterschiede spielen ebenfalls eine Rolle. Eine Trompete, die versilbert
wurde, klingt weicher als eine Trompete, die verchromt wurde. Noch weicher klingt
eine unlackierte Trompete. Sogar das Mundstück hat massiven Einfluss auf die
Klangfarbe.
Und trotz alledem erkennen geübte Menschen bei allen gehörten Tönen, die von
unterschiedlichen Musikern auf unterschiedlichen Trompeten bei unterschiedlichen
Temperaturen gespielt werden, dass es sich um Klänge einer Trompete handelt.
10.2.2
Stil
Es gibt verschiedene Musikstile, deren Musikstücke die Ontologie abdecken kann.
Zum einen die klassische Musik, die sich in weitere, meistens entstehungszeitliche
Gruppen fassen lässt, zum anderen auch die moderne Unterhaltungsmusik, zum
Beispiel Rock, Pop, Jazz. Die letzteren lassen sich auch noch weiter in Untergruppen aufteilen.
Bei der klassischen Musik dürfte die Zuordnung eines Stücks zu einer Stilrichtung
eindeutig sein. Normalerweise wird ein Komponist einer Epoche zu geordnet und
damit ist die Stilrichtung klar. Allerdings lassen sich die epochalen Eigenheiten in
den Werken finden. Bei der modernen Unterhaltungsmusik dagegen sind die Grenzen sehr fließend. So kann man zum Beispiel die CDs von Nils Petter Molvaer im
Fachhandel sowohl unter Jazz als auch unter Elektronischer Musik finden. Beim
Anhören von Musik versucht ein Mensch meistens, das gehörte zu kategorisieren
oder mit anderen ihm bekannten Musikstücken zu vergleichen. Deshalb wäre eine
Integration der Musikstile in die Ontologie eine Verbesserung. Die Hauptschwierigkeit dürfte dabei sein, harte Kriterien zu finden, welche einen bestimmten Stil
ausmachen, so dass er nicht mit einem anderen verwechselt werden kann.
68
KAPITEL 10. ZUSAMMENFASSUNG UND AUSBLICK
10.2.3
Liedtext
Bei Liedern spielt der Text, der gesungen wird, eine große inhaltliche Rolle. Bisher
wurde der Text nicht berücksichtigt, obwohl er oft im Einklang mit der Stimmung
des Stückes steht. Beispielsweise wird bei Liebesliedern der Textsinn durch besonders wohlklingende Harmonien und liebliche Melodieführungen untermalt. Ab
und an findet sich auch das Gegenteil dazu, dass also das was zu Hören ist an
Melodie und Harmonie im Gegensatz zum Text steht. Ein Beispiel hierzu wäre das
Schlaflied“ von der Gruppe die Ärzte“.
”
”
10.2.4
Musikalischer Kontext
Wenn Menschen Musik hören, so beschränkt sich die menschliche Wahrnehmung
nicht nur auf das reine Hören, sondern es finden eine Menge Vorgänge parallel dazu
statt. Wie schon beschrieben wird versucht, eine Melodie zu finden, man versucht
das Musikstück zu erkennen, das Stück wird mit Musik verglichen, die man schon
kennt, und vieles mehr. Hinzu kommt, dass jeder Mensch einen anderen kulturellen Hintergrund hat. Erwachsene haben schon mehr Musik gehört als Kinder,
und damit auch mehr Erfahrung mit Musik. Dieses Vorwissen spiegelt sich auch in
der Bewertung des Musikstücks wieder. Doch auch zwischen Erwachsenen ist die
Erfahrung und Vorbildung in Musik sehr unterschiedlich. Verbunden mit dem unterschiedlichen Geschmack, den Menschen entwickeln, spielt dies eine große Rolle
beim Hören und Bewerten von Musik.
Wenn also im Computer Musik möglichst Ähnlich zum Menschen betrachtet
werden soll, so muss es eine Möglichkeit geben Musikwissen und Erfahrung nicht
nur zu Verfügung zu stellen, sondern auch weiter zu sammeln. Durch jedes gehörte
und analysierte Musikstück soll ein Stück Erfahrung hinzu gewonnen werden.
Wenn unterschiedliche Musiker ein und das selbe Stück interpretieren, dann entstehen nach der vorgelegten Ontologie zwei unterschiedliche Musikstücke. Dies stimmt
auch in so weit, dass jeder Interpret seine eigene Vorstellung von einem Stück mit
hineinlegt. Diese eigene Vorstellung entsteht aus der im vorigen Abschnitt erklärten
musikalischen Vorbildung und dem eigenen Geschmack. Besonders in der klassischen Musik gibt es für versierte Musikhörer immense Unterschiede zu entdecken,
beispielsweise von welchem Pianist ein Klavierkonzert gespielt wird.
Trotzdem erkennen Menschen das unterschiedlich interpretierte Stück als das selbe.
Daraus ergeben sich zwei Wünsche an die Ontologie:
1. Die Eigenheit von Interpretationen sollte bemerkt und gespeichert werden
2. Unterschiede zu anderen Interpretationen des gleichen Musikstücks sollten
integriert werden können.
10.2. AUSBLICK
69
Ein möglicher Ansatz könnte die in [Daemi & Calmet ’04] vorgestellte Vorgehensweise zur Quantifizierung unterschiedlicher Kontexte sein.
70
KAPITEL 10. ZUSAMMENFASSUNG UND AUSBLICK
Literaturverzeichnis
[Alghoniemy & Tewfik ’99] M. Alghoniemy und A. Tewfik. Rhythm and Periodicity Detection in Polyphonic Music, 1999.
[Asuncion Gomez-Perez ’04] Oscar Corcho Asuncion Gomez-Perez, Mariano
Fernandez-Lopez. Ontological Engineering. Springer Verlag, 2004.
[AT&T ’] AT&T. GraphViz. URL: http://www.graphviz.org.
[Bello et al. ’00] J. Bello, G. Monti und M. Sandler. Techniques for Automatic
Music Transcription, 2000.
[Berners-Lee et al. ’01] T. Berners-Lee, J. Hendler und O. Lassila. The Semantic
Web. Scientific American, 05 2001.
[Boulanger ’00] Richard Boulanger. The Csound Book: Perspectives in Software
Synthesis, Sound Design, Signal Processing, and Programming. The MIT
Press, 2000.
[Braut ’93] Christian Braut. Das MIDI Buch. Sybex Verlag, 1993.
[Brickley & Guha ’04] Dan Brickley und R.V. Guha.
RDF Vocabulary
Description Language 1.0: RDF Schema.
W3C Recommendation,
http://www.w3.org/TR/rdf-schema/, 2004.
[Capella ’] Capella. Capella. URL: http://www.whc.de/.
[Cise ’] Computer Science Cise. HUMAN PERCEPTION AND COMPUTER EXTRACTION OF MUSICAL BEAT STRENGTH George Tzanetakis, Georg
Essl.
[CSound ’] CSound.
CSound Dokumentation.
URL: http://www.ugrad.
physics.mcgill.ca/reference/Csound/INDEX.html.
[Cycling-74 ’] Cycling-74. Max. URL: http://www.cycling74.com/products/
maxmsp.html.
71
72
LITERATURVERZEICHNIS
[Daemi & Calmet ’04] Anusch Daemi und Jacques Calmet. Assessing Conflicts in
Ontologies. WSEAS Transactions on Information Science and Applications,
1, Nr. 5, S. 1289 – 1294, 2004.
[Digidesign ’] Digidesign. ProTools. URL: http://www.digidesign.com/.
[Dixon ’00] Simon Dixon. A Lightweight Multi-agent Musical Beat Tracking System. In Pacific Rim International Conference on Artificial Intelligence, S.
778–788, 2000.
[Dixon ’01] S. Dixon. Automatic extraction of tempo and beat from expressive
performances, 2001.
[Dixon ’02] Simon Dixon. Pinpointing the Beat: Tapping to expressive performances, 2002.
[Emagic ’] Emagic.
finale.htm.
Logic Pro.
URL: http://www.klemm-music.de/coda/
[Engelmore & Morgan ’88] R.S Engelmore und A.J. Morgan. Blackboard Systems.
Addison-Wesley publishing, 1988.
[Farquhar et al. ’97] Adam Farquhar, Richard Fikes und James Rice. The Ontolingua Server: A Tool for Collaborative Ontology Construction. International
Journal of Human Computer Studies, 46, Nr. 6, S. 707 – 727, 1997.
[Fensel ’00] Dieter Fensel. Ontologies: A silver bullet for Knowledge Management
and Electronic Commerce. Springer Verlag, 2000.
[Forsberg ’98] Johan Forsberg.
format, 1998.
Automatic conversion of sound to the MIDI-
[GI ’] web-redaktion der GI. Gesellschaft für Informatik. URL: http://www.
gi-ev.de/.
[Goto & Muraoka ’94] M. Goto und Y. Muraoka. A Beat Tracking System for
Acoustic Signals of Music. In ACM Multimedia, S. 365–372, 1994.
[Goto & Muraoka ’95] Masataka Goto und Yoichi Muraoka. Beat tracking based
on multiple-agent architecture – A real-time beat tracking system for audio
signals–. In Victor Lesser (Hrsg.), Proceedings of the First International
Conference on Multi–Agent Systems. MIT Press, 1995.
[Goto ’97] M. Goto. Music understanding at the beat level: Real-time beat
tracking for audio signals, 1997.
[Goto ’99] M. Goto. A real-time music scene description system: Detecting melody
and bass lines in audio signals, 1999.
LITERATURVERZEICHNIS
73
[Goto ’00] Masataka Goto. A Robust Predominant-F0 Estimation Method for
Real-time Detection of Melody and Bass Lines in CD Recordings, 2000.
[Goto ’01] Masataka Goto. An Audio-based Real-time Beat Tracking System for
Music With or Without Drum-sounds, 2001.
[Grosso et al. ’00] W. Grosso, H. Eriksson, R. Fergerson, J. Gennari, S. Tu und
M. Musen. Knowledge Modeling at the Millennium – The Design and Evolution of Protege, 2000.
[Gruber ’96] Thomas R. Gruber. Ontolingua: A mechanism to support portable
ontologies. Technical Report Technical Report KSL-91-66, Stanford University, 1996.
[Harmelen & Patel-Schneider ’01] Frank
van
Harmelen
und
Patel-Schneider.
DAML+OIL.
DARPA und EU
http://www.daml.org/2001/03/daml+oil-index.html, 2001.
Peter
(IST),
[Harold ’02] Elliotte R. Harold. Die XML Bibel. (2. Auflage). mitp, 2002.
[Klapuri ’98] A. Klapuri. Automatic transcription of music, 1998.
[Klemm-Music ’] Klemm-Music. Finale. URL: http://www.klemm-music.de/
coda/finale.htm.
[Lenat & Guha ’90] Douglas B. Lenat und Ramanathan V. Guha. Building Large
Knowledge-based Systems: Representation and Inference in the Cyc Project.
Addison-Wesley, 1990.
[McGuinness & Harmelen ’04] Deborah L. McGuinness und Frank van Harmelen.
OWL Web Ontology Language.
W3C Recommendation,
http://www.w3.org/TR/owl-features/, 2004.
[Medicine ’a] Stanford University School of Medicine. Stanford University School
of Medicine. URL: http://med.stanford.edu/.
[Medicine ’b] Standford Medical Informatics Stanford University School of Medicine. Protege. URL: http://protege.stanford.edu/.
[Meredith et al. ’01] David Meredith, Geraint A. Wiggins und Kjell Lemstrom.
Pattern Discovery and Pattern Matching in Polyphonic Music and Other
Multidimensional Datasets, 2001.
[M.Gruninger & Lee ’02] M.Gruninger und J. Lee. Ontology - applications and
design, 2002.
[MIDI-Manufracturers-Association ’] MIDI-Manufracturers-Association.
URL: http://www.midi.org.
MIDI.
74
LITERATURVERZEICHNIS
[Peter Gorges ’97] Alex Merck Peter Gorges. Keyboards, MIDI, Homerecording.
Carstensen Verlag, 1997.
[Rosenthal et al. ’94] D. Rosenthal, M. Goto und Y. Muraoka. Rhythm tracking
using multiple hypotheses, 1994.
[Seppänen ’01] Jarno Seppänen. Computational Models Of Musical Meter Recognition. Diplomarbeit, Tampere Univ. of Tech., Tampere, Finland, 2001.
[Shuttleworth & Wilson ’95] Tim Shuttleworth und Roland Wilson. The Recognition of Musical Structures using Neural Networks, 1995.
[Smith ’96] Leslie S. Smith. Onset-based Sound Segmentation. In David S. Touretzky, Michael C. Mozer und Michael E. Hasselmo (Hrsg.), Advances in
Neural Information Processing Systems, Bd. 8, S. 729–735. The MIT Press,
1996.
[Smith ’04] Barry Smith. Beyond Concepts:Ontology as Reality Representation,
2004.
[Software-Synthesis-GmbH ’] Software-Synthesis-GmbH.
URL: http://www.nativeinstruments.de.
nativeinstruments.
[Sowa ’00] John F. Sowa. Knowledge Representation. Brooks/Cole, 2000.
[Stanford-Medical-Informatics ’] Stanford-Medical-Informatics. Standford Medical Informatics. URL: http://camis.stanford.edu/.
[Steyn ’04] Jaques Steyn. A Modular Approach to XML Music Notation and
Representation, 2004.
[Timo Viitaniemi ’03] Antti Eronen Timo Viitaniemi, Anssi Klapuri. A Probabilistic Model For The Transcription Of Single-Voices Melodies, 2003.
[T.R.Gruber ’93] T.R.Gruber. A Translation Approach to Portable Ontologies,
Knowledge Acquisition, 5: 199-220 1993.
”
[Vercoes ’] Barry Vercoes. Barry Vercoes. URL: http:http://web.media.mit.
edu/~bv/.
[Volker Haarslev ’] Michael Wessel Volker Haarslev, Ralf Möller. RACER. URL:
http://www.sts.tu-harburg.de/~r.f.moeller/racer/.
[w3c ’] w3c. semantic web. URL: http://www.w3.org/2001/sw/.
[Wolkersdorfer ’] Peter Wolkersdorfer. Midimaster. URL: http://midimaster.
de/windex.htm.
LITERATURVERZEICHNIS
75
[Ziv & Lempel ’77] Jacob Ziv und Abraham Lempel. A Universal Algorithm for
Sequential Data Compression. IEEE Transactions on Information Theory,
23, Nr. 3, S. 337–343, 1977.
Herunterladen