1 Grundlagen der computergesteuerten Klangerzeugung

Werbung
Sound-Engineering am Computer
Spezialgebiet von Christoph Karner im Wahlpflichtfach
Informatik
Inhaltsverzeichnis
1
2
3
4
5
Grundlagen der computergesteuerten Klangerzeugung ............................................... 2
1.1
Synthesizer ............................................................................................................ 2
1.1.1
Allgemeines .................................................................................................... 2
1.1.2
Geschichte ..................................................................................................... 2
1.2
Klangsynthese ....................................................................................................... 3
1.2.1
Subtraktive Synthese ..................................................................................... 4
1.2.2
Additive Synthese (Fouriersynthese) .............................................................. 6
1.2.3
Frequenzmodulation (FM-Synthese) .............................................................. 8
1.3
Wellenformen ........................................................................................................ 9
1.3.1
Sinus-Wellenform ........................................................................................... 9
1.3.2
Rechteck-Wellenform ................................................................................... 10
1.3.3
Sägezahn-Wellenform .................................................................................. 10
1.3.4
Dreieck-Wellenform ...................................................................................... 11
1.3.5
Rauschen ..................................................................................................... 12
1.3.6
Pulswellen .................................................................................................... 12
1.4
Virtual Studio Technology (VST) ......................................................................... 13
Audioformate .............................................................................................................. 14
2.1
AAC ..................................................................................................................... 14
2.2
AIFF ..................................................................................................................... 14
2.3
MP3 ..................................................................................................................... 14
2.4
Ogg ...................................................................................................................... 15
2.5
Real Audio ........................................................................................................... 16
2.6
VQF ..................................................................................................................... 16
2.7
Wave ................................................................................................................... 17
MIDI ............................................................................................................................ 17
3.1
Allgemeines ......................................................................................................... 17
3.2
Grundstruktur einer Standard-MIDI-Datei ............................................................ 18
3.3
Kanal-Events ....................................................................................................... 19
3.4
Event-Typen ........................................................................................................ 19
Soundkarten ............................................................................................................... 20
4.1
Geschichte........................................................................................................... 20
4.2
Verfahren ............................................................................................................. 20
4.2.1
Sampling ...................................................................................................... 21
4.2.2
Wavetable-Synthese .................................................................................... 21
4.2.3
Moderne Soundkarten .................................................................................. 21
Aufnahmeverfahren und Audiobearbeitung ................................................................ 23
1 Grundlagen der computergesteuerten
Klangerzeugung
1.1 Synthesizer
1.1.1 Allgemeines
Ein Synthesizer ist ein regelbarer, elektronischer Klangerzeuger. Viele Menschen sind der
Meinung, dass ein Synthesizer einfach ein Computer ist, aus dem auf Knopfdruck
computergenerierte, unkreative Musik kommt. Dies stimmt jedoch nur bedingt. Synthesizer
sind elektronische Musikinstrumente, die eine präzise Kontrolle über die Erzeugung
musikalischer Klänge ermöglichen und diese auf elektronischem Weg (analog oder digital)
produzieren.
Oft werden Synthesizer verwendet um Klänge zu erzeugen, die in der Natur nicht
vorkommen bzw. die nicht durch ein anderes Instrument erzeugbar sind. Ein weiteres
Einsatzgebiet ist aber eben diese Nachbildung von bekannten Instrumenten. Hierbei wird
versucht, die Klangfarbe und damit die für ein bestimmtes Instrument typischen Obertöne
zu erzeugen.
1.1.2 Geschichte
Der Traum von der Erstellung künstlicher und noch nie dagewesener Klänge beschäftigt
die Menschen schon seit langem. Mit dem Aufkommen der Elektronik in den 40er Jahren
des 20. Jahrhunderts rückte dessen Erfüllung näher. Einige kuriose Entwicklungen wie
das Aetherophon erweckten zwar eine gewisse Aufmerksamkeit, setzten sich aber, vor
allem wegen ihrer für Musiker ungewohnten Spielweise, nicht großflächig durch.
Dies änderte sich 1964 mit einer Erfindung von Dr. Robert A. Moog (*1934), die er
Synthesizer nannte. Er verknüpfte in seiner Erfindung die Klangerzeugenden Module mit
einem normalen Keyboard, also einer Klaviatur. In diesem Jahr stellte sein erstes, modular
aufgebautes Gerät fertig. Es arbeitete mit der subtraktiven Synthese, die auch heute noch
vorwiegend in Synthesizern anzutreffen ist. Bereits während der Entwicklung konnte er
den Musiker Walter Carlos (später Wendy Carlos) für das Instrument begeistern, der durch
seine praktischen Erfahrungen zur Weiterentwicklung beitrug. Carlos spielte viele Werke
von J.H. Bach auf seinem Synthesizer, was ihm große Erfolge brachte. Da das Moog
Modular System (Abb. 1.1) jedoch für den praktischen Einsatz zu groß, zu kompliziert zu
bedienen und nicht zuletzt durch den hohen Preis für viele Künstler unerschwinglich war,
integrierte Moog die wichtigsten Komponenten seines Synthesizers in ein kompaktes
Gerät, das den Namen Minimoog (Abb. 1.2) erhielt. Bald darauf interessierten sich
zahlreiche und namhafte Musiker für den Minimoog und die Verbreitung des Synthesizers
nahm ihren Anfang.
Im Laufe der 70er Jahre des 20. Jahrhunderts entstanden andere Hersteller und brachten
Synthesizer auf den Markt, die nach dem gleichen Prinzip wie die von Moog arbeiteten:
ARP (von Alan Robert Pearlman), Oberheim und Sequential Circuits.
Zu Beginn der 80er Jahre nahm die Digitaltechnik gleich auf mehreren Ebenen ihren
Einzug in die Synthesizer-Technologie. Musste man bei den Analog-Synthesizern noch
jeden Klang manuell einstellen, kamen nun Geräte auf, die Klangeinstellungen speichern
und schnell wieder abrufen konnten. Zunehmends wurden die Geräte polyphon spielbar
(auch der Minimoog war nur monophon, d.h. nur eine Note konnte zur gleichen Zeit
gespielt werden), und mittels MIDI war es möglich, Synthesizer z. B. von Sequenzern aus
anzusteuern.
2
Abbildung 1.1: Moog Modular System
Abbildung 1.2: Minimoog
Ein Meilenstein in der Entwicklung der digitalen Synthesizer war der Yamaha DX-7 (Abb.
1.3), der 1983 auf den Markt kam.
Der Yamaha DX-7 sorgte mit seiner Synthese durch Frequenzmodulation zum Teil für den
Sound der 80er Jahre. Er vereinte nicht einfach nur die Grundbausteine VCO, VCF, VCA
und LFO in sich; er war etwas völlig Neues. Er bot die oben angesprochene völlig neue
Syntheseform FM-Synthese. Plötzlich waren ganz neue Klänge möglich. Und für die
damalige Zeit klangen diese sogar überraschend naturgetreu. Ein Nachteil des DX-7 war
allerdings, dass die von ihm verwendete FM-Synthese recht kompliziert zu programmieren
war und daher viele Musiker hauptsächlich auf Presets, also vom Hersteller mitgelierferte
Einstellungen, zurückgriffen.
Mittlerweile gibt es sehr viele verschiedene Synthesizer auf dem Markt, mit deren Hilfe
bereits nahezu unendlich viele verschiedene Töne bzw. Klangfarben erzeugbar sind.
Durch die Entwicklung von VST ist der Synthesizer auch keine reine Hardware mehr,
siehe Abschnitt „VST“.
Abbildung 1.3: Yamaha DX-7
1.2 Klangsynthese
Grundlegende Klassifizierung von Synthesizern:
Als Digital-Synthesizer werden alle Synthesizer bezeichnet, deren Klangerzeugung digital
arbeitet. Digitalsynthesizer sind im Prinzip auf Errechnung von digitalen Audio-Signalen
spezialisierte Computer. Computer-Programme, die einen Synthesizer nachbilden, heißen
Software-Synthesizer (siehe Kapitel , Seite ).
Analog-Synthesizer heißen alle Geräte, deren Klangerzeugung mit analogen
Audiosignalen arbeitet. Ältere Geräte werden auch durch analoge Steuer-Signale bzw.
3
spannungsgesteuert kontrolliert, moderne Analog-Synthesizer werden digital über MIDI
gesteuert.
1.2.1 Subtraktive Synthese
Die subtraktive Synthese war bis zur Entwicklung der Digitaltechnik das einzig verfügbare
Syntheseprinzip, da es mit analogen, spannungsgesteuerten Bausteinen (so genannten
Modulen) realisiert werden konnte. Die subtraktive Synthese ist auch heute noch Basis
vieler digitaler Syntheseformen, und wegen der wachsenden Beliebtheit der Techno-Musik
steht sie momentan sogar wieder auf Platz eins.
Die Arbeitsweise basiert auf sehr obertonreichen Wellenformen, die von einem oder
mehreren Oszillatoren erzeugt werden und in ihrer rohen Form steril und hart klingen (siehe
Kapitel 1.3 Wellenformen, Seite 9). Diese Wellenformen werden von einem Filter bearbeitet, das
ihnen bestimmte Klanganteile entzieht. Meist werden Obertöne herausgeschnitten, der
harte Klang wird also durch das Filtern dunkler. Da der Filter von außen steuerbar ist,
kann seine Wirkung im Zeitverlauf durch Modulationen, Hüllkurven oder Spielhilfen
(Controller) gesteuert werden. Die Lautstärke des Klanges beeinflusst ein steuerbarer
Verstärker, der Verläufe wie Einschwingen, Abklingen oder Aushalten realisieren kann.
Diese signalverarbeitenden Module wiederum können von außen durch bestimmte
Steuerbausteine kontrolliert werden, durch deren Arbeit erst ein dynamisches, automatisch
ablaufendes Klangbild möglich ist.
Die unten verwendeten Abkürzungen bezeichnen Module eines subtraktiven Synthesizers.
"DCO" beispielsweise bedeutet „Digitally Controlled Oscillator“. Früher, in rein analogen
Synthesizern, waren die Module spannungsgesteuert, die Kürzel begannen deshalb mit
einem "V". "VCO" bedeutete dementsprechend „Voltage Controlled Oscillator“. In DCSynthesizern wird das Klangsignal zwar noch auf analogem Wege erzeugt, jedoch sind die
Module digital gesteuert, wodurch sich Klänge auch abspeichern lassen.
Die wichtigsten Module eines subtraktiven Synthesizers sind:
 Oscillator (VCO, DCO)
 Filter (VCF, DCF)
 Amplifier (VCA, DCA, Loudness)
 Envelope-Generator (ENV, EG, Contour)
 Low Frequency Oscillator (LFO, MG)
 Noise-Generator
1.2.1.1 Oscillator
Der Oszillator (Schwingungserzeuger) liefert die rohen Wellenformen, die im Kapitel
Wellenformen erklärt werden. Am Oszillator wird außer der Wellenform auch die Tonhöhe
bestimmt. Diese lässt sich in Oktaven vorwählen, fein einstellen (Tune) und natürlich von
anderen Modulen steuern.
1.2.1.2 Filter
In jedem analogen Synthesizer befindet sich ein so genannter Tiefpassfilter, der die tiefen
Anteile passieren lässt und die oberen beschneidet. Der wichtigste Parameter eines
solchen Filters ist die Cutoff-Frequenz, also der Punkt, an dem das Filter auf den Klang
einzuwirken beginnt. Die Klangformung eines Synthesizers wird im Wesentlichen dadurch
realisiert. dass die Cutoff-Frequenz die Obertonanteile der Rohwellen beeinflusst. Da die
Cutoff-Frequenz von außen durch Modulationen oder Hüllkurven steuerbar ist, lassen sich
so Klangfarbenmodulationen und -verläufe erzielen.
Ein weiteres Merkmal ist die Flankensteilheit, die in Dezibel pro Oktave (dB/Oct)
4
angegeben wird. Je steiler ein Filter. desto definierter und sauberer sein "Klang". Ist
beispielsweise die Cutoff-Frequenz eines Filters auf 1 kHz eingestellt und seine
Flankensteilheit 12 dB/Oct, so werden ab 1 kHz sämtliche Frequenzanteile beschnitten.
Wie stark die oberen Anteile abgeschnitten werden, hängt von der Steilheit ab, so werden
hier die Frequenzanteile bei 2 kHz um 12 dB, bei 4kHz bereits um 24dB abgesenkt.
Ein weiterer, wichtiger Parameter ist die Resonanz (Resonance, Peak). Die Resonanz
betont die Frequenzanteile um die Cutoff-Frequenz. Dies kann bis zur Selbstschwingung
des Filters führen. Die Filterresonanz ist verantwortlich für typische Synthesizereffekte wie
z. B. Wah-Wah, die durch ständige Veränderung der Cutoff-Frequenz bei hoher Resonanz
erzeugt werden.
Die Auslegung eines Filters hat beim sowohl bei analogen als auch bei digitalen
Synthesizern eine entscheidende Bedeutung für dessen Klangcharakteristik. Berühmt
geworden ist das Moog-Kaskadenfilter mit einer Flankensteilheit von 24 dB/Oct, das dem
legendären Synthesizer Minimoog seine unverwechselbare Klangfarbe gegeben hat.
Außer dem Tiefpassfilter gibt es unter Anderem folgende Filtertypen:
Hochpass wirkt umgekehrt wie der Tiefpass und beschneidet die unteren Frequenzanteile
Bandpass ist eine Kombination aus Hochpass und Tiefpass, er beschneidet sowohl die
Anteile unter- als auch oberhalb der Cutoff-Frequenz.
Sperrpass (Notch) wirkt umgekehrt wie der Bandpass; er beschneidet nur das
Frequenzband im Bereich der Cutoff-Frequenz und lässt die äußeren Bereiche passieren.
1.2.1.3 Amplifier
Der Amplifier, also Verstärker, kann abhängig von einem Steuersignal die Lautstärke des
Eingangssignals anheben oder absenken. In analogen Synthesizern war das Steuersignal
eine Spannung, heute ist dies ein digitaler Wert.
1.2.1.4 Envelope-Generator
Der Envelope-Generator erzeugt einen zeitabhängigen Verlauf, der als Hüllkurve
bezeichnet wird. Ein typisches, weit verbreitetes Beispiel ist die ADSR-Hüllkurve:
Die ADSR-Hüllkurve ist ein zeitlich bedingter Kurvenverlauf zur Beeinflussung von
Klangparametern, der in analogen Synthesizern vorwiegend für Lautstärke- und
Filterverläufe eingesetzt wird. Die mit analoger Hardware realisierten Verläufe der
Hüllkurve werden mit den folgenden Parametern bestimmt:
A = Attack: Regelt die Geschwindigkeit bis zum höchsten Ausschlag.
D = Decay: Regelt die Zeit bis zum Erreichen des "Halte"pegels; setzt in der Regel erst mit
dem Loslassen der Taste ein.
S = Sustain: Regelt die Amplitude oder "Höhe" des Haltepegels.
R = Release: Regelt die Zeit bis zum Abfall auf 0
Erst mit digitalen Synthesizern kamen komplexere Hüllkurven auf. Je komplexer diese
Hüllkurve ist, desto genauer kann man Verläufe nachbilden
1.2.1.5 Low Frequency Oscillator
Der LFO wird auch als Niederfrequenzoszillator bezeichnet. Er ist ein spezieller Oszillator,
der Schwingungen im unhörbaren Bereich zwischen 0,01 Hz und etwa 30 Hz (je nach
Synthesizer) erzeugen kann. Diese werden nicht als Audiosignale, sondern als
Steuersignale für Modulationen eingesetzt. Der LFO ist für Effekte wie Vibrato, Tremolo,
Wah-Wah, Triller und ähnliche zuständig. Für die Art der erzeugten Modulation ist außer
dem Zielmodul die Wellenform des LFOs wichtig.
5
Während eine Sinus- oder Dreieckwelle fließende Übergänge erzeugt, kann die
Rechteckwelle für harte, abrupte Modulationen verwendet werden. Ein abfallender
Sägezahn simuliert das Anschlagen einer Note, während ein ansteigender sich für
Rückwärtseffekte eignet. Viele LFOs lassen sich zum Tastenanschlag synchronisieren,
d.h. sie starten ihre Modulation genau beim Anschlag einer Note. Dies ist bei langsamen
Modulationen und Effekten notwendig, um etwa beim Tremolo keine „Löcher“ entstehen zu
lassen.
1.2.1.6 Noise-Generator
Ein wichtiger Baustein eines Synthesizers, der jedoch oft in den Oszillator integriert ist, ist
der Rauschgenerator (Noise). Abgesehen von Klangeffekten wie Wind oder Donner, die
direkt aus Rauschen bestehen, wird der Noise-Generator oft dem Oszillatorsignal
hinzugemischt, um Nebenanteile von Klängen zu erzeugen, wie sie in der Anblasphase
von Flötenklängen, anderen Holzblasinstrumenten oder Orgel-Tastenclicks enthalten sind.
Als Modulationsquelle für Filter oder Oszillator benutzt, "verunreinigt" das Rauschen den
Klang etwas, nimmt ihm dadurch in einigen Fällen die Sterilität und erzeugt erst einen
realitätsnahen Klang. Man unterscheidet zwei Arten von Rauschen, deren Bezeichnungen
dem Lichtspektrum entlehnt sind:
Das gebräuchlichere Weiße Rauschen (White Noise) enthält sämtliche Anteile des
Frequenzspektrums in gleichem Maße, ebenso wie weißes Licht sämtliche Farbanteile
enthält.
Im Rosa Rauschen (Pink Noise) sind die tieferen Frequenzanteile stärker vertreten. Es
eignet sich daher besonders gut für dumpfe Geräusche wie Donner oder Sturm.
Diese Bausteine des subtraktiven Synthesizers sind auch bei anderen Formen der
Klangsynthese vorzufinden.
Die stärken eines subtraktiven Synthesizers, besonders des analogen, liegen bei
synthetischen, warmen und druckvollen Klängen. Seine Schwachstelle ist die Nachbildung
von Naturinstrumenten. Analoge Synthesizer erzeugen in erster Linie Solo- und
Flächensounds, Brass (Blechbläser), synthetische Orgelsounds und Effekte.
1.2.2 Additive Synthese (Fouriersynthese)
Die additive Synthese arbeitet nach dem umgekehrten Prinzip wie die subtraktive
Synthese. Statt von einem obertonreichen Spektrum auszugehen und diesem mittels Filter
Anteile zu entziehen, wird beim additiven Synthesizer das Klangspektrum Oberton für
Oberton aufgebaut. In der Regel bietet der additive Synthesizer entweder 32, 64 oder 128
Obertöne. Entweder entsprechen diese der harmonischen Reihe, d.h. unharmonische
Anteile lassen sich nicht oder nur durch Übereinanderlegen und Verstimmen mehrerer
Wellenformen erzielen, oder es lassen sich Obertöne bzw. Obertonblöcke einzeln
stimmen.
Um einen Klang aufzubauen, werden die Obertöne nacheinander in der Amplitude
eingestellt, bis die gewünschte Klangfarbe erzielt ist. Es wäre falsch zu glauben, man
könnte auf diese Weise Naturinstrumente analysieren und durch Nachbildung des
Obertonspektrums wieder synthetisieren, denn bis zu diesem Punkt besitzt man lediglich
ein steriles Spektrum, dessen Klangeindruck dem einer Oszillatorwellenform nicht
unbedingt überlegen ist, schließlich handelt es sich „nur“ um eine Wellenform. Um nun
Zeitverläufe, Schwebungen und Klangformungen zu realisieren, benutzt man je nach
Aufwand verschiedene Verfahren.
6
1. subtraktive Nachbearbeitung
In diesem Fall ersetzt die additive Wellenform den Oszillator in einem
subtraktiven Stimmenaufbau. Der Vorteil gegenüber dem analogen Synthesizer
ist der, dass bereits das rohe Klangmaterial aufgrund seiner Obertonstruktur dem
Zielklang sehr ähnlich ist. Lautstärke- und Klangverläufe werden hier also wie
gewohnt durch Filter und Amplifier gebildet, Schwebungen werden innerhalb des
Spektrums kompromissweise durch Detunen (verstimmen; überlagern) zweier
Wellenformen oder einen Choruseffekt erzeugt.
Die restlichen Module sind ebenfalls mit denen eines subtraktiven Synthesizers
vergleichbar. Der Nachteil besteht darin, dass die zur detaillierten Klangformung
nötigen Verläufe einzelner Obertöne nicht möglich sind, sondern dass immer ein
kompletter Block durch den Filter bearbeitet wird.
2. Kombination mehrerer Spektren
Dieses Prinzip, das übrigens ebenfalls mit einer subtraktiven Nachbearbeitung
verknüpft sein kann, realisiert die Klangformung dadurch, dass mehrere sehr
unterschiedliche Spektren gebildet werden, von denen jedes einen bestimmten
Anteil am Klang übernimmt. Diese Spektren werden dann durch geschickt
programmierte Hüllkurven ineinander geblendet. Dieses Prinzip ist eine
technisch einfachere Variante des Prinzips 3).
Beispiel: In einem Gitarrensound übernimmt ein sehr perkussives Spektrum aus
hohen, ungeraden Obertönen das Zupfgeräusch, während zwei Spektren den
Grundklang der Gitarre mit abnehmendem Obertongehalt im zeitlichen Verlauf
erzeugen.
3. Obertöne separat programmierbar
Dieses System ist technisch sehr aufwendig und stellt auch an den
Programmierer hohe Anforderungen, liefert jedoch die besten Ergebnisse. Hier
ist jeder Oberton in seiner Amplituden- und gegebenenfalls Frequenzhüllkurve
einzeln programmierbar, sodass sehr vielschichtige Klangverläufe sowie
Verstimmungen der Obertöne innerhalb des Spektrums möglich sind. Erst diese
ermöglichen die wirklich authentische Nachbildung eines Naturinstruments bzw.
die Erzeugung komplexer, neuartiger Digitalsounds.
Mit additiver Synthese lassen sich vornehmlich digital klingende, technische und
metallische Sounds bilden. Die Programmierung additiver Systeme ist relativ komplex und
trotz der konkreten Wellenformen vorher schwer bestimmbar, und deshalb konnte sich
diese Form der Synthese gegenüber der subtraktiven Synthese nicht durchsetzen. Hierbei
ist von Bedeutung, dass die Obertöne einer z. B. Sägezahnschwingung mit verschiedene
Amplitude (Lautstärke) schwingen. Diese müssen bei der Additiven Synthese erst noch
einzeln bestimmt werden.
Ein älteres, sehr bekanntes Instrument, das die Additive Synthese anwendet, ist die
Hammond-Orgel (Abb 1.4). Dabei ist die Zusammensetzung der Frequenzen statisch, doch
die elektromechanische Erzeugung der Töne führt zu einer „Verunreinigung“ der Töne,
was dem Instrument die typische Klangfarbe verpasst. Bei einem natürlichen Instrument
verändert sich jedoch die Zusammensetzung der verschiedenen Frequenzen mit der Zeit.
7
Abbildung 1.4: Hammond B3
1.2.3 Frequenzmodulation (FM-Synthese)
Die Entwicklung der FM-Synthese stellte zweifelsohne einen Meilenstein auf dem Gebiet
der digitalen Klangerzeugung dar. Da das Prinzip patentiert ist, wird es bisher
ausschließlich von Yamaha verwendet. Yamahas DX7 (Abb. 1.3) erzielte mit der FMSynthese auf einen Schlag einen weltweit bisher unerreichten Erfolg. Heutzutage ist FM
nur eine unter vielen Syntheseformen.
FM steht für Frequenzmodulation. Das Prinzip an sich wurde von dem amerikanischen
Wissenschaftler Dr. John Chowning entwickelt. Im DX7 wurde es erstmals hardwaremäßig
realisiert und in Serie produziert. Die FM-Synthese erzeugt Klänge auf der Basis
sogenannter Operatoren. Ein Operator ist ein Sinusoszillator (in neueren Geräten oder
PC-Soundkarten gibt es bereits auch andere Wellenformen) mit einer programmierbaren
Frequenz und Hüllkurve. Jeder Operator hat einen Pitch-Eingang, der sowohl vom
Keyboard als auch vom Frequency-Parameter (Stimmung) seine Daten erhält, und einen
Modulationseingang, der mit dem Ausgang eines Modulators oder des LFO "verbunden"
wird.
Im FM-Synthesizer werden mehrere Operatoren in Strukturen zusammengeschaltet. Die
einfachste Struktur ist das Carrier-Modulator-Paar. Die vom Modulator erzeugte
Schwingung wird dem Frequenzeingang des Carriers (Trägers) zugeführt und moduliert
dessen Tonhöhe. Die Frequenzmodulation kann man sich als Vibrato vorstellen, dessen
Frequenz im hörbaren Bereich liegt, das also nicht mehr als langsame Schwingung,
sondern als "Klangfarbe" wahrgenommen wird. Je mehr Operatoren zusammengeschaltet
sind, desto komplexere Spektren sind möglich. Die Kombination dieser Operatoren
bestimmt wesentlich das Ergebnis und wird als "Algorithmus" bezeichnet.
Je nach Synthesizertyp sind vier bis sechs (in den Yamaha-HX-Orgeln aber bis zu 16)
Operatoren zu verteilen. Daraus werden Gruppen miteinander verknüpfter Operatoren,
sogenannte "Stränge", gebildet. Hier gibt es zwei Grundregeln:
Viele einfache Stränge eignen sich für Sounds mit mehreren Bestandteilen, die für sich
allein keine komplexe Obertonstruktur aufweisen.
Wenige komplexe Stränge (je drei oder vier Operatoren) erzeugen äußerst komplizierte
Spektren.
Man unterscheidet zwischen einfacher und komplexer Frequenzmodulation. Die einfache
Frequenzmodulation beschränkt sich auf ein einziges Carrier-Modulatorpaar. Hier spielen
folgende Faktoren eine wesentliche Rolle:
1. Das Frequenzverhältnis des Carriers zum Modulator (Ratio) bestimmt die
Zusammensetzung des Spektrums: Die bei der Frequenzmodulation erzeugten
Obertöne sind vom Frequenzverhältnis des Carriers zum Modulator abhängig.
Die FM-Synthesizer arbeiten mit relativen Frequenzen, wobei der von der
gespielten Note definierte Grundton den Wert 1.00 hat, die Oktave darüber 2.00
8
usw. Die Werte des Frequenzparameters (Coarse) entsprechen den
Frequenzstufen der harmonischen Obertonreihe, zusätzlich lassen sich über
einen Fine-Parameter ungerade Obertöne erzielen.
2. Die Amplitude des Modulators (Modulationsindex): Wie weit die Reihe der
erzeugten Obertöne reicht, wird von der Modulationsintensität bestimmt. Diese
ist vom Level abhängig, mit dem der Modulator den Carrier beeinflußt. Einfacher
gesagt: Je höher der Modulatorlevel, desto höher die Modulationsintensität,
desto mehr Obertöne werden erzeugt. Da der Modulator eine eigene Hüllkurve
besitzt, lassen sich komplexe Klangfarbenverläufe bereits mit einem einzigen
Pärchen erzeugen, ganz zu schweigen von vier seriellen Operatoren. Hier liegt
dementsprechend auch die Stärke der Frequenzmodulation.
Mit Hilfe der komplexen Frequenzmodulation werden die eigentlich interessanten Sounds
erzeugt. Die komplexe FM wird durch Kaskadierung oder Parallelschaltung von Carriern
oder Modulatoren erreicht. Werden beispielsweise drei Operatoren übereinander
angeordnet, so wandert das bereits frequenzmodulierte Signal aus dem mittleren Operator
als Modulationsquelle in den Carrier. Dessen Signal wird demzufolge umso komplexer.
Der Vorteil der FM-Synthese besteht darin, daß man bereits mit recht einfachen Mitteln
und wenigen Parametern Lebendigkeit und Komplexität erreicht. Ein Nachteil, zumindest
für Einsteiger, ist die Tatsache, dass das Klangergebnis bei der Programmierung schwer
vorhersehbar ist.
Möchte man die Klangcharakteristik der FM-Synthese beschreiben, kann man sie sowohl
als „akustisch“, „klar“ oder auch als „metallisch“ bezeichnen. Kein Syntheseprinzip ist so
variabel wie die FM-Synthese. Dies wird allein dadurch bewiesen, dass für FMSynthesizer Zehntausende unterschiedlicher Sounds existieren.
Es gibt neben diesen drei Formen der Klangsynthese noch viele weitere, modernere
Syntheseformen, die jedoch immer komplizierter zu beschreiben sind. Hinzu kommt, dass
nahezu jeder namhafte Hersteller von Synthesizern laufend neue Verfahren entwickelt
bzw. verbessert.
Die bei Soundkarten wichtigen Formen Wavetable-Synthese und das spezielle Sampling
wird in Kapitel 4 beschrieben.
1.3 Wellenformen
Ein Oszillator (siehe Kapitel 1.2.1.1 Oscillator, Seite 4) erzeugt rohe Wellenformen, die hier
beschrieben werden.
1.3.1 Sinus-Wellenform
Dies ist die einfachste Wellenform und bildet zugleich das Grundgerüst für alle anderen
Wellenformen. Reine Sinusschwingungen kommen in der Natur nicht vor, doch im Prinzip
ist es möglich, alle in der Natur vorkommenden akustischen Ereignisse so weit
mathematisch zu zerlegen, dass nur noch Sinus-Töne übrig bleiben. Wie genau eine
Sinusschwingung mathematisch berechnet wird, kann man in jedem drittklassigen
Mathematik-Buch nachlesen. Der Piep-Ton bei TV-Testbildern ist ein bekanntes Beispiel
für eine einfache Sinusschwingung.
9
1.3.2 Rechteck-Wellenform (Square)
Abbildung 1.5: Rechteck-Wellenform
Wenn man sich die vertikale Y-Achse als Zahlenleiste vorstellt, die von -1 bis +1 reicht
(wobei die rote Line die „null“ markiert), springen bei Rechteck-Wellenformen die Werte
immer zwischen einem festgelegten positiven und negativen Wert hin- und her (z.B.
zwischen 0.75 und -0.75). Wenn man eine Rechteck-Wellenform in einzelne Sinustöne
zerlegt, findet man nur ungerade Harmonische, die in einem ungeraden Verhältnis in der
Lautstärke abnehmen.
„Harmonische“ = „Obertöne“ = „Teiltöne“. Sie bezeichnen Schwingungen, deren Frequenz
oberhalb der Grundfrequenz des Klanges liegt. Sie bestimmen die Klangcharakteristik des
Tons, ob er dumpf oder hell, spitz oder rund klingt.
Die mathematische Formel für Rechteck-Schwingungen lautet:
f(t) = sin(t) + 1/3 sin(3t) + 1/5 sin (5t) + 1/7 sin (7t) + 1/9 sin (9t) + 1/11 sin (11t) (...)
Man könnte also eine Sinus-Schwingung von 100 Hz in voller Lautstärke nehmen, dazu
eine Sinus-Schwingung von 300 Hz zumischen, die nur 33% der Originallautstärke besitzt,
außerdem eine 500 Hz Sinusschwingung mit 20% der Originallautstärke, eine 700 Hz
Sinusschwingung mit 14,29 % der Originallautstärke usw.
Auf diese Weise kann man eine Rechteck-Wellenform rekonstruieren.
1.3.3 Sägezahn-Wellenform (Saw)
Bei Abb. 1.6 handelt es sich um einen so genannten „steigenden“ Sägezahn. Der
Sägezahn enthält sowohl gerade als auch ungerade Teiltöne. Das macht ihn klanglich
zum interessantesten Ton. Sägezähne werden fast immer mit einem Tiefpassfilter (siehe
Abschnitt subtraktive Synthese) versehen, um den Ton weicher und runder zu gestalten.
Die mathematische Formel für einen Sägezahn lautet:
f(t) = sin (t) + 1/2 sin (2t) + 1/3 sin (3t) + 1/4 sin (4t) + 1/5 sin (5t) + 1/6 sin (6t) + 1/7 sin (7t)
(...)
Wenn man die geraden Teiltöne in der Phase dreht (invertiert), ergibt sich ein fallender
Sägezahn.
10
Die mathematische Formel für einen fallenden Sägezahn lautet:
f(t) = sin (t) - 1/2 sin (2t) + 1/3 sin (3t) - 1/4 sin (4t) + 1/5 sin (5t) - 1/6 sin (6t) + 1/7 sin (7t)
(...)
Abbildung 1.6: steigender Sägezahn
1.3.4 Dreieck-Wellenform (Triangle)
Abbildung 1.7: Dreieck-Wellenform
Die Dreiecks-Wellenform kommt der Sinus-Welle klanglich und optisch sehr nahe. Sie
enthält nur wenige (ungerade) Teiltöne, deren Lautstärke exponential abnimmt.
Ihre Formel lautet:
f(t) = sin (t) + 1/9 sin (3t) + 1/25 sin (5t) + 1/49 sin (7t) + 1/81 sin (9t) + 1/121 (11t)
11
1.3.5 Rauschen (Noise)
Abbildung 1.8: Rauschen
Beim Rauschen wird der Wert auf der Y-Achse nach einem Zufalls-Algorithmus gestreut.
Man unterscheidet je nach Formel zwischen rosa und weißem Rauschen. Rauschen
kommt in der Natur unter Anderem als Windgeräusch und Meeresrauschen in reiner Form
vor. Man kennt es aus dem Radiogerät und vom Kassettenrecorder. Jeder natürliche Ton
hat immer einen gewissen Rauschanteil und so ist es auch zur Nachbildung von
Naturinstrumenten unverzichtbar. Ein beliebter Sound-Effekt besteht darin, Rauschen
durch einen Filter mit hoher Resonanz-Einstellung zu schicken, dessen Cutoff-Frequenz
auf und ab wandert (siehe Abschnitt subtraktive Synthese).
1.3.6 Pulswellen (Pulse)
Abbildung 1.9: Pulswellen
Pulswellen sind Wellenformen, die durch einen Gleichrichter geschickt wurden, der alle
negativen Werte auf der Y-Achse in positive Werte verwandelt. Dadurch verdoppelt sich
die Frequenz und die Wellenformen werden "energiereicher". Eine Pulswelle läßt sich
durch drei Parameter beschreiben:

Der Impulsabstand, also der Abstand zwischen den einzelnen Impulsen. Je
geringer der Impulsabstand, desto höher ist die Grundfrequenz.
12


Die Pulsbreite ("pulse width") - die horizontale Ausdehnung der einzelnen Impulse.
Je schmaler die Impulse sind, desto dünner und brüchiger wirkt der Sound.
Die Fläche unter den Impulsen. Je größer sie ist, desto "energiereicher" ist der
Sound.
1.4 Virtual Studio Technology (VST)
VST bezeichnet die 1996 von der Firma Steinberg festgelegte Schnittstelle für virtuelle
Instrumente. Das VST-Interface ist bis heute eine kleine Revolution im Bereich der
digitalen Musik.
VST erlaubt die Integration von virtuellen Effektprozessoren und -instrumenten in einer so
genannten Host-Anwendung bzw. Sequencer.
Es ist quasi eine virtuelle Nachahmung einer Studioumgebung in einem Rechner. Dies
wird mittels VST-Plugins realisiert, die klassische, teure Hardware-Effektgeräte ersetzen,
aber sie können auch Instrumente (Synthesizer, Sampler) simulieren. Diese VST-Plugins
werden auch VSTi genannt. VSTi sind also mit Ausnahme der Sampler SoftwareSynthesizer. Diese Software-Synthesizer, aber auch VST-Sampler und ähnliche “Geräte”
werden komplett über MIDI gesteuert. Man lädt einen oder mehrere Software-Synthesizer
in einen Sequencer und schreibt mit diesem Sequencer die Noten und Steuerbefehle für
das jeweilige PlugIn. Das PlugIn empfängt dann die MIDI-Befehle vom Sequencer, macht
daraus hörbare Klänge und sendet diese zurück zum Sequencer.
Da VST-Plugins nur in einer Host-Anwendung laufen, die die Audio-Datenströme
organisiert, sind sie also keine richtigen Anwendungen. Der Datenstrom wird zu diesem
Zweck in Blöcke zerlegt und an das Plugin übergeben. Die Host-Anwendung ist an der
eigentlichen Signalverarbeitung nicht beteiligt und braucht auch keine Informationen über
den Prozess, um das Plugin zu benutzen. Der Quell-Code eines VST-Plugins ist
plattformunabhängig, aber seine Einbindung hängt von der Plattform-Architektur und dem
Betriebssystem ab. Auf einem PC ist ein VST-Plugin eine DLL (Dynamic Link Library), auf
dem Apple Macintosh ist es eine Raw-Code-Ressource. Der Name des Plugins entspricht
nicht dem Dateinamen, sondern dem Namen der Ressource. Die Host-Anwendung sucht
bei Programmstart einen Ordner mit dem Namen „VstPlugIns“.
13
2 Audioformate
2.1 AAC
AAC steht für Advanced Audio Coding. Das Format wurde von Dolby Laboratories, AT&T,
Sony und dem Fraunhofer Institut entwickelt. Standardisiert als Erweiterung zu MPEG 2
und als Teil von MPEG 4, hat es einen großen Vorteil gegenüber MP3: es ergibt sich die
gleiche Qualität bei halber Dateigröße, da es auf einem verbesserten MP3-Algorithmus
beruht. Dadurch ist schon bei ISDN-Bandbreite (64 kB/s) gute Stereoübertragung möglich.
2.2 AIFF
AIFF steht für Audio Interchange File Format.
Das Format wurde ursprünglich von Apple entwickelt (1988) und entspricht dem EA IFF 85
Standard for Interchange Format Files von Electronic Arts.
Das Format weist eine Chunkstruktur auf (Chunk = Happen, Brocken) wie auch das Waveoder AVI-Format (ein Videoformat). Ein Chunk besteht aus einem Kopfteil und einem
Datenteil.
In der ursprünglichen Version war keine Kompression vorgesehen. Erst mit der
Erweiterung des Formates zu AIFF-C war es möglich die Daten zu komprimieren, wobei
man in der Wahl der Kompressionsart frei war. Die Informationen zur verwendeten
Kompressionart werden in einem zusätzlichen Chunk gespeichert.
Merkmale:
 Übertragungsrate von 960 kB/min (unkomprimiert)
 Die Größe einer komprimierten Datei hängt vom verwendeten Algorithmus ab.
 AIFF besitzt annähernd Radioqualität.
2.3 MP3
MP3, genauer MPEG 1 Layer 3, ist eine Sonderform des MPEG-Videoformats, die vom
Fraunhofer Institut für integrierte Schaltungen in Erlangen entwickelt wurde.
MP3 hat sich binnen kürzester Zeit zum Standardformat für Musik im Internet etabliert.
Die enorm hohe Kompressionsrate wird durch gezielte Ausblendung von für das
menschliche Ohr kaum hörbaren Elementen und Transformationscodierung mittels FFT
(Fast Fourier Transformation) und DCT (Discrete Cosinus Transformation) erreicht. Die
dadurch erzielte Dateigröße liegt bei einer Abtastung von 128 kB/s und einer
Samplingfrequenz von 44,1 KHz bei 1 MB/min.
Es sind wahlweise konstante oder variable Bitraten möglich. Bei variabler Bitrate zur
Abtastung wird in Bereichen großer Dynamikschwankungen, geringer Stereotrennung
(gleiche Signale für beide Kanäle) oder auch Pausen im zu kodierenden Stück mit weniger
Bits abgetastet, während an Stellen mit feinen Dynamikschwankugen oder hoher
Stereotrennung die Auflösung der Abtastwerte hochgefahren wird. Dies bewirkt eine
geringe Einsparung an Speicherplatz, bringt aber auch einige Probleme mit sich. So kann
der Player nicht mehr die exakte Länge des Stücks ermitteln und Sprünge innerhalb des
Stücks können mitunter nicht exakt ausgeführt werden, was zur Folge hat, dass diese
Form der Kodierung recht selten angewandt wird, da der Gewinn an Speicherplatz zu
gering ist, als dass man diese Nachteile in Kauf nehmen würde.
14



MP3 rauscht stärker als eine CD.
MP3 klingt härter, kälter und farbloser als eine CD.
MP3 hat Schwächen bei feinen Dynamikunterschieden.
Aufgrund dieser Eigenschaften ist MP3 für klassische Musik nicht besonders geeignet,
aber für aktuelle Pop- und Rockmusik sind die Ergebnisse mehr als akzeptabel, wobei
dies auch immer auch immer vom subjektiven Eindruck und Qualitätsanspruch abhängt.
Eine Weiterentwicklung des MP3-Formats ist MP3pro.
Dank neuartiger Technologie braucht MP3Pro bei gleicher Klangqualität nur die Hälfte an
Speicherplatz auf einem Datenträger. Den Schlüssel zu dieser enormen
Kompressionssteigerung liefert SBR. Die Abkürzung steht für Spectral Band Replication.
SBR eignet sich speziell für die Codierung von hohen Frequenzen in
Audiokompressionsalgorithmen und bügelt die MP3-Schwachstelle aus, bei niedrigen BitRaten in den Höhen muffig zu klingen. Das Verfahren setzt auf dem MP3-Codec auf.
Dadurch bleibt es abwärtskompatibel zu herkömmlichen MP3-Files.
Eine mit MP3Pro codierte Datei mit 64 kBit/s entspricht qualitativ einer MP3 Datei mit ca.
100 kbit/s Stereo, und das bei halber Dateigrüße. Dieser Vorteil macht sich besonders bei
portablen MP3-Playern bemerkbar, bei denen Speicherplatz momentan noch ein großer
Kostenfaktor darstellt. Bei zunehmender Bandbreite des Netzes wird MP3Pro zu einer
noch schnelleren Übertragung von MP3-Files bei Musiktauschbörsen wie KaZaA führen.
Dies ist der Musikindustrie natürlich ein Dorn im Auge.
Eine Besonderheit des MP3-Formats ist das ID3-Tag.
ID3-Tags in MP3-Dateien können die Informationselemente Titel, Künstler, Album, Jahr,
Kommentar und Genre des Musikstücks enthalten. Sofern vorhanden, befinden sich die
Tags am Ende der Audiodatei und sind nach dem ID3v1-Standard exakt 128 Bytes lang.
Der Aufbau ist exakt festgelegt: Die ersten drei Bytes sind für die Zeichenfolge "TAG"
reserviert, um den Anfang zu definieren.
Insgesamt sind die 128 Bytes wie folgt eingeteilt:
TAG 3 Bytes, Titel 30 Bytes, Künstler 30 Bytes, Album 30 Bytes, Jahr 4 Bytes, Kommentar
30 Bytes, Genre 1 Byte.
Diese Tags werden von jedem MP3-Player gelesen und bei der Wiedergabe angezeigt.
Das neuere und erweiterte Tag-Konzept (ID3v2) umgeht das 128-Byte-Limit, verlegt die
Tags an den Anfang der Datei und erlaubt einen theoretischen Umfang von bis zu 256
MB. Hier lassen sich dann etwa Songtexte oder Bilder der Künstler einbinden.
Da die ID3v2-Tags mit den älteren ID3v1-Tags nicht kollidieren und problemlos
nebeneinander existieren können, sind keinerlei Probleme zu befürchten, wenn man
"klassische" Tags anlegt oder ändert obwohl gleichzeitig erweiterte Tags bestehen.
2.4 Ogg
Ogg Vorbis ist ein neues Audio-Kompressions-Format. Es ist schwer mit anderen
Formaten zum Speichern und Abspielen von digitaler Musik (wie z.B. MP3, VQF, AAC,...)
zu vergleichen, weil Ogg Vorbis absolut kostenlos und patenfrei ist, und der Quellcode
offen liegt (Open Source).
Vorbis ist der der Name eines speziellen Audiokompressions-Schemas, das benutzt wird,
um Ogg Vorbis Dateien zu erstellen. Es ist Bestandteil des Ogg Projektes, einem
umfassenden Projekt um ein völlig kostenloses Multimedia-System zu erstellen. Zurzeit ist
Ogg Vorbis der einzige funktionierende Teil des Ogg Projektes.
Vorbis bietet ein qualitativ hochwertiges Format um Audiodateien zu hören. Bei gegebener
15
Dateigröße klingt Vorbis besser als MP3 und wird durch die andauernde Entwicklung noch
besser werden. Es gibt bereits umfassende Player-Unterstützung und sollte bald auf
mehreren größeren Hardware-Playern abspielbar sein. Mit Vorbis kann man bei
gleichbleibender Qualität Platz sparen. Auch ist man bei der Benutzung nicht an Lizenzen
gebunden. Zurzeit kann man nur aus wenigen MP3-Encodern wählen, da die meisten
Unternehmen nicht bereit oder nicht fähig sind, Lizenzen zu zahlen.
Zwei Dateien werden immer gleich groß sein, wenn sie beide mit CBR (Konstante Bitrate)
enodiert wurden. Der aktuelle Vorbis Encoder kann Dateien auch in VBR (Variable Bitrate)
encodieren, welches kleinere Dateien mit besserer Qualität zur Folge hat, da es keine
Daten für Dateien verschwendet, die leicht zu encodieren sind. Dateien, die bei der
Standard-Einstellung 3 encodiert werden, haben dann bei 110 kbps eine kleinere Größe
und deutliche bessere Genauigkeit als MP3-Kompression bei 128kbps hat.
Ein weiterer wichtiger Bestandteil von Vorbis ist das streaming, ähnlich wie bei Real Audio.
Das Format wurde von Grund auf entwickelt, einfach zu streamen zu sein.
2.5 Real Audio
Real Audio wurde 1995 von RealNetworks (Seattle) als hoch komprimiertes, speziell für
das Internet konzipiertes Soundformat entwickelt.
Obwohl es durch MP3 immer mehr in den Hintergrund gedrängt wurde, wird es immer
noch verwendet, da es streamingfähig ist. Dies bedeutet, dass die eigentliche Datei in
kleine Pakete zerlegt und separat verschickt wird. Dadurch ist sie auch bei niedriger
Bandbreite in Echtzeit vom Server abspielbar, was mit MP3 zurzeit noch nicht möglich ist.
Aufgrund der Streamingfähigkeit wird Real Audio für Internetradio und andere LiveÜbertragungen verwendet.
Die Qualität ist abhängig von der Bandbreite, die zur Verfügung steht. Das heißt, je
weniger Bandbreite zur Übertragung zur Verfügung steht, desto niedriger ist die Qualität
der übermittelten Version. Sollte die Bandbreite unter ein Minimum fallen (< 14kB/s), so
werden einfach Pakete ausgelassen. Dies hat zur Folge, dass ab etwa 15% fehlender
Pakete eine menschliche Stimme wie ein Roboter klingt.
2.6 VQF
VQF ist ein von Yamaha entwickeltes Soundformat. Es erschien kurz nach MP3 (im Jahr
1995) und ist auch aus SoundVQ oder TwinVQ bekannt.
Der Kompressionsalgorithmus beruht auf Vektorquantisierung. Aufgrund der Ähnlichkeiten
der Elemente in Musikstücken ist es möglich, diesen „Standardbausteinen“ einen Index
zuzuweisen, der einem Eintrag in einer Bitmustertabelle entspricht. Diese Tabelle kann
mehrdimensional aufgebaut sein, wobei der Index dann einem Vektor entspricht. Der
Dekoder besitzt die gleiche Mustertabelle und kann aus den Indexen (Vektoren) die
komplette Bitstruktur wieder zusammensetzen. Dadurch entsteht eine Dateigröße, die
etwa 25-35% kleiner ist als die einer MP3 (bei 128 kB/s) bei besserer oder gleicher
Qualität. Die maximale Abtastrate beträgt allerdings 96 kB/s.
Die allgemeine Ausrichtung liegt eher auf hoher Kompression als auf High-End
Audioqualität. Dies macht das Format vor allem für Benutzer interessant, die großen Wert
auf Platzersparnis legen oder über geringe Bandbreite verfügen. Allerdings ist es sehr
unwahrscheinlich, dass sich das Format gegen Mp3 als Standard durchsetzen können
wird, da sowohl die Bandbreiten als auch die Festplatten immer größer und billiger
werden.
16
2.7 Wave
Das Wave-Format wurde von Microsoft und IBM Anfang der achtziger Jahre entwickelt
und wurde das Standard-Format in der Windows PC-Welt. So sind zum Beispiel sämtliche
Windows System-Klänge im Wave-Format kodiert.
Wave-Dateien enthalten digital kodierte analoge Signale; die Dateien sind in Chunks
strukturiert.
Der Speicherbedarf von Wave-Dateien ist sehr groß, ca. 10MB/min bei
Standardparametern (Auflösung 16 Bit, 44,1 kHz Samplingrate, Stereo). Durch Variation
dieser Werte lassen sich unterschiedliche Dateigrößen und Qualitäten erzielen.
Da kein Qualitätsverlust beim Erstellen einer Wave Datei gegenüber dem Original auftritt,
ist es immer noch das am häufigsten verwendete Arbeitsformat für Audiobearbeitung.
Das WAV Format von Microsoft basiert wie AIFF/AIFF-C auf dem EA IFF 85 Standard for
Interchange Format Files, besteht also auch aus Chunks. Ein wesentlicher Unterschied
besteht jedoch in der Anordnung der Bytes (INTEL-Anordnung). WAV ist ein Teil des
allgemeinen RIFF-Standards (Resource Interchange File Format) von Microsoft. So
existieren neben WAV auch Dateien für die Speicherung von Bitmaps, Farbpaletten und 2
Formate für MIDI Daten.
3 MIDI
3.1 Allgemeines
MIDI steht für Musical Instrument Digital Interface, übersetzt Digitale Schnittstelle für
Musikinstrumente.
Es wurde maßgeblich von den Firmen Sequential Circuits und Roland entwickelt und
erstmals 1983 vorgestellt.
MIDI ist im eigentlichen Sinne gar kein Audioformat, da es keine Audiodaten bzw.
Klangsamples enthält, sondern ein Textformat, welches Steuerdaten für Midigeräte
enthält. MIDI an sich ist also ein Protokoll, das Klänge nicht direkt darstellt, sondern aus
Befehlen zur Ansteuerung eines Empfängers wie digitalen Instrumenten oder Soundkarten
besteht.
Diese Befehle werden Events oder auch Messages genannt, und sie sind als Sprache zu
verstehen. Diese Sprache besteht aus genormten Codes (wie auch z.B. das MorseAlphabeth oder der ASCII-Standard), die zur Übertragung bestimmter Informationen wie
zum Beispiel dem Drücken einer Taste dienen. (siehe Event-Tabelle unten)
Dadurch dass MIDI nur aus Text besteht, sind Dateien im Vergleich zur direkten
Speicherung von Musik (wie z.B. als WAV-Datei) klarerweise wesentlich kleiner.
Damit in einem MIDI-System nicht alle Geräte dieselben Noten spielen, ist es möglich, die
Messages zu kanalisieren. Dies wird durch die sogenannten MIDI-Kanäle möglich
gemacht. So ist es möglich einem Gerät, welches z.B. Schlagzeugklänge erzeugen kann,
einen anderen MIDI-Kanal zuzuweisen als einem zweiten Instrument, welches z.B. für
Bass-Klänge zuständig ist. Die an die Instrumente übermittelten Messages sind mit einer
Kanal-Information versehen, sodass der Empfänger erkennen kann, welche Informationen
er verarbeiten soll (diese werden auf "seinem" MIDI-Kanal übermittelt) und welche nicht.
Viele Instrumente sind heutzutage in der Lage, auf mehreren Kanälen gleichzeitig zu
empfangen (dieses wird auch Multimode genannt), sodass ein Instrument z.B. auf Kanal 1
einen Klavierklang, auf Kanal 2 den Klang einer Trompete, auf Kanal 3 einen Orgelsound
usw. erzeugen kann. Insgesamt gibt es 16 MIDI Kanäle. Um zwei verschiedene Klänge
17
dasselbe spielen zu lassen, ist es natürlich auch möglich, zwei Geräte (oder zwei Parts
eines Multimode-Gerätes) auf demselben MIDI-Kanal zu betreiben. Sämtliche 16 MIDIKanäle werden über ein MIDI-Kabel, ein 5-poliges DIN-Kabel, übertragen. Das läßt sich
mit einem Fernseher vergleichen, der ja auch mehrere Programme empfangen kann,
obwohl er nur ein Antennenkabel benutzt.
MIDI entstand aus den Wünschen von Musikern, die eingespielte Tracks oder Samples,
wie kurze musikalische Notizen, möglichst schnell, günstig und platzsparend aufzeichnen
und speichern wollten. Weiters sollten mehr Bearbeitungen für die aufgezeichneten Daten
vorhanden sein als auf einem Tonbandgerät, und nicht zuletzt sollten die Dateien einfach
zu transportieren sein.
Zur Bearbeitung in einem Computer ist eine MIDI-Schnittstelle notwendig. Diese war bei
alten Atari Rechnern serienmäßig vorhanden, weswegen auch heute noch diese alten
Rechner in Studios verwendet werden. Beim PC kann man ein MIDI-Gerät über den
Gameport der Soundkarte anschließen. Der größte Nachteil dieser Methode ist, dass der
Gameport auch bei neueren Soundkarten nicht besonders schnell ist. Mittlerweile können
MIDI-Geräte bzw. -Interfaces (mit eingebauten Anschlüssen für DIN-Kabel) auch über die
schnelle USB-Schnittstelle an den Computer angeschlossen werden. Bei modernen
Computern wird in der Regel nicht mehr der „Umweg“ über Soundmodule, also Geräte, die
Messages in Klänge umsetzen, gemacht, da der Klang meist direkt von der Soundkarte
des Computers oder VST-Instrumenten erzeugt wird.
Hier ist der Begriff General MIDI wichtig. Dieser Standard wurde 1991 festgelegt und ist
eine Erweiterung der 1983 festgelegten MIDI Spezifikation. General MIDI legt sie ersten
128 Basisklänge eines MIDI-Gerätes fest, sodaß eine Komposition auf anderem
Equipment zumindest ähnlich klingt. 128 Klänge waren im Jahr 1983 technisch noch
unmöglich.
Es ist ein altes Missverständnis, dass MIDI mit Audio verwechselt wird. Der Unterschied,
der ein Verwechseln praktisch unmöglich macht, ist:
MIDI hat keinen Sound. Es klingt nicht, es steuert.
3.2 Grundstruktur einer Standard-MIDI-Datei
<Standard-MIDI-Datei> = <Header> <Track> [<Track>]...
<Header> = 4D 54 68 64 00 00 00 00 00 xx yy yy zz zz
Die ersten 4 Byte sind die Kennung einer MIDI-Datei.
xx = {00 | 01} Typ der MIDI-Datei:
Typ 0: Datei enthält nur einen Track
Typ 1: Datei enthält mehrere Tracks
yy yy = Anzahl der Tracks
zz zz = Zeitbasis: Anzahl der Zeitelemente je Viertelnote, sollte durch 24 teilbar sein.
Gebräuchliche Werte sind:
00 78 (120), 00 F0 (240), 01 E0 (480), 03 C0 (960)
<Track> = <Track-Header> <Zeitdiff> <Event> [<Zeitdiff> <Event>]...
18
<Track-Header> = 4D 54 72 6B xx xx xx xx
xx xx xx xx Länge des Tracks in Byte. Der Track-Header zählt nicht mit.
<Zeitdiff> = Zeitdifferenz zwischen den Events:
gemessen in Zeitelementen (siehe Zeitbasis). Die erste "Zeitdiff" zählt vom
Beginn des Musikstücks bis zum ersten Event des Tracks.
<Event> = { <Kanal-Event> | <Meta-Event> | <Sysex-Event> }
3.3 Kanal-Events
Ein Kanal-Event ist ein Befehl an einen bestimmten MIDI-Kanal des Wiedergabegerätes.
Die allgemeine Syntax lautet:
<Kanal-Event> = [<Status-Byte>] <Daten-Byte> [<Daten-Byte>]
<Status-Byte> = <Event-Typ> <Kanal-Nr.>
<Event-Typ> = {8 | 9 | A | B | C | D | E} Das erste (führende) Halbbyte des Status-Bytes.
Es kennzeichnet die Art des Befehls, siehe folgende Tabelle.
<Kanal-Nr.> = {0 | ... | F} Das zweite Halbbyte des Status-Bytes.
Es gibt die Nummer des MIDI-Kanals an. Die Numerierung beginnt mit 0.
<Daten-Byte> = {00 | ... | 7F} Parameter des Befehls.
Eine Kette aus Kanal-Events mit gleichem Status-Byte kann verkürzt werden, indem man
das Status-Byte nur im ersten Event setzt und in den folgenden Events wegläßt (sog.
Laufzeitstatus). Davon wird praktisch immer Gebrauch gemacht. Da Daten-Bytes < 80 und
Status-Bytes >= 80 sind, ist die Kodierung eindeutig.
3.4 Event-Typen
Art des Befehls
1. Halbbyte
des StatusBytes
1. Daten-Byte
2. Daten-Byte
Note ein
Einschalten einer MIDINote. Die Note wird so
lange gespielt, bis "Note
aus" eintrifft.
9
Tonhöhe, numeriert in
Halbtonschritten. Im GMStandard hat c' die Nr. 3C.
Bei Schlagzeugen wird die
Tonhöhe als ein bestimmtes
Schlaginstrument
interpretiert.
Note aus
Es gibt zwei Möglichkeiten.
9
Tonhöhe
00
8
Tonhöhe
Anschlagstärke für
das Ausschalten
A
Tonhöhe, auf die der Befehl
wirkt, wenn dort eine Note
eingeschaltet ist.
Veränderte
Anschlagstärke
Aftertouch
Die Anschlagstärke einer
Note wird verändert.
Anschlagstärke
(Velocity),
Wert 00 verboten.
19
Regler-Einstellung
B
Nr. des Reglers. Im GMStandard gibt es einige
vordefinierte Regler
Regelgröße
Klangprogramm
Wahl des MelodieInstruments oder des
Schlagzeugs
C
Nr. des Klangprogramms.
Die Instrumentenzuweisung
ist im GM-Standard
festgelegt.
entfällt
Kanaldruck
Ändern der
Anschlagstärke aller
laufenden Noten im
Kanal.
D
Veränderte Anschlagstärke
entfällt
Tonhöhenbeugung
Die laufenden Noten
werden verstimmt.
E
Formel für die Verstimmung (in C-Notierung):
V = 0x80 * Datenbyte2 + Datenbyte1 - 0x2000
V liegt im Bereich -2000...+1FFF. Dies entspricht
standardmäßig einer Verstimmung von -2...+2
Halbtönen.
4 Soundkarten
4.1 Geschichte
Die ersten Soundkarten wurden im Jahr 1987 von der Firma Creative Labs (heute
Creative) entwickelt. Die allererste Soundkarte hieß Gameblaster und wurde von Creative
Labs hergestellt. Kurz davon erschien von der Firma AdLib die gleichnamige Soundkarte.
1989 entwickelte Creative Labs den Soundblaster, der nach der AdLib-Karte zum QuasiStandard bei Soundkarten wurde.
In der AdLib-Karte war ein Soundchip der Firma Yamaha eingebaut, der das Prinzip der
Frequenzmodulation (siehe Kapitel 1, Abschnitt Klangsynthese) benutzte und nur zur
Tonwiedergabe verwendet werden konnte. Trotzdem war sie dem Gameblaster, der mit
dem Verfahren der Amplitudenmodulation arbeitete, klanglich deutlich überlegen.
Der Soundblaster arbeitete nach dem Verfahren des Sampling. Er verfügte über einen
Mikrofoneingang, durch den sich erstmals Geräusche aufzeichnen ließen, sowie einen
Verstärker für Kopfhörer und Lautsprecher. Es waren auch zum ersten Mal ein ADWandler (Analog-Digital-Wandler) und ein DA-Wandler (Digital-Analog-Wandler)
eingebaut. Außerdem befand sich auf dem Soundblaster ein so genannter Gameport
(Joystick-Anschluss).
Bei neueren Karten wie dem Soundblaster Pro, die mittlerweile jedoch auch schon wieder
veraltet sind, befanden sich die AD- und DA-Wandler auf einem Chip, der CODEC
(COder/DECoder) genannt wird. Darüber hinaus enthielten sie Schnittstellen für
Musikinstrumente und CD-ROMs. Die MIDI-Schnittstelle war aber keinesfalls eine DINBuchse, sondern wurde über ein spezielles Kabel am Gameport realisiert.
4.2 Verfahren
20
4.2.1 Sampling
Funktionsprinzip eines Samplers:
Ein Sampler (eigentlich ein eigenes Hardware-Gerät) ist in der Lage, aus einem
Audiosignal Proben, genannt Samples, zu entnehmen und in digitaler Form zu speichern.
Grundsätzlich lässt sich mit einem Sampler jedes beliebige Signal aufnehmen und
wiedergeben. Dabei ist das entscheidende, dass ein Sample transponierbar ausgegeben
werden kann. Daraus ergibt sich eines der ersten Probleme des Sampelns: der so
genannten Mickey-Mouse-Effekt. Je höher ein Sample transponiert wird, desto schneller
wird das Sample wiedergegeben. Das Sample wird also zur Transponierung einfach
schneller (höher) bzw. langsamer (tiefer) aus dem Speicher ausgelesen. Dem Problem
des Mickey-Mouse-Effektes kommt man entgegen, wenn man mehrere Samples auf die
Tastatur verteilt. Dies nennt man Multisampling. Eine andere Möglichkeit sind
Zeitkorrekturverfahren, indem der Sampler in die Lage versetzt wird, bei höheren
Wiedergaben das Sample auf die Originallänge zu strecken bzw. bei tieferen Wiedergaben
zu stauchen. Dieses Verfahren ist jedoch sehr rechenaufwendig und teuer, sodass sich
das Multisampling durchgesetzt hat.
Beim Sampling in der Soundkarte werden analoge Signale, die durch die Soundkarte in
Zahlenwerte umgesetzt werden, in einer Datei gespeichert, die die Grundlage für die
spätere Ausgabe bildet. Diese Zahlenwerte werden wieder in analoge, elektrische
Spannung zurückverwandelt, die dann über einen Lautsprecher ausgegeben werden
kann. Der Vorgang der Digitalisierung vollzieht sich mehrere Tausend Mal pro Sekunde.
Die Qualität eines Klangs wird durch die Samplingrate und die Samplingtiefe beurteilt. Die
Samplingrate beschreibt die Häufigkeit, mit der die analogen Signale in digitale Signale
umgewandelt werden, die Samplingtiefe die Genauigkeit, mit der dies geschieht. Die
Samplingrate sollte bei mindestens 44,1 kHz und die Samplingtiefe mindestens bei 16 Bit
liegen.
4.2.2 Wavetable-Synthese
Die Wellenform- oder Wavetable-Synthese war bis vor wenigen Jahren in Synthesizern
sehr verbreitet und wurde von vielen Herstellern in den unterschiedlichsten Abwandlungen
eingesetzt. Im Grunde versteht man unter Wellenform-Synthese die Klangerzeugung auf
der Basis fertiger, digitaler Wellenformen, die entweder durch additive oder subtraktive
Nachbearbeitung (siehe Kapitel 1, Abschnitt Klangsynthese) geformt und zu Klängen
verarbeitet werden. Diese Wellenformen liegen als fest abgespeicherte Zahlentabellen
(daher die Bezeichnung Wavetable) vor.
In der Soundkarte werden Muster für Klänge von Instrumenten (in Form von Samples) in
der Wellenform-Tabelle gespeichert. Dadurch, dass diese Klangmuster für Einzeltöne
vorliegen, wird weniger Speicherplatz verbraucht. Die verschiedenen Tonhöhen werden
dann errechnet.
Auf diese Weise kann vom Soundprozessor auf die einzelnen Töne zurückgegriffen
werden, ohne dass z.B. ein Musikstück in seiner vollen Länge gesampelt werden muss.
Dieses Verfahren wird gerne verwendet, da ein fast originalgetreuer Sound erreicht wird.
4.2.3 Moderne Soundkarten
Seit der ersten Soundkarte im Jahr 1987 hat sich einiges getan. Beispielsweise sind die
verstärker für Lautsprecher verschwunden und durch einen Line-Out Ausgang ersetzt
worden, da sich aktive Lautsprecherboxen durchgesetzt haben. Es wurden auch Systeme
wie ein 5.1 Dolby-Surround-Ausgang entwickelt, die jedoch für professionellere
21
Audiobearbeitung ungeeignet sind.
4.2.3.1 A/D-Wandler
Die AD- und DA-Wandler wurden stark verbessert, und Soundkarten können bereits
digitale Daten mit einer Bitrate und Frequenz von 24 Bit und 96 kHz aufgenommen und
wiedergegeben werden. In guten Soundkarten sind die AD- und DA-Wandler nicht direkt
auf der Soundkarte, sondern in einer externen Anschlussbox vorhanden, da die Wandler
sehr empfindlich sind und durch die im Computer in hohem Maß vorhandene
elektromagnetische Strahlung gestört werden können. Diese externe Anschlussbox wird
dann mit einem digitalen Datenkabel mit der Soundkarte verbunden. Ein absolut wichtiges
Kriterium für A/D-Wander ist die Form des Steckers. Standard ist, wie im Jahr 1987, die
3.5 mm Stereo-Klinke (Abb. 4.1). Sie ist zwar platzsparend, dafür aber anfällig für
Störgeräusche und Wackelkontakte, inkompatibel zu gängigen Kabel-Standards und geht
leicht kaputt. Cinch, 6.3 mm Klinke (Abb. 4.1) oder sogar XLR (Abb. 4.2) sind dagegen
akzeptable und robuste Stecker-Standards.
Abbildung 4.1:
3.5mm Stereo-Klinke (oben)
Abbildung 4.2: XLR-Stecker
6.3mm Stereo-Klinke (unten)
A/D-Wandler müssen auch in der Lage sein, so genanntes "Alasing" zu vermeiden. Es tritt
auf, wenn der Wandler versucht, Signale oberhalb der halben Sampling-Frequenz zu
quantisieren und bewirkt, dass diese Frequenzen entlang der halben Sampling-Frequenz
gespiegelt werden und somit hörbar gemacht werden. Mit einem analogen Tiefpass-Filter
(der nur Frequenzen unterhalb eines bestimmten Wertes hindurch lässt) kann man diese
Frequenzen vor der Quantisierung herausfiltern. Leider arbeiten analoge Filter nicht wie
gewünscht; sie sind nicht in der Lage, an einem bestimmten Wert alle darüber liegenden
Frequenzen herauszufiltern. Deshalb gibt es das sog. „Oversampling“. Die Abtastrate wird
bei x-fachem Oversampling um den Faktor x erhöht, und ein digitaler Tiefpass-Filter
rechnet die Abtast-Rate wieder auf den normalen Wert zurück.
4.2.3.2 Full Duplex
Den „Full Duplex“ Modus beherrschen heutzutage fast alle Soundkarten. Er ermöglicht das
gleichzeitige Aufnehmen und Abspielen von Audiodateien. Dies ist unerlässlich, falls
nachträglich echte Instrumente zu vorhandenem Material einspielen werden sollen. Ältere
Soundkarten wie der Soundblaster 16 haben allerdings Probleme bei der
Synchronisierung beider Datenströme. Das kann dazu führen, dass bei der Aufnahme
Temposchwankungen auftreten. Außerdem ist die Wiedergabequalität während der
Aufnahme oft nur in 8 Bit, und/oder es knackt vereinzelt.
4.2.3.3 DSP-Prozessor
DSP steht für Digital Signal Processing.
22
Viele teurere Soundkarten haben bereits DSP-Prozessoren eingebaut. DSP-Prozessoren
sind je nach Leistung in der Lage, in Echtzeit eine oder mehrere Audioquellen mit Effekten
wie Reverb, Delay etc. zu versehen. Dadurch ist es möglich, auch ohne einen schnellen
Computer Audiospuren in Echtzeit mit Klangreglung und Effekten zu versehen. Auf diese
Weise kann zu einem nicht unerheblichen Teil ein virtuelles Studio realisiert werden.
4.2.3.4 OPL3-Chips
Es gehört auch zu den Aufgaben einer Soundkarte, MIDI-Dateien abzuspielen. Ältere
Soundkarten haben dazu einen so genannten OPL3-Chip eingebaut, der die Klänge
mathematisch berechnet. Er arbeitet mit der Frequenzmodulation (deshalb wird der OPL3Chip auch oft FM-Chip genannt), die 1987 noch modern war und auf heutigen
Synthesizern noch gut klingt, doch heutzutage kann man den Klang solcher Soundkarten
nur noch als schlecht bezeichnen.
4.2.3.5 Wavetable-Chips
Besser als OPL3-Chips sind „Wavetable“-Karten. Sie sind mit ROM-Chips bestückt, auf
denen sich Samples befinden. Deren Reihenfolge durch den GM-Standard festgelegt
(siehe Kapitel 3). Mit diesen Samples werden die MIDI-Daten zum Klingen gebracht.
Wenn diese Chips und Sounds von namhaften Herstellern wie Yamaha, Ensoniq oder
Roland kommen, kann es gut sein, dass die Qualität nahe an die eines professionellen
Keyboards herankommt. Es ist vor allem wichtig, welche Klangqualität die Samples haben,
wieviel Megabyte an ROMs vorhanden sind, wieviele Spuren gleichzeitig
zusammengemischt werden können und ob DSP-Effekte auf die Spuren gelegt werden
können.
Wavetable-Chips wurden vor allem für Computerspiele konzipiert, denn fast alle älteren
Spiele lassen MIDI-Musik im Hintergrund laufen, und die klingt mit einem OPL3-Chip
grausam. Heutzutage kann man die Musik in einem Computerspiel fast schon mit
Filmmusik vergleichen, und die Stücke liegen oft im MP3-Format vor.
Doch leider klingen auch Wavetable-Sounds zu seicht und ausdruckslos, um wirklich gute,
qualitativ hochwertige Musik herzustellen. In Zeiten, wo Musik zur Massenware
verkommen ist, kann nur noch der mithalten, der einen eigenen Sound aufzuweisen hat.
4.2.3.6 RAM-Chips
Die Krönung bieten Chips, die nicht mit ROMs bestückt sind, sondern mit RAMs, sodass
beliebig austauschbare Sounds auf der Soundkarte abgespielt werden können. Auf diese
Weise funktioniert eine Soundkarte (theoretisch) wie ein Sampler.
Wichtig dabei ist, wieviel RAM die Soundkarte besitzt, und ob diese Zahl erweiterbar ist.
Ab 4 MB RAM kann man bereits vernünftig arbeiten. Je nach Musikstil braucht man mehr
(z.B. bei Filmmusik) oder weniger (z.B. bei Techno) RAM.
5 Aufnahmeverfahren und Audiobearbeitung
23
Herunterladen