Mit den Füßen wippen

2
Mit den Füßen wippen
Wahrnehmung von Rhythmus,
Lautstärke und Harmonien
Im Jahr 1977 erlebte ich einen Auftritt von Sonny Rollins; er
ist einer der melodiösesten Saxofonspieler unserer Zeit. Doch
heute, rund 30 Jahre danach, kann ich mich nicht mehr an die
Töne erinnern, die er gespielt hat; einige der Rhythmen sind
mir aber noch deutlich in Erinnerung. An einer Stelle improvisierte Rollins dreieinhalb Minuten lang und spielte dabei immer wieder denselben Ton mit unterschiedlichen Rhythmen
und subtilen Abwandlungen im Timing. So viel Power in nur
einem Ton! Es war nicht die innovative Melodie, die die Leute
von den Sitzen riss – es war der Rhythmus. Praktisch in jeder
Kultur und Zivilisation sind mit aktivem Musizieren und dem
Hören von Musik untrennbar Bewegungen verbunden. Zum
Rhythmus wird getanzt, wiegen wir unsere Körper und wippen
mit den Füßen. Bei vielen Jazzkonzerten ist das Schlagzeugsolo derjenige Part, der das Publikum am meisten begeistert.
Es ist kein Zufall, dass zum aktiven Musizieren koordinierte,
rhythmische Bewegungen des Körpers erforderlich sind und
dabei Energie von den Körperbewegungen auf die Musikinstrumente übertragen wird. Auf neuronaler Ebene erfordert das
Spielen eines Instruments das Zusammenwirken von Regionen in unserem primitiven Reptiliengehirn – dem Kleinhirn
60
Der Musik-Instinkt
(Cerebellum) und dem Hirnstamm (Truncus cerebri) – mit
höheren kognitiven Systemen, wie dem motorischen Cortex
(im Parietal- oder Schläfenlappen der Großhirnrinde) und den
für die Planung zuständigen Bereichen des Frontallappens,
der am höchsten entwickelten Region unseres Gehirns.
Die verwandten Begriffe Rhythmus, Metrum und Tempo
werden oft miteinander verwechselt. Kurz gesagt, bezieht sich
der Rhythmus auf die Länge der Noten, das Tempo auf die Geschwindigkeit eines Musikstücks (die Geschwindigkeit, mit der
man mit den Füßen mitwippt) und das Metrum darauf, wann
man stark und wann schwächer mit den Füßen wippt (oder
den Takt mitklopft) und wie sich diese Formen des Wippens
zu größeren Einheiten gruppieren.
Beim Musizieren muss man unter anderem wissen, wie lange eine Note gespielt werden soll. Das Verhältnis zwischen
der Länge eines Tons zu der eines anderen bezeichnet man
als Rhythmus; er hat einen wesentlichen Anteil daran, dass aus
Tönen Musik wird. Zu den bekanntesten Rhythmen in unserer
Kultur zählt der synkopische 4/4-Beat (lautmalerisch auch als
„shave-and-a-haircut, two bits“ bezeichnet), wie man ihn bisweilen
als „geheimes“ Klopfzeichen verwendet. Die erste dokumentierte Verwendung dieses Beats ist die Aufzeichnung von At a
Darktown Cakewalk von Charles Hale aus dem Jahr 1899. In dem
Song Bum-Diddle-De-Um-Bum, That’s it! versahen Jimmie Monaco und Joe McCarthy 1914 diesen Rhythmus mit einem Text. Im
Jahr 1939 wurde die gleiche musikalische Phrase in dem Song
Shave and a Haircut – Shampoo von Dan Shapiro, Lester Lee und
Milton Berle verwendet. Rätselhaft ist, wie aus dem Wort shampoo schließlich two bits wurde. Selbst Leonard Bernstein mischte
mit, indem er eine Variation dieses Rhythmus für den Song Gee,
OfÀcer Krupke aus dem Musical West Side Story instrumentierte.
Der „shave-and-a-haircut “-Beat besteht aus einer Abfolge von
zwei unterschiedlich langen Tönen (lang und kurz); die langen
2 Mit den Füßen wippen
61
Töne sind jeweils doppelt so lang wie die kurzen: lang-kurzkurz-lang-lang (Pause) lang-lang. (Bei OfÀcer Krupke fügt Bernstein noch eine Note hinzu, sodass die drei kurzen Noten die
gleiche Zeit beanspruchen wie die zwei kurzen in „shave-and-ahaircut “: lang-kurz-kurz-kurz-lang-lang (Pause) lang-lang. Anders gesagt, hat sich das Verhältnis von langen zu kurzen Noten
so verändert, dass die langen Noten dreimal so lang sind wie die
kurzen; in der Musiktheorie bezeichnet man diese Gruppe aus
drei Noten als Triole.)
In der Ouvertüre zu Wilhelm Tell von Rossini (vielen Amerikanern als Titelmelodie der Fernsehserie The Lone Ranger
bekannt) kann man ebenfalls eine Folge von zwei Tönen
unterschiedlicher Länge – lang und kurz – hören; auch hier
sind die langen Töne wieder doppelt so lang wie die kurzen:
da-da-bam da-da-bam da-da-bam bam bam (in diesem Fall
habe ich die Silben „da“ für die kurzen und „bam“ für die
langen Noten verwendet). Auch im Kinderlied Mary Had a
Little Lamb werden lange und kurze Silben verwendet, in diesem Fall sechs gleich lange Noten (Ma-ry had a lit-tle), gefolgt
von einer langen (lamb), die etwa doppelt so lang ist wie die
kurzen. Das Rhythmusverhältnis von 2:1 scheint wie die Oktave bei den Tonhöhen in der Musik universal zu sein. Wir
kennen es von der Titelmelodie der amerikanischen Fernsehserie The Mickey Mouse Club (bam-ba bam-ba bam-ba bam-ba
bam-ba bam-ba baaaaah); hier gibt es drei unterschiedlich lange Noten, die längere jeweils doppelt so lang wie die kürzere.
Ebenso taucht es in Every Breath You Take von The Police auf
(da-da-bam da-da baaaaah), auch hier mit drei Längen:
Ev-ry breath you-oo taaake
1 1
2
2
4
(Die 1 steht für eine willkürliche Zeiteinheit und soll nur illustrieren, dass die Wörter breath und you doppelt so lang sind wie
62
Der Musik-Instinkt
die Silben Ev und ry und das Wort take viermal so lang wie Ev
oder ry und doppelt so lang wie breath und you).
Die Rhythmen der meisten Musiken, die wir hören, sind
selten so einfach. So wie eine bestimmte Kombination von
Tonhöhen – die Tonleiter – auf die Musik einer anderen Kultur, Stilrichtung oder Ausdrucksform hindeuten kann, kann
dies auch eine bestimmte Abfolge von Rhythmen. Einen
komplexen lateinamerikanischen Rhythmus könnten die meisten Menschen sicherlich nicht aufschreiben, aber beim Hören
erkennen sie sofort, dass es sich um lateinamerikanische Musik handelt und nicht um chinesische, arabische, indische oder
russische. Durch die Anordnung von Rhythmen zu Notenfolgen verschiedener Länge und Betonung entwickelt sich ein
Metrum und wird ein Tempo festgelegt.
Das Tempo oder Zeitmaß eines Musikstücks gibt die Geschwindigkeit vor, mit der es voranschreitet. Wenn man im
Takt eines Musikstücks mit den Füßen wippt, mitklopft oder
mit den Fingern schnippt, dann ist das Tempo des Stückes unmittelbar mit der Schnelligkeit dieser Bewegungen korreliert.
Wenn Sie sich ein Lied als lebendiges, atmendes Wesen vorstellen, so ist das Tempo gewissermaßen seine Gangart – die
Geschwindigkeit, in der es vorbeigeht – oder sein Puls – die
Geschwindigkeit, mit der das Herz des Liedes schlägt. Mit dem
Wort Beat oder Grundschlag bezeichnet man die grundlegende Maßeinheit der Geschwindigkeit eines Musikstücks; man
spricht auch vom Puls. In den meisten Fällen entspricht der
Grundschlag jeweils der Stelle, an der man von Natur aus mit
den Füßen wippt, in die Hände klatscht oder mit den Fingern
schnippt. Manchmal wippen Menschen auch auf dem halben
oder doppelten Schlag; das liegt zum einen an den unterschiedlichen neuronalen Verarbeitungsmechanismen verschiedener
Personen, aber auch an den Unterschieden im musikalischen
Hintergrund, der Erfahrung und der Interpretation eines
2 Mit den Füßen wippen
63
Stückes. Selbst geübte Musiker können sich uneins darüber
sein, in welcher Geschwindigkeit man den Takt schlagen sollte. Einig sind sie sich jedoch stets über die zugrunde liegende
Geschwindigkeit des Stückes, sein Tempo; Unstimmigkeiten
gibt es lediglich hinsichtlich der Unterteilungen oder übergeordneten Aufteilung dieser grundlegenden Geschwindigkeit.
Paula Abduls Straight Up und AC/DCs Back in Black haben
ein Tempo von 96 – also 96 Schläge pro Minute (bpm, beats
per minute). Wer zu Straight Up oder Back in Black tanzt, wird
wahrscheinlich 96-mal pro Minute die Füße heben oder vielleicht auch 48-mal, aber keinesfalls 58- oder 69-mal. Bei Back
in Black spielt der Drummer ganz zu Beginn fortlaufend einen
Beat auf seiner Hi-Hat, mit genau 96 Schlägen pro Minute.
Walk this Way von Aerosmith hat ein Tempo von 112, Michael
Jacksons Billie Jean von 116 und Hotel California von den Eagles
ein Tempo von 75.
Zwei Songs können das gleiche Tempo haben und sich
dennoch unterschiedlich anfühlen. In Back in Black schlägt der
Schlagzeuger pro Beat zweimal auf sein Becken (Achtelnoten), der Bassist spielt einen einfachen synkopischen Rhythmus, perfekt im Takt mit der Gitarre. In Straight Up passiert
so viel, dass man es schwer in Worten beschreiben kann. Das
Schlagzeug spielt eine komplexe, unregelmäßige Abfolge, mit
Schlägen auf Sechzehntelnoten, die aber nicht kontinuierlich
erfolgen – die „Luft“ zwischen den Trommelschlägen verleiht
dem Ganzen einen für Funk- und Hip-Hop-Musik typischen
Sound. Der Bass spielt eine ähnlich komplexe, synkopische
Melodielinie, die manchmal an den gleichen Stellen Lücken
aufweist wie der Schlagzeugpart, an anderen Stellen aber diese
Lücken ausfüllt. Aus dem rechten Lautsprecher (oder mit dem
rechten Ohr bei Kopfhörern) hört man das einzige Instrument, das tatsächlich durchgängig auf Schlag spielt – ein lateinamerikanisches Instrument, das Cabasa oder Afuche heißt;
64
Der Musik-Instinkt
es klingt wie Schmirgelpapier oder als würde ein Kürbis mit
Bohnen darin geschüttelt. Den wichtigsten Rhythmus auf ein
leichtes, hochtoniges Instrument zu übertragen, ist innovativ
und stellt die gewohnten Rhythmuskonventionen auf den
Kopf. Während alldem kommen und gehen fortlaufend Synthesizer, Gitarren und spezielle Perkussionseffekte, betonen
hin und wieder bestimmte Beats und machen den Song dadurch spannender. Weil sich nur schwer vorhersagen oder einprägen lässt, wo und wann diese Effekte auftreten, verliert der
Song auch nach vielmaligem Hören nicht seinen Reiz.
Tempo ist ein wichtiger Faktor, um Emotionen zu vermitteln. Songs mit schnellem Tempo gelten meist als fröhlich,
langsame Songs eher als traurig. Das ist natürlich stark vereinfacht, trifft aber in erstaunlich vielen Fällen zu, gilt in zahlreichen Kulturen und über die gesamte Lebensspanne einer
Person hinweg. Der Durchschnittsmensch hat offenbar ein
bemerkenswertes Gedächtnis für Tempo. Das zeigte ein 1996
von Perry Cook und mir veröffentlichtes Experiment: Die
Versuchspersonen sollten einfach aus dem Gedächtnis ihren
Lieblingssong aus Rock oder Pop singen, weil wir herausÀnden
wollten, wie nahe sie dem tatsächlichen Tempo der Originalsongs kamen. Dabei berücksichtigten wir, dass ein Mensch im
Durchschnitt Tempoabweichungen ab vier Prozent registriert.
Anders gesagt, erkennen die meisten Menschen, selbst einige
ProÀmusiker, nicht, wenn bei einem Song mit einem Tempo
von 100 bpm das Tempo zwischen 96 und 100 bpm schwankt
(die meisten Schlagzeuger hingegen schon, denn sie sind dafür verantwortlich, das Tempo aufrechtzuerhalten, wenn kein
Dirigent es vorgibt). Die Mehrzahl unserer Versuchspersonen – allesamt Nichtmusiker – konnten die Songs innerhalb
der Vier-Prozent-Spanne mit dem richtigen Tempo singen.
Die neuronalen Grundlagen für diese verblüffende Genauigkeit liegen wahrscheinlich im Kleinhirn. Dieses enthält vermutlich ein Zeitmesssystem für unser tägliches Leben und zum
2 Mit den Füßen wippen
65
Synchronisieren der von uns gehörten Musik. Das bedeutet,
dass das Kleinhirn auf irgendeine Weise in der Lage ist, die
„Einstellungen“ für die Synchronisation der gehörten Musik
zu speichern und diese Einstellungen dann wieder abzurufen,
wenn wir ein Lied aus dem Gedächtnis singen möchten. Mit
ziemlicher Sicherheit sind auch die Basalganglien am Erzeugen
und Gestalten von Rhythmus, Tempo und Metrum beteiligt.
Das Metrum (im Deutschen häuÀg auch mit Takt gleichgesetzt) bezeichnet die Art und Weise, wie die Impulse oder
Grundschläge gruppiert sind und betont werden. Wenn man
zur Musik mit dem Fuß wippt oder klatscht, empÀndet man
stets einige Schläge stärker als andere – man hat den Eindruck,
diese Schläge würden lauter und betonter gespielt. Der jeweils
lautere, betontere Schlag wird als dominant wahrgenommen,
die anderen, folgenden Schläge als schwächer, bis wieder ein
stärkerer ertönt. Jedes uns bekannte Musiksystem weist ein
solches Muster aus betonten und unbetonten Schlägen auf.
Am häuÀgsten in der westlichen Musik ist das Muster, bei dem
alle vier Schläge ein starker Schlag erfolgt: STARK-schwachschwach-schwach STARK-schwach-schwach-schwach. Überdies ist der dritte Schlag von diesen vier Schlägen in der Regel
etwas stärker betont als der zweite und vierte. So ergibt sich
eine Betonungshierarchie: Der am stärksten betonte Schlag ist
der erste, gefolgt vom dritten, und danach folgen der zweite
und der vierte. Etwas seltener ist das Muster, bei dem alle drei
Schläge ein stark betonter Schlag erfolgt, etwa im sogenannten
„Walzertakt“: STARK-schwach-schwach STARK-schwachschwach. HäuÀg zählt man zu diesen Schlägen, und zwar so,
dass der starke betont wird: EINS-zwei-drei-vier EINS-zweidrei-vier oder EINS-zwei-drei EINS-zwei-drei.
Natürlich wäre Musik langweilig, wenn es nur diese einfach
strukturierten, fortlaufenden Schläge gäbe. Um Spannung zu
erzeugen, kann auch einer weggelassen werden, wie in Twinkle,
Twinkle Little Star, dessen Melodie auf das französische Lied
66
Der Musik-Instinkt
Ah! vous dirai-je, Maman zurückgeht und auch leicht abgewandelt in Morgen kommt der Weihnachtsmann aufgegriffen wird
(Mozart hat über die Melodie Variationen komponiert). Hier
kommt nicht auf jeden Schlag eine Note:
EINS-zwei-drei-vier
EINS-zwei-drei-( Pause)
EINS-zwei-drei-vier
EINS-zwei-drei-( Pause)
TWIN-kle twin-kle
LIT-tle star ( Pause)
HOW I won-der
WHAT you are ( Pause).
Bei dem englischen Kinderreim Ba Ba Black Sheep, der ebenfalls dieser Melodie folgt, ist der Beat unterteilt. Ein einfaches
EINS-zwei-drei-vier kann in kleinere, interessantere Parts
untergliedert sein:
BA ba black sheep
HAVE-you-any-wool?
Man beachte, dass jede Silbe von have-you-any doppelt so
schnell gesungen wird wie die Silben in ba ba black sheep. Die
Viertelnoten wurden halbiert, was man so zählen kann:
EINS-zwei-drei-vier
EINS-und-zwei-und-drei-( Pause).
Im Jailhouse Rock, gesungen von Elvis Presley und geschrieben
von Jerry Leiber und Mike Stoller, zwei herausragenden Songwritern der Rock-Ära, erfolgt der starke Beat auf der ersten
von Presley gesungenen Note und danach wieder auf jedem
vierten Grundschlag:
[Zeile 1:] WAR-den threw a party at the
[Zeile 2:] COUN-try jail ( Pause) the
2 Mit den Füßen wippen
67
[Zeile 3:] PRIS-on band was there and they be[Zeile 4:] GAN to wail
Bei Musik mit Text fallen die Wortgrenzen nicht immer mit
den Taktgrenzen zusammen; so kommt bei Jailhouse Rock die
erste Silbe des Wortes began schon vor dem starken Schlag, die
zweite dann auf diesen Schlag. Dies ist bei den meisten Kinderliedern oder einfachen Volksliedern wie Ba Ba Black Sheep
oder Bruder Jakob nicht der Fall. Bei Jailhouse Rock funktioniert
diese Textverteilung besonders gut, weil auch beim Sprechen
die zweite Silbe von began betont wird. Durch die Fortführung
des Wortes über die Zeilengrenze hinweg erhält der Song zusätzlichen Schwung.
In der westlichen Musik gibt es ähnliche Bezeichnungen für
die Tondauer, also die Länge der Notenwerte, wie für die musikalischen Intervalle. Das Intervall der Quinte ist ein relatives
Konzept: Jeder Ton kann der Ausgangspunkt sein; Töne, die
sieben Halbtonschritte höher oder tiefer als der Ausgangston
liegen, ergeben dann deÀnitionsgemäß eine reine Quinte. Der
Standardnotenwert wird als ganze Note bezeichnet und dauert vier Schläge, ganz gleich, ob es sich um langsame oder
schnelle Musik handelt, also ungeachtet des Tempos. ( Bei
einem Tempo von 60 Schlägen pro Minute – wie beim Trauermarsch – dauert jeder Schlag eine Sekunde und eine ganze Note
somit vier Sekunden.) Eine Note, die halb so lang dauert,
heißt logischerweise halbe Note, und eine, die wiederum halb
so lang dauert wie diese, ist eine Viertelnote. Bei den meisten
Musikstücken aus den Bereichen Pop und Volksmusik ist die
Viertelnote der Grundschlag – die vier Schläge, von denen wir
bereits gesprochen haben, entsprechen jeweils einer Viertelnote. Man sagt, dass diese Musikstücke im 4/4-Takt geschrieben
sind: Der Zähler gibt die Unterteilung des Stückes in Gruppen zu vier Noten an, der Nenner besagt, dass die Grundnotenlänge eine Viertelnote beträgt. Die Bezeichnung „Takt“
68
Der Musik-Instinkt
für diese Gruppen aus vier Noten ist in der musikalischen
Notation und in der Alltagssprache geläuÀg. Ein 4/4-Takt hat
vier Schläge, wobei jeder Schlag einer Viertelnote entspricht.
Das bedeutet nicht, dass in diesem Takt ausschließlich Viertelnoten vorkommen. Er kann Noten jeglicher Länge enthalten
und auch Pausen – also gar keine Noten; die Bezeichnung 4/4
gibt lediglich an, wie die Schläge zu zählen sind.
Bei Ba Ba Black Sheep sind es im ersten Takt vier Viertelnoten, im zweiten Takt dann Achtelnoten (jeweils halb so lang wie
eine Viertelnote) und eine Viertelpause. Das Symbol ɇ steht
hier für eine Viertelnote, Ɋ für eine Achtelnote. Die Abstände
zwischen den Silben sind proportional zu dem dazwischenliegenden Zeitraum:
[Takt 1:] ba
ba
ɇ
ɇ
[Takt 2:] have you an- y
Ɋ Ɋ Ɋ Ɋ
black sheep
ɇ
ɇ
wool (Pause)
ɇ
ɇ
Wie aus diesem Diagramm zu ersehen ist, müssen die Achtelnoten doppelt so schnell sein wie die Viertelnoten.
Der Song That’ll Be the Day von Buddy Holly beginnt mit
einem Auftakt; der starke Schlag erfolgt auf der nächsten
Note und danach alle vier Grundschläge, genau wie in Jailhouse Rock.
Well
THAT’ll be the day ( Pause) when
YOU say good-bye, yes,
THAT’ll be the day ( Pause) when
YOU make me cry-hi; you
SAY you gonna leave ( Pause) you
KNOW it’s a lie ‘cause
THAT’ll be the day-ay
AY when I die.
2 Mit den Füßen wippen
69
Genau wie Elvis dehnt Buddy Holly ein Wort über ein Zeilenende hinweg aus (day in den letzten beiden Zeilen). Die
meisten Menschen empÀnden einen Puls von vier Schlägen
zwischen den jeweils ersten Schlägen der Takte dieses Songs;
von jedem ersten Schlag eines Taktes bis zum nächsten würden sie viermal mit den Füßen wippen. Im Folgenden zeigen
die Großbuchstaben wie zuvor den ersten Schlag des Taktes
an, und halbfett gedruckte Buchstaben markieren die Stellen,
an denen man mit dem Fuß wippen oder auftippen würde:
Well
THAT’ll be the day (Pause) when
YOU say good-bye, yes,
THAT’ll be the day (Pause) when
YOU make me cry-hi; you
SAY you gonna leave (Pause) you
KNOW it’s a lie ‘cause
THAT’ll be the day-ayAY when I die.
Wenn man genau auf den Text des Songs und seine Beziehung zu den Schlägen achtet, fällt auf, dass das Wippen oder
Auftippen mit dem Fuß manchmal mitten in der Silbe erfolgt.
Das erste say in der zweiten Zeile beginnt genau genommen
vor dem Auftippen des Fußes – der Fuß ist wahrscheinlich
noch in der Luft, wenn das Wort say beginnt, und tippt erst in
der Mitte des Wortes auf. Das Gleiche passiert später in der
Zeile bei dem Wort yes. Wenn eine Note einem Schlag zuvorkommt – das heißt, wenn ein Musiker eine Note ein wenig
vor dem eigentlichen Schlag spielt –, bezeichnet man dies als
Synkope. Das ist ein ganz wesentliches Stilmittel, das mit den
Erwartungen der Hörer spielt und letztendlich die emotionale Wirkung eines Songs bedingt. Die Synkopen bringen ein
überraschendes Element ein und erzeugen Spannung.
70
Der Musik-Instinkt
Wie bei vielen Songs empÀnden manche Leute das Tempo
von That’ll Be the Day als halb so schnell; das ist nicht falsch,
es handelt sich lediglich um eine andere, aber ebenfalls gültige
Interpretation. In der gleichen Zeit, in der andere viermal mit
dem Fuß wippen, wippen sie nur zweimal – einmal beim ersten Schlag des Taktes und einmal zwei Schläge später.
Eigentlich beginnt der Song mit dem Word Well vor dem
ersten starken Schlag – einem sogenannten Auftakt. Die Strophe beginnt Buddy Holly ebenfalls mit einem Auftakt – mit
den beiden Worten Well, you – und darauf folgt der starke
Schlag der ersten Zeile.
[Auftakt]
[Zeile 1:]
[Zeile 2:]
[Zeile 3:]
[Zeile 4:]
Well, you
GAVE me all your lovin’ and your
( PAUSE) tur-tle dovin’ ( Pause)
ALL your hugs and kisses and your
( PAUSE) money too.
Buddy Holly tut hier etwas ganz Cleveres: Er verletzt nicht nur
unsere Erwartungen, indem er Wörter zu früh bringt, sondern
verzögert manche Wörter auch. Normalerweise käme auf jeden ersten Schlag eines Taktes ein Wort, wie bei Kinderreimen.
Aber in den Zeilen 2 und 4 des Songs kommt auf den ersten
Schlag des Taktes – nichts! Dies ist eine weitere Möglichkeit
für Komponisten, Spannung aufzubauen, indem sie uns das
verweigern, was wir normalerweise erwarten würden.
Wenn man zu Musik in die Hände klatscht oder mit den
Fingern schnippt, dann begleitet man manchmal automatisch,
ganz ohne Übung, den Takt auf andere Weise als mit den
Füßen: Man klatscht oder schnippt nicht auf den ersten Schlag
eines Taktes, sondern auf den zweiten und vierten. Das ist der
sogenannte Backbeat, den Chuck Berry in seinem Song Rock
and Roll Music besingt.
2 Mit den Füßen wippen
71
John Lennon sagte einmal, das Wesentliche am Schreiben
eines Rock-and-Roll-Songs für ihn sei, »in ganz einfachem
Englisch zu sagen, worum es geht, einen Reim daraus zu machen und diesen mit einem Backbeat zu unterlegen«. In Rock
and Roll Music (das John zusammen mit den Beatles sang) wird
der Backbeat wie bei den meisten Rocksongs von der sogenannten Snare drum (kleinen Trommel) gespielt: Sie spielt jeweils nur den zweiten und vierten Schlag jedes Taktes – im
Gegensatz zum starken Schlag auf der Eins und einem zweiten, nicht ganz so stark betonten Schlag auf der Drei. Der
Backbeat ist das typische Rhythmuselement der Rockmusik.
Lennon hat ihn sehr häuÀg verwendet, etwa in Instant Karma
(∗whack∗ steht im Folgenden jeweils an den Stellen, an denen
die Snare drum einen Backbeat spielt):
Instant karma’s gonna get you
(Pause) ∗whack∗ (Pause) ∗whack∗
“Gonna knock you right on the head”
(Pause) ∗whack∗ (Pause) ∗whack∗
…
But we all ∗whack∗ shine ∗whack∗
on ∗whack∗ (Pause) ∗whack∗
Like the moon ∗whack∗ and the stars ∗whack∗
and the sun ∗whack∗ (Pause) ∗whack∗
In We Will Rock You von Queen ertönt zweimal hintereinander
ein Geräusch wie das Stampfen von Füßen auf einer Stadiontribüne (bum-bum) und danach ein Klatschen (KLATSCH)
als durchlaufender Rhythmus: bum-bum-KLATSCH, bumbum-KLATSCH. Das KLATSCH ist der Backbeat.
Denken Sie nun an den Marsch The Stars and Stripes Forever
von John Philip Sousa. Wenn man ihn im Geiste hört, kann
man mit dem Fuß den Rhythmus mitklopfen. Während die
Musik etwa geht wie „DAH-dah-ta DUM-dum dah DUM-
72
Der Musik-Instinkt
dum dum-dum DUM“, wird der Fuß so klopfen: AB-auf ABauf AB-auf AB-auf. Bei diesem Stück ist es ganz natürlich, bei
jeder zweiten Viertelnote mit dem Fuß zu tippen. Man spricht
davon, das Stück sei „auf zwei“; das soll heißen, dass die natürliche Gruppierung der Rhythmen jeweils zwei Viertelnoten
pro Schlag beträgt.
Nun stellen wir uns ƍy Favorite Things (Text und Musik von
Richard Rodgers und Oscar Hammerstein) vor, ein Stück im
Walzertakt, auch als 3/4-Takt bezeichnet. Die Schläge scheinen sich zu Dreiergruppen zu ordnen, wobei auf einen stark
betonten Schlag zwei schwache folgen. RAIN-drops-on ROSEes and WHISK-ers-on KIT-tens ( Pause). EINS-zwei-drei EINSzwei-drei EINS-zwei-drei EINS-zwei-drei.
Wie bei der Tonhöhe sind auch hier kleine ganzzahlige
Verhältnisse der Tondauer am häuÀgsten; es mehren sich die
Hinweise, dass diese leichter neuronal zu verarbeiten sind.
Wie Eric Clarke anmerkt, Ànden sich in realer Musik fast nie
kleine ganzzahlige Verhältnisse. Das deutet darauf hin, dass
während der neuronalen Verarbeitung von musikalischen
Rhythmen ein Quantisierungsprozess abläuft, der die Tondauern einander angleicht. Töne von ähnlicher Dauer behandelt das Gehirn als gleich; einige werden aufgerundet,
andere abgerundet, damit sie einfache ganzzahlige Verhältnisse wie 2:1, 3:1 und 4:1 ergeben. Manche Formen von Musik zeichnen sich durch komplexere Verhältnisse aus; Chopin
und Beethoven verwenden in einigen ihrer Werke für Klavier
nominelle Verhältnisse von 7:4 und 5:4; das heißt, es werden
mit der einen Hand sieben oder fünf Noten gespielt, mit der
anderen vier. Wie bei der Tonhöhe ist theoretisch jedes Verhältnis möglich. Was wir wahrnehmen und uns merken können, unterliegt jedoch gewissen Beschränkungen, und auch
Stil und Konvention grenzen uns ein.
2 Mit den Füßen wippen
73
Die drei häuÀgsten Metren in der westlichen Musik sind der
4/4-, 2/4- und 3/4-Takt. Es gibt aber noch weitere rhythmische Gruppierungen, wie 5/4, 7/4 und 9/4. Ein ebenfalls recht verbreitetes Metrum ist 6/8: Hier hat der Takt
sechs Schläge, und jeder entspricht einer Achtelnote. Das
ähnelt dem 3/4- oder Walzertakt; nur möchte der Komponist hier, dass die Musiker die Musik statt in Dreiergruppen in Sechsergruppen „empÀnden“. Außerdem beruht der
zugrunde liegende Puls nicht auf der Viertel-, sondern auf
der kürzeren Achtelnote. Dies deutet darauf hin, dass musikalische Gruppierungen hierarchisch geordnet sind. Man
kann 6/8 als zwei Gruppen von jeweils drei Achteln zählen (EINS-zwei-drei EINS-zwei-drei) oder als eine Sechsergruppe (EINS-zwei-drei-VIER-fünf-sechs) mit einer weniger
starken Betonung auf dem vierten Schlag. Für die meisten
Zuhörer sind dies jedoch uninteressante Feinheiten, die nur
die Musiker betreffen. Es könnte aber auch Unterschiede im
Gehirn geben. Nachweislich existieren neuronale Schaltkreise, die mit dem Erfassen und Verfolgen des musikalischen
Metrums assoziiert sind. Ebenso ist das Kleinhirn bekanntermaßen daran beteiligt, Ereignisse der Umwelt mit einer inneren Uhr oder einem Zeitgeber zu synchronisieren. Bisher
hat noch niemand experimentell überprüft, ob ein 6/8- und
ein 3/4-Takt unterschiedliche neuronale Repräsentationen
haben, aber weil Musiker sie tatsächlich als verschieden behandeln, wird dies mit ziemlicher Sicherheit der Fall sein. Es
gehört zu den grundlegenden Erkenntnissen der kognitiven
Neurowissenschaft, dass das Gehirn die biologische Grundlage für unser gesamtes Verhalten und Denken bildet; daher muss überall, wo eine Differenzierung im Verhalten zu
beobachten ist, auf irgendeiner Ebene auch eine neuronale
Differenzierung vorliegen.
74
Der Musik-Instinkt
Natürlich kann man zu einem 4/4- oder 2/4-Takt gut gehen,
tanzen oder marschieren, weil man (aufgrund der geraden
Zahlen) beim starken Schlag immer den gleichen Fuß aufsetzt. Zu einem 3/4-Takt zu gehen, ist weniger natürlich;
man wird nie erleben, dass eine Gruppe Soldaten oder eine
Infanteriedivision zu einem 3/4-Takt marschiert. Gelegentlich kommt ein 5/4-Takt vor. Zu den bekanntesten Beispielen zählen Lalo Shiffrins Thema aus Mission: Impossible und
das von Paul Desmond geschriebene und durch die Interpretation von Dave Brubeck bekannt gewordene Stück Take
Five. Wenn man den Takt dieser Stücke mitzählt oder mit
dem Fuß mitwippt, zeigt sich, dass der grundlegende Rhythmus Fünfergruppen bildet: EINS-zwei-drei-vier-fünf, EINSzwei-drei-vier-fünf. In Desmonds Komposition gibt es einen
etwas schwächeren Schlag auf der Vier: EINS-zwei-dreiVIER-fünf, sodass viele Musiker denken, der 5/4-Takt bestehe
aus alternierenden 3/4-und 2/4-Schlägen. In Mission: Impossible gibt es keine eindeutige Unterteilung der fünf Schläge.
Tschaikowski hat den zweiten Satz seiner 6. Sinfonie im 5/4Takt gesetzt. Pink Floyd schrieben ihren Song Money im 7/4Takt, ebenso Peter Gabriel Solsbury Hill; wenn man mit dem
Fuß mitklopft oder mitzählt, kommt man auf sieben Schläge
zwischen den starken Beats.
Die Diskussion der Lautstärke habe ich mir fast bis zum
Schluss aufgehoben, denn zur DeÀnition von Lautstärke gibt es
nur wenig zu sagen, was die meisten nicht schon wissen. Nicht
unbedingt einleuchtend ist, dass Lautstärke wie die Tonhöhe ein
rein psychisches Phänomen ist. Lautstärke existiert nicht in der
Realität, sie existiert nur im Kopf – und zwar aus demselben
Grund, aus dem auch die Tonhöhe nur im Kopf existiert. Reguliert man die Lautstärke seiner Stereoanlage, so erhöht man
technisch gesehen die Schwingungsamplitude von Molekülen,
die wiederum von unseren Gehirnen als Lautstärke interpretiert
2 Mit den Füßen wippen
75
wird. Entscheidend dabei ist, dass man ein Gehirn braucht, um
das zu erleben, was man als „Lautstärke“ bezeichnet. Auch
wenn dies eine überwiegend semantische Unterscheidung zu
sein scheint, ist es doch unerlässlich, die Begriffe sorgfältig zu
deÀnieren. Die geistige Repräsentation der Amplitude weist einige merkwürdige Anomalien auf. So lassen sich Lautstärken
nicht in der gleichen Weise addieren wie Amplituden (die Lautstärke folgt wie die Tonhöhe einer logarithmischen Skala). Außerdem schwankt die Tonhöhe eines Sinustons in Abhängigkeit
von ihrer Amplitude. Und man hat entdeckt, dass Töne lauter
erscheinen können, als sie sind, wenn sie auf bestimmte Weise elektronisch bearbeitet wurden – etwa durch Reduzierung
des Dynamikumfangs –, wie es oft bei Heavy-Metal-Musik
gemacht wird.
Die Lautstärke (genau genommen der Schalldruckpegel)
wird in Dezibel gemessen (benannt nach Alexander Graham
Bell und abgekürzt als dB); es handelt sich um eine dimensionslose Einheit wie Prozent, die sich auf das Verhältnis zweier
Tonstärken bezieht. Insofern besteht mehr Ähnlichkeit mit
musikalischen Intervallen als mit Notenbezeichnungen. Die
Skala ist logarithmisch, die Verdoppelung der Intensität einer
Schallquelle führt zu einem Anstieg des Schallpegels um 3 dB.
Aufgrund der außerordentlichen EmpÀndlichkeit des Ohres
ist es sinnvoll, Schall mit einer logarithmischen Skala zu messen: Das Verhältnis zwischen dem lautesten Geräusch, das der
Mensch hören kann, ohne dass es dauerhafte Schäden hervorruft, und dem leisesten wahrnehmbaren Geräusch beträgt, gemessen als Schalldruckpegel in der Luft, eine Million zu eins.
Auf der Dezibelskala entspricht das 120 dB. Das Spektrum
wahrnehmbarer Lautstärken bezeichnet man als Dynamikumfang. Dieser spielt zuweilen eine Rolle, wenn es um die Bewertung qualitativ hochwertiger Musikaufnahmen geht. Hat eine
Aufnahme einen Dynamikumfang von 90 dB, so beträgt der
76
Der Musik-Instinkt
Unterschied zwischen den leisesten und lautesten Passagen
der Aufnahme 90 dB – dies gilt für die meisten Experten als
High Fidelity („hohe Klangtreue“) und sprengt die Möglichkeiten der meisten Heim-Stereoanlagen.
Sehr laute Geräusche werden von den Ohren komprimiert – als Schutzmaßnahme für die empÀndlichen Teile
des Mittel- und Innenohres. Normalerweise nimmt unsere
Wahrnehmung von Lautstärke proportional zum Anstieg
des Geräuschpegels in unserer Umgebung zu. Bei wirklich
lauten Geräuschen würde eine proportionale Zunahme des
vom Trommelfell übertragenen Signals jedoch zu irreversiblen Schäden führen. Aufgrund der Kompression des Dynamikumfangs hat ein starker Anstieg des Schallpegels in der
Umgebung sehr viel geringere Veränderungen des Pegels in
unseren Ohren zur Folge. Der Dynamikumfang der inneren
Haarzellen beträgt 50 Dezibel (dB); dennoch können wir
einen Dynamikumfang von über 120 dB hören. Pro 4 dB
Anstieg des Schallpegels erreicht nur 1 dB die inneren Haarzellen. Die meisten Menschen können feststellen, wann diese
Kompression erfolgt – komprimierte Geräusche haben eine
andere Qualität.
Akustiker haben eine einfachere Methode zur Angabe des
Schalldruckpegels in der Umwelt entwickelt: Weil verschiedene Dezibel ein Verhältnis zwischen zwei Werten ausdrücken,
haben sie einen Bezugs- oder Referenzwert festgelegt (20
Mikropascal Schalldruck); dieser entspricht in etwa der Hörschwelle des Gehörs eines gesunden Menschen oder, anders
gesagt, dem Geräusch einer in drei Metern Entfernung vorbeiÁiegenden Stechmücke. Um Verwirrung zu vermeiden: Wenn
man diesen Referenzwert des Schalldruckpegels in Dezibel
ausdrücken will, spricht man von dB (SPL). Im Folgenden
sind zur Orientierung einige Beispiele für Schalldruckpegel in
dB (SPL) aufgelistet:
2 Mit den Füßen wippen
77
0 dB
in einem ruhigen Zimmer in drei Metern Entfernung vom Ohr vorbeiﬂiegende Stechmücke
20 dB
Aufnahmestudio oder sehr ruhiges Chefbüro
35 dB
normales ruhiges Büro mit geschlossenen Türen
und abgeschalteten Computern
50 dB
normale Unterhaltung in einem Raum
75 dB
Musikhören mit Kopfhörern in normaler, angenehmer Lautstärke
100–105 dB
Klassikkonzert oder Opernaufführung während
lauter Passagen; einige tragbare Musikabspielgeräte erreichen bis 105 dB
110 dB
Presslufthammer in einem Meter Entfernung
120 dB
Düsenﬂugzeug auf der Startbahn aus rund 100
Metern Entfernung; normales Rockkonzert
126–130 dB
Schmerzschwelle und Schwelle für Gehörschäden;
ein Rockkonzert von The Who (man beachte,
dass 126 dB viermal so laut sind wie 120 dB)
180 dB
Start einer Raumfähre
250–275 dB
Zentrum eines Tornados; Vulkanausbruch
Herkömmliche Ohrenstöpsel aus Schaumstoff können etwa
25 dB Schall abhalten, allerdings nicht über den gesamten Frequenzbereich. Bei einem Who-Konzert können Ohrenstöpsel
das Risiko dauerhafter Gehörschäden verringern, indem sie
den auf das Ohr treffenden Schalldruckpegel auf 100–110
dB (SPL) senken. Zu dem kopfhörerähnlichen Kapselgehörschutz, wie er an Schießständen und vom Landepersonal
auf Flughäfen getragen wird, werden häuÀg noch zusätzlich
Ohrenstöpsel verwendet, um den größtmöglichen Schutz zu
gewähren.
Sehr viele Menschen lieben richtig laute Musik. Konzertgänger berichten von einem besonderen Bewusstseinszustand, einer Art Kick und Erregung, wenn sie sehr laute Musik
(von über 115 dB) hören. Warum dies so ist, weiß man noch
78
Der Musik-Instinkt
nicht. Es könnte unter anderem damit zusammenhängen, dass
laute Musik das Gehörsystem „sättigt“ und bewirkt, dass die
Neuronen mit maximaler Rate feuern. Wenn dies sehr viele
Neuronen tun, könnte dies einen besonderen Gehirnzustand
auslösen, der sich qualitativ von dem bei normalen Feuerungsraten unterscheidet. Dennoch: Manche Menschen lieben laute
Musik, andere mögen sie überhaupt nicht.
Lautstärke ist neben Tonhöhe, Rhythmus, Melodie, Harmonie, Tempo und Metrum eines der sieben wesentlichen
Elemente von Musik. Schon sehr geringe Änderungen der
Lautstärke wirken sich erheblich auf die emotionale Botschaft
von Musik aus. Wenn ein Pianist fünf Noten gleichzeitig spielt
und eine davon etwas lauter als alle anderen, dann ergibt sich
dadurch eine völlig andere Wahrnehmung dieser Musikpassage. Wie bereits ausgeführt, ist Lautstärke auch ein wesentlicher Anhaltspunkt für den Rhythmus sowie für das Metrum,
denn die Lautstärke der Töne bestimmt ihre rhythmische
Gruppierung.
Nun haben wir den Kreis geschlossen und kehren zu dem
weiten Thema der Tonhöhe zurück. Rhythmus hat etwas mit
Erwartung zu tun. Beim Wippen mit den Füßen sagen wir
gewissermaßen voraus, was in der Musik als Nächstes passieren wird. Auch die Tonhöhe hat etwas mit Erwartungen in
der Musik zu tun. Ihre Regeln heißen Tonart und Harmonien.
Die musikalische Tonart bildet den tonalen Kontext eines
Musikstücks. Aber nicht alle Musik lässt sich einer Tonart zuordnen – afrikanische Trommelmusik ebenso wenig wie die
Zwölftonmusik zeitgenössischer Komponisten, beispielsweise von Schönberg. Praktisch die gesamte Musik, die wir in der
westlichen Kultur hören – von Werbejingles im Radio bis zur
ernsthaftesten Sinfonie von Bruckner, von der Gospelmusik
Mahalia Jacksons bis zum Punk der Sex Pistols –, dreht sich
um eine zentrale Gruppe von Tonhöhen, auf die sie immer
2 Mit den Füßen wippen
79
wieder zurückkommt, ihr tonales Zentrum, die Tonart. Diese
kann im Lauf eines Songs wechseln (was man als Modulation bezeichnet), doch deÀnitionsgemäß gilt sie für eine recht
große Spanne eines Liedes, meist in der Größenordnung von
Minuten.
Wenn eine Melodie beispielsweise auf der C-Dur-Tonleiter
aufbaut, sagt man, sie sei „in C-Dur“. Das bedeutet, die Melodie strebt immer wieder zur Note C zurück; selbst wenn sie
nicht auf einem C endet, wird das C von den Zuhörern als
dominierende und zentrale Note des gesamten Stückes wahrgenommen. Möglicherweise setzt der Komponist hier und da
auch Noten ein, die nicht zur C-Dur-Tonleiter gehören; diese
Abweichungen erkennt man jedoch sofort – sie ähneln einem
schnellen Schnitt in einem Film zu einer parallel ablaufenden
Szene oder einem Rückblick. In jedem Fall weiß man, dass mit
Sicherheit bald wieder die Rückkehr zum Haupthandlungsstrang erfolgt. (Eine ausführlichere Betrachtung der Musiktheorie Àndet sich in Anhang B.)
Das Merkmal der Tonhöhe in der Musik ist immer im Kontext einer Tonleiter oder des tonalen/harmonischen Zusammenhangs zu betrachten. Eine Note klingt nicht bei jedem
Hören gleich – wir hören sie im Kontext einer Melodie und der
voraufgegangenen Töne sowie im Kontext der sie umgebenden Harmonien und Akkorde. Sie lässt sich durchaus mit einem
Geschmack vergleichen: Oregano schmeckt gut zu Auberginen
oder Tomatensoße, aber weniger gut zu Bananencreme. Sahne
bietet ganz unterschiedliche Gaumenfreuden – je nachdem, ob
man sie auf Erdbeeren gibt, in den Kaffee schüttet oder damit
eine Salatsauce mit Knoblauch zubereitet.
In For No One von den Beatles wird die Melodie zwei Takte lang auf einer Note gesungen, aber die Begleitakkorde der
Note wechseln und verleihen ihr damit eine andere Stimmung
und einen anderen Klang. Der Song One Note Samba von
80
Der Musik-Instinkt
Antonio Carlos Jobim enthält in Wirklichkeit viele Noten, aber
eine Note wird während des gesamten Songs durch wechselnde Begleitakkorde in den Mittelpunkt gerückt; dadurch hören
wir eine Vielzahl unterschiedlicher Schattierungen der musikalischen Botschaft heraus. Im Kontext mancher Akkorde klingt
die Note hell und fröhlich, in anderen nachdenklich. Ein weiteres Gebiet, auf dem sich die meisten Menschen, auch Nichtmusiker, als fachkundig erweisen, ist das Erkennen vertrauter
Akkordfolgen, auch wenn die bekannte Melodie fehlt. Spielen
die Eagles in einem Konzert die Akkordfolge
h-Moll / Fis-Dur / A-Dur / E-Dur / G-Dur / D-Dur / eMoll / Fis-Dur
reichen drei Akkorde, und Tausende von Fans im Publikum,
die selbst keine Musiker sind, wissen, dass nun Hotel California
kommt. Obwohl die Gruppe die Instrumentierung im Laufe
der Jahre geändert hat, von elektrischen zu akustischen Gitarren, von zwölfsaitigen zu sechssaitigen Gitarren, erkennen
die Leute diese Akkorde. Man erkennt sie sogar, wenn sie von
einem Orchester gespielt werden oder in der Berieselungsversion aus den Billiglautsprechern einer Zahnarztpraxis ertönen.
Mit dem Thema der Dur- und Moll-Tonleitern verwandt ist
das Thema der tonalen Konsonanz und Dissonanz. Manche
Geräusche empÀndet man als unangenehm, auch wenn man
gar nicht immer weiß, warum. Das Kratzen von Fingernägeln
auf einer Tafel ist ein klassisches Beispiel dafür, scheint aber
nur für Menschen zu gelten. Affen macht es offenbar nichts
aus (zumindest in dem einen Experiment, das dazu durchgeführt wurde, mochten sie dieses Geräusch genauso sehr
wie Rockmusik). In der Musik können manche Menschen
den Klang von verzerrten E-Gitarren nicht ausstehen, andere
möchten am liebsten gar nichts anderes hören. Auf der Ebene
2 Mit den Füßen wippen
81
der Harmonien – also der Ebene der betreffenden Töne, nicht
der Klangfarben – empÀnden manche Menschen bestimmte
Intervalle oder Akkorde als besonders unangenehm. Musiker
bezeichnen wohlklingende Akkorde und Intervalle als konsonant, nicht so schön klingende als dissonant. Der Frage,
warum einige Intervalle als konsonant empfunden werden
und andere nicht, wurden zahlreiche Forschungen gewidmet;
gegenwärtig herrscht darüber noch keine Einigkeit. Bisher hat
man nur festgestellt, dass der Hirnstamm und der dorsale Nucleus cochlearis – zwei Strukturen, die so primitiv sind, dass
sie bei allen Wirbeltieren vorkommen – zwischen Konsonanz
und Dissonanz unterscheiden können. Diese Unterscheidung
erfolgt, bevor die übergeordnete Ebene des menschlichen
Gehirns, die Großhirnrinde, einbezogen wird.
Zwar sind die grundlegenden neuronalen Mechanismen
für Konsonanz und Dissonanz umstritten, doch über einige
als konsonant geltende Intervalle herrscht weitgehend Übereinstimmung. Die Prime – ein und dieselbe Note gleichzeitig
oder zweimal unmittelbar nacheinander gespielt – gilt ebenso
wie die Oktave als konsonant. Diese Intervalle erzeugen einfache ganzzahlige Frequenzverhältnisse von 1:1 beziehungsweise 2:1. (Akustisch gesehen reiht sich die Hälfte der Peaks
in der Wellenform einer Oktave perfekt hintereinander, die
andere Hälfte fällt jeweils genau dazwischen.) Interessant ist:
Wenn wir die Oktave genau halbieren, erhalten wir als Intervall
einen Tritonus, für die meisten Menschen das unangenehmste
Intervall überhaupt. Das könnte unter anderem daran liegen,
dass sich der Tritonus nicht aus einem einfachen ganzzahligen Verhältnis ergibt; vielmehr beträgt das Verhältnis 45:32
(genau genommen ¥2:1, eine irrationale Zahl). Wir können
Konsonanz aus der Perspektive ganzzahliger Verhältnisse betrachten. Ein Verhältnis von 4:1 ist ein einfaches ganzzahliges
Verhältnis, es deÀniert zwei Oktaven. Ebenfalls ganzzahlig ist
82
Der Musik-Instinkt
das Verhältnis von 3:2, das eine reine Quinte deÀniert. Bei
modernen Stimmungen weicht das Verhältnis geringfügig
von 3:2 ab. Dieser Kompromiss ermöglicht das harmonische
Zusammenspiel von Instrumenten in jeder Tonart. Dies ist
die sogenannte gleichstuÀge Stimmung; sie hat jedoch keine
bedeutenden Auswirkungen auf die zugrunde liegende neuronale Wahrnehmung von Konsonanz und Dissonanz, weil
die Wahrnehmung diese leicht modiÀzierten Intervalle an das
pythagoreische Ideal anpasst. Mathematisch war dieser Kompromiss erforderlich, um ausgehend von einer beliebigen
Note – etwa dem tiefsten C auf der Tastatur –, jeweils eine
Quinte mit einem Verhältnis von 3:2 hinzuzählen zu können,
bis man nach zwölf Quinten wieder beim C angekommen
ist. Ohne gleichstuÀge Stimmung würde der Endpunkt dieser
Kette um bis zu einem Viertelhalbton, oder 25 Cent, vom erwünschten Wert abweichen – das wäre ein deutlich hörbarer
Unterschied. Eine reine Quinte ist beispielsweise das Intervall
zwischen dem C und dem darüberliegenden G. Das Intervall
von diesem G zum nächsthöheren C beträgt eine reine Quarte
mit dem Frequenzverhältnis von (fast) 4:3.
Die Noten unserer Dur-Tonleiter gehen zurück auf die alten
Griechen und deren Vorstellung von Konsonanz. Wenn man
ausgehend von der Note C schrittweise jeweils das Intervall
einer reinen Quinte hinzufügt, erhält man schließlich eine Abfolge von Frequenzen, die der modernen Dur-Tonleiter sehr
nahekommen: C – G – D – A – E – H – Fis – Cis – Gis – Dis –
Ais – Eis (oder F) und wieder zurück zum C. Man spricht vom
sogenannten Quintenzirkel, weil man nach Ablauf des Zyklus
wieder zu der Ausgangsnote zurückkehrt. Interessanterweise
lassen sich durch die Obertonreihen Frequenzen erzeugen, die
der Dur-Tonleiter ebenfalls in gewisser Weise ähneln.
Ein einzelner Ton allein kann nicht dissonant sein, allerdings kann er bei Untermalung mit bestimmten Akkorden
2 Mit den Füßen wippen
83
dissonant klingen – insbesondere, wenn der Akkord aus einer Tonart stammt, welcher der einzelne Ton nicht angehört.
Zwei Töne können dissonant klingen, sowohl wenn sie gleichzeitig als auch wenn sie hintereinander gespielt werden, sofern
die Abfolge nicht den von uns erlernten Hörgewohnheiten
entspricht. Auch Akkorde können dissonant klingen, insbesondere, wenn sie nicht der gerade verwendeten Tonart entsprechen. All diese Faktoren miteinander zu vereinen, ist die
Aufgabe von Komponisten. Die meisten Menschen sind sehr
anspruchsvolle Zuhörer; Àndet der Komponist nicht ganz die
richtige Balance, dann werden unsere Erwartungen so stark
enttäuscht, dass wir den Radiosender wechseln, die Kopfhörer abnehmen oder einfach den Raum verlassen.
Ich habe Ihnen nun einen Überblick über die wichtigsten
Elemente von Musik gegeben: Tonhöhe, Klangfarbe, Tonart, Harmonie, Lautstärke, Rhythmus, Metrum und Tempo.
Neurowissenschaftler zerlegen Töne in diese Komponenten
und untersuchen dann selektiv, welche Gehirnregionen jeweils
an der Verarbeitung beteiligt sind; Musikwissenschaftler diskutieren ihren jeweiligen Anteil an dem ästhetischen Gesamterlebnis des Zuhörens. Ob Musik – echte Musik – jedoch
gefällt oder nicht, liegt an den Beziehungen zwischen diesen
Elementen. Komponisten und Musiker behandeln die einzelnen Bestandteile der Musik kaum einmal isoliert; sie wissen,
dass für einen Rhythmuswechsel vielleicht auch eine Änderung
der Tonhöhe oder Lautstärke erforderlich ist oder auch der
Akkorde, die diesen Rhythmus begleiten. Eine Forschungsrichtung, die sich mit den Beziehungen zwischen diesen Elementen befasst, geht auf das Ende des 19. Jahrhunderts und
die Gestaltpsychologen zurück.
Im Jahr 1890 beschäftigte sich Christian von Ehrenfels
mit einem für ihn rätselhaften Phänomen, das alle Menschen für selbstverständlich erachten und beherrschen – das
84
Der Musik-Instinkt
Transponieren von Melodien. Von Transposition spricht man,
wenn ein Lied in einer anderen Tonart oder mit anderen Tonhöhen gesungen oder gespielt wird. Beim Singen von Happy
Birthday schließen wir uns einfach der Person an, die als Erste
zu singen beginnt; in den meisten Fällen setzt sie einfach mit
irgendeiner beliebigen Note ein. Das kann sogar eine Tonhöhe sein, die gar keiner bestimmten Note der Tonleiter entspricht, sondern irgendwo dazwischen liegt, etwa zwischen C
und Cis. Trotzdem wird es so gut wie keiner bemerken oder
sich Gedanken darüber machen. Singt man Happy Birthday
dreimal in der Woche, so singt man es womöglich in drei ganz
unterschiedlichen Tonhöhen. Jede Version des Liedes ist eine
Transposition der anderen Versionen.
Die Gestaltpsychologen – von Ehrenfels, Max Wertheimer,
Wolfgang Köhler, Kurt Koffka und andere – interessierten
sich für das Problem der Anordnung, also dafür, wie Elemente zusammen ein Ganzes bilden, Objekte, die sich in ihren
Eigenschaften von der Summe ihrer Teile unterscheiden und
nicht bezüglich dieser Bestandteile zu verstehen sind. Das
Wort Gestalt steht hierbei für eine Gesamtform und ist sowohl
auf künstlerische als auch auf andere Objekte anwendbar. (Es
hat in dieser Bedeutung sogar Eingang in die englische Sprache gefunden.) Man kann sich beispielsweise eine Hängebrücke als Gestalt vorstellen. Funktionen und Nutzen der Brücke
sind nicht leicht zu verstehen, wenn man lediglich die Kabel,
Balken, Schrauben und Stahlträger betrachtet; erst wenn alle
diese Teile sich zu einer Brücke verbinden, kann man erfassen,
inwiefern sich eine Brücke beispielsweise von einem Baukran
unterscheidet, der aus den gleichen Teilen bestehen könnte.
Ganz ähnlich ist in der Malerei die Beziehung zwischen den
Elementen ein wesentlicher Aspekt des künstlerischen Endprodukts. Das klassische Beispiel ist ein Porträt – die Mona
Lisa wäre nicht dasselbe Gemälde, wenn Augen, Nase und
2 Mit den Füßen wippen
85
Mund zwar genauso gemalt, aber auf der Leinwand anders
angeordnet wären.
Die Gestaltpsychologen fragten sich, wie eine Melodie –
komponiert aus einer Reihe bestimmter Tonhöhen – ihre
Identität bewahrt und selbst dann noch erkennbar bleibt,
wenn sämtliche Tonhöhen verändert sind. Für diesen ultimativen Triumph der Form über das Detail, der Gesamtheit über
die Teile konnten sie keine befriedigende theoretische Erklärung Ànden. Man kann eine Melodie in beliebigen Tonhöhen
spielen – solange die Beziehung zwischen den Tonhöhen
konstant gehalten wird, bleibt die Melodie gleich. Man kann
sie auf verschiedenen Instrumenten spielen, und sie wird
dennoch erkannt. Man kann sie mit halber oder doppelter
Geschwindigkeit spielen oder all diese Abwandlungen gleichzeitig anwenden – trotzdem haben Menschen keine Schwierigkeiten, in ihr das Original zu erkennen. Die einÁussreiche
Schule der Gestaltpsychologie wurde gegründet, um genau
diese Frage zu lösen. Auch wenn ihr das nie gelang, trug sie
doch erheblich zu unserem Verständnis bei, wie Objekte in
der visuellen Welt angeordnet sind, durch Regeln, die in jeder
Einführungsvorlesung über Psychologie gelehrt werden: die
„Gestaltgesetze der Gruppierung“.
Albert Bregman, Kognitionspsychologe an der McGill University in Montreal, Kanada, hat im Laufe der letzten 30 Jahre eine Reihe von Experimenten durchgeführt und dadurch
ähnliche Erkenntnisse über die Gruppierungsprinzipien von
Tönen entwickelt. Der Musiktheoretiker Fred Lerdahl von der
Columbia University in New York und der Linguist Ray Jackendoff von der Brandeis University in Waltham, Massachusetts,
(mittlerweile an der Tufts University in Medford, Massachusetts) befassten sich mit dem Problem, eine Reihe von Regeln
zu beschreiben, die den Grammatikregeln in der gesprochenen
Sprache ähneln und für musikalische Kompositionen gelten;
86
Der Musik-Instinkt
dazu gehören auch Gruppierungsprinzipien für Musik. Die
neuronalen Grundlagen dieser Prinzipien sind noch nicht völlig erforscht; durch eine Reihe ausgeklügelter Verhaltensexperimente konnte jedoch eine Menge über die Phänomenologie
dieser Prinzipien in Erfahrung gebracht werden.
Gruppierung beim Sehen betrifft die Art und Weise, wie
wir Elemente der visuellen Welt in unserem geistigen Abbild dieser Welt zusammenfügen oder voneinander trennen.
Die Gruppierung ist zum Teil ein automatischer Prozess, das
heißt, sie erfolgt größtenteils sehr rasch in unserem Gehirn,
ohne dass wir uns dessen bewusst werden. Dabei geht es ganz
einfach um die Frage, „was in unserem Gesichtsfeld womit
kombiniert wird“. Hermann von Helmholtz, der Universalgelehrte aus dem 19. Jahrhundert, dessen Lehren wir viele
heutige Grundlagen der Physiologie des Hörens verdanken,
beschrieb das Ganze als unbewussten Vorgang, bei dem anhand von Eigenschaften oder Merkmalen von Objekten in der
Welt logische Schlussfolgerungen darüber gezogen werden,
welche dieser Objekte wahrscheinlich zusammengehören.
Steht man auf dem Gipfel eines Berges und blickt über
eine vielgestaltige Landschaft, so könnte man beispielsweise beschreiben, dass man noch zwei oder drei andere Berge
sieht, einen See, ein Tal, eine fruchtbare Ebene und einen
Wald. Obwohl der Wald aus Hunderten oder Tausenden von
Bäumen besteht, bilden diese Bäume in der Wahrnehmung
eine Gruppe, die sich von den anderen gesehenen Dingen unterscheidet; das hängt nicht unbedingt mit unserem Wissen
über Wälder zusammen, sondern damit, dass die Bäume bezüglich ihrer Form, Größe und Farbe ähnliche Eigenschaften
aufweisen – zumindest im Gegensatz zu fruchtbaren Ebenen, Seen und Bergen. BeÀndet man sich jedoch inmitten
eines Mischwaldes aus Erlen und Kiefern, werden sich die
Erlen aufgrund ihrer glatten, hellen Borke als eigenständige
2 Mit den Füßen wippen
87
Gruppe von den Kiefern mit ihrer dunklen, schroffen Borke
„abheben“. Wenn man jemanden vor einen Baum stellt und
ihn fragt, was er sieht, dann listet er vielleicht zunächst die
Einzelheiten auf: Borke, Äste, Blätter (oder Nadeln), Insekten
und Moos. Beim Betrachten eines Rasens nehmen die meisten Menschen normalerweise nicht einzelne Grashalme wahr,
auch wenn sie es könnten, falls sie sich darauf konzentrieren
würden. Gruppierung ist ein hierarchischer Prozess. Wie unser Gehirn Wahrnehmungsgruppierungen bildet, hängt von
zahlreichen Faktoren ab. Einige der Gruppierungsfaktoren
sind Eigenschaften der Objekte selbst – Form, Farbe, Symmetrie, Kontrast sowie Prinzipien, welche die Kontinuität der
Linien und Ränder des Objekts betreffen. Andere Gruppierungsfaktoren sind psychologischer Natur, beruhen also auf
der mentalen Verarbeitung; dazu gehört beispielsweise, worauf man bewusst seine Aufmerksamkeit richtet, welche Erinnerungen man an dieses oder ähnliche Objekte hat und wie
Objekte erfahrungsgemäß miteinander kombiniert sind.
Auch Töne bilden Gruppierungen. Das heißt, manche bilden zusammengehörige Gruppen, während andere sich voneinander absondern. Die meisten Menschen können den Klang
einer bestimmten Violine oder Trompete in einem Orchester
nicht aus den Klängen der anderen Violinen oder Trompeten heraushören – sie bilden jeweils eine Gruppe. Tatsächlich
kann das gesamte Orchester je nach Kontext eine einzige
Wahrnehmungsgruppierung bilden – in Bregmans Terminologie als „Strom“ bezeichnet. Bei einem Open-Air-Konzert,
bei dem mehrere Ensembles gleichzeitig spielen, verschmelzen die Klänge des Orchesters, vor dem man sich beÀndet,
akustisch zu einem einzigen Ganzen und sondern sich damit
von den Orchestern ab, die man im Rücken und von den Seiten hört. Durch einen Willensakt (bewusste Aufmerksamkeit)
kann man sich dann gezielt auf die Violinen des Orchesters
88
Der Musik-Instinkt
konzentrieren, vor dem man steht, genau wie man in einem
überfüllten Raum, in dem viele Gespräche stattÀnden, der
Unterhaltung mit dem Tischnachbarn folgen kann.
Ein Beispiel für auditive Gruppierung ist die Art und Weise,
wie sich die vielen verschiedenen Töne, die aus einem einzigen
Musikinstrument kommen, zur Wahrnehmung eines einzelnen
Instruments zusammenfügen. Man hört nicht die einzelnen
Obertöne einer Oboe oder einer Trompete – man hört einfach eine Oboe oder eine Trompete. Das ist noch bemerkenswerter, wenn man eine Oboe und eine Trompete gleichzeitig
spielen hört. Unser Gehirn ist in der Lage, Dutzende verschiedener Frequenzen zu analysieren, die auf das Ohr treffen, und
diese auf genau richtige Weise zu gruppieren. Wir haben nicht
den Eindruck, Dutzende losgelöste Obertöne zu hören, und
ebenso wenig hören wir nur ein einziges Zwitterinstrument.
Vielmehr erstellen unsere Gehirne separate geistige Bilder von
einer Oboe und einer Trompete sowie von dem Klang, den sie
beide im Zusammenspiel erzeugen – das ist die Grundlage dafür, warum wir in der Musik Kombinationen von Klangfarben
schätzen. Das meinte Pierce, als er die Klangfarben der Rockmusik bestaunte – E-Bass und E-Gitarre, zwei Instrumente,
die problemlos auseinanderzuhalten sind, bringen dennoch im
Duett eine neue Klangkombination hervor, die man hören,
über die man diskutieren und an die man sich erinnern kann.
Unser Hörsystem erschließt die Naturtonreihe, indem es
Töne zusammengruppiert. Das menschliche Gehirn entwickelte sich in Koevolution in einer Welt, in der viele Klänge,
mit denen unsere Art im Laufe von Zehntausenden Jahren
Entwicklungsgeschichte konfrontiert wurde, bestimmte akustische Eigenschaften gemeinsam hatten, darunter auch die Naturtonreihe, wie wir sie heute verstehen. Durch diesen Prozess
des „unbewussten Schlusses“ (wie von Helmholtz ihn bezeichnete) hält unser Gehirn es für äußerst unwahrscheinlich, dass
2 Mit den Füßen wippen
89
mehrere verschiedene Schallquellen vorhanden sind, von denen
jede einen einzelnen Bestandteil der Naturtonreihe produziert.
Vielmehr wendet unser Gehirn das „Wahrscheinlichkeitsprinzip“ an, dass es sich um ein einzelnes Objekt handeln muss, das
diese harmonischen Komponenten erzeugt. Solche Schlüsse
können alle Menschen ziehen, auch solche, die das Instrument
„Oboe“ nicht benennen und beispielsweise von einer Klarinette, einem Fagott oder gar einer Violine unterscheiden können.
Aber genau wie Menschen, die die Bezeichnungen der
Töne der Tonleiter nicht kennen, sehr wohl erkennen, ob
zwei verschiedene Töne gespielt werden oder der gleiche Ton,
können nahezu alle Menschen – auch wenn sie nicht wissen,
wie bestimmte Musikinstrumente heißen, – sagen, wann sie
zwei verschiedene Instrumente spielen hören. Durch die Art
und Weise, wie wir anhand der Naturtonreihe Töne gruppieren, lässt sich weitgehend erklären, warum wir eine Trompete hören und nicht die einzelnen Obertöne, die auf unsere
Ohren treffen: Sie bilden genauso eine Gruppierung wie die
einzelnen Grashalme, die uns den Eindruck eines „Rasens“
geben. Das erklärt auch, wie wir eine Trompete von einer
Oboe unterscheiden können, wenn diese jeweils verschiedene Töne spielen: Unterschiedliche Grundfrequenzen lassen
verschiedene Obertonreihen entstehen, und unser Gehirn ist
mühelos in der Lage herauszuÀnden, was wozu gehört. Der
dafür erforderliche Verrechnungsprozess ähnelt dem eines
Computers. Das erklärt jedoch nicht, wie wir eine Trompete
von einer Oboe unterscheiden können, wenn diese die gleiche Note spielen, weil in diesem Fall die Obertöne nahezu
dieselben Frequenzen aufweisen (obgleich mit unterschiedlichen, für das Instrument charakteristischen Amplituden).
Dafür stützt sich das Hörsystem auf das Prinzip der gleichzeitigen Einsätze. Töne, die gemeinsam beginnen – im gleichen Augenblick – werden im Sinne der Gruppierung als
90
Der Musik-Instinkt
zusammengehörig wahrgenommen. Seit Wilhelm Wundt in
den 1870er-Jahren das erste psychologische Labor einrichtete,
ist bekannt, dass unser Hörsystem außerordentlich empÀndlich für gleichzeitig Dargebotenes ist; es kann Unterschiede in
den Einsatzzeiten von wenigen Millisekunden wahrnehmen.
Spielen eine Trompete und eine Oboe also zur gleichen
Zeit die gleiche Note, erkennt unser Hörsystem, dass zwei
verschiedene Instrumente spielen, weil das vollständige Tonspektrum – die Obertonreihe – für das eine Instrument vielleicht wenige Tausendstel Sekunden vor dem Tonspektrum
des anderen beginnt. Genau das versteht man unter einem
Gruppierungsvorgang, der Töne nicht nur einem einzelnen
Objekt zurechnet, sondern sie auch auf verschiedene Objekte
aufteilt.
Dieses Prinzip der gleichzeitigen Einsätze kann man sich
allgemeiner als ein Prinzip der zeitlichen Positionierung vorstellen. Wir fassen alle Töne, die das Orchester gerade erzeugt,
zu einer Einheit zusammen – im Gegensatz zu jenen, die es
morgen Abend spielen wird. Beim auditiven Gruppieren ist
die Zeit ein wichtiger Faktor. Ein weiterer ist die Klangfarbe;
deshalb ist es so schwierig, bei mehreren gleichzeitig spielenden Violinen eine von den anderen zu unterscheiden, obwohl
Musikexperten und Dirigenten sich diese Fähigkeit antrainieren können. Auch die Position im Raum ist ein Gruppierungsprinzip – unsere Ohren neigen dazu, Töne zu gruppieren, die
aus derselben relativen Position im Raum kommen. In der
senkrechten Ebene können wir Töne nicht besonders gut lokalisieren, in der Rechts-links-Ebene jedoch sehr gut und in der
Vorne-hinten-Ebene einigermaßen. Unser Hörsystem nimmt
an, dass aus einer bestimmten Position im Raum kommende
Töne wahrscheinlich auch vom selben Objekt stammen. Das
ist eine der Erklärungen dafür, warum wir einer Unterhaltung
in einem überfüllten Raum relativ leicht folgen können – un-
2 Mit den Füßen wippen
91
ser Gehirn nutzt die räumliche Position der Person, mit der
wir uns unterhalten, als Anhaltspunkt, um andere Unterhaltungen herauszuÀltern. Als hilfreich erweist sich hierbei auch,
dass die Stimme der Person, mit der wir uns unterhalten, eine
ganz spezielle Klangfarbe hat; diese kann ebenfalls als Gruppierungshilfe dienen.
Auch die Amplitude spielt bei der Gruppierung eine Rolle.
Töne ähnlicher Lautstärke werden als Gruppe wahrgenommen; daher können wir den verschiedenen Melodien in Mozarts Divertimenti für Holzbläser folgen. Die Klangfarben
sind alle sehr ähnlich, aber einige Instrumente spielen lauter
als andere und erzeugen so im Gehirn unterschiedliche Ströme. Es ist, als würde der Klang des Holzbläserensembles beim
Hören einen Filter oder ein Sieb passieren und in verschiedene Teile aufgetrennt, je nachdem, in welchem Bereich der
Lautstärkeskala die Instrumente spielen.
Die Frequenz oder Tonhöhe ist ein wichtiger und grundlegender Aspekt bei der Gruppierung. Wer schon einmal eine
Flöten-Partita von Bach gehört hat, weiß, dass insbesondere
in schneller gespielten Passagen typischerweise manchmal einige Flötentöne scheinbar „hervortreten“ und sich von den
anderen abheben – gewissermaßen als Hörpendant zu den
Bildern in einem Wo ist Walter?-Buch. Bach wusste, dass man
durch große Frequenzunterschiede Töne voneinander trennen kann – um eine Gruppierung zu verhindern – und schrieb
Stücke, die große Tonhöhensprünge von einer reinen Quinte
und mehr enthalten. Die mit einer Abfolge aus tieferen Tönen
abwechselnden hohen Noten erzeugen einen separaten Strom
und vermitteln dem Zuhörer die Illusion, dass zwei Flöten
spielen, obwohl es sich in Wirklichkeit nur um eine handelt.
Das Gleiche geschieht in vielen Violinsonaten von Locatelli. Jodler erzielen durch eine Kombination von Tonhöhe und
Klangfarbe mit ihrer Stimme den gleichen Effekt. Wechselt
92
Der Musik-Instinkt
ein männlicher Jodler in die Falsettstimme, so erzeugt er dadurch eine andere Klangfarbe, die normalerweise mit einem
großen Tonhöhensprung einhergeht; dadurch werden die höheren Töne wiederum in einen eigenen Wahrnehmungsstrom
abgetrennt und vermitteln die Illusion, als sängen zwei Menschen einander überlappende Partien.
Wie man inzwischen weiß, teilen sich die neurobiologischen
Subsysteme für die verschiedenen beschriebenen Eigenschaften von Tönen schon früh auf untere Ebenen des Gehirns
auf. Das legt nahe, dass die Gruppierung über generelle Mechanismen erfolgt, die unabhängig voneinander arbeiten. Es
ist jedoch ebenfalls klar, dass die Eigenschaften miteinander
oder gegeneinander arbeiten, wenn sie auf bestimmte Weise
kombiniert werden. Zudem ist bekannt, dass sich Erfahrung
und Aufmerksamkeit auf die Gruppierung auswirken können,
was darauf hindeutet, dass Teile des Gruppierungsprozesses
unter bewusster kognitiver Steuerung stehen. Wie die bewussten und unbewussten Prozesse zusammenarbeiten und welche Gehirnmechanismen ihnen zugrunde liegen, ist nach wie
vor umstritten. In den letzten zehn Jahren hat man jedoch
wesentliche Erkenntnisse hinzugewonnen. Es ist mittlerweile
möglich, speziÀsche Bereiche im Gehirn zu lokalisieren, die
an bestimmten Aspekten der Musikverarbeitung beteiligt sind.
Man glaubt sogar zu wissen, welche Teile des Gehirns es ermöglichen, dass man sich auf etwas konzentriert.
Wie werden Gedanken gebildet? Werden Erinnerungen in
einem bestimmten Teil des Gehirns „gespeichert“? Warum
setzen sich manchmal Lieder in unserem Kopf fest und wollen
nicht mehr hinaus? Hat das Gehirn vielleicht sogar eine diebische Freude daran, uns mit dümmlichen Werbejingles langsam,
aber sicher in den Wahnsinn zu treiben? Diesen und anderen
Fragen werde ich in den folgenden Kapiteln nachgehen.
http://www.springer.com/978-3-8274-2078-7