Vorlesung Multimediatechnik Prof. Dr. Hans P. Graßl 7. Audiodatenkompression S. 1 D:\_DOCS\METE_WI\07_Audiokompression.lwp 18.05.01 2:58 7. Audiodatenkompression Audiokompression verlustfrei maximal 1:4 da wenig Redundanz in Tönen verlustbehaftet Sprache gute Verständlichkeit geringstmögliche Datenrate Musik guter Klang Originalgetreue Vocoder ("ferngesteuerter Sprachsynthesizer") MP3 (weitestmögliche Überlistung des Gehörs) Auch Audiodaten können zunächst unter Eliminierung vorhandener informationstheoretischer Redundanz (verlustfrei) oder durch bloße Einschränkung der Tonqualität (verlustbehaftet) komprimiert werden. Die damit erzielbaren Kompressionsfaktoren sind jedoch relativ begrenzt. Höhere Kompressionsfaktoren lassen sich erzielen, wenn man im Hinblick auf die erwünschte Tonqualität auf Eigenschaften der menschlichen Tonsignalverarbeitungsfähigkeiten eingeht und daraufhin irrelevante Information eliminiert. Unterscheidung Sprache / Musik Bei Sprachübertragung ist das vorrangige Ziel die Verständlichkeit der zu übermittelnden Sprachlichen Information. Dies kann mit der geringsten Datenrate dann geschehen, wenn, die Sprache ganz ihrer physischen Erscheinungsform entkleidet wird und letztlich etwa nur eine Lautschrift übertragen wird, aus der auf der Empfangsseite eine synthetisch erzeugte Sprachausgabe erfolgt. Dies ist jedoch bei der telefonischen Kommunikation zwischen Menschen i.a. nicht ausreichend oder nicht befriedigend, da nichtverbale Zusatzinfomationen wie Geschlecht und Alter des Sprechers, Stimmungseindrücke im Tonfall, Bedeutungsunterschiede durch Betonung, etc. dabei wegfallen. Ziel der digitalen Sprachübertragung ist daher im Bereich der Telefonie bestmöglicher "Sprachklang" bei geringsmöglicher Datenrate. Bei Musik können die Anforderungen stark variieren, je nach Typ der Musik (U-Musik oder E-Musik) im allgemeinen wird das Ziel höchste Naturgetreue sein. Im Bereich Tonrundfunk können damit die Qualitätsanforderungen wechseln je nachdem ob es sich um Wortsendungen oder Musiksendungen handelt. Moderne Digitale Rundfunkverfah- Vorlesung Multimediatechnik Prof. Dr. Hans P. Graßl 7. Audiodatenkompression S. 2 D:\_DOCS\METE_WI\07_Audiokompression.lwp 18.05.01 2:58 ren, die vor der Einführung stehen können z.T. mit variabler Datenrate und variabler Tonqualtät arbeiten. Bei Digitalen Audiodaten ist immer, um Verwirrungen zu vermeiden, zu unterscheiden zwischen Abtastrate, mit der das analoge Tonsignal abgetastet bzw. schließlich das digitale Signal dem DA-Wandler wieder zugeführt wird (das kann bei verlustbehafteter Kompression u.U. auch eine niedrigere Rate sein als beim Abtasten), und der Bitrate, die man benötigt, um das (komprimierte) Digitalsignal seriell zu übertragen. Beide Größen werden häufig (aber unkorrekterweise) mit der Maßeinheit Hz angegeben. Bei komplexeren Verfahren entspricht nicht mehr jeder analoge Abtastwert einem bestimmten Datenquantum, sondern es entsteht ein verschlüsselter Datenstrom, aus dem erst bei der Dekodierung wieder Abtastwerte zu bestimmten Zeitpunkten entstehen. Bei der Übertragung der digitalen Daten (z.B.) über das Internet ist noch zu berücksichtigen, daß die Daten nicht mit einer gleichmäßigen Datenrate, sondern Paketweise, und mit z.T. unterschiedlichen Laufzeiten ankommen können. verschiedene Audio-Codecs Unter Windows (95/98) werden die verschiedenen Codierungs- und Decodierungsverfahren (“Codecs”) vom Betriebssystem verwaltet, so dass sie den verschiedensten Applikationen zur Verfügung stehen. Unter [Einstellungen > Systemsteuerung > Multimedia > Geräte] ist eine Liste der installierten Audio-Codecs zu finden Vorlesung Multimediatechnik Prof. Dr. Hans P. Graßl 7. Audiodatenkompression S. 3 D:\_DOCS\METE_WI\07_Audiokompression.lwp 18.05.01 2:58 7.1 Kompressionsmethoden ohne Ausnutzung von psychoakustischen Effekten G.711 PCM mit nichtlinearer Quantisierung ( µ-Law , A-Law) Eine Quantisierung von Tondaten im PCM-Code mit 8 Bit Auflösung wird i.a. als unbefriedigend empfunden, da diese Quantisierung bei nicht ausgeschöpfter Aussteuerung (d.h. wenn die Amplitude des Signals den zu Verfügung stehenden Dynamikbereich nicht ausfüllt, also zu leise ist) zu grob ist und im Vergleich zu leisen Signalen ein hörbares Quantisierungsrauschen mit sich bringt. Um z.B. ein Tonsignal mit der Frequenzbandbreite eines Telephonkanals zu digitalisieren, ist eine Abtastrate von 8kHz angebracht. Dies führt bei einer einer Quantisierung mit 14 Bit bereits zu einer Datenrate von 112 kBit/s. Ein digitaler Basiskanal (z.B. ISDN-Kanal) hat aber nur eine Kapazität von 64 kBit/s. Eine für diese Anwendung geeignete und übliche Form der Datenkompression benützt eine logarithmische Quantisierung, (in USA und Japan "µ-Law", in Europa eine leicht unterschiedliche Definition "A-Law"). Den kombinierten Vorgang von Kompression und Expansion bewerkstelligt eine Einrichtung die man "Compander" nennt. Die "µ-law compression" verzerrt das Signal nach folgender Formel: yx log1! x log1! Bei der Wiedergabe wird natürlich diese Verzerrung rückgängig gemacht. Die Größe des Quantisierungsrauschens ist jetzt proportional zur Laustärke und damit bei leisen Stellen gering, während es bei lauten Stellen groß ist. Nichtlineare Quantisierung nach -Law Die Datenkompression mittels nichtlinearer Quantisierungskennlinie bedeutet, daß noch jeder Abtastwert für sich behandelt wird. Jeder Wert wird also für sich hin und zurück umgerechnet. Dies kostet im Prinzip Rechenzeit, die jedoch bei heutigen Rechnern sehr gering ist im Vergleich zur Zeit zwischen zwei Abtastwerten. Bei allen weitergehenden Audiokompressionsverfahren werden dagegen Beziehungen zwischen mehreren aufeinanderfolgenden Abtastwerten ausgenutzt. Dies bedingt automatisch eine zusätzlich zur Rechenzeit auftretende Verzögerungszeit bei der Codierung und bei der Dekodierung zwischen jeweils dem Eingangsdatenstrom und dem Ausgangsdatenstrom. Diese Verzögerungszeiten können so lang werden, daß sie eine Begrenzung für die Verwendbarkeit eines Verfahrens werden können (z.B. bei 2-Weg Übertragungen, Gegensprechen) Vorlesung Multimediatechnik Prof. Dr. Hans P. Graßl 7. Audiodatenkompression S. 4 D:\_DOCS\METE_WI\07_Audiokompression.lwp 18.05.01 2:58 DPCM Als effizienteres Codierungsverfahren mit sehr geringem Rechenaufwand bei der Codierung und Decodierung kann DPCM (Differential Pulse Code Modulation) verwendet werden. Dies beruht auf der Tatsache, daß die Änderung der Amplitude von Abtastwert zu Abtastwert i.a. viel kleiner ist als die Amplitude selbst, so daß der Wertebereich zur Quantifizierung der Änderung geringer sein kann als der zur Quantisierung der absoluten Größe und daher mit weniger Bits quantisiert werden kann. Wenn allerdings beliebig große Stufen im Signal vorkommen können und verfälschungsfrei wiedergegeben werden müssen, so kann die Differenzinformation von Abtastwert zu Abtastwert den gleichen Werteumfang annehmen wie das Signal selbst, und zumindest kann bei fester Codelänge dann keine Datenkompression erreicht werden. Allerdings ist die Wahrscheinlichkeit für hohe Werte bei der Differenzcodie-rung wesentlich geringer als bei PCM die Wahrscheinlichkeit gleich hoher Absolutwerte. Mit variabler Codelänge kann eine verlustlose Codierung bei gleichzeitig merklicher Kompression erreicht werden. Bei einer festen Abtastrate kann man jedoch variable Codelängen nur mit einen "elastischen" Zwischenspeicher mit Vorteil verarbeiten, da ja die Aufnahme und Wiedergabe von einer konstanten Datenrate ausgehen. Die andere Möglichkeit ist, bei der DPCM große Sprünge der Werte nur fehlerhaft, also verlustbehaftet zu codieren, da diese Fälle seltener vorkommen und der Verlust nicht sehr ins Gewicht fällt. Insofern ist die DPCM schon nicht mehr unter die verlustlosen Kompressionsverfahren zu rechnen, wenn man es genau nimmt. Ein weiteres Problem bei einer differentiellen Codierung ist, daß sich Fehler fortpflanzen können. ADPCM Eine verbesserung der DPCM erreicht man, indem ein variabler, laufend angepaßter Skalierungsfaktor verwendet wird, der die mit wenigen Bits codierten Differenzwerte jeweils skaliert. Dies nennt man eine Adaptive DPCM (ADPCM). . Vorlesung Multimediatechnik Prof. Dr. Hans P. Graßl 7. Audiodatenkompression S. 5 D:\_DOCS\METE_WI\07_Audiokompression.lwp 18.05.01 2:58 7.2 Audiokompression unter Berücksichtigung von Psychoakustik Audiokompressionsverfahren, die nur versuchen, die Redundanz der Schalldaten an sich zu eliminieren können nicht sehr effizient sein, denn es ist schwer, nach rein informationstheoretischen Gesichtspunkten die Redundanz von Schalldaten zu ermitteln, da keine Statistik von Schalldaten vorgegeben ist, die als Maßstab dafür verwendet werden kann, wie groß der Informationsgehalt eines Bytes oder Wortes aus einem Schall-Datensatz ist. Der mehr versprechendere Weg besteht hier darin, Informationsdetails, die das menschliche Gehör gar nicht wahrnehemen kann, vorzugsweise zu eliminieren. Die Datenrate, die über den Hörnerv an das Gehirn läuft ist schließlich auch sehr viel geringer, als die Datenrate, die man aus der Bandbreite des Hörspektrums gemäß dem Abtasttheorem und einem realistischen Dynamikbereich des Gehörs zwischen leisesten und lautesten Tönen errechnen kann. 7.2.1 Einige physiologische und psychoakustische Gegebenheiten als Voraussetzungen für effiziente Audiokompression Aufbau des Ohrs: Außenohr Mittelohr Innenohr Gehörknöchelchen Gehörschnecke (ausgerollt gezeichnet) Trommelfell Basilarmembran Verbindung zum Rachenraum Aus dem Aufbau und der Funktionsweise des Ohres werden einige psychoakustische Fakten verständlich: Das Ohr besteht aus dem Außenohr mit der Ohrmuschel und dem Gehörgang, der den Luftschall bis zum Trommelfell leitet, einer Membran, die den Außenraum abschließt. Im ebenfalls luftgefüllten Mittelohr wird der Schall jedoch nicht durch die Luft, sondern als Körperschall mechanisch durch die Gehörknöchelchen vom Trommelfell auf das Innenohr übertragen. Das Innenohr ist eine flüssigkeitsgefüllte schneckenförmig aufgerollte Röhre, die der Länge nach durch die Basilarmembran in zwei Kammern geteilt ist. Durch die Gehörknöchelchen wird durch eine feine Membran der Schall in die Flüssigkeit in einen Kammer der Gehörschnecke eingekoppelt und damit wird die Basilarmembran zu Schwingungen angeregt. Die Basilarmembran enthält das eigentliche Sinnesorgan, das die Signale über den Hörnerv an das Gehirn sendet. Auf der Basilarmembran sitzen feine "Haarzellen", die bei Schwingun- Vorlesung Multimediatechnik Prof. Dr. Hans P. Graßl 7. Audiodatenkompression S. 6 D:\_DOCS\METE_WI\07_Audiokompression.lwp 18.05.01 2:58 gen der Basilarmembran in Bewegung gesetzt werden, wodurch elektrische Impulse in entsprechenden Nervenzellen, die mit dem Hörnerv verbunden sind, entstehen. Die Basilar-membran wird durch den Schall in der Flüssigkeit in solcher Weise zu Schwingungen angeregt, daß die maximale Anregungsamplitude je nach Frequenz an verschiedenen Orten der Basilarmembran auftritt. Beschränkte Unterscheidungsfähigkeit verschiedener gleichzeitig erklingender Töne Der Bereich, der bei Erklingen eines Tones angeregt wird, ist bei verschiedenen Tonhöhen verschieden ausgedehnt. Wenn zwei benachbarte Töne gleichzeitig erklingen so können diese nur dann als zwei Töne wahrgenommen werden wenn sie einen gewissen Abstand in der Frequenz haben. Wenn sie näher beieinander liegen, dann werden Sie wie ein einziger Ton mit gewisser Rauhigkeit, oder auch periodisch moduliert wahrgenommen. Kritisches Band Frequenz der Tonempfindung glatt Schwebung glatt 10 Hz rauh rauh 0 Frequenzdifferenz Kritische Bänder Aufgrund der begrenzten Frequenzauflösungsfähigkeit (für gleichzeitig erklingende Töne) läßt der hörbare Frequenzbereich in so genannte “kritische Bänder” einteilen. Dies ist auf das begrenzte räumliche Auflösungsvermögen der Basilarmembran zurückzuführen. Die kritischen Bänder haben etwa eine Breite von 100 Hz im Frequenzbereich unter 500 Hz und nehmen mit der Frequenz in der Breite zu. Der gesamte Bereich hörbarer Frequenzen kann so in etwa 26 kritische Bänder eingeteilt werden. Der Frequenzbereich des Telefons, (300 bis 3400 Hz) in etwa 15 kritische Bänder (daraus ist schon ersichtlich, daß die höheren Frequenzen der gesamten Hörfrequenzbereichs psychoakustisch relativ unbedeutend sind). f kritische Bänder Vorlesung Multimediatechnik Prof. Dr. Hans P. Graßl 7. Audiodatenkompression S. 7 D:\_DOCS\METE_WI\07_Audiokompression.lwp 18.05.01 2:58 Frequenzmäßige und zeitliche Maskierungseffekte Frequenzmäßige Verdeckung Ein Effekt, der mit der räumlichen Anregung der Basilarmembran zusammenhängt, ist der Frequenz-Maskierungseffekt. Laute Töne machen die gleichzeitige Wahrnehmung leiser Töne in einer gewissen Frequenzumgebung unmöglich. Im nachfolgenden Diagramm ist angedeutet wie durch einen Ton die Hörschwelle in seiner Umgebung für weitere, leisere Töne (= Mithörschwelle) angehoben wird, d.h. die Empfindlichkeit verringert wird. 80 dB 40 maskierender Ton maskierter Ton durch M askierung angehobene H örschw elle 0 0,02 0,1 0,2 0,5 1 2 5 10 20 kH z Nutzanwendung der frequenzmäßigen Verdeckung: Da der Abstand zwischen der Hörschwelle und der oberen Lautstärkegrenze (Dynamikbereich) dafür maßgeblich ist, wie fein ein Ton quantisiert werden muß, d.h. wieviele Bits pro Abtastwert verwendet werden müssen um alle möglichen Lautstärken zwischen der leisesten hörbaren und der lautesten darzustellen folgt: Bei einer anhebung der Hörschwelle (in einem gewissen Frequenzbereich) brauchen für Töne in diesem Bereich weniger Bits pro Abtastwert verwendet werden, damit der aktuelle (verringerte Dynamikbereich) richtig übertragen werden kann. Zeitliche Maskierung Dabei gibt es zusätzlich zu dieser Frequenzmaskierung eine zeitliche Maskierung: D.h. kurze Zeit sowohl vor als auch nach einem lauten Schallereignis ist der betreffende Eingangskanal unempfindlicher als nach einer Periode der Stille. Die Tatsache, daß vor einem lauten Ton ein leiserer weniger wahrgenommen wird spricht dafür, daß die Speicherung von zeitlich aufeinanderfolgenden Reizen beeinflußt wird. Auch die zeitliche Maskierung kann ausgenutzt werden indem kurz vor oder nach lauten Stellen der Klang, dort wo die Hörschwelle durch die Maskierung angehoben ist, mit gröberer Quantisierung und damit Bit-sparend codiert wird. Vorlesung Multimediatechnik Prof. Dr. Hans P. Graßl 7. Audiodatenkompression S. 8 D:\_DOCS\METE_WI\07_Audiokompression.lwp 18.05.01 2:58 7.2.2 Prinzip der Nutzung der begrenzten Frequenzauflösung des Ohres und des Maskierungseffektes zur Audiodatenreduktion Grundsätzlich kann man versuchen, die ans Ohr anzuliefernde Informationsmenge auf das zu reduzieren, was vom Gehör auch psychoakustisch nur tatsächlich aufgenommen werden kann. Das Audiosignal kann dann nach der Decodierung des Signals beträchtlich vom Originalsignal abweichen, und trotzdem u.U. selbst für einen äußerst kritischen Höhrer in der Qualität nicht vom unreduzierten Originalsignal unterscheidbar sein, also nach wie vor z.B. "CD-Qualität" Subbandcodierung Die begrenzte Frequenzauflösung des Gehörs kann man sich durch eine sogennante Subbandcodierung zunutze machen. Weil der Gehörvorgang im Ohr physisch tatsächlich über eine Frequenzanalyse führt, nämlich die räumlich je nach Frequenz verschieden angeregte Basilarmembran, ist es ein erfolgreich zu nutzender Weg, wenn man das zu codierende zeitliche Tonsignal in den Frequenzbereich transformiert und dort Information eliminiert, die bei der Signalverarbeitung durch das Gehör (Ohr + Hörnerv + Gehirn) ohnehin vorloren geht. Durch eine diskrete Fouriertransformation (z.B. FFT), kann man ein endliches zeitliches Intervall T eines zeitlichen Signalverlaufs, der durch m Abtastwerte repäsentiert ist, in sein Spektrum umrechnen, das durch eine gleich große Anzahl von m Frequenzamplituden dargestellt wird. m Abtastwerte Zeit Filterbank D CT wenige Subbandsignale m Spektralkomponenten Frequenz Die zeitliche Abfolge der einzelnen Spektralwerte ist so, dass nur alle m Abtastintervalle im ursprünlgichen Signal ein neuer Spektralwert anfällt. Wenn nun aber das Ohr gar nicht in der Lage ist, soviele diskrete Frequenzen gleichzeitig wahrzunehmen, wie eine Fouriertransformation ergibt, sondern nur 26 Frequenz-Subband-Signalamplituden, dann ist es naheliegend, die vielen, eigentlich aufgelösten Frequenzkanäle in nur wenigen, (z.B. 2 5 =32) Subbandsignalen durch Mittelwertbildungen nur summarisch zu repräsentieren. Dies geschieht mit Hilfe einer Filterbank, die aus den 32 Teilspektren nur je eine mittlere Amplitude bilden, die z.B. der Energie in dem jeweiligen Subband entspricht. Bei diesem Vorgang der Mittelwertbildung geht also eine Menge Information verloren, welche aber vom Ohr ohnehin nicht wahrgenommen werden kann. Die "Filterbank" besteht natürlich nicht aus physischen Frequenzfiltern, sondern wird durch digitale Rechenalgorithmen realisiert; ebenso die Mittelwertbildung über die Subbänder. Durch die Reduzierung der Frequenzauflösung ist also die Menge der Daten, die pro Zeiteinheit übertragen oder abgespeichert werden müssen schon wesentlich reduziert. Vorlesung Multimediatechnik Prof. Dr. Hans P. Graßl 7. Audiodatenkompression S. 9 D:\_DOCS\METE_WI\07_Audiokompression.lwp 18.05.01 2:58 Adaptive Quantisierung unter Berücksichtigung des Maskierungseffektes Nach Reduzierung des Spektrums mit hoher Auflösung in eine Repräsentation mit wenigen Subbändern kann noch die Quantisierungstiefe in jedem der Spektralen Subbänder minimiert werden indem berücksichtigt wird, wo gerade im jeweiligen Subband aufgrund der Lautstärke in den benachbarten Bändern die Mithörschwelle liegt. Durch den Frequenz-Maskierungseffekt wird ja die spektrale Empfindlichkeit des Ohres jeweils in der Nachbarschaft von lauten Bereichen verringert. Vorlesung Multimediatechnik Prof. Dr. Hans P. Graßl 7. Audiodatenkompression S. 10 D:\_DOCS\METE_WI\07_Audiokompression.lwp 18.05.01 2:58 7.3 Verfahren mit Nutzung von psychoakustischem Modell (wahrnehmungsbasierte Audiokompression) Die folgenden Tonkompressionsverfahren benützen die Möglichkeiten der Psychakustik in verschiedenem Maße. Sie unterscheiden sich je nach gewünschtem Kompressionsgrad und benötigter Tonqualität, sowie je nach möglichen Fehlerquellen, z.B. beim Abspeichern oder der Übertragung über einen gestörten Kanal. Bei Übertragung über Funkkanäle ist beispielweise eine höhere Fehlertoleranz erforderlich bzw. darf der auftretende Qualitätsverlust bei zunehmenden Übertragungsfehlern nicht katastophal sein sondern graduell zunehmen ("graceful degradation" = würdevolle Verschlechterung"), da das Störempfinden beim Hören schlechter Tonqualität sehr empfindlich reagiert. MPEG Audio-Codierung: Layer -1, -2, -3 MPEG ist der Name für eine Expertenorganisation, die sich um die Standardisierung von Videodaten kümmert (Motion Pictures Expert Group) Der MPEG-Standard ist international genormt und besteht aus drei Teilspezifikationen für Bild-, Ton- und Systemdaten, welche zusammen die koordinierte Übertragung von Bild und Ton von digitalem Video oder von digitalem Fernsehen ermöglichen sollen. Die verschiedenen Audio-Kategorien (Qualitätstufen) Layer -1, -2 und -3 sind nicht zu verwechseln mit den "Phasen" (Generationen, Entwicklungsstufen) MPEG-1, -2 und -4 für Video-Kompression (siehe nächstes Kapitel) Da es sich bei den MPEG-Audio-Standards um zunächst Tonstandards zur Begleitung von Videos handelt, die ohnehin sehr hohe Datenraten erfordern, ist das Hauptziel dieser Audio-Kompressionsverfahren nicht die Datenkompression für Sprache allein mit dem Ziel extrem niedriger Datenraten, sondern für die kompakte Codierung aller möglichen Klänge mit dem Ziel guten passablen Klangqualität für die jeweilige Anwendung. Es wurde daher zunächst von Ton mit hohen Abtastraten ausgegangen, um eine Beschneidung der Frequenzbandbreite zu vermeiden. MPEG-Schichten und MPEG-Phasen (Generationen) Der MPEG-Audio- Standard für sich eignet sich auch für Tonrundfunkübertragungen allein (ohne Video). Die Substandards Layer-1 und -2 wurden von Philips und dem Institut für Rundfunktechnik (IRT) in München entwickelt (MUSICAM Audiocodierung für DAB (Digital Audio Broadcasting)) und von MPEG adaptiert. Die Eckdaten der drei MPEG Audio-Schichten sind in folgendem Schema dargestellt. Orientierungspunkt des MPEG-Standards ist hauptsächlich die hochqualitative Tonübertragung, für die die sogenannte "CD-Qualität" der Maßstab ist, der sozusagen nicht zu überbieten ist. Vorlesung Multimediatechnik Prof. Dr. Hans P. Graßl 7. Audiodatenkompression S. 11 D:\_DOCS\METE_WI\07_Audiokompression.lwp 18.05.01 2:58 MP3 Das Format, das heute als MP3 für Sounddatenkompression sehr populär und bekannt geworden ist, ist eigentlich die so genannte Layer 3 des MPEG-Audio-Standards Das Verfahren arbeitet mit einer zweistufigen Umsetzung der Wellenformdaten in Spektrale Information, so dass schließlich ein Spektrum mit 576 diskreten Frequenzbändern vorliegt. Parallel zur Berechnung der Spektralen Information wird die Berechnung der jeweiligen Hörschwellen bei den verschiedenen Frequenzen berechnet. Die zeitliche Aktualisierung der Hörschwelleninformation ist wesentlich langsmer als die Abtastfrequenz der Kanalinformationen in den einzelnen Frequenzkanälen. Die so ermittelten Informationen [ a) der zeitliche Verlauf der Amplituden in den Frequenzkanälen und b) die Informationen über den zeitlichen Verlauf der Hörschwellen in den Kanälen und die resultierende minimal nötige Quantisierungsskalen ] werden dann noch nach redundanzminimierenden verlustreien Verfahren (Huffman-Codierung) kodiert und die verschiedenen Informationsströme in einen einzigen gemeinsamen seriellen Datenstrom gefädelt. Auf diese Weise kann man mit dem MP3 Verfahren Musik in “CD-Qualität”, d.h. den ganzen hörbaren Frequenzbereich mit einer Grunddynamik von 96 dB in zwei Stereokanälen, was unkomprimiert (PCM-kodiert) eine Datenrate von (44,1hHZ x 16bit x 2 Kanäle) = 1,41 Mbit/sec erfordert, auf eine Datenrate von 128 kbit/sec reduzieren. Dies entspricht einem Kompressionsfaktor von 11. Es gibt noch viele weitere Tonkompressionsverfahren: z.B. das bei Minidisk verwendete Verfahren ATRAC. Eine Minidisk kann nur ca. ¼ der Datenmenge speichern, die eine Audio-CD fasst, kann jedoch die gleiche Abspieldauer auf einem Medium unterbringen. Dies macht ein Audio-Kompressionsverfahren notwendig, das im Verhältnis 4:1 komprimiert, ohne dass ein Qualitätsverlust wahrnehmbar ist. Vorlesung Multimediatechnik Prof. Dr. Hans P. Graßl 7. Audiodatenkompression S. 12 D:\_DOCS\METE_WI\07_Audiokompression.lwp 18.05.01 2:58 7.4 Tonkompressionsverfahren für extrem niedrige Datenraten Für die Übertragung von Sprache ist, wie seit langem bekannt ist, nur eine Bandbreite von ca 3kHz nötig um eine verständliche Sparachqualität zu erreichen. Bei einer dem angepaßten Abtastrate von 8kHz und einer Quantisierungstiefe von 8 bit erhält man damit bereits eine Bitrate von 64 kB/s. Dies ist für viele Anwendungen bereits eine zu hohe Datenrate. Im digitalen Mobiltelefonsy-stem nach dem GSM-Standard steht für einen Gesprächskanal nicht einmal diese Datenrate zur Verfügung. Es wurden deshalb speziell zur Übertragung von Sprachsignalen Kompressionsverfahren entwickelt, die noch wesentlich geringere Datenraten erreichen. In Windows 95/98 ist bereits ein standardmäßig ein Kompressionsverfahren (G.723) eingebaut, das unter dem Namen TrueSpeech 8.5 geführt wird. Damit kann beispielsweise eine Kompression von Klängen mit einer Abtastrate von 5,5kHz (was noch für eine verständliche Sprachwiedergabe ausreicht) auf eine Datenrate von 7,7 kbps erreicht werden) Vocoder Toncodierungssysteme speziell für Sprache nennt man auch Vocoder (Voice Encoder) Die extremsten Vocoder benutzen ein Modell des menschlichen Stimmapparats und extrahieren aus dem Tonsignal einer Sprachnachricht Parameter, die anhand des Modells des Sprachtrakts Töne erzeugen, die so klingen, wie die zu übertragende gesprochene Sprache. Was dabei jedoch nur übertragen wird ist der zeitliche Fluß der sich gemäß dem Sprachfluss ändernden Parameter, die zur Erzeugung des Sprachklanges mit einem entsprechenden Organ notwendig sind. Dies kann man sich etwa so vorstellen, als ob man statt Tönen nur Steuerinformationen für Stimmbandspannung, Mund und Lippenbewegungen, Luftströmung in der Luftröhre und dgl. übertragen würde und damit eine Sprechmaschine steuerte. Die nächste Stufe der Abstraktion wäre dann, dass man statt Toninformationen nur Textdaten (also Schriftzeichen) überträgt, und daraus eine Sprechstimme synthetisch steuert (Text-to-Speech). Solche Sprachsyntheseprogramme gibt es bereits in guter Qualität. Die Schwierigkeit bei der Sprachübertragung nach dieser Methode liegt vielmehr in der Umwandlung von gesprochener Sprache in geschriebenen Text (Spracherkennung). Auch solche Programme gibt es bereits mit erstaunlicher Leistung. Allerdings ist die Zuverlässigkeit der Spracherkennung, obwohl schon bei weit über 90%, doch für den Alltagsgebrauch noch sehr unbefriedigend. Vorlesung Multimediatechnik Prof. Dr. Hans P. Graßl 7. Audiodatenkompression S. 13 D:\_DOCS\METE_WI\07_Audiokompression.lwp 18.05.01 2:58 7.5 Tonkodierungsverfahren für Synthetische Klänge Bei der wahrnehmungsbasierten (perzeptiven) Audiokompression wird die Datenkompression dadurch erreicht, dass Daten weggelassen werden, deren Inhalt vom Ohr nicht wahrgenommen werden können. Dazu muß zuerst eine Transformation der Information vorgenommen werden, die die Trennung dieses Anteils der Information von dem für das Gehör wahrnehmbaren Anteil überhaupt zulässt. Die Verfahren für Sprachkodierung (Vokoder) beruhen dagegen eher auf einer Modellierung der menschlichen Stimme. Man spricht daher auch in diesem Bereich von modellbasierter Audiokompression. Dabei wird ein Modell für die Tonerzeugung konstruiert, das es erlaubt, nur Parameter zu übertragen, die bei bekanntem Modell für die laufende Tonerzeugung benötigt werden. Wenn das Modell selbst nicht vordefiniert ist, dann müssen bei Beginn der Übertragung oder im Laufe der Übertragung immer wieder auch Parameter übertragen werden, die die Definition des Modells selbst ermöglichen, d.h. es müssen Daten übermittelt werden, die z.B. aus einem allgemeinderen Modell der menschlichen Stimme die spezifische Stimme eines bestimmten Sprechers definieren, wobei sich dieses Modell im Laufe der Zeit auch ändern kann, wenn z.B. der Sprecher heiser wird, oder sein Gemütszustand sich ändert (z.B. zuerst freundlich, dann wütend) Die modellbasierte Audiokompression lässt sich auch im Prinzip auf Musik anwenden. Dies läßt sich z.B. so verstehen, dass man die Tonaufnahme eines Klavierstückes nur eine Datei übermittelt, die die Information enthält wann welche Taste des Klaviers mit welcher Stärke gedrückt wurde. Damit ist es im Prinzip möglich, an einem anderen Ort mit einem Computergesteuerten Klavier dasselbe Stück mit allen Feinheiten wiederzugeben, wie sie ein großer Pianist gespielt hat. Verloren geht dabei allerdings die Information, wie die Akustik des Konzertsaals den Klang des Klavierstücks beeinflußt. Außerdem gehen die Feinheiten des Klangs des Originalklaviers verloren, wenn das computergesteurte Wiedergabeklavier nicht identisch aufgebaut ist im Vergleich zum Originalklavier, so dass z.B. interne Resonanzen des Intstruments anders sind. 7.5.1 MIDI-Standard Ein Versuch eines Datenstandards zur Steuerung von elektrischen/elektronischen Musikinstrumenten ist der MIDI-Standard (Music Instrument Digital Interface). In einer MIDI-Datei sind also folgende Informationen enthalten: angesprochenes Instrument Beginn und Ende einer Note Grundfrequenz und Lautstärke der Note Mit diesen Daten können entweder echte Musikinstrumente mit elektrischer Steuerung, oder Synthesizer, d.h. Hardware (oder in Software emulierte Hardware) zur synthetischen Klangerzeugung, gesteuert werden. Allerdings enthalten die MIDI-Daten quasi nur Namen der verwendeten Instrumente. Jeder Synthesizer kann daraus andere Klänge machen. Durch eine MIDI-Datei, die dem MIDI-Standard entspricht ist also der Klang beim Abspielen der Datei nicht wirklich festgelegt, so wie etwa eine Partitur auch nicht festlegt, wie ein Musikstück wirklich klingt. (Es kann z.B. der Part einer Geige auch von einer Flöte gespielt werden und dann klingt es entsprechend anders). Aber abgesehen von der Unbestimmtheit der klanglichen Wiedergabe bedeutet die Kodierung eines Musikstückes eine sehr gewaltige Datenreduktion gegenüber einer Tonaufnahme des entsprechenden Musikstückes. Man kann also auch hier von Audiokompression sprechen. Als Beispiel: Ein Bach-Stück von 8 Minuten Dauer kann in einer MIDI-Datei von 50 kB kodiert sein, während eine CD-Aufnahme von 8 Minuten in PCM-Codierung einen Umfang von 84 MB hat, also 1700 mal so umfangreich ist. Bach_bwv10521_mid.wav Vorlesung Multimediatechnik Prof. Dr. Hans P. Graßl 7. Audiodatenkompression S. 14 D:\_DOCS\METE_WI\07_Audiokompression.lwp 18.05.01 2:58 7.5.1 MPEG-4 Structured Audio Im MPEG-4 Standard, der sich mit der Codierung von umfassenderen multimedialen Darstellungen unter Einbeziehungen hauptsächlich von synthetischen Video- und Audio-Elementen befasst wurde das in MIDI noch ungelöste Problem angegangen, dass beim Abspielen der MIDI-Daten der Klang nicht eindeutig spezifiziert ist. Unter dem Stichwort “Structured Audio” (SA) wird dort ein Schema beschrieben, mit dem zur Darstellung von Musik zuerst Tonquellen (also etwa Musikinstrumente) in einer Weise durch Signalverarbeitungsalgorithmen definiert werden können, dass ihr Klang eindeutig wird. Das kann z.B. eine rechnerisches Modell sein, das das physikalische Verhalten einer gezupften und dann schwingenden Saite wiedergibt. So ein Modell enthält dann jeweils einige wenige Parameter, die dann zum Aufbau von komplexeren Instrumenten und schließlich ganzen Orchestern herangezogen, und letzten Endes zur Darstellung eines Musikstückes herangezogen werden können. Es wird also in einer solchen Audio-Datei zuerst das Orchester mit all seinen relevanten Parametern, welche die möglichen Klänge genau definieren, spezifiziert, und dann werden die Daten angefügt, die notwendig sind, um dieses Orchester ein bestimmtes Musikstück spielen zu lassen. In diesem Schema könnte auch die menschliche Stimme oder die verschiedener Tiere, sowie die Geräusche, die Gegenstände verursachen, (Blätterrauschen, Schritte auf Asphalt, ... u.s.w.) als Instrumente spezifiziert werden, und so schließlich Klänge synthetisiert werden, wie man sie etwa in einem Zoo mit dem Mikrophon aufnehmen könnte. Vorlesung Multimediatechnik Prof. Dr. Hans P. Graßl 7. Audiodatenkompression S. 15 D:\_DOCS\METE_WI\07_Audiokompression.lwp 18.05.01 2:58 Fragen: Welche verschiedenen Anforderungen stellen Musik einerseits und Sprache andererseits an ein entsprechendes effizientes Audiokompressionsverfahren? Welche psychoakustischen Effekte werden bei Audiokomressionsverfahren, (etwa nach MP3) ausgenutzt um irrelavante Information von rlevanter zu trennen? Beschreiben Sie diese Effekte in eigenen Worten! Wie verhalten sich die Begriffe MPEG-1, MPEG-2, MPEG-4 zueinander? Was bedeutet die Unterscheidung “Layer 1”, “Layer 2”, Layer 3” bei MPEG-Audiokodierung? In wieviele Kanäle (Subbänder) wird bei MP3 das Klangspektrum aufgeteilt? Worin besteht der Datenkompressionseffekt bei der Aufspaltung in Subbänder? Wozu dient die bei MP3 zusätzlich zur Aufspaltung in Subbänder stattfindende Fouriertransformation? Was für Informationen werden schlißlich im MP3 Datenstrom übertragen? Wie groß ist etwa der Kompressionsfaktor bei MP3 für Musik in CD-Qualität ohne wahrnehmbaren Qualitätsverlust? Welches Audiokompressionsverfahren wird bei der (magnetooptischen, wiederbeschreibbaren) Minidisk verwendet? Welches Prinzip wird bei der Tonkomprimierung für Sprache mit dem Ziel möglichst niedriger Datenrate angewandt? Was für eine Art von Information wird im MIDI-Dateiformat gespeichert? Was ist beim MIDI-Format unbefriedigend und wie wird das m it “Structured Audio” unter MPEG-4 besser gelöst?