Universität Bayreuth Angewandte Medienwissenschaft: Digitale Medien Geschichte und Technik Digitaler Medien 08 – Audiokompression Prof. Dr. Jochen Koubek Dienstag, 10. Juli 2012 Sommersemester 2012 Hörphysiologie Dienstag, 10. Juli 2012 Ohr Aussenohr Mittelohr Innenohr Dienstag, 10. Juli 2012 Aussenohr Dienstag, 10. Juli 2012 Mittelohr A1 = 55mm² A2 = 3,2mm² vF=55/3,2 = 17 Aufgrund der Längenverhältnisse der wirksamen Hebelarme der Gehörknöchelchen und ihrer Lage zueinander, wird die Auslenkung der Steigbügelfußplatte gegenüber der Auslenkung am Trommelfell um den Faktor 1,3 vermindert. Unter Anwendung des Hebelgesetzes F1 · l1 = F2 · l2 bedeutet dies, daß die Kraft auf die Steigbügelfußplatte um den gleichen Faktor verstärkt wird. vH = 1,3 v = vF · vH v = 17 · 1,3 v = 22 http://www.dasp.uni-wuppertal.de/ars_auditus/physiologie/mittelohr12.htm Dienstag, 10. Juli 2012 Innenohr Dienstag, 10. Juli 2012 Schnecke Dienstag, 10. Juli 2012 Basilarmembran Länge: 35 mm Dienstag, 10. Juli 2012 Barkhausen-Bänder 1 Bark = 1,3 mm Basilarmembran-Länge Dienstag, 10. Juli 2012 Hahrzellen 3 Äußere, 1 Innere Reihe, 15.000 Zellen Dienstag, 10. Juli 2012 Hörschäden Intakte Cochlea (oben), zerstört nach Überstimulation (unten) Dienstag, 10. Juli 2012 Akustik Dienstag, 10. Juli 2012 Schallwellen Dienstag, 10. Juli 2012 Schalldruck Druck ist das Verhältnis von Kraft zu Fläche, auf die diese Kraft senkrecht wirkt. (Pa = N/m2) Durch Schwingungen der Masseteilchen entstehen in der Schallwelle Druckschwankungen. Den Effektivwert dieses Druckes bezeichnet man als Schalldruck p. Er wird gemessen in N/m2 bzw. in Mikrobar [µb] (1 µb = 0,1 N/m2). Dienstag, 10. Juli 2012 Hörschwelle Dienstag, 10. Juli 2012 Maskierung Dienstag, 10. Juli 2012 Ton Ein Ton ist eine Schallwelle mit einer einzigen Frequenz. Schalldruck p eines Sinustons p(t) = Asin(2 π f t) Dienstag, 10. Juli 2012 Klang Ein Klang besteht aus einem Grundton und einer Anzahl von Obertönen, welche die Klangfarbe bestimmen. Dienstag, 10. Juli 2012 Klang Ein Klang besteht aus einem Grundton und einer Anzahl von Obertönen, welche die Klangfarbe bestimmen. Dienstag, 10. Juli 2012 Klang Ein Klang besteht aus einem Grundton und einer Anzahl von Obertönen, welche die Klangfarbe bestimmen. Dienstag, 10. Juli 2012 Klang Ein Klang besteht aus einem Grundton und einer Anzahl von Obertönen, welche die Klangfarbe bestimmen. Dienstag, 10. Juli 2012 Klang Ein Klang besteht aus einem Grundton und einer Anzahl von Obertönen, welche die Klangfarbe bestimmen. Dienstag, 10. Juli 2012 Geräusch Ein Geräusch ist ein beliebiges Frequenzgemisch ohne erkennbare Obertonstruktur. Dienstag, 10. Juli 2012 Rauschen Dienstag, 10. Juli 2012 Rauschen Dienstag, 10. Juli 2012 Rauschen Dienstag, 10. Juli 2012 Lärmquelle Schmerzgrenze startendes Düsenflugzeug Presslufthammer Fabriken und Werkstätten starker Straßenverkehr normale Unterhaltung in 1 m Abstand Bahnhofshalle, Stadion großes Büro Ladengeschäft Autowerkstatt Auto bei 80 km/h Hotel, Zimmer Wohnung in einer Großstadt Wohnung auf dem Land leerer Hörsaal leere Kirche Klassenzimmer ohne Schüler Fernsehstudio ohne Publikum Aufnahmestudio Flüstern Hörschwelle Dienstag, 10. Juli 2012 Hören Lärmpegel in dB-SPL 130 120 97 50-75 68 65 55-65 60-65 45-60 55 45-50 42 40 30 25-35 30 30 25-35 20-30 10-20 0-5 Lärm: Zwischen Hörgrenze und Schmerzgrenze Aufnahme und Kompression Dienstag, 10. Juli 2012 Aufnahme: Mikrofone Dienstag, 10. Juli 2012 Digitalisieren: Soundkarte Line: 500 mV - 2 V Mic: 5 mV - 50 mV Dienstag, 10. Juli 2012 Nyquist-Theorem Abtasttheorem Ein Signal der Maximalfrequenz f muss mit mehr als 2*f abgetastet werden, damit aus den Samples das Ausgangssignal vollständig rekonstruiert werden kann. Liegen Samples mit der Abtastfrequenz g vor, dann lassen sich daraus lediglich Signalfrequenzen bis maximal g/2 rekonstruieren. Dienstag, 10. Juli 2012 Pulskode: Amplitudenmodulation 1011 1011 1010 1000 0111 1000 1010 1101 1110 1101 1010 0111 0100 0111 0100 0110 1000 1000 0110 0100 0010 0001 0011 0110 1001 1011 1100 1010 1000 0111 0100 1010 1100 11 11 10 08 07 08 10 13 14 13 10 07 04 03 04 06 08 08 06 04 02 01 03 06 09 11 12 10 08 07 08 10 12 Dienstag, 10. Juli 2012 Digitale Tonformate Audio CD .IFF, .AIF, .AIFF Audio Interchange File Format Proprietäre Formate .WAV Windows .RAM Real Player .AU SUN/Unix Verlustfreie Audiokompression Flac - Free Lossless Audio Codec Offene Kompressor-Standards .MP3 MPEG-1, Layer III (1988/1994) .AAC MPEG-2 Advanced Audio Coding (1997 .ogg Ogg-Vorbis (1993/2002) Digitale Notation .MID, .MIDI Musical Instruments Digital Interface Dienstag, 10. Juli 2012 Dienstag, 10. Juli 2012 AIFF Contains information about the sampled sound such as the sampling rate and sample size. Contains markers that point to positions in the sound data Defines basic parameters that an instrument (such as a sampling keyboard) can use to play back the sound data Contains the sample frames that comprise the sampled sound Dienstag, 10. Juli 2012 Verlustfreie Kompression (auch für Tondaten möglich) Dienstag, 10. Juli 2012 Free Lossless Audio Codec – FLAC Reduktion 1:2 bis 1:3, langsam Dienstag, 10. Juli 2012 Free Lossless Audio Codec Blockung: Die Eingabedaten werden in Blöcke unterschiedlicher Länge, abhängig von Abtastrate, Spektralverteilung in der Zeit u.a. abhängen. Kanalabhängigkeiten: Alle Kanäle sollen verlustfrei erhalten bleiben. Bei Stereo wird typischerweise eine Summe (ein Durchschnittswert) und eine Differenz der Kanäle gebildet. Prädiktion: Es werden feste Kodierer und Dekodierer vereinbart. Das Signal eines Blockes wird mit einem festen parametrisierten Verfahren grob angenähert. Diese Parameter, die im Regelfall deutlich kompakter als das Signal sind, werden übertragen. Korrekturkodierung: Die Differenz zwischen Eingabeblock und seiner Prädiktion wird berechnet und verlustfrei kodiert. Ziel ist es, dass Prädikation und Korrekturkodierung kleiner als das Eingabesignal wird. Dienstag, 10. Juli 2012 Verlustfreie Codecs Dienstag, 10. Juli 2012 Audio CD Audio CDs speichern unkomprimierte Stereosignale auf 2 Tonspuren mit 44,1 KHz Abstastrate, womit ein Tonumfang von etwa 20Hz bis 20000 Hz darstellbar ist. Der Ursprung für diese Zahlen liegt in der Sony U-Matic: 294 (PAL-Halbbilder) * 50 (pro Sekunde) * 16 (Bit Auflösung) = 1.411.200 Bit/s /32 (16 Bit Lautstärkeauflösung bei 2 Kanälen) = 44.100 Bit/s Datenmenge (Bit) = Auflösung (Bit) * Abtastrate (Hz) * Kanäle * Zeit 1 Minute ~ 10,1 MB Das gespeicherte Signal ist in mehreren Ebenen fehlerkorrigierend gespeichert. Dienstag, 10. Juli 2012 Tonkompression am Beispiel MPEG 1 Audio Layer III (MP3) CD audio signals 44,1 kHz Abtastfrequenz 16 bit Amplituden Auflösung 1,4112 Mbit/s Stereosignal »By using MPEG audio coding, you may shrink down the original sound data from a CD by a factor of 12, without losing sound quality. Factors of 24 and even more still maintain a sound quality that is significantly better than what you get by just reducing the sampling rate and the resolution of your samples.« FhG Institut für Integrierte Schaltungen, Uni Erlangen Dienstag, 10. Juli 2012 Subband-Codierung Zunächst durchläuft das Audioeingangssignal eine Analysefilterbank. Diese besteht aus einer bestimmten Anzahl an Bandpassfiltern, die das Eingangssignal X(n) in Frequenzbänder aufspalten. Nach dieser Aufspaltung kann jedes Subband einzeln komprimiert und encodiert werden. Dienstag, 10. Juli 2012 Audio Layer 1: MP1 384 PCM/Frame 384/32=12 PCM / Subband 8 ms bei 48 kHz Dienstag, 10. Juli 2012 Kompression 4:1 Audio Layer 2: MP2 1152 PCM/Frame 1152/32 = 36 PCM / Subband 24 ms bei 48 kHz Dienstag, 10. Juli 2012 Kompression 6:1 Audio Layer 3: MP3 ISO-MPEG 1, Audio Layer-111 (IS 11172-3 und IS 13818-3) Audio - mono & stereo, ISO/IEC 11172-3 encoder Dienstag, 10. Juli 2012 Kompression 12:1 Filterbank 1152=12*3*32 Samples Dienstag, 10. Juli 2012 MDCT Modifizierte Diskrete Cosinus Transformation Dienstag, 10. Juli 2012 MP3 Hörmodell Audiokodierung mit einem psychoakustischen Modell Dienstag, 10. Juli 2012 Kritische Bänder (Barkhausen) Kritisches Frequenz Kritisches Frequenz Band Tief Hoch Breite Band Tief Hoch Breite 0 0 100 100 13 2000 2320 320 1 100 200 100 14 2320 2700 380 2 200 300 100 15 2700 3150 450 3 300 400 100 16 3150 3700 550 4 400 510 110 17 3700 4400 700 5 510 630 120 18 4400 5300 900 6 630 770 140 19 5300 6400 1100 7 770 920 150 20 6400 7700 1300 8 920 1080 160 21 7700 9500 1800 9 1080 1270 190 22 9500 12000 2500 10 1270 1480 210 23 12000 15500 3500 11 1480 1720 240 24 15500 22050 6550 12 1720 2000 280 Dienstag, 10. Juli 2012 MP3-Hörmodell MUSICAM - Masking pattern adapted Universal Subband Integrated Codingand Multiplexing (MUSICAM) Psychoakustische Reduktion des Signals Reduktion wegen Lautstärkemaskierung für 15-20ms Reduktion räumlicher Information (Stereo im Bassbereich) Dienstag, 10. Juli 2012 Vorwärtsmaskierung Gaußsche Impulsanregung Rauschen Dienstag, 10. Juli 2012 Rückwärtsmaskierung Gaußsche Impulsanregung Rauschen Rückwärtsmaskierung Dienstag, 10. Juli 2012 MP3 Hörmodell 2ms 15ms Vorwärts-, Lautstärken- und Rückwärtsmaskierung am Beispiel eines Rechteckimpulses Dienstag, 10. Juli 2012 MP3 Hörmodell Maskierung durch Lautstärke Dienstag, 10. Juli 2012 Frequenz (kHz) Subband-Maskierung Dienstag, 10. Juli 2012 Maskierungsschwelle Dienstag, 10. Juli 2012 Globale Maskierungsschwelle Die globale Maskierungsschwelle wird aus der Kombination der Maskierungsschwellen aller Bänder sowie der Hörschwelle berechnet. Dienstag, 10. Juli 2012 Quantisierung Dienstag, 10. Juli 2012 Maskierungsschwellen Dienstag, 10. Juli 2012 Maskierung Ergebnis nach der Analyse der ersten 16 Bänder: Falls das psychoakustische Modell besagt, dass der Pegel in Band 8 (60 dB) zu folgender Maskierung der Nachbarbänder führt: Maskierung um 12 dB in Band 9 Maskierung um 15 dB in Band 7 Pegel in Band 7 ist 10 dB —> Weglassen Pegel in Band 9 ist 35 dB —> Codieren Wegen der Maskierung ist eine Ungenauigkeit von 12 dB zulässig, d.h. mit zwei Bit weniger codierbar. Jedes Bit verdoppelt die Amplitudenauflösung, d.h. erhöht sie um 6 dB. Dienstag, 10. Juli 2012 Steuerinformationen Side Information (32 Bytes) Für jeden Kanal werden für jedes Subband mitgeliefert: Anzahl der Kodierungsbits Skalierungsfaktor Huffmann-Tabelle (Index) Dienstag, 10. Juli 2012 MP3 – Frame Bitrate Layer 00 - reserved 01 - Layer III 10 - Layer II 11 - Layer I Mode 00 - Stereo 01 - Joint stereo (Stereo) 10 - Dual channel (Stereo) 11 - Single channel (Mono) Copy 0 - Audio is not copyrighted 1 - Audio is copyrighted Original 0 - Copy of original media 1 - Original media Dienstag, 10. Juli 2012