Folien

Werbung
Universität Bayreuth
Angewandte Medienwissenschaft: Digitale Medien
Geschichte und Technik
Digitaler Medien
08 – Audiokompression
Prof. Dr. Jochen Koubek
Dienstag, 10. Juli 2012
Sommersemester 2012
Hörphysiologie
Dienstag, 10. Juli 2012
Ohr
Aussenohr
Mittelohr
Innenohr
Dienstag, 10. Juli 2012
Aussenohr
Dienstag, 10. Juli 2012
Mittelohr
A1 = 55mm²
A2 = 3,2mm²
vF=55/3,2 = 17
Aufgrund der Längenverhältnisse
der wirksamen Hebelarme der
Gehörknöchelchen und ihrer Lage
zueinander, wird die Auslenkung
der Steigbügelfußplatte
gegenüber der Auslenkung am
Trommelfell um den Faktor 1,3
vermindert.
Unter Anwendung des
Hebelgesetzes
F1 · l1 = F2 · l2
bedeutet dies, daß die Kraft auf
die Steigbügelfußplatte um den
gleichen Faktor verstärkt wird.
vH = 1,3
v = vF · vH
v = 17 · 1,3
v = 22
http://www.dasp.uni-wuppertal.de/ars_auditus/physiologie/mittelohr12.htm
Dienstag, 10. Juli 2012
Innenohr
Dienstag, 10. Juli 2012
Schnecke
Dienstag, 10. Juli 2012
Basilarmembran
Länge: 35 mm
Dienstag, 10. Juli 2012
Barkhausen-Bänder
1 Bark = 1,3 mm Basilarmembran-Länge
Dienstag, 10. Juli 2012
Hahrzellen
3 Äußere, 1 Innere Reihe, 15.000 Zellen
Dienstag, 10. Juli 2012
Hörschäden
Intakte Cochlea (oben), zerstört nach Überstimulation (unten)
Dienstag, 10. Juli 2012
Akustik
Dienstag, 10. Juli 2012
Schallwellen
Dienstag, 10. Juli 2012
Schalldruck
Druck ist das Verhältnis von Kraft zu Fläche, auf die
diese Kraft senkrecht wirkt.
(Pa = N/m2)
Durch Schwingungen der Masseteilchen entstehen in der
Schallwelle Druckschwankungen. Den Effektivwert dieses
Druckes bezeichnet man als Schalldruck p. Er wird
gemessen in N/m2 bzw. in Mikrobar [µb]
(1 µb = 0,1 N/m2).
Dienstag, 10. Juli 2012
Hörschwelle
Dienstag, 10. Juli 2012
Maskierung
Dienstag, 10. Juli 2012
Ton
Ein Ton ist eine Schallwelle mit einer einzigen Frequenz.
Schalldruck p eines Sinustons
p(t) = Asin(2 π f t)
Dienstag, 10. Juli 2012
Klang
Ein Klang besteht aus einem
Grundton und einer Anzahl von
Obertönen, welche die Klangfarbe
bestimmen.
Dienstag, 10. Juli 2012
Klang
Ein Klang besteht aus einem
Grundton und einer Anzahl von
Obertönen, welche die Klangfarbe
bestimmen.
Dienstag, 10. Juli 2012
Klang
Ein Klang besteht aus einem
Grundton und einer Anzahl von
Obertönen, welche die Klangfarbe
bestimmen.
Dienstag, 10. Juli 2012
Klang
Ein Klang besteht aus einem
Grundton und einer Anzahl von
Obertönen, welche die Klangfarbe
bestimmen.
Dienstag, 10. Juli 2012
Klang
Ein Klang besteht aus einem
Grundton und einer Anzahl von
Obertönen, welche die Klangfarbe
bestimmen.
Dienstag, 10. Juli 2012
Geräusch
Ein Geräusch ist ein beliebiges Frequenzgemisch ohne
erkennbare Obertonstruktur.
Dienstag, 10. Juli 2012
Rauschen
Dienstag, 10. Juli 2012
Rauschen
Dienstag, 10. Juli 2012
Rauschen
Dienstag, 10. Juli 2012
Lärmquelle
Schmerzgrenze
startendes Düsenflugzeug
Presslufthammer
Fabriken und Werkstätten
starker Straßenverkehr
normale Unterhaltung
in 1 m Abstand
Bahnhofshalle, Stadion
großes Büro
Ladengeschäft
Autowerkstatt
Auto bei 80 km/h
Hotel, Zimmer
Wohnung in einer Großstadt
Wohnung auf dem Land
leerer Hörsaal
leere Kirche
Klassenzimmer ohne Schüler
Fernsehstudio ohne Publikum
Aufnahmestudio
Flüstern
Hörschwelle
Dienstag, 10. Juli 2012
Hören
Lärmpegel in dB-SPL
130
120
97
50-75
68
65
55-65
60-65
45-60
55
45-50
42
40
30
25-35
30
30
25-35
20-30
10-20
0-5
Lärm:
Zwischen Hörgrenze
und Schmerzgrenze
Aufnahme und Kompression
Dienstag, 10. Juli 2012
Aufnahme: Mikrofone
Dienstag, 10. Juli 2012
Digitalisieren: Soundkarte
Line: 500 mV - 2 V
Mic: 5 mV - 50 mV
Dienstag, 10. Juli 2012
Nyquist-Theorem
Abtasttheorem
Ein Signal der Maximalfrequenz f muss mit mehr
als 2*f abgetastet werden, damit aus den Samples
das Ausgangssignal vollständig rekonstruiert
werden kann.
Liegen Samples mit der Abtastfrequenz g vor, dann
lassen sich daraus lediglich Signalfrequenzen bis
maximal g/2 rekonstruieren.
Dienstag, 10. Juli 2012
Pulskode: Amplitudenmodulation
1011 1011 1010 1000 0111 1000 1010 1101 1110 1101 1010 0111 0100 0111 0100 0110 1000 1000 0110 0100 0010 0001 0011 0110 1001 1011 1100 1010 1000 0111 0100 1010 1100
11 11 10 08 07 08 10 13 14 13 10 07 04 03 04 06 08 08 06 04 02 01 03 06 09 11 12 10 08 07 08 10 12
Dienstag, 10. Juli 2012
Digitale Tonformate
Audio CD
.IFF, .AIF, .AIFF Audio Interchange File Format
Proprietäre Formate
.WAV Windows
.RAM Real Player
.AU
SUN/Unix
Verlustfreie Audiokompression
Flac - Free Lossless Audio Codec
Offene Kompressor-Standards
.MP3
MPEG-1, Layer III (1988/1994)
.AAC
MPEG-2 Advanced Audio Coding (1997
.ogg
Ogg-Vorbis (1993/2002)
Digitale Notation
.MID, .MIDI Musical Instruments Digital Interface
Dienstag, 10. Juli 2012
Dienstag, 10. Juli 2012
AIFF
Contains information about the sampled sound
such as the sampling rate and sample size.
Contains markers that point to positions in the
sound data
Defines basic parameters that an
instrument (such as a sampling keyboard)
can use to play back the sound data
Contains the sample frames
that comprise the
sampled sound
Dienstag, 10. Juli 2012
Verlustfreie Kompression
(auch für Tondaten möglich)
Dienstag, 10. Juli 2012
Free Lossless Audio Codec – FLAC
Reduktion 1:2 bis 1:3, langsam
Dienstag, 10. Juli 2012
Free Lossless Audio Codec
Blockung: Die Eingabedaten werden in Blöcke unterschiedlicher Länge, abhängig von Abtastrate, Spektralverteilung in der Zeit
u.a. abhängen.
Kanalabhängigkeiten: Alle Kanäle sollen verlustfrei erhalten bleiben. Bei Stereo wird typischerweise eine Summe (ein
Durchschnittswert) und eine Differenz der Kanäle gebildet.
Prädiktion: Es werden feste Kodierer und Dekodierer vereinbart. Das Signal eines Blockes wird mit einem festen parametrisierten
Verfahren grob angenähert. Diese Parameter, die im Regelfall deutlich kompakter als das Signal sind, werden übertragen.
Korrekturkodierung: Die Differenz zwischen Eingabeblock und seiner Prädiktion wird berechnet und verlustfrei kodiert.
Ziel ist es, dass Prädikation und Korrekturkodierung kleiner als das Eingabesignal wird.
Dienstag, 10. Juli 2012
Verlustfreie Codecs
Dienstag, 10. Juli 2012
Audio CD
Audio CDs speichern unkomprimierte Stereosignale auf
2 Tonspuren mit 44,1 KHz Abstastrate, womit ein Tonumfang von etwa 20Hz bis
20000 Hz darstellbar ist.
Der Ursprung für diese Zahlen liegt in der Sony U-Matic:
294 (PAL-Halbbilder) * 50 (pro Sekunde) * 16 (Bit Auflösung) = 1.411.200 Bit/s
/32 (16 Bit Lautstärkeauflösung bei 2 Kanälen) = 44.100 Bit/s
Datenmenge (Bit) = Auflösung (Bit) * Abtastrate (Hz) * Kanäle * Zeit
1 Minute ~ 10,1 MB
Das gespeicherte Signal ist in mehreren Ebenen fehlerkorrigierend gespeichert.
Dienstag, 10. Juli 2012
Tonkompression am Beispiel
MPEG 1 Audio Layer III (MP3)
CD audio signals
44,1 kHz Abtastfrequenz
16 bit Amplituden Auflösung
1,4112 Mbit/s Stereosignal
»By using MPEG audio coding, you may shrink down the original sound data from a CD by a
factor of 12, without losing sound quality.
Factors of 24 and even more still maintain a sound quality that is significantly better than what
you get by just reducing the sampling rate and the resolution of your samples.«
FhG Institut für Integrierte Schaltungen, Uni Erlangen
Dienstag, 10. Juli 2012
Subband-Codierung
Zunächst durchläuft das Audioeingangssignal eine Analysefilterbank. Diese besteht aus einer bestimmten Anzahl an Bandpassfiltern, die das
Eingangssignal X(n) in Frequenzbänder aufspalten. Nach dieser Aufspaltung kann jedes Subband einzeln komprimiert und encodiert werden.
Dienstag, 10. Juli 2012
Audio Layer 1: MP1
384 PCM/Frame
384/32=12 PCM / Subband
8 ms bei 48 kHz
Dienstag, 10. Juli 2012
Kompression 4:1
Audio Layer 2: MP2
1152 PCM/Frame
1152/32 = 36 PCM / Subband
24 ms bei 48 kHz
Dienstag, 10. Juli 2012
Kompression 6:1
Audio Layer 3: MP3
ISO-MPEG 1, Audio Layer-111
(IS 11172-3 und IS 13818-3)
Audio - mono & stereo, ISO/IEC 11172-3 encoder
Dienstag, 10. Juli 2012
Kompression 12:1
Filterbank
1152=12*3*32 Samples
Dienstag, 10. Juli 2012
MDCT
Modifizierte Diskrete Cosinus Transformation
Dienstag, 10. Juli 2012
MP3 Hörmodell
Audiokodierung mit einem psychoakustischen Modell
Dienstag, 10. Juli 2012
Kritische Bänder (Barkhausen)
Kritisches
Frequenz
Kritisches
Frequenz
Band
Tief
Hoch
Breite
Band
Tief
Hoch
Breite
0
0
100
100
13
2000
2320
320
1
100
200
100
14
2320
2700
380
2
200
300
100
15
2700
3150
450
3
300
400
100
16
3150
3700
550
4
400
510
110
17
3700
4400
700
5
510
630
120
18
4400
5300
900
6
630
770
140
19
5300
6400
1100
7
770
920
150
20
6400
7700
1300
8
920
1080
160
21
7700
9500
1800
9
1080
1270
190
22
9500
12000
2500
10
1270
1480
210
23
12000
15500
3500
11
1480
1720
240
24
15500
22050
6550
12
1720
2000
280
Dienstag, 10. Juli 2012
MP3-Hörmodell
MUSICAM - Masking pattern adapted Universal Subband Integrated Codingand Multiplexing (MUSICAM)
Psychoakustische Reduktion des Signals
Reduktion wegen Lautstärkemaskierung für 15-20ms
Reduktion räumlicher Information (Stereo im Bassbereich)
Dienstag, 10. Juli 2012
Vorwärtsmaskierung
Gaußsche Impulsanregung
Rauschen
Dienstag, 10. Juli 2012
Rückwärtsmaskierung
Gaußsche Impulsanregung
Rauschen
Rückwärtsmaskierung
Dienstag, 10. Juli 2012
MP3 Hörmodell
2ms
15ms
Vorwärts-, Lautstärken- und Rückwärtsmaskierung
am Beispiel eines Rechteckimpulses
Dienstag, 10. Juli 2012
MP3 Hörmodell
Maskierung durch Lautstärke
Dienstag, 10. Juli 2012
Frequenz (kHz)
Subband-Maskierung
Dienstag, 10. Juli 2012
Maskierungsschwelle
Dienstag, 10. Juli 2012
Globale Maskierungsschwelle
Die globale Maskierungsschwelle wird aus der Kombination der Maskierungsschwellen aller Bänder
sowie der Hörschwelle berechnet.
Dienstag, 10. Juli 2012
Quantisierung
Dienstag, 10. Juli 2012
Maskierungsschwellen
Dienstag, 10. Juli 2012
Maskierung
Ergebnis nach der Analyse der ersten 16 Bänder:
Falls das psychoakustische Modell besagt, dass der Pegel in Band 8 (60 dB) zu folgender Maskierung
der Nachbarbänder führt:
Maskierung um 12 dB in Band 9
Maskierung um 15 dB in Band 7
Pegel in Band 7 ist 10 dB —> Weglassen
Pegel in Band 9 ist 35 dB —> Codieren
Wegen der Maskierung ist eine Ungenauigkeit von 12 dB zulässig,
d.h. mit zwei Bit weniger codierbar. Jedes Bit verdoppelt die Amplitudenauflösung, d.h. erhöht sie um 6
dB.
Dienstag, 10. Juli 2012
Steuerinformationen
Side Information (32 Bytes)
Für jeden Kanal werden für jedes Subband
mitgeliefert:
Anzahl der Kodierungsbits
Skalierungsfaktor
Huffmann-Tabelle (Index)
Dienstag, 10. Juli 2012
MP3 – Frame
Bitrate
Layer
00 - reserved
01 - Layer III
10 - Layer II
11 - Layer I
Mode
00 - Stereo
01 - Joint stereo (Stereo)
10 - Dual channel (Stereo)
11 - Single channel (Mono)
Copy
0 - Audio is not copyrighted
1 - Audio is copyrighted
Original
0 - Copy of original media
1 - Original media
Dienstag, 10. Juli 2012
Herunterladen