Audiosignale und ihre Digitalisierung

Gliederung
1. Physikalische Grundlagen der Akustik (Lehre vom Schall)
2. Physiologische Grundlagen des Hörens (Psychoakustik)
3. Digitalisierung von Audiosignalen
4. Komprimierung von Audiosignalen
Lehre vom Schall
Mechanische
Schwingung:
Klaviersaite
Lautsprechermembran
Übertragungsmedium
Schallwelle: Luft, Flüssigkeiten, Festkörper
Ohr:
Physiologische
Bewertung
Kenngrößen: Frequenz, Schalldruck (Amplitude), Schallgeschwindigkeit
Schallarten: Infraschall(<20 Hz) – Hörschall-Audio(20-20000 Hz) – Ultraschall(>20000 Hz)
Schallgeschwindigkeit: Luft (331,6 m/s), Wasser (1498 m/s), Stahl (5000 m/s)
Hörschwelle: Schalldruck p0=10-5 Pa , frequenzabhängig
Schmerzschwelle: Schalldruck p=10² Pa, frequenzabhängig
Schalldruckpegel:
L p  20 lg
p
dB
p0
Was ist ein Klang?
Ton
Eine Frequenz
Klang
Grundfrequenz +
Oberschwingungen
Schalldruck als Funktion der Zeit
Schalldruckpegel als Funktion der Frequenz (Fourieranalyse)
Geräusch
unperiodisches
Klangereignis
Das menschliche Ohr
1
2
3
4
5
6
7
8
9
10
Ohrmuschel
Gehörgang
Trommelfell
Mittelohr
Hammer
Amboss
Steigbügel
Gleichgewichtsorgan
Schnecke
Hörnerven
• Aussenohr:
– räumliche Orientierung (Signale zweier Ohren + Phasendifferenzen)
• Mittelohr:
– Trommelfell, Hammer, Amboss, Steigbügel: Verstärkung der Kraftwirkung
• Innenohr:
– Schnecke (cochlea), zwei flüssigkeitsgefüllte Gänge
– Haarzellen entlang der Tektalmembran: Wahrnehmung von Frequenzen
Psychoakustik
Hörvermögen des Ohrs in Abhängigkeit von Frequenz und Schalldruckpegel
Psychoakustik
Kurven gleicher Lautstärke LS
• Ermittelt durch Hörversuche
A-Bewertungskurven
• LpA=Lp bei 1000Hz
• Ls=Lp bei 1000 Hz
• Einfache Messgeräte
• Schwierige Messbarkeit
• Bei technischen Lautstärkeangaben, 80 dB(A)
Grundprinzip der Digitalisierung
Analoges Eingangsgangssignal – Analog-Digital-Wandler – Digitales Ausgangssignal
Sampeln
Samplingfrequenz
Wie oft muss das analoge Signal abgetastet werden?
Abtastfrequenz > Doppelte im analogen Signal
enthaltene maximale Frequenz
Shannon‘sches Abtasttheorem
Hörgrenze des Ohrs ca. 20 kHz – Abtastrate 44,1 kHz
Beispiel
Tonleiter ab 60-14000 Hz, 60 Töne = 5 Oktaven
Abtastrate=44.1 kHz
Abtastrate=11,025 kHz
Abtastrate=1,4kHz
Abtastraten: Analoges Telefon 8000 Hz
Mittelwelle Radio 11025 Hz
UKW Radio 22050 Hz
Audio-CD 44,1 kHz
Digital Audio Tape 48 kHz
Professionelle Audiogeräte 96 kHz
Aliasing
Aliasing
Tiefpassfilterung
RC-Glied als analoger Tiefpassfilter
Sprungantwort
Quantisierung
Auflösung eines Samplers - Wortbreite
Beispiel: Spannung von -1 V bis +1 V
Auflösung: 8 bit / 28=256 Möglichkeiten / 1 V:256= 0,004 V
16 bit (heute üblich) / 216=65535 Möglichkeiten / 1 V:65535=15*10-6 V
24 bit (DVD-Audio) – Verbessert die Klangqualität
Datenmenge = Abtastrate 44000 Hz * 16 bit = 704000 bit/s = 88 kByte/s
Codierung
• PCM: Pulse-Code-Modulation = Für jeden Abtastzeitpunkt wird ein Signalwert binär
gespeichert
• Negative Werte = Zweierkomplement der positiven Werte
Probleme der Digitalisierung
Amplitudenbegrenzung: Schalldruckspitzen werden ausgeblendet
Quantisierungsrauschen
• Ausgabesignal wird durch interpolierte
Werte verbessert
• Oversampling verbessert die Signalerkennung
erhöht jedoch die Datenmenge
• Erhöhung der Wortbreite um 1 bit erhöht
den SNR – Abstand um ca. 6 dB
• Es gilt SNR = N*6,02 dB + 1,78 dB
• 16 bit = 98,1dB
AD-Wandlung
Sukzessive Approximation
• Hohe Verarbeitungszeit / Sample
• Nur für kleine Samplefrequenzen
• Steile analoge Tiefpassfilter notwendig
(Anti-Aliasingfilter)
AD-Wandlung
Delta-Sigma-Wandlung – Bitstream-Wandler
• Erhöhung der Samplefrequenz (3 MHz) – Erniedrigung der Auflösung (1 bit) – geringes
Rauschen
• Nicht die absolute Größe eines Samples – Differenz von Sample zu Sample
• Modulator (Bitstrom) + Digitaler Filter (Hörbereich) + Dezimierer (PCM –Wort, n-bit)
• Latenzzeit 1,5 ms
Komprimierung von Audiosignalen
Beispiel: Mitschnitt Livekonzert in CD-Qualität, Abtastrate 44,1 kHz, Stereo,
Auflösung 16 bit/Kanal, Dauer 60 min
Datenmenge= 44100 Hz * 2 * 16 bit * 3600s = 5,1 Gigabit = 635 Megabyte
Audiokompression
• Verlustfreie Audiokompression = Datenkomprimierung
- Wie z.B. Huffman-Codierung, Apple-Losless, Windows Media Audio Lossless
- Es gehen keine Daten verloren
- Keine großen Kompressionsgewinne (max. 50%)
- Sinnvoll, wenn Audiofiles nachbearbeitet werden sollen
• Verlustbehaftete Audiokompression = Datenreduktion
- Keine orginalgetreue Kopie der Ausgangsdaten
- Datenverlust
- psycho- akustische Besonderheiten des menschlichen Gehörs
- Große Kompressionsgewinne (MP3, ca.90%)
Komprimierung von Audiosignalen
Vorarbeit:
• Frequenzspektrum ermitteln
- Fast Fourier Transformation (FFT)
• Frequenzspektrum in Intervalle unterteilen
- Können unterschiedlich groß sein
- Abhängig vom Hörvermögen des Ohrs
• Zeitachse in Intervalle unterteilen
- Gleichgroß
- Audiosignal wird portioniert, je nach Anwendungszweck
Maskierung
Hörschwellenmaskierung:
• Entfernen der Töne, die unterhalb der Hörschwelle liegen
• z.B. Ton von 12 kHz und 20 dB
Maskierung
Frequenzmaskierung – Simultane Maskierung:
• Entfernen der Töne, die von Tönen einer anderen Frequenz übertönt werden
• z.B. Ton mit 10 kHz und 40 dB maskiert von einem Ton mit 8 kHz und 60 dB
• Mit steigender Frequenz wird der maskierte Frequenzbereich breiter
Maskierung
Frequenzmaskierung – Simultane
Maskierung:
Anwendung bei MP3
16bit -44kHz
MP3-codiert
• Erhöhtes Rauschen – nicht hörbar
wegen Maskierung
Maskierung
Zeitmaskierung – Temporale Maskierung:
• Entfernen der Töne, die von Tönen einer anderen Frequenz übertönt werden
• Zeitliche Abfolge wird zusätzlich betrachtet (Erregungszeit des Ohrs)
• z.B. Ton mit 1 kHz und 60 dB abgeschaltet maskiert dieser noch 5 ms den Ton mit
1,1 kHz und 40 dB
Maskierung
Zeitmaskierung – Temporale Maskierung:
Maskierung
Hörschwellen- + Frequenz- + Zeitmaskierung = 256kBit/s
Stereoredundanz:
• Gleiches Signal (z.B. Gesangsstimme) auf beiden Kanälen – nur einmal übertragen
• Unter 80 Hz kann Ohr Richtung nicht feststellen – kein Stereo notwendig
• verschiedene Verfahren
• bis 128 kBit/s
-Phaseninformationen bleiben erhalten
• bis 64 kBit/s
- Phaseninformationen gehen verloren
- Nicht für Dolby Surround geeignet
- Deutliche Differenzen zum Original
MP3 = MPEG 1 Layer III
• Filterbank: Transformiert Audiosignal vom Zeit- in Frequenzbereich
(32 Frequenzbänder)
• Jedes Frequenzband durch diskrete Cosinus-Transformation (MDCT) in 18
Teilbereiche
• Quantisierung
MP3
Vergleich MP3 – Minderwertigerer Decoder
Überblick
Format
Entwickler
Qualität
Perspektiven
MP3
Fraunhofer-Institut
bei 128 kBit/s akzeptabler
Klang
Quasi-Standard im Internet
AAC
AT&T, Dolby
Laboratories,
FraunhoferIIS und Sony
schon bei 64 kBit/s anderen
Formaten in der Qualität
deutlich überlegen
Favorit der Musikindustrie
Teil von MPEG-4
Format der Zukunft
RealAudio
Real
Qualität je nach Bandbreite
die Nr.1 für Streaming
WMA
Microsoft
Nicht so gut wie MP3
bisher kaum Interesse bei
Anwendern und
Musikindustrie
OggVorbis
Ogg-Projekt
bei 128 kBit/s vergleichbare
Klangqualität wie MP3
einziges freies Format,
dazu gute Qualität, bedient
ähnliche Klientel wie
Linux
Quellen
-www.leidinger.net/publications/Audiokompression
-Roland Pianos
-Spektrum der Wissenschaft: Thoralf Abgarjan – Digitale Klangerzeungung
-C´t: Matthias Carstens – Musik kompakt
-Peter Gorges – Das große Sampler Praxisbuch
-Peter Brehm – Das digitale Tonstudio
-E. Zwicker und R. Feldtkeller – Das Ohr als Nachrichtenempfänger
-Martin Ohsmann – Espresso
-Proceedings of the IEEE: Perceptual Coding of Digital Audio
-www.beis.de/Elektronik
-DAA-Technikum Skript
-www.fh-wedel.de (Digital Audio)
-www.medien.informatik.uni-münchen.de (digitale medien 5)
-www.informatik.uni-leipzig.de (AD-Wandlung)