Gliederung 1. Physikalische Grundlagen der Akustik (Lehre vom Schall) 2. Physiologische Grundlagen des Hörens (Psychoakustik) 3. Digitalisierung von Audiosignalen 4. Komprimierung von Audiosignalen Lehre vom Schall Mechanische Schwingung: Klaviersaite Lautsprechermembran Übertragungsmedium Schallwelle: Luft, Flüssigkeiten, Festkörper Ohr: Physiologische Bewertung Kenngrößen: Frequenz, Schalldruck (Amplitude), Schallgeschwindigkeit Schallarten: Infraschall(<20 Hz) – Hörschall-Audio(20-20000 Hz) – Ultraschall(>20000 Hz) Schallgeschwindigkeit: Luft (331,6 m/s), Wasser (1498 m/s), Stahl (5000 m/s) Hörschwelle: Schalldruck p0=10-5 Pa , frequenzabhängig Schmerzschwelle: Schalldruck p=10² Pa, frequenzabhängig Schalldruckpegel: L p 20 lg p dB p0 Was ist ein Klang? Ton Eine Frequenz Klang Grundfrequenz + Oberschwingungen Schalldruck als Funktion der Zeit Schalldruckpegel als Funktion der Frequenz (Fourieranalyse) Geräusch unperiodisches Klangereignis Das menschliche Ohr 1 2 3 4 5 6 7 8 9 10 Ohrmuschel Gehörgang Trommelfell Mittelohr Hammer Amboss Steigbügel Gleichgewichtsorgan Schnecke Hörnerven • Aussenohr: – räumliche Orientierung (Signale zweier Ohren + Phasendifferenzen) • Mittelohr: – Trommelfell, Hammer, Amboss, Steigbügel: Verstärkung der Kraftwirkung • Innenohr: – Schnecke (cochlea), zwei flüssigkeitsgefüllte Gänge – Haarzellen entlang der Tektalmembran: Wahrnehmung von Frequenzen Psychoakustik Hörvermögen des Ohrs in Abhängigkeit von Frequenz und Schalldruckpegel Psychoakustik Kurven gleicher Lautstärke LS • Ermittelt durch Hörversuche A-Bewertungskurven • LpA=Lp bei 1000Hz • Ls=Lp bei 1000 Hz • Einfache Messgeräte • Schwierige Messbarkeit • Bei technischen Lautstärkeangaben, 80 dB(A) Grundprinzip der Digitalisierung Analoges Eingangsgangssignal – Analog-Digital-Wandler – Digitales Ausgangssignal Sampeln Samplingfrequenz Wie oft muss das analoge Signal abgetastet werden? Abtastfrequenz > Doppelte im analogen Signal enthaltene maximale Frequenz Shannon‘sches Abtasttheorem Hörgrenze des Ohrs ca. 20 kHz – Abtastrate 44,1 kHz Beispiel Tonleiter ab 60-14000 Hz, 60 Töne = 5 Oktaven Abtastrate=44.1 kHz Abtastrate=11,025 kHz Abtastrate=1,4kHz Abtastraten: Analoges Telefon 8000 Hz Mittelwelle Radio 11025 Hz UKW Radio 22050 Hz Audio-CD 44,1 kHz Digital Audio Tape 48 kHz Professionelle Audiogeräte 96 kHz Aliasing Aliasing Tiefpassfilterung RC-Glied als analoger Tiefpassfilter Sprungantwort Quantisierung Auflösung eines Samplers - Wortbreite Beispiel: Spannung von -1 V bis +1 V Auflösung: 8 bit / 28=256 Möglichkeiten / 1 V:256= 0,004 V 16 bit (heute üblich) / 216=65535 Möglichkeiten / 1 V:65535=15*10-6 V 24 bit (DVD-Audio) – Verbessert die Klangqualität Datenmenge = Abtastrate 44000 Hz * 16 bit = 704000 bit/s = 88 kByte/s Codierung • PCM: Pulse-Code-Modulation = Für jeden Abtastzeitpunkt wird ein Signalwert binär gespeichert • Negative Werte = Zweierkomplement der positiven Werte Probleme der Digitalisierung Amplitudenbegrenzung: Schalldruckspitzen werden ausgeblendet Quantisierungsrauschen • Ausgabesignal wird durch interpolierte Werte verbessert • Oversampling verbessert die Signalerkennung erhöht jedoch die Datenmenge • Erhöhung der Wortbreite um 1 bit erhöht den SNR – Abstand um ca. 6 dB • Es gilt SNR = N*6,02 dB + 1,78 dB • 16 bit = 98,1dB AD-Wandlung Sukzessive Approximation • Hohe Verarbeitungszeit / Sample • Nur für kleine Samplefrequenzen • Steile analoge Tiefpassfilter notwendig (Anti-Aliasingfilter) AD-Wandlung Delta-Sigma-Wandlung – Bitstream-Wandler • Erhöhung der Samplefrequenz (3 MHz) – Erniedrigung der Auflösung (1 bit) – geringes Rauschen • Nicht die absolute Größe eines Samples – Differenz von Sample zu Sample • Modulator (Bitstrom) + Digitaler Filter (Hörbereich) + Dezimierer (PCM –Wort, n-bit) • Latenzzeit 1,5 ms Komprimierung von Audiosignalen Beispiel: Mitschnitt Livekonzert in CD-Qualität, Abtastrate 44,1 kHz, Stereo, Auflösung 16 bit/Kanal, Dauer 60 min Datenmenge= 44100 Hz * 2 * 16 bit * 3600s = 5,1 Gigabit = 635 Megabyte Audiokompression • Verlustfreie Audiokompression = Datenkomprimierung - Wie z.B. Huffman-Codierung, Apple-Losless, Windows Media Audio Lossless - Es gehen keine Daten verloren - Keine großen Kompressionsgewinne (max. 50%) - Sinnvoll, wenn Audiofiles nachbearbeitet werden sollen • Verlustbehaftete Audiokompression = Datenreduktion - Keine orginalgetreue Kopie der Ausgangsdaten - Datenverlust - psycho- akustische Besonderheiten des menschlichen Gehörs - Große Kompressionsgewinne (MP3, ca.90%) Komprimierung von Audiosignalen Vorarbeit: • Frequenzspektrum ermitteln - Fast Fourier Transformation (FFT) • Frequenzspektrum in Intervalle unterteilen - Können unterschiedlich groß sein - Abhängig vom Hörvermögen des Ohrs • Zeitachse in Intervalle unterteilen - Gleichgroß - Audiosignal wird portioniert, je nach Anwendungszweck Maskierung Hörschwellenmaskierung: • Entfernen der Töne, die unterhalb der Hörschwelle liegen • z.B. Ton von 12 kHz und 20 dB Maskierung Frequenzmaskierung – Simultane Maskierung: • Entfernen der Töne, die von Tönen einer anderen Frequenz übertönt werden • z.B. Ton mit 10 kHz und 40 dB maskiert von einem Ton mit 8 kHz und 60 dB • Mit steigender Frequenz wird der maskierte Frequenzbereich breiter Maskierung Frequenzmaskierung – Simultane Maskierung: Anwendung bei MP3 16bit -44kHz MP3-codiert • Erhöhtes Rauschen – nicht hörbar wegen Maskierung Maskierung Zeitmaskierung – Temporale Maskierung: • Entfernen der Töne, die von Tönen einer anderen Frequenz übertönt werden • Zeitliche Abfolge wird zusätzlich betrachtet (Erregungszeit des Ohrs) • z.B. Ton mit 1 kHz und 60 dB abgeschaltet maskiert dieser noch 5 ms den Ton mit 1,1 kHz und 40 dB Maskierung Zeitmaskierung – Temporale Maskierung: Maskierung Hörschwellen- + Frequenz- + Zeitmaskierung = 256kBit/s Stereoredundanz: • Gleiches Signal (z.B. Gesangsstimme) auf beiden Kanälen – nur einmal übertragen • Unter 80 Hz kann Ohr Richtung nicht feststellen – kein Stereo notwendig • verschiedene Verfahren • bis 128 kBit/s -Phaseninformationen bleiben erhalten • bis 64 kBit/s - Phaseninformationen gehen verloren - Nicht für Dolby Surround geeignet - Deutliche Differenzen zum Original MP3 = MPEG 1 Layer III • Filterbank: Transformiert Audiosignal vom Zeit- in Frequenzbereich (32 Frequenzbänder) • Jedes Frequenzband durch diskrete Cosinus-Transformation (MDCT) in 18 Teilbereiche • Quantisierung MP3 Vergleich MP3 – Minderwertigerer Decoder Überblick Format Entwickler Qualität Perspektiven MP3 Fraunhofer-Institut bei 128 kBit/s akzeptabler Klang Quasi-Standard im Internet AAC AT&T, Dolby Laboratories, FraunhoferIIS und Sony schon bei 64 kBit/s anderen Formaten in der Qualität deutlich überlegen Favorit der Musikindustrie Teil von MPEG-4 Format der Zukunft RealAudio Real Qualität je nach Bandbreite die Nr.1 für Streaming WMA Microsoft Nicht so gut wie MP3 bisher kaum Interesse bei Anwendern und Musikindustrie OggVorbis Ogg-Projekt bei 128 kBit/s vergleichbare Klangqualität wie MP3 einziges freies Format, dazu gute Qualität, bedient ähnliche Klientel wie Linux Quellen -www.leidinger.net/publications/Audiokompression -Roland Pianos -Spektrum der Wissenschaft: Thoralf Abgarjan – Digitale Klangerzeungung -C´t: Matthias Carstens – Musik kompakt -Peter Gorges – Das große Sampler Praxisbuch -Peter Brehm – Das digitale Tonstudio -E. Zwicker und R. Feldtkeller – Das Ohr als Nachrichtenempfänger -Martin Ohsmann – Espresso -Proceedings of the IEEE: Perceptual Coding of Digital Audio -www.beis.de/Elektronik -DAA-Technikum Skript -www.fh-wedel.de (Digital Audio) -www.medien.informatik.uni-münchen.de (digitale medien 5) -www.informatik.uni-leipzig.de (AD-Wandlung)