Allgemein 2 Digitale Medien 7 – DIGITAL AUDIO vergangene LVen: Darstellung von Informationen: Bilder Heute: Audio Auditive Wahrnehmung Digitalisierung Speicherung von Audiodaten Formate Audioschnitt Medientypen Ton, Schall 3 5 Schallwellen sind mechanische Wellen in einem Medium Ausbreitung je nach Medium unterschiedlich: Schallgeschwindigkeit c Bei 20°C in Luft 343 m/s, Wasser 1521 m/s Frequenz 33Hz 330Hz 3,3KHz 20Hz Infraschall Wellenlänge Quelle: Prof. Hußmann, LMU 16,5m 10m 33kHz 20KHz Hörbarer Bereich Sprache 1m 0,1m 1cm Das menschliche Ohr Auditive Wahrnehmung 13 14 Außenohr: Einfangen des Schalls Richtungsbestimmung Mittelohr: Trommelfell, Hammer, Amboss, Steigbügel: Verstärkung der Kraftwirkung Innenohr: Schnecke: Corti‐Organ → Basilarmembran Aufgerollte Röhren (Gänge), gefüllt mit Lymphflüssigkeit Ultraschall 1,65cm Hörbereich wir von zwei Parametern bestimmt: wahrnehmbare Frequenz: 16Hz bis 20KHz 2. Schalldruck: Hörschwelle … Schmerzgrenze 1. 1. Ohrmuschel (pinna) 2. Gehörgang 3. Trommelfell (ear drum) 4. Mittelohr 5. Hammer (malleus) 6. Amboss (incus) 7. Steigbügel (stapes) 8. Gleichgewichtsorgan 9. Schnecke (cochlea) 10. Hörnerven Quelle: http://de.wikipedia.org/wiki/Ohr Quelle: Prof. Hußmann, Vorlesung Digitale Medien, WS 2007/2008: http://www.medien.ifi.lmu.de/lehre/ws0708/dm/dm5a.pdf 1 Auditive Wahrnehmung - Schalldruck Auditive Wahrnehmung 15 16 Umsetzung von Schalldruckschwankungen in Nervenreize Dynamik(Hör‐)bereich: Schalldruck von 2*10‐5 ... 20Pa Grenzen: Hörschwelle und Schmerzgrenze logarithmische Verarbeitung durch Gehör Schalldruck‐Pegelwert logarithmisch, 0dB=Hörschwelle Gehörempfindlichkeit hängt von Frequenz ab bei mittleren Frequenzen (1...4KHz) liegt Hörschwelle bei 2*10‐5Pa=20µPa=0.00002Pa Schalldruckpegel: Verhältnis zwischen aktuellem Pegel und Bezugsgröße p0=20µPa Einheit: Dezibel [dB] Berechnung: Lp=20 log10 (p1/p0)dB http://www.sengpielaudio.com/SchalldruckpegelSindNichtSchallleistungspegel.pdf Auditive Wahrnehmung - Lautstärke 17 18 Einheit: Phon Maß für subjektive Schallempfindung Vergleichsmaß: beschreibt, welchen Schalldruckpegel ein Sinuston mit 1kHz haben müsste, um genauso laut wie der betrachtete Schall empfunden zu werden Frequenzabhängig Quelle: http://de.wikipedia.org/wiki/Lautstärke Hörfläche Maskierungseffekt 19 20 Verdeckung von Tönen Beispiel: laute Bässe bei gleichzeitiger Wiedergabe von mittleren Frequenzen Hörschwelle wird angehoben Mittlere Frequenzen werden nicht oder nur teilweise wahrgenommen Bspw. verdeckt ein 1KHz‐ Ton mit 80dB einen 2KHz‐ Ton mit 40dB Bildquelle: http://de.wikipedia.org/wiki/Maskierungseffekt Quelle: http://de.wikipedia.org/wiki/Bild:Hoerflaeche.png 2 Auditive Wahrnehmung Kanäle Beispiel 21 22 Richtungswahrnehmung durch Pegel‐ und Laufzeitdifferenzen zwischen den Ohren Lokalisation: binaurales Hören tiefe Frequenzen: Laufzeitdifferenz hohe Frequenzen: Pegelunterschiede keine Richtungsortung möglich L Phantomschallquelle R Gehör lässt sich täuschen und nimmt Phantomschallquellen wahr Ausnutzung bei Stereophonie mono: 1 Kanal stereo: zwei Kanäle 1D Surround: drei Kanäle (rechts, Mitte, links) quadrophonie: 4 Kanäle (vorn rechts, vorn links, hinten rechts, hinten links) Surround: 5 Kanäle, wie quadrophonie+vorn Mitte 5.1 Surround: wie Surround+LFE‐Kanal LFE: Low Frequency Effect (Subwoofer) 7.1 Surround: Erweiterung von 5.1 um zwei Kanäle zwei Signalquellen Kanäle hinter dem Hörer Hörposition Weiterentwicklung zu 7.2, 9.2, 11.4 Qualität von Audio Informationsgehalt akustischer Szenen 28 Unterscheidung zwischen Nutz‐ und Störsignalen Musik und Verkehrslärm Technische Systeme erzeugen Störungen Rauschen wichtig für Qualität ist Signal‐Rausch‐Abstand (S/N): logarithmisch in dB angegeben 29 Umgebung des Menschen ist durch Vielzahl von Geräuschen geprägt Menschliche Gehörsinn (Hörapparat + Nachverarbeitung) gut: >70dB Rauschsignale, die mehr als 70dB unter Maximalpegel liegen werden nicht mehr wahrgenommen Maskierungseffekt Kann Aufmerksamkeit gezielt auf Teilsignale richten: Cocktailparty‐Effekt Nimmt Hintergrundinfos neben selektierter Information weiter war (bei Durchsagen) Kann räumlich weit verstreute Informationsquellen integrieren Kann sehr genau verschiedene Schallereignisse differenzieren Erreicht eine Störschallunterdrückung von 9‐15dB → Digitale Tonverarbeitung muss sich auch mit der Informationsverarbeitung im Gehirn befassen nicht nur mit dem physikalischen Hörorgan → Psychoakus k Maskierungseffekt Psychoakustik Hörschwelle 30 31 Beschreibt, wie das menschliche Gehör die Lautheit von Verdeckung von Tönen Tönen empfindet Wesentlich sind: Beispiel: laute Bässe bei gleichzeitiger Wiedergabe von Hörschwelle Maskierungseffekte Frequenz Zeitlich mittleren Frequenzen Hörschwelle wird angehoben Mittlere Frequenzen werden nicht oder nur teilweise wahrgenommen Bildquelle: http://de.wikipedia.org/wiki/Maskierungseffekt 3 Maskierungseffekt Maskierungseffekt Frequenz Ursache 32 35 Ton von 1 kHz und einer Lautstärke von 60 dB (der Mechanik des Innenohrs „Maskierungston“) verändert die Hörschwelle drastisch. Töne ähnlicher Frequenz müssen nun wesentlich lauter sein, um ebenfalls wahrgenommen zu werden Frequenzanteile unter der Kurve können weggelassen werden: Schall bringt Basilarmembran zum schwingen Je nach Tonhöhe gerät eine andere Stelle der Basilarmembran in Resonanz Maskierung durch einen 1 kHz-Ton Hohe Töne am Anfang der Basilarmembran Tiefe Töne am Ende → Bass‐Schwingungen beeinflussen auch die Nervenzellen für hohe Töne → mittlere Töne müssen so stark sein, dass sie die Miterregung durch Bässe übertönen http://www.itec.uka.de/seminare/redundanz/vortrag14/#psychoakustik Maskierungseffekt zeitlich 36 Digital Audio Hört ein lauter Ton plötzlich auf, dauert es eine Weile, bis man leise Klänge wieder wahrnehmen kann Zeit ist abhängig vom Lautstärke‐ und vom Frequenzverhältnis der beiden Töne und liegt im Bereich von ca. 5 bis 20 ms 37 VON ANALOG ZU DIGITAL Maskierung erfolgt vorwärts und rückwärts Vorangegangene Töne werden auch beeinflusst Signalformen Darstellung: Töne 38 analoges Signal: wird im Mikrofon erzeugt digitale Signale: werden durch Abtastung und Quantisierung der Analogwerte gewonnen 39 Töne sind analog – Digitalisierung Messung zu bestimmten (diskreten) Zeitpunkten – Sampling Qualität ist abhängig von Samplingrate (Messungen pro Sekunde) Analog‐Digital Wandlung sollte doppelt so häufig geschehen, wie höchste Signalfrequenz, entsprechend Abtasttheorem, Nyquist‐Shannon 20kHz 44.1 oder besser 48kHz Abtastung, pro Kanal CD‐Qualität: 44100 Hz Abtastwert = Sample Samplingtiefe (Genauigkeit der Messung, Auflösung): 8 bit: 256 Stufen, 16 bit = 65536 Stufen Spannung Zeit Quelle: http://w5.cs.uni-sb.de/~butz/teaching/hbks-SS00/hbks-ss00-06/sld002.htm 4 Qualität von Audio: Klirrfaktor Speicherbedarf Audiodaten 40 41 Quantisierungsrauschen, angegeben in Prozent oder dB Problem: es können nur eine bestimmte Anzahl von Werten gespeichert werden (Samplingtiefe) Es gibt aber Werte die zwischen den einzelnen Quantisierungsstufen liegen → Runden Runden: fehlerhafte Werte → Quantisierungsrauschen oder Klirren Je höher die Samplingtiefe, desto geringer der Klirrfaktor Klirrfaktor ist frequenzabhängig: bei niedrigen Frequenzen (Bässen) 5%, bei Frequenzen mit höchster Empfindlichkeit des menschl. Gehörs ist 0.5‐1% noch wahrnehmbar Datenrate CD‐Qualität: CD: 44,1KHz x 16 Bit x 2 Kanäle zum Vergleich: uralter PC: 22KHz x 8 Bit x 1 ISDN: 8KHz x 8 Bit x 1 DSL16000: → Kompression notwendig Auswirkung auf die Datenreduktion Erkenntnisse aus der Psychoakustik 43 dieser Schwelle werden wahrgenommen Mithörschwelle: leise Töne, die sich im Frequenzbereich in der Nähe von lauten Tönen befinden, werden nicht wahrgenommen Maskierungseffekt: leise Töne werden vorangegangene oder nachfolgende laute Töne verdeckt Frequenzabhängige Lautstärkeempfindung: unterschiedliche Lautstärkeempfindung des menschl. Ohrs je nach Frequenzbereich = 22Kbyte/s = 8Kbyte/s = 2000Kbyte/s=16000Kbit/s Rechenbeispiel Speicherplatzbedarf (5min Song): Sampling in CD‐Qualität: 44100*2 Byte* 2 Kanäle*300s = 52.920.000Byte Zusammengefasst: Grundlagen zu Datenreduktion Ruhehörschwelle: auch Hörschwelle, nur Töne oberhalb = 176Kbyte/s = 1408Kbit/s 44 Menschliches Gehör besitzt nur ein zeitl. begrenztes Auflösungsvermögen für Lautstärkeschwankungen ‐> Frequenz und Schallpegelabhängig → Hörfläche Abtastwert nur die Anzahl Bits zuweisen, die jeweils für das Auflösungsvermögen notwendig sind Tolerierung des Quantisierungsrauschens (Klirren) solange es unter der Mithörschwelle liegt Verdeckungseffekt ausnutzen: Unterteilung des Frequenzbereichs in einzelne Bänder → nur die lautesten Frequenzanteile nutzen Benötigt: Algorithmus → Software → Codec Siehe dazu vorangegangene Folien oder auch: http://rrzk.uni-koeln.de/fileadmin/zustaendigkeiten/multimedia/Digitale_Audiobearbeitung.pdf Codec WAV 45 46 Kunstwort aus Coder und Decoder Containerformat zur digitalen Speicherung von Verfahren, oft auch Software zur digitalen Audiodaten enthält meist unkomprimierte Daten (PCM) auch geeignet für MP3 Berechnung der Größe einer WAV‐Datei: (De)Kodierung von Signalen Analog‐Digital‐Analog Wandlung Codecs existieren hauptsächlich für: Audio: MP3, Ogg Vorbis, FLAC, Lame, RealAudio Video: TMPGEnc (nur Encoder), Ogg Theodora, DivX Sprache, Telefonie: G.711 (Festnetz), GSM (Mobil) pro Sekunde: Abtastrate ∙ Bytes pro Sample ∙ Anzahl der Kanäle (mono = 1, stereo = 2) Bytes Stereo, Abtastrate 44.1 kHz, 16Bit pro Sample, 5min: 2*44100*2*300=52920000 Byte 50 Mbyte 5 Audio CD Audiokompression 47 48 Aufzeichnung erfolgt mit Samplingrate: 48KHz Samplingtiefe: 16Bit zwei Kanälen → 44100*2Byte*2Kanäle=176400Byte/s wie bei Bildkompression: verlustfrei, verlustbehaftet Oft bei älteren CDs anzutreffen: Abkürzungen AAD, ADD, verlustbehaftet Basis: psychoakustisches Modell leiser Ton nach lautem Ton nicht hörbar, gewisser Unterschied in der Frequenz notwendig Einteilung nach Bitrate, die verwendet werden kann ohne hörbaren Qualitätsverlust DDD Hinweis ob Aufnahmeschritte (Aufnahme, Mischung, Premaster) analog oder digital erstellt wurden oft asynchrone Verfahren: Komprimierung aufwendiger als Dekomprimierung verlustfrei: kaum benutzt, Datenreduktion von ca. 25‐70% Qualität bleibt erhalten MP3 Ogg 49 50 MPEG‐1 Layer 3 Audio Codec (MPEG‐1, MPEG‐2, Lame) freies Containerformat für Audio, Video, Multimedia ab 1985 bei Fraunhofer in Erlangen entwickelt Xiph.org Foundation seit 1993 verlustbehaftetes Verfahren wesentliches Ziel: speichern und streamen von Ausnutzung des psychoakustischen Modells erlaubt Datenraten von 8…320 kBit/s Qualität und Datenrate hängen voneinander ab Kodierung mit konstanter Datenrate = schwankender Qualität gleichbleibende Qualität = schwankende Bitrate Multimedia‐Inhalten benutzt verschiedene Codecs: Vorbis für Audio Theora für Video Speex für Sprache FLAC für Audio Ogg-FLAC Ogg-Vorbis 51 52 FLAC: Free Lossless Audio Compression freier Codec zur verlustbehafteten Audiokompression Erste Veröffentlichung: 20. Juli 2001 Codec zur verlustfreien Kompression Entwickelt seit 2000, erste Version: 2002 Als freie Alternative zu MP3 entwickelt Unterschiedliche Kompressionsraten einstellbar: 0 bis 7 Je größer die Kompressionseinstellung desto langsamer ist der Vorgang effizienter als MP3 aber weniger verbreitet Kompression auf 30% bis 75% der Ausgangsgröße Datenrate: 16‐500kBit/s, prinzipiell unbegrenzt Freie Software Hardwareunterstützung noch wenig verbreitet 25% höhere Kompression bei gleicher Qualität unterstützt bis zu 256 Kanäle 6 Dolby Digital – AC3 Digital Theater System - DTS 53 54 Verfahren zur Kodierung von Surround Kanälen hauptsächlich für Kino, DVD AC3 = Audio Code 3 verlustbehaftete Kompression Bis zu sechs Kanäle: Surround 5.1 Bitraten zwischen 32 und 640KBit/s Ursprünglich von Terry Beard für das Kino entwickelt Erster Film: Jurassic Park Später auch für Heimkino (DVD, BlueRay) angepasst Verwendung von verlustbehafteter Komprimierung Enthält auch Informationen zur Steuerung von Effektmaschinen Datenraten von bis zu 1500Kbit/s möglich Digital Cinema Initiative MIDI 55 Zusammenschluss verschiedener Filmstudios Ziel: Entwicklung von technischen, qualitativen, logistischen und rechtlichen Standards für digitales Kino Audio‐Norm: Bis zu 16 Kanäle 24 bit PCM, 48KHz oder 96KHz Abtastrate → bis zu 16GB Audiodaten pro Stunde 3 Byte * 96.000Hz * 3600s * 16 Kanäle = 16.588.800.000Byte Arbeit auch an Videonorm → nächste Lehrveranstaltung 56 Music Instrument Digital Interface Protokoll zur Übermittlung, Aufzeichnung und Wiedergabe von Audiodaten beinhaltet keine Klänge Befehle zur Steuerung digitaler Instrumente oder Soundkarte Note‐on, Velocity, Note‐off, Instrument Vorteil von MIDI: Musikdateien sind sehr klein "Transformationen" sind einfach möglich MIDI ist mit digitalem Notenblatt vergleichbar Metadaten Anwendung 57 für MP3 Dateien entwickelt: ID3‐Tag ID3 – Identify an MP3 58 Internetradio: Audio Streaming: Unterscheidung zwischen: erlaubt Einfügen von zusätzlichen Informationen zu einer Audio‐Datei Songtitel, Künstler, Album, Erscheinungsjahr, Genre abgelegt seit Version 2 am Kopf der Audio‐Datei als Header Auch für OGG‐ und FLAC‐Dateien benutzbar Reinen Internetsendern Internet alternativ zu terrestrischer Verbreitung Verzeichnisse für Internet‐Radiostationen http://www.surfmusik.de/ http://www.shoutcast.com Privates Audio Streaming: Verbreitung von Musik über Heimnetz (WLAN) Benötigt Musikserver+entsprechender Streaming‐Software Podcasts Audioschnitt 7 Podcasts Techniken: Normalisierung 59 63 Anbieten von Mediendateien im Internet Kunstwort aus: IPod und Broadcast Meist für Audio: Video → Videocast Meist kostenlos „Audioblogging“, individualisierter Hörfunk Prinzip: Anbieter erstellt Mediendatei Stellt diese mittels NewsFeed auf Server im Internet bereit Teilnehmer kann diesen NewsFeed abbonnieren Software überprüft in regelmäßigen Abständen, ob neuer Beitrag vorhanden ist Änderung der Abtastrate, Kanaländerung Anpassung der Lautstärke an das menschliche Hörempfinden Ziel: starke Unterschiede zwischen Musikteilen oder –stücken ausgleichen Auch: starke Unterschiede innerhalb eines Musikstücks auszugleichen Siehe auch: Empfehlung 128 der EBU (European Broadcasting Union) Verstärken, Dämpfen, Ein- und Ausblenden 64 Erniedrigung: Downsampling Es werden Frequenzen herausgefiltert Erhöhung: Upsampling Problem: nicht vorhandene Frequenswerte müssen interpoliert werden, u.U. sind weitere Schritte wie Filterung notwendig Änderung der Kanalzahl: Stereo zu Mono: Addierung beider Stereokanäle mit anschließender Normierung Mono zu Stereo: Kopieren des Monokanals, ev. Hinzufügen von Versatz im Millisekundenbereich und/oder Halleffekte 65 Hüllkurve: Mathematisch: Kurve, die jede Kurve einer Kurvenschar in einem Punkt berührt Hier (nicht mathematisch korrekt): Kurve, die die Amplitudenhöhe beschreibt Bearbeitung erlaubt die Klang‐ oder Lautstärkenbeeinflussung http://rrzk.uni-koeln.de/fileadmin/zustaendigkeiten/multimedia/Digitale_Audiobearbeitung.pdf http://rrzk.uni-koeln.de/fileadmin/zustaendigkeiten/multimedia/Digitale_Audiobearbeitung.pdf Denoising, Decklicking Zeit und Tonhöhenkorrektur 66 67 Entfernung von unerwünschtem Rauschen und Knacksen Dauer der Wiedergabe und Tonhöhe sind gekoppelt oder Knistern Interessant bspw. Ändert man die Zeit, ändert sich auch die Tonhöhe Mickeymouseeffekt bei der Änderung der Abspielgeschwindigkeit für Digitalisierung von Schallplatten Entfernung von unerwünschten Störsignalen (Rauschen, Brummen) Rauschentfernung: Filtermuster erlernen Entkopplung über Zeitkorrektur (Timestretching) und Tonhöhenkorrektur (Pitchshifting) Audacity: Tempo ändern vs. Tempo/Tonhöhe ändern Auch möglich: nur Tonhöhe ändern http://rrzk.uni-koeln.de/fileadmin/zustaendigkeiten/multimedia/Digitale_Audiobearbeitung.pdf http://rrzk.uni-koeln.de/fileadmin/zustaendigkeiten/multimedia/Digitale_Audiobearbeitung.pdf 8 Software zur Audiobearbeitung Zusammenfassung 68 Kostenlos: Audacity Linux MultiMedia Studio (auch für Windows) 69 Audio‐Signale analog zur rechnergestützten Darstellung Digitalisierung kommerziell Adobe Audition CC Pro Tools Abtastung und Quantifizierung typ. Abtastrate: CD‐Qualität 44.1 kHz hohe Datenmenge Kompression Verlustfrei: FLAC Verlustbehaftet: MP3, OGG, AC3 Benutzung des psychoakustischen Modells Original nicht wieder herstellbar! Anwendung: Reduzierung der zu übertragenden Datenmenge Literatur wenn nicht auf der entsprechenden Folie angegeben 71 Kai Bruns, Klaus Meyer‐Wegener: "Taschenbuch der Medieninformatik", Fachbuchverlag Leipzig, 2005 Joachim Böhringer, Peter Bühler, Patrick Schlaich: „Kompendium der Mediengestaltung – Produktion und Technik für Digital und Printmedien“, Springer, Berlin Heidelberg, New York, 2011 http://www.fh‐ wedel.de/~si/seminare/ss02/Ausarbeitung/9.digitalaudio/a udio1.htm OGG‐Vorbis: http://www.xiph.org/vorbis MP3: http://de.wikipedia.org/wiki/Mp3 MIDI: http://de.wikipedia.org/wiki/MIDI ID3‐Tag: http://de.wikipedia.org/wiki/ID3‐Tag http://de.wikipedia.org/wiki/Ac3 9