Digitale Medien

Allgemein
2
Digitale Medien
7 – DIGITAL AUDIO
 vergangene LVen: Darstellung von Informationen: Bilder
 Heute: Audio
 Auditive Wahrnehmung
 Digitalisierung
 Speicherung von Audiodaten
 Formate
 Audioschnitt
Medientypen
Ton, Schall
3
5
 Schallwellen sind mechanische Wellen in einem Medium
 Ausbreitung je nach Medium unterschiedlich: Schallgeschwindigkeit c

Bei 20°C in Luft 343 m/s, Wasser 1521 m/s
Frequenz
33Hz
330Hz
3,3KHz
20Hz
Infraschall
Wellenlänge
Quelle: Prof. Hußmann, LMU
16,5m
10m
33kHz
20KHz
Hörbarer Bereich
Sprache
1m
0,1m
1cm
Das menschliche Ohr
Auditive Wahrnehmung
13
14
 Außenohr:
 Einfangen des Schalls
 Richtungsbestimmung
 Mittelohr:
 Trommelfell, Hammer, Amboss, Steigbügel: Verstärkung der Kraftwirkung  Innenohr:  Schnecke: Corti‐Organ → Basilarmembran
 Aufgerollte Röhren (Gänge), gefüllt mit Lymphflüssigkeit
Ultraschall
1,65cm
 Hörbereich wir von zwei Parametern bestimmt:
wahrnehmbare Frequenz: 16Hz bis 20KHz
2. Schalldruck: Hörschwelle … Schmerzgrenze
1.
1. Ohrmuschel (pinna)
2. Gehörgang
3. Trommelfell (ear drum)
4. Mittelohr
5. Hammer (malleus)
6. Amboss (incus)
7. Steigbügel (stapes)
8. Gleichgewichtsorgan
9. Schnecke (cochlea)
10. Hörnerven
Quelle: http://de.wikipedia.org/wiki/Ohr
Quelle: Prof. Hußmann, Vorlesung Digitale Medien, WS 2007/2008: http://www.medien.ifi.lmu.de/lehre/ws0708/dm/dm5a.pdf
1
Auditive Wahrnehmung - Schalldruck
Auditive Wahrnehmung
15
16
 Umsetzung von Schalldruckschwankungen in Nervenreize
 Dynamik(Hör‐)bereich: Schalldruck von 2*10‐5 ... 20Pa

Grenzen: Hörschwelle und Schmerzgrenze
 logarithmische Verarbeitung durch Gehör
 Schalldruck‐Pegelwert logarithmisch, 0dB=Hörschwelle
 Gehörempfindlichkeit hängt von Frequenz ab
 bei mittleren Frequenzen (1...4KHz) liegt Hörschwelle bei 2*10‐5Pa=20µPa=0.00002Pa
 Schalldruckpegel: Verhältnis zwischen aktuellem Pegel und Bezugsgröße p0=20µPa
 Einheit: Dezibel [dB]
 Berechnung: Lp=20 log10 (p1/p0)dB
http://www.sengpielaudio.com/SchalldruckpegelSindNichtSchallleistungspegel.pdf
Auditive Wahrnehmung - Lautstärke
17
18
 Einheit: Phon
 Maß für subjektive Schallempfindung
 Vergleichsmaß: beschreibt, welchen Schalldruckpegel ein Sinuston mit 1kHz haben müsste, um genauso laut wie der betrachtete Schall empfunden zu werden
 Frequenzabhängig
Quelle: http://de.wikipedia.org/wiki/Lautstärke
Hörfläche
Maskierungseffekt
19
20
 Verdeckung von Tönen
 Beispiel: laute Bässe bei gleichzeitiger Wiedergabe von mittleren Frequenzen
Hörschwelle wird angehoben
 Mittlere Frequenzen werden nicht oder nur teilweise wahrgenommen
 Bspw. verdeckt ein 1KHz‐
Ton mit 80dB einen 2KHz‐
Ton mit 40dB

Bildquelle: http://de.wikipedia.org/wiki/Maskierungseffekt
Quelle: http://de.wikipedia.org/wiki/Bild:Hoerflaeche.png
2
Auditive Wahrnehmung
Kanäle Beispiel
21
22
 Richtungswahrnehmung durch Pegel‐ und Laufzeitdifferenzen zwischen den Ohren
Lokalisation: binaurales Hören

tiefe Frequenzen: Laufzeitdifferenz

hohe Frequenzen: Pegelunterschiede

keine Richtungsortung möglich
L
Phantomschallquelle
R
 Gehör lässt sich täuschen und nimmt Phantomschallquellen wahr
 Ausnutzung bei Stereophonie

mono: 1 Kanal
stereo: zwei Kanäle
1D Surround: drei Kanäle (rechts, Mitte, links)
quadrophonie: 4 Kanäle (vorn rechts, vorn links, hinten rechts, hinten links)
 Surround: 5 Kanäle, wie quadrophonie+vorn Mitte
 5.1 Surround: wie Surround+LFE‐Kanal




 LFE: Low Frequency Effect (Subwoofer)
 7.1 Surround: Erweiterung von 5.1 um zwei Kanäle zwei Signalquellen  Kanäle
hinter dem Hörer
Hörposition
 Weiterentwicklung zu 7.2, 9.2, 11.4
Qualität von Audio
Informationsgehalt akustischer Szenen
28
 Unterscheidung zwischen Nutz‐ und Störsignalen
 Musik und Verkehrslärm
 Technische Systeme erzeugen Störungen
 Rauschen
 wichtig für Qualität ist Signal‐Rausch‐Abstand (S/N): logarithmisch in dB angegeben
29
 Umgebung des Menschen ist durch Vielzahl von Geräuschen geprägt
 Menschliche Gehörsinn (Hörapparat + Nachverarbeitung)



 gut: >70dB

 Rauschsignale, die mehr als 70dB unter Maximalpegel liegen werden nicht mehr wahrgenommen
 Maskierungseffekt

Kann Aufmerksamkeit gezielt auf Teilsignale richten: Cocktailparty‐Effekt
Nimmt Hintergrundinfos neben selektierter Information weiter war (bei Durchsagen)
Kann räumlich weit verstreute Informationsquellen integrieren
Kann sehr genau verschiedene Schallereignisse differenzieren
Erreicht eine Störschallunterdrückung von 9‐15dB
 → Digitale Tonverarbeitung muss sich auch mit der Informationsverarbeitung im Gehirn befassen nicht nur mit dem physikalischen Hörorgan
 → Psychoakus k
Maskierungseffekt
Psychoakustik
Hörschwelle
30
31
 Beschreibt, wie das menschliche Gehör die Lautheit von  Verdeckung von Tönen
Tönen empfindet
 Wesentlich sind:
 Beispiel: laute Bässe bei gleichzeitiger Wiedergabe von 

Hörschwelle
Maskierungseffekte


Frequenz
Zeitlich mittleren Frequenzen


Hörschwelle wird angehoben
Mittlere Frequenzen werden nicht oder nur teilweise wahrgenommen
Bildquelle: http://de.wikipedia.org/wiki/Maskierungseffekt
3
Maskierungseffekt
Maskierungseffekt
Frequenz
Ursache
32
35
 Ton von 1 kHz und einer Lautstärke von 60 dB (der  Mechanik des Innenohrs
„Maskierungston“) verändert die Hörschwelle drastisch.  Töne ähnlicher Frequenz müssen nun wesentlich lauter sein, um ebenfalls wahrgenommen zu werden
 Frequenzanteile unter der Kurve können weggelassen werden:
 Schall bringt Basilarmembran zum schwingen
 Je nach Tonhöhe gerät eine andere Stelle der Basilarmembran in Resonanz


Maskierung
durch einen
1 kHz-Ton
Hohe Töne am Anfang der Basilarmembran
Tiefe Töne am Ende
→ Bass‐Schwingungen beeinflussen auch die Nervenzellen für hohe Töne
→ mittlere Töne müssen so stark sein, dass sie die Miterregung durch Bässe übertönen
http://www.itec.uka.de/seminare/redundanz/vortrag14/#psychoakustik
Maskierungseffekt
zeitlich
36
Digital Audio
 Hört ein lauter Ton plötzlich auf, dauert es eine Weile, bis man leise Klänge wieder wahrnehmen kann
 Zeit ist abhängig vom Lautstärke‐ und vom Frequenzverhältnis der beiden Töne und liegt im Bereich von ca. 5 bis 20 ms

37
VON ANALOG ZU DIGITAL
Maskierung erfolgt vorwärts und rückwärts

Vorangegangene Töne werden auch beeinflusst
Signalformen
Darstellung: Töne
38
 analoges Signal: wird im Mikrofon erzeugt
 digitale Signale: werden durch Abtastung und Quantisierung der Analogwerte gewonnen
39
 Töne sind analog – Digitalisierung
 Messung zu bestimmten (diskreten) Zeitpunkten – Sampling
 Qualität ist abhängig von  Samplingrate (Messungen pro Sekunde)

 Analog‐Digital Wandlung




sollte doppelt so häufig geschehen, wie höchste Signalfrequenz, entsprechend Abtasttheorem, Nyquist‐Shannon
 20kHz  44.1 oder besser 48kHz Abtastung, pro Kanal
CD‐Qualität: 44100 Hz
Abtastwert = Sample
Samplingtiefe (Genauigkeit der Messung, Auflösung):

8 bit: 256 Stufen, 16 bit = 65536 Stufen
Spannung
Zeit
Quelle: http://w5.cs.uni-sb.de/~butz/teaching/hbks-SS00/hbks-ss00-06/sld002.htm
4
Qualität von Audio: Klirrfaktor
Speicherbedarf Audiodaten
40
41
 Quantisierungsrauschen, angegeben in Prozent oder dB
 Problem: es können nur eine bestimmte Anzahl von Werten gespeichert werden (Samplingtiefe)
 Es gibt aber Werte die zwischen den einzelnen Quantisierungsstufen liegen → Runden
 Runden: fehlerhafte Werte → Quantisierungsrauschen oder Klirren
 Je höher die Samplingtiefe, desto geringer der Klirrfaktor

Klirrfaktor ist frequenzabhängig: bei niedrigen Frequenzen (Bässen) 5%, bei Frequenzen mit höchster Empfindlichkeit des menschl. Gehörs ist 0.5‐1% noch wahrnehmbar
 Datenrate CD‐Qualität:  CD: 44,1KHz x 16 Bit x 2 Kanäle
 zum Vergleich:
 uralter PC: 22KHz x 8 Bit x 1  ISDN: 8KHz x 8 Bit x 1
 DSL16000:  → Kompression notwendig
Auswirkung auf die Datenreduktion
Erkenntnisse aus der Psychoakustik
43
dieser Schwelle werden wahrgenommen
 Mithörschwelle: leise Töne, die sich im Frequenzbereich in der Nähe von lauten Tönen befinden, werden nicht wahrgenommen
 Maskierungseffekt: leise Töne werden vorangegangene oder nachfolgende laute Töne verdeckt
 Frequenzabhängige Lautstärkeempfindung: unterschiedliche Lautstärkeempfindung des menschl. Ohrs je nach Frequenzbereich
= 22Kbyte/s
= 8Kbyte/s
= 2000Kbyte/s=16000Kbit/s
 Rechenbeispiel Speicherplatzbedarf (5min Song):
 Sampling in CD‐Qualität: 44100*2 Byte* 2 Kanäle*300s =
52.920.000Byte
Zusammengefasst: Grundlagen zu Datenreduktion
 Ruhehörschwelle: auch Hörschwelle, nur Töne oberhalb = 176Kbyte/s = 1408Kbit/s
44
 Menschliches Gehör besitzt nur ein zeitl. begrenztes Auflösungsvermögen für Lautstärkeschwankungen
‐> Frequenz und Schallpegelabhängig → Hörfläche
 Abtastwert nur die Anzahl Bits zuweisen, die jeweils für 
das Auflösungsvermögen notwendig sind
 Tolerierung des Quantisierungsrauschens (Klirren) solange es unter der Mithörschwelle liegt
 Verdeckungseffekt ausnutzen: Unterteilung des Frequenzbereichs in einzelne Bänder → nur die lautesten Frequenzanteile nutzen
 Benötigt: Algorithmus → Software → Codec
Siehe dazu vorangegangene Folien oder auch: http://rrzk.uni-koeln.de/fileadmin/zustaendigkeiten/multimedia/Digitale_Audiobearbeitung.pdf
Codec
WAV
45
46
 Kunstwort aus Coder und Decoder
 Containerformat zur digitalen Speicherung von  Verfahren, oft auch Software zur digitalen Audiodaten
 enthält meist unkomprimierte Daten (PCM)
 auch geeignet für MP3
 Berechnung der Größe einer WAV‐Datei:
(De)Kodierung von Signalen
 Analog‐Digital‐Analog Wandlung
 Codecs existieren hauptsächlich für:
 Audio: MP3, Ogg Vorbis, FLAC, Lame, RealAudio
 Video: TMPGEnc (nur Encoder), Ogg Theodora, DivX
 Sprache, Telefonie: G.711 (Festnetz), GSM (Mobil)
pro Sekunde: Abtastrate ∙ Bytes pro Sample ∙ Anzahl der Kanäle (mono = 1, stereo = 2) Bytes
 Stereo, Abtastrate 44.1 kHz, 16Bit pro Sample, 5min:
 2*44100*2*300=52920000 Byte  50 Mbyte

5
Audio CD
Audiokompression
47
48
 Aufzeichnung erfolgt mit
 Samplingrate: 48KHz
 Samplingtiefe: 16Bit
 zwei Kanälen
 → 44100*2Byte*2Kanäle=176400Byte/s
 wie bei Bildkompression: verlustfrei, verlustbehaftet
 Oft bei älteren CDs anzutreffen: Abkürzungen AAD, ADD,  verlustbehaftet
 Basis: psychoakustisches Modell
 leiser Ton nach lautem Ton nicht hörbar, gewisser Unterschied in der Frequenz notwendig
 Einteilung nach Bitrate, die verwendet werden kann ohne hörbaren
Qualitätsverlust
DDD

Hinweis ob Aufnahmeschritte (Aufnahme, Mischung, Premaster) analog oder digital erstellt wurden
 oft asynchrone Verfahren: Komprimierung aufwendiger als Dekomprimierung
 verlustfrei:  kaum benutzt, Datenreduktion von ca. 25‐70%
 Qualität bleibt erhalten
MP3
Ogg
49
50
 MPEG‐1 Layer 3 Audio Codec (MPEG‐1, MPEG‐2, Lame)  freies Containerformat für Audio, Video, Multimedia
 ab 1985 bei Fraunhofer in Erlangen entwickelt
 Xiph.org Foundation seit 1993
 verlustbehaftetes Verfahren
 wesentliches Ziel: speichern und streamen von  Ausnutzung des psychoakustischen Modells
 erlaubt Datenraten von 8…320 kBit/s
 Qualität und Datenrate hängen voneinander ab
 Kodierung mit konstanter Datenrate = schwankender Qualität
 gleichbleibende Qualität = schwankende Bitrate
Multimedia‐Inhalten
 benutzt verschiedene Codecs:
 Vorbis für Audio
 Theora für Video
 Speex für Sprache
 FLAC für Audio
Ogg-FLAC
Ogg-Vorbis
51
52
 FLAC: Free Lossless Audio Compression
 freier Codec zur verlustbehafteten Audiokompression
 Erste Veröffentlichung: 20. Juli 2001

 Codec zur verlustfreien Kompression

Entwickelt seit 2000, erste Version: 2002
Als freie Alternative zu MP3 entwickelt
 Unterschiedliche Kompressionsraten einstellbar: 0 bis 7
 Je größer die Kompressionseinstellung desto langsamer ist der Vorgang
 effizienter als MP3 aber weniger verbreitet
 Kompression auf 30% bis 75% der Ausgangsgröße
 Datenrate: 16‐500kBit/s, prinzipiell unbegrenzt
 Freie Software
 Hardwareunterstützung noch wenig verbreitet

25% höhere Kompression bei gleicher Qualität
 unterstützt bis zu 256 Kanäle
6
Dolby Digital – AC3
Digital Theater System - DTS
53
54
 Verfahren zur Kodierung von Surround Kanälen 



hauptsächlich für Kino, DVD
AC3 = Audio Code 3
verlustbehaftete Kompression
Bis zu sechs Kanäle: Surround 5.1
Bitraten zwischen 32 und 640KBit/s
 Ursprünglich von Terry Beard für das Kino entwickelt
 Erster Film: Jurassic Park
 Später auch für Heimkino (DVD, BlueRay) angepasst
 Verwendung von verlustbehafteter Komprimierung
 Enthält auch Informationen zur Steuerung von Effektmaschinen
 Datenraten von bis zu 1500Kbit/s möglich
Digital Cinema Initiative
MIDI
55
 Zusammenschluss verschiedener Filmstudios
 Ziel: Entwicklung von technischen, qualitativen, logistischen und rechtlichen Standards für digitales Kino
 Audio‐Norm:
 Bis zu 16 Kanäle
 24 bit PCM, 48KHz oder 96KHz Abtastrate
→ bis zu 16GB Audiodaten pro Stunde

3 Byte * 96.000Hz * 3600s * 16 Kanäle = 16.588.800.000Byte
 Arbeit auch an Videonorm → nächste Lehrveranstaltung
56
 Music Instrument Digital Interface
 Protokoll zur Übermittlung, Aufzeichnung und Wiedergabe von Audiodaten
 beinhaltet keine Klänge
 Befehle zur Steuerung digitaler Instrumente oder Soundkarte
Note‐on, Velocity, Note‐off, Instrument
 Vorteil von MIDI:  Musikdateien sind sehr klein
 "Transformationen" sind einfach möglich
 MIDI ist mit digitalem Notenblatt vergleichbar

Metadaten
Anwendung
57
 für MP3 Dateien entwickelt: ID3‐Tag
 ID3 – Identify an MP3
58
 Internetradio: Audio Streaming:
 Unterscheidung zwischen:

 erlaubt Einfügen von zusätzlichen Informationen zu einer Audio‐Datei

Songtitel, Künstler, Album, Erscheinungsjahr, Genre
 abgelegt seit Version 2 am Kopf der Audio‐Datei als Header
 Auch für OGG‐ und FLAC‐Dateien benutzbar


Reinen Internetsendern
Internet alternativ zu terrestrischer Verbreitung
Verzeichnisse für Internet‐Radiostationen


http://www.surfmusik.de/
http://www.shoutcast.com
 Privates Audio Streaming:
 Verbreitung von Musik über Heimnetz (WLAN)
 Benötigt Musikserver+entsprechender Streaming‐Software
 Podcasts
 Audioschnitt
7
Podcasts
Techniken: Normalisierung
59
63
 Anbieten von Mediendateien im Internet
 Kunstwort aus: IPod und Broadcast
 Meist für Audio: Video → Videocast
 Meist kostenlos
 „Audioblogging“, individualisierter Hörfunk
 Prinzip:  Anbieter erstellt Mediendatei
 Stellt diese mittels NewsFeed auf Server im Internet bereit
 Teilnehmer kann diesen NewsFeed abbonnieren

Software überprüft in regelmäßigen Abständen, ob neuer Beitrag vorhanden ist Änderung der Abtastrate, Kanaländerung
 Anpassung der Lautstärke an das menschliche Hörempfinden
 Ziel: starke Unterschiede zwischen Musikteilen oder –stücken ausgleichen

Auch: starke Unterschiede innerhalb eines Musikstücks auszugleichen
 Siehe auch: Empfehlung 128 der EBU (European Broadcasting Union)
Verstärken, Dämpfen, Ein- und Ausblenden
64
 Erniedrigung: Downsampling
 Es werden Frequenzen herausgefiltert
 Erhöhung: Upsampling
 Problem: nicht vorhandene Frequenswerte müssen interpoliert werden, u.U. sind weitere Schritte wie Filterung notwendig
 Änderung der Kanalzahl:
 Stereo zu Mono: Addierung beider Stereokanäle mit anschließender Normierung
 Mono zu Stereo: Kopieren des Monokanals, ev. Hinzufügen von Versatz im Millisekundenbereich und/oder Halleffekte
65
 Hüllkurve:
 Mathematisch: Kurve, die jede Kurve einer Kurvenschar in einem Punkt berührt
 Hier (nicht mathematisch korrekt): Kurve, die die Amplitudenhöhe beschreibt
 Bearbeitung erlaubt die Klang‐ oder Lautstärkenbeeinflussung
http://rrzk.uni-koeln.de/fileadmin/zustaendigkeiten/multimedia/Digitale_Audiobearbeitung.pdf
http://rrzk.uni-koeln.de/fileadmin/zustaendigkeiten/multimedia/Digitale_Audiobearbeitung.pdf
Denoising, Decklicking
Zeit und Tonhöhenkorrektur
66
67
 Entfernung von unerwünschtem Rauschen und Knacksen  Dauer der Wiedergabe und Tonhöhe sind gekoppelt
oder Knistern
 Interessant bspw.  Ändert man die Zeit, ändert sich auch die Tonhöhe
 Mickeymouseeffekt bei der Änderung der Abspielgeschwindigkeit


für Digitalisierung von Schallplatten
Entfernung von unerwünschten Störsignalen (Rauschen, Brummen)
 Rauschentfernung: Filtermuster erlernen
 Entkopplung über  Zeitkorrektur (Timestretching) und  Tonhöhenkorrektur (Pitchshifting)
 Audacity: Tempo ändern vs. Tempo/Tonhöhe ändern
 Auch möglich: nur Tonhöhe ändern
http://rrzk.uni-koeln.de/fileadmin/zustaendigkeiten/multimedia/Digitale_Audiobearbeitung.pdf
http://rrzk.uni-koeln.de/fileadmin/zustaendigkeiten/multimedia/Digitale_Audiobearbeitung.pdf
8
Software zur Audiobearbeitung
Zusammenfassung
68
 Kostenlos:
 Audacity
 Linux MultiMedia Studio (auch für Windows)
69
 Audio‐Signale analog zur rechnergestützten Darstellung 
Digitalisierung



 kommerziell
 Adobe Audition CC
 Pro Tools
Abtastung und Quantifizierung
typ. Abtastrate: CD‐Qualität 44.1 kHz
hohe Datenmenge  Kompression
 Verlustfrei: FLAC
 Verlustbehaftet: MP3, OGG, AC3
 Benutzung des psychoakustischen Modells
 Original nicht wieder herstellbar!
 Anwendung: Reduzierung der zu übertragenden Datenmenge
Literatur
wenn nicht auf der entsprechenden Folie angegeben
71
 Kai Bruns, Klaus Meyer‐Wegener: "Taschenbuch der Medieninformatik", Fachbuchverlag Leipzig, 2005
 Joachim Böhringer, Peter Bühler, Patrick Schlaich: 





„Kompendium der Mediengestaltung – Produktion und Technik für Digital und Printmedien“, Springer, Berlin Heidelberg, New York, 2011
http://www.fh‐
wedel.de/~si/seminare/ss02/Ausarbeitung/9.digitalaudio/a
udio1.htm
OGG‐Vorbis: http://www.xiph.org/vorbis
MP3: http://de.wikipedia.org/wiki/Mp3
MIDI: http://de.wikipedia.org/wiki/MIDI
ID3‐Tag: http://de.wikipedia.org/wiki/ID3‐Tag
http://de.wikipedia.org/wiki/Ac3
9