Frequenz

Werbung
Einführung in die
Medieninformatik 1
Wintersemester 2008/09
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
1
Plan (vorläufig)
29.10.
5.11.
12.11.
19.11.
26.11.
3.12.
10.12.
17.12.
7.01.
14.01.
21.01.
28.01.
4.02.
5.02.
Einführung
Menschen: Wahrnehmung
Menschen: Wahrnehmung
Medien: Digitalisierung
Medien: Bilder
Medien: Kompression
Verlustbehaftete Kompression (Bilder)
Medien: Audio: Grundlagen und Bearbeitung
Verlustbehaftete Kompression (Audio)
Medien: Texte und Typographie
Web: Grundlagen + Techniken
Menschen und Medien: Interaktion
Zusammenfassung und Ausblick
Abschluss-Event (ganztägig!)
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
2
Einführung in die Medieninformatik 1
Teil 5: Audio
Viele Folien Heinrich Hußmann (München)
Rainer Malaka
Vorlesung
Wintersemester 2006/09
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
3
Übersicht Medientypen
(Technische) digitale Medien
Visuelle Medien
Bild
Bewegtbild
Akustische Medien
Strukturierter
Ton
Strukturiertes AbgetasBild
tetes Bild
Abgetasteter
Ton
Sprache
Geräusch
Musik
Vektor- Schrift/
grafik
Text
Zeitabhängige Medien
Weitere Klassifikationskriterien: komprimiert/unkomprimiert, ...
Angelehnt an Eidenberger & Divotkey
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
4
Übermacht der visuellen Eindrücke?
•
•
Tendenz: Visuelle Gestaltung dominiert
–
CD-Cover, Bühnenshow, Interessenlage von Medieninformatik-Studierenden
–
Gibt das Auge den Ton an?
Warum Gestaltung akustischer Medien?
–
Ohr nicht verschließbar, unbewusste Wahrnehmung als Normalfall
• Akustische „Szenerie“ bestimmt Grundstimmung, siehe Filmmusik
• „Ohrwürmer“
–
Direkte Kopplung der Schallverarbeitung mit Emotionen
• Feine „Untertöne“ in der Sprache
–
Verbindender, kollektivierender Effekt
• Z.B.: Jugendkultur, Marschmusik
–
Objektivierende Wirkung
• Akustische Ereignisse wesentlich schwerer zu verfälschen als optische
–
Aufmerksamkeitseffekt
• Akustische Alarme
•
Audio-Gestaltung ist wesentlich in Kunst und Ingenieurwesen!
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
5
Ton (sound)
• Schallwellen, d.h. schnelle Änderungen des Luftdrucks
– Longitudinalwellen, keine Schwingungsebenen
– Ausbreitungsgeschwindigkeit ca. 331 m/s (bei 0°C), ca. 343 m/s (bei 20°C)
• Vom Menschen hörbares Spektrum ca. 20 Hz bis 20 kHz
33 kHz
Ultraschall
3,3 kHz
330 Hz
20 kHz
20 Hz
Hörbarer Bereich
Sprache
1,65 cm
1 cm
Frequenz
33 Hz
1 dm
16,5 m
Infraschall
Wellenlänge
10 m
1m
Kammerton A
440 Hz
10240
5120
2560 1280
Prof. Dr. Rainer Malaka,
640
320
Digitale Medien
160
80
Hz
Medieninformatik 1
6
Reflexion
• Für Schallwellen gelten die gleichen Gesetze wie für Lichtwellen
• Aber: Effekte abhängig von Wellenlänge
– Wellenlänge bei Schallausbreitung in der Luft bei 20°C
zwischen ca. 20 m (tiefe Frequenzen) und 2 cm (hohe Frequenzen)
– Lichtwellen erheblich kürzer (Mikrometer-Bereich)
• Reflexion:
– Reflexionsgesetz (Einfallswinkel gleich Ausfallswinkel)
gilt nur, wenn Grenzfläche groß im Vergleich zur Wellenlänge
• d.h. in kleineren Räumen keine Reflexion tiefer Frequenzen
– Rauigkeit der Oberfläche führt zu diffuser (zerstreuender) Reflexion,
wenn Unebenheiten in der Größenordnung der Wellenlänge
• d.h. auch bei zentimetergroßen Unebenheiten wirkt Wand auf tieffrequenten Schall als
"glatt"
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
7
Beugung
• Lichtwellen erzeugen immer einen Schatten hinter einem
undurchsichtigen Gegenstand
– Weil Gegenstand groß im Vergleich zur Wellenlänge
• Schall-"Schatten" entsteht erst, wenn Gegenstand groß im
Vergleich zur Wellenlänge
• Bei Gegenständen in der Größenordnung der Wellenlänge tritt
Beugung auf
– Wellen fliessen "um das Hindernis herum"
– Wellen werden von einem Spalt zerstreut
hochfrequenter Schall tieffrequenter Schall
an einer Säule
an einer Säule
hochfrequenter Schall tieffrequenter Schall
an einem Spalt
an einem Spalt
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
8
Effektivwert und Pegel eines Signals
• Lautstärkenvergleich:
– Wie bestimmen wir die „mittlere Amplitude“?
– Arithmetischer Mittelwert falsch wegen negativer Werte
• Effektivwert:
– Quadriert Signalstärkenwerte
– Bildet Mittelwert über Zeitintervall
1 2
seffektiv =
s (t )dt
∫
TT
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
9
Dezibel, Absolute Pegel
• Exponentieller Zusammenhang:
– Verdoppelung eines physikalischen Basismaßes wird als eine Stufe (plus 1) aufgefasst
(sog. logarithmisches Gesetz)
– Beispiele für das logarithmische Gesetz:
• Empfindlichkeit des menschlichen Gehörs für Schalldruck
• Verlust in Telefonkabeln (als Funktion der Länge)
• Bel (B, benannt nach Graham Bell):
– Logarithmisches Maß zu einem Referenzwert (0 Bel)
– Referenzwert traditionell 1 mW bei 600 Ω
• DeziBel (dB, „de-be“, „dee-bee“): 1 dB = 1/10 B
220Hz
– 0 dB
– 6 dB
– 12 dB
– 18 dB
„Plus 6 dB
ist doppelte
Lautstärke“
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
10
Räumliches Hören
• Stereo-Effekt
– Zeitliche Verzögerung des selben Schallereignisses in seiner Wahrnehmung durch beide
Ohren
– Verzögerungsmessung liefert Information über Entfernung der Quelle
• Kann ein einseitig tauber Mensch räumlich hören?
– Eingeschränkt: ja!
– Reflexion und Beugung an Umwelt und Ohrmuscheln liefern umfangreiche Information
• Frequenzabhängigkeit der Ortung:
– Niedrige Frequenzen generell schlechter zu orten
– Konsequenz physikalischer Tatsachen (Wellenlänge/Hindernis)
– Siehe z.B. „Subwoofer“-Technologie
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
11
Empfindungen: Klang und Geräusch
• Töne sind vom Menschen wahrnehmbare kleine Luftdruckänderungen
– Warum empfinden wir manchen Ton als "Musik"?
• Primärempfindungen der Tonwahrnehmung:
– Tonhöhe (Bsp. verschiedene Klaviertasten)
– Lautstärke (Bsp. Trommelanschlag)
– Klangfarbe (Bsp. gleicher Ton auf verschiedenen Instrumenten)
• Klang:
– alle drei Primärempfindungen wahrnehmbar
• Geräusch:
– nur Lautstärke wahrnehmbar
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
12
Periodizität
• Klänge sind, als Signalform betrachtet, periodisch
(d.h. wiederholen Teilabschnitte)
• Geräusche sind schlechter strukturiert und meist aperiodisch.
Blockflöte
LKW
Violine
Fahrradkette
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
13
Frequenzspektrum, Oberschwingungen
• Frequenz (Tonhöhe):
– Maß für die Häufigkeit, mit der sich positive und negative Spannungen abwechseln, Maß 1
Hertz = 1 Schwingung/s
• Audiosignal:
– besteht aus Vielzahl von überlagerten Frequenzen (Frequenzspektrum)
– Bandbreite: Differenz zwischen höchster und niedrigster Frequenz
– Beispiel: Ton eines Musikinstrumentes
• Grundton: Wahrgenommene Tonhöhe
– Größter gemeinsamer Teiler aller am Signal beteiligten Frequenzen
– Oft: Tiefste enthaltene Teilfrequenz
• Obertöne:
– reine Obertöne: ganzzahlige Vielfache der Grundfrequenz
– zusätzlich: geräuschhafte Tonanteile (z.B. Zupfgeräusch)
– Obertonspektrum ist für charakteristischen Instrumentklang bestimmend
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
14
Harmonische Schwingungen
• Harmonische Schwingung (harmonischer Ton):
– Beschreibbar durch Sinus- und Cosinusfunktionen
• Harmonisch komplexe Schwingung (Klang):
– Zusammengesetzt aus harmonischen Teilschwingungen
– Grundton und ganzzahlige Vielfache
• Klänge ohne Grundton:
– Zusammengesetzt aus harmonischen Teilschwingungen
– Keine ganzzahligen Vielfachen einer Grundfrequenz
– Z.B. Pauken, Gongs
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
15
Überlagerung harmonischer Schwingungen
Sinus 110 Hz
(Grundton)
110 Hz + 220 Hz
Sinus 220
Hz
(Oberton)
110 Hz + 220 Hz + 330 Hz
220 Hz + 330 Hz
Sinus 330 Hz
(Oberton)
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
16
Interferenz und Schwebung
• Interferenz: Überlagerung von Schallwellen exakt gleicher Frequenz
– konstruktive Interferenz (in phase):
• Übereinstimmung der Phasenlage
• Addition der Amplituden
– destruktive Interferenz (out of phase):
• Gegenphasige Lage (180°verschoben)
• Subtraktion der Amplituden – Auslöschung
• Schwebung: Überlagerung von Wellen annähernd gleicher Frequenz
– konstruktive und destruktive Interferenz wechseln sich ab
– Amplitudenverlauf beschreibt neues Signal
mit Frequenz = Differenz der überlagerten Frequenzen
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
17
Frequenzspektren
• Frequenzspektrum von Klängen
– Anzahl diskreter Spektrallinien (Grund- und Obertöne)
• Frequenzspektrum von Geräuschen
– kontinuierliches Spektrum diverser Frequenzen
Klänge:
Sinus 110 Hz
Blockflöte
Violine
Geräusche:
Bach
Fahrrad (Bremsen)
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
18
Sounddesign
• Unterschiede: Auditiver – visueller
Wahrnehmungskanal
–
–
–
–
–
–
–
Wegsehen ist kein Problem, weghören schon
Auge verschließbar, Ohr nur schwer
Auge beweglicher als Ohr
Oft kann Unsichtbares gehört werden
Akustische Ereignisse erfüllen den ganzen Raum
Auge: selektiv, individuell, distanzierend
Ohr: universell, verbindend, kollektivierend
• Akustische Ereignisse erregen Aufmerksamkeit und Emotion
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
19
Audioproduktion: Verarbeitungsschritte
• Aufnahme:
– Festlegung der analogen Aufnahmequalität (Micro, Recorder etc.)
• Sampling und Quantisierung
– Analoges Audiosignal wird digital abgetastet
– Die Häufigkeit der Abtastungsschritte/Sekunde wird in kHz angegeben und die
Genauigkeit des Amplitudenwertes in Bit
– Generell gilt:
• je höher die Abtastrate/Frequenz (in kHz) und die Genauigkeit/Auflösung (in
Bit) desto besser ist die Qualität
– Aus einer „Kurve“ wird durch Digitalisierung eine „Treppe“
• Postprocessing
– Bearbeitung (Effekte, Schnitt usw.), Speicherung, Kopieren
– Typisches Beispiel: CD Qualität = 44,1 kHz Abtastrate, 16Bit Auflösung
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
20
Bearbietung von Amplitude und Dynamik
• Normalisierung
– Nachträgliche Verstärkung zur Vollaussteuerung
• Hüllkurve
– Beschreibt den Zeitverlauf der Amplitude des Schallsignals
– Eingang und Ausgang häufig durch Fade-In und Fade-Out
• Dynamik
– Kompressor verringert Dynamik. Mit anschließender Normalisierung wird das
Signal als lauter wahrgenommen.
• Anwendung: Hervorhebung von Sprachsignalen
– Weitere Werkzeuge:
• Limiter: Begrenzen von Signalen über Threshold
• Expander: Verstärken von Signalen über Threshold
• Gate: Unterdrückung von Signalen unter Threshold (z.B. Noise-Gate)
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
21
Bearbietung des zeitlichen Verlaufs
•
Audioschnitt
–
–
•
Grundregeln:
–
–
–
–
–
•
In Signalpausen schneiden
Von einer Passage zu einer ähnlichen schneiden
Von einer leisen zu einer lauten Stelle schneiden
Immer in Nulldurchgängen schneiden
An den Schnittpunkten möglichst gleiche Steigung des Signals
Werkzeuge
–
–
–
•
Bearbietung durch Schneiden, Kopieren und Einfügen
Arbeiten mit Tracks (entspricht Layers bei Bildern)
Loops, Resampling, Timestretching, …
Andern von Tonhöhe (Pitch), Tempo, Speed, …
Weitere Filter …
Möglichkeit der Zeitgestaltung auf verschiedenen Ebenen:
–
–
–
–
Form, Dramaturgie
Puls, Tempo, Metrum
Rhythmus
Melodie
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
22
Räumliche Gestaltung
• Hall, Nachhall
• Delay, Echo
• Tiefenstaffelung
– Bewertung der absoluten Lautstärke
– Anteil hoher Frequenzen
– Verhältnis von Erstschall, Reflexionen und Nachhall
• Richtung
– Interauraler Intensitätsunterschied
– Interauraler Laufzeit-/Phasenunterschied
• Bei mehrspurigen und dichten Medien sollte ein Konzept der
räumlichen Anordnung der einzelnen Quellen geben
• Räumliche Zuordnungen helfen, die Quellen zu unterscheiden
und vermeiden chaotisches Durcheinander
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
23
Akustische Mediengestaltung
• Zusammensetzung eines Audiomediums aus Tonspuren
– Typischerweise 3 Ebenen: Sprache, Geräusche, Musik
– Sprache:
• Kurze Texte
• ggf. verschiedene Sprecher mit unterschiedlichen Raumperspektiven
• Sprecher und Sprachtyp sorgfältig wählen (flüstern, sprechen, …)
– Geräusche:
• Atmo und Sound-Effekte
• Verdichtung durch Überlagerung, Stereo für Raumwirkung
– Musik:
• Entweder als Sourcemusik (in der Szene) oder Hintergrundmusik
• Funktion:
– Dramaturgie (Spannung),
– Erzählung (Verdeutlicht Ort und Zeit),
– Struktur (Übergänge, Schnitte),
– Emotion erzeugen.
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
24
Sound-Komprimierung
• Das digitale Signal wird analysiert und es werden durch spezielle
Algorithmen „überflüssige“ und „unhörbare“ Bereiche des Materials entfernt
• Besonders bei hohen Tönen hört der Mensch nicht alles,
was mit 44,1 kHz / 16 Bit aufgezeichnet werden kann
• Zudem wird die Abtastrate (Abtastfrequenz) herabgesetzt,
um das Datenaufkommen zu verringern
• Es entstehen Dateien, die sogar bei einem Zehntel der Originalgröße
noch annähernd wie das Original klingen
• Generell: Je kleiner die Datei, umso schlechter die Qualität
• Dateiformate:
mp3, Real Audio, wmf (windows meta file), ogg Vorbis (open source),
Quicktime
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
25
Informationsgehalt akustischer Szenen
• Umgebung des Menschen ist durch Vielzahl verschiedenartiger Geräusche
geprägt
• Menschlicher Gehörsinn (= Hörapparat + Nachverarbeitung)
– Kann gezielt Aufmerksamkeit auf sehr spezifische Teilsignale richten;
Cocktailparty-Effekt
– Nimmt Hintergrundinformationen neben selektierter Information weiter wahr
(z.B. Alarmsignale, Durchsagen)
– Kann räumlich weit verstreute Informationsquellen integrieren
(wesentlich geringere Verdeckung als in der Optik)
– Kann sehr genau verschiedene Schallereignisse differenzieren
(„Mischfarben“ vs. Wahrnehmung gleichzeitiger Töne)
• Digitale Tonverarbeitung muss sich mit der Informationsverarbeitung im
Gehirn befassen, nicht nur mit dem physikalischen Hörorgan
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
26
Psychoakustik
• Die Psychoakustik versucht kausale Zusammenhänge
zwischen den physikalischen Größen eines
Schallsignals und den dadurch ausgelösten
Empfindungen zu erfassen.
Mensch
wahrnehmbare Eigenschaft
Computer
physikalische Kenngröße
Tonhöhe
Grundfrequenz
Lautstärke
Druckamplitude
Klangfarbe
Frequenzspektrum
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
27
Frequenz-Maskierung
• Frequenzwahrnehmung durch die Schnecke:
– endliche Breite des betroffenen Bereichs
– dadurch Überlappung benachbarter Frequenzbereiche
• Ein lauter Ton einer bestimmten Frequenz macht leisere Töne
ähnlicher Frequenz unhörbar.
Hörschwellenveränderung durch
einzelne Töne bestimmter Frequenz
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
28
Maskierung und Basilarmembran
• Der Maskierungseffekt erklärt sich physikalisch durch die Anregung der
Basilarmembran
– Frequenz entspricht Ort der Anregung auf der Basilarmembran
– Genaue Wahrnehmung des Maximums der Anregung
(Auflösung ca. 1/12 Halbton, bestimmt durch Abstand der Haarzellen)
– Anregungen in direkter Frequenz-Nähe sind bis zu einer bestimmten Amplitude nicht
wahrnehmbar
Hüllkurve der Vibration
Basilarmembran
AnregungsMaximum
Hüllkurve der Vibration
Basilarmembran
Andere Frequenz
AnregungsMaximum
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
29
Zeitliche Maskierung
• Die Hörwahrnehmung beruht auf dem Mittelwert eines Zeitintervalls von ca.
30 ms
– Ein lauter Ton beeinflusst die Wahrnehmung einer frequenzähnlichen Tons auch, wenn der
zweite Ton in direkter zeitlicher Nachbarschaft liegt
– Vorwärtsmaskierung: Nachfolgende Töne kaum wahrnehmbar
– Rückwartsmaskierung:
• Auch vorausgehende Töne betroffen (in kürzerem Zeitabstand)
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
30
Verlustbehaftete Audio-Kompressionsverfahren
• Verlustbehaftete Audiokompression
– Basiert auf psychoakustischem Modell der Tonwahrnehmung
– Zwei Effekte:
• Maskierte Bestandteile des Audio-Signals müssen nicht codiert werden
• Rauschen, das maskiert wird, kann in Kauf genommen werden (gröbere Quantisierung
möglich)
– Bekanntester Standard: MPEG Audio Layer III (MP3)
• MPEG = Moving Picture Expert Group
– Standardisierungsgremium von ISO (International Standards Organization) und IEC
(International Electrotechnical Commission)
– Arbeitet seit 1988 an Video- und Audio-Kompression
• Untergruppe MPEG/Audio
– MPEG-Audio-Standards werden z.B. verwendet bei
• DAB (Digital Audio Broadcast)
• DVB (Digital Video Broadcast) incl. terrestrischer Variante DVB-T
• DVD-Video
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
31
Audio-Codierung in MPEG
• MPEG-1 Audio:
– Sampling mit 32, 44.1 oder 48 kHz
– max. Datenrate 448 kbit/s
• MPEG-2 Audio:
– Sampling mit 16, 22.05, 24, 32, 44.1 oder 48 kHz
– max. 5 Kanäle
– max. Datenrate 384 kbit/s
• Einteilung der Audio-Kompressionsverfahren in drei „Layer“ (I, II, III)
verschiedener Kompressionsstärke
– Unabhängig von Wahl des Standards MPEG-1 bzw. MPEG-2 !
– „MP3“ = MPEG Layer III (Kompression ca. 11:1)
• MP3 patentrechtlich geschützt, Fraunhofer IIS Erlangen
• Inzwischen wesentliche Weiterentwicklungen:
– z.B. AAC, MPEG-4 Audio (siehe später)
– Ogg-Vorbis
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
32
MPEG-Audio Encoder: Grundlegender Aufbau
PCM
Audio
FilterBank
Bänder
Quantisierer
Entropiecodierung Komprimierte
Daten
&
Bitstromerzeugung
Maskierung
• Hinweis: Der MPEG-Standard definiert nicht den Aufbau eines Encoders,
sondern nur die Decodierung!
• Signal wird in Frequenzbänder aufgeteilt
• Maskierung auf der Basis der Bänder mit einem psychoakustischen Modell
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
33
Kritische Bänder
• Einteilung des Hörbereichs in kritische Bänder
– Breite (d.h. Bandbreite im Frequenzspektrum) der Vibrations-Hüllkurve auf der
Basilarmembran
– Breite der Bänder vergrößert sich mit der mittleren Bandfrequenz
• Der Grad der Maskierung einer bestimmten Frequenz ist
lediglich abhängig von der Signalintensität im kritischen Band
dieser Frequenz.
• "Bark-Skala":
– Eine Einteilung des Frequenzspetrums entsprechend der Breite kritischer Bänder
– Benannt nach dem Bremer/Dresdner Physiker Heinrich Barkhausen.
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
34
27 Kritische Bänder
0 – 50
50 – 95
95 – 140
140 – 235
235 – 330
330 – 420
420 – 560
560 – 660
660 – 800
800 – 940
940 – 1125
1125 – 1265
1265 – 1500
1500 – 1735
1735 – 1970
1970 – 2340
2340 – 2720
2720 – 3280
Prof. Dr. Rainer Malaka,
3280 – 3840
3840 – 4690
4690 – 5440
5440 – 6375
6375 – 7690
7690 – 9375
9375 – 11625
11625 – 15375
15375 - 20250
Digitale Medien
Medieninformatik 1
35
Subband-Kodierung
• Energie eines Tonsignals ist meist nicht gleichmäßig
auf das Frequenzspektrum verteilt
• Idee:
– Aufteilen des Signals in Teil-Frequenzbänder
– Ermittlung des Signalpegels für jedes Teilband
– Einzel-Codierung der Teilbänder mit jeweils angemessener Bitanzahl
• z.B. nicht belegtes Teilband: 0 Bit
– Funktioniert optimal, wenn Teilbänder an kritische Bänder des Gehörs
angepasst
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
36
Stereophonie in MPEG-Audio
•
Single Channel
–
•
Dual Channel
–
•
Verschiedene Monosignale (z.B. Sprachsynchronisation)
Stereo Coding
–
•
Monosignale
Separat codierte Stereosignale
Joint Stereo Coding
–
Redundanzen im Stereosignal ausgenutzt
–
Linker Kanal und Differenz Links/Rechts
–
Frequenzabhängigkeit der Raumwahrnehmung
• Monosignal für tiefe Frequenzen
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
37
Weitere Audiokompressionsverfahren
• AAC = Advanced Audio Coding
– Nachträglich zu MPEG-2 standardisiert, verbesserte Fassung in MPEG-4
– Nicht rückwärtskompatibel
• Dolby AC-3 (Audio Code No. 3)
– Prinzipiell sehr ähnlich zu den MPEG-Verfahren
• ATRAC (Adaptive Transform Acoustic Encoding)
– Sony-Verfahren, entwickelt für MiniDisc
– Ebenfalls Aufteilung auf Teilbänder, Skalierung
– Hörbare Verzerrungen bei mehrfachem Kopieren
• Microsoft Windows Media Audio (WMA)
– Nicht offengelegtes Verfahren mit recht hoher Kompression (CD-Qualität bei 64 kbit/s)
• Vorbis
– Meist in Zusammenhang mit dem "Container"-Format (zur Datenspeicherung) Ogg benutzt,
deshalb auch Ogg-Vorbis
– Offenes und kostenloses Audio-Kompressionsverfahren
• Xiph.org Stiftung, OpenSource-Projekt
• Reaktion auf Patentansprüche aus MP3
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
38
Einfachere verlustbehaftete Verfahren
• Stummunterdrückung (silence compression)
– Ausblenden von Zeitbereichen mit Nullsignal
• µ-Gesetz-Codierung bzw. a-Gesetz-Codierung (u.a. in G.711):
– Nichtlineare Quantisierung: leise Töne angehoben
– Ähnlich zu Dynamischer Rauschunterdrückung in Audiosystemen
• Adaptive Differential Pulse Code Modulation (ADPCM)
–
–
–
–
Prädiktives Verfahren
Vorhersage des Signalverlaufs durch Mittelung über bisherige Werte
Laufende Anpassung der Quantisierungstiefe an Signal
Kodierung der Differenzwerte zur Prädiktion
• Linear Predictive Coding (LPC)
– Vergleicht Sprachsignal mit analytischem Modell der menschlichen Spracherzeugung,
codiert Modellparameter und Abweichungen von der Vorhersage (militärische Entwicklung)
– Nur für Sprache, klingt „blechern“, hohe Kompression
– Weiterentwicklungen, z.B. Code Excited Linear Predictor (CELP)
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
39
Kompressionsartefakte (Beispiele)
•
•
bei Audiokompression, wie MP3:
–
Pre-echo: vor einem lauten plötzlichen Geräusch (zum Beispiel Schlagzeug)
kann man einen leiseren Laut hören
–
verwaschener Klang, insbesondere in Höhen und Tiefen, sowie bei bestimmten Instrumenten (Hi-hat)
–
unpassende Lautstärkeänderungen
–
Clipping: ein Klick-Geräusch
bei Videokompression, wie MPEG:
–
Farbverfälschungen (zum Beispiel: Bleeding)
–
Wabernder Hintergrund
–
Ringing: eine kleine Fläche um einen Gegenstand mit hohem Kontrast,
welcher deutlich aus der Umgebung heraussticht
–
Unschärfe, insbesondere bei Kanten
–
Kästchenmusterbildung, auch Verblockung genannt
–
Schwarz/Weiß-Konturen, Farbkonturen
http://de.wikipedia.org/wiki/Datenkompression#Speicherung_von_Bildern_un
d_Ton
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
40
Literatur und Links
•
http://www.audacity-forum.de/download/edgar/help/audacity-1.2.4-help/contents.htm
• http://www.audacity-forum.de/
• Taschenbuch der Medieninformatik, Kapitel 8
• http://www.raffaseder.com/sounddesign/index.html
Prof. Dr. Rainer Malaka,
Digitale Medien
Medieninformatik 1
41
Interdisciplinary College 2008
March 6 – 13, 2009 Günne at Lake Möhne
Chairs
Herbert Jaeger (Jacobs University Bremen)
Thomas Kammer (University of Ulm)
Gregor Schöner (Ruhr-University Bochum)
Heinrich Lübke Haus
Günne at Lake Möhne
(near Soest, Dortmund,
central Germany)
www.ik2009.de
Conference management
Christine Harms, c/o Fraunhofer Gesellschaft, Schloss Birlinghoven, D-53754 Sankt Augustin, Germany,
Prof. Dr.
Rainer Malaka,Fax: ++49+2241-14-2472,
Digitale Medien e-mail: Christine.Harms (AT) izb.fraunhofer.de
42
Phon:,
++49+2241-14-2473,
Medieninformatik 1
Herunterladen