4.3 JPEG-LS und CALIC

Werbung
4.3
JPEG-LS und CALIC
In diesem Abschnitt werden wir die Technik der vorhersagenden Codierung
an drei Beispielen aus der Bildkompression kennen lernen, dem alten JPEGLS Standard, dem neuen JPEG-LS Standard sowie CALIC. JPEG steht für
Joint Photographic Experts Group, LS steht für Lossless. Von JPEG gibt
es mehrere Standards sowohl für die verlustfreie als auch auch die verlustbehaftete Bildkompression. CALIC steht für context adaptiv lossless image
compression. Beginnen wollen wir mit dem einfachsten dieser Verfahren, dem
alten JPEG-LS Standard, der bis zum vorletzten Jahr der offizielle JPEG
Standard in der verlustfreien Bildkompression war.
Bei allen drei Verfahren zur Bildkompression, die wir kennen lernen werden, ist die wesentliche Technik dieselbe. Wir betrachten nur Graubilder,
wobei die Pixel Grauwerte annehmen können, die durch 8 Bit codiert sind.
Jeder Pixelwert liegt also im Bereich 0, . . . , 255. Zunächst einmal werden
die Pixelwerte transformiert. Hierzu wird ausgehend von bereits bekannten
und transformierten Pixelwerten für den nächsten Pixelwert eine sogenannte Vorhersage getroffen. Diese ist in aller Regel ebenfalls ein Wert zwischen
0 und 255. Der transformierte Pixelwert ist dann die Differenz zwischen
dem eigentlichen Pixelwert und dem vorhergesagten Wert. Die transformierten Werte werden dann durch geeignete Verfahren, häufig Varianten
der Huffman-Codierung oder der arithmetischen Codierung codiert. Sinn
der Transformationen ist es wie bei der Textkompression (z.B. BWT), die
Daten so aufzubereiten, dass Huffman-Codierung oder arithmetische Codierung gute Kompressionsergebnisse erzielt.
Beim Decodieren wird dann zunächst die Codierung der transformierten Pixelwerte rückgängig gemacht. Dann werden die transformierten Pixelwerte
in die ursprünglichen Werte zurück gerechnet. Der Decodierer wird in derselben Reihenfolge, die der Codierer bei der Berechnung der Transformation
benutzt hat, die ursprünglichen Pixelwerte berechnen. Hierzu berechnet der
Decodierer zunächst selber die Vorhersagen, die auch der Codierer berechnet hat. Die Differenzen zwischen Vorhersage und eigentlichem Pixelwert
ist gerade die Information des codierten Bildes. Daher kann der Decodierer
mithilfe der Differenzen, die ursprünglichen Pixelwerte berechnen. Da stets
einige Pixel, in der Regel Pixel am Rande des Bildes, nicht transformiert
werden, kann auf diese Weise des vollständige Bild rekonstruiert werden.
85
4.3.1
JPEG-LS (alt)
Der alte JPEG-LS Standard kennt acht verschiedene Arten der Vorhersage
von Pixelwerte. Die Pixel betrachten wir angeordnet in Zeilen und Spalten.
Der Wert des Pixels in Zeile i und Spalte j bezeichnen wir mit I(i, j). Die
ˆ j).
Vorhersage des Codierers für diesen Pixelwert bezeichnen wir mit I(i,
Die acht verschiedenen Vorhersagemodi sind dann in der folgenden Tabelle
zusammengefasst.
ˆ j) = 0
0. I(i,
ˆ j) = I(i − 1, j)
1. I(i,
ˆ j) = I(i, j − 1)
2. I(i,
ˆ j) = I(i − 1, j − 1)
3. I(i,
ˆ j) = I(i − 1, j) + I(i, j − 1) − I(i − 1, j − 1)
4. I(i,
ˆ j) = I(i, j − 1) + (I(i − 1, j) − I(i − 1, j − 1))/2
5. I(i,
ˆ j) = I(i − 1, j) + (I(i, j − 1) − I(i − 1, j − 1))/2
6. I(i,
ˆ j) = (I(i − 1, j) + (I(i, j − 1))/2
7. I(i,
ˆ j) =
Im ersten Modus findet keine Transformation statt, da I(i, j) − I(i,
I(i, j). Im zweiten Modus wird als Vorhersagewert der Wert unmittelbar
über dem aktuellen Pixel genommen. Im letzten Modus wird der Mittelwert
der Pixel über und neben dem aktuellen Pixel als Vorhersagewert genommen. Liegt ein Vorhersagewert nicht mehr im Bereich 0, . . . , 255 so wird er
durch 0 oder 255 ersetzt.
Innerhalb eines Bildes ist nur einer der Vorhersagemodi erlaubt. Es kann also
nicht vom Kontext des Pixels abhängig gemacht werden, welchen Vorhersagemodus der Codierer benutzt. Es ist im Standard allerdings zugelassen,
dass alle acht Modi ausprobiert werden, um dann denjenigen mit der besten
Kompression zu benutzen. Wird JPEG-LS in dieser Form benutzt, werden
in der Regel Kompressionsraten in der Nähe von 2 erreicht.
Dass im alten JPEG-LS Standard die Vorhersage eines Pixelwerts nicht vom
Kontext eines Pixels abhängig gemacht werden kann, ist einer der großen
86
Nachteile dieses Standards. Die beiden nächsten Verfahren haben diesen
Nachteil nicht.
4.3.2
CALIC-Context adaptiv lossless image compression
Bei CALIC geht der Kontext eines Pixels (also die Werte von anderen Pixeln
in der Nähe des Pixels) auf mehrfache Weise in die Berechnung des Vorhersagewertes ein. Sei X das Pixel, für das als nächstes ein Vorhersage wert
bestimmt werden soll. Wir betrachten auch die Pixel N, W, N W, N N, W W,
N E, N N E, deren Position bezüglich X sich aus Abbildung 4.1 ergibt. Eine
Abbildung 4.1: Pixel X und seine Nachbarschaft
initiale Vorhersage X̂ für X wird dann in CALIC folgendermaßen bestimmt.
Initiale Vorhersage in CALIC
Setze
dh := |W − W W | + |N − N W | + |N E − N |
dv
:= |W − N W | + |N − N N | + |N E − N N E|.
Falls dh − dv > 80
X̂ := N .
Sonst, falls dv − dh > 80
X̂ := W .
Sonst,
X̂ := (N + W )/2 + (N E − N W )/4
Falls dh − dv > 32
X̂ := (X̂ + N )/2.
Sonst, falls dv − dh > 32
X̂ := (X̂ + W )/2.
Sonst, falls dh − dv > 8
87
X̂ := (3X̂ + N )/4.
Sonst, falls dv − dh > 8
X̂ := (3X̂ + W )/4.
Die Werte dh , dv stellen fest, ob es in der Nähe von X vertikale oder horizontale Kanten gibt. Je nachdem wie stark diese Kanten ausgeprägt sind,
wird dann die Vorhersage X̂ bestimmt.
Als nächstes wird der Vorhersagekontext von Pixel X bestimmt. Dazu wird
der folgende Vektor betrachtet
(N, W, N W, N E, N N, W W, 2N − N N, 2W − W W ).
Jede Komponente dieses Vektors wird mit der initialen Vorhersage X̂ verglichen. Ist eine Komponente kleiner als X̂, so wird die Komponente durch
1 ersetzt. Sonst wird die Komponente durch 0 ersetzt. Dieses liefert den zu
X gehörigen Kontextvektor VX . Zusätzlich wird der Wert
δ(X) := dh + dv + 2|N − N̂ |
berechnet. Dabei ist N̂ der bereits bekannte endgültige Vorhersagewert für
das Pixel N . Je nachdem welchen Wert δ(X) annimmt, wird in den Vorhersagekontext von X zusätzlich zum Kontextvektor noch 0, 1, 2, 3 aufgenommen.
Für alle bislang bereits betrachteten Pixel, die denselben Kontext wie X besitzen, berechnen wir nun den durchschnittlichen Fehler zwischen den initiale
Vorhersagen der Pixelwerte und den Pixelwerten selber. Dieses nennen wir
den Bias eines Kontextes. Zur initialen Vorhersage X̂ wird nun der Bias des
Vorhersagekontextes von X addiert. Dieses liefert die endgültige Vorhersage
X̄ für X.
Nun wird die Differenz X − X̄ zwischen X und X̄ berechnet. Dieses Differenz
kann zunächst einmal zwischen −255 und 255 liegen. Diese Vergrösserung
des Alphabet von 0, . . . , 255 auf −255, . . . , 255 ist für die weitere Codierung
ungünstig. Wir beobachten nun zunächst, dass bei Vorhersagewert X̄ für die
Differenz X − X̄ nur die 255 Werte −X̄, . . . , 0, . . . 255 − X̄ auftreten können.
Diese 255 Werte werden wieder auf den Bereich 0, . . . , 255 abgebildet. Dieses
geschieht durch die folgende von X̄ abhängende Abbildung. Ist X̄ ≤ 127 so
88
gilt
0
1
−1
2
..
.
→
→
→
→
X̄
−X̄
..
.
→ 2X̄ − 1
→ 2X̄
..
.
0
1
2
3
..
.
255 − X̄ → 255
Ist X̄ ≥ 128 so gilt.
0
1
−1
2
..
.
→
→
→
→
0
1
2
3
..
.
255 − X̄ → 2(255 − X̄) − 1
X̄
→ 2(255 − X̄)
..
..
.
.
−X̄
→ 255.
Die so erhaltenen Werte werden dann zunächst mit dem rekursiven Indizieren codiert.
Rekursives Indizieren codiert natürliche Zahlen. Gegeben ist im einfachsten
Fall eine Basis B. Um eine Zahl n zu codieren, schreiben wir n = qB + r, 0 ≤
r ≤ B − 1. Die Zahl n wird dann codiert durch B, B, . . . , B , r.
|
{z
}
q-mal
Rekursive Indizierung kann aber auch mit k unterschiedlichen Basen B1 , . . . , Bk
durchgeführt werden. Diese Variante erklärt auch den Namen rekursive Indizierung. Sei wieder n ∈ N. Ist n ≥ B1 − 1, so wird in die Codierung von n
die Basis B1 aufgenommen, dann setzt man n := n − B1 . Der neue Wert von
n wird nun weiter codiert, wobei n jetzt mit der zweiten Basis B2 verglichen
wird. Dieses macht man so lange bis entweder ein i < k erreicht wird mit
n < Bi oder bis die Basis Bk erreicht wird. Gilt n < Bi , i < k, so wird als
letzter Wert der aktuelle Wert von n in die Codierung aufgenommen. Ist
man bei der Basis Bk angelangt, dann wird der aktuelle Wert von n wie
oben geschrieben als n = qBk + r, 0 ≤ r ≤ Bk − 1. Es werden dann noch q
89
Bk ’s und ein r an die Codierung angehängt. In der folgenden Tabelle sind
für n = 17 und die Basen B1 = 3, B2 = 5, B3 = 7 alle Zwischenwerte von
n, die Zwischenergebnisse der Codierung sowie die als nächstes verwendete
Basis aufgeführt.
n Codierung Basis
17
14
9
3
3, 5
3, 5, 7, 2
B1 = 3
B2 = 5
B3 = 7
Ist die rekursive Indizierung einer Zahl n gegeben durch eine Folge von
m
X
Zahlen c1 , . . . , cm so gilt n =
ci .
i=1
Bei CALIC wird die rekursive Indizierung benutzt, um die in den Bereich
0, . . . , 255 abgebildeten Differenzen X − X̄ zu codieren. Dabei ist eine Basismenge B1 , . . . , Bk , die der Grösse nach aufsteigend sortiert ist, vorgegeben.
Jedoch wird bei der rekursiven Indizierung nicht unbedingt mit der Basis B1
begonnen. Ist die Differenz X − X̄ groß, so wird die rekursive Indizierung bei
einer Basis Bi mit i > 1 beginnen. Wie genau dieses gemacht wird, werden
wir nicht erläutern. Die Ergebnisse (d.h., die Folge der Basiselement Bi und
eventueller Reste r) der rekursiven Indizierung schließlich werden in CALIC
noch mit Huffman-Codierung oder arithmetischer Codierung komprimiert.
CALIC liefert in der Praxis sehr gute Kompression. Allerdings, und dieses
sollte aus unserer Beschreibung auch hervorgehen, ist CALIC nicht sonderlich effizient. Der neue JPEG-LS Standard hat deshalb wesentliche Ideen
von CALIC übernommen. Versucht diese aber einfacher und effizienter umzusetzen.
4.4
JPEG-LS (neu)
Zwei Schritte an CALIC sind besonders ineffizient. Zunächst einmal ist die
Berechnung der initialen Vorhersage aufwendig. Weiter ist es aufwendig für
jedes Pixel die Differenz X − X̄ auf unterschiedliche Art in der Bereich
0, . . . , 255 abzubilden. Beides wird im neuen JPEG-LS Standard einfacher
gehandhabt. Betrachten wir die initiale Vorhersage in JPEG-LS. Sei X das
nächste Pixel für das eine Vorhersage berechnet werden soll. Die benachbarten Pixel sind wie in Abbildung 4.1 bezeichnet. Dann wird in JPEG-LS die
Vorhersage X̂ für X mit dem folgenden Algorithmus berechnet.
90
Initiale Vorhersage bei JPEG-LS
Falls N W ≥ max(W, N )
X̂ := max(W, N ).
Sonst,
Falls N W ≤ min(W, N )
X̂ := min(W, N ).
Sonst,
X̂ := W + N − N W .
Wie bei CALIC wird die initiale Vorhersage X̂ verfeinert, indem für jedes
Pixel ein Vorhersagekontext definiert wird. Für bereits betrachtete Pixel,
die denselben Vorhersagekontext wie X haben, wird die durchschnittliche
Abweichung zwischen der Vorhersage und dem eigentlichen Pixelwert berechnet. Dieses ist der Bias des Kontextes. Die Vorhersage X̄ enthält man
nun, indem zu X̂ der Bias des Kontextes von X addiert bzw. subtrahiert
wird.
Um den Komtext eines Pixels zu berechnen, definieren wir zunächst die drei
Werte D1 , D2 , D3 durch
D1 =
NE − N
D2 =
N − NW
D3 = N W − W.
Weiter kennt JPEG-LS drei vom Benutzer definierte Konstanten T1 , T2 , T3 .
Der Komponenten des Kontextvektors QX := (Q1 , Q2 , Q3 ) von X sind dann
91
definiert durch
Di ≤ −T3 ⇒ Qi = −4
−T3 < Di ≤ −T2 ⇒ Qi = −3
−T2 < Di ≤ −T1 ⇒ Qi = −2
−T1 < Di ≤ 0 ⇒ Qi = −1
Di = 0 ⇒ Qi = 0
0 < Di ≤ T1 ⇒ Qi = 1
T1 < Di ≤ T2 ⇒ Qi = 2
T2 < Di ≤ T3 ⇒ Qi = 3
T3 < Di ⇒ Qi = 4
Der Kontext des Pixels X besteht nun aus allen (bisher betrachteten) Pixeln,
deren Kontextvektor mit dem Kontextvektor QX von X oder mit −QX
übereinstimmt. Der Bias des Kontextes von X wird zu X̂ addiert, falls die
erste Komponente von Q positiv ist, sonst wird der Bias subtrahiert. Dieses
liefert dann die endgültige Vorhersage X̄ für das Pixel X.
Als nächstes werden dann die Differenzen X − X̄ zwischen den Pixelwerten X und ihren Vorhersagen X̄ codiert. Dazu werden wie diese Differenzen zwischen Pixelwert und Vorhersage zunächst einmal in den Bereich
−127, . . . , 128 abgebildet. Anders als bei CALIC geschieht dies bei JPEG-LS
unabhängig vom Wert X̄. Es werden die folgenden Regeln benutzt:
Ist X − X̄ < −127, so wird X − X̄ ersetzt durch X − X̄ + 255
Ist X − X̄ > 128,
so wird X − X̄ ersetzt durch X − X̄ − 255
Man überlege sich, dass der Decodierer diese Abbildung rückgängig machen
kann, obwohl sie nicht injektiv ist.
Die in den Bereich −127, . . . , 128 transformierten Werte werden dann mit
adaptiv gewählten Golomb-Code codiert. Auf diese Codes gehen wir unten
genauer ein. Der neue JPEG-LS Standard liefert in der Praxis in der Regel etwas bessere Ergebnisse als der alte JPEG-LS Standard, jedoch etwas
schlechtere Ergebnisse als CALIC.
92
4.4.1
Golomb-Codes
Golomb-Codes werden zur Codierung von natürlichen Zahlen verwendet. Betrachten wir zunächst folgendes Problem. Wir wollen die Zahlen 0, . . . , m −
1 durch einen Präfix-Code codieren. Sei l := dlog me. Dann können wir
als Präfix-Code für 0, . . . , m − 1 die l-Bit Binärdarstellungen der Zahlen
0, . . . , m − 1 nehmen. Ist m eine Zweierpotenz, ist dieses auch nicht zu verbessern. Ist m jedoch keine Zweierpotenz, sollten wir auch einige l − 1-Bit
Binärdarstellungen nehmen können, um die restlichen Zahlen dann noch
geeignet so zu codieren, dass wir einen Präfix-Code erhalten.
Betrachten wir, wie viele dieser l − 1-Bit Binärdarstellungen wir nehmen
können. Nehmen wir weiter an, wir stellen die Zahlen 0, . . . , c−1 mit l−1 Bits
dar, die restlichen Zahlen sollen dann durch jeweils l Bits codiert werden. Da
wir einen Präfix-Code erhalten wollen, schließt die l −1 Bit Binärdarstellung
von r, r ≤ c − 1 genau 2 Codeworte der Länge l aus. Es sind dies die lBit Binärdarstellungen von 2r und von 2r + 1. Damit wir für alle Zahlen
zwischen c und m − 1 noch genügend Codeworte der Länge l finden können,
muss gelten
2l − 2c ≥ m − c oder c ≤ 2l − m.
Denn für c Zahlen benutzen wir die l − 1-Bit Binärdarstellung als Codewort.
Für die restlichen m−c Zahlen wollen wir l-Bit Codeworte benutzen. Jedoch
schließen die c Binardarstellungen de Länge l − 1 genau 2c der 2l möglichen
Codeworte der Länge l aus. Genauer sind die l-Bit Binärdarstellungen der
Zahlen
0, 1, 2, . . . , 2c − 1
ausgeschlossen als Codeworte der Länge l. Wir wählen nun
c := 2l − m.
Weiter codieren wir eine Zahl r mit 2l − m ≤ r ≤ m − 1 durch die l-Bit
Binärdarstellung von 2l − m + r. Nach dem oben Gesagten liefert dieses eine
Präfix-Code.
Betrachten wir ein Beispiel. Sei m = 11. Wir wollen die Zahlen von 0, . . . , 10
codieren. Weiter ist l = 4 und 2l −m = 6 Wir werden die Zahlen 0, . . . , 5 also
durch ihre 3-Bit Binärdarstellung codieren. Alle anderen Zahlen r werden
durch die 4-Bit Binärdarstellung von r + 6 codiert. Insgesamt erhalten wir
93
folgenden Tabelle von Codeworten.
Zahl Codierung
0
000
Zahl Codierung
6
1100
1
001
7
1101
2
010
8
1110
3
011
9
1111
4
100
5
101
Nennen wir die gerade beschriebenen Codes die optimierten Binärcodes. Die
Golomb-Codes machen von den optimierten Binärcodes Gebrauch. Sei B ∈
N. Mit dem Golomb-Code zur Basis B können beliebige natürliche Zahlen
codiert werden. Golomb-Codes sind immer Präfix-Codes. Um die Zahl n im
Golomb-Code zur Basis B zu codieren, schreiben wir n als
n = qB + r, 0 ≤ r ≤ B − 1.
Die Zahl n wird dann im Golomb-Code zur Basis B codiert durch 1q , gefolgt
von 0, gefolgt vom Codewort für r im optimierten Binärcode für die Zahlen
0, . . . , B − 1.
Wählen wir als Beispiel B = 11 und betrachten die Codierung von 149. Es
gilt 149 = 13 · 11 + 6. Die optimierte Binärcodierung von 6 im Code für die
Zahlen 0, . . . , 10 ist gegeben durch 1100 (siehe Tabelle oben). Damit ist die
Codierung von 149 im Golomb-Code zur Basis 11 gegeben durch
113 01100 = 111111111111101100.
Wir sagten oben, im neuen JPEG-LS Standard werden adaptiv gewählte
Golomb-Codes gewählt. Dabei bezieht sich adaptiv auf die Wahl der Basis.
Es sollte klar sein, dass die Codierung großer Zahlen mit einem GolombCode mit kleiner Basis nicht sehr effektiv ist. Es ist auch nicht effektiv
kleine Zahlen mit einem Golomb-Code großer Basis zu codieren. Deshalb
wird bei JPEG-LS die Grösse der zu codierenden Werte überprüft und die
Basis des Golomb-Codes entsprechend angepasst. Auf die Details wollen wir
hier nicht eingehen.
94
4.5
JPEG- Der Standard für Kompression mit Verlust
Zum Abschluss wollen wir den JPEG-Standard für die Bildkompression mit
Verlust skizzieren. Wir werden sehen, dass viele Techniken, die wir bei der
verlustfreien Kompression gesehen haben, auch hier angewandt werden. Wir
beschränken uns wieder auf Graubilder mit Graustufen zwischen 0 und 255.
Allerdings werden durch JPEG diese Werte in den Bereich −128, . . . , 127
abgebildet, indem von jedem Pixelwert 128 abgezogen wird.
JPEG dann arbeitet in drei Phasen
1. einer Transformation
2. einer Quantisierung
3. einer Codierung mit Huffman-Codes oder der arithmetischen Codierung.
Den Transformations- und Codierungsschritt kennen wir schon aus der vorherigen Abschnitte. Neu ist die Quantisierung. Dies ist der einzige Schritt
der zu Qualitätsverlusten führen kann.
Wie bei der Textkompression oder den verlustfreien
Bildkompressionstechniken soll die Transformation eines Bildes für den Codierungsschritt vorbereiten. Sie soll aber auch die Quantisierung unterstützen.
Bei JPEG wird die Cosinus-Transformation benutzt. Hierzu wird zunächst
das Bild in 8 × 8 Blöcke aufgeteilt. Jeder Block wird separat transformiert.
Sei X ein solcher 8×8 Block. Dieser wird transformiert durch die Abbildung
T = T (X) := C · X · C T ,
(4.1)
wobei die Einträge Cij , 0 ≤ i, j ≤ 7 der 8 × 8-Matrix C gegeben sind durch

1

i = 0, j = 0, . . . , 7
 √8
Cij =

 1 cos( (2j+1)i ) i = 1, . . . , 7, j = 0, . . . , 7.
2
16
Der Name Cosinus-Transformation erklärt sich aus der zweiten Zeile diese
Definition der Cij . Das Bild T von X unter der Cosinus-Transformation ist
selber wieder eine 8 × 8-Matrix oder ein 8 × 8 Block, jetzt aber mit reellen
Zahlen. Wir schreiben T = (Tij )0≤i,j≤7 . Aus (4.1) und der Definition der
Cij folgt, dass jeder Wert Tij ein gewichteter Durchschnitt der Werte in X
ist. In der Regel können die Einträge von T nicht exakt dargestellt werden,
95
da es sich um reelle Zahlen handelt. Wir werden also immer Approximationen benutzten müssen. Dieses bedeutet natürlich schon einen Verlust an
Information. Dieser ist jedoch vernachlässigbar.
Betrachten wir ein Beispiel für den Effekt, den die Cosinus-Transformation
hat. Der Block X sei wie folgt gegeben
124
121
126
124
X=
127
143
150
156
125
121
124
124
127
142
148
159
122
121
123
125
128
143
152
158
120
119
122
125
129
142
152
155
122
119
121
126
130
140
152
158
119
119
121
125
128
139
152
158
117
120
120
124
127
139
150
157
118
118
120
124
125
139
151
156
Nach Anwendung der Cosinus-Transformation erhalten wir
39.88
6.56 −2.24 1.22
−0.37
−102.43 4.56
2.26
1.12
0.35
37.77
1.31
1.77
0.25
−1.50
−5.67
2.44 −1.32 −0.81
1.41
T =
−3.37 −0.74 −1.75 0.77
−0.62
5.98
−0.13 −0.45 −0.77
1.99
3.97
5.52
2.39 −0.55 −0.051
−3.43
0.51 −1.07 0.87
0.96
−1.08
−0.63
−2.21
0.22
−2.65
−0.26
−0.84
0.09
0.79
1.13
−1.05 −0.48
−0.10 0.23
−0.13 0.17
−1.30 0.76
1.46
0.00
−0.52 −0.13
0.33
0.01
In diesem Beispiel konzentrieren sich die große Werte in der linken oberen
Ecke von T . Dieses ist im Allgemeinen so. Es kann auch gezeigt werden, dass
nur Änderungen in diesem Bereich für das menschliche Auge leicht wahrnehmbar sind. Hiermit ist folgendes gemeint. Ändern wir Werte in T leicht
und berechnen dann das Inverse der Cosinus-Transformation der geänderten
Matrix, so erhalten wir nach Rundung ein Bild mit Grauwerten. Dieses unterscheidet sich vom ursprünglichen Bild nur dann deutlich wahrnehmbar,
wenn Werte in der oberen linken Ecke von T geändert wurden.
Ordnen wir die Einträge von T gemäss dem Zigzag-Muster in Abbildung 4.2
an, so sehen wir, dass die Einträge vorne in der Anordnung besonders wichtig sind. Nun kommen wir zur Quantisierung. Dieses bedeutet im wesentlichen, dass wir die Werte in T nur mit beschränkter Genauigkeit darstellen.
Wiederum, da die Werte der linken oberen Ecke von T wichtiger für die
Wahrnehmung sind, werden diese Werte genauer dargestellt als die anderen Werte. JPEG verwendet eine Quantisierungstabelle. Dieses ist ein 8 × 8
96
Abbildung 4.2: Zigzag-Ordnung bei JPEG
Block Q mit natürlichen Einträgen Qij , 0 ≤ i, j ≤ 7. Der Wert Tij in T wird
dann ersetzt durch
b
Tij
1
+ c.
Qij
2
(4.2)
D.h., Tij wird durch Qij geteilt und das Ergebnis zur nächsten ganzen Zahl
gerundet. Der JPEG Standard schreibt keine Quantisierungstabelle vor. Eine empfohlene Tabelle ist durch
16
12
14
14
Q :=
18
24
49
72
11
12
13
17
22
35
64
92
10
14
16
22
37
55
78
95
16 24 40
19 26 58
24 40 57
29 51 87
56 68 109
64 81 104
87 103 121
98 112 100
51 61
60 55
69 56
80 62
103 77
113 92
120 101
103 99
gegeben. Wenden wir diese Quantisierungstabelle auf die Matrix T von oben
97
an, erhalten wir
2
−9
3
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Den Effekt, den wir hier beobachten können, ist typisch für JPEG. Zunächst
einmal gibt es nur wenige von Null verschiedene Einträge. Weiter konzentrieren sich die Einträge 6= 0 in der linken oberen Ecke. Eine solche Matrix
lässt sich natürlich gut mit Huffman-Codes codieren. Dieses wollen wir als
nächstes beschreiben.
Die Codierung der quantisierten Einträge erfolgt in der Reihenfolge wie
sie durch den Zigzag-Durchlauf gegeben ist. Der erste Eintrag, linke obere Ecke, heißt der DC-Koeffizient. Die restlichen Einträge werden die ACKoeffizienten genannt. Die Codierung von DC- bzw. AC-Koeffizienten erfolgt
unterschiedlich. Der DC-Koeffizient eines Blocks wird nicht selber codiert.
Vielmehr wird die Differenz zum DC-Koeffizienten des vorangegangenen 8×8
Blocks codiert. Für die Differenzen wird nun ein Huffman-Code benutzt. Da
die Differenzen aber zu viele unterschiedliche Werte annehmen können, ist es
kaum möglich eine Huffman-Tabelle für alle möglichen Werte der Differenzen
zu erstellen und zu speichern. Stattdessen werden Kategorien K0 , K1 , . . . , Kr
von Werten erstellt. Die Kategorie Ki enthält dabei 2i Werte. Dieses sind
die Werte
−2i + 1, −2i + 2, . . . , −2i−1 , 2i−1 , 2i−1 + 1, . . . , 2i − 1.
Die Anzahl der Kategorien ergibt sich aus der Anzahl der möglicher Werte der Differenzen von DC-Koeffizienten. Für die Kategorien wird nun ein
Huffman-Code erstellt. Die zugrunde gelegte Wahrscheinlichkeitsverteilung
kann dabei vorher aus den Daten aller 8 × 8 Blöcke berechnet werden. Es
kann aber auch eine fest gewählte Verteilung sein.
Innerhalb der Kategorie Ki sind die Elemente mit den Zahlen von 0, . . . 2i −1
indiziert. Jeder solcher Index kann also durch i Bits dargestellt werden.
Soll der Wert w eines DC-Koeffizienten codiert werden, so wird zunächst
die Kategorie Ki bestimmt, die w enthält. Dann wird w codiert durch die
Huffman-Codierung von Ki gefolgt vom Index von w innerhalb von Ki .
98
Die AC-Koeffizienten werden ähnlich, aber etwas komplizierter codiert. Bei
den AC-Koeffizienten werden keine Differenzen, sondern die Koeffizienten
selber codiert. Innerhalb eines Blocks werden die Koeffizient in der Reihenfolge ihres Auftretens in der Zigzag-Ordnung codiert. Da wir erwarten, dass
es unter den AC-Koeffizienten viele 0 gibt, ist es sinnvoll, die 0 gesondert zu
behandeln. Sei w 6= 0 der Wert eines AC-Koeffizienten und sei l die Anzahl
der AC-Koeffizient mit Wert 0 zwischen diesem AC-Koeffizienten und dem
letzten von Null verschiedenen AC-Koeffizienten (immer in der Reihenfolge gemäss der Zigzag-Ordnung). Wir codieren dann den Wert w zusammen
mit dem Wert l für die Anzahl der Nullen vor w. Hierzu werden wie für die
Differenzen von DC-Koeffizienten Kategorien L0 , . . . , Ls für die Werte der
AC-Koeffizienten angelegt. In jeder Kategorie sind die einzelnen Werte wiederum indiziert. Für die Menge der Paare (Lj , l) gibt es einen Huffman-Code.
Um das Paar (w, l) zu codieren, wird zunächst die Kategorie Lj bestimmt,
die w enthält. Dann wird (w, l) codiert durch die Huffman-Codierung von
(Lj , l) gefolgt vom Index von w in Lj .
Es gibt hier noch einige technische Details auf die wir nicht eingehen wollen.
Was z.B. geschieht, wenn die Folge der AC-Koeffizienten mit einer Folge von
0 endet? Stattdessen wollen wir kurz auf die Decodierung eingehen. Beim
Decodieren werden zunächst mit Hilfe der Huffman-Codes und der Kategorien die DC- und AC-Koeffizienten aller Blöcke rekonstruiert. Dann wird
jeder Koeffizient mit dem entsprechender Faktor aus der Quantisierungstabelle multipliziert. Als nächstes wird die Inverse der Cosinus-Transformation
auf jeden Block angewandt. Da die Matrix C, wie oben definiert, orthogonal
ist, gilt C −1 = C T . Also ist das Inverse der Cosinus-Transformation gegeben
durch C T · T · C. Schließlich wird dann noch auf jeden Wert der Wert 128
addiert, um die ursprüngliche Verschiebung der Grauwerte in den Bereich
−128, 127 rückgängig zu machen.
Dass bei der Decodierung nicht wieder das ursprüngliche Bild entsteht, liegt
ausschließlich am Quantisierungsschritt, denn im Allgemeinen gilt
Qij · b
Tij
1
+ c 6= Tij .
Qij
2
Durch das Runden fehlt Information, die unwiederbringlich verloren ist.
99
Herunterladen