ISO Norm 19005-1

Werbung
ISO Norm 19005-1
PDF/A – eine ISO-Norm für die Archivierung
SEAL Systems AG - PDF Longlife Suite – Tools für PDF/A
Liebe Kunden und Anwender,
häufig haben Sie uns angesprochen: “Wir können die ISO Norm für PDF/A nicht verstehen. Gerne
möchten wir PDF Dateien in unseren Archiven speichern. Wir verstehen auch, dass uns die neu
verabschiedete ISO Norm 19005-1 dabei hilft. Aber was bedeuten die einzelnen Vorschriften
dieser Norm nun genau?“
In diesem Dokument haben wir uns bemüht, die ISO-Norm 19005-1 (PDF/A) für den interessierten
Laien korrekt auf Deutsch wieder zugeben. Es handelt sich bewusst nicht um eine wörtliche
Übersetzung. Vielmehr bringen wir Ihnen technische Hintergründe näher, die zu einzelnen Details
der Norm geführt haben.
Das Dokument soll Sie nicht in die Lage versetzen, eigene Programme entsprechend der Norm zu
erstellen. Unsere erfahrenen Entwickler haben für Sie gearbeitet, um PDF/A lebendig zu machen.
Das Ergebnis steht Ihnen in Form der PDF Longlife Suite zur Verfügung
Zu vielen Teilen der Norm sind bereits erläuternde Beispiele aus unseren Erfahrungen
eingeflossen, sodass der technische Hintergrund mancher Forderungen klarer wird. Es sollen und
werden noch mehr Erklärungen hinzu kommen.
Unser Entwickler-Team und und ich würden sich sehr freuen, wenn Sie uns Ihren umfangreichen
Feedback mitteilen.
Dr. Uwe Wächter
SEAL Systems AG
Arheilger Weg 17
64380 Rossdorf
06154 / 637 – 372
0151 / 14003332
[email protected]
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
02.06.2006
1/17
1
PDF/A – EINE NORM FÜR DIE ARCHIVIERUNG
3
2
DIE ISO NORM PDF/A
4
2.1 DATEIAUFBAU
2.1.1 ANFANGSSEQUENZ (FILEHEADER)
2.1.2 ENDESEQUENZ (FILETRAILER)
2.1.3 VERWALTUNGSTABELLE (CROSS REFERENCE TABLE)
2.1.4 GLOBALES INFORMATIONSVERZEICHNIS FÜR DIE DATEI (DOCUMENT INFORMATION DICTIONARY)
2.1.5 ZEICHENKETTEN
2.1.6 BASISDATENBLÖCKE (STREAM OBJECTS)
2.1.7 INDIREKTE OBJEKTE
2.1.8 LINEARISIERTES PDF
2.1.9 FILTER
2.1.10 EINGEBETTETE DATEIEN
2.1.11 GRÖSSENBESCHRÄNKUNGEN
2.1.12 OPTIONALE INHALTE
2.2 GRAPHIKEN
2.2.1 FARBRÄUME
2.2.2 BILDER
2.2.3 FORM XOBJEKTE
2.2.4 REFERENCE XOBJEKTE
2.2.5 POSTSCRIPT XOBJEKTE
2.2.6 ERWEITERTE GRAPHIKZUSTÄNDE
2.2.7 RENDERING INTENTS
2.2.8 CONTENT STREAM
2.3 FONTS
2.3.1 FONTTYPEN
2.3.2 COMPOSITE FONTS
2.3.3 FONTEINBETTUNG
2.3.4 FONTUNTERGRUPPEN
2.3.5 FONTMETRIK
2.3.6 ZEICHENENCODING
2.3.7 UNICODE ZEICHENTABELLEN
2.4 TRANSPARENZ
2.5 ANNOTATIONEN
2.6 AKTIONEN
2.7 BESCHLAGWORTUNG
2.7.1 TYPEN
2.8 LOGISCHE STRUKTUR
2.8.1 TAGGED PDF
2.8.2 ARTEFAKTE
2.9 INTERAKTIVE FORMS
4
4
4
4
4
4
4
4
5
5
5
6
6
6
6
6
6
6
7
7
7
7
7
7
7
9
9
9
9
10
10
10
10
11
11
12
13
13
15
3
16
3.1
3.2
3.3
3.4
PDF/A: ERZEUGEN, PRÜFEN, KORRIGIEREN UND INTEGRATION
PDF CHECKER
PDF ADJUST
SAP DVS INTEGRATION
PDF/A-ERZEUGUNG
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
16
16
16
17
02.06.2006
2/17
1 PDF/A – eine Norm für die Archivierung
Informationen, die den Produktlebenszyklus dokumentieren, müssen über lange Zeiträume
archiviert werden. Dabei sollen die Informationen sowohl inhaltlich als auch in Bezug auf ihr
Aussehen unveränderbar sein. Wird PDF für diesen Zweck verwendet, so muss also die
ausgegebene Kopie genau so aussehen, wie das Dokument erstellt worden ist. Diese
Eigenschaften soll die Norm PDF/A sicher stellen, wofür SEAL Systems nun Werkzeuge generiert
hat.
Papier bzw. Mikrofilm werden kaum elektronisch unterstützt und erfordern erheblichen manuellen
Aufwand. Deshalb lassen sich Prozessketten mit diesen Medien nicht wirkungsvoll digital abbilden.
Für die elektronische Aufbewahrung und Reproduktion hat sich TIFF/G4 als Defacto-Standard
durchgesetzt.
Immer mehr Unternehmen gehen aber dazu über, zumindest einen Teil ihrer Dokumente als PDF
aufzubewahren. Die Entwicklung begann im Bereich der kleinformatigen, textlastigen Dokumente.
Auch bei Konstruktionsunterlagen hat sich PDF bereits bewährt.
Eine weitere Anwendungsmöglichkeit für PDF ist die Erstellung von technischen Dokumentationen.
PDF unterstützt hier die Verteilung von Informationen in digitaler Form. PDF-Dokumente sind
strukturierbar und können mit Verbindungen zu anderen Informationen angereichert werden.
Zudem unterstützen sie Workflows und transportieren änderbare Informationen, ohne selbst
geändert zu werden.
PDF hat sich auch als ein Austauschformat etabliert. Die Betrachtung und Ausgabe von PDFDateien kann mit kostenfreier Software durchgeführt werden. Erzeuger sind ebenfalls
kostengünstig erhältlich.
In der Praxis gibt es aber auch Probleme. Gelegentlich sind PDF-Dateien „rechnerabhängig“:
Fonts sehen anders aus, Bilder sind nicht mehr vorhanden. Grund hierfür: Die Wiedergabe einer
Datei ist abhängig vom verwendeten Interpreter. PDF-Dateien sind gegen Weiterverarbeitung
geschützt und behindern eingeführte Prozessketten.
Im September 2005 wurde die ISO Norm 19005-1 publiziert. Seitdem gehen viele Unternehmen,
jetzt mit einer ISO-Norm in der Richtigkeit bestärkt, den Weg des Aufbaus von PDF-basierten
Archiven.
Parallel zum Normungsprozess arbeitete SEAL Systems bereits an der praktischen Umsetzung.
Über Produkte zum Umgang mit PDF/A wird im letzten Kapitel berichtet.
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
02.06.2006
3/17
2 Die ISO Norm PDF/A
2.1 Dateiaufbau
2.1.1 Anfangssequenz (Fileheader)
Eine eindeutige Kennung des Dateianfangs wird klargestellt, sodass jede Verarbeitungssoftware
erkennen kann, dass es sich um eine Datei mit 8-Bit Binärdaten handelt.
2.1.2 Endesequenz (Filetrailer)
Die Endesequenz ist bei einer normalen PDF-Datei das letzte Endeverzeichnis (last trailer
dictionary) und im Falle einer linerarisierten PDF-Datei des erste Seitenende (first page trailer). Die
Endesequenz muss eine eindeutige Fileidentifikationsnummer (ID) beinhalten. Eine Kennung für
Verschlüsselung (Encrypt) ist verboten. Damit sind implizit alle Verschlüsselungen und
Schutzmechanismen mit Kennwort verboten.
2.1.3 Verwaltungstabelle (cross reference table)
Die Schreibweise der einzelnen Elemente wird genauer gefasst.
2.1.4 Globales Informationsverzeichnis für die Datei (Document Information
dictionary)
Das Eintragen von Metadaten wird empfohlen. Die verwendenbaren Elemente sind definiert in der
PDF Referenz. Die Norm schreibt aber nicht vor, welche Elemente genutzt werden sollen. Wenn
aber Elemente gefüllt sind, so sollen diese Elemente mit gleichem Inhalt auch als XMP-Daten
eingetragen sein.
2.1.5 Zeichenketten
Hexadezimale Zeichenketten sollen aus einer gerade Anzahl von Zeichen 0…9, A…F oder a…f
bestehen und keine Leerzeichen beinhalten.
2.1.6 Basisdatenblöcke (Stream Objects)
Für die Basisdatenblöcke im PDF sind die Endemarkierungen definiert. Die Möglichkeit zum
Verweis auf Inhalte ausserhalb der PDF Datei wird für diese Basisobjekte ausgeschlossen.
2.1.7 Indirekte Objekte
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
02.06.2006
4/17
Indirekte Objekte ist eine Bezeichnung für die in PDF übliche Trennung der einzelnen Objekte von
seiner eigentlichen Verwendung. Beim Aufbau der PDF Seiten wird so auf Objekte verwiesen, die
innerhalb der PDF Datei an anderer Stelle definiert sind.
Bei der Übertragung von PDF Dateien kann es immer wieder zu einer partiellen Verfälschung von
Teilen der Datei kommen. So können binäre Teile zufällig das Bitmuster bekommen, welches
notwendig ist, um bestimmte Keyworts für die Abtrennung der einzelnen Objekte innerhalb der
Datei zu finden. Mit anderen Worten, man kann die einzelnen Objekte nicht mehr sicher
auseinander halten. Um dieses zu verhindern und auch einfach gebaute Interpreter zu
unterstützen ist es vorgesehen, dass die Keyworts für die Kennung jedes Objekts in verbindlichen
Zeilentrennern eingeschlossen sind. Z:B:
Ein Objekt wird verwendet:
/<Objekttype> 4711 0 R
und das referenzierte Objekt ist im PDF dann so (nach PDF/A Norm) zu hinterlegen:
<EOL>4711 0 Obj<EOL>
.
.
.
<EOL>endobj<EOL>
Hier wird eine mögliche und empfohlene Vorgehensweise aus der PDF Referenz verbindlich
gemacht.
2.1.8 Linearisiertes PDF
Die Linearisierung einer PDF Datei besteht im Voranstellen der ersten Seite einer PDF Datei für
eine Vorschau bei gängigen Internetanwendungen. PDF wird dadurch bedingt streamingfähig
gemacht. Der Betrachter bekommt bei seiner Dokumentsuche im Internet rasch eine Vorschau auf
die erste Seite. Im Hintergrund wird der Rest geladen, wozu das System Zeit hat bis sich der
Betrachter zum Weiterschalten auf den Rest der Datei entscheidet.
Diese Linearisierung bringt natürlich redundante Informationen in eine solche Datei hinein. Nach
ursprünglichen Verboten im Normungsprozess ist diese Technik aber schliesslich erlaubt. PDF/A
konforme Interpreter sollen aber Informationen zur ersten Seite in der PDF Datei, die über diese
Linearisierung kommen, ignorieren und statt dessen das Seitenverzeichnis am Ende der PDF
Datei nutzen.
2.1.9 Filter
LZW als Komprimierung ist verboten. Dieser Komprimierungsalgorithmus ist lizenzpflichtig und
bedeutet somit Abhängigkeiten von einem Drittanbieter.
2.1.10
Eingebettete Dateien
In PDF können weitere Dateien eingebettet sein, die selbst von Interpretern (wie Viewern) nicht
berücksichtigt werden. PDF dient dafür nur als Container.
Das Einbetten von Dateien ist untersagt. Damit wird gleichzeitig die Gefahr Bezügen auf Inhalte
ausserhalb der PDF Datei ausgeschlossen.
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
02.06.2006
5/17
2.1.11
Grössenbeschränkungen
Die Grössenbeschränkungen nach der entsprechenden PDF Reference dürfen nicht überschritten
werden.
2.1.12
Optionale Inhalte
Optionale Inhalte können mehrere Darstellungen für ein und das gleiche Objekt hervorrufen. Diese
sind verboten.
2.2 Graphiken
Hier werden graphische Darstellungen behandelt, die keine Fonts und interaktiven Elemente
beinhalten.
2.2.1 Farbräume
Ein PDF/A-File sollte für seine farbige Reproduktion keinen speziellen Farbdrucker stillschweigend
voraussetzen. Die Farben werden geräteunabhängig beschrieben (Farbräume). Ist dieses nicht
möglich, dann sollte die Datei die Farbwiedergabe des Druckers auch für andere Drucker
reproduzierbar definieren. Dieses erfolgt über die Angabe des gewünschten Gerätes und eines
gültigen ICC-Farbprofiles (Output Intent).
In einer PDF Datei darf nur ein Farbprofile enthalten sein.
Die möglichen Farbräume sind in der PDF Referenz beschrieben. Die darin vorgesehene
Hinterlegung eines alternativen Farbraumes darf von Interpretern nicht berücksichtigt werden.
Als Farbräume sind geräteabhängige RGB, CMYK und grauwertige Farbräume zulässig. RGB und
CMYK dürfen nicht gemeinsam in einer PDF Datei genutzt werden.
Interpreter müssen grauwertige Darstellungen dadurch interpretieren, indem Sie in den
enthaltenen farbigen Farbraum umrechnen.
2.2.2 Bilder
Für Bilder sollen keine alternativen Darstellungen vorhanden sein.
2.2.3 Form Xobjekte
Für Form Xobjekte werden die Möglichkeiten ausgeschlossen, Postscript Code zu verwenden.
Dieser kann zu einer nicht eindeutigen Darstellung führen.
2.2.4 Reference Xobjekte
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
02.06.2006
6/17
Referenz Xobjekte sind nicht erlaubt. Diese ermöglichen die Abhängigkeit von Informationen aus
anderen PDF Dateien.
2.2.5 Postscript Xobjekte
Bilder sollen nicht mittels Postscript-Funktionen erzeugt werden. Diese können zu mehrdeutigen
Darstelungen führen.
2.2.6 Erweiterte Graphikzustände
Referenzen auf Bilder ausserhalb der Datei sollen nicht verwendet werden.
2.2.7 Rendering Intents
Noch zu klären.
2.2.8 Content Stream
Noch zu klären
2.3 Fonts
Die nachfolgenden Anforderungen sollen sicherstellen, dass zukünftige Darstellungen von PDF
Dateien Zeichen für Zeichen dem statischen Aussehen der ursprünglichen Datei entsprechen.
Weiterhin soll die nachträgliche Ermittlung der semantischen Eigenschaften für jedes einzelne
Zeichen des textlichen Inhalts möglich sein.
2.3.1 Fonttypen
Es sind nur Fonts erlaubt, die auch in der PDF Referenz definiert sind.
Sog. Multiple Master Fonts werden als Type 1 Font betrachtet. Jede Anforderung an einen Type 1
Font gilt somit auch automatisch für einen Multiple Master Font.
Der Erzeuger einer PDF-Datei ist verantwortlich für die Konformität der verwendeten Fonts.
2.3.2 Composite Fonts
2.3.2.1 Allgemeines
Ein CID Font ist immer als ein Unterfont (Descendant) eines Type 0 Fonts zu verstehen. Jeder
Type 0 Font kann im PDF Dateiformat wiederum nur einen Unterfont haben.
Der CID Font enthält die Umrissbeschreibung von Zeichen. Die beschriebenen Zeichen umfassen
in der Regel den Zeichensatz, der für eine bestimmte Sprache notwendig ist. Ein solcher
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
02.06.2006
7/17
Zeichensatz wird als "character collection" bezeichnet. Eine character collection ist als Liste
angelegt und ordnet jedem Zeichen eine eindeutige Nummer zu, die Character ID (CID).
Für das PDF Dateiformat sind diese Listen von Adobe für Chinesisch, Japanisch und Koreanisch
definiert. Der Listenname wird im CIDSystemInfo Dictionary als Ordering-Eintrag abgelegt: z.B.
• Japan1 - japanisch
• GB1 - vereinfachtes chinesisch
• CNS1 -chinesisch
• Korea1 - koreanisch
Der Registry-Eintrag des Dictionaries benennt den Namen des Herausgebers dieser Liste. In der
Regel steht dort "Adobe".
Um ein korrektes Verhalten zu gewährleisten, sollen diese beiden Einträge imCIDSystemInfo
Dictionary des CIDFonts und der zugehörigen CMap gleich sein.
Die CMap ist eine Tabelle, die die einzelnen Zeichen IDs einer Kodierung (Namen) zuordnet. Sie
kann mit dem Encoding-Eintrag bei anderen Schriftarten verglichen werden. Diese CMap muss zu
dem angegebenen Unterfont passen. Eine CMap kann sehr groß sein. Sie liegt daher in der Regel
als separate Datei auf dem Rechner vor und ist nicht im PDF eingebettet.
2.3.2.2 CID Fonts
Als CID Font kommen zwei Arten von Fonts in Frage. Wird ein Type 1 Font verwendet, so spricht
man von einem Type 1 CIDFont. Handelt es sich um einen TrueType Font, so nennt man ihn einen
Type 2 CIDFont.
Dieser Paragraph der Norm bezieht sich auf Type 2 CIDFonts.
Ein TrueType-Font verwaltet seine Zeichen über Nummern, sog. Glyph-IDs (GID) und nicht über
Namen. Diese sind in einer oder mehreren festen CMaps enthalten, die diese Zuordnung
herstellen. Die jeweilige Anwendung sucht sich eine geeignete CMap aus dem Font heraus. Aus
dieser CMap werden dann die Zeichen über die Glyph ID ausgewählt. Ein Font kann
CMaps für z.B. Unicode, Mac OS, verschiedene ISO Serien und Windows enthalten.
Diese CMaps sind nicht zu verwechseln mit den CMaps für die Kodierung der Type 0 Fonts.
Der CIDToGIDMap Eintrag bei Type 2 CID Fonts stellt die Verbindung zwischen den Glyph IDs
des TrueType-Fonts und den CIDs her. Dieser Eintrag soll entweder ein Stream sein oder ein
Name mit dem Wert Identity.
2.3.2.3 CMaps
Die Norm fordert, dass eine verwendete CMap eines Type 0 Fonts eingebettet werden soll, es sei
denn es handelt sich bei der CMap um die Identitiy-H oder Identity-V CMap.
Eine Identity-CMap entspricht einer 1 zu 1 Umsetzung einer Zeichen ID zu dem Zeichen in der
Kodierung.
Für eingebettete CMaps soll der WMode-Eintrag im Dictionary derselbe Wert sein, wie im CMapStream. Der WMode (WritingMode) ist als Zahl angegeben. Er beschreibt die Leserichtung der
Schriftart. 0 bedeutet vertikale und 1 bedeutet horizontale Leserichtung.
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
02.06.2006
8/17
2.3.3 Fonteinbettung
Die Beschreibung von Zeichen ist in sog. Fontprogrammen hinterlegt. Im PDF Dateiformat kann
ein Fontprogramm als Streamobjekt eingebettet sein oder als eine externe Datei referenziert
werden.
Alle innerhalb der PDF-Datei verwendeten Fonts sollen eingebettet werden. Ausnahme
Textrendering Mode 3.
Auf der anderen Seite sollen nur solche Fonts verwendet werden, für die auch das Recht zum
Einbetten und zur uneingeschränkten späteren Darstellung besteht.
Bei der Interpretation von Fonts sollen natürlich dann auch nur die eingebetteten Fonts verwendet
werden und nicht eventuell lokal anderweitig verfügbare. Fonts deren Einbettung spezielle
Abmachungen mit dem Fonteigentümer voraus setzen, dürfen nicht verwendet werden.
2.3.4 Fontuntergruppen
Fonts können auch nur in Teilen eingebettet werden, wenn die eingebettete Teilmenge alle
verwendeten Zeichen enthalten. Die Verwendung von Fontuntergruppen hält die PDF Dateien
kleiner ohne die Darstellung unsicherer zu machen. Eine solche Technik ist möglich für Type 0
CIDFont, Type 1 und TrueType.
Eine Fontuntergruppe erkennt man daran, dass dem Fontnamen eine Markierung bestehend aus 6
Großbuchstaben und einem + Zeichen vorangestellt werden. Gleiche Untergruppen haben die
gleiche Markierung. Wird eine andere Untergruppe desselben Fonts ebenfalls eingebettet, so
bekommt sie eine andere Markierung.
Für Type 1 Font Untergruppen soll das Fontdictionary einen CharSet Eintrag haben. Dort sollen
die Namen der Buchstaben aufgelistet sein, die in der Unterguppe enthalten sind. Bei Type 1
Fonts wird jedes Zeichen durch seinen Namen identifiziert, nicht über eine ID wie z.B. bei
TrueType-Schriften. Der Zeichenname muss innerhalb des Fonts eindeutig sein.
Für CIDFonts soll das Fontdictionary einen CIDSet Eintrag haben. Dieser Eintrag soll ein Stream
sein, der alle verwendeten CIDs auflistet.
2.3.5 Fontmetrik
Die Zeichenbreite (Widths) für einen Buchstaben ist in PDF redundant gespeichert: im
Fontprogramm und im Font Dictionary. Um hier Missdeutungen auszuschliessen, sollen beide
Angaben immer identisch sein.
Ist dies nicht der Fall, so ist die Darstellung des PDF davon abhängig, welcher Eintrag vom Reader
ausgewertet wird.
2.3.6 Zeichenencoding
Alle nichtsymbolische TrueType Fonts sollen ein MacRoman oder ein WinAnsi-Encoding
verwenden und einen entsprechenden Eintrag im Font Dictionary haben. Dieses Encoding ist
eindeutig und gewährleistet ein gleichbleibendes Aussehen.
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
02.06.2006
9/17
Alle symbolischen True Type Fonts dürfen keinen Encoding Eintrag im Font Dictionary haben.
Symbolische Schriften enthalten Sonderzeichen wie z.B. Firmenlogos, die in keinem allgemeinen
Ecoding enthalten sind. Ein Encodingeintrag wie z.B. WinANSII würde das PDF verfälschen.
Weiterhin dürfen sie nur eine CMap enthalten, damit die Auswahlmöglichkeit der verschiedenen
Anwendungen eindeutig ausfällt.
2.3.7 Unicode Zeichentabellen
Einschränkungen bezüglich Nutzung von Unicode betreffen nur Dateien, die den PDF/A Level A
erfüllen sollen.
Das Font Dictionary soll das Mapping beinhalten, mit der der Verweis von Zeichencode auf
Unicode möglich ist.
Von dieser Forderung sind jedoch folgende Situationen ausgeschlossen:
• Fonts die die vordefinierten Encodings MacRoman, MacExpert, WinAnsi oder Identy-H
oder Identy-V Cmaps verwenden
• Type 1 Fonts, die vordefinierte Zeichennamen entsprechend Adobe Standard Latin
Zeichensatz oder benannte Zeichen für Symbolfonts entsprechend PDF Referenz
verwenden
• Type 0 Fonts, deren CIDFont die Zeichenzusammenstellungen Adobe-GB1, Adobe-CNS1,
Adobe-Japan1 oder Adobe-Korea1 verwenden.
2.4 Transparenz
Transparente Darstellungen innerhalb einer PDF-Datei durch Verwendung von PDF-Techniken,
sollen nicht genutzt werden. Die Praxis hat gezeigt, dass bei der Umwandlung von
Applikationsdateien in PDF Dateien über Zwischenformate häufig transparente Effekte verloren
gehen.
Daher sollen Methoden genutzt werden, die transparent erscheinende Effekte vor Erstellung der
PDF-Datei erzeugen.
2.5 Annotationen
Die Verwendung von Bezügen auf weitere Dateien und die Nutzung von Bild und Ton über
Annotationen ist ausgeschlossen.
Unsichtbare und sichtbare, aber nichtdruckbare Annotation sind explizit verboten.
Annotationen dürfen nicht so parametriert sein, dass beim Zoomen und Drehen einer PDF Datei,
die Annotation nicht mit behandelt wird.
Der Farbraum der Annotation soll bezogen sein auf den Farbraum des eigentlichen Dokuments.
2.6 Aktionen
Aktionen, die irgendein Starten, die Verwendung von Bild und Ton, die Änderung der Darstellung
des basierenden PDF-Dokuments, den Datenimport und die Ausführung eingebetteter oder
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
02.06.2006
10/17
übergebener Programmsequenzen ermöglichen, ist nicht gestattet. Ausdrücklich sind lediglich
eingebettete Bedienelemente mit wohldefinierten Aktionen für das Weiterschalten auf die nächste,
vorhergehende, erste und letzte Seite erlaubt.
Verweise jeder Art müssen von Interpretern nicht ausgeführt, sondern nur ihr Ziel in irgendeiner
Weise angezeigt werden. Somit ist Autoren von PDF-Dateien angeraten, keine Verweise zu
nutzen, da ihre Darstellung nicht zugesichert wird.
2.7 Beschlagwortung
Beschlagwortungen für die Identifikation, Beschreibung, sowie die technische und administrative
Behandlung der Datei sollen innerhalb der Datei gespeichert werden. Die Norm schreibt aber nur
die Struktur, nicht der Inhalt der Metadaten vor. Die Einbettung von Metadaten ist vorgeschrieben,
nicht aber der Inhalt.
2.7.1 Typen
Die eingebetteten Beschlagwortungen sollen nicht komprimiert, sondern als normaler Text lesbar
sein.
Es gibt 3 definierte Arten der Einbettung von Metadaten in eine PDF/A konforme Datei:
1. Reduntante Speicherung in Info Dictionary und als XML nach XMP-Spezifikation
2. Nur als XML nach XMP-Spezifikation
3. Als XML ausserhalb der XMP-Spezifikation, dann aber mit Einbettung des zugehörigen
XML Erweiterungsschemas
2.7.1.1 Info Dictionary
Die Verwendung des Info Dictionaries wird empfohlen. Wenn es genutzt wird, so müssen die
Inhalte analog auch entsprechend des dafür vordefinierten XMP-Schemas als XML-Daten
redundant hinterlegt sein.
Der Satz der möglichen Beschlagwortungen ist definiert. Dieser besteht aus
1. Titel
2. Autor
3. Thema
4. Stichworte
5. Erzeugersystem
6. Produzent
7. Erzeugungsdatum
8. letztes Änderungsdatum
Diese Definition führt leider zu einem Verlust an möglicher Information in den XMP Daten. Für den
Autor (dort Creator) sind dort mehrere Einträge möglich. Wegen der Gleichheit von Infodictionary
und XMP-Daten müssen jetzt aber mehrere Autoren als ein Eintrag in einer Zeichenketten mit
Kommatrennung hinterlegt werden.
Weiterhin ist erklärt, wie Zeiten in analoger Form im Info Dictionary und in den XMP Daten
abgelegt werden müssen. Dafür ist jeweils eine bestimmte Syntax vorgegeben. Im Info Dictionary
erfolgt die Zeitangabe zusätzlich der Angabe der Zeitzone relativ zu UTC.
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
02.06.2006
11/17
2.7.1.2 XMP-definierte Metadaten
Es gibt in XMP vordefinierte Strukturen, um optional weitere mögliche Beschlagwortungen zu
speichern.
So wird eine eindeutige Filekennung empfohlen. Diese Filekennung soll unter Verwendung
irgendeines externen Systems die jeweilige Datei charakterieren, einordnen oder anderweitig
eindeutig zuordnen lassen.
Der Entstehungs- und Änderungsprozess einer PDF-Datei sollte innerhalb der Datei beschrieben
sein. Dazu gehört auch die Änderungshistorie der zugrundeliegenden Originale: Papier, Microfilm,
Dateien.
Für alle eingebetteten Fonts sind die Namen, die Eigentums- und Nutzungsrechte in der PDFDatei mit zu führen. Auch wenn manche Fonts solche Informationen bereits in sich selbst tragen,
so ist es doch hilfreich und hier daher vorgeschrieben, dass bestimmte Eigenschaften von Fonts
auch als XML-Daten für die spätere einfache Suche hinterlegt sind.
2.7.1.3 XML mit Erweiterungsschema
Für alle weiteren Metadaten, die nicht über Fall 1 oder 2 definiert sind, aber trotzdem eingebettet
werden sollen, ist das zugehörige XML-Schema mit einzubetten.
Die Syntax für den Aufbau eines solchen XML-Schemas ist aber wohl definiert in der Norm. Es sei
darauf hingewiesen, dass Namensräume über URLs benannt werden. Diese stellen aber keine
echten Links auf Webpages dar.
Ein Satz ein Metadaten, der die Übereinstimmung der Datei mit der PDF/A Norm unter Angabe der
Version und des Levels bekundet, muss vorhanden sein. Das zugehörige Schema ist zwar
definiert, aber nicht im Umfang von XMP und muss deshalb trotzdem eingebettet werden.
Diese eingebetteten PDF/A-Metadaten sind aber nur der Ausdruck des Willens, eine PDF/Akonforme Datei erzeugen zu haben. Jede Sicherstellung dieser Eigenschaft muss trotzdem die
gesamte Datei entsprechend der vorliegenden ISO-Norm analysieren und prüfen.
Der Inhalt der XML-Daten muss „well-formed“ entsprechend den Definitionen von XML sein.
2.8 Logische Struktur
Die Forderungen dieses Kapitels sind nur für Dateien aufgestellt, die auch den höheren Level A
erfüllen sollen.
Dieser Abschnitt beschreibt Regeln, die die Rückgewinnung von textlichen Informationen aus einer
PDF-Datei sichern soll. Es soll damit erreicht werden, dass alle Wörter und Zeichen in der
Reihenfolge zurück gewonnen werden können, wie sie auch bewusst in der richtigen Reihenfolge
für den Leser in der Datei eingebracht wurden.
Darüber hinaus sollen aber auch Gliederungen des Textes und des Dokuments wieder aus der
PDF-Datei entnommen werden können.
Zu diesen weiterführenden semantischen Informationen gehören
• Hierarchische Strukturen im Dokument
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
02.06.2006
12/17
•
•
•
•
•
•
Angabe der verwendeten Sprache
Alternative Beschreibungen
Nicht textliche Anmerkungen
Ersatztexte
Abkürzungserklärungen
Synonyme
Während der Erzeugung einer PDF/A konformen Datei dürfen solche Informationen nicht ungeprüft
generiert werden, wenn sie nicht in der Ursprungsdatei bereits vorhanden waren.
2.8.1 Tagged PDF
Eine Level A konforme PDF/A Datei sollte die Anforderungen an Tagged PDF entsprechend PDF
Referenz erfüllen. Dazu definiert die Referenz Forderungen an die innere Struktur eines PDFDokumentes.
2.8.2 Artefakte
Darunter versteht man Objekte zur zusätzlichen Strukturierung der einzelnen Seiten eines
Dokuments über den eigentlichen, formatierten Text hinaus:
• Kopf- und Fusszeilen
• Seitenzahlen
• Hintergrundbilder
• Schneide- und Faltmarkierungen
• Farbauszüge für den Probedruck
Zur Unterstützung von automatisierten Dateierstellungen werden gerne einzelne Seiteninhalte
berechnet. Z.B. Seitenzahlen inkrementieren der Vorgängerseitenzahl, Einbringen einer Fusszeile
durch Übernahme der Fusszeile der Vorgängerseite, Berechnung der Position von Firmenlogos im
Duplexdruck durch die Abhängigkeit von gerader oder ungerader Seite. Man nennt so etwas eine
laufende Formatierung.
Diese Technik schlägt fehl, wenn eine Seite im Dokument zerstört wird. Dann stimmen
Formatierungen der Folgeseiten ebenfalls nicht mehr.
Daher sind für das Einbringen dieser Artifakte die vorgesehenen Elemente entsprechend der PDF
Referenz zwingend zu verwenden.
2.8.2.1 Wortumbrüche
Wordumbrüche sollen eindeutig gekennzeichnet sein. Dazu ist am Ende einer Zeile immer
wenigstens noch ein Leerzeichen zu verwenden. Andernfalls kann eine automatische Verarbeitung
von Text aus einer PDF Datei davon ausgehen, dass das Zeilenende und der Anfang der
Folgezeile zusammen zu setzen sind.
2.8.2.2 Hierarchische Strukturen
Für die Speicherung von Strukturinformationen innerhalb einer PDF Datei ist der StrukturbaumEintrag innerhalb des Dokument Katalog Dictionaries vorgesehen.
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
02.06.2006
13/17
Die PDF Referenz sieht für die Speicherung von strukturellen Informationen eine Reihe an
Elementen vor:
• Gruppen
• Blöcke auf verschiedenen Ebenen
• Paragraphen
• Listen
• Tabellen
• Verweise
• Illustrationen
Bei der Erzeugung von PDF/A konformen Dateien sollten soviel wie möglich Struktierinformationen
in möglichst kleinen Einheiten unter umfangreichster Nutzung der PDF Elemente übernommen
werden. Damit soll die spätere Extraktion und Datenmigration erleichter werden.
2.8.2.3 Strukturentypen
Wenn eine Appliaktion Strukturelemente nutzt, die nicht direkt auf entsprechende PDF Elemente
abbildbar sind, dann soll das Element verwendet werden, welches funktional dem ursprünglichen
Element am nächsten kommt.
2.8.2.4 Spracheintrag
Die Sprache, in der das Dokument verfasst wurde, sollte im Catalog Dictionary abgelegt sein. Alle
von dieser Sprache abweichenden textlichen Inhalte sollten gesondert mit der entsprechenden
Sprache gekennzeichnet werden.
Diese Forderung ist in der Praxis sicher schwer zu realisieren. Die Unterscheidung, ob ein
Fremdwort bereits in den gängigen Sprachgebrauch aufgenommen wurde, hängt vom Thema,
dem Personenkreis und auch der Zeit ab.
2.8.2.5 Alternative Beschreibungen
Alle Strukturelemente, deren Inhalt keine vordefinierten textlichen Bezeichnung haben, sollten
einen zusätzlichen beschreibenden Text erhalten.
Alle Annotation, die keinen Text zur Anzeige bringen, sollten einen zusätzlichen alternativen Text
bekommen.
Alle Darstellungen von Text, der aber nicht automatisch einfach zu ermitteln ist, z.B. Schriftzüge in
einem Bild, Firmenlogos mit Firmenbezeichnung usw., sollten einen zusätzlichen beschreibenden
Text erhalten
2.8.2.6 Abkürzungen und Synonyme
Abkürzungen und Synonyme sollen im zugehörenden PDF Objekt mit dem vollständigen Text
versehen sein.
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
02.06.2006
14/17
2.9 Interaktive Forms
Forms dienen zur Eingabe und Anzeige variabler Daten. Diese können somit in Abhängigkeit von
den jeweiligen Daten ein unterschiedliches Aussehen haben.
Forms sollen daher intern eine Darstellung zugeordnet bekommen, die für die Reproduktion im
Sinne von PDF/A von Interpretern verwendet werden soll. Interpreter sollen nicht die Darstellung
eines Forms in Abhängigkeit von anderen Daten ändern.
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
02.06.2006
15/17
3 PDF/A: Erzeugen, Prüfen, Korrigieren und Integration
An dieser Stelle soll kurz auf die durch SEAL Systems zur Verfügung gestellten Werkzeuge zum
Umgang mit PDF/A-konformen Dateien hingewiesen werden.
3.1 PDF Checker
Mit diesem Tool lassen sich PDF Dateien auf Normkompatibilität überprüfen. Die Prüfkriterien und
Errorlevel sind konfigurierbar. Damit können unterschiedliche Level der Norm und Firmenrichtlinien
richtig gecheckt werden. Die Prüfung kann interaktiv durch den Endanwender erfolgen. Zusätzlich
gibt es ein Commandline-Interface. Damit kann die Prüfprozedur in fast alle Verfahrensketten
eingebunden werden.
Die Rückmeldung erfolgt über einen Returncode und einen ausführlichen Report.
Der PDF Checker liegt als MSI Paket vor und ist in der Version 2.0 freigegeben und steht zum
Download zur Verfügung.
3.2 PDF Adjust
Es gibt eine Reihe von PDF/A Kriterien, die sich einstellen lassen, ohne dass erneut eine PDFErzeugung durchgeführt werden muss. Mit dem Tool PDF Adjust von SEAL Systems ist dies
möglich. Diese Eigenschaften müssen am häufigsten korrigiert werden
• Referenzierte Fonts einbetten
• Nicht erlaubte Aktionen deaktivieren
• Eigenschaften von eingebetteten Bildern ändern
• Metadaten in XML setzen
• Document-ID setzen.
Das Werkzeug kann über eine Commandline-Interface in bestehende Verfahrensketten
eingebunden werden. Außerdem ist eine Korrektur bestehender Datenbestände möglich.
3.3 SAP DVS Integration
Als Spezialist für nützliche Prozesse rund um das SAP hat SEAL Systems die PDF Longlife Suite
Integration für SAP DVS entworfen. Damit können die Funktionen von PDF Checker und PDF
Adjust auch SAP-integriert beim Dokumenten-CheckIn und für die Überprüfung von Bestandsdaten
genutzt werden. Die Integration wird folgende Schnittstellen und Komponenten bedienen:
• Transaktionen CV01-CV02
• EasyDMS
• Konvertierung über SAP Konvertierungsserver
• DVS-Lader von SEAL Systems
• Verfahren von Drittanbietern die den SAP Standard BAPI CheckIn verwenden.
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
02.06.2006
16/17
Der Prozess liefert je nach Konfiguration und Normabweichungsgrad verschiedene Informationen:
eine angepasste PDF/A-Datei, einen Fehlercode und eine ausführliche Reportdatei im Format PDF
oder TXT.
3.4 PDF/A-Erzeugung
SEAL Systems hat 3 Produktfamilien zur Generierung von PDF:
• gXconvert: der Universalkonverter für alle Grafikformate
• Applikationskonverter: Anwendungsdaten aus CAD und Office
• ConvertWIZ: PDF und/oder TIFF/G4 interaktiv aus allen Windowsanwendungen erzeugen.
In zukünftigen Versionen werden alle 3 Konvertertypen auch über einen PDF/A Ausgang verfügen.
Dr. Uwe Wächter; SEAL Systems AG
d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc
02.06.2006
17/17
Herunterladen