ISO Norm 19005-1 PDF/A – eine ISO-Norm für die Archivierung SEAL Systems AG - PDF Longlife Suite – Tools für PDF/A Liebe Kunden und Anwender, häufig haben Sie uns angesprochen: “Wir können die ISO Norm für PDF/A nicht verstehen. Gerne möchten wir PDF Dateien in unseren Archiven speichern. Wir verstehen auch, dass uns die neu verabschiedete ISO Norm 19005-1 dabei hilft. Aber was bedeuten die einzelnen Vorschriften dieser Norm nun genau?“ In diesem Dokument haben wir uns bemüht, die ISO-Norm 19005-1 (PDF/A) für den interessierten Laien korrekt auf Deutsch wieder zugeben. Es handelt sich bewusst nicht um eine wörtliche Übersetzung. Vielmehr bringen wir Ihnen technische Hintergründe näher, die zu einzelnen Details der Norm geführt haben. Das Dokument soll Sie nicht in die Lage versetzen, eigene Programme entsprechend der Norm zu erstellen. Unsere erfahrenen Entwickler haben für Sie gearbeitet, um PDF/A lebendig zu machen. Das Ergebnis steht Ihnen in Form der PDF Longlife Suite zur Verfügung Zu vielen Teilen der Norm sind bereits erläuternde Beispiele aus unseren Erfahrungen eingeflossen, sodass der technische Hintergrund mancher Forderungen klarer wird. Es sollen und werden noch mehr Erklärungen hinzu kommen. Unser Entwickler-Team und und ich würden sich sehr freuen, wenn Sie uns Ihren umfangreichen Feedback mitteilen. Dr. Uwe Wächter SEAL Systems AG Arheilger Weg 17 64380 Rossdorf 06154 / 637 – 372 0151 / 14003332 [email protected] Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 02.06.2006 1/17 1 PDF/A – EINE NORM FÜR DIE ARCHIVIERUNG 3 2 DIE ISO NORM PDF/A 4 2.1 DATEIAUFBAU 2.1.1 ANFANGSSEQUENZ (FILEHEADER) 2.1.2 ENDESEQUENZ (FILETRAILER) 2.1.3 VERWALTUNGSTABELLE (CROSS REFERENCE TABLE) 2.1.4 GLOBALES INFORMATIONSVERZEICHNIS FÜR DIE DATEI (DOCUMENT INFORMATION DICTIONARY) 2.1.5 ZEICHENKETTEN 2.1.6 BASISDATENBLÖCKE (STREAM OBJECTS) 2.1.7 INDIREKTE OBJEKTE 2.1.8 LINEARISIERTES PDF 2.1.9 FILTER 2.1.10 EINGEBETTETE DATEIEN 2.1.11 GRÖSSENBESCHRÄNKUNGEN 2.1.12 OPTIONALE INHALTE 2.2 GRAPHIKEN 2.2.1 FARBRÄUME 2.2.2 BILDER 2.2.3 FORM XOBJEKTE 2.2.4 REFERENCE XOBJEKTE 2.2.5 POSTSCRIPT XOBJEKTE 2.2.6 ERWEITERTE GRAPHIKZUSTÄNDE 2.2.7 RENDERING INTENTS 2.2.8 CONTENT STREAM 2.3 FONTS 2.3.1 FONTTYPEN 2.3.2 COMPOSITE FONTS 2.3.3 FONTEINBETTUNG 2.3.4 FONTUNTERGRUPPEN 2.3.5 FONTMETRIK 2.3.6 ZEICHENENCODING 2.3.7 UNICODE ZEICHENTABELLEN 2.4 TRANSPARENZ 2.5 ANNOTATIONEN 2.6 AKTIONEN 2.7 BESCHLAGWORTUNG 2.7.1 TYPEN 2.8 LOGISCHE STRUKTUR 2.8.1 TAGGED PDF 2.8.2 ARTEFAKTE 2.9 INTERAKTIVE FORMS 4 4 4 4 4 4 4 4 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 7 7 9 9 9 9 10 10 10 10 11 11 12 13 13 15 3 16 3.1 3.2 3.3 3.4 PDF/A: ERZEUGEN, PRÜFEN, KORRIGIEREN UND INTEGRATION PDF CHECKER PDF ADJUST SAP DVS INTEGRATION PDF/A-ERZEUGUNG Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 16 16 16 17 02.06.2006 2/17 1 PDF/A – eine Norm für die Archivierung Informationen, die den Produktlebenszyklus dokumentieren, müssen über lange Zeiträume archiviert werden. Dabei sollen die Informationen sowohl inhaltlich als auch in Bezug auf ihr Aussehen unveränderbar sein. Wird PDF für diesen Zweck verwendet, so muss also die ausgegebene Kopie genau so aussehen, wie das Dokument erstellt worden ist. Diese Eigenschaften soll die Norm PDF/A sicher stellen, wofür SEAL Systems nun Werkzeuge generiert hat. Papier bzw. Mikrofilm werden kaum elektronisch unterstützt und erfordern erheblichen manuellen Aufwand. Deshalb lassen sich Prozessketten mit diesen Medien nicht wirkungsvoll digital abbilden. Für die elektronische Aufbewahrung und Reproduktion hat sich TIFF/G4 als Defacto-Standard durchgesetzt. Immer mehr Unternehmen gehen aber dazu über, zumindest einen Teil ihrer Dokumente als PDF aufzubewahren. Die Entwicklung begann im Bereich der kleinformatigen, textlastigen Dokumente. Auch bei Konstruktionsunterlagen hat sich PDF bereits bewährt. Eine weitere Anwendungsmöglichkeit für PDF ist die Erstellung von technischen Dokumentationen. PDF unterstützt hier die Verteilung von Informationen in digitaler Form. PDF-Dokumente sind strukturierbar und können mit Verbindungen zu anderen Informationen angereichert werden. Zudem unterstützen sie Workflows und transportieren änderbare Informationen, ohne selbst geändert zu werden. PDF hat sich auch als ein Austauschformat etabliert. Die Betrachtung und Ausgabe von PDFDateien kann mit kostenfreier Software durchgeführt werden. Erzeuger sind ebenfalls kostengünstig erhältlich. In der Praxis gibt es aber auch Probleme. Gelegentlich sind PDF-Dateien „rechnerabhängig“: Fonts sehen anders aus, Bilder sind nicht mehr vorhanden. Grund hierfür: Die Wiedergabe einer Datei ist abhängig vom verwendeten Interpreter. PDF-Dateien sind gegen Weiterverarbeitung geschützt und behindern eingeführte Prozessketten. Im September 2005 wurde die ISO Norm 19005-1 publiziert. Seitdem gehen viele Unternehmen, jetzt mit einer ISO-Norm in der Richtigkeit bestärkt, den Weg des Aufbaus von PDF-basierten Archiven. Parallel zum Normungsprozess arbeitete SEAL Systems bereits an der praktischen Umsetzung. Über Produkte zum Umgang mit PDF/A wird im letzten Kapitel berichtet. Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 02.06.2006 3/17 2 Die ISO Norm PDF/A 2.1 Dateiaufbau 2.1.1 Anfangssequenz (Fileheader) Eine eindeutige Kennung des Dateianfangs wird klargestellt, sodass jede Verarbeitungssoftware erkennen kann, dass es sich um eine Datei mit 8-Bit Binärdaten handelt. 2.1.2 Endesequenz (Filetrailer) Die Endesequenz ist bei einer normalen PDF-Datei das letzte Endeverzeichnis (last trailer dictionary) und im Falle einer linerarisierten PDF-Datei des erste Seitenende (first page trailer). Die Endesequenz muss eine eindeutige Fileidentifikationsnummer (ID) beinhalten. Eine Kennung für Verschlüsselung (Encrypt) ist verboten. Damit sind implizit alle Verschlüsselungen und Schutzmechanismen mit Kennwort verboten. 2.1.3 Verwaltungstabelle (cross reference table) Die Schreibweise der einzelnen Elemente wird genauer gefasst. 2.1.4 Globales Informationsverzeichnis für die Datei (Document Information dictionary) Das Eintragen von Metadaten wird empfohlen. Die verwendenbaren Elemente sind definiert in der PDF Referenz. Die Norm schreibt aber nicht vor, welche Elemente genutzt werden sollen. Wenn aber Elemente gefüllt sind, so sollen diese Elemente mit gleichem Inhalt auch als XMP-Daten eingetragen sein. 2.1.5 Zeichenketten Hexadezimale Zeichenketten sollen aus einer gerade Anzahl von Zeichen 0…9, A…F oder a…f bestehen und keine Leerzeichen beinhalten. 2.1.6 Basisdatenblöcke (Stream Objects) Für die Basisdatenblöcke im PDF sind die Endemarkierungen definiert. Die Möglichkeit zum Verweis auf Inhalte ausserhalb der PDF Datei wird für diese Basisobjekte ausgeschlossen. 2.1.7 Indirekte Objekte Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 02.06.2006 4/17 Indirekte Objekte ist eine Bezeichnung für die in PDF übliche Trennung der einzelnen Objekte von seiner eigentlichen Verwendung. Beim Aufbau der PDF Seiten wird so auf Objekte verwiesen, die innerhalb der PDF Datei an anderer Stelle definiert sind. Bei der Übertragung von PDF Dateien kann es immer wieder zu einer partiellen Verfälschung von Teilen der Datei kommen. So können binäre Teile zufällig das Bitmuster bekommen, welches notwendig ist, um bestimmte Keyworts für die Abtrennung der einzelnen Objekte innerhalb der Datei zu finden. Mit anderen Worten, man kann die einzelnen Objekte nicht mehr sicher auseinander halten. Um dieses zu verhindern und auch einfach gebaute Interpreter zu unterstützen ist es vorgesehen, dass die Keyworts für die Kennung jedes Objekts in verbindlichen Zeilentrennern eingeschlossen sind. Z:B: Ein Objekt wird verwendet: /<Objekttype> 4711 0 R und das referenzierte Objekt ist im PDF dann so (nach PDF/A Norm) zu hinterlegen: <EOL>4711 0 Obj<EOL> . . . <EOL>endobj<EOL> Hier wird eine mögliche und empfohlene Vorgehensweise aus der PDF Referenz verbindlich gemacht. 2.1.8 Linearisiertes PDF Die Linearisierung einer PDF Datei besteht im Voranstellen der ersten Seite einer PDF Datei für eine Vorschau bei gängigen Internetanwendungen. PDF wird dadurch bedingt streamingfähig gemacht. Der Betrachter bekommt bei seiner Dokumentsuche im Internet rasch eine Vorschau auf die erste Seite. Im Hintergrund wird der Rest geladen, wozu das System Zeit hat bis sich der Betrachter zum Weiterschalten auf den Rest der Datei entscheidet. Diese Linearisierung bringt natürlich redundante Informationen in eine solche Datei hinein. Nach ursprünglichen Verboten im Normungsprozess ist diese Technik aber schliesslich erlaubt. PDF/A konforme Interpreter sollen aber Informationen zur ersten Seite in der PDF Datei, die über diese Linearisierung kommen, ignorieren und statt dessen das Seitenverzeichnis am Ende der PDF Datei nutzen. 2.1.9 Filter LZW als Komprimierung ist verboten. Dieser Komprimierungsalgorithmus ist lizenzpflichtig und bedeutet somit Abhängigkeiten von einem Drittanbieter. 2.1.10 Eingebettete Dateien In PDF können weitere Dateien eingebettet sein, die selbst von Interpretern (wie Viewern) nicht berücksichtigt werden. PDF dient dafür nur als Container. Das Einbetten von Dateien ist untersagt. Damit wird gleichzeitig die Gefahr Bezügen auf Inhalte ausserhalb der PDF Datei ausgeschlossen. Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 02.06.2006 5/17 2.1.11 Grössenbeschränkungen Die Grössenbeschränkungen nach der entsprechenden PDF Reference dürfen nicht überschritten werden. 2.1.12 Optionale Inhalte Optionale Inhalte können mehrere Darstellungen für ein und das gleiche Objekt hervorrufen. Diese sind verboten. 2.2 Graphiken Hier werden graphische Darstellungen behandelt, die keine Fonts und interaktiven Elemente beinhalten. 2.2.1 Farbräume Ein PDF/A-File sollte für seine farbige Reproduktion keinen speziellen Farbdrucker stillschweigend voraussetzen. Die Farben werden geräteunabhängig beschrieben (Farbräume). Ist dieses nicht möglich, dann sollte die Datei die Farbwiedergabe des Druckers auch für andere Drucker reproduzierbar definieren. Dieses erfolgt über die Angabe des gewünschten Gerätes und eines gültigen ICC-Farbprofiles (Output Intent). In einer PDF Datei darf nur ein Farbprofile enthalten sein. Die möglichen Farbräume sind in der PDF Referenz beschrieben. Die darin vorgesehene Hinterlegung eines alternativen Farbraumes darf von Interpretern nicht berücksichtigt werden. Als Farbräume sind geräteabhängige RGB, CMYK und grauwertige Farbräume zulässig. RGB und CMYK dürfen nicht gemeinsam in einer PDF Datei genutzt werden. Interpreter müssen grauwertige Darstellungen dadurch interpretieren, indem Sie in den enthaltenen farbigen Farbraum umrechnen. 2.2.2 Bilder Für Bilder sollen keine alternativen Darstellungen vorhanden sein. 2.2.3 Form Xobjekte Für Form Xobjekte werden die Möglichkeiten ausgeschlossen, Postscript Code zu verwenden. Dieser kann zu einer nicht eindeutigen Darstellung führen. 2.2.4 Reference Xobjekte Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 02.06.2006 6/17 Referenz Xobjekte sind nicht erlaubt. Diese ermöglichen die Abhängigkeit von Informationen aus anderen PDF Dateien. 2.2.5 Postscript Xobjekte Bilder sollen nicht mittels Postscript-Funktionen erzeugt werden. Diese können zu mehrdeutigen Darstelungen führen. 2.2.6 Erweiterte Graphikzustände Referenzen auf Bilder ausserhalb der Datei sollen nicht verwendet werden. 2.2.7 Rendering Intents Noch zu klären. 2.2.8 Content Stream Noch zu klären 2.3 Fonts Die nachfolgenden Anforderungen sollen sicherstellen, dass zukünftige Darstellungen von PDF Dateien Zeichen für Zeichen dem statischen Aussehen der ursprünglichen Datei entsprechen. Weiterhin soll die nachträgliche Ermittlung der semantischen Eigenschaften für jedes einzelne Zeichen des textlichen Inhalts möglich sein. 2.3.1 Fonttypen Es sind nur Fonts erlaubt, die auch in der PDF Referenz definiert sind. Sog. Multiple Master Fonts werden als Type 1 Font betrachtet. Jede Anforderung an einen Type 1 Font gilt somit auch automatisch für einen Multiple Master Font. Der Erzeuger einer PDF-Datei ist verantwortlich für die Konformität der verwendeten Fonts. 2.3.2 Composite Fonts 2.3.2.1 Allgemeines Ein CID Font ist immer als ein Unterfont (Descendant) eines Type 0 Fonts zu verstehen. Jeder Type 0 Font kann im PDF Dateiformat wiederum nur einen Unterfont haben. Der CID Font enthält die Umrissbeschreibung von Zeichen. Die beschriebenen Zeichen umfassen in der Regel den Zeichensatz, der für eine bestimmte Sprache notwendig ist. Ein solcher Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 02.06.2006 7/17 Zeichensatz wird als "character collection" bezeichnet. Eine character collection ist als Liste angelegt und ordnet jedem Zeichen eine eindeutige Nummer zu, die Character ID (CID). Für das PDF Dateiformat sind diese Listen von Adobe für Chinesisch, Japanisch und Koreanisch definiert. Der Listenname wird im CIDSystemInfo Dictionary als Ordering-Eintrag abgelegt: z.B. • Japan1 - japanisch • GB1 - vereinfachtes chinesisch • CNS1 -chinesisch • Korea1 - koreanisch Der Registry-Eintrag des Dictionaries benennt den Namen des Herausgebers dieser Liste. In der Regel steht dort "Adobe". Um ein korrektes Verhalten zu gewährleisten, sollen diese beiden Einträge imCIDSystemInfo Dictionary des CIDFonts und der zugehörigen CMap gleich sein. Die CMap ist eine Tabelle, die die einzelnen Zeichen IDs einer Kodierung (Namen) zuordnet. Sie kann mit dem Encoding-Eintrag bei anderen Schriftarten verglichen werden. Diese CMap muss zu dem angegebenen Unterfont passen. Eine CMap kann sehr groß sein. Sie liegt daher in der Regel als separate Datei auf dem Rechner vor und ist nicht im PDF eingebettet. 2.3.2.2 CID Fonts Als CID Font kommen zwei Arten von Fonts in Frage. Wird ein Type 1 Font verwendet, so spricht man von einem Type 1 CIDFont. Handelt es sich um einen TrueType Font, so nennt man ihn einen Type 2 CIDFont. Dieser Paragraph der Norm bezieht sich auf Type 2 CIDFonts. Ein TrueType-Font verwaltet seine Zeichen über Nummern, sog. Glyph-IDs (GID) und nicht über Namen. Diese sind in einer oder mehreren festen CMaps enthalten, die diese Zuordnung herstellen. Die jeweilige Anwendung sucht sich eine geeignete CMap aus dem Font heraus. Aus dieser CMap werden dann die Zeichen über die Glyph ID ausgewählt. Ein Font kann CMaps für z.B. Unicode, Mac OS, verschiedene ISO Serien und Windows enthalten. Diese CMaps sind nicht zu verwechseln mit den CMaps für die Kodierung der Type 0 Fonts. Der CIDToGIDMap Eintrag bei Type 2 CID Fonts stellt die Verbindung zwischen den Glyph IDs des TrueType-Fonts und den CIDs her. Dieser Eintrag soll entweder ein Stream sein oder ein Name mit dem Wert Identity. 2.3.2.3 CMaps Die Norm fordert, dass eine verwendete CMap eines Type 0 Fonts eingebettet werden soll, es sei denn es handelt sich bei der CMap um die Identitiy-H oder Identity-V CMap. Eine Identity-CMap entspricht einer 1 zu 1 Umsetzung einer Zeichen ID zu dem Zeichen in der Kodierung. Für eingebettete CMaps soll der WMode-Eintrag im Dictionary derselbe Wert sein, wie im CMapStream. Der WMode (WritingMode) ist als Zahl angegeben. Er beschreibt die Leserichtung der Schriftart. 0 bedeutet vertikale und 1 bedeutet horizontale Leserichtung. Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 02.06.2006 8/17 2.3.3 Fonteinbettung Die Beschreibung von Zeichen ist in sog. Fontprogrammen hinterlegt. Im PDF Dateiformat kann ein Fontprogramm als Streamobjekt eingebettet sein oder als eine externe Datei referenziert werden. Alle innerhalb der PDF-Datei verwendeten Fonts sollen eingebettet werden. Ausnahme Textrendering Mode 3. Auf der anderen Seite sollen nur solche Fonts verwendet werden, für die auch das Recht zum Einbetten und zur uneingeschränkten späteren Darstellung besteht. Bei der Interpretation von Fonts sollen natürlich dann auch nur die eingebetteten Fonts verwendet werden und nicht eventuell lokal anderweitig verfügbare. Fonts deren Einbettung spezielle Abmachungen mit dem Fonteigentümer voraus setzen, dürfen nicht verwendet werden. 2.3.4 Fontuntergruppen Fonts können auch nur in Teilen eingebettet werden, wenn die eingebettete Teilmenge alle verwendeten Zeichen enthalten. Die Verwendung von Fontuntergruppen hält die PDF Dateien kleiner ohne die Darstellung unsicherer zu machen. Eine solche Technik ist möglich für Type 0 CIDFont, Type 1 und TrueType. Eine Fontuntergruppe erkennt man daran, dass dem Fontnamen eine Markierung bestehend aus 6 Großbuchstaben und einem + Zeichen vorangestellt werden. Gleiche Untergruppen haben die gleiche Markierung. Wird eine andere Untergruppe desselben Fonts ebenfalls eingebettet, so bekommt sie eine andere Markierung. Für Type 1 Font Untergruppen soll das Fontdictionary einen CharSet Eintrag haben. Dort sollen die Namen der Buchstaben aufgelistet sein, die in der Unterguppe enthalten sind. Bei Type 1 Fonts wird jedes Zeichen durch seinen Namen identifiziert, nicht über eine ID wie z.B. bei TrueType-Schriften. Der Zeichenname muss innerhalb des Fonts eindeutig sein. Für CIDFonts soll das Fontdictionary einen CIDSet Eintrag haben. Dieser Eintrag soll ein Stream sein, der alle verwendeten CIDs auflistet. 2.3.5 Fontmetrik Die Zeichenbreite (Widths) für einen Buchstaben ist in PDF redundant gespeichert: im Fontprogramm und im Font Dictionary. Um hier Missdeutungen auszuschliessen, sollen beide Angaben immer identisch sein. Ist dies nicht der Fall, so ist die Darstellung des PDF davon abhängig, welcher Eintrag vom Reader ausgewertet wird. 2.3.6 Zeichenencoding Alle nichtsymbolische TrueType Fonts sollen ein MacRoman oder ein WinAnsi-Encoding verwenden und einen entsprechenden Eintrag im Font Dictionary haben. Dieses Encoding ist eindeutig und gewährleistet ein gleichbleibendes Aussehen. Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 02.06.2006 9/17 Alle symbolischen True Type Fonts dürfen keinen Encoding Eintrag im Font Dictionary haben. Symbolische Schriften enthalten Sonderzeichen wie z.B. Firmenlogos, die in keinem allgemeinen Ecoding enthalten sind. Ein Encodingeintrag wie z.B. WinANSII würde das PDF verfälschen. Weiterhin dürfen sie nur eine CMap enthalten, damit die Auswahlmöglichkeit der verschiedenen Anwendungen eindeutig ausfällt. 2.3.7 Unicode Zeichentabellen Einschränkungen bezüglich Nutzung von Unicode betreffen nur Dateien, die den PDF/A Level A erfüllen sollen. Das Font Dictionary soll das Mapping beinhalten, mit der der Verweis von Zeichencode auf Unicode möglich ist. Von dieser Forderung sind jedoch folgende Situationen ausgeschlossen: • Fonts die die vordefinierten Encodings MacRoman, MacExpert, WinAnsi oder Identy-H oder Identy-V Cmaps verwenden • Type 1 Fonts, die vordefinierte Zeichennamen entsprechend Adobe Standard Latin Zeichensatz oder benannte Zeichen für Symbolfonts entsprechend PDF Referenz verwenden • Type 0 Fonts, deren CIDFont die Zeichenzusammenstellungen Adobe-GB1, Adobe-CNS1, Adobe-Japan1 oder Adobe-Korea1 verwenden. 2.4 Transparenz Transparente Darstellungen innerhalb einer PDF-Datei durch Verwendung von PDF-Techniken, sollen nicht genutzt werden. Die Praxis hat gezeigt, dass bei der Umwandlung von Applikationsdateien in PDF Dateien über Zwischenformate häufig transparente Effekte verloren gehen. Daher sollen Methoden genutzt werden, die transparent erscheinende Effekte vor Erstellung der PDF-Datei erzeugen. 2.5 Annotationen Die Verwendung von Bezügen auf weitere Dateien und die Nutzung von Bild und Ton über Annotationen ist ausgeschlossen. Unsichtbare und sichtbare, aber nichtdruckbare Annotation sind explizit verboten. Annotationen dürfen nicht so parametriert sein, dass beim Zoomen und Drehen einer PDF Datei, die Annotation nicht mit behandelt wird. Der Farbraum der Annotation soll bezogen sein auf den Farbraum des eigentlichen Dokuments. 2.6 Aktionen Aktionen, die irgendein Starten, die Verwendung von Bild und Ton, die Änderung der Darstellung des basierenden PDF-Dokuments, den Datenimport und die Ausführung eingebetteter oder Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 02.06.2006 10/17 übergebener Programmsequenzen ermöglichen, ist nicht gestattet. Ausdrücklich sind lediglich eingebettete Bedienelemente mit wohldefinierten Aktionen für das Weiterschalten auf die nächste, vorhergehende, erste und letzte Seite erlaubt. Verweise jeder Art müssen von Interpretern nicht ausgeführt, sondern nur ihr Ziel in irgendeiner Weise angezeigt werden. Somit ist Autoren von PDF-Dateien angeraten, keine Verweise zu nutzen, da ihre Darstellung nicht zugesichert wird. 2.7 Beschlagwortung Beschlagwortungen für die Identifikation, Beschreibung, sowie die technische und administrative Behandlung der Datei sollen innerhalb der Datei gespeichert werden. Die Norm schreibt aber nur die Struktur, nicht der Inhalt der Metadaten vor. Die Einbettung von Metadaten ist vorgeschrieben, nicht aber der Inhalt. 2.7.1 Typen Die eingebetteten Beschlagwortungen sollen nicht komprimiert, sondern als normaler Text lesbar sein. Es gibt 3 definierte Arten der Einbettung von Metadaten in eine PDF/A konforme Datei: 1. Reduntante Speicherung in Info Dictionary und als XML nach XMP-Spezifikation 2. Nur als XML nach XMP-Spezifikation 3. Als XML ausserhalb der XMP-Spezifikation, dann aber mit Einbettung des zugehörigen XML Erweiterungsschemas 2.7.1.1 Info Dictionary Die Verwendung des Info Dictionaries wird empfohlen. Wenn es genutzt wird, so müssen die Inhalte analog auch entsprechend des dafür vordefinierten XMP-Schemas als XML-Daten redundant hinterlegt sein. Der Satz der möglichen Beschlagwortungen ist definiert. Dieser besteht aus 1. Titel 2. Autor 3. Thema 4. Stichworte 5. Erzeugersystem 6. Produzent 7. Erzeugungsdatum 8. letztes Änderungsdatum Diese Definition führt leider zu einem Verlust an möglicher Information in den XMP Daten. Für den Autor (dort Creator) sind dort mehrere Einträge möglich. Wegen der Gleichheit von Infodictionary und XMP-Daten müssen jetzt aber mehrere Autoren als ein Eintrag in einer Zeichenketten mit Kommatrennung hinterlegt werden. Weiterhin ist erklärt, wie Zeiten in analoger Form im Info Dictionary und in den XMP Daten abgelegt werden müssen. Dafür ist jeweils eine bestimmte Syntax vorgegeben. Im Info Dictionary erfolgt die Zeitangabe zusätzlich der Angabe der Zeitzone relativ zu UTC. Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 02.06.2006 11/17 2.7.1.2 XMP-definierte Metadaten Es gibt in XMP vordefinierte Strukturen, um optional weitere mögliche Beschlagwortungen zu speichern. So wird eine eindeutige Filekennung empfohlen. Diese Filekennung soll unter Verwendung irgendeines externen Systems die jeweilige Datei charakterieren, einordnen oder anderweitig eindeutig zuordnen lassen. Der Entstehungs- und Änderungsprozess einer PDF-Datei sollte innerhalb der Datei beschrieben sein. Dazu gehört auch die Änderungshistorie der zugrundeliegenden Originale: Papier, Microfilm, Dateien. Für alle eingebetteten Fonts sind die Namen, die Eigentums- und Nutzungsrechte in der PDFDatei mit zu führen. Auch wenn manche Fonts solche Informationen bereits in sich selbst tragen, so ist es doch hilfreich und hier daher vorgeschrieben, dass bestimmte Eigenschaften von Fonts auch als XML-Daten für die spätere einfache Suche hinterlegt sind. 2.7.1.3 XML mit Erweiterungsschema Für alle weiteren Metadaten, die nicht über Fall 1 oder 2 definiert sind, aber trotzdem eingebettet werden sollen, ist das zugehörige XML-Schema mit einzubetten. Die Syntax für den Aufbau eines solchen XML-Schemas ist aber wohl definiert in der Norm. Es sei darauf hingewiesen, dass Namensräume über URLs benannt werden. Diese stellen aber keine echten Links auf Webpages dar. Ein Satz ein Metadaten, der die Übereinstimmung der Datei mit der PDF/A Norm unter Angabe der Version und des Levels bekundet, muss vorhanden sein. Das zugehörige Schema ist zwar definiert, aber nicht im Umfang von XMP und muss deshalb trotzdem eingebettet werden. Diese eingebetteten PDF/A-Metadaten sind aber nur der Ausdruck des Willens, eine PDF/Akonforme Datei erzeugen zu haben. Jede Sicherstellung dieser Eigenschaft muss trotzdem die gesamte Datei entsprechend der vorliegenden ISO-Norm analysieren und prüfen. Der Inhalt der XML-Daten muss „well-formed“ entsprechend den Definitionen von XML sein. 2.8 Logische Struktur Die Forderungen dieses Kapitels sind nur für Dateien aufgestellt, die auch den höheren Level A erfüllen sollen. Dieser Abschnitt beschreibt Regeln, die die Rückgewinnung von textlichen Informationen aus einer PDF-Datei sichern soll. Es soll damit erreicht werden, dass alle Wörter und Zeichen in der Reihenfolge zurück gewonnen werden können, wie sie auch bewusst in der richtigen Reihenfolge für den Leser in der Datei eingebracht wurden. Darüber hinaus sollen aber auch Gliederungen des Textes und des Dokuments wieder aus der PDF-Datei entnommen werden können. Zu diesen weiterführenden semantischen Informationen gehören • Hierarchische Strukturen im Dokument Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 02.06.2006 12/17 • • • • • • Angabe der verwendeten Sprache Alternative Beschreibungen Nicht textliche Anmerkungen Ersatztexte Abkürzungserklärungen Synonyme Während der Erzeugung einer PDF/A konformen Datei dürfen solche Informationen nicht ungeprüft generiert werden, wenn sie nicht in der Ursprungsdatei bereits vorhanden waren. 2.8.1 Tagged PDF Eine Level A konforme PDF/A Datei sollte die Anforderungen an Tagged PDF entsprechend PDF Referenz erfüllen. Dazu definiert die Referenz Forderungen an die innere Struktur eines PDFDokumentes. 2.8.2 Artefakte Darunter versteht man Objekte zur zusätzlichen Strukturierung der einzelnen Seiten eines Dokuments über den eigentlichen, formatierten Text hinaus: • Kopf- und Fusszeilen • Seitenzahlen • Hintergrundbilder • Schneide- und Faltmarkierungen • Farbauszüge für den Probedruck Zur Unterstützung von automatisierten Dateierstellungen werden gerne einzelne Seiteninhalte berechnet. Z.B. Seitenzahlen inkrementieren der Vorgängerseitenzahl, Einbringen einer Fusszeile durch Übernahme der Fusszeile der Vorgängerseite, Berechnung der Position von Firmenlogos im Duplexdruck durch die Abhängigkeit von gerader oder ungerader Seite. Man nennt so etwas eine laufende Formatierung. Diese Technik schlägt fehl, wenn eine Seite im Dokument zerstört wird. Dann stimmen Formatierungen der Folgeseiten ebenfalls nicht mehr. Daher sind für das Einbringen dieser Artifakte die vorgesehenen Elemente entsprechend der PDF Referenz zwingend zu verwenden. 2.8.2.1 Wortumbrüche Wordumbrüche sollen eindeutig gekennzeichnet sein. Dazu ist am Ende einer Zeile immer wenigstens noch ein Leerzeichen zu verwenden. Andernfalls kann eine automatische Verarbeitung von Text aus einer PDF Datei davon ausgehen, dass das Zeilenende und der Anfang der Folgezeile zusammen zu setzen sind. 2.8.2.2 Hierarchische Strukturen Für die Speicherung von Strukturinformationen innerhalb einer PDF Datei ist der StrukturbaumEintrag innerhalb des Dokument Katalog Dictionaries vorgesehen. Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 02.06.2006 13/17 Die PDF Referenz sieht für die Speicherung von strukturellen Informationen eine Reihe an Elementen vor: • Gruppen • Blöcke auf verschiedenen Ebenen • Paragraphen • Listen • Tabellen • Verweise • Illustrationen Bei der Erzeugung von PDF/A konformen Dateien sollten soviel wie möglich Struktierinformationen in möglichst kleinen Einheiten unter umfangreichster Nutzung der PDF Elemente übernommen werden. Damit soll die spätere Extraktion und Datenmigration erleichter werden. 2.8.2.3 Strukturentypen Wenn eine Appliaktion Strukturelemente nutzt, die nicht direkt auf entsprechende PDF Elemente abbildbar sind, dann soll das Element verwendet werden, welches funktional dem ursprünglichen Element am nächsten kommt. 2.8.2.4 Spracheintrag Die Sprache, in der das Dokument verfasst wurde, sollte im Catalog Dictionary abgelegt sein. Alle von dieser Sprache abweichenden textlichen Inhalte sollten gesondert mit der entsprechenden Sprache gekennzeichnet werden. Diese Forderung ist in der Praxis sicher schwer zu realisieren. Die Unterscheidung, ob ein Fremdwort bereits in den gängigen Sprachgebrauch aufgenommen wurde, hängt vom Thema, dem Personenkreis und auch der Zeit ab. 2.8.2.5 Alternative Beschreibungen Alle Strukturelemente, deren Inhalt keine vordefinierten textlichen Bezeichnung haben, sollten einen zusätzlichen beschreibenden Text erhalten. Alle Annotation, die keinen Text zur Anzeige bringen, sollten einen zusätzlichen alternativen Text bekommen. Alle Darstellungen von Text, der aber nicht automatisch einfach zu ermitteln ist, z.B. Schriftzüge in einem Bild, Firmenlogos mit Firmenbezeichnung usw., sollten einen zusätzlichen beschreibenden Text erhalten 2.8.2.6 Abkürzungen und Synonyme Abkürzungen und Synonyme sollen im zugehörenden PDF Objekt mit dem vollständigen Text versehen sein. Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 02.06.2006 14/17 2.9 Interaktive Forms Forms dienen zur Eingabe und Anzeige variabler Daten. Diese können somit in Abhängigkeit von den jeweiligen Daten ein unterschiedliches Aussehen haben. Forms sollen daher intern eine Darstellung zugeordnet bekommen, die für die Reproduktion im Sinne von PDF/A von Interpretern verwendet werden soll. Interpreter sollen nicht die Darstellung eines Forms in Abhängigkeit von anderen Daten ändern. Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 02.06.2006 15/17 3 PDF/A: Erzeugen, Prüfen, Korrigieren und Integration An dieser Stelle soll kurz auf die durch SEAL Systems zur Verfügung gestellten Werkzeuge zum Umgang mit PDF/A-konformen Dateien hingewiesen werden. 3.1 PDF Checker Mit diesem Tool lassen sich PDF Dateien auf Normkompatibilität überprüfen. Die Prüfkriterien und Errorlevel sind konfigurierbar. Damit können unterschiedliche Level der Norm und Firmenrichtlinien richtig gecheckt werden. Die Prüfung kann interaktiv durch den Endanwender erfolgen. Zusätzlich gibt es ein Commandline-Interface. Damit kann die Prüfprozedur in fast alle Verfahrensketten eingebunden werden. Die Rückmeldung erfolgt über einen Returncode und einen ausführlichen Report. Der PDF Checker liegt als MSI Paket vor und ist in der Version 2.0 freigegeben und steht zum Download zur Verfügung. 3.2 PDF Adjust Es gibt eine Reihe von PDF/A Kriterien, die sich einstellen lassen, ohne dass erneut eine PDFErzeugung durchgeführt werden muss. Mit dem Tool PDF Adjust von SEAL Systems ist dies möglich. Diese Eigenschaften müssen am häufigsten korrigiert werden • Referenzierte Fonts einbetten • Nicht erlaubte Aktionen deaktivieren • Eigenschaften von eingebetteten Bildern ändern • Metadaten in XML setzen • Document-ID setzen. Das Werkzeug kann über eine Commandline-Interface in bestehende Verfahrensketten eingebunden werden. Außerdem ist eine Korrektur bestehender Datenbestände möglich. 3.3 SAP DVS Integration Als Spezialist für nützliche Prozesse rund um das SAP hat SEAL Systems die PDF Longlife Suite Integration für SAP DVS entworfen. Damit können die Funktionen von PDF Checker und PDF Adjust auch SAP-integriert beim Dokumenten-CheckIn und für die Überprüfung von Bestandsdaten genutzt werden. Die Integration wird folgende Schnittstellen und Komponenten bedienen: • Transaktionen CV01-CV02 • EasyDMS • Konvertierung über SAP Konvertierungsserver • DVS-Lader von SEAL Systems • Verfahren von Drittanbietern die den SAP Standard BAPI CheckIn verwenden. Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 02.06.2006 16/17 Der Prozess liefert je nach Konfiguration und Normabweichungsgrad verschiedene Informationen: eine angepasste PDF/A-Datei, einen Fehlercode und eine ausführliche Reportdatei im Format PDF oder TXT. 3.4 PDF/A-Erzeugung SEAL Systems hat 3 Produktfamilien zur Generierung von PDF: • gXconvert: der Universalkonverter für alle Grafikformate • Applikationskonverter: Anwendungsdaten aus CAD und Office • ConvertWIZ: PDF und/oder TIFF/G4 interaktiv aus allen Windowsanwendungen erzeugen. In zukünftigen Versionen werden alle 3 Konvertertypen auch über einen PDF/A Ausgang verfügen. Dr. Uwe Wächter; SEAL Systems AG d:\pdfa\marketing\whitepaper\pdf_a - norm kommentiert.doc 02.06.2006 17/17