Untitled - Universität Paderborn

Werbung
Selbstständigkeitserklärung
Hiermit versichere ich, dass ich diese Diplomarbeit selbstständig und nur unter
Zuhilfenahme der angegebenen Quellen und Hilfsmittel angefertigt habe. Alle
wörtlich oder inhaltlich zitierten Stellen sind als solche kenntlich gemacht.
Paderborn, 28. Februar 2003
Universität Paderborn
Fachbereich 17, Informatik
Proof-Carrying Code Techniken zur
speichereffizienten Verifikation von
Java-Bytecode
Diplomarbeit
Dirk Jansen
Februar 2003
Vorgelegt bei:
Prof. Dr. Uwe Kastens
Prof. Dr. Stefan Böttcher
Inhaltsverzeichnis
1 Einleitung
11
2 Grundlagen
2.1 Proof-Carrying Code . . . . . . . . . . . . . . . . .
2.1.1 Überblick . . . . . . . . . . . . . . . . . . .
2.1.2 Erstellung des Beweises . . . . . . . . . . .
2.1.3 Ablauf der Beweisüberprüfung . . . . . . .
2.2 Die Java Virtual Machine . . . . . . . . . . . . . .
2.2.1 Verifikation von Klassendateien . . . . . . .
2.2.2 Die Bytecode-Verifikation . . . . . . . . . .
2.3 Datenflussanalyse . . . . . . . . . . . . . . . . . . .
2.3.1 Verbände . . . . . . . . . . . . . . . . . . .
2.3.2 Transferfunktionen . . . . . . . . . . . . . .
2.3.3 Iterative Vorwärtsanalyse . . . . . . . . . .
2.3.4 Modellierung von komplexen Verbänden . .
2.3.5 Zusammenfassung . . . . . . . . . . . . . .
2.4 Natural Semantics . . . . . . . . . . . . . . . . . .
2.4.1 Inferenzregeln und Axiome . . . . . . . . .
2.4.2 Folgerungen . . . . . . . . . . . . . . . . . .
2.4.3 semantische Definitionen . . . . . . . . . . .
2.4.4 Die verschiedenen Formen von Folgerungen
2.4.5 Beispiel . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
14
15
16
16
16
17
19
19
20
21
21
22
22
23
23
23
24
24
3 Konzeption
3.1 Überblick über die leichtgewichtige Verifikation
3.2 Die Zertifizierungsphase . . . . . . . . . . . . .
3.2.1 Die Datenflussanalyse . . . . . . . . . .
3.2.2 Die Kompression des Zertifikats . . . . .
3.3 Die Überprüfungsphase . . . . . . . . . . . . .
3.3.1 Der Überprüfungsalgorithmus . . . . . .
3.3.2 Beispiel 1 . . . . . . . . . . . . . . . . .
3.3.3 Beispiel 2 . . . . . . . . . . . . . . . . .
3.3.4 Zusammenfassung . . . . . . . . . . . .
3.4 Erweiterungen . . . . . . . . . . . . . . . . . .
3.4.1 triviale Erweiterungen . . . . . . . . . .
3.4.2 Reihungen (arrays) . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
27
28
29
35
38
39
44
48
49
49
49
50
7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
INHALTSVERZEICHNIS
3.5
3.4.3 Ausnahmebehandlungen . . . . .
3.4.4 Instruktionen mit mehr als einem
3.4.5 mehrwortige Datentypen . . . . .
3.4.6 Objektinitialisierung . . . . . . .
Schlussfolgerung . . . . . . . . . . . . .
4 Korrektheit
4.1 Die herkömmliche Bytecode-Verifikation
4.1.1 Der Konstantenbereich . . . . . .
4.1.2 Schachteltypen . . . . . . . . . .
4.1.3 Verifikation . . . . . . . . . . . .
4.1.4 Methodenprüfung . . . . . . . .
4.1.5 Prüfung von Instruktionsfolgen .
4.1.6 einzelne Instruktionen . . . . . .
4.2 Die leichtgewichtige Verifikation . . . . .
4.2.1 Zertifizierung . . . . . . . . . . .
4.2.2 Überprüfung . . . . . . . . . . .
4.3 Korrektheit und Fälschungssicherheit . .
5 Realisierung
5.1 benutzte Bibliotheken . . . . . . . . .
5.1.1 jDFA . . . . . . . . . . . . . .
5.1.2 BCEL . . . . . . . . . . . . . .
5.2 Überblick über die Implementierung .
5.2.1 Zertifizierung . . . . . . . . . .
5.2.2 Die Überprüfungsphase . . . .
5.2.3 Die Kompression des Zertifikats
5.3 Einige interessante Aspekte . . . . . .
5.3.1 Verband . . . . . . . . . . . . .
5.3.2 Zertifikate . . . . . . . . . . . .
5.3.3 Transferfunktionen . . . . . . .
5.4 Schlussfolgerung . . . . . . . . . . . .
. . . . . . .
Sprungziel
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51
53
57
58
61
.
.
.
.
.
.
.
.
.
.
.
63
63
64
64
66
66
67
68
70
71
72
74
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
77
77
77
78
79
80
81
81
82
82
83
84
84
6 Evaluierung
6.1 Ziele der Evaluierung . . . . . . . . . . . . . . . . . . .
6.1.1 Die Größe der Zertifikate . . . . . . . . . . . .
6.1.2 Speicherplatzbedarf während der Überprüfung
6.1.3 untersuchte Klassen . . . . . . . . . . . . . . .
6.2 Resultate . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Methodengröße . . . . . . . . . . . . . . . . . .
6.2.2 Größe der Zertifikate . . . . . . . . . . . . . . .
6.2.3 Speicherplatzbedarf während der Überprüfung
6.3 weitere Tests . . . . . . . . . . . . . . . . . . . . . . .
6.3.1 typunsichere Methoden . . . . . . . . . . . . .
6.3.2 Änderungen an Zertifikaten . . . . . . . . . . .
6.3.3 Änderungen am Bytecode . . . . . . . . . . . .
6.4 Bewertung der Ergebnisse . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
85
85
85
85
86
86
87
87
93
99
99
99
100
101
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INHALTSVERZEICHNIS
7 Zusammenfassung
9
103
10
INHALTSVERZEICHNIS
Kapitel 1
Einleitung
Java-Programme werden in eine portable Zwischensprache übersetzt und dann
von einer abstrakten Maschine interpretiert. Damit dieser sogenannte Bytecode
schnell ausgeführt werden kann, werden wichtige Sicherheitsprüfungen – wie
z.B. der Zugriff auf ungültige Speicherbereiche – einmalig vor der Ausführung
im Rahmen einer Verifikation durchgeführt.
Gerade im Hinblick auf Java Cards, die oft sicherheitsrelevante Informationen speichern, muss durch diese Verifikation garantiert werden, dass JavaProgramme keine Speicherbereiche mit sicherheitskritischen Informationen lesen. Da diese Bytecode-Verifikation im Allgemeinen sehr speicherplatzintensiv
ist und Java Cards über vergleichsweise wenig Speicher verfügen, kommen hier
spezielle Verfahren zum Einsatz.
Eines dieser Verfahren führt die Verifikation außerhalb der Java Card durch
und signiert danach den verifizierten Bytecode mittels eines kryptographischen
Verfahrens. Auf der Karte ist dann vor der Ausführung nur noch die Gültigkeit
der digitalen Signatur zu prüfen. Dies hat jedoch einen entscheidenen Nachteil: Sowohl der Anwender der Java Card als auch der Ersteller des Programms
müssen der Signierungsstelle vertrauen, die darüberhinaus nach jeder Übersetzung den Bytecode neu signieren muss.
Andere Ansätze versuchen die Verifikation auf der Karte trotz der beschränkten Resourcen zu ermöglichen. X. Leroy [Le02] verfolgt die Idee, den Bytecode
nach der Übersetzung so zu modifizieren, dass die Verifikation garantiert mit
wenig Speicher auskommt. Ein Nachteil dieser Lösung ist der erhöhte Speicherplatzbedarf während der Ausführung dieses modifizierten Bytecodes.
In dieser Arbeit wird ein anderer Ansatz verfolgt, der ohne Änderungen
des Bytecode auskommt und kein Vertrauen gegenüber Dritten benötigt. Als
wesentliche Grundlage dient dabei die leichtgewichtige Bytecode-Verifikation
[Ro98], die auf der Technik des Proof-Carrying Code [Nec97] basiert. Der Bytecode wird mit einem Beweis versehen, der als Nachweis für die Korrektheit
der Verifikation interpretiert werden kann. Auf der Java Card ist dann zur Verifikation lediglich ein Nachrechnen des Beweises notwendig.
Die leichtgewichtige Verifikation unterstützt nur eine Untermenge des Java11
12
KAPITEL 1. EINLEITUNG
Bytecodes. Dieses Konzept wird daher von mir zunächst auf den vollständigen Java-Bytecode-Befehlssatz erweitert1 und anschließend implementiert. Diese Implementierung ermöglicht eine ausführliche Evaluierung hinsichtlich der
Praxistauglichkeit und vor allem des Speicherplatzbedarf dieses Ansatzes – mit
zum Teil vielversprechenden Ergebnissen.
Im folgenden Kapitel 2 werde ich ich als erstes die Grundlagen dieser Arbeit
vorstellen. Dies sind zum einen das Konzept des Proof-Carrying Code und zum
anderen die Bytecode-Verifikation, die im wesentlichen aus einer Datenflussanalyse besteht.
Kapitel 3 beschreibt zunächst die leichtgewichtige Verifikation und erläutert
den Zusammenhang zum Proof-Carrying Code. Die ebenfalls in diesem Kapitel
vorgestellten konzeptionellen Erweiterungen bilden den ersten wesentlichen Teil
meiner Arbeit.
Der Beweis der Korrektheit des Konzepts wird in Kapitel 4 nur skizziert
und nicht in aller Vollständigkeit geführt, da hier der Schwerpunkt in erster
Linie auf der Implementierung und Evaluierung liegt.
Die Realisierung des Prototyps gefolgt von den Ergebnissen der Evaluierung
machen den zweiten großen Teil dieser Arbeit aus und werden in den Kapiteln
5 und 6 vorgestellt. Dabei untersucht die Evaluierung hauptsächlich die Größe
des Sicherheitsbeweises und den Speicherplatzbedarf der Beweisüberprüfung.
1
mit Ausnahme von Unterprogrammen
Kapitel 2
Grundlagen
Dieses Kapitel soll einen Überblick über die Thematik der Bytecode-Verifikation
und die Grundlagen der hier verfolgten Lösungsansätze vermitteln. Ich werde
zunächst das Prinzip des Proof-Carrying Codes vorstellen, das die Grundlage
des Ansatzes von E. Rose [Ro98] bildet. Proof-Carrying Code soll hier dazu
dienen, die auf der Java Card ablaufende Überprüfung des Bytecode möglichst
einfach zu gestalten. Dabei wird in Kauf genommen, dass der Java-Bytecode
mit zusätzlichen Informationen zu versehen ist, die relativ aufwändig zu erzeugen sind. Dieser Zusatzaufwand ist jedoch unkritisch, da dies außerhalb der
Java Card durchgeführt wird.
Für das weitere Verständnis ist darüberhinaus die Arbeitsweise der Java
Virtual Machine (JVM) und der Bytecode-Verifikation sehr wichtig. E. Rose
verwendet zur formalen Spezifikation der JVM und der Bytecode-Verifikation
die Natural Semantics. Eine kurze Einführung in diesen Formalismus schließt
dieses Kapitel.
2.1
Proof-Carrying Code
Um die eigentliche Verifikation des Java-Bytecodes ausserhalb der Java Card
durchführen zu können, bedient sich E. Rose der Technik des Proof-Carrying
Code (PCC) [Nec97].
Die Idee dieser Technik ist es, Programme mit einem Beweis zu versehen.
Durch Überprüfung dieses Beweises lässt sich dann vor der Ausführung die
Korrektheit des Programms nachweisen. Es gibt also zwei Phasen: Die Beweiserzeugung und die Beweisüberprüfung.
Der Vorteil dieser Methode liegt darin, dass die Beweiserzeugung und die Beweisüberprüfung völlig unabhängig voneinander durchgeführt werden können.
Der Produzent des Programms kann durch diesen Beweis dem Konsumenten
bestimmte Programmeigenschaften garantieren. Gemeinsame Basis bilden hier
die Sicherheitsrichtlinien, die festlegen, wann ein Programm als korrekt bzw.
als sicher angesehen werden kann. Diese Sicherheitsrichtlinien werden von dem
Konsumenten festgelegt und sind die einzigen Dinge, denen der Konsument
vertrauen muss. Es gibt also nicht wie bei kryptographischen Verfahren eine
13
14
KAPITEL 2. GRUNDLAGEN
zentrale Zertifizierungsstelle, der sowohl Produzent als auch Kosument vertrauen müssen. Diese Sicherheitsrichtlinien werden bei der Beweiserzeugung und bei
der Beweisüberprüfung benutzt.
Ein Beispiel für die Verwendung von Proof-Carrying Code ist ein Paketfilter
für Netzwerke [NL96]. Dabei soll ein in Maschinensprache geschriebener Paketfilter vom Benutzer in den Kern eines Betriebssystems eingebunden werden
können, ohne Sicherheitslücken zu öffnen. Die direkte Einbindung des Filters in
den Kern – und damit die Ausführung im gleichen Adressraum – führt dazu,
dass kein Kontextwechsel nötig ist und so der Filter mit optimaler Geschwindigkeit ausgeführt werden kann. Der Maschinen-Code des Paketfilters wird mit
einem Beweis versehen, der nachweist, dass nur auf Speicherbereiche zugegriffen
wird, die für den Paketfilter wichtig sind. Wenn nun der Benutzer einen Paketfilter in den Betriebssystemkern einbinden möchte, prüft das Betriebssystem vor
der Benutzung des Maschinen-Codes einmalig den mitgelieferten Beweis und
benutzt den Filter nur, wenn dieser Beweis gültig ist.
Produzent
Programm (Quelltext)
Phase 1
Übersetzung und
Zertifizierung
PCC−Binärdatei
Konsument
Abbruch
Nein
Beweis
korrekt?
Ja
Phase 2
Maschinen−
code
Sicherheits−
beweis
Beweisüberprüfung
Sicherheits−
richtlinien
Sicherheitsregeln
Schnittstelle
Ausführung
auf CPU
Abbildung 2.1: Übersicht über Proof-Carrying Code (PCC)
2.1.1
Überblick
Abbildung 2.1 zeigt den Lebenszyklus eines PCC-Programms vom Quelltext
bis zur Ausführung. Beim Produzenten des Programms wird die Zertifizierung
durchgeführt. Diese Phase erzeugt nach oder während der Übersetzung einen
Beweis, der belegt, dass das Programm den Sicherheitsrichtlinien entspricht.
2.1. PROOF-CARRYING CODE
15
Man könnte auch sagen, dass eine Verifikation entsprechend den Sicherheitsrichtlinien durchgeführt wird. Zum Abschluss dieser Phase wird der Beweis kodiert und zusammen mit dem Programm-Code an den Konsumenten geschickt.
Der Kosument führt nun die zweite Phase durch. Die Beweisüberprüfung
kontrolliert, ob der Beweis tatsächlich für das entsprechende Programm die Sicherheitsrichtlinien nachweist. Ist der Beweis gültig, so ist das Programm korrekt und kann beliebig oft ausgeführt werden.
Die vom Konsumenten festgelegten Sicherheitsrichtlinien bestehen aus Sicherheitsregeln, die alle erlaubten Operationen mit ihren entsprechenden Sicherheitsvorbedingungen enthalten. Für das Beispiel der Paketfilters würden die
Sicherheitsrichtlinien aus einer abstrakten Beschreibung der Maschinensprache
bestehen, die der CPU der Zielmaschine entspricht. Zusätzlich enthält diese
Beschreibung Regeln, die für Speicherzugriffsinstruktionen angeben, ob diese
Instruktionen erlaubt sind oder nicht. Die Sicherheitsregeln hängen in diesem
Fall von dem Operanden der Instruktion ab. Die Schnittstelle beschreibt die
Aufrufkonventionen zwischen Konsument und fremdem Programm, d.h. welche
Invarianten beim Aufruf des fremden Programms gelten müssen und welche Invarianten gelten müssen, wenn das fremde Programm Funktionen des Kosumenten aufruft oder wenn es nach Ausführung zum Konsumenten zurückspringt.
2.1.2
Erstellung des Beweises
Die Hauptschwierigkeit bei der Beweiserzeugung ist die Formalisierung der Sicherheitsrichtlinien. Dazu muss zuerst die Semantik der Zielmaschine beschrieben werden. Dabei werden Sicherheitsprüfungen, die den Sicherheitsrichtlinien
entsprechen, in die Beschreibung integriert. Dies bedeutet, dass unsichere Programme nach der abstrakten Beschreibung nicht definiert sind. Da keine Fehlerzustände eingeführt werden, blockiert die abstrakte Maschine bei unsicheren
Programmen. Ein Programm ist daher nur dann sicher, wenn es die abstrakte
Maschine nicht blockiert.
Aus der formalen Beschreibung der Maschine lässt sich jetzt für jedes konkrete Programm die Semantik in diesem Formalismus beschreiben. Diese formale Darstellung des Programms wird Sicherheitsprädikat genannt. Um nun den
Beweis zu erstellen, muss zuerst dieses Sicherheitsprädikat generiert werden. Zu
diesem Sicherheitsprädikat wird dann ein Beweis in einer überprüfbaren Form
erstellt. Wie dies zu geschehen hat, hängt von der Problemstellung ab und kann
nicht immer automatisch durchgeführt werden. Die Beweiserstellung ist ähnlich
einer Programmverifikation, die im Allgemeinen auch nicht vollständig automatisiert geschehen kann. In solchen Fällen ist eine Benutzerinteraktion notwendig.
Beispielsweise könnte es notwendig sein, Schleifeninvarianten anzugeben.
Dieser Beweis wird schließlich geeignet kodiert, um zusammen mit dem Programm übermittelt zu werden.
16
2.1.3
KAPITEL 2. GRUNDLAGEN
Ablauf der Beweisüberprüfung
Die Überprüfung des Beweises muss vor der ggf. mehrfachen Ausführung des
Programms nur einmal durchgeführt werden und ist im Vergleich zur Erstellung
sehr effizient im Bezug auf Rechenzeit und Speicherbedarf. Auch hier ist das
Vorgehen abhängig vom jeweiligen Anwendungsfall. In jedem Fall wird kontrolliert, ob der Beweis für das gegebene Programm korrekt ist.
Um die Proof-Carrying Code Technik auf Java-Bytecode-Programme anwenden zu können, muss die Ablaufumgebung von Java-Programmen – die Java
Virtual Machine – formalisiert werden. In diesem Formalismus sollten sich auch
die Sicherheitsregeln ausdrücken lassen, die sichere Java-Bytecode-Programme
modellieren. Dazu muss zuerst festgelegt werden, was man überhaupt unter sicherem Bytecode zu verstehen hat. Ich gebe zunächst eine Einführung in die
Java Virtual Machine, um dann auf die Bytecode-Sicherheit einzugehen.
2.2
Die Java Virtual Machine
Java-Programme werden vom Java-Übersetzer in Bytecode übersetzt. Dieser
Bytecode ist eine abstrakte Maschinensprache, die von der Java Virtual Machine [JVM96] (JVM) ausgeführt wird.
Das besondere an der JVM ist der Operandenkeller. Fast alle Rechenoperationen werden auf diesem Keller durchgeführt. Desweiteren gibt es einen
Speicherbereich für lokale Variablen. Um Berechnungen durchzuführen, werden
Daten aus den lokalen Variablen auf dem Keller abgelegt, um dann durch entsprechende Kellerinstruktionen verknüpft zu werden. Das Ergebnis kann dann
vom Keller gelesen und wieder in den lokalen Variablen abgespeichert werden.
Die verschiedenen Operationen können auf unterschiedlichen Typen arbeiten. So kennt die JVM die Typen int, long, short, byte, char, float, double
und reference. Dabei werden die Typen byte, char und short wie int-Typen
behandelt. Die Instruktionen der JVM sind typisiert, d.h. eine Instruktion operiert auf bestimmten Typen und erwartet, dass auf dem Keller oder in den
lokalen Variablen zu der Instruktion passende Typen vorliegen. Die JVM hat
unter anderem sicherzustellen, dass diese Voraussetzungen erfüllt sind. Dies geschieht während der Verifikation, die im nächsten Abschnitt beschrieben werden
soll.
2.2.1
Verifikation von Klassendateien
Vor der Ausführung eines Java-Programms führt die JVM eine statische und
strukturelle Überprüfung der auszuführenden Klassendatei durch. Statische Bedingungen sind z.B. der korrekte Aufbau der Klassendatei, aber auch die Forderung, dass Instruktionen keine Elemente des Konstantenbereichs ansprechen,
die gar nicht vorhanden sind (Überprüfung der Indexgrenzen). Die strukturellen
Überprüfung betrachtet den Zusammenhang zwischen den einzelnen BytecodeInstruktionen. So wird z.B. geprüft, dass Instruktionen nur auf zu dieser Instruktion passenden Typen operieren und dass kein Zugriff auf noch nicht zu-
2.2. DIE JAVA VIRTUAL MACHINE
17
gewiesene lokale Variablen geschieht. Der Sinn dieser strukturellen Überprüfung
liegt vor allem darin, dass diese Bedingungen nicht mehr zur Laufzeit geprüft
werden müssen und so die Ausführung des Java-Bytecodes beschleunigen.
Die Verifikation einer Klassendatei läuft in vier Phasen ab:
Phase 1: Prüfung des grundsätzlichen Aufbaus der Klassendatei.
Phase 2: Überprüfung der einzelnen Komponenten der Klassendatei außer
dem Code-Bereich. Dabei wird auch die Klassenhierarchie geprüft (z.B.
ob jede Klasse außer Object eine Oberklasse besitzt).
Phase 3: Überprüfung des Code-Bereichs. Hierbei wird neben der strukturellen Korrektheit des Bytecodes eine statische Typrekonstruktion des Operandenkellers und der lokalen Variablen durchgeführt.
Phase 4: dynamische Prüfungen. Diese Phase wird während der Ausführung
des Bytecodes durchgeführt.
Der schwierigste Teil dieser Verifikation ist die statische Typrekonstruktion
der dritten Phase. Ich werde mich in dieser Arbeit auf diesen Teilbereich der Verifikation beschränken. Der nächste Abschnitt soll das Prinzip dieser BytecodeVerifikation beschreiben.
2.2.2
Die Bytecode-Verifikation
Die Bytecode-Verifikation ist der komplexeste Teil der Verifikation. Da jede Methode einen eigenen Operandenkeller und eigene lokale Variablen besitzt, kann
jede Methode einzeln und unabhängig von den anderen Methoden überprüft
werden. Bei Methodenaufrufen werden lediglich die korrekte Anzahl und die
passenden Typen der Parameter geprüft. Es wird angenommen, dass die aufgerufene Methode korrekt ist und den der Signatur entsprechenden Ergebnistyp
liefert.
Die folgenden Bedingungen werden von der Verifikation für jede Methode
einzeln geprüft:
• Der Operandenkeller hat an einer Programmstelle immer die gleiche Größe
und enthält immer die gleichen Typen.
• Methoden werden mit passenden Parametern aufgerufen (richtige Anzahl
und passende Typen).
• Feldern werden nur Werte des passenden Typs zugewiesen.
• Alle Instruktionen haben für alle Argumente die passenden Typen auf dem
Keller bzw. in den lokalen Variablen vorliegen. Insbesondere bedeutet dies,
dass eine lokale Variable nicht gelesen werden darf, wenn ihr Typ nicht
bekannt oder eindeutig bestimmbar ist.
18
KAPITEL 2. GRUNDLAGEN
Der Typ einer lokalen Variable oder des Kellers kann erst dann bestimmt
werden, wenn das erste Mal ein Wert gespeichert wird. Problematisch wird dies,
wenn z.B. in verschiedenen Programmpfaden verschiedene Typen in der gleichen
lokalen Variable gespeichert werden und diese Programmpfade zusammenlaufen. Wird diese Variable später benutzt, müssen diese beiden Typen kombiniert
werden. Bei Referenzen ist dies der speziellste gemeinsame Obertyp der entsprechenden Klassen. Wird jedoch in dem einen Pfad ein int-Wert gespeichert und
in dem anderen Pfad eine Referenz, so darf auf diese lokale Variable nach der
Vereinigung der beiden Programmpfade nicht mehr lesend zugegriffen werden,
da der Typ nicht eindeutig bestimmbar ist.
Abbildung 2.2 zeigt dazu ein Beispiel. Das Programm besteht aus vier
Blöcken. Der erste Block enthält einen bedingten Sprung, so dass sich der Kontrollfluss in zwei Pfade aufteilt. Der zweite Block besitzt einen Sprung zum vierten Block, an dem sich die beiden Programmpfade wieder treffen. Neben dem
Kontrollflussgraphen ist eine Tabelle zu sehen, in der die Typen des Operandenkellers und der lokalen Variable für jede Programmstelle nach Ausführung
der Operation angeben sind. Ein Fragezeichen bedeutet, dass keine Information
verfügbar sind und dass die entsprechende Variable daher nicht gelesen werden
darf.
1
Keller
0: iconst_0
1: iload_1
2: ifle 10
2
5: iload_1
3
6: istore_2
10: aload_0
11: astore_2
7: goto 12
4
12: return
lokale Variablen
0
1
2
()
(A, int, ?)
0: iconst_0
(int)
(A, int, ?)
1: iload_1
(int,int)
(A, int, ?)
2: ifle 10
()
(A, int, ?)
5: iload_1
(int)
(A, int, ?)
6: istore_2
()
(A, int, int)
7: goto 12
()
(A, int, int)
10: aload_0
(A)
(A, int, ?)
11: astore_2
()
(A, int, A)
()
(A, int, ?)
()
(A, int, ?)
12: return
Vorbelegung
Vereinigung aus 7 und 12
Abbildung 2.2: Beispiel für eine Vereinigung zweier Typen beim Zusammentreffen zweier Programmpfade
Die einzige Stelle, an der Variablen vereinigt werden müssen, ist die Programmstelle 12. Hier treffen die beiden Blöcke 2 und 3 wieder zusammen. Daher
werden hier die Typen der Programmstellen 7 und 12 zusammengefasst. Durch
die Zusammenfassung erhält die lokale Variable 2 einen ungültigen Eintrag symbolisiert durch das Fragezeichen, weil hier der Block 2 ein int-Wert und der
Block 3 eine Referenz in diese lokale Variable schreibt. Würde in Block 4 die
Variable gelesen werden, so wäre dieses Programm fehlerhaft und die Verifikation müsste es ablehnen.
2.3. DATENFLUSSANALYSE
19
Dieses Beispiel deutet auch an, dass die Typrekonstruktion nicht in einem
linearen Durchlauf durchzuführen ist, weil es zwischen den einzelnen Blöcken
Abhängigkeiten gibt und die abhängigen Typen nicht unbedingt schon berechnet wurden, wenn sie benötigt werden. Um die Typen zu bestimmen wird daher
eine Datenflussanalyse durchgeführt.
2.3
Datenflussanalyse
Eine Datenflussanalyse dient dazu, für ein Programm vorherzusagen, wie es
Daten während der Ausführung manipuliert [Muc97].
Bei der Datenflussanalyse werden Datenflussgleichungen aufgestellt, die die
Abhängigkeiten von Eigenschaften zwischen Programmgrundblöcken1 definieren. Bei diesen Eigenschaften handelt es sich um abstrakte Informationen über
Variablen, Ausdrücke oder anderen Programmkonstrukten, die für alle möglichen Ausführungen des untersuchten Programms gültig sind. Diese Analyse ist
unabhängig von den Eingabedaten. So bleibt bei Kontrollkonstrukten unberücksichtigt, wie oft z.B. eine Schleife durchlaufen oder welcher Programmzweig
einer bedingten Anweisung abgearbeitet wird.
Die Eigenschaften der Blöcke und deren Beziehung zueinander werden in
der Datenflussanalyse als Verband modelliert.
2.3.1
Verbände
Ein Verband ist eine algebraische Struktur mit zwei Verknüpfungen, mit dem
sich die Eigenschaften modellieren lassen, die mit einer Datenflussanalyse bestimmt werden sollen. Dabei wird jedem Programmblock ein Element des Verbands zugeordnet. Die Verknüpfungen des Verbands werden dazu benutzt, Informationen über Programmblöcke an Stellen zu verschmelzen, an denen der
Kontrollfluss zusammenläuft.
Allgemein ist ein Verband folgendermaßen definiert:
Definition 2.1 (Verband). Ein Verband (V, u, t) ist eine Menge V, auf der
zwei Verknüpfungen meet u und join t definiert sind, für die folgendes gilt:
• u und t sind abgeschlossen, d.h. für alle x, y ∈ V gilt: x u y ∈ V und
xty ∈V.
• u und t sind kommutativ, d.h. für alle x, y ∈ V gilt: x u y = y u x und
x t y = y t x.
• u und t sind assoziativ, d.h. für alle x, y, z ∈ V gilt: (xuy)uz = xu(yuz)
und (x t y) t z = x t (y t z).
1
Ein Grundblock kann nur am Anfang betreten und am Ende verlassen werden – es gibt
also keine Sprünge und Sprungziele innerhalb des Blocks
20
KAPITEL 2. GRUNDLAGEN
• Es existieren zwei eindeutig bestimmte Elemente Bottom ⊥ und Top >
in V für die gilt: x u ⊥ = ⊥ und x t > = > für alle x ∈ V .
Verbände lassen sich einfach grafisch darstellen. Bild 2.3 zeigt ein einfaches
Beispiel eines Verbands dargestellt als sogenanntes Hasse-Diagramm.
1
2
3
4
Abbildung 2.3: Hasse-Diagramm eines einfachen Verbands
Wie sich aus dem Bild erahnen lässt, besteht ein enger Zusammenhang
zwischen Verbänden und partiellen Ordnungen. Eine partielle Ordnung (V, v)
erhält man, wenn man für einen Verband (V, u, t) folgendes definiert: Es gilt
x v y genau dann, wenn x u y = x gilt. Diese partielle Ordnung wird auch die
auf einem Verband induzierte partielle Ordnung genannt.
Ähnlich lässt sich aus einer partiellen Ordnung ein Verband konstruieren.
Dabei ergeben sich die beiden Verbandsoperationen aus dem Infimum und dem
Supremum der beiden Operatoren.
2.3.2
Transferfunktionen
Die einzelnen Programmblöcke manipulieren – ihrer Semantik entsprechend –
die durch den Verband modellierten Eigenschaften. Diese Veränderung der Eigenschaften werden durch eine Transferfunktion angegeben. Diese Transferfunktion bildet Elemente des Verbandes wieder auf Elemente des Verbands ab. Ist
(V, u, t) ein Verband und B ein Programmblock, dann ist die Transferfunktion
für den Programmblock B definiert durch fB : V → V .
Damit die Datenflussanalyse durchgeführt werden kann, muss die Transferfunktion f monoton sein. D.h. für alle x, y ∈ V mit x v y gilt: f (x) v f (y). Ist
diese Voraussetzung nicht erfüllt, konvergieren die Datenflussgleichungen i.A.
nicht und die Datenflussanalyse terminiert nicht. Die Forderung der Monotonie drückt in etwa aus, dass im Laufe der Analyse nur weitere Informationen
gewonnen werden, aber niemals Informationen verloren gehen dürfen.
Ist zusätzlich neben der Monotonie der Transferfunktion die Höhe des Verbands endlich, so ist die Terminierung der Datenflussanalyse garantiert. Die
Höhe eines Verbands V ist ein maximales n, so dass gilt: ⊥ = x1 @ x2 @ · · · @
xn = > mit xi ∈ V .
2.3. DATENFLUSSANALYSE
2.3.3
21
Iterative Vorwärtsanalyse
Die iterative Vorwärtsanalyse ist eine Möglichkeit, eine Datenflussanalyse durchzuführen. Dabei werden jedem Programmblock B zwei Eigenschaften zugeordnet: Die hereinfließenden Eigenschaften IN (B) und die herausfließenden Eigenschaften OU T (B). Um die eingehenden Eigenschaften für einen Programmblock
zu ermitteln, werden alle herausgehenden Eigenschaften der Vorgänger mit der
Verbandsverknüpfung kombiniert, die die Zusammenführung der Flussinformationen modelliert. Welche der beiden Operationen den Zusammenfluss modelliert, hängt von dem konkreten Verband ab. Hier wird davon ausgegangen, dass
die meet-Operation den Zusammenfluss modelliert:
IN (B) =
u
OU T (C)
C∈V org(B)
Diese neu berechnete Eigenschaft wird mit der Transferfunktion fB : V → V
entsprechend der Semantik des Blocks B verändert und liefert so die herausfließende Eigenschaft des Grundblocks:
OU T (B) = fB (IN (B))
Nach Festlegung einer geeigneten Startbelegung wird diese Berechnung für
jeden Programmblock durchgeführt und solange iteriert, bis sich die Eigenschaften nicht mehr ändern. Man spricht dann davon, dass die Datenflussgleichungen
einen Fixpunkt erreicht haben.
2.3.4
Modellierung von komplexen Verbänden
Je nach Art der Datenflussanalyse wird ein mehr oder weniger komplexer Verband benötigt. Es gibt nun mehrere Techniken, komplexe Verbände durch Kombination einfacher Verbände zu konstruieren.
Mit Hilfe des folgenden Satzes lassen sich z.B. die lokalen Variablen und
der Operandenkeller gesondert als Verbände modellieren, um dann zu einem
Schachteltypverband kombiniert zu werden.
Satz 2.1 (Kreuzprodukt von zwei Verbänden). Gegeben seien die Verbände
(V1 , u0 , t0 ) und (V2 , u00 , t00 ). Dann ist (V, u, t) mit
• V := (V1 × V2 ) = {(v, w)|v ∈ V1 , w ∈ V2 },
• x u y = (x1 , x2 ) u (y1 , y2 ) := ((x1 u0 y1 ), (x2 u00 y2 )) und
• xty = (x1 , x2 )t(y1 , y2 ) := ((x1 t0 y1 ), (x2 t00 y2 )) mit x, y ∈ V , x1 , y1 ∈ V1
und x2 , y2 ∈ V2
ebenfalls ein Verband.
Dieser Satz lässt sich verallgemeinern, so dass auch mehr als zwei Verbände
kombiniert werden können.
Die Äquivalenz von partiellen Ordnungen und Verbänden ermöglicht es
auch, einen Verband über eine partielle Ordnung zu definieren. Dies bietet sich
22
KAPITEL 2. GRUNDLAGEN
beispielsweise bei der Vererbungshierarchie zwischen Java-Klassen an, da es sich
bei der Klassenhierarchie um eine partielle Ordnung handelt.
V1
V2
...
Vn
V1
V2
...
Vn
Abbildung 2.4: Vereinigung paarweiser disjunkter Verbände zu einem neuen
Verband
Durch Vereinigung mehrerer paarweise disjunkter Verbände lässt sich ein
neuer Verbanden erzeugen, wenn ein neues Top- und Bottom-Element eingefügt
wird. Bild 2.4 zeigt ein Schema für dieses Vorgehen. Die Elemente der Verbände
werden vereinigt und die Operationen meet und join werden dem Bild entsprechend definiert.
2.3.5
Zusammenfassung
Mit einem geeigneten Verband und den Transferfunktionen lässt sich nun die
Datenflussanalyse durchführen, um die Typen für jede Programmstelle zu rekonstruieren. Diese Informationen dienen als Grundlage für den Sicherheitsbeweis im Sinne des Proof-Carrying Code. Die Transferfunktionen lassen sich in
einem funktionalen Kalkül modellieren. Dies hätte jedoch den Nachteil, dass
die Modellierung sehr unübersichtlich und weit entfernt von einer Implementierung wäre. Daher benutzt E. Rose einen operationalen Ansatz: Die Natural
Semantics.
2.4
Natural Semantics
Um mit Beweisen arbeiten zu können, ist ein Formalismus notwendig, auf dem
diese Beweise aufbauen. Daher sind bei der Anwendung von Proof-Carrying Code die Sicherheitsrichtlinien geeignet zu formalisieren, damit überhaupt Beweise
formuliert bzw. erzeugt werden können, die die Einhaltung dieser Sicherheitsrichtlinien beweisen. E. Rose benutzt zur Beschreibung der Sicherheitsrichtlinien, die in diesem Fall der Semantik der JVM entsprechen, den Formalismus der
Natural Semantics [Ka87].
2.4. NATURAL SEMANTICS
2.4.1
23
Inferenzregeln und Axiome
Die Natural Semantics ist eine operationale Methode zur Beschreibung von
Semantiken. Grundelemente der semantischen Beschreibung sind Inferenzregeln
und Axiome.
Im Allgemeinen hat eine Regel folgende Form:
J1 ∧ J2 ∧ ... ∧ Jk
J0
C
Der obere Teil dieser Regel besteht aus einer Menge von Formeln und wird
Prämisse genannt. Wenn alle Formeln der Prämisse wahr sind, so gilt die Formel J0 im unteren Teil. J0 wird auch Konklusion genannt.
Es gibt zwei Arten von Formeln: Folgerungen und Bedingungen. Die Konklusion – also der untere Teil der Regel – ist immer eine Folgerung. C ist immer
eine Bedingung, die die Anwendbarkeit der Regel einschränken soll. Sie wird
rechts neben die Regel geschrieben. Fehlt die Bedingung, dann gibt es keine
Einschränkung in der Anwendbarkeit der Regel.
Besitzt eine Regel keine Folgerungen in der Prämisse, so nennt man die
Regel ein Axiom. Man beachte, dass ein Axiom dennoch durch Bedingungen
eingeschränkt werden kann.
2.4.2
Folgerungen
Eine Folgerung hat die Form a ` c. Links vom Drehkreuz steht der Bedingungsteil a und rechts davon der Schluss c. Der Schluss ist ein Prädikat, das in
mehreren Formen auftreten kann. Diese Formen werden dadurch unterschieden,
dass unterschiedliche Symbole innerhalb des Prädikats benutzt werden. Das erste Argument vor diesem Symbol ist das Subjekt dieser Folgerung.
Wenn man beispielsweise in der statischen Semantik ausdrücken möchte,
dass ein Ausdruck E einen bestimmten Typ hat, dann würde die Folgerung
folgende Form haben: p ` E : τ . Man sagt dann, dass in der Umgebung p der
Ausdruck E den Typ τ besitzt. Der Doppelpunkt symbolisiert hier, dass es sich
um eine statische Semantik handelt. Vor dem Doppelpunkt steht als Subjekt
der Regel der Ausdruck E.
2.4.3
semantische Definitionen
Mit mehreren Axiomen und Inferenzregeln lassen sich nun semantische Definitionen aufstellen. Das Prinzip ist es, aus diesen Axiomen mit Hilfe der Regeln
neue Informationen zu gewinnen. Ein solches Regelsystem ist vergleichbar mit
einer Grammatik.
Eine Grammatik lässt sich auf zwei Arten benutzen: Einmal als Konstruktionsanleitung, um Worte der Grammatik zu erzeugen, und zum anderen als
24
KAPITEL 2. GRUNDLAGEN
Erkennungssystem, mit dem geprüft werden kann, ob bestimmte Worte der
Grammatik angehören.
Diese beiden Betrachtungsweisen einer Grammatik gibt es auch bei der Natural Semantics.
2.4.4
Die verschiedenen Formen von Folgerungen
Mit der Natural Semantics lassen sich nicht nur statische Semantiken beschreiben, sondern auch dynamische Semantiken und Übersetzungen von einer Sprache in eine andere.
Die Folgerung s1 ` E ⇒ s2 bedeutet z.B., dass in Zustand s1 die Auswertung des Ausdrucks E zu dem neuen Zustand s2 führt. Der Zustand s1 enthält
dabei alle Variablen, die in dem Ausdruck vorkommen. Dies ist ein sehr einfaches Beispiel. In der Praxis hängt das Aussehen der Folgerungen stark von den
Eigenschaften der betrachteten Sprache ab.
Übersetzungen werden in der Form p ` E1 → E2 ausgedrückt. Dabei enthält
p Annahmen über die Bezeichner. E1 ist ein Ausdruck aus der Quellsprache und
E2 der entsprechende Ausdruck der Zielsprache.
E. Rose benutzt die zuletztgenannte Form, um die Übersetzung von JavaProgrammen nach Java-Bytecode zu modellieren. Die Typsicherheit, die an dieser Stelle wesentlich wichtiger ist, spezifiziert sie durch eine statische Semantik.
2.4.5
Beispiel
Die dynamische Semantik der bedingten Anweisung if-then-else könnte folgendermaßen modelliert werden:
p ` Cond, S ⇒ true, S 0 ∧ p ` B1 , S 0 ⇒ S 00
p ` if (Cond) B1 else B2 , S ⇒ S 00
p ` Cond, S ⇒ false, S 0 ∧ p ` B2 , S 0 ⇒ S 00
p ` if (Cond) B1 else B2 , S ⇒ S 00
Es gibt hier zwei Regeln, die sich nur in der Prämisse unterscheiden. Die
Konklusion besagt: In der Umgebung p geht der Zustand S durch die Ausführung
von if (Cond) B1 else B2 in den Zustand S 00 über. Damit die Konklusion gültig
ist, müssen die Prämissen ebenfalls gültig sein. Es stellt sich hier auch die Frage,
wie der Zustand S 00 ermittelt wird.
Die erste Regel enthält in der Prämisse die Aussage, dass die Auswertung
der Bedingung Cond wahr ergibt und der Zustand von S nach S 0 wechselt.
Weiterhin ergibt die Ausführung des Blocks B1 einen Zustandsübergang von S 0
nach S 00 . Falls die Aussagen der Prämisse gelten, ist dieser Zustand S 00 auch
der Zustand, der durch die Ausführung des if-Konstrukts erreicht wird.
Analog verhält sich die Prämisse der zweiten Regel. Hier wird jedoch davon
ausgegangen, dass die Bedingung Cond nicht wahr ist und somit der Block B2
ausgeführt wird. S 00 ist wieder der Zustand, der nach Ausführung des Blocks
2.4. NATURAL SEMANTICS
25
B2 gilt und somit auch nach Ausführung des if-Konstrukts.
In einer vollständigen semantischen Beschreibung müssten noch Regeln für
die Ausführung von Programmblöcken und für die Auswertung von Ausdrücken
existieren, die wieder Zustandsübergänge modellieren. Am Ende dieser Regelkette müssten schließlich Axiome stehen, um die Gültigkeit der Regel zu beweisen. Auch die Zustände selbst müssten genauer definiert werden, um z.B.
Variablenbindungen zu modellieren.
26
KAPITEL 2. GRUNDLAGEN
Kapitel 3
Konzeption
In diesem Kapitel soll der Ablauf der leichtgewichtigen Bytecode-Verifikation
(Lightweight Bytecode Verification) beschrieben werden [RR98] [Ro98]. Weiterhin sollen Erweiterungsmöglichkeiten diskutiert werden.
3.1
Überblick über die leichtgewichtige Verifikation
Produzent
Phase 1
Java Programm
Java−
Übersetzer
Zertifizierer
zertifizierter Bytecode
Konsument
Abbruch
Nein
Prüfung
korrekt?
Phase 2
JVM−
Bytecode
Zertifikat
Bytecode−Überprüfung
Typmodell
der JVM
Ja
Ausführung
auf JVM
Abbildung 3.1: Ablauf der Lightweight Bytecode Verification
Die leichtgewichtige Verifikation von Java-Bytecode basiert auf der in Kapitel 2.1 beschriebenen Technik des Proof-Carrying Codes. Bild 3.1 zeigt den
Ablauf der beiden Phasen. In der ersten Phase wird nach der Übersetzung des
27
28
KAPITEL 3. KONZEPTION
Bytecode ein Zertifikat erstellt. Dieses Zertifikat beinhaltet Informationen, aus
denen sich leicht für jede Stelle im Bytecode sämtliche Typinformationen des
Kellers und der lokalen Variablen rekonstruieren lassen. Die zweite Phase prüft
vor der Ausführung, ob die aus dem Zertifikat rekonstruierten Typinformationen zu dem Bytecode passen.
Für jede dieser beiden Phasen werde ich ein Programm implementieren. Als
Eingabe erhält das erste Programm eine Java-Klassendatei, die von einem JavaÜbersetzer erzeugt wurde. Für jede Methode in dieser Klassendatei erzeugt das
Programm ein Zertifikat. Diese Zertifikate bilden dann zusammen mit der Klassendatei die Eingabe für das zweite Programm. In der zweiten Phase kann mit
Hilfe der Zertifikate jede Methode der Klassendatei effizient auf Typsicherheit
geprüft werden.
Es folgt nun eine genauere Beschreibung dieser beiden Phasen.
3.2
Die Zertifizierungsphase
Java−Klassendatei
Verband
Datenflussanalyse
Schachteltypen
Zertifikaterstellung
(Komprimierung)
Datenstruktur für Schachteltypen mit
Abbildung gemäß Bytecode−
Semantik auf Typebene
für jede Programmstelle/Grundblock in jeder Methode
Welche Informationen können
nicht bei linearem Durchlauf durch
den Bytecode ermittelt werden?
Zertifikat
Abbildung 3.2: grober Ablauf der Zertifizierung
Bild 3.2 illustiert die erste Phase der leichtgewichtigen Verifikation, in der für
jede Methode ein Zertifikat erstellt wird, aus dem sich für jede Programmstelle die Typinformationen bestimmen lassen. Diese Typinformationen enthalten
Informationen über alle Speicherbereiche der JVM, in denen dieselbe Speicherzelle zu verschiedenen Zeitpunkten der Programmausführung unterschiedliche
Typen enthalten kann. Felder von Klassen werden daher nicht erfasst, da diese
zu jedem Zeitpunkt denselben Typ enthalten. Übrig bleiben somit die lokalen
Variablen und der Operandenkeller. Alle Typen dieser beiden Bereiche werden
3.2. DIE ZERTIFIZIERUNGSPHASE
29
zusammenfassend Schachteltyp genannt.
Die Schachteltypen jeder Programmstelle einer Methode können durch eine Datenflussanalyse ermittelt werden (Kapitel 2.3). Anschließend werden die für die
zweite Phase wichtigen Informationen aus diesen Schachteltypen extrahiert und
bilden das zu dem Bytecode gehörende Zertifikat.
3.2.1
Die Datenflussanalyse
Eine zentrale Rolle bei der Datenflussanalyse spielen der Verband und die Transferfunktionen.
Der Verband modelliert die Schachteltypen und deren Beziehungen untereinander, d.h. wie z.B. Schachteltypen kombiniert werden müssen, wenn eine
Instruktion mehr als einen Vorgänger besitzt.
Die Transferfunktionen bilden die Semantik der Instruktionen auf die Schachteltypen ab. Damit wird modelliert, welche Typen die einzelnen Intstruktionen
auf dem Operandenkeller und in den lokalen Variablen erwarten und wie dieser Schachteltyp von der Instruktion verändert wird. Zum Beispiel erwartet die
Instruktion iadd auf dem Operandenkeller zwei int-Typen, nimmt diese von
Keller und legt schließlich die Summe dieser beiden Operanden wieder auf den
Keller.
Jede Methode der Klasse wird unabhängig von den anderen Methoden bearbeitet. Ruft eine Methode eine zweite Methode auf, so wird angenommen,
dass die zweite Methode korrekt ist. Es wird lediglich geprüft, ob die auf dem
Keller abgelegten Parameter zu den Typen der Methodensignatur passen.
Die Datenflussanalyse wird also für jede Methode der Java-Klasse einzeln durchgeführt. Damit erhält auch jede Methode ihr eigenes Zertifikat.
Initialisierung der Schachteltypen
Vor der Ausführung einer Methode erhalten die lokalen Variablen die der Methode übergebenen Parameter. Dies bedeutet für die Datenflussanalyse, dass
der Schachteltyp der ersten Instruktion die Typen der Methodenparameter enthalten muss. Wenn die Methode also zwei int-Parameter besitzt, müssen die
ersten beiden lokalen Variablen des Schachteltyps der ersten Instruktion ebenfalls int-Typen enthalten. Dies gilt jedoch nur für statische Methoden. Bei
nicht statischen Methoden beinhaltet die erste lokale Variable den Typ der
zugehörigen Klasse – dies entspricht der this-Referenz. Die Typen der Methodenparameter folgen dann ab der zweiten lokalen Variable. Die übrigen lokalen
Variablen dieser Methode werden mit dem ⊥-Element des Verbands initialisiert. Dies signalisiert, dass diese lokalen Variablen nicht lesend benutzt werden
dürfen, da ihr Inhalt unbekannt ist. Der Operandenkeller ist an dieser Stelle
leer. Abbildung 3.3 zeigt ein Beispiel für die Initialisierung des Schachteltyps
der ersten Instruktion.
Die übrigen Schachteltypen, die nicht zur ersten Instruktion der Methode
gehören, werden mit >-Elementen initialisiert. Dies zeigt an, dass noch keine
30
KAPITEL 3. KONZEPTION
class A {
static void m1 (int a, int b) { ... }
void m2 (int a, String b) { ... }
};
Schachteltyp
lokale Variablen
Initialisierung des Schachteltyps
der ersten Instruktion
Keller
Methode m1
int
int
leer
Methode m2
A
int String
leer
Abbildung 3.3: Beispiel für die Initialisierung des Schachteltyps der ersten Instruktion anhand der Methodensignatur
Informationen über die Typen verfügbar sind.
Der zugrundeliegende Verband
Der Verband für die Schachteltypen wird sukzessive aus einfacheren Verbänden
kombiniert (siehe Kapitel 2.3.4). Grundlage bildet hier ein Verband, der Grundtypen und Klassen enthält. Die Abhängigkeiten zwischen den einzelnen Elementen werden im wesentlichen durch die Klasenhierarchie bestimmt. Aus diesem
Grundkomponentenverband wird zum einen ein Verband für die lokalen Variablen bestehend aus einer konstanten Anzahl von Elementen erzeugt und zum
anderen ein Verband für den Keller, dessen Elementanzahl variabel ist. Diese
beiden Verbände werden schließlich zu dem endgültigen Schachteltypverband
kombiniert.
Die einzelnen Elemente des Schachteltypverbands werden in der Implementierung nicht komplett im Speicher erzeugt. Stattdessen werden die Elemente
und ihre Abhängigkeiten bei Bedarf aus den Grundelementen berechnet. Die
Implementierung wird also nur die folgende Konstruktionsvorschrift enthalten,
die definiert, wie der Schachteltypverband aus dem Grundkomponentenverband
zusammengesetzt wird.
Abbildung 3.4 zeigt einen einfachen Grundkomponentenverband, der vier
Klassen enthält. Die Klassen C und D sind von der Klasse A abgeleitet. Jede
Klasse ist direkt oder indirekt von Object abgeleitet. Der Grunddatentyp int
besitzt keine Relation zu den Klassen.
Die Elemente des Verbands enthalten von oben nach unten immer mehr
Informationen. Das >-Element symbolisiert, dass noch keine Informationen
verfügbar sind und das ⊥-Element gibt an, dass ein Typ nicht eindeutig bestimmbar ist. Zwischen diesen beiden Extremen liegen die Typen, die in der
JVM auftreten können. Während der Datenflussanalyse ist es natürlich sinnvoll, in dem Verband nur die Elemente zu haben, die auch tatsächlich in der
untersuchten Methode benutzt werden. Dazu wird der Verband während er Datenflussanalyse erweitert, sobald ein noch nicht in dem Verband vorhandener
Typ z.B. aus dem Konstantenbereich auf dem Operandenkeller abgelegt wird.
Während der Datenflussanalyse werden neue Typinformationen dadurch gewonnen, dass sich ein Typ bezogen auf den Verband dahingehend verändert,
3.2. DIE ZERTIFIZIERUNGSPHASE
31
D
int
C
A
B
java.lang.Object
Abbildung 3.4: Beispiel für einen Grundkomponentenverband, aus dem der
Schachteltypverband konstruiert wird
dass er sich dem ⊥-Symbol annähert. Wenn die u-Operation (meet) auf zwei
Elemente des Verbands ausgeführt wird, so befindet sich das Ergebnis entweder
unterhalb der beiden Elemente oder es ist gleich einem der beiden Elemente.
Zum Beispiel ergibt D u B = java.lang.Object oder int u top = int.
Spätere Erweiterungen werden neben den Transferfunktionen diesen Grundkomponentenverband erweitern. Die Art und Weise, wie der Schachteltypverband aus diesem Verband konstruiert wird, ist von der Erweiterung des Grundkomponentenverbands unabhängig. In Abbildung 3.5 ist ein Verband zu sehen,
der nach Satz 2.1 aus einen dreielementigen Grundkomponentenverband konstruiert wurde (mit den Elementen ⊥, > und int). Dieser konstruierte Verband
modelliert den Teil des Schachteltyps, der den Typen der lokalen Variablen entspricht. Die Anzahl der enthaltenen Elemente ist davon abhängig, wie viele
lokale Variablen die zu untersuchende Methode benötigt. In dem Beispiel sind
dies drei lokale Variablen.
Ein ähnlicher Verband wird für die Kellertypen angeben. Der Hauptunterschied zu dem Verband der lokalen Variablen ist der, dass die Anzahl der
enthaltenen Grundkomponenten variabel ist, da der Keller ja an verschiedenen Programmstellen unterschiedliche viele Elemente enthalten kann. Dieser
Verband wird daher durch Vereinigung mehrerer Verbände konstruiert (vgl.
Abbildung 2.4 in Kapitel 2.3.4). Wenn der Operandenkeller maximal zwei Elemente enthalten kann, werden drei Verbände vereinigt: Der Verband bestehend
aus dem leeren Keller, ein Verband mit einem einelementigen Keller und ein
Verband mit einem zweielementigen Keller. Abbildung 3.6 zeigt das Ergebnis
dieser Vereinigung.
Die Beispiele aus Abbildung 3.5 und 3.6 zeigen, dass der Schachteltypver-
32
KAPITEL 3. KONZEPTION
(int,
(
(
,
,
,
(
,
,
)
, int)
(
, int,
)
)
(
, int, int)
(
, int,
(int,
)
)
, int)
(int,
,
(
,
(int, int,
)
,
)
(int, int, int)
,
)
(int, int,
(
,
, int)
(
,
,
(
,
,
)
(
,
, int)
(
,
,
)
(int,
,
)
)
(
(
,
, int)
)
, int, int)
(
(int,
(int,
, int,
, int,
(
,
)
,
(
(
,
,
)
)
)
Abbildung 3.5: Ein Verband für die Typen der lokalen Variablen
unknown stack
]
[
,
[int]
[
, int]
[
[
[
]
[]
,
]
]
[int, int]
[int,
]
[
]
,
[int,
[
]
[
,
]
, int]
invalid stack
Abbildung 3.6: Ein Verband für die Typen des Operandenkeller
)
,
, int)
3.2. DIE ZERTIFIZIERUNGSPHASE
33
band, der durch eine Kreuzproduktbildung aus dem Verband der lokalen Variablen und dem Verband des Operandenkellers zusammengesetzt wird, sehr
komplex sein kann – insbesondere, wenn der Grundkomponentenverband aus
mehr als drei Elementen besteht. Für die Beispiele ergäbe sich ein Schachteltypverband mit 405 Elementen. An diesem Beispiel lässt sich auch erkennen,
dass es keinen Sinn macht, in der Implementierung die Elemente des Schachteltypverbandes und deren Beziehungen untereinander vollständig aufzuzählen
und im Speicher zu halten.
In dem Ansatz von E. Rose wird nur der Grunddatentyp int berücksichtigt. Es fehlen also die Grunddatentypen float, double und long. Die Typen
boolean, char, byte und short brauchen nicht in dem Verband modelliert
zu werden, da diese von der JVM auf int-Typen abgebildet werden. Dies gilt
jedoch nur solange, wie keine Reihungen (arrays) unterstützt werden. Denn eine Referenz auf eine boolean-Reihung ist nicht kompatibel zu einer Referenz
auf eine byte-Reihung. Wie sich Reihungen in den Grundkomponentenverband
einfügen, werde ich neben anderen Erweiterungen in Abschnitt 3.4 diskutieren.
Die Transferfunktionen
Fast jede Bytecode-Instruktion verändert den Keller oder die lokalen Variablen. Für die Schachteltypen bedeutet dies, dass sich die enthaltenen Typen
verändern. Diese Typsemantik der Instruktionen wird durch die Transferfunktionen modelliert.
Um jedes Java-Bytecode-Programm analysieren zu können, muss für jede
Bytecode-Instruktion eine Transferfunktion definiert sein. E. Rose beschränkt
sich in ihrem Ansatz auf eine Untermenge der Instruktionen der Java Virtual Machine. Der Hauptgrund für diese Beschränkung ist die Komplexität der
Formalisierung. Viele Instruktionen wurden weggelassen, weil sie zu den unterstützten Instruktionen konzeptuell sehr ähnlich sind und den Korrektheitsbeweis entsprechend unübersichtlich hätten werden lassen. In dieser Arbeit muss
darauf keine Rücksicht genommen werden, da der Schwerpunkt in der Implementierung und Evaluierung liegt. Die Implementierung dieser Instruktionen
ist daher trivial.
Andere Instruktionen hingegen sind sehr schwierig zu modellieren wie z.B.
Unterprogrammaufrufe durch die jsr-Instruktion. Der Grund dafür ist zum
einen, dass nach Abarbeitung des Unterprogramms nicht unbedingt wieder
zurück zur Aufrufstelle gesprungen wird. Desweiteren können die von dem Unterprogramm nicht benutzten lokalen Variablen unterschiedliche Typen enthalten abhängig davon, von welcher Programmstelle aus das Unterprogramm
aufgerufen wurde. Diese verschiedenen Typen müssen innerhalb des Unterprogramms erhalten bleiben und dürfen keinesfalls mit der u-Operation des
Verbands zusammengefasst werden. Es gibt also je nach Aufrufstelle innerhalb des Unterprogramms pro Instruktion mehrere verschiedene Schachteltypen. Dies macht die Datenflussanalyse wesentlich schwieriger [Le01]. Eine sehr
einfache Lösung für das Unterprogrammproblem wäre das Ersetzen der Unter-
34
KAPITEL 3. KONZEPTION
programmaufrufe durch das Unterprogramm selbst. Dies würde natürlich gerade
bei großen Unterprogrammen den Bytecode erheblich vergrößern. Da Unterprogramme von dem Sun-Java-Übersetzer jedoch nur durch finally-Konstrukte
erzeugt werden, sind sie relativ selten. Daher werde ich mich in meiner Implementierung auf andere Erweiterungen konzentrieren.
Neben der Modifikation des Schachteltyps prüfen die Transferfunktionen,
ob die Ausführung entsprechend der JVM-Spezifikation mit dem vorliegenden
Schachteltyp überhaupt zulässig ist. So wird ein Kellerüberlauf geprüft und ob
passende Typen auf dem Keller und in den lokalen Variablen für die jeweilige
Instruktion vorliegen.
class A {
int mein_feld;
};
Konstantenbereich[1]
lokale Variablen
Vor der Ausführung
(...)
Nach der Ausführung
... A int
... A
putfield[1]
...
(...)
Feldreferenz
Klassenname
Feldname und Typ
Keller
pop
pop
A
int
mein_feld
int
Prüfung der Typkompatiblität
A Prüfung der Typkompatiblität
...
Abbildung 3.7: Die Transferfunktion für die Instruktion putfield
Beispielsweise benötigt die Instruktion putfield als Operanden eine Referenz und einen Wert auf dem Keller. Das Feld, das diesen Wert erhalten soll,
wird über den Konstantenbereich ermittelt. Ein entsprechender Index in den
Konstantenbereich ist Teil der Instruktion. Die Feldreferenz aus dem Konstantenbereich enthält einen Klassennamen, einen Feldnamen und den Typ des Feldes. Der Wert auf dem Keller muss einen zum Feld kompatiblen Typ besitzen
und die Referenz auf dem Keller muss von gleichen Typ oder eine Unterklasse
des Klassennamens sein. Bild 3.7 zeigt die Arbeitsweise der Transferfunktion
für die Instruktion putfield, bei der nur der Operandenkeller verändert wird.
Die lokalen Variablen bleiben unverändert.
Die Typkompatiblität hängt mit der Klassenhierarchie zusammen. Da diese
auch in dem Verband enthalten ist, wird die Typkompatiblität auch durch den
Verband modelliert. Dies hat den Vorteil, dass Grundtypen und Klassen nicht
gesondert behandelt werden müssen. Angenommen der Typ auf dem Keller ist
t1 . Dann kann ein Wert dieses Typs nur einem Feld vom Typ t2 zugewiesen
werden, wenn t1 u t2 = t2 ist.
Bild 3.8 zeigt, wie man dies auch grafisch anhand des Hasse-Diagramms
ermittelt. Um zu prüfen, ob A kompatibel zu Object ist, wird ein Weg von A
nach unten Richtung ⊥-Symbol zu Object gesucht. Existiert dieser Weg, so
ist A kompatibel zu Object. Genau dies drückt die Bedingung A u Object =
3.2. DIE ZERTIFIZIERUNGSPHASE
35
A
int
Object
Abbildung 3.8: Ein einfacher Verband mit zwei Klassen
Object aus. Es sollte auch klar sein, dass int kompatibel zu sich selbst ist.
Wenn die Transferfunktionen und der Verband implementiert sind, lässt
sich die Datenflussanalyse wie in Kapitel 2.3.3 beschrieben durchführen. Man
erhält – wie in Abbildung 3.2 gezeigt – einen Schachteltyp für jede Instruktion
jeder Methode. Aus diesen Typinformationen wird nun im zweiten Teil der
Zertifizierungsphase ein Zertifikat erzeugt, dass zwei wesentliche Eigenschaften
besitzen muss: Zum einen muss es möglichst klein sein und zum anderen muss
die Fälschungssicherheit gegeben sein.
3.2.2
Die Kompression des Zertifikats
Die geringe Größe des Zertifikats wird dadurch erreicht, dass nur die Informationen gespeichert werden, die bei einem sequentiellen Durchlaufen des Bytecodes nicht ermittelt werden können. Dies bedeutet für die zweite Phase, dass
durch das Zertifikat die Datenflussanalyse – und insbesondere die Fixpunktsuche – nicht durchgeführt werden muss. Durch das Fehlen dieser Fixpunktsuche
entfällt der ansonsten hohe Speicherplatzbedarf der Datenflussanalyse. Dies ist
gerade deshalb wichtig, weil die zweite Phase der leichtgewichtigen Verifikation
auf der Java Card durchgeführt werden soll und dort der Speicher sehr begrenzt
ist.
Beim sequentiellen Durchlaufen durch den Bytecode kann der Schachteltyp
nicht immer aus den bereits bekannten Informationen bestimmt werden. Gerade an Programmstellen, für deren Schachteltypberechnung die Datenflussanalyse mehrere Iterationen benötigt, unterscheidet sich der sequentiell bestimmte
Schachteltyp von dem aus der Datenflussanalyse. Diese Schachteltypen werden in der Datenflussanalyse durch eine Verknüpfung mit der u-Operation des
Verbands berechnet. Beim sequentiellen Durchlauf sind in der Regel für diese
Verknüpfung nicht alle Operanden verfügbar. Statt die übrigen Operanden in
dem Zertifikat zu speichern, wird sinnvollerweise nur das Endergebnis dieser
Operation angegeben. Dies hat den Vorteil, dass die aufwändige u-Operation
beim sequentiellen Durchlauf überhaupt nicht mehr durchgeführt werden muss.
In den Zertifikaten werden außerdem keine vollständigen Schachteltypen gespeichert, sondern nur die Differenz des durch den sequentiellen Durchlauf bestimmten Schachteltyps und dem aus der Datenflussanalyse ermittelten Schach-
36
KAPITEL 3. KONZEPTION
teltyp. Dies bietet sich an, weil sich die meisten Schachteltypen im Laufe der
Datenflussanalyse nicht oder nur wenig ändern und damit die Zertifikate entsprechend wenig Einträge besitzen. Die Berechnung der Differenzen ist sehr
einfach und soll durch folgendes Beispiel erläutert werden. Angenommen die
beiden Schachteltypen haben folgenden Inhalt:
Schachteltyp
bei sequentiellem Durchlauf
aus Datenflussanalyse
lokale Variablen
(int, int)
(int, ⊥)
Operandenkeller
()
()
Der einzige Unterschied in diesen beiden Schachteltypen ist die zweite lokale
Variable. Daher braucht in dem Zertifikat auch nur gespeichert zu werden, dass
die zweite lokale Variable das ⊥-Symbol enthält. Es wird also ein Index und ein
Typ in dem Zertifikat gespeichert.
Die Typen des Kellers lassen sich ebenfalls über Indizes ansprechen. Um
in dem Zertifikat keine Unterscheidung zwischen lokalen Variablen und Keller
machen zu müssen, könnte der Kellerindex bei der Anzahl der lokalen Variablen beginnen. Ist die Anzahl der lokalen Variablen wie in dem obigen Beispiel
2, dann werden die lokalen Variablen mit 0 und 1 indiziert und das unterste
Kellerelement entspricht dem Index 2.
Damit das Zertifikat nur noch aus Zahlen besteht, könnten die Typen selbst
auch indiziert gespeichert werden. Dazu muss in dem Zertifikat eine Liste der
verwendeten Typen angegeben werden. Diese weitere Indizierung lohnt sich
spätestens dann, wenn zwei gleiche Typen in dem Zertifikat auftreten. In den
einzelnen Einträgen des Zertifikats werden dann nur noch aus Zahlen bestehende Tupel gespeichert. Ein Tupel besteht somit aus einem Index innerhalb
des Schachteltyps und aus einem Index auf die Typenliste. Ein weiterer Vorteil
dieser Indizierung liegt darin, dass häufig in den Zertifikaten auftretene Typen
einen festen Index bekommen könnten, so dass diese Typen nicht in der Liste
gespeichert werden müssen. Beispielsweise könnte das ⊥-Element, das oft in den
Zertifikaten vorkommt, grundsätzlich den Index 0 erhalten. Diese weitere Indizierung bringt nur einen Speicherplatzvorteil um einen konstanten Faktor. Aus
diesem Grund wird diese Indizierung in der folgenden formalen Beschreibung
nicht berücksichtigt.
f in
e ∈ Eintraege = Programmstellen −→ Schachteldelta
pp ∈ Programmstellen = N0
δ ∈ Schachteldelta = (Index × Typ)∗
i ∈ Index = N0
mt ∈ T yp = KlassenID | Grunddatentyp | ⊥
Die Schachteltypeinträge werden hier als endliche Abbildung modelliert. Dadurch werden alle Programmstellen der Methode auf Einträge abgebildet, die
entweder leer sind oder aus einem oder mehreren Tupeln bestehen. Diese Tupel wiederum bestehen aus einem bei Null beginnenden Index und aus einem
3.2. DIE ZERTIFIZIERUNGSPHASE
37
Element aus dem Grundkomponentenverband. Die Indizes bezeichnen wie oben
beschrieben entweder lokale Variablen oder Kellerelemente des Schachteltyps.
E. Rose schlägt vor, statt des Typindex eine Typdifferenz zu speichern. Diese
Differenz bezeichnet, um wieviele Stufen ein Typ Richtung ⊥-Symbol durch die
Anwendung des Zertifikats verändert wird. Für Referenzen bedeutet dies, dass
bei einer Differenz von x ein Typ zu seinem x-ten Obertyp verändert wird. Der
Typ Object und alle Grunddatentypen wie int, float usw. werden bei dieser
Typveränderung zum ⊥-Symbol. Allgemein ist diese Differenz der Abstand der
beiden Typen in dem Verband.
Diese Speicherung der Abstände funktioniert jedoch nur, wenn jeder Typ in
dem Verband einen eindeutigen Typ Richtung ⊥-Symbol besitzt. Das >-Symbol
spielt hier keine Rolle, da dies in der zweiten Phase nicht auftritt. Probleme gibt
es jedoch, wenn in dem Verband der Typ null auftritt, der für eine nicht initialisierte Referenz steht, die beispielsweise durch die Instruktion aconst null
erzeugt wurde. Von der null-Referenz kann es dann in dem Verband mehrere Wege zu dem dem ⊥-Symbol geben. Die Angabe einer Differenz ist somit
nicht mehr eindeutig. Abbildung 3.9 zeigt einen solchen Verband, in dem die
Null-Referenz keinen eindeutigen Weg Richtung ⊥-Symbol besitzt.
null−Referenz
int[]
int
java.lang.Object[]
A
java.lang.Object
Abbildung 3.9: Ein Verband mit der null-Referenz
Diese Differenzen sind auch problematisch, wenn die leichtgewichtige Verifikation um Schnittstellen erweitert werden soll. Bei Schnittstellen gibt es Mehrfachvererbung und somit kann ein Typ auch mehrere Obertypen besitzen.
Neben den Schachteltypeinträgen benötigt das Zertifikat noch eine Menge
von Programmstellen, für die während der Überprüfungsphase Schachteltypen
zwischengespeichert werden müssen. Diese Schachteltypen werden im Laufe des
Überprüfungsalgorithmus mehrfach für Vergleiche benötigt. Dieser Algorithmus wird in Abschnitt 3.3.1 beschrieben. Dort werde ich auch näher erläutern,
warum in dem Zertifikat neben den Schachteltypeinträgen zusätzlich diese Liste
von Programmstellen benötigt wird.
Das Zertifikat hat damit folgenden Aufbau:
38
KAPITEL 3. KONZEPTION
zert ∈ Zertifikat = Eintraege × Markierungen
f in
l ∈ Markierungen = Programmstellen −→ (true | false)
Die Markierungen bezeichnen die oben erwähnten zu speichernden Schachteltypen. Diese werden ähnlich wie die Einträge über eine endliche Abbildung
modelliert.
Um die einzelnen Einträge des Zertifikats zu bestimmen, ist es am einfachsten, den Überprüfungsalgorithmus der zweiten Phase direkt nach der Datenflussanalyse einmal durchzuführen. Dabei wird das Zertfikat durch einen Vergleich der aus der Datenflussanalyse ermittelten und der während der Ausführung des Überprüfungsalgorithmus bestimmten Schachteltypen erzeugt. Wenn
die beiden Schachteltypen unterschiedlich sind, ist ein Eintrag im Zertifikat notwendig. Ähnlich verhält es sich mit den Markierungen. Die Programmstellen,
deren Schachteltyp später noch einmal benötigt werden, werden während der
Ausführung des Algorithmus markiert. Am Ende lässt sich aus den Markierungen und den Schachteltypunterschieden das gewünschte Zertifikat erzeugen.
3.3
Die Überprüfungsphase
Java−Klassendatei
Zertifikat
Bytecode−Überprüfung
(Algorithmus von E.Rose)
Abbruch Nein
Verband
Datenstruktur für Schachteltypen mit
Abbildung gemäß Bytecode−
Semantik auf Typebene
Zertifikat
gültig?
Ja
Ausführung auf JVM
Abbildung 3.10: grober Ablauf der Bytecode-Überprüfung
Die zweite Phase benutzt das Zertifikat aus der ersten Phase, um die in
der Datenflussanalyse berechneten Typinformationen zu rekonstruieren. Der
Bytecode wird einmal sequentiell durchlaufen. An den Stellen, an denen die
Datenflussanalyse mehrere Durchläufe gebraucht hat, um die Typinformationen
zu berechnen, existieren entsprechende Einträge in dem Zertifikat. Bild 3.10
zeigt, dass auch hier der Verband aus der ersten Phase sehr wichtig für die
Überprüfung ist.
3.3. DIE ÜBERPRÜFUNGSPHASE
39
Da die Gültigkeit der aus dem Zertifikat rekonstruierten Typen überprüft
wird, sind die Zertifikate fälschungssicher, d.h. durch geschickt geänderte Zertifikate lässt sich ein typunsicheres Programm nicht durch die Überprüfungsphase
schleusen. Diese Phase führt im wesentlichen die letzte Iteration der Datenflussanalyse durch, ohne alle Schachteltypen zwischenzuspeichern. Insbesondere wird geprüft, ob alle Instruktionen mit den rekonstruierten Schachteltypen
ausführbar sind. Es wird also in dieser Phase eine Beweisüberprüfung im Sinne
des Proof-Carrying Code durchgeführt.
Ein formaler Beweis der Korrektheit und Fäschungssicherheit der Überprüfung würde die Äquivalenz der zweiten Phase mit der normalen BytecodeVerifikation nachweisen. Dazu ist selbstverständlich eine Formalisierung der normalen Bytecode-Verifikation und der leichtgewichtigen Verifikation notwendig.
Das dazu notwendige Vorgehen werde ich in Kapitel 4 skizzieren.
3.3.1
Der Überprüfungsalgorithmus
Der folgende Algorithmus ist aus [RR98] entnommen. Die wesentlichen Datenstrukturen neben dem Zertifikat und dem Bytecode sind zwei Mengen, die
gemerkte und zurückgestellte Schachteltypen mit ihrer zugehörigen Programmstelle enthalten.
Der Algorithmus speichert die rekonstruierten Typen nur in Ausnahmefällen.
Das heißt, dass im Optimalfall nur der aktuelle Schachteltyp im Speicher gehalten wird. Jedoch können z.B. bedingte Sprünge dazu führen, dass Schachteltypen später noch einmal für Vergleiche benötigt werden. Diese Schachteltypen
werden dazu in der Menge gemerkt abgespeichert. Auf diese Menge greift der
Algorithmus zurück, wenn der Bytecode einen Rücksprung in bereits geprüfte
Bereiche enthält. Dann muss nämlich geprüft werden, ob der aktuelle Schachteltyp mit dem Schachteltyp des Sprungziels kompatibel ist. Diese Prüfung
kann natürlich erst dann durchgeführt werden, wenn beide Schachteltypen bekannt sind. Es muss also grundsätzlich bei Instruktionen, die zwei verschiedene
Vorgängerinstruktionen besitzen, ein Schachteltyp zwischengespeichert werden.
Der Schachteltyp der zuerst besuchten Vorgängerinstruktion wird mit seiner
Programmstelle in der Menge gemerkt gespeichert, der andere Schachteltyp
wird später der aktuelle Schachteltyp sein. Abbildung 3.11 zeigt dazu ein Beispiel. Hierbei handelt es sich um ein if-then-else-Konstrukt. Die Programmstelle 11 muss dabei gespeichert werden, weil diese beim Bearbeiten von Block
4 noch einmal benötigt wird. Hier muss geprüft werden, ob der Ergebnisschachteltyp von Programmstelle 10 zu dem vorher berechneten Eingangsschachteltyp
von Programmstelle 11 kompatibel ist.
Welche Stellen mit ihrem Schachteltyp konkret gespeichert werden müssen,
wird in dem Zertifikat angegeben. Der Algorithmus kann nicht vorhersehen,
welche Schachteltypen später noch einmal benötigt werden, ohne das ganze Programm betrachtet zu haben. Fehlt dem Algorithmus bei der späteren Prüfung
die gemerkte Programmstelle (in diesem Beispiel die Programmstelle 11 mit
ihrem Schachteltyp) zum Vergleich der Schachteltypen, so wird die Methode
als unsicher zurückgewiesen.
An diesem Beispiel ist auch die Prüfreihenfolge zu erkennen. Bei beding-
40
KAPITEL 3. KONZEPTION
boolean boolsches_nicht ( boolean x ) {
if ( x ) x = false;
else x = true;
return x;
}
1
2
4:
5:
6:
0:
1:
iconst_0
istore_0
goto −> 11
3
iload_0
ifeq −> 9
4
Block 4 wird zuletzt geprüft
9: iconst_1
10: istore_0
11: iload_0
12: ireturn
Vergleich der
Schachteltypen
von Anweisung
10 und 11
Abbildung 3.11: Beispiel für eine zu merkende Programmstelle
ten Sprüngen setzt der Algorithmus die Überprüfung beim direkten Nachfolger
fort, falls dieser noch nicht geprüft wurde. Damit auch das bedingte Sprungziel nicht vergessen wird, wird dieses zusammen mit dem Schachteltyp in der
Menge zurueckgestellt gespeichert. Hier wäre das die Programmstelle 9. Wenn
es von einer Instruktion keinen direkten Nachfolger gibt, wie z.B. ein return,
dann bedient sich der Algorithmus aus der Menge zurueckgestellt, um die als
nächstes zu prüfende Programmstelle mit ihrem Schachteltyp zu ermitteln.
Die fertig geprüften Programmstellen werden in einer Menge geprueft gesammelt, bis alle Instruktionen der Methode abgearbeitet wurden. Der Algorithmus ist fertig, wenn alle Programmstellen in der Menge geprueft vorhanden
sind.
Es werden somit folgende Datenstrukturen während der Überprüfungsphase
benötigt:
gemerkt, zurueckgestellt ∈ Pruefliste = (Programmstellen × Schachteltyp)
geprueft ∈ PruefMenge = P(Programmstellen)
p ∈ Programmstellen ∪ {⊥}
Die im Algorithmus verwendeten Programmstellen werden durch ein weiteres Symbol ⊥ erweitert, um anzuzeigen, dass eine Instruktion kein bedingtes
Sprungziel enthält oder wenn eine Instruktion keinen Nachfolger besitzt wie
beispielsweise return.
Als Eingabe erhält der Algorithmus folgende Informationen:
• Die Klassenhierarchie, um Schachteltypen vergleichen zu können
• Den Namen der Klasse, zu der die zu prüfende Methode gehört, um den
Schachteltyp der ersten Instruktion bestimmen zu können.
3.3. DIE ÜBERPRÜFUNGSPHASE
41
• Den Konstantenbereich
• Die Methode selbst, insbesondere die Signatur, den Ergebnistyp, die Anzahl lokaler Variablen, die maximale Größe des Kellers und die Instruktionen der Methode.
In der folgenden Beschreibung entspricht C(p) der Instruktion an Programmstelle p.
Die meisten dieser Informationen werden für die Entscheidung benötigt, ob eine
Instruktion mit dem aktuellen Schachteltyp ausgeführt werden kann.
Es folgt die Beschreibung der einzelnen Schritte des Algorithmus, der in
Abbildung 3.12 zu sehen ist. die Anweisungen AKZEPTIERT und ABGELEHNT beenden den Algorithmus.
1. Initialisierung
Die drei Mengen gemerkt, zurueckgestellt und geprueft werden mit der
leeren Menge, p wird mit der ersten Programmstelle und f t mit dem sich
aus der Methodensignatur ergebenen ersten Schachteltyp initialisiert.
2. Benutze Zertifikat
Der aktuelle Schachteltyp f t wird gemäß den Informationen im Zertifikat
angepasst, falls ein Eintrag vorhanden ist. Falls der aktuelle Schachteltyp
laut Zertifikat später benötigt wird (Die Menge Markierungen enthält
einen Eintrag für diese Programmstelle), wird (p, f t) der Menge gemerkt
hinzugefügt.
3. Prüfe Bedingungen der Instruktionen
Es wird geprüft, ob die aktuelle Instruktion C(p) mit dem aktuellen
Schachteltyp f t ausgeführt werden kann (Passende Typen auf dem Keller und in den lokalen Variablen, keine Überschreitung der maximalen
Kellergröße, usw.). Falls die Instruktion nicht ausgeführt werden kann,
dann wird die Methode ABGELEHNT.
4. Prüfe zurückgestellte Bedingungen
Falls der Algorithmus auf eine zurückgestellte Programmstelle trifft, werden die Schachteltypen verglichen. Falls f t nicht schwächer definiert ist
als f t 0 wird die Methode ABGELEHNT, ansonsten konnte die zurückgestellte Programmstelle erfolgreich überprüft werden und der Eintrag
(p 0 , f t 0 ) wird aus der Menge zurueckgestellt entfernt.
5. Instruktion erfolgreich geprüft
Die aktuelle Programmstelle p wird zu der Menge der schon geprüften
Instruktionen geprueft hinzugefügt.
6. Bestimme und verarbeite mögliche Fortsetzungsstellen
Falls die aktuelle Instruktion C(p) kein goto und kein return ist und somit einen direkten Nachfolger besitzt, dann ergeben sich p1 und f t1 durch
42
KAPITEL 3. KONZEPTION
1. gemerkt := ; geprueft := ∅; zurueckgestellt := ;
C := Bytecode der Methode;
p := 0;
ft := initialer Schachteltyp gemäß Methodenparameter ;
2. ft := δ(p)(ft);
if p ∈ Markierungen then gemerkt := gemerkt ∪ (p, ft) fi;
3. if not InstruktionAusfuehrbar(p, ft) then ABGELEHNT fi;
4. for each (p, ft’) ∈ zurueckgestellt do
if ft 6v ft’ then ABGELEHNT;
zurueckgestellt := zurueckgestellt \ (p, ft’)
od;
5. geprueft := geprueft ∪ p;
6. (p1 , ft1 ) := PrimaererNachfolger(C, p, ft);
(p2 , ft2 ) := SekundaererNachfolger(C, p, ft);
if p1 6= ⊥ and p1 6∈ geprueft then
p := p1 ; ft := ft1 ; p1 := ⊥
elseif p2 6= ⊥ and p2 6∈ geprueft then
p := p2 ; ft := ft2 ; p2 := ⊥
elseif (p’, ft’) ∈ zurueckgestellt then
p := p’; ft := ft’;
zurueckgestellt := zurueckgestellt \ (p’, ft’)
else p := ⊥
fi;
7. if p1 6= ⊥ and p1 ∈ geprueft then
if (p1 , ft’) 6∈ gemerkt then ABGELEHNT fi;
if (p1 , ft’) ∈ gemerkt and ft’ 6v ft1 then ABGELEHNT fi
fi;
8. if p2 6= ⊥ then
if p2 ∈ geprueft then
if (p2 , ft’) 6∈ gemerkt then ABGELEHNT fi;
if (p2 , ft’) ∈ gemerkt and ft’ 6v ft2 then ABGELEHNT fi
else
zurueckgestellt := zurueckgestellt ∪ (p2 , ft2 )
fi
fi;
9. if p = ⊥ then
if geprueft = AlleProgrammstellenDerMethode then AKZEPTIERT
else ABGELEHNT fi
else
goto 2
fi;
Abbildung 3.12: Der Algorithmus zur leichtgewichtigen Bytecode-Überprüfung
3.3. DIE ÜBERPRÜFUNGSPHASE
43
Ausführung der Instruktion und Fortsetzung bei der direkten Nachfolgeinstruktion von C(p). p1 wird als primäre Fortsetzungsstelle bezeichnet.
f t1 ist der Schachteltyp, der sich aus f t durch Ausführung der Instruktion ergibt. Gibt es keine primäre Fortsetzungsstelle, so wird p1 = ⊥ und
f t1 = f t gesetzt.
Ist C(p) eine Sprunginstruktion (bedingt oder unbedingt), dann wird
das Sprungziel in p2 geschrieben und f t2 ist der Schachteltyp, der durch
Ausführung der aktuellen Instruktion auf dem Schachteltyp f t entstanden ist. p2 wird als sekundäre Fortsetzungsstelle bezeichnet. Wenn es keine
sekundäre Fortsetzungsstelle gibt, wird p2 = ⊥ und f t2 = f t gesetzt.
Die nächste zu prüfende Programmstelle wird nun folgendermaßen bestimmt:
• Ist p1 6= ⊥ und p1 noch nicht geprueft, dann setze p = p1 , f t = f t1
und schließlich p1 = ⊥ (Benutze die primäre Fortsetzungsstelle, falls
diese noch nicht geprüft wurde).
• Andernfalls falls p2 6= ⊥ und p2 noch nicht geprueft, dann setze
p = p2 , f t = f t2 und schließlich p2 = ⊥ (Benutze die sekundäre
Fortsetzungsstelle, falls die primäre schon geprüft wurde und die
sekundäre noch nicht).
• Andernfalls falls es noch zurueckgestellte Instruktionen gibt, wähle
ein Element (p 0 , f t 0 ) aus zurueckgestellt und setze p = p 0 und f t =
f t 0 (Falls sowohl primäre als auch sekundäre Fortsetzungsstelle schon
geprüft wurden, benutze eine zurückgestellte Programmstelle).
• Andernfalls setze p = ⊥ (Es wurde keine ungeprüfte Fortsetzungsstelle gefunden).
7. Prüfe gemerkte primäre Fortsetzungsstelle
Falls die primäre Fortsetzungsstelle p1 existiert und schon geprüft wurde,
dann muss ein Element (p1 , f t 0 ) in der Menge gemerkt vorhanden sein
und f t1 muss schwächer definiert sein als f t 0 . Andernfalls wird die Methode ABGELEHNT. p1 ist somit eine Programmstelle, die mehrere
Vorgänger besitzt.
8. Prüfe gemerkte oder stelle noch nicht gemerkte Fortsetzungsstellen zurück
• Falls die sekundäre Fortsetzungsstelle p2 existiert und noch nicht
geprüft wurde, dann wird p2 mit dem Schachteltyp f t2 zur Menge
zurueckgestellt hinzugefügt.
• Falls die sekundäre Fortsetzungsstelle p2 existiert, aber schon geprüft
wurde, dann muss ein Element (p2 , f t 0 ) in der Menge gemerkt vorhanden sein und f t2 muss schwächer definiert sein als f t 0 . Trifft dies
nicht zu, dann wird die Methode ABGELEHNT. p2 ist somit eine
Programmstelle, die mehrere Vorgänger besitzt.
44
KAPITEL 3. KONZEPTION
9. Terminiere oder Iteriere
Gibt es keine ungeprüfte Fortsetzungsstelle (p = ⊥) und sind alle Programmstellen überprüft worden (die Menge geprueft enthält alle Programmstellen der Methode), dann wird die Methode AKZEPTIERT.
Gibt es keine ungeprüfte Fortsetzungsstelle, aber es wurden noch nicht
alle Programmstellen geprüft, dann wird die Methode ABGELEHNT.
Dies könnte ein Hinweis auf nicht erreichbaren Code sein. Gibt es eine
Fortsetzungsstelle in p dann wird die Überprüfung in Schritt 2 fortgesetzt.
Da der Algorithmus nur eine sekundäre Fortsetzungsstelle unterstützt, werden die Instruktionen tableswitch und lookupswitch, die im Allgemeinen
mehr als ein Sprungziel enthalten, nicht unterstützt. Desweiteren können Ausnahmen nicht abgefangen werden. Jede Instruktion, die durch eine Ausnahmebehandlung geschützt ist und theoretisch eine Ausnahme auslösen kann,
hätte die erste Instruktion der Ausnahmebehandlung (exception handler) als
sekundäre Fortsetzungsstelle. Eine mögliche Erweiterung des Algorithmus werde ich in Abschnitt 3.4 diskutieren.
Komplexität des Algorithmus
Die Zeitkomplexität ist linear bezüglich der Länge des zu prüfenden Bytecodes.
Jede der Anweisungen 2-9 wird für jede Bytecode-Instruktion der Methode
höchstens einmal ausgeführt, weil in jeder Iteration eine Instruktion der Menge
geprueft hinzugefügt wird. Der Algorithmus terminiert spätestens, wenn alle
Instruktionen der Methode geprüft wurden. Sind die Mengenoperationen in
konstanter Zeit durchzuführen, so ist der Gesamtaufwand linear.
Die entscheidende Frage bei der Platzkomplexität ist die Größe der beiden
Mengen gemerkt und zurueckgestellt. Die Menge zurueckgestellt enthält Schachteltypen von Instruktionen, die einen sekundären Vorwärtssprung auf noch nicht
geprüfte Instruktionen besitzen. Wieviele Elemente diese Menge maximal enthalten wird, hängt von dem Bytecode ab. Im schlimmsten Fall kann diese Menge linear mit der Bytecode-Größe wachsen. Die Größe der Menge gemerkt ist
durch die Markierungen-Einträge des Zertifikats vorgegeben. Auch hier könnte
die Größe der Menge linear mit der Bytecode-Größe wachsen. Der bei der praktischen Anwendung anfallende Speicherplatzbedarf des Algorithmus kann daher
nur durch einen intensiven Test mit möglichst vielen verschiedenen Klassen bestimmt werden. In Kapitel 6 werde ich auf die Ergebnisse dieser Evaluierung
näher eingehen.
Es folgen nun zwei Beispiele, die die Anwendung der leichtgewichtigen Verifikation illustrieren sollen.
3.3.2
Beispiel 1
Die folgende Methode zur Berechnung des größten gemeinsamen Teilers zweier
Zahlen nach dem Euklidischen Algorithmus soll zertifiziert werden:
3.3. DIE ÜBERPRÜFUNGSPHASE
45
static int ggt(int a, int b) {
int x = a, y = b, z;
while (y != 0 ) {
z = x % y;
x = y;
y = z;
}//while
return x;
}
Datenflussanalyse
Das Ergebnis der Datenflussanalyse der übersetzten Methode ist in Abbildung
3.13 zu sehen.
Instruktionen
lokale Variablen
Keller
0
1
2
3
4
iload_0
istore_2
iload_1
istore_3
goto 17
int
int
int
int
int
int
int
int int
int int
int int int
ε
int
ε
int
ε
7
8
9
2 10
12
13
14
16
iload_2
iload_3
irem
istore 4
iload_3
istore_2
iload 4
istore_3
int
int
int
int
int
int
int
int
int
int
int
int
int
int
int
int
ε
int
int,int
int
ε
int
ε
int
1
int
int
int
int
int
int
int
int
int
int
int
int
int
int
int
int
int
int
int
int
3
17
18
iload_3
ifne 7
int int int int
int int int int
ε
int
4
21
22
iload_2
ireturn
int int int int
int int int int
ε
int
Abbildung 3.13: Ergebnis der Datenflussanalyse für das Beispiel größter ge”
meinsamer Teiler“
Die interessanteste Stelle ist hier die Programmstelle 17, die die beiden
Vorgängerinstruktionen 16 und 4 besitzt. Die beiden Schachteltypen der Instruktionen 16 und 4 werden gemäß der u-Operation des Verbandes kombiniert,
so dass im Schachteltyp der Programmstelle 17 die fünfte lokale Variable statt
eines int-Typs das ⊥-Symbol enthält.
Kompression des Zertifikats
Hier wird nun der Überprüfungsalgorithmus durchgeführt (vgl. Abbildung 3.12),
wobei die von der Datenflussanalyse berechneteten Schachteltypen benutzt werden. Während der Überprüfung wird das Zertifikat erzeugt. In Schritt 2 werden
statt des Zertifikats – was ja hier noch gar nicht existiert – die vollständigen
Schachteltypen aus der Datenflussanalyse benutzt, d.h. die Funktion δ liefert
die Ergebnisse der Datenflussanalyse. Weiterhin wird in diesem Schritt geprüft,
ob sich an der aktuellen Programmstelle p der vom Algorithmus bestimmte
46
KAPITEL 3. KONZEPTION
Schachteltyp f t von dem berechneten unterscheidet. Gibt es einen Unterschied,
dann wird ein Zertifikatseintrag aus der Differenz dieser beiden Schachteltypen
erzeugt. Dieser Eintrag hat dann genau die Form wie sie in Abschnitt 3.2.2
beschrieben wurde.
Ähnlich verhält es sich mit den Markierungen. Während der Kompressionphase enthält die Menge gemerkt alle Programmstellen der Methode. Das führt
dazu, dass in Schritt 7 und 8 niemals eine zum Vergleich nötige Programmstelle
fehlt. Muss ein Schachteltypvergleich in Schritt 7 oder 8 durchgeführt werden,
dann wird die entsprechende Programmstelle in dem Zertifikat zu der Liste der
Markierungen hinzugefügt.
Für das Beispiel ergibt sich nun folgendes: Der Algorithmus arbeitet die
Blöcke in der Reihenfolge 1, 3, 4, 2 ab. Die goto-Instruktion in Block 1 lässt den
Algorithmus in Stelle 17 fortführen. Nach dem Erreichen der return-Instruktion
setzt der Algorithmus wieder an Stelle 7 fort, die vorher in die Menge zurueckgestellt geschrieben wurde.
Die vom Algorithmus bestimmten Schachteltypen sind mit denen aus der
Datenflussanalyse identisch. Daher sind die Schachteltypeinträge des Zertifikats leer. Bei der zuletzt geprüften Programmstelle 16 ist der direkte Nachfolger schon geprüft worden. Das heißt, dass der Schritt 7 des Algorithmus einen
gemerkten Eintrag benötigt und diesen mit dem Schachteltyp vergleicht, der
durch die Ausführung der Instruktion an Programmstelle 16 entsteht. Aus diesem Grund gibt es in dem Zertifikat einen Eintrag in den Markierungen. Das
Zertifikat hat somit folgenden Inhalt:
Markierungen =
Typenliste =
Eintraege =
{17}
{}
{}
Überprüfung
Die Überprüfung funktioniert nun ähnlich wie die Kompression. Es wird hier
jedoch ausschließlich das Zertifikat zur Überprüfung benutzt. Die Instruktionen werden in der gleichen Reihenfolge wie bei der Kompression geprüft (siehe
Abbildung 3.14).
In Schritt 2 wird der Schachteltyp f t nicht verändert, da keine Schachteltypeinträge in dem Zertifikat vorhanden sind. Die delta-Funktion entspricht also
der identischen Abbildung. Bei Abarbeitung der Programmstelle 17 wird wegen
der Markierung im Zertifikat der Schachteltyp dieser Programmstelle gemerkt.
In Schritt 3 wird die Ausführbarkeit der Instruktionen mit dem aktuellen
Schachteltyp geprüft. Die Bedingung in Schritt 4 tritt nicht ein, da der Algorithmus auf keine zurückgestellte Instruktion trifft. Jede geprüfte Instruktion
wird in Schritt 5 zur Menge geprueft hinzugefügt.
In Schritt 6 wird mit zwei Ausnahmen immer die primäre Fortsetzungsstelle p1 als nächste zu überprüfende Stelle gewählt. Die Ausnahmen sind die
goto-Instruktion und die return-Instruktion. Bei der goto-Instruktion wird die
sekundäre Fortsetzungsstelle benutzt – also der Sprung zur Programmstelle 17.
3.3. DIE ÜBERPRÜFUNGSPHASE
Instruktionen
Reihenfolge und Bemerkung
0
1
2
3
4
iload_0
istore_2
iload_1
istore_3
goto 17
7
8
9
10
2 12
13
14
16
iload_2
iload_3
irem
istore 4
iload_3
istore_2
iload 4
istore_3
3 17
18
iload_3
ifne 7
Schachteltyp 17 gemäß Zertifikat merken (Schritt 2)
Sprungziel 7 und Schachteltyp zurückstellen (Schritt 8)
4 21
22
iload_2
ireturn
zurückgestellten Schachteltyp benutzen (Schritt 6)
1
47
sekundären Nachfolger benutzen (Schritt 6)
Schachteltypvergleich mit gemerktem Typ von Stelle 17 (Schritt 7)
Akzeptieren (Schritt 9)
Abbildung 3.14: grober Ablauf des Überprüfungsalgorithmus für das Beispiel
größter gemeinsamer Teiler“
”
Die return-Instruktion hat weder eine primäre noch eine sekundäre Fortsetzungsstelle und der Algorithmus bedient sich aus den zurückgestellten Schachteltypen.
Der Algorithmus stellt bei der Überprüfung von Programmstelle 16 in Schritt
7 fest, dass die primäre Nachfolgeprogrammstelle 17 schon geprüft wurde und
führt daher einen Schachteltypvergleich mit dem von Programmstelle 17 gemerkten Schachteltyp durch. Dieser Schachteltyp wurde in Schritt 2 gemerkt.
Weil bei der Prüfung von Programmstelle 18 der sekundäre Nachfolger 7
noch nicht geprüft wurde, stellt Schritt 8 diesen Nachfolger mit dem aktuellen
Schachteltyp zurück damit diese Programmstelle später geprüft wird.
Der Algorithmus akzeptiert schließlich nach Abarbeitung der Programmstelle 16 die Methode.
Was dieses Beispiel auch andeutet, ist die Tatsache, dass die Zertifikate und
auch der Speicherbedarf während der Überprüfung von der Überprüfungsreihenfolge abhängen. Dies bedeutet, dass sich durch geschickte Änderung der
Reihenfolge, in der die einzelnen Programmblöcke geprüft werden, der Speicherplatzbedarf des Algorithmus unter Umständen reduzieren lässt. Dazu ist
eine Erweiterung der Zertifikate notwendig, damit dort die Prüfreihenfolge angegeben werden kann. Die Änderung der Reihenfolge kann auch dazu führen,
dass mehr Schachteltypen in den Zertifikaten gespeichert werden müssen. Daher
wird dieser mögliche Speicherplatzgewinn durch größere Zertifikate erkauft.
48
3.3.3
KAPITEL 3. KONZEPTION
Beispiel 2
Dieses zweite nicht ganz so praxisnahe Beispiel soll dazu dienen, ein Zertifikat
zu erzeugen, dessen Schachteltypeinträge nicht leer sind:
void test(int
if ( x ==
float
} else {
int y
}
}
x) {
0 ) {
y = 0;
= 0;
Die Datenflussanalyse liefert die in Abbildung 3.15 gezeigten Schachteltypen.
Instruktionen
lokale Variablen
Keller
0
1
iload_1
ifne 9
A
A
int
int
ε
int
4
5
6
fconst_0
fstore_2
goto 11
A
A
A
int
int
int float
ε
float
ε
9
10
iconst_0
istore_2
A
A
int
int
ε
int
11
return
A
int
ε
Abbildung 3.15: Ergebnis der Datenflussanalyse für das zweite Beispiel und die
Überprüfungsreihenfolge
Die Instruktion 11 besitzt als Vorgänger die Instruktionen 10 und 6. Die
lokale Variable 2 erhält durch Instruktion 10 einen int-Typ und durch Instruktion 6 einen float-Typ. Da ab Programmstelle 11 der Typ der lokalen
Variable 2 nicht mehr eindeutig ist, befindet sich dort das ⊥-Symbol. Dies ist
durch die u-Operation des Verbandes entstanden. Denn es gilt (A, int, float)u
(A, int, int) = (A, int, ⊥). Nach der Prüfreihenfolge wird die Programmstelle
11 vor der Programmstelle 10 geprüft. Dies bedeutet, dass an dieser Stelle der
Algorithmus noch gar nicht wissen kann, dass die Instruktion an Programmstelle 10 später einen int-Typ in die lokale Variable 2 schreiben wird. Da die
Bestimmung der Schachteltypen für jede Instruktion genau einmal durchgeführt
wird, ist hier ein Schachteltypeintrag in dem Zertifikat notwendig.
Desweiteren benötigt der Algorithmus beim Prüfen der Programmstelle 10
den Schachteltyp der Nachfolgeprogrammstelle 11. Somit ergibt sich als Zertifikat:
Markierungen =
Typenliste =
Eintraege =
{11}
{0 → ⊥}
{11 → {(2, 0)}}
3.4. ERWEITERUNGEN
3.3.4
49
Zusammenfassung
Dieser Ansatz muss im Gegensatz zur herkömmlichen Datenflussanalyse keine
Fixpunktsuche durchführen und somit auch nicht den Schachteltyp jeder Programmstelle im Speicher halten. Für alle Programmstellen, deren Schachteltyp
nicht bei einem sequentiellen Durchlauf durch den Bytecode bestimmt werden
kann, enthält das Zertifikat eine Differenz zwischen dem tatsächlichen Schachteltyp und dem Schachteltyp, der bei dem sequentiellen Durchlauf bestimmt
wurde.
Bei der Betrachtung des benötigten Speicherplatzes ist nicht nur die Größe
des Zertifikats entscheidend, sondern auch der Speicherbedarf während der
Überprüfung. Insbesondere Schachteltypen, die während der Überprüfung gespeichert werden, spielen hier eine große Rolle. Aufschluss über den tatsächlichen Speicherplatzbedarf kann nur eine ausführliche Evaluierung liefern, die
möglichst viele Methoden testet und deren Speicherbedarf bei der Überprüfung
misst. Weitere Überlegungen und die Ergebnisse der Evaluierung werde ich in
Kapitel 6 vorstellen.
3.4
Erweiterungen
Der Ansatz von Eva Rose [Ro98] unterstützt nur eine Untermenge der Instruktionen der JVM [JVM96] bzw. der JCVM [JCVM]. Insgesamt werden nur die
folgenden 24 Instruktionen abgedeckt:
aconst null
iload
pop
ifle
areturn
invokevirtual
iconst 0
aload
dup
ifnull
return
invokespecial
iconst 1
istore
iadd
goto
getfield
new
ldc w
astore
isub
ireturn
putfield
checkcast
In diesem Abschnitt werde ich daher einige Erweiterungen diskutieren mit
dem Ziel, den vollständigen Befehlssatz der JVM zu unterstützen. Dabei soll
nicht jede fehlende Instruktion einzeln dargestellt werden, sondern ich werde
mich auf die Beschreibung der dahinterstehenden Konzepte beschränken und
deren Integration in den bestehenden Ansatz erläutern.
3.4.1
triviale Erweiterungen
Viele der nicht unterstützten Instruktionen lassen sich problemlos integrieren.
Diese werde ich daher zuerst abhandeln.
Die Instruktionen iadd und isub verhalten sich auf Typebene gleich oder
ähnlich wie alle anderen arithmetischen Instruktionen auch. Unterschiede gibt
es bei der benötigten Anzahl und Art der Typen auf dem Keller. Beispielsweise benötigt die Instruktion ineg nur einen Operanden vom Typ int auf dem
Keller. An weiteren Typen gibt es bei den arithmetischen Instruktionen neben
int noch float, long und double. Etwas komplizierter sind die mehrwortigen
50
KAPITEL 3. KONZEPTION
Datentypen long und double, die ich in dem Abschnitt 3.4.5 über mehrwortige
Datentypen behandeln werde.
Ähnlich verhält es sich mit den bedingten Sprüngen. Alle Instruktionen
der Form ifhcondi sind auf Typebene mit der Instruktion ifle identisch. In
jedem Fall wird ein int-Typ vom Keller genommen. Die Instruktion ifnotnull
entspricht der ifnull-Instruktion, die eine Referenz vom Keller nimmt.
Abgesehen von tableswitch und lookupswitch sind die übrigen bedingten
Sprünge sehr ähnlich zu den bereits unterstützen Instruktionen. Diese Instruktionen unterscheiden sich nur darin, wieviele und welche Typen sie auf dem
Keller erwarten.
Der entscheidene Unterschied bei tableswitch und lookupswitch ist die
Tatsache, dass diese Instruktionen Sprünge zu mehr als einer Programmstelle erlauben. Es gibt also mehrere sekundäre Fortsetzungsstellen. Der Überprüfungsalgorithmus unterstützt jedoch nur eine einzige sekundäre Fortsetzungsstelle.
Wie der Algorithmus anzupassen ist, um mehrere sekundäre Fortsetzungsstellen zu unterstützen, werde ich in Abschnitt 3.4.4 erläutern.
Die Typumwandlungsbefehle wie z.b. i2l oder f2i erwarten einen bestimmten Typ auf dem Keller und ersetzen diesen durch einen anderen Typ. Abgesehen von den mehrwortigen Datentypen stellen diese Instruktionen auch keine
große Herausforderung dar.
Die übrigen Instruktionen der JVM sind entweder ähnlich einfach einzubinden oder lassen sich mit den konzeptionellen Erweiterungen der folgenden
Abschnitte realisieren.
3.4.2
Reihungen (arrays)
Um Reihungen zu unterstützen, ist eine Erweiterung des Grundkomponentenverbands notwendig (vgl. 3.2.1). Jede Reihung besitzt einen Basistyp und eine
Dimension größer als Null. Jeder Grunddatentyp und jede Klasse kann Basistyp
einer Reihung sein. Es folgen einige Beispiele:
Reihung
int[]
int[][]
Object[]
String[][]
String[][][]
Basistyp
int
int
Object
String
String
Dimension
1
2
1
2
3
Der Grundkomponentenverband, den E. Rose bei ihrem Ansatz benutzt,
besteht aus den Typen int, ⊥, > und Klassen. Dieser Verband ist nun um Reihungen zu erweitern. Dazu muss definiert werden, welche Beziehungen zwischen
den neuen Elementen in dem Verband bestehen. Ich werde diese Beziehungen
über die durch den Verband induzierte partielle Ordnung beschreiben. Zur Erinnerung: Es gilt x v y ⇔ x u y = x.
3.4. ERWEITERUNGEN
51
1. Es sei r eine Reihung. Dann gilt Object v r
2. Es sei r eine Reihung. Dann gilt r v Nullreferenz
3. Zwischen Reihungen mit gleicher Dimension gelten die gleichen Beziehungen wie zwischen den Basistypen
4. Sei od eine Reihung vom Basistyp Object mit Dimension d. Sei rd+1 eine
beliebige Reihung mit Dimension d + 1. Es gilt dann od v rd+1
Ein Beispiel für einen derartig erweiterten Verband zeigt die Abbildung 3.16.
null
int[]
java.lang.String[][][]
java.lang.Object[][][]
int[][]
java.lang.String[]
java.lang.String[][]
int
java.lang.Object[][]
java.lang.Object[]
java.lang.String
java.lang.Object
Abbildung 3.16: Beispiel für einen um Reihungen erweiterten Grundkomponentenverband
3.4.3
Ausnahmebehandlungen
Ausnahmen werden in Java durch try-catch-Blöcke abgefangen. Tritt innerhalb des try-Blocks eine Ausnahme auf, wird die Ausführung der Methode beim
nächsten zu der Ausnahme passenden catch-Block fortgesetzt. Gibt es in der
52
KAPITEL 3. KONZEPTION
aktuellen Methode keinen passenden catch-Block, so wird die Ausnahme an die
aufrufende Methode weitergereicht und dort die Suche nach einem passenden
Ausnahmebehandlungsblock fortgesetzt.
Der Java-Übersetzer übersetzt diese Blöcke in sogenannte Ausnahmetabellen
(exception tables) und Ausnahmebehandlungen (exception handler). Bei den
Ausnahmebehandlungen handelt es sich um normalen Bytecode, der Teil der
zugehörigen Methode ist.
Die Ausnahmetabellen sind Methodenattribute und bestehen aus ggf. mehreren Einträgen mit drei Programmstellen und einem Ausnahmetyp: Die ersten
beiden Programmstellen definieren den Anfang und das Ende des geschützten
Bereichs. Die dritte Programmstelle bezeichnet den Anfang der Ausnahmebehandlung und der Typ gibt schließlich an, welcher Ausnahmetyp durch diese
Ausnahmebehandlung abgefangen wird. Wenn in einem Bereich mehrere verschiedene Arten von Ausnahmen abgefangen werden sollen, existieren in der
Ausnahmentabelle mehrere Einträge mit den gleichen Anfangs- und Endprogrammstellen.
Der Ansatz von E. Rose würde die Ausnahmebehandlungsblöcke als nicht
erreichbaren Bytecode ansehen und damit die Methode zurückweisen. Damit
diese Methoden akzeptiert werden, müssten alle Instruktionen, die durch einen
solchen Block geschützt sind und eine Ausnahme auslösen könnten, die erste
Instruktion jeder passenden Ausnahmebehandlung als sekundäre Nachfolgeinstruktion besitzen. Dies verhält sich aus Sicht der Datenflussanalyse wie ein
bedingter Sprung. Abbildung 3.17 zeigt dazu ein Beispiel.
static int test (int x) {
try {
return 10 / x;
} catch ( Exception ex ) {
return 0;
}
}
0: bipush 10
2: iload_0
3: idiv
4:
ireturn
5:
6:
7:
Ausnahmentabelle
Anfang Ende
Ziel
0
5
5
Typ
java.lang.Exception
astore_1
iconst_0
ireturn
Abbildung 3.17: Beispiel für eine Ausnahmebehandlung, die durch idiv ausgelöst werden kann
Die einzige Instruktion zwischen den Programmstellen 0 und 5 (dabei zählt
die Instruktion 5 nicht mehr zu dem geschützten Bereich), die eine Ausnahme
auslösen kann, ist die Instruktion idiv. Ist der Divisor gleich Null so wird eine
ArithmeticException ausgelöst. Abgefangen wird diese Ausnahme durch die
Ausnahmebehandlung ab Programmstelle 5.
Einige Instruktionen können mehrere verschiedene Ausnahmen auslösen und
3.4. ERWEITERUNGEN
53
von verschiedenen Ausnahmebehandlungen abgefangen werden. Dies kann zum
Beispiel ein Methodenaufruf mit invokevirtual sein. Dann gibt es von dieser
Instruktion mehr als zwei Nachfolger. Der primäre Nachfolger ist die nächste
Instruktion, die ausgeführt wird, wenn keine Ausnahme auftritt. Die anderen
Nachfolgeinstruktionen sind die ersten Instruktionen aller möglichen Ausnahmebehandlungen in der aktuellen Methode. Das Problem hier ist, dass der
Überprüfungsalgorithmus nur eine sekundäre Fortsetzungsstelle unterstützt. Es
bestehen hier also die gleichen Schwierigkeiten wie bei den bedingten Sprunginstruktionen tableswitch und lookupswitch.
Typsemantisch geschieht beim Auslösen einer Ausnahme folgendes: Der Keller wird geleert und mit einer Referenz auf den Typ der aufgetretenen Ausnahme gefüllt. Die lokalen Variablen bleiben erhalten. D.h. die lokalen Variablen
der ersten Instruktion der Ausnahmebehandlung sind eine Zusammenfassung
aller lokalen Variablen der möglichen auslösenden Programmstellen. Bei der
Datenflussanalyse ist dies kein größeres Problem. Jedoch müsste sich der Überprüfungsalgorithmus für jede dieser Vorgängerinstruktionen einen Schachteltyp
merken, falls die Ausnahmebehandlung noch nicht überprüft wurde (in der Menge zurueckgestellt in Schritt 8 des Algorithmus). Dies könnte sehr schnell den
verfügbaren Speicher der Javacard übersteigen, vor allem wenn eine Ausnahmebehandlung von vielen Stellen aus aufgerufen werden kann.
Eine Lösung für dieses Problem wäre, den Algorithmus so zu modifizieren, dass die Ausnahmebehandlungen grundsätzlich zuerst geprüft werden. Dies
würde zwar einen vollständigen Schachteltypeintrag im Zertifikat für die erste
Instruktion des Ausnahmebehandlung erfordern, würde aber im Gegenzug den
Speicherbedarf während der Überprüfungsphase reduzieren. Gerade bei längeren Bereichen, die durch eine oder mehrere Ausnahmebehandlungen geschützt
sind, würde dies zu einer größeren Reduzierung des Speicherplatzbedarfs führen.
3.4.4
Instruktionen mit mehr als einem Sprungziel
Es gibt drei Situationen, in denen eine Instruktion mehr als zwei Nachfolgeinstruktionen haben kann:
1. Durch die Instruktion tableswitch. In Abbildung 3.18 ist ein Beispiel zu
sehen, in dem die Programmstelle 1 vier Nachfolgeinstruktionen besitzt.
2. Durch die Instruktion lookupswitch. Dies ist sehr ähnlich zur Instruktion tableswitch. Der einzige Unterschied ist die Art und Weise wie die
Fortsetzungsstellen in der Instruktion gespeichert werden.
3. Durch Instruktionen, die mehr als eine Ausnahme auslösen können und
durch mehrere Ausnahmebehandlungen geschützt sind. Dies sind beispielsweise Methodenaufrufe, die new-Instruktion oder Instruktionen für
den Zugriff auf Reihungen.
Für diese drei Fälle ist eine Erweiterung des Überprüfungsalgorithmus notwendig, da dieser nur maximal zwei Fortsetzungsstellen pro Instruktion unterstützt. Dabei muss die Berechnung der sekundären Fortsetzungsstelle an-
54
KAPITEL 3. KONZEPTION
0 iload_1
1 tableswitch 0 to 2: default=43
0: 38
1: 33
2: 28
28 iconst_3
29 istore_2
30 goto 45
33 iconst_2
34 istore_2
35 goto 45
38 iconst_1
39 istore_2
40 goto 45
43 iconst_0
44 istore_2
45 return
Abbildung 3.18: die Instruktion tableswitch besitzt mehr als zwei Fortsetzungsstellen
gepasst werden. Der Algorithmus muss hier statt einer einzigen Fortsetzungsstelle eine Menge von Fortsetzungsstellen berechnen. Diese Berechnung ist für
tableswitch und lookupswitch einfach, da die möglichen Fortsetzungsstellen
als Operanden in der Instruktion enthalten sind. Für die Ausnahmen hingegen
muss zuerst geprüft werden, ob die aktuelle Instruktion eine Ausnahme auslösen
kann und ob sie durch eine Ausnahmebehandlung geschützt ist. Die erste Instruktion der Ausnahmebehandlung ist dann eine sekundäre Fortsetzungsstelle.
Bei Instruktionen, die zwar Ausnahmen auslösen können, aber keine Ausnahmebehandlung in der aktuellen Methode besitzen, brauchen die Ausnahmen
nicht berücksichtigt zu werden. Denn beim Auslösen einer Ausnahme wird die
Methode sofort beendet und die lokalen Variablen und der Keller der Methode
sind nicht mehr zugreifbar.
Gibt es zu einer Instruktion genau eine Ausnahmebehandlung, dann lässt
sich diese Instruktion wie eine bedingte Sprunginstruktion ansehen. Die primäre
Fortsetzungsstelle ist die direkte Nachfolgeinstruktion, die ausgeführt wird,
wenn keine Ausnahme auftritt. Die sekundäre Fortsetzungsstelle entspricht der
ersten Instruktion der Ausnahmebehandlung.
Mehr als zwei Fortsetzungsstellen gibt es somit nur, wenn es entweder in einer Methode mindestens zwei Ausnahmebehandlungen gibt oder die Instruktionen tableswitch bzw. lookupswitch verwendet werden. In Abbildung 3.19 ist
ein Beispiel zu sehen, in dem ein Programmstück durch zwei Ausnahmebehandlungen geschützt ist. Die einzige Instruktion, die beide Ausnahmen auslösen
kann, ist die invoke-Instruktion.
Neben der Berechnung der sekundären Fortsetzungsstellen muss der Überprüfungsalgorithmus noch an den Stellen erweitert werden, an denen die sekundäre Fortsetzungsstelle verwendet wird. Auch hier muss statt einer einzigen
Fortsetzungsstelle eine Menge von Fortsetzungsstellen benutzt werden. Dies ist
einmal an der Stelle, wo die als nächstes zu prüfende Instruktion bestimmt wird
(Schritt 6) und zum anderen dort, wo die sekundären Sprungziele mit gespeicherten Schachteltypen verglichen und ggf. zurückgestellt werden (Schritt 8).
3.4. ERWEITERUNGEN
55
static int test1 ( int x ) {
try {
test2(x);
return 10 / x;
} catch ( ArithmeticException ex ) {
return 0;
} catch ( Exception ex ) {
return 1;
}
}
0 iload_0
1 invokestatic #3
4
5
7
8
9 ireturn
pop
bipush 10
iload_0
idiv
10 astore_1
11 iconst_0
12 ireturn
Ausnahmentabelle
von
bis
Ziel
0
0
10
10
10
13
Ausnahmetyp
java.lang.ArithmeticException
java.lang.Exception
13 astore_2
14 iconst_1
15 ireturn
Abbildung 3.19: Beispiel für mehrere Ausnahmebehandlungen in einer Methode
Jede Verwendung von p2 muss ersetzt werden durch die Verwendung von jedem
Element aus der Menge der sekundären Sprungziele.
Bei Ausnahmen ist noch eine weitere Besonderheit zu berücksichtigen: Wenn
eine Ausnahme ausgelöst wird, wird der Operandenkeller geleert und eine Referenz der ausgelösten Ausnahme auf den Keller abgelegt. Dies bedeutet, dass im
Gegensatz zu den sekundären Nachfolgern von tableswitch und lookupswitch
bei Ausnahmen nicht nur mehrere sekundäre Fortsetzungsstellen zu merken
sind, sondern auch verschiedene Schachteltypen möglich sind. Diese Schachteltypen müssen glücklicherweise nicht zwischengespeichert werden, sondern können
bei Bedarf über die Ausnahmentabelle ermittelt werden. Sie unterscheiden sich
von dem direkten Nachfolgeschachteltypen nur in dem Operandenkeller. Es wird
die Nachfolgeprogrammstelle, die ja bei einer Ausnahmebehandlung der ersten
Instruktion dieser Ausnahmebehandlung entspricht, in der Ausnahmentabelle
nachgeschlagen und deren Ausnahmetyp bildet dann das einzige Element des
Operandenkellers.
Die Schachteltypen der Ausnahmebehandlungen aus dem Beispiel aus Abbildung 3.19 werden daher folgendermaßen bestimmt: Die lokalen Variablen
der beiden sekundären Nachfolgeinstruktionen von Programmstelle 1 besitzen
die gleichen Typen in den lokalen Variablen wie der primäre Nachfolger. Der
Operandenkeller für den Sprung von Programmstelle 1 nach 10 enthält den
Typ ArithmeticException und der Sprung von 1 nach 13 enthält den Typ
Exception. Ähnliches gilt für den einzigen sekundären Nachfolger der idivInstruktion. Die lokalen Variablen des Schachteltyps für Programmstelle 10
stimmen mit dem primären Nachfolger von Programmstelle 9 überein und der
Operandenkeller enthält wieder nur den Typ aus der Ausnahmentabelle. Abbildung 3.20 zeigt diese Bestimmung des Schachteltyps der ersten Instruktion
56
KAPITEL 3. KONZEPTION
einer Ausnahmebehandlung. Eigentlich dürften die lokalen Variablen nicht vom
primären Nachfolger genommen werden, sondern von der auslösenden Instruktion selbst. Da aber Ausnahmen auslösende Instruktionen die lokalen Variablen
nicht modifizieren, ist dies nicht weiter tragisch. Bei der Betrachtung des modifizierten Überprüfungsalgorithmus fällt auf, dass der Schachteltyp der auslösenden Instruktion gar nicht mehr verfügbar ist, wenn die Schachteltypen der Ausnahmen benötigt werden. Aus diesem Grund werden die lokalen Variablen des
Schachteltyps des primären Nachfolgers benutzt.
0 iload_0
1 invokestatic #3
lokale Variablen
4
5
7
8
pop
bipush 10
iload_0
idiv
int
lokale Variablen
9 ireturn
int
Keller
int
lokale Variablen
13 astore_2
14 iconst_1
15 ireturn
Keller
int
lokale Variablen
10 astore_1
11 iconst_0
12 ireturn
int
int
Keller
Exception
Keller
ArithmeticException
Abbildung 3.20: Beispiel für die Bestimmung der Schachteltypen bei Sprüngen
in Ausnahmebehandlungen
Es folgen nun die modifizierten Schritte 6 und 8 des Überprüfungsalgorithmus. Dabei wird eine neue Funktion SchachteltypAusnahmebehandlung
benutzt. Diese Funktion modifiziert den Keller eines Schachteltyp mit Hilfe der
Ausnahmentabelle, falls die übergebene Programmstelle die erste Instruktion
einer Ausnahmebehandlung ist. Andernfalls wird der übergebene Schachteltyp
unverändert zurückgegeben.
6. (p1 , ft1 ) := PrimaererNachfolger(C, p, ft);
(P2 , ft2 ) := SekundaererNachfolger(C, p, ft);
if p1 6= ⊥ and p1 6∈ geprueft then
p := p1 ; ft := ft1 ; p1 := ⊥
elseif P2 6= ∅ and ∃ p’ ∈ P2 mit p’ 6∈ geprueft then
p := p’; ft := SchachteltypAusnahmebehandlung(p’, ft2 );
P2 := P2 \ p’
elseif (p’, ft’) ∈ zurueckgestellt then
p := p’; ft := ft’;
zurueckgestellt := zurueckgestellt \ (p’, ft’)
else p := ⊥
fi;
(∗ )
Die wesentlichste Änderung besteht hier in der Tatsache, dass die Funktion SekundaererNachfolger statt einer Programmstelle eine Menge von Programmstellen zurückgibt. Bei der Bestimmung der als nächstes zu prüfenden
3.4. ERWEITERUNGEN
57
Programmstelle muss daher auch in der durch (∗ ) markierten Zeile eine noch
nicht geprüfte Programmstelle aus dieser Menge benutzt werden.
Der zweite zu ändernde Schritt ist der Schritt 8. Hier müssen alle Anweisungen, die vorher mit der einen sekundären Fortsetzungsstelle durchgeführt
wurden, mit allen in der Menge P2 enthaltenen Programmstellen durchgeführt
werden. Dabei wird jedes Element der Menge nach der Bearbeitung aus dieser
Menge entfernt bis die Menge leer ist.
8. while ∃ p’ ∈ P2 do
ft’’ := SchachteltypAusnahmebehandlung(p’, ft2 );
if p’ ∈ geprueft then
if (p’, ft’) 6∈ gemerkt then ABGELEHNT fi;
if (p’, ft’) ∈ gemerkt and ft’ 6v ft’’ then ABGELEHNT fi
else
zurueckgestellt := zurueckgestellt ∪ (p’, ft’’)
fi
P2 := P2 \ p’
od
Es stellt sich nun die Frage nach der Laufzeit. Wie ich weiter oben bereits
erwähnt habe, enthält diese Menge P2 nur dann mehr als ein Element, wenn
entweder die Instruktionen tableswitch bzw. lookupswitch benutzt werden
oder wenn eine Instruktion mehrere Ausnahmen auslösen kann und durch mehr
als eine Ausnahmebehandlung geschützt ist. Diese Bedingungen dürften nicht
sehr häufig eintreten und schon gar nicht für alle Instruktionen einer Methode.
Daher wird sich in der Praxis die Laufzeit nicht wesentlich erhöhen, da die
Menge P2 in den meisten Fällen weniger als zwei Elemente enthält.
3.4.5
mehrwortige Datentypen
Die Datentypen long und double belegen im Gegensatz zu den anderen Datentypen zwei Worte auf dem Operandenkeller und in den lokalen Variablen. Wird
ein long- oder ein double-Wert mit den Instruktionen lstore bzw. dstore
in einer lokalen Variable gespeichert, so belegen diese Werte tatsächlich zwei
lokale Variablen. Um die Typsicherheit zu gewährleisten, muss der Zugriff mit
einwortigen Instruktionen auf diese beiden Worte verhindert werden.
Ähnlich verhält es sich mit dem Operandenkeller. Kellerinstruktionen, die
mit einwortigen Werten operieren, dürfen keinesfalls die Integrität von zweiwortigen Werten beschädigen. Zum Beispiel darf die dup-Instruktion nicht ausgeführt werden, wenn die obersten beiden Worte auf dem Operandenkeller einen
long- oder einem double-Wert repräsentieren.
Um diesen Zugriff zu verhindern, müssen long und double-Typen in zwei
Typen aufgeteilt werden, die jeweils die beiden einzelnen Worte dieser Doppelworte repräsentieren. Bild 3.21 zeigt den entsprechend erweiterten Grundkomponentenverband, der um die beiden Elemente *long2* und *double2*
ergänzt wurde. Diese beiden neuen Typen stehen für den zweiten Teil eines
double- bzw. long-Typs.
58
KAPITEL 3. KONZEPTION
*long2*
double
int
*double2*
long
A
java.lang.Object
Abbildung 3.21: Der für mehrwortige Typen erweiterte Grundkomponentenverband
Wie diese neuen Typen von den mehrwortigen Instruktionen verwendet werden, zeigt das Beispiel in Abbildung 3.22. Zu Beginn befinden sich in den ersten beiden lokalen Variablen ein long-Wert, der als Parameter an die Methode übergeben wurde. Dieser wird durch die erste Instruktion lload 0 auf den
Operandenkeller abgelegt. Es befinden sich dann zwei Worte auf dem Keller,
die die beiden Teilworte des long-Wertes repräsentieren. Bei der Ausführung
von Kellerinstruktionen, die mit einzelnen Worten operieren, kann nun der
Zugriff auf Teilworte erkannt und verhindert werden. Beispielsweise darf die
pop-Instruktion an dieser Stelle nicht verwendet werden. An Programmstelle
1 wird nun eine Konstante vom Typ long auf dem Keller abgelegt. Die beiden Doppelworte auf dem Keller werden nun multipliziert. Das Ergebnis dieser
Multiplikation wird schließlich als Methodenergebnis zurückgegeben.
static long mal_zwei (long l) {
long x = l * 2;
return x;
}
lokale Variablen
Instruktionen
0
0
1
4
5
6
7
lload_0
ldc2_w 2
lmul
lstore_2
lload_2
lreturn
long
long
long
long
long
long
1
2
3
*long2*
*long2*
*long2*
*long2*
*long2* long *long2*
*long2* long *long2*
Keller
*long2*, long
*long2*, long, *long2*, long
*long2*, long
*long2*, long
Abbildung 3.22: Beispiel für die Verwendung mehrwortiger Typen
3.4.6
Objektinitialisierung
Die Erstellung neuer Objekte führt die Java Virtual Machine in zwei Phasen durch. Die erste Phase reserviert Speicherplatz für das Objekt durch den
Aufruf der Instruktion new. Die zweite Phase ruft dann zu einem späteren
3.4. ERWEITERUNGEN
59
Zeitpunkt den Konstruktor mit invokespecial auf, um das noch nicht initialisierte Objekt zu initialisieren. Zwischen der new- und der entsprechenden
invokespecial-Instruktion können beliebige Befehle stehen, die aber keinesfalls ein noch nicht initialisierte Objekt benutzen dürfen. So darf diese Referenz
nicht nicht in Feldern anderer Objekte gespeichert oder als Methodenergebnis
zurückgegeben werden. Auch die Methoden und Felder dieses Objektes dürfen
nicht benutzt werden.
Die Überprüfung dieser beiden Phasen und die Einhaltung der Zugriffsbeschränkungen auf das noch nicht initialisierte Objekt wird dadurch erschwert,
dass die Referenz auf das Objekt mehrfach auf dem Keller abgelegt wird. Es
ist weiterhin möglich, dass die uninitialisierte Referenz in einer lokalen Variable
abgelegt wird. Nach dem Aufruf der Konstruktormethode dürfen sämtliche Referenzen nicht mehr als uninitialisiert angesehen werden. Desweiteren können
mehrere verschiedene uninitialisierte Objekte des gleichen Typs auf dem Keller
abgelegt werden, die zu unterschiedlichen Zeitpunkten zu initialisierten Objekten werden. Um dieses Problem zu verdeutlichen, soll die main-Methode der
folgenden Klasse betrachtet werden:
public class A {
protected A previous;
A(A prev) { previous = prev; }
static public void main ( String[] args ) {
A a = new A(new A(null));
}
}
Die Besonderheit an dieser Klasse A ist, dass der Konstruktor eine Referenz auf
ein Objekt der eigenen Klasse als Parameter erhält. Damit lassen sich new-Aufrufe
schachteln. Diese Schachtelung wird in der main-Methode benutzt. Der Bytecode dieser main-Methode und der entsprechende Kellerinhalt vor Ausführung der Instruktion
sind in folgender Tabelle abgebildet:
0
3
4
7
8
9
12
15
16
Instruktion
new Class A
dup
new Class A
dup
aconst null
invokespecial Method A(A)
invokespecial Method A(A)
astore 1
return
Kellerinhalt
A
A,
A,
A,
A,
A,
A
A
A,
A,
A,
A,
A
A, A
A, A, null
A
Nach Abarbeitung der Programmstelle 9 ist das zuerst erzeugte Objekt vollständig
initialisiert. Nach Programmstelle 12 ist das zweite Objekt A durch den KonstruktorAufruf initialisiert. Wie sich an diesem Beispiel leicht erkennen lässt, müssen die beiden
Referenzen auf dem Keller unterschieden werden, solange sie uninitialisert sind. Dies
60
KAPITEL 3. KONZEPTION
wird durch ein Zusatzinformation erreicht, die den Typ um die Programmstelle ergänzt,
an der das Objekt erzeugt wurde:
0
3
4
7
8
9
12
15
16
Instruktion
new Class A
dup
new Class A
dup
aconst null
invokespecial Method A(A)
invokespecial Method A(A)
astore 1
return
Kellerinhalt
A0
A0 ,
A0 ,
A0 ,
A0 ,
A0 ,
A
A0
A0 ,
A0 ,
A0 ,
A0 ,
A4
A4 , A4
A4 , A4 , null
A
Bemerkung
A4 → A
A0 → A
Der Index muss nach Aufruf des Konstruktors bei allen Typen der aktuellen Schachtel mit dem entsprechenden Index entfernt werden. Nach Ausführung von Programmstelle 9 müssen also der Keller und die lokalen Variablen durchsucht und jedes A4 durch
A ersetzt werden. Ähnliches geschieht an Programmstelle 12, an der jedes Auftreten
von A0 im aktuellen Schachteltyp durch A ersetzt wird.
Diese Indizierung mit den Programmstellen scheitert, wenn eine new-Instruktion in
einer Schleife aufgerufen wird, ohne den Konstruktur aufzurufen. Dies erzeugt nämlich
unterschiedliche Referenzen, die sich beim Konstruktoraufruf und den damit verbundenem Zustandswechsel von unitialisiert nach initialisiert nicht unterscheiden lassen.
Aus diesem Grund dürfen nach der JVM-Spezifikation bei einem Rückwärtssprung
keine nicht initialisierten Objekte existieren. Dies Einschränkung garantiert, dass in
Schleifen niemals mehrere uninitialisierte Objekte erzeugt werden. Ein ähnliches Problem existiert bei Ausnahmen. Wird eine Instruktion durch eine Ausnahme geschützt,
dann dürfen keine uninitialisierte Objekte in den lokalen Variablen existieren. Der Keller bleibt hier unberücksichtigt, weil dieser beim Auslösen einer Ausnahme geleert wird.
Desweiteren muss bei Konstruktormethoden berücksichtigt werden, dass die thisReferenz in der lokalen Variable 0 ein noch nicht initialisiertes Objekt darstellt. Erst
wenn eine Konstruktormethode derselben Klasse oder einer Oberklasse aufgerufen wird,
wechselt der Zustand von unitialisiert zu initialisiert. Dies muss bei der Bestimmung
des Schachteltyps der ersten Programmstelle berücksichtigt werden.
Es müssen also folgende Erweiterungen durchgeführt werden, um die Objektinitialisierung zu verifizieren:
1. Die Grundtypen – im speziellen die Referenzen – müssen zusätzliche Informationen über die Programmstelle enthalten, an der das zugehörige Objekt erzeugt
wurde. In dem Grundkomponentenverband müssen diese Typen unterschieden
werden. Wenn also ein Objekt A in einer Methode an verschiedenen Stellen erzeugt wird, gibt es für A insgesamt drei Typen in dem Verband: Der initialisierte
Typ und zwei uninitialisierte Typen, die durch die Programmstelle unterschieden werden, an denen sie erzeugt wurden. Abbildung 3.23 zeigt den entsprechend
erweiterten Verband für die main-Methode aus dem letzten Beispiel.
2. Bei der Bestimmung des ersten Schachteltyps von Konstruktor-Methoden muss
die this-Referenz – also die lokale Variable 0 – ein nicht initialisiertes Objekt
referenzieren.
3. Instruktionen innerhalb von Bereichen, die von Ausnahmen geschützt sind, dürfen
keine uninitialisierten Objekte in den lokalen Variablen enthalten.
3.5. SCHLUSSFOLGERUNG
[email protected]
*uninit*
61
[email protected]
*null*
java.lang.String[]
java.lang.Object[]
java.lang.String
A
java.lang.Object
Abbildung 3.23: Beispiel für einen Verband, in dem nicht initialisierte und initialisierte Typen unterschieden werden
4. Die Transferfunktion für die new-Instruktion muss den auf dem Keller abgelegten
Typ um die aktuelle Programmstelle ergänzen.
5. Die Transferfunktion für invokespecial entfernt die Programmstelleninformationen wieder, falls damit ein Konstruktor aufgerufen wird. Dazu wird die Programmstelleninformation der Referenz, die dieser Instruktion übergebenen wurde, gelesen und bei allen Typen, die sich in der aktuellen Schachtel befinden und
die gleiche Programmstelleninformation besitzen, entfernt. Enthält die übergebene Referenz keine Programmstelleninformation, so ist das Objekt schon initialisiert worden und der Konstruktor darf keinesfalls ein zweites Mal aufgerufen
werden.
6. Alle Sprunginstruktionen mit einem Rückwärtssprung müssen prüfen, ob eine
nicht initialisierte Referenz im aktuellen Schachteltyp vorhanden ist. Ist dies der
Fall, dann ist die Methode fehlerhaft.
7. Alle Transferfunktionen, die auf Objektreferenzen zugreifen – wie beispielsweise
getfield, putfield, invokeinterface, invokevirtual oder areturn – dürfen
nur ausgeführt werden, wenn das referenzierte Objekt bereits vollständig initialisiert wurde. Eine Ausnahme bilden hier die Konstruktoren. Hier dürfen die
Felder des noch nicht initialisierten Objekts bereits beschrieben werden, obwohl
der Oberklassenkonstruktor noch nicht aufgerufen wurde.
3.5
Schlussfolgerung
Das besondere an dem Ansatz von E. Rose ist, dass der Hauptaufwand in den Sicherheitsrichtlinien – also dem Typmodell der JVM – steckt. Die Zertifikate sind nicht be-
62
KAPITEL 3. KONZEPTION
sonders kompliziert aufgebaut, da es sich lediglich um Typinformationen handelt. Dafür
ist die Erstellung der Zertifikate umso aufwändiger. Der Aufwand ist nämlich genauso
groß wie der Aufwand der herkömmlichen Bytecode-Verifikation. Die Überprüfung der
Zertifikate lässt sich dafür relativ schnell durchführen und kommt mit wenig Speicher
aus. Abgesehen von Unterprogrammen lässt sich das Verfahren der leichtgewichtigen
Verifikation so erweitern, dass damit eine vollständige Bytecode-Verifikation durchgeführt werden kann.
Kapitel 4
Korrektheit
Die Korrektheit der beiden Phasen der leichtgewichtigen Verifikation lässt sich nur
durch eine Formalisierung aller beteiligten Komponenten nachweisen. Dazu ist die
herkömmliche Bytecode-Verifikation, die leichtgewichtige Verifikation und insbesondere die Semantik der Bytecodeinstruktionen auf Typebene zu formalisieren.
In diesem Abschnitt werde ich keinen vollständigen Beweis führen. Der Grund dafür
ist, dass die Beweisführung wesentlich davon abhängt, ob die herkömmliche BytecodeVerifikation richtig formalisiert wurde. Da Sun die Verifikation jedoch nur informal
beschreibt, lässt sich nicht exakt sagen, ob ein Modell der Verifikation exakt der virtuellen Maschine von Sun entspricht. E. Rose hat in [Ro98] einen Beweis für die von
ihr behandelte Bytecode-Untermenge geliefert. Darüberhinaus hat sie eine vollständige
Beschreibung der statischen und dynamischen Semantik der in dem Beweis benutzten
Java-Bytecode-Untermenge angegeben.
Da in dieser Arbeit der Schwerpunkt auf der Implementierung und Evaluierung
liegt, werde ich diesen Beweis nur grob skiziieren. Dieser Beweis ist in ähnlicher Form
in [RR98] zu finden. Darüberhinaus sollen einige der Erweiterungen aus Kapitel 3.4 in
den Beweis integriert werden.
Im folgenden werde ich zuerst ein Modell der herkömmlichen Verifikation aufstellen. Danach wird eine formale Beschreibung der Zertifizierung und der leichtgewichtigen
Verifikation benötigt, um schließlich die Äquivalenz dieser beiden Verifizierer nachzuweisen. Dieses Modell wird in der Notation der Natural Semantics (siehe 2.4) formuliert.
Es wird ein Regelsystem beschrieben, mit dem sich ein Beweis für die Durchführbarkeit
der Verifikation erzeugen lässt.
4.1
Die herkömmliche Bytecode-Verifikation
Die folgende Beschreibung drückt die herkömmliche Verifikation auf eine etwas ungewohnte Art aus. Hier wird davon ausgegangen, dass die Schachteltypen für alle
Programmstellen bereits bekannt sind und nur die Korrektheit dieser Schachteltypen
geprüft wird. Vom logischen Standpunkt aus macht dies keinen Unterschied. Diese ungewöhnliche Beschreibung der Verifikation macht die Beweisführung jedoch einfacher.
Zunächst sollen die Grundbausteine wie der Konstantenbereich und die anderen
benötigte Datenstrukturen beschrieben werden.
63
64
4.1.1
KAPITEL 4. KORREKTHEIT
Der Konstantenbereich
Einige Instruktionen benötigen Parameter, die nicht in den Bytecode eingebettet werden können. Diese befinden sich daher im Konstantenbereich. Neben Zahlen enthält
der Konstantenbereich auch Methodenreferenzen und Feldreferenzen. Andere Einträge
des Konstantenbereichs wie Zeichenketten werden hier nicht modelliert.
Die Feldreferenzen werden von den Instruktionen getfield und putfield benötigt.
Die Instruktionen invokevirtual oder invokespecial benutzen die Methodenreferenzen, um die aufzurufenden Methoden zu ermitteln.
cp ∈ Konstantenbereich
it ∈ Item
int ∈ Integer = Z
f ref ∈ FeldReferenz
cid ∈ KlassenID
id ∈ Bezeichner
mt ∈ MaschinenTyp
mref ∈ MethodenReferenz
msig ∈ MethodenSignatur
rmt ∈ Ergebnistyp
::= it∗
::= int | f ref | mref
::= fieldref(cid, id, mt)
::=
::=
::=
::=
int | cid
methref(cid, msig, rmt)
methsig(id, mt∗ )
void | mt
Auf den Konstantenbereich kann mittels cp(i) zugegriffen werden. Das erste Element wird mit cp(0) angesprochen. Eine Feldreferenz besteht aus einer Klasse, einem
Feldnamen und einem Typ. Eine Methodenreferenz besteht aus einer Klasse, einer Signatur und einem Ergebnistyp. Der Ergebnistyp kann neben Referenz und Grundtyp
auch vom Typ void sein. Die Signatur gibt den Namen der Methode an und bestimmt,
welche Parameter mit welchen Typen die Methode besitzt.
Damit Erweiterungen wie Reihungen oder weitere Grunddatentypen berücksichtigt
werden, ist hier der MaschinenTyp zu ergänzen:
mt ∈ MaschinenTyp ::= gt | arrayid | cid
gt ∈ Grunddatentyp ::= int | f loat | double | double2 | long | long2
f loat, double, double2 ∈ Real = Q
long, long2 ∈ Integer = Z
arrayid ∈ Bezeichner
Die beiden zweiwortigen Datentypen long und double sind hier, wie im Konzeptionskapitel beschrieben, in zwei Komponenten aufgeteilt. Für die Reihungen sind zwei
Funktionen notwendig, die die Dimension und den Basistyp einer Reihung bestimmen.
4.1.2
Schachteltypen
Jeder Programmstelle der Methode wird nun genau ein Schachteltyp zugeordnet. Es
ergibt sich also eine endliche Abbildung von Programmstellen auf Schachteltypen:
4.1. DIE HERKÖMMLICHE BYTECODE-VERIFIKATION
md ∈ MethodentypDeskriptor
f t ∈ Schachteltyp
st ∈ Kellertyp
lvt ∈ LokaleVariablenTyp
=
=
=
=
65
f in
Programmstellen −→ Schachteltyp
Kellertyp × LokaleVariablenTyp
MaschinenTyp ∗
(MaschinenTyp | ⊥)∗
Jede Programmstelle der Methode besitzt nicht mehr als einen Schachteltyp, weil
die JVM-Spezifikation vorschreibt, dass der Keller an jeder Programmstelle die gleiche
Tiefe besitzt, unabhängig davon, durch welchen Programmpfad diese Programmstelle
erreicht wurde. Die Anzahl der lokalen Variablen ist innerhalb einer Methode konstant
und somit für jede Programmstelle in der Methode gleich. Etwas komplizierter wird
dies innerhalb von Unterprogrammen, aber die sollen hier – wie zuvor beschrieben –
nicht behandelt werden.
Die Schachteltypen sind ähnlich definiert wie der Verband der Datenflussanalyse aus Abschnitt 3.2.1 und werden aus einfacheren Elementen zusammengesetzt. Der
Schachteltyp ergibt sich daher aus einem Kellertyp und einem Typ für die lokalen
Variablen.
Man beachte, dass der Keller nicht das ⊥-Symbol enthalten kann. Dies ist nach
JVM-Spezifikation nicht zulässig. Der Keller muss an jeder Programmstelle Werte von
eindeutig bestimmbaren Typen enthalten. Das aus dem Verband bekannte >-Element
tritt hier nicht auf, weil dieses nur als Zwischenergebnis bei der Datenflussanalyse
benutzt wird. Hier wird nur das Ergebnis dieser Datenflussanalyse modelliert. Zur
Erinnerung: Das >-Symbol bezeichnet in der Datenflussanalyse Elemente, deren Typ
noch nicht bekannt ist, weil diese von anderen ebenfalls noch nicht bekannten Typen
abhängen.
Schließlich wird noch die Relation definiert, die ich schon vorher als die auf einem Verband induzierte partielle Ordnung erwähnt habe. E. Rose nennt diese Relation
schwächer definiert“ und wird folgendermaßen in der Notation der Natural Semantics
”
mit Hilfe der Unterklassenrelation ≤: definiert:
cid2 ≤: cid1
cid1 v cid2
⊥ v mt
Das rechte Axiom definiert das ⊥-Symbol als kleinstes Element. mt kann hier –
wie weiter oben definiert – eine Klasse oder ein Grundtyp sein. Durch die rechte Regel
wird ein Zusammenhang zwischen der Unterklassenbeziehung ≤: und der Relation v
festgelegt. Zwischen zwei Klassen cid1 und cid2 gilt die Relation cid1 v cid2 , wenn cid1
eine Oberklasse von cid2 ist oder cid1 = cid2 gilt.
Diese Relation müsste nun entsprechend den Erweiterungen aus Kapitel 3.4 ergänzt
werden. Die dort beschriebenen Erweiterungen des Grundkomponentenverbands müssen
auf diese Relation übertragen werden. Dies soll aus Gründen der Übersichtlichkeit hier
nur kurz erwähnt werden. Für Reihungen müssten beispielsweise die vier Regeln aus
Abschnitt 3.4.2 in entsprechenden Regeln formuliert werden. Dabei sind die Funktionen
zur Bestimmung der Dimension und des Basistyps einer Reihung hilfreich.
Diese Relation wird nun auf ganze Schachteltypen erweitert. Dies entspricht genau
der Konstruktion des Schachteltypverbands aus dem Grundkomponentenverband. Die
Elemente zweier Schachteltypen f t1 und f t2 seien folgendermaßen benannt:
f t1 = hmts1 (1) mts1 (2) . . . mts1 (n1 ), mtl1 (1) mtl1 (2) . . . mtl1 (m1 )i ,
f t2 = hmts2 (1) mts2 (2) . . . mts2 (n2 ), mtl2 (1) mtl2 (2) . . . mtl2 (m2 )i
66
KAPITEL 4. KORREKTHEIT
Für Schachteltyp i ist mtsi (j) das j-te Element auf dem Keller und mtli (k) ist die
k-te lokale Variable. Die Relation v für ganze Schachteltypen ist nun folgendermaßen
definiert:
mts1 (1) v mts2 (1) mts1 (2) v mts2 (2) . . . mts1 (n) v mts2 (n)
mtl1 (1) v mtl2 (1) mtl1 (2) v mtl2 (2) . . . mtl1 (m) v mts2 (m)
f t1 v f t 2
mit
n = n1 = n2 , m = m1 = m2
Die beiden Schachteltypen f t1 und f t2 müssen also die gleiche Anzahl Elemente
auf dem Keller und die gleiche Anzahl lokaler Variablen besitzen. Weiterhin gilt die
Relation gilt nur, wenn die Relation v zwischen jedem entsprechenden Typ gilt.
4.1.3
Verifikation
Nun soll die herkömmliche Bytecode-Verifikation formal ausgedrückt werden. Dazu
müssen nur noch die Größe des Kellers und die Anzahl der lokalen Variablen der zu
verifizierenden Methode definiert werden:
ms ∈ MaxStack = N
mlv ∈ MaxLokaleVariablen = N
Als Formel in der Notation der Natural Semantics geschrieben ergibt sich für die
Bytecode-Verifikation folgendes:
≤:, cid, cp ` msig, c, ms, mlv : md
(BV)
Vor dem ` steht der Klassenkontext in Form der Klassenhierarchie, des Klassennamens und des Konstantenbereichs. Die lokalen Informationen der zu prüfenden Methode befinden sich zwischen ` und dem Doppelpunkt. Diese Informationen sind die
Methodensignatur msig, der Bytecode c, die maximale Kellergröße ms und die Anzahl
der lokalen Variablen mlv. Schließlich ist hinter dem Doppelpunkt der Typdeskriptor der Methode zu finden. Wie eingangs beschrieben, ist md an dieser Stelle bereits
bekannt und wird nur auf Korrektheit geprüft. Implizit steckt in dieser Prüfung eine
Konstruktionsanleitung.
Um diese Formel beweisen zu können, werden die folgenden Regeln benötigt.
4.1.4
Methodenprüfung
Methodenprüfung bedeutet zu überprüfen, dass jede in der Methode enthaltene Instruktion ihre Bedingungen erfüllt hat. Dies bedeutet im wesentlichen, dass die Instruktion mit ihrem Schachteltyp ausführbar ist und dass der Keller und die Anzahl
der lokalen Variablen groß genug sind.
h≤; , cp, ms, mlv, rmti ` ∅, 0, c : md → P P
≤; , cid, cp ` msig, c, ms, mlv : md
(4.1)
4.1. DIE HERKÖMMLICHE BYTECODE-VERIFIKATION
67
Wobei folgendes gilt:
msig = methsig(rmt, mt1 . . . mtn )
lvt = {0 7→ cid, 1 7→ mt1 , . . . , n 7→ mtn ,
n + 1 7→ ⊥, . . . , mlv − 1 7→ ⊥}
md(0) v h, lvti
Dom(md) = P P
Man beachte, dass die Konklusion der Methodenprüfung genau der Formel für die
Bytcode-Verifikation (BV) entspricht. Damit diese Konklusion gilt, muss die Prämisse
nachgewiesen werden. Die Anwendbarkeit der Regel 4.1 wird durch einige Bedingungen
eingeschränkt. Sind diese Nebenbedingungen nicht erfüllt, lässt sich die Konklusion
nicht beweisen.
Dom(md) ist die Urbildmenge von md. Dom(md) = P P bedeutet, dass die Abbildung md jedes Element der Menge P P auf einen Schachteltyp abbilden muss. Dies
ist eine Voraussetzung für die Anwendbarkeit dieser Regel. Es müssen also vorher alle Instruktionen geprüft werden, bevor diese Regel bewiesen werden kann. Bei dieser
Instruktionenprüfung wird die Menge P P nach und nach erweitert bis die Programmstellen aller Instruktionen in P P aufgenommen wurden. Die Elemente hier dem Pfeil
→ kann man in dieser und in allen folgenden Regeln als Berechnungsergebnis“ der
”
Regel ansehen.
Desweiteren muss für den Schachteltyp der ersten Instruktion gelten, dass dieser
schwächer definiert“ ist als h, lvti. Dies ist der Schachteltyp, der von der JVM ein”
gerichtet wird, wenn die Methode aufgerufen wird. Die erste lokale Variable lvt(0) ist
eine Referenz auf die Klasse, zu der diese Methode gehört. Statische Methoden werden
also bei diesem Beweis nicht unterstützt. Die Methodenparameter werden ebenfalls als
lokale Variablen verfügbar gemacht und befinden sich hinter der this-Referenz in der
Menge lvt.
4.1.5
Prüfung von Instruktionsfolgen
Zur Vereinfachung wird zunächst die Umgebung der Methode zu dem Symbol Ξ zusammengefasst, weil diese Umgebung innerhalb einer Methode unveränderlich ist und in
den folgenden Regeln immer wieder benötigt wird. Dies erhöht die Lesbarkeit der Regeln. Die Umgebung besteht aus dem Konstantenbereich, der maximalen Kellergröße,
der Anzahl der lokalen Variablen und dem Ergebnistyp der Methode:
Ξ ∈ StatischeMethodenInformation ::= h≤:, cp, ms, mlv, rmti
Nun lässt sich die Instruktionenprüfung folgendermaßen ausdrücken:
Ξ ` pp, i : md → pp 0
Ξ ` P P 0 , pp 0 , c : md → P P 00
Ξ ` P P, pp, i · c : md → P P 00
P P 0 = P P ∪ {pp}
Ξ ` P P, pp, : md → P P
(4.2)
(4.3)
Zwischen ` und : stehen in den Konklusionen drei Elemente: Eine Menge von Programmstellen P P , die aktuelle Programmstelle pp und eine Liste von noch zu prüfenden
Instruktionen. Die Regel (4.2) soll nach und nach die erste Menge mit allen Programmstellen der Methode füllen und dabei die Liste der Instruktionen leeren bis das Axiom
(4.3) erfüllt ist. Der Beginn der Instruktionenprüfung wird durch Regel (4.1) initiiert.
Der obere Teil der Prämisse von Regel (4.2) prüft die Instruktion i an Programmstelle pp. Diese Formel wird im folgenden bei der Prüfung der einzelnen Instruktionen
68
KAPITEL 4. KORREKTHEIT
noch mehrmals auftreten. Gelesen wird die Formel folgendermaßen: Falls im Typkontext Ξ die Instruktion i an Programmstelle pp typsicher im Bezug auf den Methodentypdeskriptor md ist, dann kann an der Zielprogrammstelle pp 0 fortgesetzt werden.
Der untere Teil der Prämisse sorgt für die Prüfung aller Folgeinstruktionen und setzt
die aktuelle Instruktion um einen Schritt von pp auf pp 0 weiter. Dieser Vorgang wird
rekursiv wiederholt, bis der zweite Teil der Prämisse das Axiom (4.3) ergibt. Damit
wäre dann die Konklusion erfüllt und die Instruktionenfolge überprüft.
In P P 0 werden die schon geprüften Programmstellen gesammelt, d.h. nach jeder
Anwendung der Regel (4.2) enthält diese Menge ein Element mehr, und zwar pp. Genau
dieser Sachverhalt wird durch die Nebenbedingung sichergestellt.
4.1.6
einzelne Instruktionen
Für jede Instruktion muss nun eine Regel existieren, die angibt, wie diese Instruktion
verifiziert werden kann. Dies entspricht den Transferfunktionen. Ich werde hier einen
Auszug dieser Regeln vorstellen. Konkret handelt es sich bei diesen Regeln um Axiome
mit Nebenbedingungen.
Zuerst folgen einfache Instruktionen, die nur den Keller modifizieren.
einfache Kellerinstruktionen
(4.4)
Ξ ` pp, i : md → pp 0
Wobei folgendes gilt:
pp 0 = pp + 1
md(pp) = hst, lvti
f t 0 = hst 0 , lvti
md(pp 0 ) v f t 0
|st 0 | < ms
pp 0 ist hier die Nachfolgestelle der Instruktion i an Programmstelle pp. md(pp) ist
der Schachteltyp vor der Ausführung und f t 0 ist der Schachteltyp nach der Ausführung
der Instruktion i. Welche Instruktionen für i stehen können und wie sich bei Ausführung
dieser Instruktion der Keller st 0 aus dem Keller st berechnet, zeigt folgende Tabelle an
ein paar Beispielen:
Instruktion i
iconst 0
iconst 1
aconst null
dup
pop
iadd
isub
dadd
st
st
st
st
st1 · mt
st1 · mt
st1 ·int·int
st1 ·int·int
st1 · double2 · double · double2 · double
st 0
st·int
st·int
st·Object
st1 · mt · mt
st1
st1 ·int
st1 ·int
st1 · double2 · double
Das oberste Element des Kellers steht immer rechts. Der Punkt · verkettet Elemente zu einer Liste. So stellt z.B. die Instruktion iconst 0 einen int-Typ oben auf
den Keller.
Durch die Unterstützung von mehrwortigen Datentypen muss bei der pop-Instruktion
die Integrität dieser Typen durch zusätzliche Bedingungen sichergestellt werden. Es
muss verhindert werden, dass durch eine pop-Instruktion eine einzelne Komponente
eines mehrwortigen Typs vom Keller genommen wird:
4.1. DIE HERKÖMMLICHE BYTECODE-VERIFIKATION
Instruktion i
pop
69
Bedingungen
mt 6= long, mt 6= long2, mt 6= double, mt 6= double2
Etwas interessanter sind Instruktionen, die neben dem Keller auch den Konstantenbereich benötigen und auf Felder und Methoden von Objekten zugreifen.
Objektorientierte Instruktionen
Ξ ` pp, i : md → pp 0
(4.5)
Wobei folgendes gilt:
pp 0 = pp + 3
md(pp) = hst, lvti
f t 0 = hst 0 , lvt 0 i
md(pp 0 ) v f t 0
cp(n) = it
cid ≤: cid 0
|st 0 | < ms
it ist ein Element des Konstantenbereichs und muss entweder eine Feldreferenz
oder eine Methodenreferenz enthalten abhängig davon, welche Instruktion i ausgeführt
werden soll. Folgende Tabelle zeigt wieder, wie die Instruktion den Keller von st nach
st 0 verändert unter Verwendung der Informationen aus dem Konstantenbereich:
Instruktion i
putfield[n]
getfield[n]
invokevirtual[n]
invokevirtual[n]
invokespecial[n]
invokespecial[n]
st
st 0 · cid · mt
st1 · cid
st 0 · cid · mt1 · · · mtj
st1 · cid · mt1 · · · mtj
st 0 · cid · mt1 · · · mtj
st1 · cid · mt1 · · · mtj
st 0
st 0
st1 · mt
st 0
st1 · mt
st 0
st1 · mt
it
fieldref(cid 0 , id, mt)
fieldref(cid 0 , id, mt)
methref(cid 0 , methsig(
methref(cid 0 , methsig(
methref(cid 0 , methsig(
methref(cid 0 , methsig(
, mt1 , . . . , mtj ),void)
, mt1 , . . . , mtj ), mt)
, mt1 , . . . , mtj ),void)
, mt1 , . . . , mtj ), mt)
Die Instruktionen invokevirtual und invokespecial sind zweimal aufgeführt,
weil diese bei vorhandenem und nicht vorhandenem Ergebnistyp unterschiedlich behandelt werden müssen. Der Wert n steht hier für einen Index innerhalb des Konstantenbereichs und ist Teil der Instruktion.
Die Bedingung cid ≤: cid 0 garantiert, dass die dem Keller übergebene Klasse eine
Unterklasse zu der im Konstantenbereich angebenen Klasse ist, so wie es laut JVMSpezifikation gefordert ist.
Die Vorgehensweise bei Methoden ist ähnlich. Hier wird anhand der Methodensignatur geprüft, ob sich alle Parameter mit den passenden Typen auf dem Keller
befinden. Liefert diese Methode einen Rückgabewert, so muss auch dieser Typ mit dem
Keller verglichen werden. An dieser Stelle gibt es eine weitere Vereinfachung, da nach
Spezifikation bei den Methodenparametern statt mti auch eine Unterklasse von mti
als aktueller Parameter verwendet werden könnte. Darauf wird in dieser Modellierung
verzichtet.
Nun folgen bedingte Sprunginstruktionen.
70
KAPITEL 4. KORREKTHEIT
bedingte Sprunginstruktionen
Ξ ` pp, i : md → pp 0
(4.6)
Wobei folgendes gilt:
md(pp) = hst, lvti
pp 0 = pp + 3
f t 0 = hst 0 , lvti
md(pp 0 ) v f t 0
pp 00 = pp + n
md(pp 00 ) v f t 0
Die Instruktion i modifiziert dabei den Keller folgendermaßen:
Instruktion i
ifle[n]
ifnull[n]
st
st 0 · int
st 0 · cid
Beide Instruktionen nehmen also genau ein Element vom Keller. Dabei nimmt ifle
einen int-Wert und ifnull eine Klassenreferenz vom Keller.
Abschließend folgen noch Rücksprunginstruktionen, die vor allem prüfen, ob auch
tatsächlich der richtige Ergebnistyp entsprechend der Methodendeklaration geliefert
wird.
Rücksprunginstruktionen
Ξ ` pp, i : md → pp 0
(4.7)
Wobei folgendes gilt:
pp 0 = pp + 1
md(pp) = hst, lvti
Folgende Tabelle zeigt wieder, welche Instruktionen i hier möglich sind und wie der
Keller aussehen muss. Desweiteren gibt es in der Tabelle eine weitere Bedingung, die
überprüft, ob die Methode auch mit dem korrekten Ergebnistyp beendet wird.
Instruktion i
return
ireturn
areturn
4.2
st
st1
st1 · int
st1 · cid
Bedingung
rmt = void
rmt = int
cid ≤: rmt
Die leichtgewichtige Verifikation
Die leichtgewichtige Verifikation besteht aus den beiden Phasen Zertifizierung und
Überprüfung. Wenn in dem Zertifikat ein Eintrag gespeichert werden muss, dann wird
hier der Einfachheit halber ein vollständiger Schachteltyp zusammen mit der zugehörigen Programmstelle in das Zertifikat aufgenommen. Die Zertifikate haben damit folgenden Aufbau:
4.2. DIE LEICHTGEWICHTIGE VERIFIKATION
71
cert ∈ Zertifikat ::= hδ, li
f in
δ ∈ ∆ = Programmstellen −→ Schachteltyp
l ∈ Markierungen = P(Programmstellen)
Die Markierungen haben die gleiche Bedeutung wie in Abschnitt 3.3.1 beschrieben.
Die Schachteltypen wurden bereits in Abschnitt 4.1.2 definiert.
4.2.1
Zertifizierung
Die Regel für die Bytecode-Verifikation (BV) wird nun erweitert, so dass ein Zertifikat
erzeugt wird (leichtgewichtige Bytecode-Zertifizierung).
≤:, cid, cp ` msig, c, ms, mlv : md → cert
(LBC)
Methodenprüfung
Entsprechend wird die Regel (4.1) zur Methodenprüfung um das zu konstruierende
Zertifikat erweitert:
h≤; , cp, ms, mlv, rmti ` ∅, 0, c : md → P P, cert
≤; , cid, cp ` msig, c, ms, mlv : md → cert
Die Bedingungen der Regel bleiben unverändert.
(4.8)
Instruktionsfolgen
Bei der Prüfung von Instruktionsfolgen sind zwei Zertifikate zu vereinigen. Nämlich
einmal das Zertifikat cert, was sich bei Prüfung der Instruktion i ergibt und zum
anderen das Zertifikat cert 0 , das Ergebnis der Prüfung des übrigen Bytecode ist:
Ξ ` pp, i : md → pp 0 , cert
Ξ ` P P 0 , pp 0 , c : md → P P 00 , cert 0
Ξ ` P P, pp, i · c : md → P P 00 , cert 00
P P 0 = P P ∪ {pp}
cert 00 = cert ∪ cert 0
Ξ ` P P, pp, : md → P P, ∅
(4.9)
(4.10)
Das Axiom (4.3) wird um die leere Menge erweitert, weil hier das Zertifikat zu
Beginn leer ist.
einzelne Instruktionen
Schließlich müssen die Regeln für die einzelnen Instruktionen um die Erzeugung des
Zertifikats ergänzt werden. Dabei wird in der Konklusion der Regeln (4.4), (4.5) und
(4.6) pp 0 durch pp 0 , cert ersetzt. Es wird ein Zertifikateintrag erzeugt, wenn md(pp 0 )
echt schwächer definiert ist als f t 0 . Für die Regeln (4.4) und (4.5) ohne Sprünge werden
keine Markierungen für die Rückwärtssprünge erzeugt:
cert = hδ, i
(
{pp 0 7→ md(pp 0 )} falls md(pp 0 ) @ f t 0
δ=
∅
andernfalls
72
KAPITEL 4. KORREKTHEIT
Bei den Sprunginstruktionen sind für Rückwärtssprünge zusätzlich Markierungen
zu erzeugen. Das Zertifikat für die Regel der Sprunginstruktion (4.6) wird daher folgendermaßen berechnet:
cert = hδ, li
(
{pp 0 7→ md(pp 0 )} falls md(pp 0 ) @ f t 0
δ=
∅
andernfalls
(
{pp 00 } falls pp 00 < pp
l=
∅
andernfalls
Schließlich wird das Zertifikat für die Rücksprung-Regel (4.7) bestimmt. Es wird
nur dann ein nicht leerer Zertifikatseintrag erzeugt, wenn eine Instruktion nach der
Rücksprunginstruktion existiert:
cert = hδ, i
(
{pp 0 7→ md(pp 0 )} falls md(pp 0 ) ∈ Dom(md)
δ=
∅
andernfalls
Nun lassen sich Zertifikate erzeugen, die später zur Überprüfung des Bytecode
benutzt werden können.
4.2.2
Überprüfung
Die Überprüfungsphase arbeitet ähnlich wie die herkömmliche Bytecode-Verifikation
(BV). Hier muss statt des Methodendeskriptors md das Zertifikat cert benutzt werden.
Dieses Zertifikat hat die Eigenschaft, dass es Informationen über die Schachteltypen md
bei Bedarf bereitstellen kann. Das Regelsystem beginnt nun mit der folgenden Formel:
≤:, cid, cp ` msig, c, ms, mlv : cert
(LBV)
Die folgende Beschreibung entspricht dem Überprüfungsalgorithmus aus Abschnitt
3.3.1 und hat daher entsprechend den dort beschriebenen Mengen gemerkt und zurueckgestellt ähnliche Definitionen:
f in
S ∈ GemerkteSchachteltypen = Programmstellen −→ Schachteltyp
P ∈ ZurueckgestelltePruefungen = P(Programmstellen × Schachteltyp)
In den folgenden Regeln bezeichnet f t den aktuellen Schachteltyp und entspricht
somit md(pp) im aktuellen Kontext. In der Menge S werden Schachteltypen gemerkt,
die laut Zertifikat später noch einmal benötigt werden. Die Menge P enthält zurückgestellte Schachteltypen, die bei Vorwärtssprüngen in noch nicht geprüfte Bereiche
gespeichert werden.
Methodenprüfung
Die Prüfung einer Methode (4.1) wird folgendermaßen angepasst:
Ξ ` ∅, 0, c : cert, f t0 , ∅, ∅ → f t, S, P, P P
≤; , cid, cp ` msig, c, ms, mlv : cert
(4.11)
4.2. DIE LEICHTGEWICHTIGE VERIFIKATION
73
Wobei folgendes gilt:
msig = methsig(rmt, mt1 . . . mtn )
lvt = {0 7→ cid, 1 7→ mt1 , . . . , n 7→ mtn ,
n + 1 7→ ⊥, . . . , mlv − 1 7→ ⊥}
f t0 = h, lvti
Die zusätzlichen Informationen befinden sich in der Prämisse und werden von der
Regel zur Bearbeitung von Instruktionsfolgen benutzt. Dabei handelt es sich um den
aktuellen Schachteltyp f t und die beiden Mengen S und P .
Instruktionsfolgen
Die Regel 4.2 wird entsprechend so geändert, dass das Zertifikat verwendet wird.
Ξ ` pp, i : cert, f t1 , S, P1 → f t 0 , P 0 , pp 0
Ξ ` P P 0 , pp 0 , c : cert, f t 0 , S 0 , P 0 → f t 00 , S 00 , P 00 , P P 00
Ξ ` P P, pp, i · c : cert, f t, S, P → f t 00 , S 00 , P 00 , P P 00
(4.12)
Wobei folgendes gilt:
P P 0 = P P ∪ pp
cert = hδ, li
(
δ(pp) falls pp ∈ Dom(δ) und δ(pp) v f t
f t1 =
ft
andernfalls
(
S ∪ {pp 7→ f t1 } falls pp ∈ l
S0 =
S
andernfalls
∀f t 000 mit hpp, f t 000 i ∈ P gilt f t 000 v f t1
P1 = {hpp 000 , f t 000 i ∈ P | pp 000 6= pp}
Die dritte Bedingung benutzt den Schachteltyp δ(pp) aus dem Zertifikat, falls für
die aktuelle Programmstelle pp ein Eintrag vorhanden ist. Dieser Schachteltyp f t1
wird schließlich an die Regel für die einzelnen Instruktionen weitergereicht. Dies ist der
erste Teil der Prämisse. Die Ergebnisse der Instruktionenprüfung werden schließlich an
den zweiten Teil der Prämisse weitergegeben, so dass damit die übrigen Instruktionen
geprüft werden.
Die vierte Bedingung speichert den aktuellen Schachteltyp f t1 mit der aktuellen
Programmstelle pp, falls im Zertifikat die aktuelle Programmstelle markiert ist.
Durch die fünfte Bedingung werden alle für die aktuelle Programmstelle zurückgestellten Schachteltypen auf Kompatiblität mit dem aktuellen Schachteltyp überprüft.
Schließlich entfernt die sechste Bedingung alle Elemente aus der Menge P , die in
der fünften Bedingung benutzt wurden.
Das Axiom (4.3) wird folgendermaßen geändert:
Ξ ` P P, pp, : cert, f t, S, ∅ → f t, ∅, S, P P
(4.13)
Dieses Axiom ist nur anwendbar, wenn die Menge P leer ist. Dies garantiert, dass
alle zurückgestellten Schachteltypen auch tatsächlich geprüft werden.
74
KAPITEL 4. KORREKTHEIT
einzelne Instruktionen
Die Regeln für die einzelnen Instruktionen werden folgendermaßen angepasst:
• Jedes Auftreten von md(pp) wird ersetzt durch den aktuellen Schachteltyp f t.
Dies ist der Schachteltyp, der vor Ausführung der Instruktion gilt.
• Jede Bedingung md(pp 0 ) v f t 0 wird entfernt. Dies ist möglich, weil diese Bedingungen durch die Regel (4.12) bereits geprüft werden.
• Die Bedingung md(pp 00 ) v f t 0 prüft die sekundären Fortsetzungsstellen und
wird ersetzt durch
(pp 00 < pp0 ∧ S(pp 00 ) v f t 0 ∧ P 0 = P )
∨ (pp 00 ≥ pp 0 ∧ P 0 = P ∪ {pp 00 7→ f t 0 })
(4.14)
Die Bedingung (4.14) unterscheidet Vorwärts- und Rückwärtssprünge. Bei einem
Rückwärtssprung wird der Ergebnisschachteltyp der Instruktion mit dem gemerkten
Schachteltyp verglichen. Falls dieser nicht existiert, ist die Regel nicht anwendbar und
die Überprüfung scheitert. Der zweite Teil dieser Bedingung stellt noch nicht geprüfte
Sprungziele zur späteren Prüfung durch Einfügen in die Menge P 00 zurück.
Dadurch dass bei dieser Formalisierung die goto-Instruktion nicht unterstützt wird,
kann die Art des sekundären Sprungs pp 0 durch einen Vergleich der Programmstellen
pp 0 und pp 00 geschehen. Gäbe es eine goto-Instruktion, so wäre ein Rückwärtssprung
ein Sprung auf eine schon geprüfte Instruktion. Ein Vorwärtssprung wäre ein Sprung
auf eine noch nicht geprüfte Instruktion.
Für eine Unterstützung von mehreren sekundären Programmstellen wäre statt pp 00
eine Menge zu benutzen. Dann gäbe es mehrere Bedingungen md(pp 00 ) v f t0 , die
entsprechend durch mehrere Bedingungen der Form 4.14 zu ersetzen wären.
4.3
Korrektheit und Fälschungssicherheit
Nachdem die gewöhnliche Bytecode-Verifikation (BV), die Zertifizierung (LBC) und die
Überprüfung (LBV) formalisiert wurden, kann nun die Äquivalenz der leichtgewichtigen
Verifikation zur herkömmlichen Verifikation gezeigt werden. Die drei Formeln seien hier
noch einmal aufgelistet:
≤:, cid, cp ` msig, c, ms, mlv : md
≤:, cid, cp ` msig, c, ms, mlv : md → cert
≤:, cid, cp ` msig, c, ms, mlv : cert
(BV)
(LBC)
(LBV)
Es wird nun zuerst gezeigt, dass die Zertifizierung (LBC) dann und nur dann gelingt, wenn auch die gewöhnliche Bytecode-Verifikation (BV) erfolgreich durchgeführt
werden kann.
Danach wird bewiesen, dass die Überprüfung nur dann gelingt, wenn ein Zertifikat
erzeugt werden kann. Damit wird die Fälschungssicherheit sichergestellt.
Schließlich lässt sich aus den ersten beiden Beweisen die Äquivalenz der herkömmlichen Verifikation und der leichtgewichtigen Verifikation folgern.
Wesentliche Idee des Beweises ist es zu zeigen, dass in der leichtgewichtigen Verifikation alle Schachteltypvergleiche durchgeführt werden, die auch von der herkömmlichen
Verifikation durchgeführt werden.
4.3. KORREKTHEIT UND FÄLSCHUNGSSICHERHEIT
75
Satz 4.1. Die gewöhnliche Bytecode-Verifikation (BV) ist gültig genau dann, wenn folgendes gilt: Es existiert ein Zertifikat, so dass die leichtgewichtige Zertifizierung (LBC)
gültig ist.
Beweis. ⇒“: Die Zertifizierung wurde aus der herkömmlichen Verifikation durch Er”
weiterung der vorhandenen Regeln abgeleitet. Diese Erweiterungen schränken die Anwendbarkeit der Regeln nicht ein, so dass die Erstellung des Zertifikats niemals scheitern
kann, wenn die herkömmliche Verifikation durchgeführt werden kann. Daher kann jeder
Beweis für die herkömmliche Verifikation (BV) zu einem Beweis für die Zertifizierung
(LBC) erweitert werden.
⇐“: Die Rückrichtung ist trivial, da durch Entfernen aller cert-Einträge aus den
”
Formeln eines (LBC)-Beweises sich der (BV)-Beweis ergibt.
Satz 4.2. Die leichtgewichtige Verifikation (LBV) ist genau dann gültig, wenn folgendes gilt: Es existiert ein Methodendeskriptor md, so dass die leichtgewichtige Zertifizierung (LBC) gültig ist.
Beweis. ⇒“: Aus dem Beweis für die leichtgewichtige Verifikation (LBV) muss nun
”
ein Beweis für die Zertifizierung konstruiert werden (LBC). Der dazu notwendige Methodendeskriptor md wird dadurch ermittelt, dass jede Benutzung der Regel (4.12) in
dem Beweis betrachtet wird. Die erste Formel der Prämisse dieser Regel hat die Form
Ξ ` pp, i : cert, f t1 , S, P1 → f t 0 , P 0 , pp 0 . Der aktuelle Schachteltyp befindet sich in
f t1 und wird für die Rekonstruktion von md verwendet. Es sollte klar sein, dass dieser
Schachteltyp f t1 für jede Programmstelle vohanden ist. Schließlich ist noch zu zeigen,
dass alle notwendigen Bedingungen für den (LBC)-Beweis auch in dem (LBV)-Beweis
vorhanden sind. Dazu werden S, P und die Markierungen l des Zertifikats cert betrachtet. Es muss gezeigt werden, dass alle nötigen Schachteltyp-Vergleiche für den zu
konstruierenden (LBC)-Beweis bereits im (LBV)-Beweis durchgeführt wurden. Dabei
werden zwei Vergleiche unterschieden:
• Die Vergleiche md(pp 0 ) v f t 0 werden in der Regel (4.12) bei der Bestimmung
von f t1 erledigt.
• Die Vergleiche md(pp 00 ) v f t 0 bei Sprunginstruktionen werden je nach Art des
Sprungs unterschieden:
– Bei Rückwärtssprüngen wird ein Vergleich mit den gemerkten Schachteltypen S durchgeführt Dieser Vergleich wird in den einzelnen Instruktionen
durchgeführt (4.14). Dieser Vergleich kann nur durchgeführt werden, wenn
vorher ein Eintrag in S gemacht wurde – also ein Eintrag in l im Zertifikat existiert. Da nach Voraussetzung davon ausgegangen wird, dass der
(LBV)-Beweis korrekt ist, existiert auch dieser Eintrag.
– Bei Vorwärtssprüngen in noch nicht geprüfte Bereiche wird in Regel (4.14)
ein Eintrag in die Menge P vorgenommen. Der Vergleich wird somit zurückgestellt und später geprüft, wenn diese noch nicht geprüfte Programmstelle
durch Regel (4.12) bearbeitet wird.
⇐“: Ähnlich wird aus einem (LBC)-Beweis ein (LBV) konstruiert. Der Methodende”
skriptor md ist vollständig vorhanden, und es muss gezeigt werden, dass die für den
(LBV)-Beweis benötigten Schachteltypvergleiche schon bei dem (LBC)-Beweis durchgeführt wurden. Dabei handelt es sich um folgende Vergleiche:
• Der erste Vergleich in den Bedingungen der Regel (4.12) bei der Ermittlung von
f t1 : Dieser Vergleich wird in jeder Regel für einzelne Instruktionen im (LBC)Beweis durchgeführt durch die Bedingung md(pp 0 ) v f t 0 .
76
KAPITEL 4. KORREKTHEIT
• Die Vergleiche f t 000 v f t1 mit den in der Menge P zurückgestellten Schachteltypen aus den Bedingungen der Regel (4.12): Dieser Vergleich wird bei bedingten
Sprüngen (4.6) durchgeführt und entspricht md(pp 00 ) v f t 0 .
• Der Vergleich S(pp 00 ) v f t 0 bei Rückwärtssprüngen in den Regeln (4.14) für
bedingte Sprünge wird ebenfalls bei Regel (4.6) durchgeführt.
Satz 4.3. Die herkömmliche Bytecode-Verifikation (BV) ist genau dann gültig, wenn
folgendes gilt: Es existiert ein Zertifikat cert, so dass sowohl die leichtgewichtige Zertifizierung (LBC) als auch die leichtgewichtige Verifikation (LBV) gültig ist.
Beweis. Dies folgt direkt aus den Sätzen 4.1 und 4.2.
Kapitel 5
Realisierung
Ein Ziel dieser Arbeit ist die Evaluierung des in Kapitel 3 vorgestellten und erweiterten
Verfahrens. Als Grundlage der Evaluierung dient ein Prototyp, der im Laufe dieser Diplomarbeit erstellt wurde. Einige interessante Aspekte dieser Implementierung möchte
ich in diesem Kapitel ansprechen.
Zunächst sollen die benutzten Hilfsmittel – insbesondere die verwendeten Bibliotheken und die Begründung für deren Einsatz – erwähnt werden.
5.1
benutzte Bibliotheken
Die erste Phase der leichtgewichtigen Verifikation besteht im wesentlichen aus einer Datenflussanalyse. Ein Programmgerüst für die Analyse von Java-Bytecode-Programmen
mittels einer Datenflussanalyse wurde von M. Mohnen unter dem Namen The DataFlow Analysis Framework for Java (jDFA) entwickelt [Mo02] [jDFA].
5.1.1
jDFA
Die Verwendung dieses Programmgerüsts hat den Vorteil, dass sich dadurch der Schwerpunkt der Implementierung der Zertifizierungsphase auf den Verband und die Transferfunktionen verlagert.
de.rwth.dfa.jvm
de.rwth.dfa
de.rwth.domains
de.rwth.domains.templates
de.rwth.graph
Abbildung 5.1: Struktur der jDFA
Die jDFA besteht aus fünf Paketen wie in Abbildung 5.1 gezeigt. Ein Paket zur
Erstellung von gerichteten Graphen bildet unter anderem die Grundlage für die Re-
77
78
KAPITEL 5. REALISIERUNG
präsentation von Programmstrukturen. Dabei können die erzeugten Graphen durch
Graphviz [GViz] angezeigt und in verschiedene Grafikformate umgewandelt werden.
Das Paket de.rwth.domains dient zur Modellierung mathematischer Strukturen wie
Mengen, partielle Ordnungen, Verbände und Funktionen. Durch die Implementierung
entsprechender Schnittstellen können Klassen erzeugt werden, die die entsprechenden
mathematischen Strukturen darstellen. Ein Nachteil ist hier, dass bestimmte mathematische Bedingungen nicht durch Java-Schnittstellen formuliert werden können. So
muss der Programmierer beispielsweise selbst dafür sorgen, dass für einen Verband die
Operationen meet und join kommutativ sind. Eine große Hilfe bei der Entwicklung der
Verbände ist zum einen eine Methode, die alle benötigten mathematischen Bedingungen für eine konkrete Implementierung prüft. Eine andere Methode erzeugt für eine
partielle Ordnung ein Hasse-Diagramm, das mit dem Graphen-Paket der jDFA und
Graphviz visualisiert werden kann.
Ein weiteres Paket de.rwth.domains.templates hilft bei der Konstruktion von neuen
Verbänden aus vorhandenen Verbänden auf die gleiche Art und Weise, wie dies bei der
Konzeption durchgeführt wurde. Damit lässt sich aus dem Grundkomponentenverband
sehr elegant der Schachteltypverband aufbauen.
Der eigentliche Algorithmus zur Datenflussanalyse befindet sich in dem vierten
Paket de.rwth.dfa. Dieses Paket baut auf der Graphen-Repräsentation aus dem ersten Paket auf. Ein letztes Paket fügt hierzu eine weitere Abstraktionsebene hinzu. In
de.rwth.dfa.jvm existiert dazu eine Schnittstelle Abstraction, durch deren Implementierung der Verband, die Transferfunktionen und die Startwerte der Datenflussanalyse
festgelegt werden. Falls Änderungen des Operandenkellers modelliert werden sollen, ist
es oft notwendig, dass die Kellergröße für jede Programmstelle der zu untersuchenden
Methode bekannt ist. Dafür bietet dieses Paket die Klasse AbstractSSDependingAbstraction an. Wird die Modellierung der abstrakten JVM von dieser Klasse abgeleitet,
so erhält man zusätzlich eine Methode, die für jede Programmstelle der zu untersuchenden Methode die Kellergröße liefert. Für den Prototypen ist diese Methode wichtig für
die Bestimmung der initialen Schachteltypen. Der erste Schachteltyp hängt von den
Parametern der zu untersuchenden Methode ab. Die übrigen Schachteltypen müssen
mit >-Elementen initialisiert werden. Dazu werden die Kellergrößen benötigt.
Das jDFA-Programmgerüst benutzt für den Zugriff auf Klassendateien die Byte
Code Engineering Library (BCEL) [BCEL].
5.1.2
BCEL
Die BCEL liest eine Klassendatei ein und stellt Datenstrukturen zum Zugriff und zur
Manipulation aller Aspekte dieser Klassendatei zur Verfügung.
Die jDFA benutzt die BCEL zum Einlesen der zu untersuchenden Klassendateien und zum Zugriff auf die einzelnen Instruktionen jeder Methode. Ebenso macht die
hier vorgestellte Implementierung Gebrauch von der BCEL. So greifen die Transferfunktionen über entsprechende Aufrufe der BCEL auf den Code-Bereich und den Konstantenbereich der zu untersuchenden Methode zu, um die benötigten Bedingungen
für die einzelnen Instruktionen zu prüfen. Beispielsweise wird für die Prüfung der
invokevirtual-Instruktion der Konstantenbereich benutzt, um die Typen der formalen Parameter der aufzurufenden Methode zu ermitteln. Diese können dann mit
den Typen der aktuellen Parameter auf dem Keller verglichen werden, um somit die
Ausführbarkeit der Instruktion zu überprüfen.
5.2. ÜBERBLICK ÜBER DIE IMPLEMENTIERUNG
5.2
79
Überblick über die Implementierung
Der Prototyp ist in der Lage, alle Methoden zu zertifizieren, die keine Unterprogrammaufrufe und keinen nicht erreichbaren Bytecode enthalten.
Zertifizierung
Kompression
Überprüfung
PCCCertifier
PCCCompress
PCCChecker
Transferfunktionen
und Verband
PCCAbstraction
Abbildung 5.2: Grobübersicht über die Implementierung
Die Implementierung besteht im wesentlichen aus drei Teilen (siehe Abbildung 5.2):
• Der Zertifizierer wird realisiert durch die Klasse PCCCertifier. Die Kompression des Zertifikats ist eine leicht modifizierte Version des Überprüfers.
• Der Überprüfer, der mit Hilfe des Zertifikats Bytcode auf Typsicherheit überprüfen kann (implementiert durch die Klasse PCCChecker ).
• Ein zentraler Bestandteil sind die Transferfunktionen und der Verband, der
von beiden Programmen benutzt wird (implementiert durch die Klasse PCCAbstraction).
Zertifizierung
Java−Klasse
PCCCertifier
PCCCompress
Zertifikate
Überprüfung
Java−Klasse
und
Zertifikat
PCCChecker
Methode
verifizierbar
Ja / Nein
Abbildung 5.3: Ablauf der Zertifizierung und der Überprüfung
Abbildung 5.3 zeigt den Ablauf der beiden Phasen. Die Zertifizierung wird von der
Klasse PCCCertifier durchgeführt und erhält als Eingabe eine Java-Klassendatei. Als
Ergebnis wird für jede Methode dieser Klassendatei ein Zertifikat geschrieben, nachdem
dieses durch die Klasse PCCCompress komprimiert wurde.
Die Überprüfung erhält als Eingabe eines dieser Zertifikate und die Klassendatei.
Die Klasse PCCChecker führt dann die Typprüfung für die in dem Zertifikat angegebene Methode durch und entscheidet, ob die Methode erfolgreich überprüft werden kann
oder nicht.
Es folgt nun ein näherer Blick auf die beiden Programme und deren benutzte Klassen und Schnittstellen.
80
KAPITEL 5. REALISIERUNG
5.2.1
Zertifizierung
PCCCertifier
PCCCompress
Transfer−
funktionen
AbstractAnalyser
Certificate
AbstractSSDependingAbstraction
PCCAbstraction
Abstraction
Verband
PCCLattice
PCCLocalsLattice
PCCStackLattice
TupleCompleteLattice
LiftedCompleteLattice
PCCComponentLattice
Implementierung
Benutzung
jDFA
Datenflussanalyse
Die Datenflussanalyse wird durch die Klasse PCCCertifier durchgeführt. Die Struktur
und die Abhängigkeiten zur jDFA-Bibliothek und anderen Klassen sind in Abbildung
5.4 zu sehen. Die Verbindung zur BCEL ist hier nicht visualisiert.
CompleteLattice
Erweiterung
Abbildung 5.4: Struktur der Datenflussanalyse in der Zertifizierungsphase
Der Schachteltypverband wird durch die Klasse PCCLattice implementiert und
wird entsprechend der Konzeption aus einfacheren Verbänden zusammengesetzt. Dafür
bietet die jDFA passende Klassen an, die dafür sorgen, dass die Verküpfungen des
Schachteltypverbands korrekt aus den Verknüpfungen der darunterliegenden Verbände
berechnet werden.
Die Transferfunktionen werden durch die Klasse PCCAbstraction realisiert. Weil
diese Klasse von der jDFA-Hilfsklasse AbstractSSDependingAbstraction abgeleitet ist,
ist für jede Instruktion die Größe des Operandenkellers bekannt. Somit lassen sich die
initialen Schachteltypen – wie in Abschnitt 5.1.1 beschrieben – einfach bestimmen.
Zusammen mit dem Verband bildet diese Klasse PCCAbstraction eine abstrakte Interpretation einer Java-Bytecode-Methode.
Die eigentliche Datenflussanalyse wird schließlich von der Klasse PCCCertifier
durchgeführt. Diese Klasse ist wieder von einer jDFA-Klasse abgeleitet und dient in
erster Linie dazu, die benutzten Elemente zu initialisieren und das Ergebnis der Datenflussanalyse zu verarbeiten. Die Datenflussanalyse selbst wird dann von entsprechenden
Klassen der jDFA durchgeführt.
Die Klasse Certificate erfasst und schreibt schließlich das Zertifikat in eine Datei,
das später auch wieder eingelesen werden kann. Die Kompression des Zertifikats wird
durch die Klasse PCCCompress durchgeführt und ist sehr ähnlich zu der Überprüfung.
Daher werde ich zunächst die Implementierung der Überprüfungsphase beschreiben,
die durch die Klasse PCCChecker realisiert ist.
5.2. ÜBERBLICK ÜBER DIE IMPLEMENTIERUNG
5.2.2
81
Die Überprüfungsphase
Überprüfung
Kern der Überprüfung ist die Klasse PCCChecker. Wie bei der Zertifizierung werden
hier ebenfalls die Transferfunktionen aus PCCAbstraction benutzt.
PCCChecker
Transfer−
funktionen
PCCAbstraction
Verband
Certificate
PCCLattice
Benutzung
Abbildung 5.5: Struktur der Überprüfungphase
Das Schaubild 5.5 ist sehr ähnlich zu dem der Datenflussanalyse. Statt der Datenflussanalyse wird hier jedoch der Überprüfungsalgorithmus aus Kapitel 3.3.1 angewendet. Die Abhängigkeiten zur jDFA wurden in dem Schaubild weggelassen. Dabei
benötigt die Klasse PCCChecker die jDFA nicht direkt, sondern nur indirekt über die
Klasse PCCAbstraction.
Es werden die gleichen Transferfunktionen benutzt, wie bei der Datenflussanalyse.
Der Verband spielt hier auch eine Rolle; hier wird aber nur die partielle Ordnung des
Verbands benötigt, um die einzelnen Elemente des Verbands vergleichen zu können. Die
meet-Operation wird ausschließlich von der Datenflussanalyse benutzt. Diese Tatsache
könnte später dazu benutzt werden, die Implementierung der Überprüfungsphase zu
optimieren und die Abhängigkeit zur jDFA zu entfernen.
Dieser Überprüfungsalgorithmus wurde nun so erweitert, dass er Zertifikate minimieren kann. Dies ist notwendig für den zweiten Teil der ersten Phase, um das komprimierte Zertifikat zu erstellen.
5.2.3
Die Kompression des Zertifikats
Die Datenflussanalyse berechnet für jede Programmstelle einen Schachteltyp. Diese
Informationen werden in einem vollständigen Zertifikat gespeichert und können statt
des normalen komprimierten Zertifikats vom erweiterten Überprüfer PCCCompress
benutzt werden. Das vollständige Zertifikat enthält also alle Schachteltypen aus der
Datenflussanalyse und Markierungen für jede Programmstelle.
Die Erweiterungen in PCCCompress bestehen nun darin, dass nur die Informationen aus dem vollständigen Zertifikat in das komprimierte Zertifikat kopiert werden, die
während der Überprüfung benötigt und benutzt werden. Für die Schachteltypen bedeutet dies, dass nur die die Schachteltypen übertragen werden, die sich auch tatsächlich
von den Schachteltypen unterscheiden, die bei dem sequentiellen Durchlauf durch den
82
KAPITEL 5. REALISIERUNG
Überprüfung
Kompression
Bytecode bestimmt werden. Wie in Kapitel 3.2.2 beschrieben, wird hier nur die Differenz dieser beiden unterschiedlichen Schachteltypen in dem komprimierten Zertifikat
gespeichert.
Die Markierungen, die ja Programmstellen bezeichnen, deren Schachteltyp während
der Überprüfung zwischengespeichert werden muss, werden ähnlich behandelt. Dadurch, dass in dem vollständigen Zertifikat jede Programmstelle markiert ist, werden
auch alle Programmstellen mit ihren Schachteltypen zwischengespeichert. Nur wenn
die Schachteltypen dieser Programmstellen im weiteren Verlauf des Algorithmus wieder benötigt werden, wird diese Markierung in das komprimierte Zertifikat übertragen.
Somit erweitert PCCCompress den Überprüfungsalgorithmus an zwei Stellen: Zum
einen bei Benutzung des Zertifikats und zum anderen bei der Verwendung der gespeicherten Schachteltypen.
Abbildung 5.6 zeigt ein Schema des erweiterten Überprüfungsalgorithmus PCCCompress.
PCCCompress
PCCChecker
FullCertificate
Benutzung
Certificate
Erweiterung
Abbildung 5.6: Struktur der Kompression des Zertifikats
An dieser Stelle ist anzumerken, dass der Überprüfungsalgorithmus PCCChecker
unabhängig von der Klasse PCCCompress die vollständigen Zertifikate aus der Klasse
FullCertificate benutzen kann, da diese von Certificate abgeleitet sind. Was konkret als
Eingabe für PCCChecker benutzt wird, wird bei der Erzeugung einer Instanz dieser
Klasse bestimmt.
5.3
Einige interessante Aspekte
In diesem Abschnitt möchte ich einige erwähnenswerte Aspekte der Implementierung
herausstellen.
5.3.1
Verband
Das Zertifizierungsprogramm kann dank einer entsprechenden jDFA-Methode neben
dem komprimierten Zertifikat auch ein Hasse-Diagramm des benutzten Grundkomponentenverbands im Graphviz-Format erzeugen. Diese Diagramme waren zum einen für
die Fehlersuche sehr hilfreich, aber auch fast alle in dieser Arbeit abgebildete Verbände
wurden mit dieser Methode erzeugt.
5.3. EINIGE INTERESSANTE ASPEKTE
83
Die Elemente des Grundkomponentenverbands werden während der Datenflussanalyse bzw. während der Überprüfungsphase dynamisch hinzugefügt. Somit enthält der
Verband immer nur die Elemente, die auch tatsächlich verwendet werden. Werden beispielsweise keine float-Typen in einem Java-Bytecode-Programm verwendet, so treten
diese auch nicht in dem zugehörigen Verband auf.
Dieses dynamische Hinzufügen ist deshalb möglich, weil der Schachteltypverband
nur als Rechenvorschrift unter Anwendung dieses Grundkomponentenverbands implementiert ist. Diese Rechenvorschrift ist immer gleich und gilt für jeden möglichen Verband. Variabel sind nur die Grundkomponenten.
Die Grundkomponenten werden in den Konstruktoren der Transferfunktionen bei
Bedarf dem Verband hinzugefügt. Die Instanziierung dieser Funktionen geschieht bei
der Datenflussanalyse vor Beginn einmalig für jede Instruktion der Methode. Dies bedeutet, dass während der Zertifizierungsphase für jede Programmstelle ein solches Objekt existiert.
Bei der Überprüfung hingegen existiert immer nur ein Objekt einer Transferfunktion. Und zwar genau für die Instruktion, die gerade überprüft wird.
5.3.2
Zertifikate
Die Klasse Certificate erlaubt die Erstellung und den Zugriff auf die Zertifikate. Diese
Klasse enthält eine Methode, die ein textuelle Repräsentation des Zertifikats erzeugt.
Diese textuelle Repräsentation wird in eine Datei geschrieben und bildet so das Zertifikat, das später von dem Überprüfer wieder eingelesen werden kann. Dazu existiert
ebenfalls in dieser Klasse eine entsprechende Methode, die aus der Datei wieder ein
Objekt der Klasse Certificate erzeugen kann.
Beispielsweise sieht das Zertifikat für das zweite Beispiel aus Kapitel 3.3.3 folgendermaßen aus:
class = A
method = void test(int arg1)
maxstack = 1
maxlocals = 3
labels = {11}
types = {*bot*}
11; (2, 0)
Der Kopf des Zertifikats enthält den Namen der Klasse, den Methodennamen mit
den entsprechenden Parametern, die Kellergröße und die Anzahl der lokalen Variablen.
Unter labels sind die markierten Programmstellen aufgelistet. Zu diesen Programmstellen muss der Überprüfungsalgorithmus während der Überprüfung Schachteltypen
speichern. Es folgen unter types die in diesem Zertifikat verwendeten Typen. Damit
die künstlichen Typen von den realen Typen der JVM unterschieden werden können,
werden die künstlichen Typen um Zeichen erweitert, die in Bezeichnern nicht auftreten
dürfen. Daher ist der Typ *bot*, der für das ⊥-Element steht, durch Sterne eingeschlossen.
Diese Typen aus der types-Liste werden von den eigentlichen Einträgen indiziert.
Diese Einträge bestehen aus einer Programmstelle gefolgt von einem oder mehreren
Zahlenpaaren. Diese Zahlenpaare bezeichnen die Differenz zu dem Schachteltyp, der
bei dem sequentiellen Durchlauf durch den Bytecode ermittelt wurde. In dem Beispiel
bedeutet der Eintrag 11; (2, 0), dass an Programmstelle 11 die zweite lokale Variable
das ⊥-Element enthält.
84
5.3.3
KAPITEL 5. REALISIERUNG
Transferfunktionen
Zur einfacheren Implementierung der Transferfunktionen wurden noch weitere künstliche Typen in den Verband eingefügt. Beispielsweise gibt es einen Typ, der kleiner als
jede Reihung ist. Damit lässt sich sehr elegant prüfen, ob ein bestimmter Typ eine Reihung ist. Abbildung 5.7 zeigt ein einfaches Beispiel dazu. Um zu prüfen, ob ein Typ eine
Reihung ist, wird einfach die auf dem Verband induzierte partielle Ordnung verwendet.
Gilt für einen Typ t die Relation *array* v t, so ist t als Reihung anzusehen. Dieser
Vergleich wird für die Instruktionen ARRAYLENGTH, AALOAD und AASTORE benötigt.
*top*
boolean[]
int[]
char[]
byte[]
*array*
short[]
int
java.lang.Object
*ref*
*bot*
Abbildung 5.7: Beispiel für weitere künstliche Typen in dem Grundkomponentenverband
5.4
Schlussfolgerung
Dadurch dass in den beiden Phasen die gleichen Klassen für den Verband und die
Transferfunktionen benutzt werden, lässt sich die Überprüfungsphase noch hinsichtlich
der Programmgröße optimieren, da in dieser Phase nicht alle Methoden benutzt werden,
die auch von der Datenflussanalyse benötigt werden. So lassen sich die Abhängigkeiten
zur jDFA auflösen.
Desweiteren wurde nicht an jeder Stelle auf möglichst kompakte und geschwindigkeitsoptimierte Umsetzung des Überprüfungsalgorithmus geachtet. Für den praktischen
Einsatz auf einer Java Card sollte auch die Abhängigkeit zur BCEL aufgelöst werden.
Dazu sind die Transferfunktionen entsprechend zu ändern, so dass diese nicht mehr
den Konstantenbereich und die Operanden der einzelnen Instruktionen über die BCEL
ermitteln.
Trotzdem zeigt der Prototyp, dass das Konzept der leichtgewichtigen Verifikation
erweiterbar und praktisch umsetzbar ist. Auch zur Evaluierung des Speicherplatzbedarfs eignet sich dieser Prototyp sehr gut.
Kapitel 6
Evaluierung
Im folgenden werde ich die praktischen Ergebnisse der Evaluierung vorstellen. Als
Grundlage diente der Prototyp, der während dieser Diplomarbeit entwickelt wurde.
6.1
Ziele der Evaluierung
Die beiden zentralen Aspekte bei dieser Evaluierung sind zum einen die Größe der
Zertifikate und zum anderen der benötigte Speicherbedarf während der Überprüfung.
Der Aufwand bei der Erstellung der Zertifikate ist von geringerer Bedeutung, weil dieser
Teil nicht auf einer Java Card ablaufen soll und daher unkritisch ist. Folgende Größen
sollen gemessen werden:
• Die Größe der Zertifikate
• Der Speicherplatzbedarf für die Speicherung der Schachteltypen während der
Überprüfungsphase
• Die Anzahl der Methoden, die vom Prototypen nicht zertifiziert werden können
aufgrund von fehlenden Erweiterungen
Bevor ich auf die zu untersuchenden Klassen eingehe, soll zunächst ein Maß für
die Größe der Zertifikate und für den Speicherplatzbedarf während der Überprüfung
festgelegt werden.
6.1.1
Die Größe der Zertifikate
Die Zertifikate bestehen im wesentlichen aus den Markierungen für die zu speichernden
Schachteltypen und den Einträgen für die Typanpassungen. Diese Einträge enthalten
eine Programmstelle und eine bestimmte Anzahl von Indizes. Ein Maß für die Größe
des Zertifikats wäre somit die Anzahl dieser Zahlen, die als Worte anzusehen sind. Um
die Größe der Zertifikate mit der Bytecode-Größe vergleichen zu können, sollte das
Zertifikat in Anzahl Bytes angegeben werden.
Beispielsweise hat das Zertifikat aus Kapitel 5.3.2 nach dieser Rechnung die Größe
8 Byte (eine Markierung und ein Schachteltypeintrag bestehend aus drei Worten).
6.1.2
Speicherplatzbedarf während der Überprüfung
Der Überprüfungsalgorithmus muss Schachteltypen zwischenspeichern. Diese Schachteltypen machen den wesentlichen Speicherplatzbedarf während der Überprüfung aus.
Die Gesamtzahl der zu speichernden Schachteltypen ergibt sich aus der Summe der
85
86
KAPITEL 6. EVALUIERUNG
gemerkten, der zurückgestellten und dem aktuellen Schachteltyp. Da einmal gemerkte
Schachteltypen während der gesamten Überprüfungsphase gespeichert bleiben, entspricht die Anzahl der Markierungen im Zertifikat genau der Maximalzahl gemerkter
Schachteltypen. Die Menge der zurückgestellten Schachteltypen ist dynamischer und
hängt ausschließlich von der Komplexität des Bytecode ab.
Da die Größe eines Schachteltyps von Methode zu Methode unterschiedlich sein
kann, ist es sinnvoll, die Anzahl der Grundkomponenten zu zählen. Dies geschieht
einfach durch Multiplikation der Schachteltypanzahl mit der Schachteltypgröße, die
sich aus der Summe von maximaler Kellergröße und Anzahl lokaler Variablen ergibt.
Dies ist eine pessimistische Abschätzung, da der Keller nicht an jeder Programmstelle
vollständig gefüllt ist.
6.1.3
untersuchte Klassen
Um sich ein genaues Bild von dem praktischen Nutzen der leichtgewichtigen Verfikation zu machen, habe ich mehrere Bibliotheken unterschiedlicher Größe untersucht.
Die größte Bibliothek ist die java.*-Hierarchie mit über 15000 Methoden aus der JavaLaufzeitbibliothek in der Version 1.4.0 01 [JDK]. Die anderen untersuchten Bibliotheken sind wesentlich kleiner. Die jDFA und BCEL wurden bereits bei der Implementierung des Prototyps verwendet und bieten sich hier als kleine und mittelgroße Bibliotheken an. Schließlich wurden noch die Beispiele aus dem Java Card Development Kit
Version 2.2.01 [JCDK] betrachtet, um das Speicherplatzverhalten der leichtgewichtigen
Verifikation an konkreten Beispielen für Java Cards zu untersuchen.
Es folgt eine Übersicht über die Anzahl der Klassen und Methoden der untersuchten
Bibliotheken:
Bibliothek
java.* Hierarchie
BCEL
jDFA
Java Card Beispiele
Summe
6.2
Anzahl Klassen
1742
299
142
24
2207
Anzahl Methoden
15221
2009
684
137
18051
Resultate
Im Gegensatz zu den anderen Bibliotheken konnten bei der Java-Laufzeitbibliothek 61
Methoden nicht erfolgreich zertifiziert werden. Dazu gibt es zwei Gründe:
1. 44 Methoden enthalten Unterprogrammaufrufe (jsr-Instruktionen). Diese werden von dem Prototypen nicht unterstützt.
2. 17 Methoden enthalten nicht erreichbaren Code. Solche Methoden lassen sich
mit dem Überprüfungsalgorithmus nicht verifizieren. Dies ließe sich zwar relativ
einfach nachrüsten, aber man muss sich dann auch die Frage stellen, ob es sinnvoll ist, nicht erreichbaren Code zuzulassen, wenn das Ziel Speicherplatzeffizienz
ist. Es ist Aufgabe des Java-Übersetzers, nicht erreichbaren Code zu vermeiden.
Somit gibt es hier offenbar Schwächen im Java-Übersetzer von Sun.
Es fällt auf, dass Unterprogrammaufrufe tatsächlich nur sehr selten auftreten. Bezogen auf die Gesamtzahl der hier untersuchten Methoden enthalten nur 0,2 % der
Methoden jsr-Instruktionen. Diese Unterprogramme werden von dem Sun-Java-Übersetzer ausschließlich für finally-Blöcke als Teil von Ausnahmebehandlungen erzeugt.
6.2. RESULTATE
87
Werden alle jsr-Instruktionen durch die zugehörigen Unterprogramme ersetzt, lassen sich derartige Methoden ebenfalls zertifizieren mit dem Nachteil, dass der Bytecode
etwas größer wird.
Zunächst werde ich einen Überblick über die Verteilung der Methodengrößen der
einzelnen Bibliotheken geben.
6.2.1
Methodengröße
Um sich eine genauere Übersicht über die betrachteten Bibliotheken zu machen, ist
ein Blick auf die Größe der Methoden hilfreich. Es fällt auf, dass es beispielsweise in
der BCEL viele Methoden gibt, die ein Byte groß sind und somit nur aus einer Rücksprunginstruktion bestehen. Diese leeren Methoden gehören größtenteils zu abstrakten
Klassen und haben einen großen Einfluss auf die durchschnittliche Methodengröße der
BCEL. In der folgenden Tabelle sind die Größen der längsten Methode und die durchschnittliche Methodengröße für die einzelnen Bibliotheken angegeben:
Bibliothek
java.* Hierarchie
BCEL
jDFA
Java Card Beispiele
größte Methode
in Bytes
5901
8936
974
487
durchschnittliche Methodengröße
in Bytes
49,6
40,3
52,2
54,2
Im Durchschnitt liegt die Methodengröße bei ungefähr 50 Bytes. Dies bedeutet,
dass die sehr großen Methoden eher selten sind. Dies wird unterstrichen durch Abbildung 6.1, in der die Verteilung der Methodengrößen für die Bibliotheken abgebildet
ist. Man beachte, dass beide Achsen logarithmisch skaliert sind und daher der falsche
Eindruck erweckt wird, dass große Methoden doch nicht so selten sind.
Es folgt nun die Auswertung der Zertifikatgrößen.
6.2.2
Größe der Zertifikate
Ein wichtiger Aspekt des Speicherplatzbedarfs der leichtgewichtigen Verifikation ist die
Zertifikatgröße. Diese Zertifikate werden zusammen mit dem Bytecode auf die Zielmaschine übertragen, wo dann die Typüberprüfung unter Zuhilfenahme der Zertifikate mit
geringen Aufwand durchgeführt werden kann. Somit bilden die Zertifikate zusammen
mit dem Bytecode eine Einheit und vergrößern quasi den Bytecode.
In diesem Abschnitt soll die Größe der Zertifikate betrachtet werden. Wie zuvor
beschrieben, werden die Zertifikate in Bytes angegeben. Abbildung 6.2 zeigt die Größenverteilung der einzelnen Zertifikate. In den Diagrammen besitzt die Ordinate eine logarithmische Skalierung. Auffallend ist hier, dass die meisten Methoden ein leeres Zertifikat besitzen. Dies wird auch durch die Durchschnittswerte bestätigt, die neben den
Maximalgrößen in der folgenden Tabelle aufgelistet sind:
Bibliothek
java.* Hierarchie
BCEL
jDFA
Java Card Beispiele
größtes Zertifikat
in Bytes
310
74
54
10
durchschnittliche Zertifikatgröße
in Bytes
2,1
1,0
1,8
0,8
88
KAPITEL 6. EVALUIERUNG
10000
1000
Anzahl Methoden
Anzahl Methoden
1000
100
100
10
10
1
1
1
10
100
Methodengröße in Bytes
1000
10000
1
10
(a) java.* Hierarchie
1000
10000
1000
10000
(b) BCEL
10
Anzahl Methoden
100
Anzahl Methoden
100
Methodengröße in Bytes
10
1
1
1
10
100
Methodengröße in Bytes
(c) jDFA
1000
10000
1
10
100
Methodengröße in Bytes
(d) Java Card Beispiele
Abbildung 6.1: Übersicht über die Methodengröße der Bibliotheken
6.2. RESULTATE
89
100000
10000
10000
Anzahl Methoden
Anzahl Methoden
1000
1000
100
100
10
10
1
1
0
50
100
150
200
Zertifikatgröße in Bytes
250
300
350
0
10
20
60
70
80
(b) BCEL
1000
1000
100
100
Anzahl Methoden
Anzahl Methoden
(a) java.* Hierarchie
30
40
50
Zertifikatgröße in Bytes
10
1
10
1
0
10
20
30
40
Zertifikatgröße in Bytes
(c) jDFA
50
60
0
2
4
6
Zertifikatgröße in Bytes
(d) Java Card Beispiele
Abbildung 6.2: Übersicht über die Größe der Zertifikate
8
10
90
KAPITEL 6. EVALUIERUNG
Das durchschnittliche Zertifikat hat somit eine Größe von etwa zwei Byte. Das
größte Zertifikat von 310 Byte wird durch eine Methode erzeugt, die selbst 2450 Byte
groß ist. Dieses Zertifikat ist in Abbildung 6.3 zu sehen.
class = java.security.cert.X509CertSelector
method = public boolean match(java.security.cert.Certificate arg1)
maxstack = 4
maxlocals = 14
labels = {314, 331, 418, 556, 636, 912, 1041, 1143, 1183, 1321, 1414,
1424, 1427, 1445, 1501, 1592, 1687, 1724, 1727, 1843, 2042, 2052,
2222, 2298, 2311}
types = {*bot*, java.lang.Object}
314; (3, 0)
418; (3, 0)
435; (3, 0, 4, 0, 5, 0)
554; (6, 0)
556; (6, 1)
599; (5, 0, 6, 0)
634; (7, 0)
636; (7, 1)
679; (6, 0, 7, 0)
767; (3, 0)
912; (3, 0, 4, 0)
930; (3, 0, 4, 0, 5, 0)
975; (3, 0)
1051; (3, 0, 4, 0)
1180; (4, 0, 5, 0, 6, 0)
1183; (3, 0, 4, 0, 5, 0, 6, 0)
1201; (3, 0)
1427; (3, 0)
1724; (7, 0)
1727; (3, 0)
1745; (3, 0, 4, 0, 5, 0, 6, 0)
1853; (4, 0)
2062; (6, 0)
2308; (4, 0, 5, 0, 6, 0)
2311; (3, 0, 4, 0, 5, 0, 6, 0, 7, 0, 8, 0, 9, 0, 10, 0, 11, 0)
2433; (3, 0)
Abbildung 6.3: Das größte Zertifikat für die Methode match aus der Klasse
java.security.cert.X509CertSelector
Ein Grund für dieses große Zertifikat ist zum einen die Größe der Methode an sich
und zum anderen die umfangreiche Ausnahmentabelle, die mit 16 Einträgen recht groß
ist. Weiterhin gibt es sehr viele Sprünge und switch-Instruktionen. Dies führt dazu,
dass es viele Programmstellen gibt, die mehr als eine Vorgängerinstruktion besitzen.
Dadurch steigt die Wahrscheinlichkeit, dass sich bei der Verknüpfung der Schachteltypen der Vorgängerinstruktionen ein anderer Schachteltyp ergibt als beim sequentiellen
Durchlauf durch den Bytecode. Dies führt dann zu einem Zertifikateintrag.
Vergrößerung des Bytecode
Wie eingangs erwähnt, kann man die Zertifikate als Vergrößerung des Bytecode ansehen. Daher habe ich die Zertifikatgrößen in Relation zu den Methodengrößen gesetzt.
Aus dieser Sicht betrachtet vergrößert das Zertifikat aus Abbildung 6.3 den Bytecode
um 12 %.
In Abbildung 6.4 ist die Verteilung der prozentualen Bytecode-Vergrößerung der
untersuchten Methoden zu sehen. Eine Wert von 0 % bedeutet, dass das Zertifikat leer
ist. Ein Wert von 100 % würde bedeuten, dass das Zertifikat genauso groß ist, wie der
Bytecode selbst. Auch hier besitzt die Ordinate wieder eine logarithmische Einteilung.
An diesen Diagrammen ist recht gut zu sehen, dass die meisten Zertifikate leer sind.
Die Durchschnittswerte der folgenden Tabelle zeigen, dass die Zertifikate insgesamt sehr
klein sind:
6.2. RESULTATE
91
100000
10000
10000
Anzahl Methoden
Anzahl Methoden
1000
1000
100
100
10
10
1
1
0
20
40
60
80
100
Speicherplatzmehrbedarf für die Zertifikate relativ zur Bytecode−Größe in Prozent
0
(b) BCEL
1000
1000
100
100
Anzahl Methoden
Anzahl Methoden
(a) java.* Hierarchie
10
1
20
40
60
80
100
Speicherplatzmehrbedarf für die Zertifikate relativ zur Bytecode−Größe in Prozent
10
1
0
20
40
60
80
100
Speicherplatzmehrbedarf für die Zertifikate relativ zur Bytecode−Größe in Prozent
(c) jDFA
0
20
40
60
80
100
Speicherplatzmehrbedarf für die Zertifikate relativ zur Bytecode−Größe in Prozent
(d) Java Card Beispiele
Abbildung 6.4: Übersicht über die relative Vergrößerung des Bytecode durch
die Zertifikate
92
KAPITEL 6. EVALUIERUNG
Bibliothek
java.* Hierarchie
BCEL
jDFA
Java Card Beispiele
maximale Vergrößerung
77 %
44 %
50 %
14 %
durchschnittliche Vergrößerung
2,3 %
1,0 %
1,9 %
0,8 %
Eine Vergrößerung um 77 % scheint auf den ersten Blick recht problematisch zu sein.
Das entsprechende Zertifikat der Methode write aus der Klasse java.io.PrintWriter
hat folgendes Aussehen:
class = java.io.PrintWriter
method = public void write(int arg1)
maxstack = 2
maxlocals = 4
labels = {24, 42, 43, 48}
types = {*bot*}
32; (2, 0, 3, 0)
42; (2, 0, 3, 0)
48; (2, 0)
Dieses Zertifikat besteht aus 17 Worten und zählt somit 34 Bytes. Die Methode
selbst besteht aus nur 44 Bytes. Allgemein lässt sich sagen, dass die Methoden, die ein
relativ großes Zertifikat benötigen, selbst sehr klein sind.
Betrachtet man nur die Java Card Beispiele, so gehört das relativ zum Bytecode größte Zertifikat zu einer 14 Byte großen Methode, dessen Zertifikat nur aus einer
markierten Programmstelle besteht und somit lediglich 2 Bytes umfasst (14 % von 14
Bytes).
Im Durchschnitt liegt die Vergrößerung der Zertifikate bei etwa 2 %. Dies ist überraschend, weil andere auf Proof-Carrying Code basierende Ansätze wesentlich größere Zertifikate benötigen. Einer dieser Ansätze ist in der K Virtual Machine (KVM)
der Connected Limited Device Configuration [CLDC] implementiert. Nach X. Leroy
[Le02] vergrößern die Zertifikate des KVM-Verifizierers den Bytecode um durchschnittlich 50 %. Desweiteren vermutet Leroy, dass die Zertifikate sich nicht auf unter 20 %
der Bytecode-Größe komprimieren lassen. Als Maß für die Zertifikatgröße dient für die
KVM-Zertifikate ein Byte für Basistypen und drei Bytes für Klassentypen. Selbst wenn
dieses Maß auf die hier vorgestellten Zertifikate angewendet wird, bleibt die durchschnittliche Vergrößerung auf jeden Fall unter 4 %.
Vergleich mit KVM-Zertifikaten
Um einen Vergleich mit den Zertifikatgrößen des KVM-Verifzierers durchführen zu
können, wurde für jede untersuchte Methode die zugehörige KVM-Zertifkatgröße bestimmt. Nach CLDC-Spezifikation enthalten die KVM-Zertifikate vollständige Schachteltypeinträge für alle Programmstellen, deren Instruktion mindestens eine der folgenden Eigenschaften besitzt:
• Der Vorgänger ist eine goto-, return-, athrow- oder switch-Instruktionen. Dabei bezieht sich Vorgänger“ auf die Reihenfolge im Bytecode und nicht auf den
”
Kontrollfluss.
• Die Instruktion bildet den Anfang einer Ausnahmebehandlung.
• Die Instruktion ist Sprungziel einer goto-, switch- oder if-Instruktion.
6.2. RESULTATE
93
Die folgende Tabelle zeigt die Vergrößerung des Bytecodes durch die KVM-Zertifikate. Zur Vereinfachung werden hier als Platzbedarf für jeden Grundkomponententyp
2 Bytes angesetzt. Die Schachteltypgröße in Bytes ergibt sich daher aus der Anzahl der
Grundkomponenten multipliziert mit 2. Die Anzahl der Grundkomponenten wiederum
ist die Summe aus maximaler Kellertiefe und Anzahl lokaler Variablen.
Bibliothek
java.* Hierarchie
BCEL
jDFA
Java Card Beispiele
maximale Vergrößerung
616 %
233 %
245 %
128 %
durchschnittliche Vergrößerung
34,5 %
16,9 %
30,7 %
32,2 %
Die durchschnittliche Zertifikatvergrößerung der BCEL profitiert wieder von der
relativ großen Anzahl leerer Methoden. Dies täuscht aber nicht darüber hinweg, dass
viele Zertifikate den Bytecode spürbar vergrößern. Einige Zertifikate sind sogar so groß,
dass sie den Bytecode um mehr als 5 Kilobyte vergrößern.
Dieser Größenunterschied zwischen den KVM-Zertifikaten und den Zertifikaten der
leichtgewichtigen Verifikation hängt damit zusammen, dass die leichtgewichtige Verifikation die Zertifikate intelligenter erzeugt. Informationen, die während der Überprüfung relativ leicht ermittelt werden können, werden nicht in den Zertifikaten gespeichert. Dafür ist der Aufwand bei der Überprüfung größer. Der Vorteil bei dem
KVM-Verifizierer ist der, dass während der Überprüfung nur ein einziger Schachteltyp
gespeichert werden muss unabhängig von der Struktur der Methode. Der Speicherplatzbedarf der leichtgewichtigen Verifikation hingegen hängt von der Bytecode-Struktur ab
und ist in der Regel größer.
Bewertung
Da die Zertifikate auf einer Java Card genau wie der Bytecode nur gelesen werden, brauchen die Zertifikate nicht in dem sehr kleinen RAM-Bereich gespeichert zu werden. Die
Untersuchung der Zertifikatgrößen der leichtgewichtigen Verifikation hat gezeigt, dass
selbst die großen Zertifikate kein Problem darstellen. Wenn man nur die Java Card
Beispiele betrachtet, ist die Größe der Zertifikate sogar vernachlässigbar gering.
Alles in allem sind somit die Zertifikate sehr klein und bedeuten kein Problem im
Hinblick auf den Speicherplatzmehrbedarf.
6.2.3
Speicherplatzbedarf während der Überprüfung
Während der Überprüfung müssen Schachteltypen zwischengespeichert werden. Dies
sind zum einen die Schachteltypen der durch das Zertifikat markierten Programmstellen
und zum anderen die Schachteltypen, die aufgrund von Sprüngen in noch nicht geprüfte
Bereiche zurückgestellt werden müssen. Diese Schachteltypen machen den wesentlichen
Teil des Speichers aus, der durch die Überprüfungsphase benötigten wird.
Im folgenden wird unter der Anzahl Schachteltypen die Maximalzahl der gleichzeitig im Speicher gehaltenen Schachteltypen verstanden. Dies ist die Summe aus den
gespeicherter Schachteltypen, der maximal gleichzeitig zurückgestellten Schachteltypen
und dem aktuellen Schachteltyp. Da immer ein aktueller Schachteltyp gespeichert werden muss, ist die Gesamtzahl der zu speichernden Schachteltypen immer größer als
Null.
Für die zu speichernden Schachteltypen ergeben sich für die betrachteten Bibliotheken folgende Maximal- und Durchschnittswerte:
94
KAPITEL 6. EVALUIERUNG
Bibliothek
java.* Hierarchie
BCEL
jDFA
Java Card Beispiele
maximal zu speichernde
Anzahl Schachteltypen
131
39
19
15
durchschnittlich zu speichernde
Anzahl Schachteltypen
2,3
1,7
2,3
2,3
Dass eine Methode 131 Schachteltypen speichern muss, liegt an einer lookupswitchInstruktion mit 130 Einträgen. Hier müssen somit 130 sekundäre Sprungstellen mit
identischen Schachteltypen zurückgestellt werden. Diese identischen Schachteltypen
werden nicht nur bei switch-Instruktionen gespeichert, sondern auch bei Instruktionen, die durch mehrere Ausnahmen geschützt sind. Somit lassen sich diese identischen
Schachteltypen zumindest bei diesen Instruktionen leicht identifizieren.
Werden nur die paarweise verschiedenen Schachteltypen betrachtet, so sind für diese
Methode nur 3 Schachteltypen zu speichern. Um sich ein Bild von den Möglichkeiten
dieser simplen Kompression zu machen, habe ich die Bibliotheken noch einmal im
Hinblick auf die paarweise verschiedenen Schachteltypen untersucht. Es ergibt sich
folgende Tabelle:
Bibliothek
java.* Hierarchie
BCEL
jDFA
Java Card Beispiele
maximal zu speichernde
Anzahl Schachteltypen
(paarweise verschieden)
38
13
13
6
durchschnittlich zu speichernde
Anzahl Schachteltypen
(paarweise verschieden)
1,8
1,4
1,7
1,6
Im Vergleich zu der letzten Tabelle ist zu erkennen, dass nicht wenige der zu speichernden Schachteltypen identisch sind. Auch die nicht identischen Schachteltypen haben eine große Ähnlichkeit.
In Abbildung 6.5 sind die 38 zu speichernden Schachteltypen für die Methode
coerceData aus der Klasse java.awt.image.ComponentColorModel angegeben. Die
ersten 6 lokalen Variablen sind in allen Schachteltypen identisch und wurden durch
einen Platzhalter ersetzt.
Weiterhin fällt auf, dass der Keller für jeden dieser Schachteltypen leer ist. Somit
liegt die Vermutung nahe, dass sich diese Schachteltypen komprimieren lassen und so
der Speicherplatzbedarf noch weiter gesenkt werden kann. Beispielsweise könnte im
Zertifikat angegeben werden, wie groß das gemeinsame Präfix ist und wieviele Kellerelemente die zu speichernden Schachteltypen maximal besitzen. Dies würde die sehr
kleinen Zertifikate um zwei Worte vergrößern, den Speicherplatzbedarf aber merkbar
reduzieren. Die Methode coerceData besitzt 18 lokale Variablen und eine Kellergröße
von 8. Mit der Präfixgröße von 6 und dem leeren Operandenkeller ergibt sich ein Speicherplatzreduzierung um 54 % (von 26 Worten auf 12 Worte).
Dass die meisten Methoden wesentlich weniger Schachteltypen speichern müssen,
zeigt die Abbildung 6.6. Hier ist die Verteilung zu sehen, wieviele Methoden welche
Anzahl paarweise verschiedener Schachteltypen speichern müssen.
Anzahl Grundkomponenten
Da die Größe der Schachteltypen von der Anzahl der lokalen Variablen und der maximalen Tiefe des Operandenkellers abhängt und diese Größen von Methode zu Methode
6.2. RESULTATE
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
float,
float,
float,
float,
float,
float,
float,
float,
float,
float,
float,
float,
float,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
95
*array*,
byte[],
byte[],
double[],
double[],
float[],
float[],
int[],
int[],
short[],
short[],
byte[],
byte[],
double[],
double[],
double[],
double[],
double[],
float[],
float[],
int[],
int[],
short[],
short[],
byte[],
byte[],
byte[],
float[],
float[],
float[],
float[],
int[],
int[],
int[],
short[],
short[],
short[],
*bot*,
byte[],
float,
double[],
int,
float[],
int,
float,
int[],
float,
short[],
byte[],
float,
double[],
double[],
double[],
int,
int,
float[],
int,
float,
int[],
float,
short[],
byte[],
byte[],
float,
float[],
float[],
int,
int,
float,
int[],
int[],
float,
short[],
short[],
*bot*,
float,
int,
int,
*bot*,
int,
*bot*,
int,
float,
int,
float,
float,
int,
int,
int,
int,
int,
int,
int,
int,
int,
float,
int,
float,
float,
float,
int,
int,
int,
int,
int,
int,
float,
float,
int,
float,
float,
*bot*,
int,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
int,
*bot*,
int,
int,
int,
int,
int,
int,
*bot*,
double,
int,
*bot*,
int,
int,
int,
int,
int,
int,
int,
int,
int,
*bot*,
float,
int,
int,
int,
int,
int,
int,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
int,
*bot*,
*bot*,
double,
double,
*bot*,
*double2*,
*bot*,
*bot*,
*bot*,
int,
*bot*,
int,
int,
int,
float,
*bot*,
int,
*bot*,
int,
float,
int,
int,
float,
int,
int,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*double2*,
*double2*,
*bot*,
double,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
int,
int,
*bot*,
*bot*,
*bot*,
*bot*,
int,
*bot*,
int,
int,
*bot*,
int,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
int,
*bot*,
*double2*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
int),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
...“ steht für die folgenden 6 Typen:
”
java.awt.image.ComponentColorModel, java.awt.image.WritableRaster, int, int, int, int
Der Keller ist zwischen den eckigen Klammern angegeben.
Abbildung 6.5: Liste der paarweise verschiedenen Schachteltypen, die
während der Überprüfung der Methode coerceData aus der Klasse
java.awt.image.ComponentColorModel gespeichert werden müssen
KAPITEL 6. EVALUIERUNG
10000
10000
1000
1000
Anzahl Methoden
Anzahl Methoden
96
100
10
100
10
1
1
0
5
10
15
20
25
30
Anzahl zu speichernde Schachteltypen
35
40
0
5
10
(a) java.* Hierarchie
35
40
35
40
(b) BCEL
1000
100
100
Anzahl Methoden
Anzahl Methoden
15
20
25
30
Anzahl zu speichernde Schachteltypen
10
10
1
1
0
5
10
15
20
25
30
Anzahl zu speichernde Schachteltypen
(c) jDFA
35
40
0
5
10
15
20
25
30
Anzahl zu speichernde Schachteltypen
(d) Java Card Beispiele
Abbildung 6.6: Übersicht über die Anzahl der während der Überprüfung zu
speichernden (paarweise verschiedenen) Schachteltypen
6.2. RESULTATE
97
unterschiedlich sind, sollen nun die Anzahl der Grundkomponenten dieser paarweise
verschiedenen Schachteltypen gezählt werden. Dies dürfte eine gute Näherung für den
tatsächlichen Speicherplatzbedarf während der Überprüfungsphase sein. Das Ergebnis
dieser Untersuchung zeigt folgende Tabelle:
Bibliothek
java.* Hierarchie
BCEL
jDFA
Java Card Beispiele
maximal zu speichernde
Anzahl Grundkomponenten
1176
420
280
102
durchschnittlich zu speichernde
Anzahl Grundkomponenten
13,9
8,3
12,9
10,2
Bei der Interpretation dieser Werte sollte man berücksichtigen, dass zu jedem
Schachteltyp, der gespeichert werden muss, noch die zugehörige Programmstelle mit abgelegt wird. Weiterhin müssen für die Kompression der identischen Schachteltypen noch
weitere Verwaltungsinformationen gespeichert werden. Dieser zusätzliche Speicherbedarf ist jedoch vergleichsweise gering und wird hier nicht berücksichtigt.
Den größten Speicherplatzbedarf an Schachteltypgrundkomponenten hat die Methode nonICCBIFilter aus der Klasse java.awt.image.ColorConvertOp, die 1176
Grundkomponenten während der Überprüfungsphase speichert. Ein Grund für diese
große Zahl ist die Schachteltypgröße. Diese Methode besitzt 43 lokale Variablen und
eine Kellertiefe von 6. In jedem der 24 zu speichernden Schachteltypen sind die ersten 8
lokalen Variablen identisch. Zwei Schachteltypen besitzen ein Element auf dem Keller;
bei den übrigen ist der Keller leer. Somit gibt es auch hier wieder ein Kompressionspotential (von ca. 27 %).
In Abbildung 6.7 ist die Verteilung der Anzahl der zu speichernden Grundkomponenten über die untersuchten Methode zu sehen. Dabei werden – wie oben beschrieben –
nur die paarweise verschiedenen Schachteltypen berücksichtigt. Die mögliche Kompression über die gemeinsamen Präfixe und der maximal von den Schachteltypen benutze
Operandenkeller ist im Prototyp nicht implementiert und kann daher hier auch nicht
evaluiert werden.
Bewertung
Bei den Java Card Beispielen ist der Speicherplatzbedarf während der Überprüfung
derartig gering, dass die Schachteltypen in der Regel im RAM einer Java Card gehalten werden können. Sollte dieser Platz nicht ausreichen, gibt es eine Möglichkeit, die
Schachteltypen im FlashRAM oder im EEPROM mit Caching-Strategien zu speichern,
wie es von D. Deville und G. Grimaud vorgeschlagen wird [DG02].
Durch Änderung der Reihenfolge, in der die Grundblöcke überprüft werden, sollte
sich der Speicherplatzbedarf noch verbessern lassen. Gerade bei Methoden, die sehr viele Ausnahmebehandlungen bzw. sehr lange durch Ausnahmebehandlungen geschützte
Bereiche enthalten, könnte sich der Speicherplatzbedarf verbessern, wenn die Ausnahmebehandlungen zuerst überprüft werden. Dieser Ansatz wurde hier aus Zeitgründen
nicht weiter verfolgt.
98
KAPITEL 6. EVALUIERUNG
10000
1000
Anzahl Methoden
Anzahl Methoden
1000
100
100
10
10
1
1
0
200
400
600
800
1000
Anzahl zu speichernde Komponenten von Schachteltypen
1200
0
50
(a) java.* Hierarchie
400
450
(b) BCEL
1000
100
100
Anzahl Methoden
Anzahl Methoden
100
150
200
250
300
350
Anzahl zu speichernde Komponenten von Schachteltypen
10
10
1
1
0
50
100
150
200
250
Anzahl zu speichernde Komponenten von Schachteltypen
(c) jDFA
300
0
20
40
60
80
100
Anzahl zu speichernde Komponenten von Schachteltypen
120
(d) Java Card Beispiele
Abbildung 6.7: Übersicht über die Anzahl der während der Überprüfung zu
speichernden Schachteltypgrundkomponenten
6.3. WEITERE TESTS
6.3
99
weitere Tests
In diesem Abschnitt möchte ich einige Beispiele für typunsicheren Bytecode beschreiben, aber auch Fälschungsversuche“ an Zertifikaten durchführen.
”
6.3.1
typunsichere Methoden
Dass der Prototyp auch Bytecode abweisen kann, sollen die folgenden vier sehr einfachen, aber fehlerhaften Methoden zeigen:
Method Test()
0
invokespecial #1 hMethod java.lang.Object()i
3
return
Method void stackOverflow()
0 bipush 9
2 istore 1
3
return
Method void stackUnderrun()
0
1
pop
return
Method void integerCast()
0 bipush 0
2
4
astore 1
return
Die Methode Test ist eine Konstruktormethode, in der vor dem Aufruf des Oberklassenkonstruktors nicht wie üblicherweise das zu initialisierende Objekt auf den Keller
abgelegt wird. Somit wird in dieser Methode ebenso wie in stackUnderrun versucht,
ein nicht vorhandenes Element vom Keller zu nehmen. Dies wird von den Transferfunktionen erkannt und daher werden diese beiden Methoden vom Zertifizierer abgelehnt.
Die Methode stackOverflow besitzt laut Klassendatei eine Kellergröße von 0. Damit wird diese Methode bereits beim Erstellen der initialen Schachteltypen zu Beginn
der Datenflussanalyse abgewiesen. Dort wird erkannt, dass es Programmstellen gibt,
die eine Kellertiefe größer als 0 benötigen.
Einen echten Typfehler produziert die Methode IntegerCast. Hier wird ein intTyp auf dem Keller abgelegt und dann mit einer Instruktion wieder gelesen, die jedoch
eine Referenz erwartet. Die Transferfunktion von astore erkennt dies und bricht die
Datenflussanalyse ab.
Die Tatsache, dass diese fehlerhaften Methoden bereits von dem Zertifizierer abgelehnt wurden, ist nicht verwunderlich, da ja der Zertifizierer einem erweiterten herkömmlichen Verifizierer entspricht (vgl. Satz 4.1). Um das Verhalten des Überprüfungsprogramms zu testen, müssen somit entweder Zertifikate von korrekten Methoden geändert
werden oder die Methoden nach der Zertifizierung modifiziert werden.
6.3.2
Änderungen an Zertifikaten
Im folgenden möchte ich an Beispielen das Verhalten des Überprüfungsprogramms
untersuchen, wenn Zertifikate modifiziert werden. Dazu soll die folgende eher sinnlose
Methode betrachtet werden:
100
KAPITEL 6. EVALUIERUNG
static void test ( int x ) {
while ( x > 10 ) {
if ( x == 0 ) {
boolean ret = false;
if ( ! ret ) return;
}
x--;
}
}
Das Zertifizierungsprogramm berechnet für die übersetzte Methode folgendes Zertifikat:
class = A
method = static void test(int arg0)
maxstack = 2
maxlocals = 2
labels = {17}
types = {*bot*}
14; (1, 0)
Wird nun aus diesem Zertifikat die Markierung für die Programmstelle 17 gelöscht,
wird die Methode vom Überprüfungsprogramm abgelehnt, weil im Laufe der Überprüfung diese gemerkte Programmstelle fehlt.
Wenn der Eintrag für die Programmstelle 14 entfernt wird, würde man annehmen,
dass der Überprüfer ebenfalls die Methode ablehnt. Stattdessen wird jedoch die Methode überraschenderweise akzeptiert. Der Grund dafür ist folgender: Die Zertifikate
sind minimal im Bezug auf die vollständige Rekonstruktion der Informationen aus der
Datenflussanalyse. Es kommt vor, dass die Datenflussanalyse mehr Informationen ermittelt als für die Überprüfung notwendig sind. Dann erscheint ein für die Überprüfung
überflüssiger Eintrag im Zertifikat. Dies kann beispielsweise auftreten, wenn eine Instruktion mehrere Vorgänger besitzt, die in der gleichen lokalen Variable verschiedene
Typen enthalten. Diese Informationen werden kombiniert und es erscheint ein Eintrag
im Zertifikat. Wenn in den nachfolgenden Instruktionen diese lokale Variable nicht mehr
benutzt wird, ist es für die Verifikation unerheblich, welchen Typ diese lokale Variable
besitzt.
6.3.3
Änderungen am Bytecode
Gerade im Hinblick auf die Fälschungssicherheit ist es interessant zu überprüfen, wie
sich der Prototyp bei Bytecode-Änderungen nach der Zertifizierung verhält.
Es soll hier das Beispiel aus Kapitel 3.3.3 betrachtet werden. Der Bytecode und
das Zertifikat der Methode haben folgendes Aussehen:
0
1
4
5
6
9
10
11
iload 1
ifne 9
fconst 0
fstore 2
goto 11
iconst 0
istore 2
return
class = A
method = void test(int arg1)
maxstack = 1
maxlocals = 3
labels = {11}
types = {*bot*}
11; (2, 0)
6.4. BEWERTUNG DER ERGEBNISSE
101
Wird nun die erste Instruktion iload 1 durch aload 1 ersetzt, lässt sich die Methode nicht mehr überprüfen, weil die erste Instruktion nach der Änderung laut Überprüfer
eine Referenz erwartet.
Nun könnte man versuchen, das Zertifikat entsprechend zu fälschen, so dass die
erste Instruktion eine Referenz in der ersten lokalen Variable besitzt:
0
1
4
5
6
9
10
11
aload 1
ifne 9
fconst 0
fstore 2
goto 11
iconst 0
istore 2
return
class = A
method = void test(int arg1)
maxstack = 1
maxlocals = 3
labels = {11}
types = {*bot*, *null*}
0; (1, 1)
11; (2, 0)
Aber auch dies führt nicht zum Erfolg, weil dieses geänderte Zertifikat bereits
bekannte Informationen zerstört und daher vom Überprüfer abgewiesen wird. Durch
die Methodensignatur ist nämlich bereits bekannt, dass die erste lokale Variable einen
int-Typ enthält.
Der Überprüfer lehnt Zertifikateinträge ab, die nicht durch eine u-Operation entstanden sind. Dazu wird ein Vergleich auf der partiellen Ordnung durchgeführt. Ein
Eintrag ist zulässig, wenn für den vom Überprüfer bestimmten Typ talt und den Typ
aus dem Zertifikat tneu gilt: tneu v talt . Auf das Hasse-Diagramm bezogen darf ein
Zertifikateintrag einen Typ somit nur in Richtung ⊥-Symbol verändern.
6.4
Bewertung der Ergebnisse
Die Evaluierung hat gezeigt, dass die Größe der Zertifikate sehr gering ist. Im Durchschnitt vergrößern die Zertifikate den Bytecode um ca. 2 %.
Der Speicherplatzbedarf während der Überprüfung ist ebenfalls unproblematisch.
Selbst die aufwändigsten Methoden aus den hier untersuchten Bibliotheken sollten sich
in der Regel mit dem auf Java Cards verfügbaren Speicher überprüfen lassen. Falls der
Speicherplatz nicht ausreichen sollte, lassen sich die zu speichernden Schachteltypen
noch mit einfachen Methoden komprimieren, da sie zum Teil identisch sind.
102
KAPITEL 6. EVALUIERUNG
Kapitel 7
Zusammenfassung
Die leichtgewichtige Verifikation von E. Rose ließ sich weitgehend problemlos erweitern
um
• Reihungen,
• Ausnahmebehandlungen,
• Sprunginstruktionen mit mehr als einem Sprungziel,
• mehrwortige Datentypen und
• Prüfung der Objektinitialisierung.
So konnte ein auf Proof-Carrying Code Technik basierender Bytecode-Verifizierer
implementiert werden. Dieser Verifizierer besteht aus zwei Teilen: Ein Zertifizierer,
der Platz sparende Zertifikate erzeugt, und ein Überprüfer, der wenig Speicherplatz
während der Ausführung benötigt.
Unterprogramme werden von dem Verifizierer nicht unterstützt, da diese im Vorfeld
schon als sehr schwierig identifiziert wurden. Es ist am einfachsten, die Unterprogramme in den wenigen Methoden, wo sie auftreten, zu expandieren.
Der Speicherplatzbedarf der erzeugten Zertifikate ist sehr gering und liegt im Schnitt
bei etwa 2 % der Bytecode-Größe. Auch der Bedarf an Speicherplatz während der
Überprüfungsphase ist vertretbar und liegt bei durchschnittlich 11 Worten für die zu
speichernden Schachteltypen.
Durch geschicktere Speicherung der Schachteltypen lässt sich der Speicherplatzbedarf während der Überprüfung weiter senken, da viele Schachteltypen identisch sind,
ein gemeinsames Präfix besitzen und selten Einträge für den Operandenkeller enthalten.
Eine Frage, die in dieser Arbeit aus Zeitgründen nicht weiter verfolgt wurde, ist der
Einfluss der Überprüfungsreihenfolge der Grundblöcke der zu zertifizierenden Methoden auf die Zertifikatgröße und den Speicherplatzbedarf während der Überprüfungsphase. Gerade durch die Erweiterungen um Ausnahmen und die switch-Instruktionen
dürfte sich dieser Einfluss vergrößert haben.
Die Implementierung hängt noch stark von den beiden Bibliotheken jDFA und
BCEL ab. Diese Abhängigkeiten müssen für einen praktischen Einsatz – zumindestens
für den Überprüfer – aufgelöst werden.
103
104
KAPITEL 7. ZUSAMMENFASSUNG
Die Ergebnisse der Evaluierung haben gezeigt, dass die leichtgewichtige Verifikation
ein sehr vielversprechender Ansatz zur Bytecode-Verifikation ist, vor allem wenn diese
auf Systemen mit knappen Speicherplatz zum Einsatz kommen soll und damit eine
speichereffiziente Verifikation notwendig ist.
Literaturverzeichnis
[Ro98] Eva Rose, Towards secure bytecode verification on a java card, Master’s thesis,
DIKU, University of Copenhagen, 1998.
[RR98] Eva Rose and Kristoffer H. Rose, Lightweight Bytecode Verification, Extended
Abstract, Workshop Fundamental Underspinnings of Java ´98, 1998.
[Ka87] G. Kahn, Natural Semantics, Rapport de Recherche 601, INRA, SophiaAntipolis, France, 1987.
[Kas90] Uwe Kastens, Übersetzerbau, R. Oldenburg Verlag München Wien, 1990.
[Muc97] S. Muchnick, Advanced Compiler Design and Implementation, Morgan Kaufmann Publishers, 1997.
[Nec97] G. C. Necula, Proof Carrying Code, POPL ’97 – 24th Annual ACM symposium
on Principles of Programming Languages, SIGPLAN Notices, 1997.
[NL96] G. C. Necula and P. Lee, safe kernel extensions without run-time checking,
Second Symposium on Operating Systems Design and Implementations, Usenix,
1996.
[Le01] X. Leroy, Java bytecode verification: an overview. In G. Berry, H. Comon, and A.
Finkel, editors, Computer Aided Verification, CAV 2001, volume 2102 of Lecture
Notes in Computer Science, pages 265-285. Springer-Verlag, 2001.
[Le02] X. Leroy, Bytecode verification on Java smart cards, Software Practice & Experience, volume 32, 2002.
[Mo02] M. Mohnen, An Open Framework for Data-Flow Analysis, Aachener Informatik
Berichte AIB-2002-08, RWTH Aachen, 2002.
[DG02] D. Deville and G. Grimaud, Building an “impossible” verifier on a Java Card,
In Second USENIX Workshop on Industrial Experiences with Systems Software
(WIESS’02), Boston USA, 2002.
[JVM96] T. Lindholm and F. Yellin, The Java Virtual Machine Specification, The Java
Series, Addison-Wesley, 1996.
[JCVM] Sun, The Java Card 2.1.1 Virtual Machine Specification, revision 1.0,
http://java.sun.com/products/javacard/javacard21.html, 2000.
[JDK] Sun, Java 2 Software Development Kit, Standard Edition 1.4.1 01,
http://java.sun.com/j2se/1.4.1/download.html, 2002.
[JCDK] Sun, Java Card 2.2 Development Kit,
http://java.sun.com/products/javacard/dev kit.html, 2002.
[CLDC] Sun, Connected, Limited Device
http://java.sun.com/j2me/docs/, 2000.
105
Configuration
Specification
1.0a,
106
LITERATURVERZEICHNIS
[jDFA] M. Mohnen, jDFA – The Data-Flow Analysis Framework for Java,
http://jdfa.sourceforge.net/, 2002.
[BCEL] M. Dahm, BCEL – The Byte Code Engineering Library,
http://jakarta.apache.org/bcel/, 2001.
[GViz] AT&T, Graphviz – open source graph drawing software,
http://www.research.att.com/sw/tools/graphviz/.
Herunterladen