Untitled - Universität Paderborn

Selbstständigkeitserklärung
Hiermit versichere ich, dass ich diese Diplomarbeit selbstständig und nur unter
Zuhilfenahme der angegebenen Quellen und Hilfsmittel angefertigt habe. Alle
wörtlich oder inhaltlich zitierten Stellen sind als solche kenntlich gemacht.
Paderborn, 28. Februar 2003
Universität Paderborn
Fachbereich 17, Informatik
Proof-Carrying Code Techniken zur
speichereffizienten Verifikation von
Java-Bytecode
Diplomarbeit
Dirk Jansen
Februar 2003
Vorgelegt bei:
Prof. Dr. Uwe Kastens
Prof. Dr. Stefan Böttcher
Inhaltsverzeichnis
1 Einleitung
11
2 Grundlagen
2.1 Proof-Carrying Code . . . . . . . . . . . . . . . . .
2.1.1 Überblick . . . . . . . . . . . . . . . . . . .
2.1.2 Erstellung des Beweises . . . . . . . . . . .
2.1.3 Ablauf der Beweisüberprüfung . . . . . . .
2.2 Die Java Virtual Machine . . . . . . . . . . . . . .
2.2.1 Verifikation von Klassendateien . . . . . . .
2.2.2 Die Bytecode-Verifikation . . . . . . . . . .
2.3 Datenflussanalyse . . . . . . . . . . . . . . . . . . .
2.3.1 Verbände . . . . . . . . . . . . . . . . . . .
2.3.2 Transferfunktionen . . . . . . . . . . . . . .
2.3.3 Iterative Vorwärtsanalyse . . . . . . . . . .
2.3.4 Modellierung von komplexen Verbänden . .
2.3.5 Zusammenfassung . . . . . . . . . . . . . .
2.4 Natural Semantics . . . . . . . . . . . . . . . . . .
2.4.1 Inferenzregeln und Axiome . . . . . . . . .
2.4.2 Folgerungen . . . . . . . . . . . . . . . . . .
2.4.3 semantische Definitionen . . . . . . . . . . .
2.4.4 Die verschiedenen Formen von Folgerungen
2.4.5 Beispiel . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
14
15
16
16
16
17
19
19
20
21
21
22
22
23
23
23
24
24
3 Konzeption
3.1 Überblick über die leichtgewichtige Verifikation
3.2 Die Zertifizierungsphase . . . . . . . . . . . . .
3.2.1 Die Datenflussanalyse . . . . . . . . . .
3.2.2 Die Kompression des Zertifikats . . . . .
3.3 Die Überprüfungsphase . . . . . . . . . . . . .
3.3.1 Der Überprüfungsalgorithmus . . . . . .
3.3.2 Beispiel 1 . . . . . . . . . . . . . . . . .
3.3.3 Beispiel 2 . . . . . . . . . . . . . . . . .
3.3.4 Zusammenfassung . . . . . . . . . . . .
3.4 Erweiterungen . . . . . . . . . . . . . . . . . .
3.4.1 triviale Erweiterungen . . . . . . . . . .
3.4.2 Reihungen (arrays) . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
27
28
29
35
38
39
44
48
49
49
49
50
7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8
INHALTSVERZEICHNIS
3.5
3.4.3 Ausnahmebehandlungen . . . . .
3.4.4 Instruktionen mit mehr als einem
3.4.5 mehrwortige Datentypen . . . . .
3.4.6 Objektinitialisierung . . . . . . .
Schlussfolgerung . . . . . . . . . . . . .
4 Korrektheit
4.1 Die herkömmliche Bytecode-Verifikation
4.1.1 Der Konstantenbereich . . . . . .
4.1.2 Schachteltypen . . . . . . . . . .
4.1.3 Verifikation . . . . . . . . . . . .
4.1.4 Methodenprüfung . . . . . . . .
4.1.5 Prüfung von Instruktionsfolgen .
4.1.6 einzelne Instruktionen . . . . . .
4.2 Die leichtgewichtige Verifikation . . . . .
4.2.1 Zertifizierung . . . . . . . . . . .
4.2.2 Überprüfung . . . . . . . . . . .
4.3 Korrektheit und Fälschungssicherheit . .
5 Realisierung
5.1 benutzte Bibliotheken . . . . . . . . .
5.1.1 jDFA . . . . . . . . . . . . . .
5.1.2 BCEL . . . . . . . . . . . . . .
5.2 Überblick über die Implementierung .
5.2.1 Zertifizierung . . . . . . . . . .
5.2.2 Die Überprüfungsphase . . . .
5.2.3 Die Kompression des Zertifikats
5.3 Einige interessante Aspekte . . . . . .
5.3.1 Verband . . . . . . . . . . . . .
5.3.2 Zertifikate . . . . . . . . . . . .
5.3.3 Transferfunktionen . . . . . . .
5.4 Schlussfolgerung . . . . . . . . . . . .
. . . . . . .
Sprungziel
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51
53
57
58
61
.
.
.
.
.
.
.
.
.
.
.
63
63
64
64
66
66
67
68
70
71
72
74
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
77
77
77
78
79
80
81
81
82
82
83
84
84
6 Evaluierung
6.1 Ziele der Evaluierung . . . . . . . . . . . . . . . . . . .
6.1.1 Die Größe der Zertifikate . . . . . . . . . . . .
6.1.2 Speicherplatzbedarf während der Überprüfung
6.1.3 untersuchte Klassen . . . . . . . . . . . . . . .
6.2 Resultate . . . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Methodengröße . . . . . . . . . . . . . . . . . .
6.2.2 Größe der Zertifikate . . . . . . . . . . . . . . .
6.2.3 Speicherplatzbedarf während der Überprüfung
6.3 weitere Tests . . . . . . . . . . . . . . . . . . . . . . .
6.3.1 typunsichere Methoden . . . . . . . . . . . . .
6.3.2 Änderungen an Zertifikaten . . . . . . . . . . .
6.3.3 Änderungen am Bytecode . . . . . . . . . . . .
6.4 Bewertung der Ergebnisse . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
85
85
85
85
86
86
87
87
93
99
99
99
100
101
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INHALTSVERZEICHNIS
7 Zusammenfassung
9
103
10
INHALTSVERZEICHNIS
Kapitel 1
Einleitung
Java-Programme werden in eine portable Zwischensprache übersetzt und dann
von einer abstrakten Maschine interpretiert. Damit dieser sogenannte Bytecode
schnell ausgeführt werden kann, werden wichtige Sicherheitsprüfungen – wie
z.B. der Zugriff auf ungültige Speicherbereiche – einmalig vor der Ausführung
im Rahmen einer Verifikation durchgeführt.
Gerade im Hinblick auf Java Cards, die oft sicherheitsrelevante Informationen speichern, muss durch diese Verifikation garantiert werden, dass JavaProgramme keine Speicherbereiche mit sicherheitskritischen Informationen lesen. Da diese Bytecode-Verifikation im Allgemeinen sehr speicherplatzintensiv
ist und Java Cards über vergleichsweise wenig Speicher verfügen, kommen hier
spezielle Verfahren zum Einsatz.
Eines dieser Verfahren führt die Verifikation außerhalb der Java Card durch
und signiert danach den verifizierten Bytecode mittels eines kryptographischen
Verfahrens. Auf der Karte ist dann vor der Ausführung nur noch die Gültigkeit
der digitalen Signatur zu prüfen. Dies hat jedoch einen entscheidenen Nachteil: Sowohl der Anwender der Java Card als auch der Ersteller des Programms
müssen der Signierungsstelle vertrauen, die darüberhinaus nach jeder Übersetzung den Bytecode neu signieren muss.
Andere Ansätze versuchen die Verifikation auf der Karte trotz der beschränkten Resourcen zu ermöglichen. X. Leroy [Le02] verfolgt die Idee, den Bytecode
nach der Übersetzung so zu modifizieren, dass die Verifikation garantiert mit
wenig Speicher auskommt. Ein Nachteil dieser Lösung ist der erhöhte Speicherplatzbedarf während der Ausführung dieses modifizierten Bytecodes.
In dieser Arbeit wird ein anderer Ansatz verfolgt, der ohne Änderungen
des Bytecode auskommt und kein Vertrauen gegenüber Dritten benötigt. Als
wesentliche Grundlage dient dabei die leichtgewichtige Bytecode-Verifikation
[Ro98], die auf der Technik des Proof-Carrying Code [Nec97] basiert. Der Bytecode wird mit einem Beweis versehen, der als Nachweis für die Korrektheit
der Verifikation interpretiert werden kann. Auf der Java Card ist dann zur Verifikation lediglich ein Nachrechnen des Beweises notwendig.
Die leichtgewichtige Verifikation unterstützt nur eine Untermenge des Java11
12
KAPITEL 1. EINLEITUNG
Bytecodes. Dieses Konzept wird daher von mir zunächst auf den vollständigen Java-Bytecode-Befehlssatz erweitert1 und anschließend implementiert. Diese Implementierung ermöglicht eine ausführliche Evaluierung hinsichtlich der
Praxistauglichkeit und vor allem des Speicherplatzbedarf dieses Ansatzes – mit
zum Teil vielversprechenden Ergebnissen.
Im folgenden Kapitel 2 werde ich ich als erstes die Grundlagen dieser Arbeit
vorstellen. Dies sind zum einen das Konzept des Proof-Carrying Code und zum
anderen die Bytecode-Verifikation, die im wesentlichen aus einer Datenflussanalyse besteht.
Kapitel 3 beschreibt zunächst die leichtgewichtige Verifikation und erläutert
den Zusammenhang zum Proof-Carrying Code. Die ebenfalls in diesem Kapitel
vorgestellten konzeptionellen Erweiterungen bilden den ersten wesentlichen Teil
meiner Arbeit.
Der Beweis der Korrektheit des Konzepts wird in Kapitel 4 nur skizziert
und nicht in aller Vollständigkeit geführt, da hier der Schwerpunkt in erster
Linie auf der Implementierung und Evaluierung liegt.
Die Realisierung des Prototyps gefolgt von den Ergebnissen der Evaluierung
machen den zweiten großen Teil dieser Arbeit aus und werden in den Kapiteln
5 und 6 vorgestellt. Dabei untersucht die Evaluierung hauptsächlich die Größe
des Sicherheitsbeweises und den Speicherplatzbedarf der Beweisüberprüfung.
1
mit Ausnahme von Unterprogrammen
Kapitel 2
Grundlagen
Dieses Kapitel soll einen Überblick über die Thematik der Bytecode-Verifikation
und die Grundlagen der hier verfolgten Lösungsansätze vermitteln. Ich werde
zunächst das Prinzip des Proof-Carrying Codes vorstellen, das die Grundlage
des Ansatzes von E. Rose [Ro98] bildet. Proof-Carrying Code soll hier dazu
dienen, die auf der Java Card ablaufende Überprüfung des Bytecode möglichst
einfach zu gestalten. Dabei wird in Kauf genommen, dass der Java-Bytecode
mit zusätzlichen Informationen zu versehen ist, die relativ aufwändig zu erzeugen sind. Dieser Zusatzaufwand ist jedoch unkritisch, da dies außerhalb der
Java Card durchgeführt wird.
Für das weitere Verständnis ist darüberhinaus die Arbeitsweise der Java
Virtual Machine (JVM) und der Bytecode-Verifikation sehr wichtig. E. Rose
verwendet zur formalen Spezifikation der JVM und der Bytecode-Verifikation
die Natural Semantics. Eine kurze Einführung in diesen Formalismus schließt
dieses Kapitel.
2.1
Proof-Carrying Code
Um die eigentliche Verifikation des Java-Bytecodes ausserhalb der Java Card
durchführen zu können, bedient sich E. Rose der Technik des Proof-Carrying
Code (PCC) [Nec97].
Die Idee dieser Technik ist es, Programme mit einem Beweis zu versehen.
Durch Überprüfung dieses Beweises lässt sich dann vor der Ausführung die
Korrektheit des Programms nachweisen. Es gibt also zwei Phasen: Die Beweiserzeugung und die Beweisüberprüfung.
Der Vorteil dieser Methode liegt darin, dass die Beweiserzeugung und die Beweisüberprüfung völlig unabhängig voneinander durchgeführt werden können.
Der Produzent des Programms kann durch diesen Beweis dem Konsumenten
bestimmte Programmeigenschaften garantieren. Gemeinsame Basis bilden hier
die Sicherheitsrichtlinien, die festlegen, wann ein Programm als korrekt bzw.
als sicher angesehen werden kann. Diese Sicherheitsrichtlinien werden von dem
Konsumenten festgelegt und sind die einzigen Dinge, denen der Konsument
vertrauen muss. Es gibt also nicht wie bei kryptographischen Verfahren eine
13
14
KAPITEL 2. GRUNDLAGEN
zentrale Zertifizierungsstelle, der sowohl Produzent als auch Kosument vertrauen müssen. Diese Sicherheitsrichtlinien werden bei der Beweiserzeugung und bei
der Beweisüberprüfung benutzt.
Ein Beispiel für die Verwendung von Proof-Carrying Code ist ein Paketfilter
für Netzwerke [NL96]. Dabei soll ein in Maschinensprache geschriebener Paketfilter vom Benutzer in den Kern eines Betriebssystems eingebunden werden
können, ohne Sicherheitslücken zu öffnen. Die direkte Einbindung des Filters in
den Kern – und damit die Ausführung im gleichen Adressraum – führt dazu,
dass kein Kontextwechsel nötig ist und so der Filter mit optimaler Geschwindigkeit ausgeführt werden kann. Der Maschinen-Code des Paketfilters wird mit
einem Beweis versehen, der nachweist, dass nur auf Speicherbereiche zugegriffen
wird, die für den Paketfilter wichtig sind. Wenn nun der Benutzer einen Paketfilter in den Betriebssystemkern einbinden möchte, prüft das Betriebssystem vor
der Benutzung des Maschinen-Codes einmalig den mitgelieferten Beweis und
benutzt den Filter nur, wenn dieser Beweis gültig ist.
Produzent
Programm (Quelltext)
Phase 1
Übersetzung und
Zertifizierung
PCC−Binärdatei
Konsument
Abbruch
Nein
Beweis
korrekt?
Ja
Phase 2
Maschinen−
code
Sicherheits−
beweis
Beweisüberprüfung
Sicherheits−
richtlinien
Sicherheitsregeln
Schnittstelle
Ausführung
auf CPU
Abbildung 2.1: Übersicht über Proof-Carrying Code (PCC)
2.1.1
Überblick
Abbildung 2.1 zeigt den Lebenszyklus eines PCC-Programms vom Quelltext
bis zur Ausführung. Beim Produzenten des Programms wird die Zertifizierung
durchgeführt. Diese Phase erzeugt nach oder während der Übersetzung einen
Beweis, der belegt, dass das Programm den Sicherheitsrichtlinien entspricht.
2.1. PROOF-CARRYING CODE
15
Man könnte auch sagen, dass eine Verifikation entsprechend den Sicherheitsrichtlinien durchgeführt wird. Zum Abschluss dieser Phase wird der Beweis kodiert und zusammen mit dem Programm-Code an den Konsumenten geschickt.
Der Kosument führt nun die zweite Phase durch. Die Beweisüberprüfung
kontrolliert, ob der Beweis tatsächlich für das entsprechende Programm die Sicherheitsrichtlinien nachweist. Ist der Beweis gültig, so ist das Programm korrekt und kann beliebig oft ausgeführt werden.
Die vom Konsumenten festgelegten Sicherheitsrichtlinien bestehen aus Sicherheitsregeln, die alle erlaubten Operationen mit ihren entsprechenden Sicherheitsvorbedingungen enthalten. Für das Beispiel der Paketfilters würden die
Sicherheitsrichtlinien aus einer abstrakten Beschreibung der Maschinensprache
bestehen, die der CPU der Zielmaschine entspricht. Zusätzlich enthält diese
Beschreibung Regeln, die für Speicherzugriffsinstruktionen angeben, ob diese
Instruktionen erlaubt sind oder nicht. Die Sicherheitsregeln hängen in diesem
Fall von dem Operanden der Instruktion ab. Die Schnittstelle beschreibt die
Aufrufkonventionen zwischen Konsument und fremdem Programm, d.h. welche
Invarianten beim Aufruf des fremden Programms gelten müssen und welche Invarianten gelten müssen, wenn das fremde Programm Funktionen des Kosumenten aufruft oder wenn es nach Ausführung zum Konsumenten zurückspringt.
2.1.2
Erstellung des Beweises
Die Hauptschwierigkeit bei der Beweiserzeugung ist die Formalisierung der Sicherheitsrichtlinien. Dazu muss zuerst die Semantik der Zielmaschine beschrieben werden. Dabei werden Sicherheitsprüfungen, die den Sicherheitsrichtlinien
entsprechen, in die Beschreibung integriert. Dies bedeutet, dass unsichere Programme nach der abstrakten Beschreibung nicht definiert sind. Da keine Fehlerzustände eingeführt werden, blockiert die abstrakte Maschine bei unsicheren
Programmen. Ein Programm ist daher nur dann sicher, wenn es die abstrakte
Maschine nicht blockiert.
Aus der formalen Beschreibung der Maschine lässt sich jetzt für jedes konkrete Programm die Semantik in diesem Formalismus beschreiben. Diese formale Darstellung des Programms wird Sicherheitsprädikat genannt. Um nun den
Beweis zu erstellen, muss zuerst dieses Sicherheitsprädikat generiert werden. Zu
diesem Sicherheitsprädikat wird dann ein Beweis in einer überprüfbaren Form
erstellt. Wie dies zu geschehen hat, hängt von der Problemstellung ab und kann
nicht immer automatisch durchgeführt werden. Die Beweiserstellung ist ähnlich
einer Programmverifikation, die im Allgemeinen auch nicht vollständig automatisiert geschehen kann. In solchen Fällen ist eine Benutzerinteraktion notwendig.
Beispielsweise könnte es notwendig sein, Schleifeninvarianten anzugeben.
Dieser Beweis wird schließlich geeignet kodiert, um zusammen mit dem Programm übermittelt zu werden.
16
2.1.3
KAPITEL 2. GRUNDLAGEN
Ablauf der Beweisüberprüfung
Die Überprüfung des Beweises muss vor der ggf. mehrfachen Ausführung des
Programms nur einmal durchgeführt werden und ist im Vergleich zur Erstellung
sehr effizient im Bezug auf Rechenzeit und Speicherbedarf. Auch hier ist das
Vorgehen abhängig vom jeweiligen Anwendungsfall. In jedem Fall wird kontrolliert, ob der Beweis für das gegebene Programm korrekt ist.
Um die Proof-Carrying Code Technik auf Java-Bytecode-Programme anwenden zu können, muss die Ablaufumgebung von Java-Programmen – die Java
Virtual Machine – formalisiert werden. In diesem Formalismus sollten sich auch
die Sicherheitsregeln ausdrücken lassen, die sichere Java-Bytecode-Programme
modellieren. Dazu muss zuerst festgelegt werden, was man überhaupt unter sicherem Bytecode zu verstehen hat. Ich gebe zunächst eine Einführung in die
Java Virtual Machine, um dann auf die Bytecode-Sicherheit einzugehen.
2.2
Die Java Virtual Machine
Java-Programme werden vom Java-Übersetzer in Bytecode übersetzt. Dieser
Bytecode ist eine abstrakte Maschinensprache, die von der Java Virtual Machine [JVM96] (JVM) ausgeführt wird.
Das besondere an der JVM ist der Operandenkeller. Fast alle Rechenoperationen werden auf diesem Keller durchgeführt. Desweiteren gibt es einen
Speicherbereich für lokale Variablen. Um Berechnungen durchzuführen, werden
Daten aus den lokalen Variablen auf dem Keller abgelegt, um dann durch entsprechende Kellerinstruktionen verknüpft zu werden. Das Ergebnis kann dann
vom Keller gelesen und wieder in den lokalen Variablen abgespeichert werden.
Die verschiedenen Operationen können auf unterschiedlichen Typen arbeiten. So kennt die JVM die Typen int, long, short, byte, char, float, double
und reference. Dabei werden die Typen byte, char und short wie int-Typen
behandelt. Die Instruktionen der JVM sind typisiert, d.h. eine Instruktion operiert auf bestimmten Typen und erwartet, dass auf dem Keller oder in den
lokalen Variablen zu der Instruktion passende Typen vorliegen. Die JVM hat
unter anderem sicherzustellen, dass diese Voraussetzungen erfüllt sind. Dies geschieht während der Verifikation, die im nächsten Abschnitt beschrieben werden
soll.
2.2.1
Verifikation von Klassendateien
Vor der Ausführung eines Java-Programms führt die JVM eine statische und
strukturelle Überprüfung der auszuführenden Klassendatei durch. Statische Bedingungen sind z.B. der korrekte Aufbau der Klassendatei, aber auch die Forderung, dass Instruktionen keine Elemente des Konstantenbereichs ansprechen,
die gar nicht vorhanden sind (Überprüfung der Indexgrenzen). Die strukturellen
Überprüfung betrachtet den Zusammenhang zwischen den einzelnen BytecodeInstruktionen. So wird z.B. geprüft, dass Instruktionen nur auf zu dieser Instruktion passenden Typen operieren und dass kein Zugriff auf noch nicht zu-
2.2. DIE JAVA VIRTUAL MACHINE
17
gewiesene lokale Variablen geschieht. Der Sinn dieser strukturellen Überprüfung
liegt vor allem darin, dass diese Bedingungen nicht mehr zur Laufzeit geprüft
werden müssen und so die Ausführung des Java-Bytecodes beschleunigen.
Die Verifikation einer Klassendatei läuft in vier Phasen ab:
Phase 1: Prüfung des grundsätzlichen Aufbaus der Klassendatei.
Phase 2: Überprüfung der einzelnen Komponenten der Klassendatei außer
dem Code-Bereich. Dabei wird auch die Klassenhierarchie geprüft (z.B.
ob jede Klasse außer Object eine Oberklasse besitzt).
Phase 3: Überprüfung des Code-Bereichs. Hierbei wird neben der strukturellen Korrektheit des Bytecodes eine statische Typrekonstruktion des Operandenkellers und der lokalen Variablen durchgeführt.
Phase 4: dynamische Prüfungen. Diese Phase wird während der Ausführung
des Bytecodes durchgeführt.
Der schwierigste Teil dieser Verifikation ist die statische Typrekonstruktion
der dritten Phase. Ich werde mich in dieser Arbeit auf diesen Teilbereich der Verifikation beschränken. Der nächste Abschnitt soll das Prinzip dieser BytecodeVerifikation beschreiben.
2.2.2
Die Bytecode-Verifikation
Die Bytecode-Verifikation ist der komplexeste Teil der Verifikation. Da jede Methode einen eigenen Operandenkeller und eigene lokale Variablen besitzt, kann
jede Methode einzeln und unabhängig von den anderen Methoden überprüft
werden. Bei Methodenaufrufen werden lediglich die korrekte Anzahl und die
passenden Typen der Parameter geprüft. Es wird angenommen, dass die aufgerufene Methode korrekt ist und den der Signatur entsprechenden Ergebnistyp
liefert.
Die folgenden Bedingungen werden von der Verifikation für jede Methode
einzeln geprüft:
• Der Operandenkeller hat an einer Programmstelle immer die gleiche Größe
und enthält immer die gleichen Typen.
• Methoden werden mit passenden Parametern aufgerufen (richtige Anzahl
und passende Typen).
• Feldern werden nur Werte des passenden Typs zugewiesen.
• Alle Instruktionen haben für alle Argumente die passenden Typen auf dem
Keller bzw. in den lokalen Variablen vorliegen. Insbesondere bedeutet dies,
dass eine lokale Variable nicht gelesen werden darf, wenn ihr Typ nicht
bekannt oder eindeutig bestimmbar ist.
18
KAPITEL 2. GRUNDLAGEN
Der Typ einer lokalen Variable oder des Kellers kann erst dann bestimmt
werden, wenn das erste Mal ein Wert gespeichert wird. Problematisch wird dies,
wenn z.B. in verschiedenen Programmpfaden verschiedene Typen in der gleichen
lokalen Variable gespeichert werden und diese Programmpfade zusammenlaufen. Wird diese Variable später benutzt, müssen diese beiden Typen kombiniert
werden. Bei Referenzen ist dies der speziellste gemeinsame Obertyp der entsprechenden Klassen. Wird jedoch in dem einen Pfad ein int-Wert gespeichert und
in dem anderen Pfad eine Referenz, so darf auf diese lokale Variable nach der
Vereinigung der beiden Programmpfade nicht mehr lesend zugegriffen werden,
da der Typ nicht eindeutig bestimmbar ist.
Abbildung 2.2 zeigt dazu ein Beispiel. Das Programm besteht aus vier
Blöcken. Der erste Block enthält einen bedingten Sprung, so dass sich der Kontrollfluss in zwei Pfade aufteilt. Der zweite Block besitzt einen Sprung zum vierten Block, an dem sich die beiden Programmpfade wieder treffen. Neben dem
Kontrollflussgraphen ist eine Tabelle zu sehen, in der die Typen des Operandenkellers und der lokalen Variable für jede Programmstelle nach Ausführung
der Operation angeben sind. Ein Fragezeichen bedeutet, dass keine Information
verfügbar sind und dass die entsprechende Variable daher nicht gelesen werden
darf.
1
Keller
0: iconst_0
1: iload_1
2: ifle 10
2
5: iload_1
3
6: istore_2
10: aload_0
11: astore_2
7: goto 12
4
12: return
lokale Variablen
0
1
2
()
(A, int, ?)
0: iconst_0
(int)
(A, int, ?)
1: iload_1
(int,int)
(A, int, ?)
2: ifle 10
()
(A, int, ?)
5: iload_1
(int)
(A, int, ?)
6: istore_2
()
(A, int, int)
7: goto 12
()
(A, int, int)
10: aload_0
(A)
(A, int, ?)
11: astore_2
()
(A, int, A)
()
(A, int, ?)
()
(A, int, ?)
12: return
Vorbelegung
Vereinigung aus 7 und 12
Abbildung 2.2: Beispiel für eine Vereinigung zweier Typen beim Zusammentreffen zweier Programmpfade
Die einzige Stelle, an der Variablen vereinigt werden müssen, ist die Programmstelle 12. Hier treffen die beiden Blöcke 2 und 3 wieder zusammen. Daher
werden hier die Typen der Programmstellen 7 und 12 zusammengefasst. Durch
die Zusammenfassung erhält die lokale Variable 2 einen ungültigen Eintrag symbolisiert durch das Fragezeichen, weil hier der Block 2 ein int-Wert und der
Block 3 eine Referenz in diese lokale Variable schreibt. Würde in Block 4 die
Variable gelesen werden, so wäre dieses Programm fehlerhaft und die Verifikation müsste es ablehnen.
2.3. DATENFLUSSANALYSE
19
Dieses Beispiel deutet auch an, dass die Typrekonstruktion nicht in einem
linearen Durchlauf durchzuführen ist, weil es zwischen den einzelnen Blöcken
Abhängigkeiten gibt und die abhängigen Typen nicht unbedingt schon berechnet wurden, wenn sie benötigt werden. Um die Typen zu bestimmen wird daher
eine Datenflussanalyse durchgeführt.
2.3
Datenflussanalyse
Eine Datenflussanalyse dient dazu, für ein Programm vorherzusagen, wie es
Daten während der Ausführung manipuliert [Muc97].
Bei der Datenflussanalyse werden Datenflussgleichungen aufgestellt, die die
Abhängigkeiten von Eigenschaften zwischen Programmgrundblöcken1 definieren. Bei diesen Eigenschaften handelt es sich um abstrakte Informationen über
Variablen, Ausdrücke oder anderen Programmkonstrukten, die für alle möglichen Ausführungen des untersuchten Programms gültig sind. Diese Analyse ist
unabhängig von den Eingabedaten. So bleibt bei Kontrollkonstrukten unberücksichtigt, wie oft z.B. eine Schleife durchlaufen oder welcher Programmzweig
einer bedingten Anweisung abgearbeitet wird.
Die Eigenschaften der Blöcke und deren Beziehung zueinander werden in
der Datenflussanalyse als Verband modelliert.
2.3.1
Verbände
Ein Verband ist eine algebraische Struktur mit zwei Verknüpfungen, mit dem
sich die Eigenschaften modellieren lassen, die mit einer Datenflussanalyse bestimmt werden sollen. Dabei wird jedem Programmblock ein Element des Verbands zugeordnet. Die Verknüpfungen des Verbands werden dazu benutzt, Informationen über Programmblöcke an Stellen zu verschmelzen, an denen der
Kontrollfluss zusammenläuft.
Allgemein ist ein Verband folgendermaßen definiert:
Definition 2.1 (Verband). Ein Verband (V, u, t) ist eine Menge V, auf der
zwei Verknüpfungen meet u und join t definiert sind, für die folgendes gilt:
• u und t sind abgeschlossen, d.h. für alle x, y ∈ V gilt: x u y ∈ V und
xty ∈V.
• u und t sind kommutativ, d.h. für alle x, y ∈ V gilt: x u y = y u x und
x t y = y t x.
• u und t sind assoziativ, d.h. für alle x, y, z ∈ V gilt: (xuy)uz = xu(yuz)
und (x t y) t z = x t (y t z).
1
Ein Grundblock kann nur am Anfang betreten und am Ende verlassen werden – es gibt
also keine Sprünge und Sprungziele innerhalb des Blocks
20
KAPITEL 2. GRUNDLAGEN
• Es existieren zwei eindeutig bestimmte Elemente Bottom ⊥ und Top >
in V für die gilt: x u ⊥ = ⊥ und x t > = > für alle x ∈ V .
Verbände lassen sich einfach grafisch darstellen. Bild 2.3 zeigt ein einfaches
Beispiel eines Verbands dargestellt als sogenanntes Hasse-Diagramm.
1
2
3
4
Abbildung 2.3: Hasse-Diagramm eines einfachen Verbands
Wie sich aus dem Bild erahnen lässt, besteht ein enger Zusammenhang
zwischen Verbänden und partiellen Ordnungen. Eine partielle Ordnung (V, v)
erhält man, wenn man für einen Verband (V, u, t) folgendes definiert: Es gilt
x v y genau dann, wenn x u y = x gilt. Diese partielle Ordnung wird auch die
auf einem Verband induzierte partielle Ordnung genannt.
Ähnlich lässt sich aus einer partiellen Ordnung ein Verband konstruieren.
Dabei ergeben sich die beiden Verbandsoperationen aus dem Infimum und dem
Supremum der beiden Operatoren.
2.3.2
Transferfunktionen
Die einzelnen Programmblöcke manipulieren – ihrer Semantik entsprechend –
die durch den Verband modellierten Eigenschaften. Diese Veränderung der Eigenschaften werden durch eine Transferfunktion angegeben. Diese Transferfunktion bildet Elemente des Verbandes wieder auf Elemente des Verbands ab. Ist
(V, u, t) ein Verband und B ein Programmblock, dann ist die Transferfunktion
für den Programmblock B definiert durch fB : V → V .
Damit die Datenflussanalyse durchgeführt werden kann, muss die Transferfunktion f monoton sein. D.h. für alle x, y ∈ V mit x v y gilt: f (x) v f (y). Ist
diese Voraussetzung nicht erfüllt, konvergieren die Datenflussgleichungen i.A.
nicht und die Datenflussanalyse terminiert nicht. Die Forderung der Monotonie drückt in etwa aus, dass im Laufe der Analyse nur weitere Informationen
gewonnen werden, aber niemals Informationen verloren gehen dürfen.
Ist zusätzlich neben der Monotonie der Transferfunktion die Höhe des Verbands endlich, so ist die Terminierung der Datenflussanalyse garantiert. Die
Höhe eines Verbands V ist ein maximales n, so dass gilt: ⊥ = x1 @ x2 @ · · · @
xn = > mit xi ∈ V .
2.3. DATENFLUSSANALYSE
2.3.3
21
Iterative Vorwärtsanalyse
Die iterative Vorwärtsanalyse ist eine Möglichkeit, eine Datenflussanalyse durchzuführen. Dabei werden jedem Programmblock B zwei Eigenschaften zugeordnet: Die hereinfließenden Eigenschaften IN (B) und die herausfließenden Eigenschaften OU T (B). Um die eingehenden Eigenschaften für einen Programmblock
zu ermitteln, werden alle herausgehenden Eigenschaften der Vorgänger mit der
Verbandsverknüpfung kombiniert, die die Zusammenführung der Flussinformationen modelliert. Welche der beiden Operationen den Zusammenfluss modelliert, hängt von dem konkreten Verband ab. Hier wird davon ausgegangen, dass
die meet-Operation den Zusammenfluss modelliert:
IN (B) =
u
OU T (C)
C∈V org(B)
Diese neu berechnete Eigenschaft wird mit der Transferfunktion fB : V → V
entsprechend der Semantik des Blocks B verändert und liefert so die herausfließende Eigenschaft des Grundblocks:
OU T (B) = fB (IN (B))
Nach Festlegung einer geeigneten Startbelegung wird diese Berechnung für
jeden Programmblock durchgeführt und solange iteriert, bis sich die Eigenschaften nicht mehr ändern. Man spricht dann davon, dass die Datenflussgleichungen
einen Fixpunkt erreicht haben.
2.3.4
Modellierung von komplexen Verbänden
Je nach Art der Datenflussanalyse wird ein mehr oder weniger komplexer Verband benötigt. Es gibt nun mehrere Techniken, komplexe Verbände durch Kombination einfacher Verbände zu konstruieren.
Mit Hilfe des folgenden Satzes lassen sich z.B. die lokalen Variablen und
der Operandenkeller gesondert als Verbände modellieren, um dann zu einem
Schachteltypverband kombiniert zu werden.
Satz 2.1 (Kreuzprodukt von zwei Verbänden). Gegeben seien die Verbände
(V1 , u0 , t0 ) und (V2 , u00 , t00 ). Dann ist (V, u, t) mit
• V := (V1 × V2 ) = {(v, w)|v ∈ V1 , w ∈ V2 },
• x u y = (x1 , x2 ) u (y1 , y2 ) := ((x1 u0 y1 ), (x2 u00 y2 )) und
• xty = (x1 , x2 )t(y1 , y2 ) := ((x1 t0 y1 ), (x2 t00 y2 )) mit x, y ∈ V , x1 , y1 ∈ V1
und x2 , y2 ∈ V2
ebenfalls ein Verband.
Dieser Satz lässt sich verallgemeinern, so dass auch mehr als zwei Verbände
kombiniert werden können.
Die Äquivalenz von partiellen Ordnungen und Verbänden ermöglicht es
auch, einen Verband über eine partielle Ordnung zu definieren. Dies bietet sich
22
KAPITEL 2. GRUNDLAGEN
beispielsweise bei der Vererbungshierarchie zwischen Java-Klassen an, da es sich
bei der Klassenhierarchie um eine partielle Ordnung handelt.
V1
V2
...
Vn
V1
V2
...
Vn
Abbildung 2.4: Vereinigung paarweiser disjunkter Verbände zu einem neuen
Verband
Durch Vereinigung mehrerer paarweise disjunkter Verbände lässt sich ein
neuer Verbanden erzeugen, wenn ein neues Top- und Bottom-Element eingefügt
wird. Bild 2.4 zeigt ein Schema für dieses Vorgehen. Die Elemente der Verbände
werden vereinigt und die Operationen meet und join werden dem Bild entsprechend definiert.
2.3.5
Zusammenfassung
Mit einem geeigneten Verband und den Transferfunktionen lässt sich nun die
Datenflussanalyse durchführen, um die Typen für jede Programmstelle zu rekonstruieren. Diese Informationen dienen als Grundlage für den Sicherheitsbeweis im Sinne des Proof-Carrying Code. Die Transferfunktionen lassen sich in
einem funktionalen Kalkül modellieren. Dies hätte jedoch den Nachteil, dass
die Modellierung sehr unübersichtlich und weit entfernt von einer Implementierung wäre. Daher benutzt E. Rose einen operationalen Ansatz: Die Natural
Semantics.
2.4
Natural Semantics
Um mit Beweisen arbeiten zu können, ist ein Formalismus notwendig, auf dem
diese Beweise aufbauen. Daher sind bei der Anwendung von Proof-Carrying Code die Sicherheitsrichtlinien geeignet zu formalisieren, damit überhaupt Beweise
formuliert bzw. erzeugt werden können, die die Einhaltung dieser Sicherheitsrichtlinien beweisen. E. Rose benutzt zur Beschreibung der Sicherheitsrichtlinien, die in diesem Fall der Semantik der JVM entsprechen, den Formalismus der
Natural Semantics [Ka87].
2.4. NATURAL SEMANTICS
2.4.1
23
Inferenzregeln und Axiome
Die Natural Semantics ist eine operationale Methode zur Beschreibung von
Semantiken. Grundelemente der semantischen Beschreibung sind Inferenzregeln
und Axiome.
Im Allgemeinen hat eine Regel folgende Form:
J1 ∧ J2 ∧ ... ∧ Jk
J0
C
Der obere Teil dieser Regel besteht aus einer Menge von Formeln und wird
Prämisse genannt. Wenn alle Formeln der Prämisse wahr sind, so gilt die Formel J0 im unteren Teil. J0 wird auch Konklusion genannt.
Es gibt zwei Arten von Formeln: Folgerungen und Bedingungen. Die Konklusion – also der untere Teil der Regel – ist immer eine Folgerung. C ist immer
eine Bedingung, die die Anwendbarkeit der Regel einschränken soll. Sie wird
rechts neben die Regel geschrieben. Fehlt die Bedingung, dann gibt es keine
Einschränkung in der Anwendbarkeit der Regel.
Besitzt eine Regel keine Folgerungen in der Prämisse, so nennt man die
Regel ein Axiom. Man beachte, dass ein Axiom dennoch durch Bedingungen
eingeschränkt werden kann.
2.4.2
Folgerungen
Eine Folgerung hat die Form a ` c. Links vom Drehkreuz steht der Bedingungsteil a und rechts davon der Schluss c. Der Schluss ist ein Prädikat, das in
mehreren Formen auftreten kann. Diese Formen werden dadurch unterschieden,
dass unterschiedliche Symbole innerhalb des Prädikats benutzt werden. Das erste Argument vor diesem Symbol ist das Subjekt dieser Folgerung.
Wenn man beispielsweise in der statischen Semantik ausdrücken möchte,
dass ein Ausdruck E einen bestimmten Typ hat, dann würde die Folgerung
folgende Form haben: p ` E : τ . Man sagt dann, dass in der Umgebung p der
Ausdruck E den Typ τ besitzt. Der Doppelpunkt symbolisiert hier, dass es sich
um eine statische Semantik handelt. Vor dem Doppelpunkt steht als Subjekt
der Regel der Ausdruck E.
2.4.3
semantische Definitionen
Mit mehreren Axiomen und Inferenzregeln lassen sich nun semantische Definitionen aufstellen. Das Prinzip ist es, aus diesen Axiomen mit Hilfe der Regeln
neue Informationen zu gewinnen. Ein solches Regelsystem ist vergleichbar mit
einer Grammatik.
Eine Grammatik lässt sich auf zwei Arten benutzen: Einmal als Konstruktionsanleitung, um Worte der Grammatik zu erzeugen, und zum anderen als
24
KAPITEL 2. GRUNDLAGEN
Erkennungssystem, mit dem geprüft werden kann, ob bestimmte Worte der
Grammatik angehören.
Diese beiden Betrachtungsweisen einer Grammatik gibt es auch bei der Natural Semantics.
2.4.4
Die verschiedenen Formen von Folgerungen
Mit der Natural Semantics lassen sich nicht nur statische Semantiken beschreiben, sondern auch dynamische Semantiken und Übersetzungen von einer Sprache in eine andere.
Die Folgerung s1 ` E ⇒ s2 bedeutet z.B., dass in Zustand s1 die Auswertung des Ausdrucks E zu dem neuen Zustand s2 führt. Der Zustand s1 enthält
dabei alle Variablen, die in dem Ausdruck vorkommen. Dies ist ein sehr einfaches Beispiel. In der Praxis hängt das Aussehen der Folgerungen stark von den
Eigenschaften der betrachteten Sprache ab.
Übersetzungen werden in der Form p ` E1 → E2 ausgedrückt. Dabei enthält
p Annahmen über die Bezeichner. E1 ist ein Ausdruck aus der Quellsprache und
E2 der entsprechende Ausdruck der Zielsprache.
E. Rose benutzt die zuletztgenannte Form, um die Übersetzung von JavaProgrammen nach Java-Bytecode zu modellieren. Die Typsicherheit, die an dieser Stelle wesentlich wichtiger ist, spezifiziert sie durch eine statische Semantik.
2.4.5
Beispiel
Die dynamische Semantik der bedingten Anweisung if-then-else könnte folgendermaßen modelliert werden:
p ` Cond, S ⇒ true, S 0 ∧ p ` B1 , S 0 ⇒ S 00
p ` if (Cond) B1 else B2 , S ⇒ S 00
p ` Cond, S ⇒ false, S 0 ∧ p ` B2 , S 0 ⇒ S 00
p ` if (Cond) B1 else B2 , S ⇒ S 00
Es gibt hier zwei Regeln, die sich nur in der Prämisse unterscheiden. Die
Konklusion besagt: In der Umgebung p geht der Zustand S durch die Ausführung
von if (Cond) B1 else B2 in den Zustand S 00 über. Damit die Konklusion gültig
ist, müssen die Prämissen ebenfalls gültig sein. Es stellt sich hier auch die Frage,
wie der Zustand S 00 ermittelt wird.
Die erste Regel enthält in der Prämisse die Aussage, dass die Auswertung
der Bedingung Cond wahr ergibt und der Zustand von S nach S 0 wechselt.
Weiterhin ergibt die Ausführung des Blocks B1 einen Zustandsübergang von S 0
nach S 00 . Falls die Aussagen der Prämisse gelten, ist dieser Zustand S 00 auch
der Zustand, der durch die Ausführung des if-Konstrukts erreicht wird.
Analog verhält sich die Prämisse der zweiten Regel. Hier wird jedoch davon
ausgegangen, dass die Bedingung Cond nicht wahr ist und somit der Block B2
ausgeführt wird. S 00 ist wieder der Zustand, der nach Ausführung des Blocks
2.4. NATURAL SEMANTICS
25
B2 gilt und somit auch nach Ausführung des if-Konstrukts.
In einer vollständigen semantischen Beschreibung müssten noch Regeln für
die Ausführung von Programmblöcken und für die Auswertung von Ausdrücken
existieren, die wieder Zustandsübergänge modellieren. Am Ende dieser Regelkette müssten schließlich Axiome stehen, um die Gültigkeit der Regel zu beweisen. Auch die Zustände selbst müssten genauer definiert werden, um z.B.
Variablenbindungen zu modellieren.
26
KAPITEL 2. GRUNDLAGEN
Kapitel 3
Konzeption
In diesem Kapitel soll der Ablauf der leichtgewichtigen Bytecode-Verifikation
(Lightweight Bytecode Verification) beschrieben werden [RR98] [Ro98]. Weiterhin sollen Erweiterungsmöglichkeiten diskutiert werden.
3.1
Überblick über die leichtgewichtige Verifikation
Produzent
Phase 1
Java Programm
Java−
Übersetzer
Zertifizierer
zertifizierter Bytecode
Konsument
Abbruch
Nein
Prüfung
korrekt?
Phase 2
JVM−
Bytecode
Zertifikat
Bytecode−Überprüfung
Typmodell
der JVM
Ja
Ausführung
auf JVM
Abbildung 3.1: Ablauf der Lightweight Bytecode Verification
Die leichtgewichtige Verifikation von Java-Bytecode basiert auf der in Kapitel 2.1 beschriebenen Technik des Proof-Carrying Codes. Bild 3.1 zeigt den
Ablauf der beiden Phasen. In der ersten Phase wird nach der Übersetzung des
27
28
KAPITEL 3. KONZEPTION
Bytecode ein Zertifikat erstellt. Dieses Zertifikat beinhaltet Informationen, aus
denen sich leicht für jede Stelle im Bytecode sämtliche Typinformationen des
Kellers und der lokalen Variablen rekonstruieren lassen. Die zweite Phase prüft
vor der Ausführung, ob die aus dem Zertifikat rekonstruierten Typinformationen zu dem Bytecode passen.
Für jede dieser beiden Phasen werde ich ein Programm implementieren. Als
Eingabe erhält das erste Programm eine Java-Klassendatei, die von einem JavaÜbersetzer erzeugt wurde. Für jede Methode in dieser Klassendatei erzeugt das
Programm ein Zertifikat. Diese Zertifikate bilden dann zusammen mit der Klassendatei die Eingabe für das zweite Programm. In der zweiten Phase kann mit
Hilfe der Zertifikate jede Methode der Klassendatei effizient auf Typsicherheit
geprüft werden.
Es folgt nun eine genauere Beschreibung dieser beiden Phasen.
3.2
Die Zertifizierungsphase
Java−Klassendatei
Verband
Datenflussanalyse
Schachteltypen
Zertifikaterstellung
(Komprimierung)
Datenstruktur für Schachteltypen mit
Abbildung gemäß Bytecode−
Semantik auf Typebene
für jede Programmstelle/Grundblock in jeder Methode
Welche Informationen können
nicht bei linearem Durchlauf durch
den Bytecode ermittelt werden?
Zertifikat
Abbildung 3.2: grober Ablauf der Zertifizierung
Bild 3.2 illustiert die erste Phase der leichtgewichtigen Verifikation, in der für
jede Methode ein Zertifikat erstellt wird, aus dem sich für jede Programmstelle die Typinformationen bestimmen lassen. Diese Typinformationen enthalten
Informationen über alle Speicherbereiche der JVM, in denen dieselbe Speicherzelle zu verschiedenen Zeitpunkten der Programmausführung unterschiedliche
Typen enthalten kann. Felder von Klassen werden daher nicht erfasst, da diese
zu jedem Zeitpunkt denselben Typ enthalten. Übrig bleiben somit die lokalen
Variablen und der Operandenkeller. Alle Typen dieser beiden Bereiche werden
3.2. DIE ZERTIFIZIERUNGSPHASE
29
zusammenfassend Schachteltyp genannt.
Die Schachteltypen jeder Programmstelle einer Methode können durch eine Datenflussanalyse ermittelt werden (Kapitel 2.3). Anschließend werden die für die
zweite Phase wichtigen Informationen aus diesen Schachteltypen extrahiert und
bilden das zu dem Bytecode gehörende Zertifikat.
3.2.1
Die Datenflussanalyse
Eine zentrale Rolle bei der Datenflussanalyse spielen der Verband und die Transferfunktionen.
Der Verband modelliert die Schachteltypen und deren Beziehungen untereinander, d.h. wie z.B. Schachteltypen kombiniert werden müssen, wenn eine
Instruktion mehr als einen Vorgänger besitzt.
Die Transferfunktionen bilden die Semantik der Instruktionen auf die Schachteltypen ab. Damit wird modelliert, welche Typen die einzelnen Intstruktionen
auf dem Operandenkeller und in den lokalen Variablen erwarten und wie dieser Schachteltyp von der Instruktion verändert wird. Zum Beispiel erwartet die
Instruktion iadd auf dem Operandenkeller zwei int-Typen, nimmt diese von
Keller und legt schließlich die Summe dieser beiden Operanden wieder auf den
Keller.
Jede Methode der Klasse wird unabhängig von den anderen Methoden bearbeitet. Ruft eine Methode eine zweite Methode auf, so wird angenommen,
dass die zweite Methode korrekt ist. Es wird lediglich geprüft, ob die auf dem
Keller abgelegten Parameter zu den Typen der Methodensignatur passen.
Die Datenflussanalyse wird also für jede Methode der Java-Klasse einzeln durchgeführt. Damit erhält auch jede Methode ihr eigenes Zertifikat.
Initialisierung der Schachteltypen
Vor der Ausführung einer Methode erhalten die lokalen Variablen die der Methode übergebenen Parameter. Dies bedeutet für die Datenflussanalyse, dass
der Schachteltyp der ersten Instruktion die Typen der Methodenparameter enthalten muss. Wenn die Methode also zwei int-Parameter besitzt, müssen die
ersten beiden lokalen Variablen des Schachteltyps der ersten Instruktion ebenfalls int-Typen enthalten. Dies gilt jedoch nur für statische Methoden. Bei
nicht statischen Methoden beinhaltet die erste lokale Variable den Typ der
zugehörigen Klasse – dies entspricht der this-Referenz. Die Typen der Methodenparameter folgen dann ab der zweiten lokalen Variable. Die übrigen lokalen
Variablen dieser Methode werden mit dem ⊥-Element des Verbands initialisiert. Dies signalisiert, dass diese lokalen Variablen nicht lesend benutzt werden
dürfen, da ihr Inhalt unbekannt ist. Der Operandenkeller ist an dieser Stelle
leer. Abbildung 3.3 zeigt ein Beispiel für die Initialisierung des Schachteltyps
der ersten Instruktion.
Die übrigen Schachteltypen, die nicht zur ersten Instruktion der Methode
gehören, werden mit >-Elementen initialisiert. Dies zeigt an, dass noch keine
30
KAPITEL 3. KONZEPTION
class A {
static void m1 (int a, int b) { ... }
void m2 (int a, String b) { ... }
};
Schachteltyp
lokale Variablen
Initialisierung des Schachteltyps
der ersten Instruktion
Keller
Methode m1
int
int
leer
Methode m2
A
int String
leer
Abbildung 3.3: Beispiel für die Initialisierung des Schachteltyps der ersten Instruktion anhand der Methodensignatur
Informationen über die Typen verfügbar sind.
Der zugrundeliegende Verband
Der Verband für die Schachteltypen wird sukzessive aus einfacheren Verbänden
kombiniert (siehe Kapitel 2.3.4). Grundlage bildet hier ein Verband, der Grundtypen und Klassen enthält. Die Abhängigkeiten zwischen den einzelnen Elementen werden im wesentlichen durch die Klasenhierarchie bestimmt. Aus diesem
Grundkomponentenverband wird zum einen ein Verband für die lokalen Variablen bestehend aus einer konstanten Anzahl von Elementen erzeugt und zum
anderen ein Verband für den Keller, dessen Elementanzahl variabel ist. Diese
beiden Verbände werden schließlich zu dem endgültigen Schachteltypverband
kombiniert.
Die einzelnen Elemente des Schachteltypverbands werden in der Implementierung nicht komplett im Speicher erzeugt. Stattdessen werden die Elemente
und ihre Abhängigkeiten bei Bedarf aus den Grundelementen berechnet. Die
Implementierung wird also nur die folgende Konstruktionsvorschrift enthalten,
die definiert, wie der Schachteltypverband aus dem Grundkomponentenverband
zusammengesetzt wird.
Abbildung 3.4 zeigt einen einfachen Grundkomponentenverband, der vier
Klassen enthält. Die Klassen C und D sind von der Klasse A abgeleitet. Jede
Klasse ist direkt oder indirekt von Object abgeleitet. Der Grunddatentyp int
besitzt keine Relation zu den Klassen.
Die Elemente des Verbands enthalten von oben nach unten immer mehr
Informationen. Das >-Element symbolisiert, dass noch keine Informationen
verfügbar sind und das ⊥-Element gibt an, dass ein Typ nicht eindeutig bestimmbar ist. Zwischen diesen beiden Extremen liegen die Typen, die in der
JVM auftreten können. Während der Datenflussanalyse ist es natürlich sinnvoll, in dem Verband nur die Elemente zu haben, die auch tatsächlich in der
untersuchten Methode benutzt werden. Dazu wird der Verband während er Datenflussanalyse erweitert, sobald ein noch nicht in dem Verband vorhandener
Typ z.B. aus dem Konstantenbereich auf dem Operandenkeller abgelegt wird.
Während der Datenflussanalyse werden neue Typinformationen dadurch gewonnen, dass sich ein Typ bezogen auf den Verband dahingehend verändert,
3.2. DIE ZERTIFIZIERUNGSPHASE
31
D
int
C
A
B
java.lang.Object
Abbildung 3.4: Beispiel für einen Grundkomponentenverband, aus dem der
Schachteltypverband konstruiert wird
dass er sich dem ⊥-Symbol annähert. Wenn die u-Operation (meet) auf zwei
Elemente des Verbands ausgeführt wird, so befindet sich das Ergebnis entweder
unterhalb der beiden Elemente oder es ist gleich einem der beiden Elemente.
Zum Beispiel ergibt D u B = java.lang.Object oder int u top = int.
Spätere Erweiterungen werden neben den Transferfunktionen diesen Grundkomponentenverband erweitern. Die Art und Weise, wie der Schachteltypverband aus diesem Verband konstruiert wird, ist von der Erweiterung des Grundkomponentenverbands unabhängig. In Abbildung 3.5 ist ein Verband zu sehen,
der nach Satz 2.1 aus einen dreielementigen Grundkomponentenverband konstruiert wurde (mit den Elementen ⊥, > und int). Dieser konstruierte Verband
modelliert den Teil des Schachteltyps, der den Typen der lokalen Variablen entspricht. Die Anzahl der enthaltenen Elemente ist davon abhängig, wie viele
lokale Variablen die zu untersuchende Methode benötigt. In dem Beispiel sind
dies drei lokale Variablen.
Ein ähnlicher Verband wird für die Kellertypen angeben. Der Hauptunterschied zu dem Verband der lokalen Variablen ist der, dass die Anzahl der
enthaltenen Grundkomponenten variabel ist, da der Keller ja an verschiedenen Programmstellen unterschiedliche viele Elemente enthalten kann. Dieser
Verband wird daher durch Vereinigung mehrerer Verbände konstruiert (vgl.
Abbildung 2.4 in Kapitel 2.3.4). Wenn der Operandenkeller maximal zwei Elemente enthalten kann, werden drei Verbände vereinigt: Der Verband bestehend
aus dem leeren Keller, ein Verband mit einem einelementigen Keller und ein
Verband mit einem zweielementigen Keller. Abbildung 3.6 zeigt das Ergebnis
dieser Vereinigung.
Die Beispiele aus Abbildung 3.5 und 3.6 zeigen, dass der Schachteltypver-
32
KAPITEL 3. KONZEPTION
(int,
(
(
,
,
,
(
,
,
)
, int)
(
, int,
)
)
(
, int, int)
(
, int,
(int,
)
)
, int)
(int,
,
(
,
(int, int,
)
,
)
(int, int, int)
,
)
(int, int,
(
,
, int)
(
,
,
(
,
,
)
(
,
, int)
(
,
,
)
(int,
,
)
)
(
(
,
, int)
)
, int, int)
(
(int,
(int,
, int,
, int,
(
,
)
,
(
(
,
,
)
)
)
Abbildung 3.5: Ein Verband für die Typen der lokalen Variablen
unknown stack
]
[
,
[int]
[
, int]
[
[
[
]
[]
,
]
]
[int, int]
[int,
]
[
]
,
[int,
[
]
[
,
]
, int]
invalid stack
Abbildung 3.6: Ein Verband für die Typen des Operandenkeller
)
,
, int)
3.2. DIE ZERTIFIZIERUNGSPHASE
33
band, der durch eine Kreuzproduktbildung aus dem Verband der lokalen Variablen und dem Verband des Operandenkellers zusammengesetzt wird, sehr
komplex sein kann – insbesondere, wenn der Grundkomponentenverband aus
mehr als drei Elementen besteht. Für die Beispiele ergäbe sich ein Schachteltypverband mit 405 Elementen. An diesem Beispiel lässt sich auch erkennen,
dass es keinen Sinn macht, in der Implementierung die Elemente des Schachteltypverbandes und deren Beziehungen untereinander vollständig aufzuzählen
und im Speicher zu halten.
In dem Ansatz von E. Rose wird nur der Grunddatentyp int berücksichtigt. Es fehlen also die Grunddatentypen float, double und long. Die Typen
boolean, char, byte und short brauchen nicht in dem Verband modelliert
zu werden, da diese von der JVM auf int-Typen abgebildet werden. Dies gilt
jedoch nur solange, wie keine Reihungen (arrays) unterstützt werden. Denn eine Referenz auf eine boolean-Reihung ist nicht kompatibel zu einer Referenz
auf eine byte-Reihung. Wie sich Reihungen in den Grundkomponentenverband
einfügen, werde ich neben anderen Erweiterungen in Abschnitt 3.4 diskutieren.
Die Transferfunktionen
Fast jede Bytecode-Instruktion verändert den Keller oder die lokalen Variablen. Für die Schachteltypen bedeutet dies, dass sich die enthaltenen Typen
verändern. Diese Typsemantik der Instruktionen wird durch die Transferfunktionen modelliert.
Um jedes Java-Bytecode-Programm analysieren zu können, muss für jede
Bytecode-Instruktion eine Transferfunktion definiert sein. E. Rose beschränkt
sich in ihrem Ansatz auf eine Untermenge der Instruktionen der Java Virtual Machine. Der Hauptgrund für diese Beschränkung ist die Komplexität der
Formalisierung. Viele Instruktionen wurden weggelassen, weil sie zu den unterstützten Instruktionen konzeptuell sehr ähnlich sind und den Korrektheitsbeweis entsprechend unübersichtlich hätten werden lassen. In dieser Arbeit muss
darauf keine Rücksicht genommen werden, da der Schwerpunkt in der Implementierung und Evaluierung liegt. Die Implementierung dieser Instruktionen
ist daher trivial.
Andere Instruktionen hingegen sind sehr schwierig zu modellieren wie z.B.
Unterprogrammaufrufe durch die jsr-Instruktion. Der Grund dafür ist zum
einen, dass nach Abarbeitung des Unterprogramms nicht unbedingt wieder
zurück zur Aufrufstelle gesprungen wird. Desweiteren können die von dem Unterprogramm nicht benutzten lokalen Variablen unterschiedliche Typen enthalten abhängig davon, von welcher Programmstelle aus das Unterprogramm
aufgerufen wurde. Diese verschiedenen Typen müssen innerhalb des Unterprogramms erhalten bleiben und dürfen keinesfalls mit der u-Operation des
Verbands zusammengefasst werden. Es gibt also je nach Aufrufstelle innerhalb des Unterprogramms pro Instruktion mehrere verschiedene Schachteltypen. Dies macht die Datenflussanalyse wesentlich schwieriger [Le01]. Eine sehr
einfache Lösung für das Unterprogrammproblem wäre das Ersetzen der Unter-
34
KAPITEL 3. KONZEPTION
programmaufrufe durch das Unterprogramm selbst. Dies würde natürlich gerade
bei großen Unterprogrammen den Bytecode erheblich vergrößern. Da Unterprogramme von dem Sun-Java-Übersetzer jedoch nur durch finally-Konstrukte
erzeugt werden, sind sie relativ selten. Daher werde ich mich in meiner Implementierung auf andere Erweiterungen konzentrieren.
Neben der Modifikation des Schachteltyps prüfen die Transferfunktionen,
ob die Ausführung entsprechend der JVM-Spezifikation mit dem vorliegenden
Schachteltyp überhaupt zulässig ist. So wird ein Kellerüberlauf geprüft und ob
passende Typen auf dem Keller und in den lokalen Variablen für die jeweilige
Instruktion vorliegen.
class A {
int mein_feld;
};
Konstantenbereich[1]
lokale Variablen
Vor der Ausführung
(...)
Nach der Ausführung
... A int
... A
putfield[1]
...
(...)
Feldreferenz
Klassenname
Feldname und Typ
Keller
pop
pop
A
int
mein_feld
int
Prüfung der Typkompatiblität
A Prüfung der Typkompatiblität
...
Abbildung 3.7: Die Transferfunktion für die Instruktion putfield
Beispielsweise benötigt die Instruktion putfield als Operanden eine Referenz und einen Wert auf dem Keller. Das Feld, das diesen Wert erhalten soll,
wird über den Konstantenbereich ermittelt. Ein entsprechender Index in den
Konstantenbereich ist Teil der Instruktion. Die Feldreferenz aus dem Konstantenbereich enthält einen Klassennamen, einen Feldnamen und den Typ des Feldes. Der Wert auf dem Keller muss einen zum Feld kompatiblen Typ besitzen
und die Referenz auf dem Keller muss von gleichen Typ oder eine Unterklasse
des Klassennamens sein. Bild 3.7 zeigt die Arbeitsweise der Transferfunktion
für die Instruktion putfield, bei der nur der Operandenkeller verändert wird.
Die lokalen Variablen bleiben unverändert.
Die Typkompatiblität hängt mit der Klassenhierarchie zusammen. Da diese
auch in dem Verband enthalten ist, wird die Typkompatiblität auch durch den
Verband modelliert. Dies hat den Vorteil, dass Grundtypen und Klassen nicht
gesondert behandelt werden müssen. Angenommen der Typ auf dem Keller ist
t1 . Dann kann ein Wert dieses Typs nur einem Feld vom Typ t2 zugewiesen
werden, wenn t1 u t2 = t2 ist.
Bild 3.8 zeigt, wie man dies auch grafisch anhand des Hasse-Diagramms
ermittelt. Um zu prüfen, ob A kompatibel zu Object ist, wird ein Weg von A
nach unten Richtung ⊥-Symbol zu Object gesucht. Existiert dieser Weg, so
ist A kompatibel zu Object. Genau dies drückt die Bedingung A u Object =
3.2. DIE ZERTIFIZIERUNGSPHASE
35
A
int
Object
Abbildung 3.8: Ein einfacher Verband mit zwei Klassen
Object aus. Es sollte auch klar sein, dass int kompatibel zu sich selbst ist.
Wenn die Transferfunktionen und der Verband implementiert sind, lässt
sich die Datenflussanalyse wie in Kapitel 2.3.3 beschrieben durchführen. Man
erhält – wie in Abbildung 3.2 gezeigt – einen Schachteltyp für jede Instruktion
jeder Methode. Aus diesen Typinformationen wird nun im zweiten Teil der
Zertifizierungsphase ein Zertifikat erzeugt, dass zwei wesentliche Eigenschaften
besitzen muss: Zum einen muss es möglichst klein sein und zum anderen muss
die Fälschungssicherheit gegeben sein.
3.2.2
Die Kompression des Zertifikats
Die geringe Größe des Zertifikats wird dadurch erreicht, dass nur die Informationen gespeichert werden, die bei einem sequentiellen Durchlaufen des Bytecodes nicht ermittelt werden können. Dies bedeutet für die zweite Phase, dass
durch das Zertifikat die Datenflussanalyse – und insbesondere die Fixpunktsuche – nicht durchgeführt werden muss. Durch das Fehlen dieser Fixpunktsuche
entfällt der ansonsten hohe Speicherplatzbedarf der Datenflussanalyse. Dies ist
gerade deshalb wichtig, weil die zweite Phase der leichtgewichtigen Verifikation
auf der Java Card durchgeführt werden soll und dort der Speicher sehr begrenzt
ist.
Beim sequentiellen Durchlaufen durch den Bytecode kann der Schachteltyp
nicht immer aus den bereits bekannten Informationen bestimmt werden. Gerade an Programmstellen, für deren Schachteltypberechnung die Datenflussanalyse mehrere Iterationen benötigt, unterscheidet sich der sequentiell bestimmte
Schachteltyp von dem aus der Datenflussanalyse. Diese Schachteltypen werden in der Datenflussanalyse durch eine Verknüpfung mit der u-Operation des
Verbands berechnet. Beim sequentiellen Durchlauf sind in der Regel für diese
Verknüpfung nicht alle Operanden verfügbar. Statt die übrigen Operanden in
dem Zertifikat zu speichern, wird sinnvollerweise nur das Endergebnis dieser
Operation angegeben. Dies hat den Vorteil, dass die aufwändige u-Operation
beim sequentiellen Durchlauf überhaupt nicht mehr durchgeführt werden muss.
In den Zertifikaten werden außerdem keine vollständigen Schachteltypen gespeichert, sondern nur die Differenz des durch den sequentiellen Durchlauf bestimmten Schachteltyps und dem aus der Datenflussanalyse ermittelten Schach-
36
KAPITEL 3. KONZEPTION
teltyp. Dies bietet sich an, weil sich die meisten Schachteltypen im Laufe der
Datenflussanalyse nicht oder nur wenig ändern und damit die Zertifikate entsprechend wenig Einträge besitzen. Die Berechnung der Differenzen ist sehr
einfach und soll durch folgendes Beispiel erläutert werden. Angenommen die
beiden Schachteltypen haben folgenden Inhalt:
Schachteltyp
bei sequentiellem Durchlauf
aus Datenflussanalyse
lokale Variablen
(int, int)
(int, ⊥)
Operandenkeller
()
()
Der einzige Unterschied in diesen beiden Schachteltypen ist die zweite lokale
Variable. Daher braucht in dem Zertifikat auch nur gespeichert zu werden, dass
die zweite lokale Variable das ⊥-Symbol enthält. Es wird also ein Index und ein
Typ in dem Zertifikat gespeichert.
Die Typen des Kellers lassen sich ebenfalls über Indizes ansprechen. Um
in dem Zertifikat keine Unterscheidung zwischen lokalen Variablen und Keller
machen zu müssen, könnte der Kellerindex bei der Anzahl der lokalen Variablen beginnen. Ist die Anzahl der lokalen Variablen wie in dem obigen Beispiel
2, dann werden die lokalen Variablen mit 0 und 1 indiziert und das unterste
Kellerelement entspricht dem Index 2.
Damit das Zertifikat nur noch aus Zahlen besteht, könnten die Typen selbst
auch indiziert gespeichert werden. Dazu muss in dem Zertifikat eine Liste der
verwendeten Typen angegeben werden. Diese weitere Indizierung lohnt sich
spätestens dann, wenn zwei gleiche Typen in dem Zertifikat auftreten. In den
einzelnen Einträgen des Zertifikats werden dann nur noch aus Zahlen bestehende Tupel gespeichert. Ein Tupel besteht somit aus einem Index innerhalb
des Schachteltyps und aus einem Index auf die Typenliste. Ein weiterer Vorteil
dieser Indizierung liegt darin, dass häufig in den Zertifikaten auftretene Typen
einen festen Index bekommen könnten, so dass diese Typen nicht in der Liste
gespeichert werden müssen. Beispielsweise könnte das ⊥-Element, das oft in den
Zertifikaten vorkommt, grundsätzlich den Index 0 erhalten. Diese weitere Indizierung bringt nur einen Speicherplatzvorteil um einen konstanten Faktor. Aus
diesem Grund wird diese Indizierung in der folgenden formalen Beschreibung
nicht berücksichtigt.
f in
e ∈ Eintraege = Programmstellen −→ Schachteldelta
pp ∈ Programmstellen = N0
δ ∈ Schachteldelta = (Index × Typ)∗
i ∈ Index = N0
mt ∈ T yp = KlassenID | Grunddatentyp | ⊥
Die Schachteltypeinträge werden hier als endliche Abbildung modelliert. Dadurch werden alle Programmstellen der Methode auf Einträge abgebildet, die
entweder leer sind oder aus einem oder mehreren Tupeln bestehen. Diese Tupel wiederum bestehen aus einem bei Null beginnenden Index und aus einem
3.2. DIE ZERTIFIZIERUNGSPHASE
37
Element aus dem Grundkomponentenverband. Die Indizes bezeichnen wie oben
beschrieben entweder lokale Variablen oder Kellerelemente des Schachteltyps.
E. Rose schlägt vor, statt des Typindex eine Typdifferenz zu speichern. Diese
Differenz bezeichnet, um wieviele Stufen ein Typ Richtung ⊥-Symbol durch die
Anwendung des Zertifikats verändert wird. Für Referenzen bedeutet dies, dass
bei einer Differenz von x ein Typ zu seinem x-ten Obertyp verändert wird. Der
Typ Object und alle Grunddatentypen wie int, float usw. werden bei dieser
Typveränderung zum ⊥-Symbol. Allgemein ist diese Differenz der Abstand der
beiden Typen in dem Verband.
Diese Speicherung der Abstände funktioniert jedoch nur, wenn jeder Typ in
dem Verband einen eindeutigen Typ Richtung ⊥-Symbol besitzt. Das >-Symbol
spielt hier keine Rolle, da dies in der zweiten Phase nicht auftritt. Probleme gibt
es jedoch, wenn in dem Verband der Typ null auftritt, der für eine nicht initialisierte Referenz steht, die beispielsweise durch die Instruktion aconst null
erzeugt wurde. Von der null-Referenz kann es dann in dem Verband mehrere Wege zu dem dem ⊥-Symbol geben. Die Angabe einer Differenz ist somit
nicht mehr eindeutig. Abbildung 3.9 zeigt einen solchen Verband, in dem die
Null-Referenz keinen eindeutigen Weg Richtung ⊥-Symbol besitzt.
null−Referenz
int[]
int
java.lang.Object[]
A
java.lang.Object
Abbildung 3.9: Ein Verband mit der null-Referenz
Diese Differenzen sind auch problematisch, wenn die leichtgewichtige Verifikation um Schnittstellen erweitert werden soll. Bei Schnittstellen gibt es Mehrfachvererbung und somit kann ein Typ auch mehrere Obertypen besitzen.
Neben den Schachteltypeinträgen benötigt das Zertifikat noch eine Menge
von Programmstellen, für die während der Überprüfungsphase Schachteltypen
zwischengespeichert werden müssen. Diese Schachteltypen werden im Laufe des
Überprüfungsalgorithmus mehrfach für Vergleiche benötigt. Dieser Algorithmus wird in Abschnitt 3.3.1 beschrieben. Dort werde ich auch näher erläutern,
warum in dem Zertifikat neben den Schachteltypeinträgen zusätzlich diese Liste
von Programmstellen benötigt wird.
Das Zertifikat hat damit folgenden Aufbau:
38
KAPITEL 3. KONZEPTION
zert ∈ Zertifikat = Eintraege × Markierungen
f in
l ∈ Markierungen = Programmstellen −→ (true | false)
Die Markierungen bezeichnen die oben erwähnten zu speichernden Schachteltypen. Diese werden ähnlich wie die Einträge über eine endliche Abbildung
modelliert.
Um die einzelnen Einträge des Zertifikats zu bestimmen, ist es am einfachsten, den Überprüfungsalgorithmus der zweiten Phase direkt nach der Datenflussanalyse einmal durchzuführen. Dabei wird das Zertfikat durch einen Vergleich der aus der Datenflussanalyse ermittelten und der während der Ausführung des Überprüfungsalgorithmus bestimmten Schachteltypen erzeugt. Wenn
die beiden Schachteltypen unterschiedlich sind, ist ein Eintrag im Zertifikat notwendig. Ähnlich verhält es sich mit den Markierungen. Die Programmstellen,
deren Schachteltyp später noch einmal benötigt werden, werden während der
Ausführung des Algorithmus markiert. Am Ende lässt sich aus den Markierungen und den Schachteltypunterschieden das gewünschte Zertifikat erzeugen.
3.3
Die Überprüfungsphase
Java−Klassendatei
Zertifikat
Bytecode−Überprüfung
(Algorithmus von E.Rose)
Abbruch Nein
Verband
Datenstruktur für Schachteltypen mit
Abbildung gemäß Bytecode−
Semantik auf Typebene
Zertifikat
gültig?
Ja
Ausführung auf JVM
Abbildung 3.10: grober Ablauf der Bytecode-Überprüfung
Die zweite Phase benutzt das Zertifikat aus der ersten Phase, um die in
der Datenflussanalyse berechneten Typinformationen zu rekonstruieren. Der
Bytecode wird einmal sequentiell durchlaufen. An den Stellen, an denen die
Datenflussanalyse mehrere Durchläufe gebraucht hat, um die Typinformationen
zu berechnen, existieren entsprechende Einträge in dem Zertifikat. Bild 3.10
zeigt, dass auch hier der Verband aus der ersten Phase sehr wichtig für die
Überprüfung ist.
3.3. DIE ÜBERPRÜFUNGSPHASE
39
Da die Gültigkeit der aus dem Zertifikat rekonstruierten Typen überprüft
wird, sind die Zertifikate fälschungssicher, d.h. durch geschickt geänderte Zertifikate lässt sich ein typunsicheres Programm nicht durch die Überprüfungsphase
schleusen. Diese Phase führt im wesentlichen die letzte Iteration der Datenflussanalyse durch, ohne alle Schachteltypen zwischenzuspeichern. Insbesondere wird geprüft, ob alle Instruktionen mit den rekonstruierten Schachteltypen
ausführbar sind. Es wird also in dieser Phase eine Beweisüberprüfung im Sinne
des Proof-Carrying Code durchgeführt.
Ein formaler Beweis der Korrektheit und Fäschungssicherheit der Überprüfung würde die Äquivalenz der zweiten Phase mit der normalen BytecodeVerifikation nachweisen. Dazu ist selbstverständlich eine Formalisierung der normalen Bytecode-Verifikation und der leichtgewichtigen Verifikation notwendig.
Das dazu notwendige Vorgehen werde ich in Kapitel 4 skizzieren.
3.3.1
Der Überprüfungsalgorithmus
Der folgende Algorithmus ist aus [RR98] entnommen. Die wesentlichen Datenstrukturen neben dem Zertifikat und dem Bytecode sind zwei Mengen, die
gemerkte und zurückgestellte Schachteltypen mit ihrer zugehörigen Programmstelle enthalten.
Der Algorithmus speichert die rekonstruierten Typen nur in Ausnahmefällen.
Das heißt, dass im Optimalfall nur der aktuelle Schachteltyp im Speicher gehalten wird. Jedoch können z.B. bedingte Sprünge dazu führen, dass Schachteltypen später noch einmal für Vergleiche benötigt werden. Diese Schachteltypen
werden dazu in der Menge gemerkt abgespeichert. Auf diese Menge greift der
Algorithmus zurück, wenn der Bytecode einen Rücksprung in bereits geprüfte
Bereiche enthält. Dann muss nämlich geprüft werden, ob der aktuelle Schachteltyp mit dem Schachteltyp des Sprungziels kompatibel ist. Diese Prüfung
kann natürlich erst dann durchgeführt werden, wenn beide Schachteltypen bekannt sind. Es muss also grundsätzlich bei Instruktionen, die zwei verschiedene
Vorgängerinstruktionen besitzen, ein Schachteltyp zwischengespeichert werden.
Der Schachteltyp der zuerst besuchten Vorgängerinstruktion wird mit seiner
Programmstelle in der Menge gemerkt gespeichert, der andere Schachteltyp
wird später der aktuelle Schachteltyp sein. Abbildung 3.11 zeigt dazu ein Beispiel. Hierbei handelt es sich um ein if-then-else-Konstrukt. Die Programmstelle 11 muss dabei gespeichert werden, weil diese beim Bearbeiten von Block
4 noch einmal benötigt wird. Hier muss geprüft werden, ob der Ergebnisschachteltyp von Programmstelle 10 zu dem vorher berechneten Eingangsschachteltyp
von Programmstelle 11 kompatibel ist.
Welche Stellen mit ihrem Schachteltyp konkret gespeichert werden müssen,
wird in dem Zertifikat angegeben. Der Algorithmus kann nicht vorhersehen,
welche Schachteltypen später noch einmal benötigt werden, ohne das ganze Programm betrachtet zu haben. Fehlt dem Algorithmus bei der späteren Prüfung
die gemerkte Programmstelle (in diesem Beispiel die Programmstelle 11 mit
ihrem Schachteltyp) zum Vergleich der Schachteltypen, so wird die Methode
als unsicher zurückgewiesen.
An diesem Beispiel ist auch die Prüfreihenfolge zu erkennen. Bei beding-
40
KAPITEL 3. KONZEPTION
boolean boolsches_nicht ( boolean x ) {
if ( x ) x = false;
else x = true;
return x;
}
1
2
4:
5:
6:
0:
1:
iconst_0
istore_0
goto −> 11
3
iload_0
ifeq −> 9
4
Block 4 wird zuletzt geprüft
9: iconst_1
10: istore_0
11: iload_0
12: ireturn
Vergleich der
Schachteltypen
von Anweisung
10 und 11
Abbildung 3.11: Beispiel für eine zu merkende Programmstelle
ten Sprüngen setzt der Algorithmus die Überprüfung beim direkten Nachfolger
fort, falls dieser noch nicht geprüft wurde. Damit auch das bedingte Sprungziel nicht vergessen wird, wird dieses zusammen mit dem Schachteltyp in der
Menge zurueckgestellt gespeichert. Hier wäre das die Programmstelle 9. Wenn
es von einer Instruktion keinen direkten Nachfolger gibt, wie z.B. ein return,
dann bedient sich der Algorithmus aus der Menge zurueckgestellt, um die als
nächstes zu prüfende Programmstelle mit ihrem Schachteltyp zu ermitteln.
Die fertig geprüften Programmstellen werden in einer Menge geprueft gesammelt, bis alle Instruktionen der Methode abgearbeitet wurden. Der Algorithmus ist fertig, wenn alle Programmstellen in der Menge geprueft vorhanden
sind.
Es werden somit folgende Datenstrukturen während der Überprüfungsphase
benötigt:
gemerkt, zurueckgestellt ∈ Pruefliste = (Programmstellen × Schachteltyp)
geprueft ∈ PruefMenge = P(Programmstellen)
p ∈ Programmstellen ∪ {⊥}
Die im Algorithmus verwendeten Programmstellen werden durch ein weiteres Symbol ⊥ erweitert, um anzuzeigen, dass eine Instruktion kein bedingtes
Sprungziel enthält oder wenn eine Instruktion keinen Nachfolger besitzt wie
beispielsweise return.
Als Eingabe erhält der Algorithmus folgende Informationen:
• Die Klassenhierarchie, um Schachteltypen vergleichen zu können
• Den Namen der Klasse, zu der die zu prüfende Methode gehört, um den
Schachteltyp der ersten Instruktion bestimmen zu können.
3.3. DIE ÜBERPRÜFUNGSPHASE
41
• Den Konstantenbereich
• Die Methode selbst, insbesondere die Signatur, den Ergebnistyp, die Anzahl lokaler Variablen, die maximale Größe des Kellers und die Instruktionen der Methode.
In der folgenden Beschreibung entspricht C(p) der Instruktion an Programmstelle p.
Die meisten dieser Informationen werden für die Entscheidung benötigt, ob eine
Instruktion mit dem aktuellen Schachteltyp ausgeführt werden kann.
Es folgt die Beschreibung der einzelnen Schritte des Algorithmus, der in
Abbildung 3.12 zu sehen ist. die Anweisungen AKZEPTIERT und ABGELEHNT beenden den Algorithmus.
1. Initialisierung
Die drei Mengen gemerkt, zurueckgestellt und geprueft werden mit der
leeren Menge, p wird mit der ersten Programmstelle und f t mit dem sich
aus der Methodensignatur ergebenen ersten Schachteltyp initialisiert.
2. Benutze Zertifikat
Der aktuelle Schachteltyp f t wird gemäß den Informationen im Zertifikat
angepasst, falls ein Eintrag vorhanden ist. Falls der aktuelle Schachteltyp
laut Zertifikat später benötigt wird (Die Menge Markierungen enthält
einen Eintrag für diese Programmstelle), wird (p, f t) der Menge gemerkt
hinzugefügt.
3. Prüfe Bedingungen der Instruktionen
Es wird geprüft, ob die aktuelle Instruktion C(p) mit dem aktuellen
Schachteltyp f t ausgeführt werden kann (Passende Typen auf dem Keller und in den lokalen Variablen, keine Überschreitung der maximalen
Kellergröße, usw.). Falls die Instruktion nicht ausgeführt werden kann,
dann wird die Methode ABGELEHNT.
4. Prüfe zurückgestellte Bedingungen
Falls der Algorithmus auf eine zurückgestellte Programmstelle trifft, werden die Schachteltypen verglichen. Falls f t nicht schwächer definiert ist
als f t 0 wird die Methode ABGELEHNT, ansonsten konnte die zurückgestellte Programmstelle erfolgreich überprüft werden und der Eintrag
(p 0 , f t 0 ) wird aus der Menge zurueckgestellt entfernt.
5. Instruktion erfolgreich geprüft
Die aktuelle Programmstelle p wird zu der Menge der schon geprüften
Instruktionen geprueft hinzugefügt.
6. Bestimme und verarbeite mögliche Fortsetzungsstellen
Falls die aktuelle Instruktion C(p) kein goto und kein return ist und somit einen direkten Nachfolger besitzt, dann ergeben sich p1 und f t1 durch
42
KAPITEL 3. KONZEPTION
1. gemerkt := ; geprueft := ∅; zurueckgestellt := ;
C := Bytecode der Methode;
p := 0;
ft := initialer Schachteltyp gemäß Methodenparameter ;
2. ft := δ(p)(ft);
if p ∈ Markierungen then gemerkt := gemerkt ∪ (p, ft) fi;
3. if not InstruktionAusfuehrbar(p, ft) then ABGELEHNT fi;
4. for each (p, ft’) ∈ zurueckgestellt do
if ft 6v ft’ then ABGELEHNT;
zurueckgestellt := zurueckgestellt \ (p, ft’)
od;
5. geprueft := geprueft ∪ p;
6. (p1 , ft1 ) := PrimaererNachfolger(C, p, ft);
(p2 , ft2 ) := SekundaererNachfolger(C, p, ft);
if p1 6= ⊥ and p1 6∈ geprueft then
p := p1 ; ft := ft1 ; p1 := ⊥
elseif p2 6= ⊥ and p2 6∈ geprueft then
p := p2 ; ft := ft2 ; p2 := ⊥
elseif (p’, ft’) ∈ zurueckgestellt then
p := p’; ft := ft’;
zurueckgestellt := zurueckgestellt \ (p’, ft’)
else p := ⊥
fi;
7. if p1 6= ⊥ and p1 ∈ geprueft then
if (p1 , ft’) 6∈ gemerkt then ABGELEHNT fi;
if (p1 , ft’) ∈ gemerkt and ft’ 6v ft1 then ABGELEHNT fi
fi;
8. if p2 6= ⊥ then
if p2 ∈ geprueft then
if (p2 , ft’) 6∈ gemerkt then ABGELEHNT fi;
if (p2 , ft’) ∈ gemerkt and ft’ 6v ft2 then ABGELEHNT fi
else
zurueckgestellt := zurueckgestellt ∪ (p2 , ft2 )
fi
fi;
9. if p = ⊥ then
if geprueft = AlleProgrammstellenDerMethode then AKZEPTIERT
else ABGELEHNT fi
else
goto 2
fi;
Abbildung 3.12: Der Algorithmus zur leichtgewichtigen Bytecode-Überprüfung
3.3. DIE ÜBERPRÜFUNGSPHASE
43
Ausführung der Instruktion und Fortsetzung bei der direkten Nachfolgeinstruktion von C(p). p1 wird als primäre Fortsetzungsstelle bezeichnet.
f t1 ist der Schachteltyp, der sich aus f t durch Ausführung der Instruktion ergibt. Gibt es keine primäre Fortsetzungsstelle, so wird p1 = ⊥ und
f t1 = f t gesetzt.
Ist C(p) eine Sprunginstruktion (bedingt oder unbedingt), dann wird
das Sprungziel in p2 geschrieben und f t2 ist der Schachteltyp, der durch
Ausführung der aktuellen Instruktion auf dem Schachteltyp f t entstanden ist. p2 wird als sekundäre Fortsetzungsstelle bezeichnet. Wenn es keine
sekundäre Fortsetzungsstelle gibt, wird p2 = ⊥ und f t2 = f t gesetzt.
Die nächste zu prüfende Programmstelle wird nun folgendermaßen bestimmt:
• Ist p1 6= ⊥ und p1 noch nicht geprueft, dann setze p = p1 , f t = f t1
und schließlich p1 = ⊥ (Benutze die primäre Fortsetzungsstelle, falls
diese noch nicht geprüft wurde).
• Andernfalls falls p2 6= ⊥ und p2 noch nicht geprueft, dann setze
p = p2 , f t = f t2 und schließlich p2 = ⊥ (Benutze die sekundäre
Fortsetzungsstelle, falls die primäre schon geprüft wurde und die
sekundäre noch nicht).
• Andernfalls falls es noch zurueckgestellte Instruktionen gibt, wähle
ein Element (p 0 , f t 0 ) aus zurueckgestellt und setze p = p 0 und f t =
f t 0 (Falls sowohl primäre als auch sekundäre Fortsetzungsstelle schon
geprüft wurden, benutze eine zurückgestellte Programmstelle).
• Andernfalls setze p = ⊥ (Es wurde keine ungeprüfte Fortsetzungsstelle gefunden).
7. Prüfe gemerkte primäre Fortsetzungsstelle
Falls die primäre Fortsetzungsstelle p1 existiert und schon geprüft wurde,
dann muss ein Element (p1 , f t 0 ) in der Menge gemerkt vorhanden sein
und f t1 muss schwächer definiert sein als f t 0 . Andernfalls wird die Methode ABGELEHNT. p1 ist somit eine Programmstelle, die mehrere
Vorgänger besitzt.
8. Prüfe gemerkte oder stelle noch nicht gemerkte Fortsetzungsstellen zurück
• Falls die sekundäre Fortsetzungsstelle p2 existiert und noch nicht
geprüft wurde, dann wird p2 mit dem Schachteltyp f t2 zur Menge
zurueckgestellt hinzugefügt.
• Falls die sekundäre Fortsetzungsstelle p2 existiert, aber schon geprüft
wurde, dann muss ein Element (p2 , f t 0 ) in der Menge gemerkt vorhanden sein und f t2 muss schwächer definiert sein als f t 0 . Trifft dies
nicht zu, dann wird die Methode ABGELEHNT. p2 ist somit eine
Programmstelle, die mehrere Vorgänger besitzt.
44
KAPITEL 3. KONZEPTION
9. Terminiere oder Iteriere
Gibt es keine ungeprüfte Fortsetzungsstelle (p = ⊥) und sind alle Programmstellen überprüft worden (die Menge geprueft enthält alle Programmstellen der Methode), dann wird die Methode AKZEPTIERT.
Gibt es keine ungeprüfte Fortsetzungsstelle, aber es wurden noch nicht
alle Programmstellen geprüft, dann wird die Methode ABGELEHNT.
Dies könnte ein Hinweis auf nicht erreichbaren Code sein. Gibt es eine
Fortsetzungsstelle in p dann wird die Überprüfung in Schritt 2 fortgesetzt.
Da der Algorithmus nur eine sekundäre Fortsetzungsstelle unterstützt, werden die Instruktionen tableswitch und lookupswitch, die im Allgemeinen
mehr als ein Sprungziel enthalten, nicht unterstützt. Desweiteren können Ausnahmen nicht abgefangen werden. Jede Instruktion, die durch eine Ausnahmebehandlung geschützt ist und theoretisch eine Ausnahme auslösen kann,
hätte die erste Instruktion der Ausnahmebehandlung (exception handler) als
sekundäre Fortsetzungsstelle. Eine mögliche Erweiterung des Algorithmus werde ich in Abschnitt 3.4 diskutieren.
Komplexität des Algorithmus
Die Zeitkomplexität ist linear bezüglich der Länge des zu prüfenden Bytecodes.
Jede der Anweisungen 2-9 wird für jede Bytecode-Instruktion der Methode
höchstens einmal ausgeführt, weil in jeder Iteration eine Instruktion der Menge
geprueft hinzugefügt wird. Der Algorithmus terminiert spätestens, wenn alle
Instruktionen der Methode geprüft wurden. Sind die Mengenoperationen in
konstanter Zeit durchzuführen, so ist der Gesamtaufwand linear.
Die entscheidende Frage bei der Platzkomplexität ist die Größe der beiden
Mengen gemerkt und zurueckgestellt. Die Menge zurueckgestellt enthält Schachteltypen von Instruktionen, die einen sekundären Vorwärtssprung auf noch nicht
geprüfte Instruktionen besitzen. Wieviele Elemente diese Menge maximal enthalten wird, hängt von dem Bytecode ab. Im schlimmsten Fall kann diese Menge linear mit der Bytecode-Größe wachsen. Die Größe der Menge gemerkt ist
durch die Markierungen-Einträge des Zertifikats vorgegeben. Auch hier könnte
die Größe der Menge linear mit der Bytecode-Größe wachsen. Der bei der praktischen Anwendung anfallende Speicherplatzbedarf des Algorithmus kann daher
nur durch einen intensiven Test mit möglichst vielen verschiedenen Klassen bestimmt werden. In Kapitel 6 werde ich auf die Ergebnisse dieser Evaluierung
näher eingehen.
Es folgen nun zwei Beispiele, die die Anwendung der leichtgewichtigen Verifikation illustrieren sollen.
3.3.2
Beispiel 1
Die folgende Methode zur Berechnung des größten gemeinsamen Teilers zweier
Zahlen nach dem Euklidischen Algorithmus soll zertifiziert werden:
3.3. DIE ÜBERPRÜFUNGSPHASE
45
static int ggt(int a, int b) {
int x = a, y = b, z;
while (y != 0 ) {
z = x % y;
x = y;
y = z;
}//while
return x;
}
Datenflussanalyse
Das Ergebnis der Datenflussanalyse der übersetzten Methode ist in Abbildung
3.13 zu sehen.
Instruktionen
lokale Variablen
Keller
0
1
2
3
4
iload_0
istore_2
iload_1
istore_3
goto 17
int
int
int
int
int
int
int
int int
int int
int int int
ε
int
ε
int
ε
7
8
9
2 10
12
13
14
16
iload_2
iload_3
irem
istore 4
iload_3
istore_2
iload 4
istore_3
int
int
int
int
int
int
int
int
int
int
int
int
int
int
int
int
ε
int
int,int
int
ε
int
ε
int
1
int
int
int
int
int
int
int
int
int
int
int
int
int
int
int
int
int
int
int
int
3
17
18
iload_3
ifne 7
int int int int
int int int int
ε
int
4
21
22
iload_2
ireturn
int int int int
int int int int
ε
int
Abbildung 3.13: Ergebnis der Datenflussanalyse für das Beispiel größter ge”
meinsamer Teiler“
Die interessanteste Stelle ist hier die Programmstelle 17, die die beiden
Vorgängerinstruktionen 16 und 4 besitzt. Die beiden Schachteltypen der Instruktionen 16 und 4 werden gemäß der u-Operation des Verbandes kombiniert,
so dass im Schachteltyp der Programmstelle 17 die fünfte lokale Variable statt
eines int-Typs das ⊥-Symbol enthält.
Kompression des Zertifikats
Hier wird nun der Überprüfungsalgorithmus durchgeführt (vgl. Abbildung 3.12),
wobei die von der Datenflussanalyse berechneteten Schachteltypen benutzt werden. Während der Überprüfung wird das Zertifikat erzeugt. In Schritt 2 werden
statt des Zertifikats – was ja hier noch gar nicht existiert – die vollständigen
Schachteltypen aus der Datenflussanalyse benutzt, d.h. die Funktion δ liefert
die Ergebnisse der Datenflussanalyse. Weiterhin wird in diesem Schritt geprüft,
ob sich an der aktuellen Programmstelle p der vom Algorithmus bestimmte
46
KAPITEL 3. KONZEPTION
Schachteltyp f t von dem berechneten unterscheidet. Gibt es einen Unterschied,
dann wird ein Zertifikatseintrag aus der Differenz dieser beiden Schachteltypen
erzeugt. Dieser Eintrag hat dann genau die Form wie sie in Abschnitt 3.2.2
beschrieben wurde.
Ähnlich verhält es sich mit den Markierungen. Während der Kompressionphase enthält die Menge gemerkt alle Programmstellen der Methode. Das führt
dazu, dass in Schritt 7 und 8 niemals eine zum Vergleich nötige Programmstelle
fehlt. Muss ein Schachteltypvergleich in Schritt 7 oder 8 durchgeführt werden,
dann wird die entsprechende Programmstelle in dem Zertifikat zu der Liste der
Markierungen hinzugefügt.
Für das Beispiel ergibt sich nun folgendes: Der Algorithmus arbeitet die
Blöcke in der Reihenfolge 1, 3, 4, 2 ab. Die goto-Instruktion in Block 1 lässt den
Algorithmus in Stelle 17 fortführen. Nach dem Erreichen der return-Instruktion
setzt der Algorithmus wieder an Stelle 7 fort, die vorher in die Menge zurueckgestellt geschrieben wurde.
Die vom Algorithmus bestimmten Schachteltypen sind mit denen aus der
Datenflussanalyse identisch. Daher sind die Schachteltypeinträge des Zertifikats leer. Bei der zuletzt geprüften Programmstelle 16 ist der direkte Nachfolger schon geprüft worden. Das heißt, dass der Schritt 7 des Algorithmus einen
gemerkten Eintrag benötigt und diesen mit dem Schachteltyp vergleicht, der
durch die Ausführung der Instruktion an Programmstelle 16 entsteht. Aus diesem Grund gibt es in dem Zertifikat einen Eintrag in den Markierungen. Das
Zertifikat hat somit folgenden Inhalt:
Markierungen =
Typenliste =
Eintraege =
{17}
{}
{}
Überprüfung
Die Überprüfung funktioniert nun ähnlich wie die Kompression. Es wird hier
jedoch ausschließlich das Zertifikat zur Überprüfung benutzt. Die Instruktionen werden in der gleichen Reihenfolge wie bei der Kompression geprüft (siehe
Abbildung 3.14).
In Schritt 2 wird der Schachteltyp f t nicht verändert, da keine Schachteltypeinträge in dem Zertifikat vorhanden sind. Die delta-Funktion entspricht also
der identischen Abbildung. Bei Abarbeitung der Programmstelle 17 wird wegen
der Markierung im Zertifikat der Schachteltyp dieser Programmstelle gemerkt.
In Schritt 3 wird die Ausführbarkeit der Instruktionen mit dem aktuellen
Schachteltyp geprüft. Die Bedingung in Schritt 4 tritt nicht ein, da der Algorithmus auf keine zurückgestellte Instruktion trifft. Jede geprüfte Instruktion
wird in Schritt 5 zur Menge geprueft hinzugefügt.
In Schritt 6 wird mit zwei Ausnahmen immer die primäre Fortsetzungsstelle p1 als nächste zu überprüfende Stelle gewählt. Die Ausnahmen sind die
goto-Instruktion und die return-Instruktion. Bei der goto-Instruktion wird die
sekundäre Fortsetzungsstelle benutzt – also der Sprung zur Programmstelle 17.
3.3. DIE ÜBERPRÜFUNGSPHASE
Instruktionen
Reihenfolge und Bemerkung
0
1
2
3
4
iload_0
istore_2
iload_1
istore_3
goto 17
7
8
9
10
2 12
13
14
16
iload_2
iload_3
irem
istore 4
iload_3
istore_2
iload 4
istore_3
3 17
18
iload_3
ifne 7
Schachteltyp 17 gemäß Zertifikat merken (Schritt 2)
Sprungziel 7 und Schachteltyp zurückstellen (Schritt 8)
4 21
22
iload_2
ireturn
zurückgestellten Schachteltyp benutzen (Schritt 6)
1
47
sekundären Nachfolger benutzen (Schritt 6)
Schachteltypvergleich mit gemerktem Typ von Stelle 17 (Schritt 7)
Akzeptieren (Schritt 9)
Abbildung 3.14: grober Ablauf des Überprüfungsalgorithmus für das Beispiel
größter gemeinsamer Teiler“
”
Die return-Instruktion hat weder eine primäre noch eine sekundäre Fortsetzungsstelle und der Algorithmus bedient sich aus den zurückgestellten Schachteltypen.
Der Algorithmus stellt bei der Überprüfung von Programmstelle 16 in Schritt
7 fest, dass die primäre Nachfolgeprogrammstelle 17 schon geprüft wurde und
führt daher einen Schachteltypvergleich mit dem von Programmstelle 17 gemerkten Schachteltyp durch. Dieser Schachteltyp wurde in Schritt 2 gemerkt.
Weil bei der Prüfung von Programmstelle 18 der sekundäre Nachfolger 7
noch nicht geprüft wurde, stellt Schritt 8 diesen Nachfolger mit dem aktuellen
Schachteltyp zurück damit diese Programmstelle später geprüft wird.
Der Algorithmus akzeptiert schließlich nach Abarbeitung der Programmstelle 16 die Methode.
Was dieses Beispiel auch andeutet, ist die Tatsache, dass die Zertifikate und
auch der Speicherbedarf während der Überprüfung von der Überprüfungsreihenfolge abhängen. Dies bedeutet, dass sich durch geschickte Änderung der
Reihenfolge, in der die einzelnen Programmblöcke geprüft werden, der Speicherplatzbedarf des Algorithmus unter Umständen reduzieren lässt. Dazu ist
eine Erweiterung der Zertifikate notwendig, damit dort die Prüfreihenfolge angegeben werden kann. Die Änderung der Reihenfolge kann auch dazu führen,
dass mehr Schachteltypen in den Zertifikaten gespeichert werden müssen. Daher
wird dieser mögliche Speicherplatzgewinn durch größere Zertifikate erkauft.
48
3.3.3
KAPITEL 3. KONZEPTION
Beispiel 2
Dieses zweite nicht ganz so praxisnahe Beispiel soll dazu dienen, ein Zertifikat
zu erzeugen, dessen Schachteltypeinträge nicht leer sind:
void test(int
if ( x ==
float
} else {
int y
}
}
x) {
0 ) {
y = 0;
= 0;
Die Datenflussanalyse liefert die in Abbildung 3.15 gezeigten Schachteltypen.
Instruktionen
lokale Variablen
Keller
0
1
iload_1
ifne 9
A
A
int
int
ε
int
4
5
6
fconst_0
fstore_2
goto 11
A
A
A
int
int
int float
ε
float
ε
9
10
iconst_0
istore_2
A
A
int
int
ε
int
11
return
A
int
ε
Abbildung 3.15: Ergebnis der Datenflussanalyse für das zweite Beispiel und die
Überprüfungsreihenfolge
Die Instruktion 11 besitzt als Vorgänger die Instruktionen 10 und 6. Die
lokale Variable 2 erhält durch Instruktion 10 einen int-Typ und durch Instruktion 6 einen float-Typ. Da ab Programmstelle 11 der Typ der lokalen
Variable 2 nicht mehr eindeutig ist, befindet sich dort das ⊥-Symbol. Dies ist
durch die u-Operation des Verbandes entstanden. Denn es gilt (A, int, float)u
(A, int, int) = (A, int, ⊥). Nach der Prüfreihenfolge wird die Programmstelle
11 vor der Programmstelle 10 geprüft. Dies bedeutet, dass an dieser Stelle der
Algorithmus noch gar nicht wissen kann, dass die Instruktion an Programmstelle 10 später einen int-Typ in die lokale Variable 2 schreiben wird. Da die
Bestimmung der Schachteltypen für jede Instruktion genau einmal durchgeführt
wird, ist hier ein Schachteltypeintrag in dem Zertifikat notwendig.
Desweiteren benötigt der Algorithmus beim Prüfen der Programmstelle 10
den Schachteltyp der Nachfolgeprogrammstelle 11. Somit ergibt sich als Zertifikat:
Markierungen =
Typenliste =
Eintraege =
{11}
{0 → ⊥}
{11 → {(2, 0)}}
3.4. ERWEITERUNGEN
3.3.4
49
Zusammenfassung
Dieser Ansatz muss im Gegensatz zur herkömmlichen Datenflussanalyse keine
Fixpunktsuche durchführen und somit auch nicht den Schachteltyp jeder Programmstelle im Speicher halten. Für alle Programmstellen, deren Schachteltyp
nicht bei einem sequentiellen Durchlauf durch den Bytecode bestimmt werden
kann, enthält das Zertifikat eine Differenz zwischen dem tatsächlichen Schachteltyp und dem Schachteltyp, der bei dem sequentiellen Durchlauf bestimmt
wurde.
Bei der Betrachtung des benötigten Speicherplatzes ist nicht nur die Größe
des Zertifikats entscheidend, sondern auch der Speicherbedarf während der
Überprüfung. Insbesondere Schachteltypen, die während der Überprüfung gespeichert werden, spielen hier eine große Rolle. Aufschluss über den tatsächlichen Speicherplatzbedarf kann nur eine ausführliche Evaluierung liefern, die
möglichst viele Methoden testet und deren Speicherbedarf bei der Überprüfung
misst. Weitere Überlegungen und die Ergebnisse der Evaluierung werde ich in
Kapitel 6 vorstellen.
3.4
Erweiterungen
Der Ansatz von Eva Rose [Ro98] unterstützt nur eine Untermenge der Instruktionen der JVM [JVM96] bzw. der JCVM [JCVM]. Insgesamt werden nur die
folgenden 24 Instruktionen abgedeckt:
aconst null
iload
pop
ifle
areturn
invokevirtual
iconst 0
aload
dup
ifnull
return
invokespecial
iconst 1
istore
iadd
goto
getfield
new
ldc w
astore
isub
ireturn
putfield
checkcast
In diesem Abschnitt werde ich daher einige Erweiterungen diskutieren mit
dem Ziel, den vollständigen Befehlssatz der JVM zu unterstützen. Dabei soll
nicht jede fehlende Instruktion einzeln dargestellt werden, sondern ich werde
mich auf die Beschreibung der dahinterstehenden Konzepte beschränken und
deren Integration in den bestehenden Ansatz erläutern.
3.4.1
triviale Erweiterungen
Viele der nicht unterstützten Instruktionen lassen sich problemlos integrieren.
Diese werde ich daher zuerst abhandeln.
Die Instruktionen iadd und isub verhalten sich auf Typebene gleich oder
ähnlich wie alle anderen arithmetischen Instruktionen auch. Unterschiede gibt
es bei der benötigten Anzahl und Art der Typen auf dem Keller. Beispielsweise benötigt die Instruktion ineg nur einen Operanden vom Typ int auf dem
Keller. An weiteren Typen gibt es bei den arithmetischen Instruktionen neben
int noch float, long und double. Etwas komplizierter sind die mehrwortigen
50
KAPITEL 3. KONZEPTION
Datentypen long und double, die ich in dem Abschnitt 3.4.5 über mehrwortige
Datentypen behandeln werde.
Ähnlich verhält es sich mit den bedingten Sprüngen. Alle Instruktionen
der Form ifhcondi sind auf Typebene mit der Instruktion ifle identisch. In
jedem Fall wird ein int-Typ vom Keller genommen. Die Instruktion ifnotnull
entspricht der ifnull-Instruktion, die eine Referenz vom Keller nimmt.
Abgesehen von tableswitch und lookupswitch sind die übrigen bedingten
Sprünge sehr ähnlich zu den bereits unterstützen Instruktionen. Diese Instruktionen unterscheiden sich nur darin, wieviele und welche Typen sie auf dem
Keller erwarten.
Der entscheidene Unterschied bei tableswitch und lookupswitch ist die
Tatsache, dass diese Instruktionen Sprünge zu mehr als einer Programmstelle erlauben. Es gibt also mehrere sekundäre Fortsetzungsstellen. Der Überprüfungsalgorithmus unterstützt jedoch nur eine einzige sekundäre Fortsetzungsstelle.
Wie der Algorithmus anzupassen ist, um mehrere sekundäre Fortsetzungsstellen zu unterstützen, werde ich in Abschnitt 3.4.4 erläutern.
Die Typumwandlungsbefehle wie z.b. i2l oder f2i erwarten einen bestimmten Typ auf dem Keller und ersetzen diesen durch einen anderen Typ. Abgesehen von den mehrwortigen Datentypen stellen diese Instruktionen auch keine
große Herausforderung dar.
Die übrigen Instruktionen der JVM sind entweder ähnlich einfach einzubinden oder lassen sich mit den konzeptionellen Erweiterungen der folgenden
Abschnitte realisieren.
3.4.2
Reihungen (arrays)
Um Reihungen zu unterstützen, ist eine Erweiterung des Grundkomponentenverbands notwendig (vgl. 3.2.1). Jede Reihung besitzt einen Basistyp und eine
Dimension größer als Null. Jeder Grunddatentyp und jede Klasse kann Basistyp
einer Reihung sein. Es folgen einige Beispiele:
Reihung
int[]
int[][]
Object[]
String[][]
String[][][]
Basistyp
int
int
Object
String
String
Dimension
1
2
1
2
3
Der Grundkomponentenverband, den E. Rose bei ihrem Ansatz benutzt,
besteht aus den Typen int, ⊥, > und Klassen. Dieser Verband ist nun um Reihungen zu erweitern. Dazu muss definiert werden, welche Beziehungen zwischen
den neuen Elementen in dem Verband bestehen. Ich werde diese Beziehungen
über die durch den Verband induzierte partielle Ordnung beschreiben. Zur Erinnerung: Es gilt x v y ⇔ x u y = x.
3.4. ERWEITERUNGEN
51
1. Es sei r eine Reihung. Dann gilt Object v r
2. Es sei r eine Reihung. Dann gilt r v Nullreferenz
3. Zwischen Reihungen mit gleicher Dimension gelten die gleichen Beziehungen wie zwischen den Basistypen
4. Sei od eine Reihung vom Basistyp Object mit Dimension d. Sei rd+1 eine
beliebige Reihung mit Dimension d + 1. Es gilt dann od v rd+1
Ein Beispiel für einen derartig erweiterten Verband zeigt die Abbildung 3.16.
null
int[]
java.lang.String[][][]
java.lang.Object[][][]
int[][]
java.lang.String[]
java.lang.String[][]
int
java.lang.Object[][]
java.lang.Object[]
java.lang.String
java.lang.Object
Abbildung 3.16: Beispiel für einen um Reihungen erweiterten Grundkomponentenverband
3.4.3
Ausnahmebehandlungen
Ausnahmen werden in Java durch try-catch-Blöcke abgefangen. Tritt innerhalb des try-Blocks eine Ausnahme auf, wird die Ausführung der Methode beim
nächsten zu der Ausnahme passenden catch-Block fortgesetzt. Gibt es in der
52
KAPITEL 3. KONZEPTION
aktuellen Methode keinen passenden catch-Block, so wird die Ausnahme an die
aufrufende Methode weitergereicht und dort die Suche nach einem passenden
Ausnahmebehandlungsblock fortgesetzt.
Der Java-Übersetzer übersetzt diese Blöcke in sogenannte Ausnahmetabellen
(exception tables) und Ausnahmebehandlungen (exception handler). Bei den
Ausnahmebehandlungen handelt es sich um normalen Bytecode, der Teil der
zugehörigen Methode ist.
Die Ausnahmetabellen sind Methodenattribute und bestehen aus ggf. mehreren Einträgen mit drei Programmstellen und einem Ausnahmetyp: Die ersten
beiden Programmstellen definieren den Anfang und das Ende des geschützten
Bereichs. Die dritte Programmstelle bezeichnet den Anfang der Ausnahmebehandlung und der Typ gibt schließlich an, welcher Ausnahmetyp durch diese
Ausnahmebehandlung abgefangen wird. Wenn in einem Bereich mehrere verschiedene Arten von Ausnahmen abgefangen werden sollen, existieren in der
Ausnahmentabelle mehrere Einträge mit den gleichen Anfangs- und Endprogrammstellen.
Der Ansatz von E. Rose würde die Ausnahmebehandlungsblöcke als nicht
erreichbaren Bytecode ansehen und damit die Methode zurückweisen. Damit
diese Methoden akzeptiert werden, müssten alle Instruktionen, die durch einen
solchen Block geschützt sind und eine Ausnahme auslösen könnten, die erste
Instruktion jeder passenden Ausnahmebehandlung als sekundäre Nachfolgeinstruktion besitzen. Dies verhält sich aus Sicht der Datenflussanalyse wie ein
bedingter Sprung. Abbildung 3.17 zeigt dazu ein Beispiel.
static int test (int x) {
try {
return 10 / x;
} catch ( Exception ex ) {
return 0;
}
}
0: bipush 10
2: iload_0
3: idiv
4:
ireturn
5:
6:
7:
Ausnahmentabelle
Anfang Ende
Ziel
0
5
5
Typ
java.lang.Exception
astore_1
iconst_0
ireturn
Abbildung 3.17: Beispiel für eine Ausnahmebehandlung, die durch idiv ausgelöst werden kann
Die einzige Instruktion zwischen den Programmstellen 0 und 5 (dabei zählt
die Instruktion 5 nicht mehr zu dem geschützten Bereich), die eine Ausnahme
auslösen kann, ist die Instruktion idiv. Ist der Divisor gleich Null so wird eine
ArithmeticException ausgelöst. Abgefangen wird diese Ausnahme durch die
Ausnahmebehandlung ab Programmstelle 5.
Einige Instruktionen können mehrere verschiedene Ausnahmen auslösen und
3.4. ERWEITERUNGEN
53
von verschiedenen Ausnahmebehandlungen abgefangen werden. Dies kann zum
Beispiel ein Methodenaufruf mit invokevirtual sein. Dann gibt es von dieser
Instruktion mehr als zwei Nachfolger. Der primäre Nachfolger ist die nächste
Instruktion, die ausgeführt wird, wenn keine Ausnahme auftritt. Die anderen
Nachfolgeinstruktionen sind die ersten Instruktionen aller möglichen Ausnahmebehandlungen in der aktuellen Methode. Das Problem hier ist, dass der
Überprüfungsalgorithmus nur eine sekundäre Fortsetzungsstelle unterstützt. Es
bestehen hier also die gleichen Schwierigkeiten wie bei den bedingten Sprunginstruktionen tableswitch und lookupswitch.
Typsemantisch geschieht beim Auslösen einer Ausnahme folgendes: Der Keller wird geleert und mit einer Referenz auf den Typ der aufgetretenen Ausnahme gefüllt. Die lokalen Variablen bleiben erhalten. D.h. die lokalen Variablen
der ersten Instruktion der Ausnahmebehandlung sind eine Zusammenfassung
aller lokalen Variablen der möglichen auslösenden Programmstellen. Bei der
Datenflussanalyse ist dies kein größeres Problem. Jedoch müsste sich der Überprüfungsalgorithmus für jede dieser Vorgängerinstruktionen einen Schachteltyp
merken, falls die Ausnahmebehandlung noch nicht überprüft wurde (in der Menge zurueckgestellt in Schritt 8 des Algorithmus). Dies könnte sehr schnell den
verfügbaren Speicher der Javacard übersteigen, vor allem wenn eine Ausnahmebehandlung von vielen Stellen aus aufgerufen werden kann.
Eine Lösung für dieses Problem wäre, den Algorithmus so zu modifizieren, dass die Ausnahmebehandlungen grundsätzlich zuerst geprüft werden. Dies
würde zwar einen vollständigen Schachteltypeintrag im Zertifikat für die erste
Instruktion des Ausnahmebehandlung erfordern, würde aber im Gegenzug den
Speicherbedarf während der Überprüfungsphase reduzieren. Gerade bei längeren Bereichen, die durch eine oder mehrere Ausnahmebehandlungen geschützt
sind, würde dies zu einer größeren Reduzierung des Speicherplatzbedarfs führen.
3.4.4
Instruktionen mit mehr als einem Sprungziel
Es gibt drei Situationen, in denen eine Instruktion mehr als zwei Nachfolgeinstruktionen haben kann:
1. Durch die Instruktion tableswitch. In Abbildung 3.18 ist ein Beispiel zu
sehen, in dem die Programmstelle 1 vier Nachfolgeinstruktionen besitzt.
2. Durch die Instruktion lookupswitch. Dies ist sehr ähnlich zur Instruktion tableswitch. Der einzige Unterschied ist die Art und Weise wie die
Fortsetzungsstellen in der Instruktion gespeichert werden.
3. Durch Instruktionen, die mehr als eine Ausnahme auslösen können und
durch mehrere Ausnahmebehandlungen geschützt sind. Dies sind beispielsweise Methodenaufrufe, die new-Instruktion oder Instruktionen für
den Zugriff auf Reihungen.
Für diese drei Fälle ist eine Erweiterung des Überprüfungsalgorithmus notwendig, da dieser nur maximal zwei Fortsetzungsstellen pro Instruktion unterstützt. Dabei muss die Berechnung der sekundären Fortsetzungsstelle an-
54
KAPITEL 3. KONZEPTION
0 iload_1
1 tableswitch 0 to 2: default=43
0: 38
1: 33
2: 28
28 iconst_3
29 istore_2
30 goto 45
33 iconst_2
34 istore_2
35 goto 45
38 iconst_1
39 istore_2
40 goto 45
43 iconst_0
44 istore_2
45 return
Abbildung 3.18: die Instruktion tableswitch besitzt mehr als zwei Fortsetzungsstellen
gepasst werden. Der Algorithmus muss hier statt einer einzigen Fortsetzungsstelle eine Menge von Fortsetzungsstellen berechnen. Diese Berechnung ist für
tableswitch und lookupswitch einfach, da die möglichen Fortsetzungsstellen
als Operanden in der Instruktion enthalten sind. Für die Ausnahmen hingegen
muss zuerst geprüft werden, ob die aktuelle Instruktion eine Ausnahme auslösen
kann und ob sie durch eine Ausnahmebehandlung geschützt ist. Die erste Instruktion der Ausnahmebehandlung ist dann eine sekundäre Fortsetzungsstelle.
Bei Instruktionen, die zwar Ausnahmen auslösen können, aber keine Ausnahmebehandlung in der aktuellen Methode besitzen, brauchen die Ausnahmen
nicht berücksichtigt zu werden. Denn beim Auslösen einer Ausnahme wird die
Methode sofort beendet und die lokalen Variablen und der Keller der Methode
sind nicht mehr zugreifbar.
Gibt es zu einer Instruktion genau eine Ausnahmebehandlung, dann lässt
sich diese Instruktion wie eine bedingte Sprunginstruktion ansehen. Die primäre
Fortsetzungsstelle ist die direkte Nachfolgeinstruktion, die ausgeführt wird,
wenn keine Ausnahme auftritt. Die sekundäre Fortsetzungsstelle entspricht der
ersten Instruktion der Ausnahmebehandlung.
Mehr als zwei Fortsetzungsstellen gibt es somit nur, wenn es entweder in einer Methode mindestens zwei Ausnahmebehandlungen gibt oder die Instruktionen tableswitch bzw. lookupswitch verwendet werden. In Abbildung 3.19 ist
ein Beispiel zu sehen, in dem ein Programmstück durch zwei Ausnahmebehandlungen geschützt ist. Die einzige Instruktion, die beide Ausnahmen auslösen
kann, ist die invoke-Instruktion.
Neben der Berechnung der sekundären Fortsetzungsstellen muss der Überprüfungsalgorithmus noch an den Stellen erweitert werden, an denen die sekundäre Fortsetzungsstelle verwendet wird. Auch hier muss statt einer einzigen
Fortsetzungsstelle eine Menge von Fortsetzungsstellen benutzt werden. Dies ist
einmal an der Stelle, wo die als nächstes zu prüfende Instruktion bestimmt wird
(Schritt 6) und zum anderen dort, wo die sekundären Sprungziele mit gespeicherten Schachteltypen verglichen und ggf. zurückgestellt werden (Schritt 8).
3.4. ERWEITERUNGEN
55
static int test1 ( int x ) {
try {
test2(x);
return 10 / x;
} catch ( ArithmeticException ex ) {
return 0;
} catch ( Exception ex ) {
return 1;
}
}
0 iload_0
1 invokestatic #3
4
5
7
8
9 ireturn
pop
bipush 10
iload_0
idiv
10 astore_1
11 iconst_0
12 ireturn
Ausnahmentabelle
von
bis
Ziel
0
0
10
10
10
13
Ausnahmetyp
java.lang.ArithmeticException
java.lang.Exception
13 astore_2
14 iconst_1
15 ireturn
Abbildung 3.19: Beispiel für mehrere Ausnahmebehandlungen in einer Methode
Jede Verwendung von p2 muss ersetzt werden durch die Verwendung von jedem
Element aus der Menge der sekundären Sprungziele.
Bei Ausnahmen ist noch eine weitere Besonderheit zu berücksichtigen: Wenn
eine Ausnahme ausgelöst wird, wird der Operandenkeller geleert und eine Referenz der ausgelösten Ausnahme auf den Keller abgelegt. Dies bedeutet, dass im
Gegensatz zu den sekundären Nachfolgern von tableswitch und lookupswitch
bei Ausnahmen nicht nur mehrere sekundäre Fortsetzungsstellen zu merken
sind, sondern auch verschiedene Schachteltypen möglich sind. Diese Schachteltypen müssen glücklicherweise nicht zwischengespeichert werden, sondern können
bei Bedarf über die Ausnahmentabelle ermittelt werden. Sie unterscheiden sich
von dem direkten Nachfolgeschachteltypen nur in dem Operandenkeller. Es wird
die Nachfolgeprogrammstelle, die ja bei einer Ausnahmebehandlung der ersten
Instruktion dieser Ausnahmebehandlung entspricht, in der Ausnahmentabelle
nachgeschlagen und deren Ausnahmetyp bildet dann das einzige Element des
Operandenkellers.
Die Schachteltypen der Ausnahmebehandlungen aus dem Beispiel aus Abbildung 3.19 werden daher folgendermaßen bestimmt: Die lokalen Variablen
der beiden sekundären Nachfolgeinstruktionen von Programmstelle 1 besitzen
die gleichen Typen in den lokalen Variablen wie der primäre Nachfolger. Der
Operandenkeller für den Sprung von Programmstelle 1 nach 10 enthält den
Typ ArithmeticException und der Sprung von 1 nach 13 enthält den Typ
Exception. Ähnliches gilt für den einzigen sekundären Nachfolger der idivInstruktion. Die lokalen Variablen des Schachteltyps für Programmstelle 10
stimmen mit dem primären Nachfolger von Programmstelle 9 überein und der
Operandenkeller enthält wieder nur den Typ aus der Ausnahmentabelle. Abbildung 3.20 zeigt diese Bestimmung des Schachteltyps der ersten Instruktion
56
KAPITEL 3. KONZEPTION
einer Ausnahmebehandlung. Eigentlich dürften die lokalen Variablen nicht vom
primären Nachfolger genommen werden, sondern von der auslösenden Instruktion selbst. Da aber Ausnahmen auslösende Instruktionen die lokalen Variablen
nicht modifizieren, ist dies nicht weiter tragisch. Bei der Betrachtung des modifizierten Überprüfungsalgorithmus fällt auf, dass der Schachteltyp der auslösenden Instruktion gar nicht mehr verfügbar ist, wenn die Schachteltypen der Ausnahmen benötigt werden. Aus diesem Grund werden die lokalen Variablen des
Schachteltyps des primären Nachfolgers benutzt.
0 iload_0
1 invokestatic #3
lokale Variablen
4
5
7
8
pop
bipush 10
iload_0
idiv
int
lokale Variablen
9 ireturn
int
Keller
int
lokale Variablen
13 astore_2
14 iconst_1
15 ireturn
Keller
int
lokale Variablen
10 astore_1
11 iconst_0
12 ireturn
int
int
Keller
Exception
Keller
ArithmeticException
Abbildung 3.20: Beispiel für die Bestimmung der Schachteltypen bei Sprüngen
in Ausnahmebehandlungen
Es folgen nun die modifizierten Schritte 6 und 8 des Überprüfungsalgorithmus. Dabei wird eine neue Funktion SchachteltypAusnahmebehandlung
benutzt. Diese Funktion modifiziert den Keller eines Schachteltyp mit Hilfe der
Ausnahmentabelle, falls die übergebene Programmstelle die erste Instruktion
einer Ausnahmebehandlung ist. Andernfalls wird der übergebene Schachteltyp
unverändert zurückgegeben.
6. (p1 , ft1 ) := PrimaererNachfolger(C, p, ft);
(P2 , ft2 ) := SekundaererNachfolger(C, p, ft);
if p1 6= ⊥ and p1 6∈ geprueft then
p := p1 ; ft := ft1 ; p1 := ⊥
elseif P2 6= ∅ and ∃ p’ ∈ P2 mit p’ 6∈ geprueft then
p := p’; ft := SchachteltypAusnahmebehandlung(p’, ft2 );
P2 := P2 \ p’
elseif (p’, ft’) ∈ zurueckgestellt then
p := p’; ft := ft’;
zurueckgestellt := zurueckgestellt \ (p’, ft’)
else p := ⊥
fi;
(∗ )
Die wesentlichste Änderung besteht hier in der Tatsache, dass die Funktion SekundaererNachfolger statt einer Programmstelle eine Menge von Programmstellen zurückgibt. Bei der Bestimmung der als nächstes zu prüfenden
3.4. ERWEITERUNGEN
57
Programmstelle muss daher auch in der durch (∗ ) markierten Zeile eine noch
nicht geprüfte Programmstelle aus dieser Menge benutzt werden.
Der zweite zu ändernde Schritt ist der Schritt 8. Hier müssen alle Anweisungen, die vorher mit der einen sekundären Fortsetzungsstelle durchgeführt
wurden, mit allen in der Menge P2 enthaltenen Programmstellen durchgeführt
werden. Dabei wird jedes Element der Menge nach der Bearbeitung aus dieser
Menge entfernt bis die Menge leer ist.
8. while ∃ p’ ∈ P2 do
ft’’ := SchachteltypAusnahmebehandlung(p’, ft2 );
if p’ ∈ geprueft then
if (p’, ft’) 6∈ gemerkt then ABGELEHNT fi;
if (p’, ft’) ∈ gemerkt and ft’ 6v ft’’ then ABGELEHNT fi
else
zurueckgestellt := zurueckgestellt ∪ (p’, ft’’)
fi
P2 := P2 \ p’
od
Es stellt sich nun die Frage nach der Laufzeit. Wie ich weiter oben bereits
erwähnt habe, enthält diese Menge P2 nur dann mehr als ein Element, wenn
entweder die Instruktionen tableswitch bzw. lookupswitch benutzt werden
oder wenn eine Instruktion mehrere Ausnahmen auslösen kann und durch mehr
als eine Ausnahmebehandlung geschützt ist. Diese Bedingungen dürften nicht
sehr häufig eintreten und schon gar nicht für alle Instruktionen einer Methode.
Daher wird sich in der Praxis die Laufzeit nicht wesentlich erhöhen, da die
Menge P2 in den meisten Fällen weniger als zwei Elemente enthält.
3.4.5
mehrwortige Datentypen
Die Datentypen long und double belegen im Gegensatz zu den anderen Datentypen zwei Worte auf dem Operandenkeller und in den lokalen Variablen. Wird
ein long- oder ein double-Wert mit den Instruktionen lstore bzw. dstore
in einer lokalen Variable gespeichert, so belegen diese Werte tatsächlich zwei
lokale Variablen. Um die Typsicherheit zu gewährleisten, muss der Zugriff mit
einwortigen Instruktionen auf diese beiden Worte verhindert werden.
Ähnlich verhält es sich mit dem Operandenkeller. Kellerinstruktionen, die
mit einwortigen Werten operieren, dürfen keinesfalls die Integrität von zweiwortigen Werten beschädigen. Zum Beispiel darf die dup-Instruktion nicht ausgeführt werden, wenn die obersten beiden Worte auf dem Operandenkeller einen
long- oder einem double-Wert repräsentieren.
Um diesen Zugriff zu verhindern, müssen long und double-Typen in zwei
Typen aufgeteilt werden, die jeweils die beiden einzelnen Worte dieser Doppelworte repräsentieren. Bild 3.21 zeigt den entsprechend erweiterten Grundkomponentenverband, der um die beiden Elemente *long2* und *double2*
ergänzt wurde. Diese beiden neuen Typen stehen für den zweiten Teil eines
double- bzw. long-Typs.
58
KAPITEL 3. KONZEPTION
*long2*
double
int
*double2*
long
A
java.lang.Object
Abbildung 3.21: Der für mehrwortige Typen erweiterte Grundkomponentenverband
Wie diese neuen Typen von den mehrwortigen Instruktionen verwendet werden, zeigt das Beispiel in Abbildung 3.22. Zu Beginn befinden sich in den ersten beiden lokalen Variablen ein long-Wert, der als Parameter an die Methode übergeben wurde. Dieser wird durch die erste Instruktion lload 0 auf den
Operandenkeller abgelegt. Es befinden sich dann zwei Worte auf dem Keller,
die die beiden Teilworte des long-Wertes repräsentieren. Bei der Ausführung
von Kellerinstruktionen, die mit einzelnen Worten operieren, kann nun der
Zugriff auf Teilworte erkannt und verhindert werden. Beispielsweise darf die
pop-Instruktion an dieser Stelle nicht verwendet werden. An Programmstelle
1 wird nun eine Konstante vom Typ long auf dem Keller abgelegt. Die beiden Doppelworte auf dem Keller werden nun multipliziert. Das Ergebnis dieser
Multiplikation wird schließlich als Methodenergebnis zurückgegeben.
static long mal_zwei (long l) {
long x = l * 2;
return x;
}
lokale Variablen
Instruktionen
0
0
1
4
5
6
7
lload_0
ldc2_w 2
lmul
lstore_2
lload_2
lreturn
long
long
long
long
long
long
1
2
3
*long2*
*long2*
*long2*
*long2*
*long2* long *long2*
*long2* long *long2*
Keller
*long2*, long
*long2*, long, *long2*, long
*long2*, long
*long2*, long
Abbildung 3.22: Beispiel für die Verwendung mehrwortiger Typen
3.4.6
Objektinitialisierung
Die Erstellung neuer Objekte führt die Java Virtual Machine in zwei Phasen durch. Die erste Phase reserviert Speicherplatz für das Objekt durch den
Aufruf der Instruktion new. Die zweite Phase ruft dann zu einem späteren
3.4. ERWEITERUNGEN
59
Zeitpunkt den Konstruktor mit invokespecial auf, um das noch nicht initialisierte Objekt zu initialisieren. Zwischen der new- und der entsprechenden
invokespecial-Instruktion können beliebige Befehle stehen, die aber keinesfalls ein noch nicht initialisierte Objekt benutzen dürfen. So darf diese Referenz
nicht nicht in Feldern anderer Objekte gespeichert oder als Methodenergebnis
zurückgegeben werden. Auch die Methoden und Felder dieses Objektes dürfen
nicht benutzt werden.
Die Überprüfung dieser beiden Phasen und die Einhaltung der Zugriffsbeschränkungen auf das noch nicht initialisierte Objekt wird dadurch erschwert,
dass die Referenz auf das Objekt mehrfach auf dem Keller abgelegt wird. Es
ist weiterhin möglich, dass die uninitialisierte Referenz in einer lokalen Variable
abgelegt wird. Nach dem Aufruf der Konstruktormethode dürfen sämtliche Referenzen nicht mehr als uninitialisiert angesehen werden. Desweiteren können
mehrere verschiedene uninitialisierte Objekte des gleichen Typs auf dem Keller
abgelegt werden, die zu unterschiedlichen Zeitpunkten zu initialisierten Objekten werden. Um dieses Problem zu verdeutlichen, soll die main-Methode der
folgenden Klasse betrachtet werden:
public class A {
protected A previous;
A(A prev) { previous = prev; }
static public void main ( String[] args ) {
A a = new A(new A(null));
}
}
Die Besonderheit an dieser Klasse A ist, dass der Konstruktor eine Referenz auf
ein Objekt der eigenen Klasse als Parameter erhält. Damit lassen sich new-Aufrufe
schachteln. Diese Schachtelung wird in der main-Methode benutzt. Der Bytecode dieser main-Methode und der entsprechende Kellerinhalt vor Ausführung der Instruktion
sind in folgender Tabelle abgebildet:
0
3
4
7
8
9
12
15
16
Instruktion
new Class A
dup
new Class A
dup
aconst null
invokespecial Method A(A)
invokespecial Method A(A)
astore 1
return
Kellerinhalt
A
A,
A,
A,
A,
A,
A
A
A,
A,
A,
A,
A
A, A
A, A, null
A
Nach Abarbeitung der Programmstelle 9 ist das zuerst erzeugte Objekt vollständig
initialisiert. Nach Programmstelle 12 ist das zweite Objekt A durch den KonstruktorAufruf initialisiert. Wie sich an diesem Beispiel leicht erkennen lässt, müssen die beiden
Referenzen auf dem Keller unterschieden werden, solange sie uninitialisert sind. Dies
60
KAPITEL 3. KONZEPTION
wird durch ein Zusatzinformation erreicht, die den Typ um die Programmstelle ergänzt,
an der das Objekt erzeugt wurde:
0
3
4
7
8
9
12
15
16
Instruktion
new Class A
dup
new Class A
dup
aconst null
invokespecial Method A(A)
invokespecial Method A(A)
astore 1
return
Kellerinhalt
A0
A0 ,
A0 ,
A0 ,
A0 ,
A0 ,
A
A0
A0 ,
A0 ,
A0 ,
A0 ,
A4
A4 , A4
A4 , A4 , null
A
Bemerkung
A4 → A
A0 → A
Der Index muss nach Aufruf des Konstruktors bei allen Typen der aktuellen Schachtel mit dem entsprechenden Index entfernt werden. Nach Ausführung von Programmstelle 9 müssen also der Keller und die lokalen Variablen durchsucht und jedes A4 durch
A ersetzt werden. Ähnliches geschieht an Programmstelle 12, an der jedes Auftreten
von A0 im aktuellen Schachteltyp durch A ersetzt wird.
Diese Indizierung mit den Programmstellen scheitert, wenn eine new-Instruktion in
einer Schleife aufgerufen wird, ohne den Konstruktur aufzurufen. Dies erzeugt nämlich
unterschiedliche Referenzen, die sich beim Konstruktoraufruf und den damit verbundenem Zustandswechsel von unitialisiert nach initialisiert nicht unterscheiden lassen.
Aus diesem Grund dürfen nach der JVM-Spezifikation bei einem Rückwärtssprung
keine nicht initialisierten Objekte existieren. Dies Einschränkung garantiert, dass in
Schleifen niemals mehrere uninitialisierte Objekte erzeugt werden. Ein ähnliches Problem existiert bei Ausnahmen. Wird eine Instruktion durch eine Ausnahme geschützt,
dann dürfen keine uninitialisierte Objekte in den lokalen Variablen existieren. Der Keller bleibt hier unberücksichtigt, weil dieser beim Auslösen einer Ausnahme geleert wird.
Desweiteren muss bei Konstruktormethoden berücksichtigt werden, dass die thisReferenz in der lokalen Variable 0 ein noch nicht initialisiertes Objekt darstellt. Erst
wenn eine Konstruktormethode derselben Klasse oder einer Oberklasse aufgerufen wird,
wechselt der Zustand von unitialisiert zu initialisiert. Dies muss bei der Bestimmung
des Schachteltyps der ersten Programmstelle berücksichtigt werden.
Es müssen also folgende Erweiterungen durchgeführt werden, um die Objektinitialisierung zu verifizieren:
1. Die Grundtypen – im speziellen die Referenzen – müssen zusätzliche Informationen über die Programmstelle enthalten, an der das zugehörige Objekt erzeugt
wurde. In dem Grundkomponentenverband müssen diese Typen unterschieden
werden. Wenn also ein Objekt A in einer Methode an verschiedenen Stellen erzeugt wird, gibt es für A insgesamt drei Typen in dem Verband: Der initialisierte
Typ und zwei uninitialisierte Typen, die durch die Programmstelle unterschieden werden, an denen sie erzeugt wurden. Abbildung 3.23 zeigt den entsprechend
erweiterten Verband für die main-Methode aus dem letzten Beispiel.
2. Bei der Bestimmung des ersten Schachteltyps von Konstruktor-Methoden muss
die this-Referenz – also die lokale Variable 0 – ein nicht initialisiertes Objekt
referenzieren.
3. Instruktionen innerhalb von Bereichen, die von Ausnahmen geschützt sind, dürfen
keine uninitialisierten Objekte in den lokalen Variablen enthalten.
3.5. SCHLUSSFOLGERUNG
A@4
*uninit*
61
A@0
*null*
java.lang.String[]
java.lang.Object[]
java.lang.String
A
java.lang.Object
Abbildung 3.23: Beispiel für einen Verband, in dem nicht initialisierte und initialisierte Typen unterschieden werden
4. Die Transferfunktion für die new-Instruktion muss den auf dem Keller abgelegten
Typ um die aktuelle Programmstelle ergänzen.
5. Die Transferfunktion für invokespecial entfernt die Programmstelleninformationen wieder, falls damit ein Konstruktor aufgerufen wird. Dazu wird die Programmstelleninformation der Referenz, die dieser Instruktion übergebenen wurde, gelesen und bei allen Typen, die sich in der aktuellen Schachtel befinden und
die gleiche Programmstelleninformation besitzen, entfernt. Enthält die übergebene Referenz keine Programmstelleninformation, so ist das Objekt schon initialisiert worden und der Konstruktor darf keinesfalls ein zweites Mal aufgerufen
werden.
6. Alle Sprunginstruktionen mit einem Rückwärtssprung müssen prüfen, ob eine
nicht initialisierte Referenz im aktuellen Schachteltyp vorhanden ist. Ist dies der
Fall, dann ist die Methode fehlerhaft.
7. Alle Transferfunktionen, die auf Objektreferenzen zugreifen – wie beispielsweise
getfield, putfield, invokeinterface, invokevirtual oder areturn – dürfen
nur ausgeführt werden, wenn das referenzierte Objekt bereits vollständig initialisiert wurde. Eine Ausnahme bilden hier die Konstruktoren. Hier dürfen die
Felder des noch nicht initialisierten Objekts bereits beschrieben werden, obwohl
der Oberklassenkonstruktor noch nicht aufgerufen wurde.
3.5
Schlussfolgerung
Das besondere an dem Ansatz von E. Rose ist, dass der Hauptaufwand in den Sicherheitsrichtlinien – also dem Typmodell der JVM – steckt. Die Zertifikate sind nicht be-
62
KAPITEL 3. KONZEPTION
sonders kompliziert aufgebaut, da es sich lediglich um Typinformationen handelt. Dafür
ist die Erstellung der Zertifikate umso aufwändiger. Der Aufwand ist nämlich genauso
groß wie der Aufwand der herkömmlichen Bytecode-Verifikation. Die Überprüfung der
Zertifikate lässt sich dafür relativ schnell durchführen und kommt mit wenig Speicher
aus. Abgesehen von Unterprogrammen lässt sich das Verfahren der leichtgewichtigen
Verifikation so erweitern, dass damit eine vollständige Bytecode-Verifikation durchgeführt werden kann.
Kapitel 4
Korrektheit
Die Korrektheit der beiden Phasen der leichtgewichtigen Verifikation lässt sich nur
durch eine Formalisierung aller beteiligten Komponenten nachweisen. Dazu ist die
herkömmliche Bytecode-Verifikation, die leichtgewichtige Verifikation und insbesondere die Semantik der Bytecodeinstruktionen auf Typebene zu formalisieren.
In diesem Abschnitt werde ich keinen vollständigen Beweis führen. Der Grund dafür
ist, dass die Beweisführung wesentlich davon abhängt, ob die herkömmliche BytecodeVerifikation richtig formalisiert wurde. Da Sun die Verifikation jedoch nur informal
beschreibt, lässt sich nicht exakt sagen, ob ein Modell der Verifikation exakt der virtuellen Maschine von Sun entspricht. E. Rose hat in [Ro98] einen Beweis für die von
ihr behandelte Bytecode-Untermenge geliefert. Darüberhinaus hat sie eine vollständige
Beschreibung der statischen und dynamischen Semantik der in dem Beweis benutzten
Java-Bytecode-Untermenge angegeben.
Da in dieser Arbeit der Schwerpunkt auf der Implementierung und Evaluierung
liegt, werde ich diesen Beweis nur grob skiziieren. Dieser Beweis ist in ähnlicher Form
in [RR98] zu finden. Darüberhinaus sollen einige der Erweiterungen aus Kapitel 3.4 in
den Beweis integriert werden.
Im folgenden werde ich zuerst ein Modell der herkömmlichen Verifikation aufstellen. Danach wird eine formale Beschreibung der Zertifizierung und der leichtgewichtigen
Verifikation benötigt, um schließlich die Äquivalenz dieser beiden Verifizierer nachzuweisen. Dieses Modell wird in der Notation der Natural Semantics (siehe 2.4) formuliert.
Es wird ein Regelsystem beschrieben, mit dem sich ein Beweis für die Durchführbarkeit
der Verifikation erzeugen lässt.
4.1
Die herkömmliche Bytecode-Verifikation
Die folgende Beschreibung drückt die herkömmliche Verifikation auf eine etwas ungewohnte Art aus. Hier wird davon ausgegangen, dass die Schachteltypen für alle
Programmstellen bereits bekannt sind und nur die Korrektheit dieser Schachteltypen
geprüft wird. Vom logischen Standpunkt aus macht dies keinen Unterschied. Diese ungewöhnliche Beschreibung der Verifikation macht die Beweisführung jedoch einfacher.
Zunächst sollen die Grundbausteine wie der Konstantenbereich und die anderen
benötigte Datenstrukturen beschrieben werden.
63
64
4.1.1
KAPITEL 4. KORREKTHEIT
Der Konstantenbereich
Einige Instruktionen benötigen Parameter, die nicht in den Bytecode eingebettet werden können. Diese befinden sich daher im Konstantenbereich. Neben Zahlen enthält
der Konstantenbereich auch Methodenreferenzen und Feldreferenzen. Andere Einträge
des Konstantenbereichs wie Zeichenketten werden hier nicht modelliert.
Die Feldreferenzen werden von den Instruktionen getfield und putfield benötigt.
Die Instruktionen invokevirtual oder invokespecial benutzen die Methodenreferenzen, um die aufzurufenden Methoden zu ermitteln.
cp ∈ Konstantenbereich
it ∈ Item
int ∈ Integer = Z
f ref ∈ FeldReferenz
cid ∈ KlassenID
id ∈ Bezeichner
mt ∈ MaschinenTyp
mref ∈ MethodenReferenz
msig ∈ MethodenSignatur
rmt ∈ Ergebnistyp
::= it∗
::= int | f ref | mref
::= fieldref(cid, id, mt)
::=
::=
::=
::=
int | cid
methref(cid, msig, rmt)
methsig(id, mt∗ )
void | mt
Auf den Konstantenbereich kann mittels cp(i) zugegriffen werden. Das erste Element wird mit cp(0) angesprochen. Eine Feldreferenz besteht aus einer Klasse, einem
Feldnamen und einem Typ. Eine Methodenreferenz besteht aus einer Klasse, einer Signatur und einem Ergebnistyp. Der Ergebnistyp kann neben Referenz und Grundtyp
auch vom Typ void sein. Die Signatur gibt den Namen der Methode an und bestimmt,
welche Parameter mit welchen Typen die Methode besitzt.
Damit Erweiterungen wie Reihungen oder weitere Grunddatentypen berücksichtigt
werden, ist hier der MaschinenTyp zu ergänzen:
mt ∈ MaschinenTyp ::= gt | arrayid | cid
gt ∈ Grunddatentyp ::= int | f loat | double | double2 | long | long2
f loat, double, double2 ∈ Real = Q
long, long2 ∈ Integer = Z
arrayid ∈ Bezeichner
Die beiden zweiwortigen Datentypen long und double sind hier, wie im Konzeptionskapitel beschrieben, in zwei Komponenten aufgeteilt. Für die Reihungen sind zwei
Funktionen notwendig, die die Dimension und den Basistyp einer Reihung bestimmen.
4.1.2
Schachteltypen
Jeder Programmstelle der Methode wird nun genau ein Schachteltyp zugeordnet. Es
ergibt sich also eine endliche Abbildung von Programmstellen auf Schachteltypen:
4.1. DIE HERKÖMMLICHE BYTECODE-VERIFIKATION
md ∈ MethodentypDeskriptor
f t ∈ Schachteltyp
st ∈ Kellertyp
lvt ∈ LokaleVariablenTyp
=
=
=
=
65
f in
Programmstellen −→ Schachteltyp
Kellertyp × LokaleVariablenTyp
MaschinenTyp ∗
(MaschinenTyp | ⊥)∗
Jede Programmstelle der Methode besitzt nicht mehr als einen Schachteltyp, weil
die JVM-Spezifikation vorschreibt, dass der Keller an jeder Programmstelle die gleiche
Tiefe besitzt, unabhängig davon, durch welchen Programmpfad diese Programmstelle
erreicht wurde. Die Anzahl der lokalen Variablen ist innerhalb einer Methode konstant
und somit für jede Programmstelle in der Methode gleich. Etwas komplizierter wird
dies innerhalb von Unterprogrammen, aber die sollen hier – wie zuvor beschrieben –
nicht behandelt werden.
Die Schachteltypen sind ähnlich definiert wie der Verband der Datenflussanalyse aus Abschnitt 3.2.1 und werden aus einfacheren Elementen zusammengesetzt. Der
Schachteltyp ergibt sich daher aus einem Kellertyp und einem Typ für die lokalen
Variablen.
Man beachte, dass der Keller nicht das ⊥-Symbol enthalten kann. Dies ist nach
JVM-Spezifikation nicht zulässig. Der Keller muss an jeder Programmstelle Werte von
eindeutig bestimmbaren Typen enthalten. Das aus dem Verband bekannte >-Element
tritt hier nicht auf, weil dieses nur als Zwischenergebnis bei der Datenflussanalyse
benutzt wird. Hier wird nur das Ergebnis dieser Datenflussanalyse modelliert. Zur
Erinnerung: Das >-Symbol bezeichnet in der Datenflussanalyse Elemente, deren Typ
noch nicht bekannt ist, weil diese von anderen ebenfalls noch nicht bekannten Typen
abhängen.
Schließlich wird noch die Relation definiert, die ich schon vorher als die auf einem Verband induzierte partielle Ordnung erwähnt habe. E. Rose nennt diese Relation
schwächer definiert“ und wird folgendermaßen in der Notation der Natural Semantics
”
mit Hilfe der Unterklassenrelation ≤: definiert:
cid2 ≤: cid1
cid1 v cid2
⊥ v mt
Das rechte Axiom definiert das ⊥-Symbol als kleinstes Element. mt kann hier –
wie weiter oben definiert – eine Klasse oder ein Grundtyp sein. Durch die rechte Regel
wird ein Zusammenhang zwischen der Unterklassenbeziehung ≤: und der Relation v
festgelegt. Zwischen zwei Klassen cid1 und cid2 gilt die Relation cid1 v cid2 , wenn cid1
eine Oberklasse von cid2 ist oder cid1 = cid2 gilt.
Diese Relation müsste nun entsprechend den Erweiterungen aus Kapitel 3.4 ergänzt
werden. Die dort beschriebenen Erweiterungen des Grundkomponentenverbands müssen
auf diese Relation übertragen werden. Dies soll aus Gründen der Übersichtlichkeit hier
nur kurz erwähnt werden. Für Reihungen müssten beispielsweise die vier Regeln aus
Abschnitt 3.4.2 in entsprechenden Regeln formuliert werden. Dabei sind die Funktionen
zur Bestimmung der Dimension und des Basistyps einer Reihung hilfreich.
Diese Relation wird nun auf ganze Schachteltypen erweitert. Dies entspricht genau
der Konstruktion des Schachteltypverbands aus dem Grundkomponentenverband. Die
Elemente zweier Schachteltypen f t1 und f t2 seien folgendermaßen benannt:
f t1 = hmts1 (1) mts1 (2) . . . mts1 (n1 ), mtl1 (1) mtl1 (2) . . . mtl1 (m1 )i ,
f t2 = hmts2 (1) mts2 (2) . . . mts2 (n2 ), mtl2 (1) mtl2 (2) . . . mtl2 (m2 )i
66
KAPITEL 4. KORREKTHEIT
Für Schachteltyp i ist mtsi (j) das j-te Element auf dem Keller und mtli (k) ist die
k-te lokale Variable. Die Relation v für ganze Schachteltypen ist nun folgendermaßen
definiert:
mts1 (1) v mts2 (1) mts1 (2) v mts2 (2) . . . mts1 (n) v mts2 (n)
mtl1 (1) v mtl2 (1) mtl1 (2) v mtl2 (2) . . . mtl1 (m) v mts2 (m)
f t1 v f t 2
mit
n = n1 = n2 , m = m1 = m2
Die beiden Schachteltypen f t1 und f t2 müssen also die gleiche Anzahl Elemente
auf dem Keller und die gleiche Anzahl lokaler Variablen besitzen. Weiterhin gilt die
Relation gilt nur, wenn die Relation v zwischen jedem entsprechenden Typ gilt.
4.1.3
Verifikation
Nun soll die herkömmliche Bytecode-Verifikation formal ausgedrückt werden. Dazu
müssen nur noch die Größe des Kellers und die Anzahl der lokalen Variablen der zu
verifizierenden Methode definiert werden:
ms ∈ MaxStack = N
mlv ∈ MaxLokaleVariablen = N
Als Formel in der Notation der Natural Semantics geschrieben ergibt sich für die
Bytecode-Verifikation folgendes:
≤:, cid, cp ` msig, c, ms, mlv : md
(BV)
Vor dem ` steht der Klassenkontext in Form der Klassenhierarchie, des Klassennamens und des Konstantenbereichs. Die lokalen Informationen der zu prüfenden Methode befinden sich zwischen ` und dem Doppelpunkt. Diese Informationen sind die
Methodensignatur msig, der Bytecode c, die maximale Kellergröße ms und die Anzahl
der lokalen Variablen mlv. Schließlich ist hinter dem Doppelpunkt der Typdeskriptor der Methode zu finden. Wie eingangs beschrieben, ist md an dieser Stelle bereits
bekannt und wird nur auf Korrektheit geprüft. Implizit steckt in dieser Prüfung eine
Konstruktionsanleitung.
Um diese Formel beweisen zu können, werden die folgenden Regeln benötigt.
4.1.4
Methodenprüfung
Methodenprüfung bedeutet zu überprüfen, dass jede in der Methode enthaltene Instruktion ihre Bedingungen erfüllt hat. Dies bedeutet im wesentlichen, dass die Instruktion mit ihrem Schachteltyp ausführbar ist und dass der Keller und die Anzahl
der lokalen Variablen groß genug sind.
h≤; , cp, ms, mlv, rmti ` ∅, 0, c : md → P P
≤; , cid, cp ` msig, c, ms, mlv : md
(4.1)
4.1. DIE HERKÖMMLICHE BYTECODE-VERIFIKATION
67
Wobei folgendes gilt:
msig = methsig(rmt, mt1 . . . mtn )
lvt = {0 7→ cid, 1 7→ mt1 , . . . , n 7→ mtn ,
n + 1 7→ ⊥, . . . , mlv − 1 7→ ⊥}
md(0) v h, lvti
Dom(md) = P P
Man beachte, dass die Konklusion der Methodenprüfung genau der Formel für die
Bytcode-Verifikation (BV) entspricht. Damit diese Konklusion gilt, muss die Prämisse
nachgewiesen werden. Die Anwendbarkeit der Regel 4.1 wird durch einige Bedingungen
eingeschränkt. Sind diese Nebenbedingungen nicht erfüllt, lässt sich die Konklusion
nicht beweisen.
Dom(md) ist die Urbildmenge von md. Dom(md) = P P bedeutet, dass die Abbildung md jedes Element der Menge P P auf einen Schachteltyp abbilden muss. Dies
ist eine Voraussetzung für die Anwendbarkeit dieser Regel. Es müssen also vorher alle Instruktionen geprüft werden, bevor diese Regel bewiesen werden kann. Bei dieser
Instruktionenprüfung wird die Menge P P nach und nach erweitert bis die Programmstellen aller Instruktionen in P P aufgenommen wurden. Die Elemente hier dem Pfeil
→ kann man in dieser und in allen folgenden Regeln als Berechnungsergebnis“ der
”
Regel ansehen.
Desweiteren muss für den Schachteltyp der ersten Instruktion gelten, dass dieser
schwächer definiert“ ist als h, lvti. Dies ist der Schachteltyp, der von der JVM ein”
gerichtet wird, wenn die Methode aufgerufen wird. Die erste lokale Variable lvt(0) ist
eine Referenz auf die Klasse, zu der diese Methode gehört. Statische Methoden werden
also bei diesem Beweis nicht unterstützt. Die Methodenparameter werden ebenfalls als
lokale Variablen verfügbar gemacht und befinden sich hinter der this-Referenz in der
Menge lvt.
4.1.5
Prüfung von Instruktionsfolgen
Zur Vereinfachung wird zunächst die Umgebung der Methode zu dem Symbol Ξ zusammengefasst, weil diese Umgebung innerhalb einer Methode unveränderlich ist und in
den folgenden Regeln immer wieder benötigt wird. Dies erhöht die Lesbarkeit der Regeln. Die Umgebung besteht aus dem Konstantenbereich, der maximalen Kellergröße,
der Anzahl der lokalen Variablen und dem Ergebnistyp der Methode:
Ξ ∈ StatischeMethodenInformation ::= h≤:, cp, ms, mlv, rmti
Nun lässt sich die Instruktionenprüfung folgendermaßen ausdrücken:
Ξ ` pp, i : md → pp 0
Ξ ` P P 0 , pp 0 , c : md → P P 00
Ξ ` P P, pp, i · c : md → P P 00
P P 0 = P P ∪ {pp}
Ξ ` P P, pp, : md → P P
(4.2)
(4.3)
Zwischen ` und : stehen in den Konklusionen drei Elemente: Eine Menge von Programmstellen P P , die aktuelle Programmstelle pp und eine Liste von noch zu prüfenden
Instruktionen. Die Regel (4.2) soll nach und nach die erste Menge mit allen Programmstellen der Methode füllen und dabei die Liste der Instruktionen leeren bis das Axiom
(4.3) erfüllt ist. Der Beginn der Instruktionenprüfung wird durch Regel (4.1) initiiert.
Der obere Teil der Prämisse von Regel (4.2) prüft die Instruktion i an Programmstelle pp. Diese Formel wird im folgenden bei der Prüfung der einzelnen Instruktionen
68
KAPITEL 4. KORREKTHEIT
noch mehrmals auftreten. Gelesen wird die Formel folgendermaßen: Falls im Typkontext Ξ die Instruktion i an Programmstelle pp typsicher im Bezug auf den Methodentypdeskriptor md ist, dann kann an der Zielprogrammstelle pp 0 fortgesetzt werden.
Der untere Teil der Prämisse sorgt für die Prüfung aller Folgeinstruktionen und setzt
die aktuelle Instruktion um einen Schritt von pp auf pp 0 weiter. Dieser Vorgang wird
rekursiv wiederholt, bis der zweite Teil der Prämisse das Axiom (4.3) ergibt. Damit
wäre dann die Konklusion erfüllt und die Instruktionenfolge überprüft.
In P P 0 werden die schon geprüften Programmstellen gesammelt, d.h. nach jeder
Anwendung der Regel (4.2) enthält diese Menge ein Element mehr, und zwar pp. Genau
dieser Sachverhalt wird durch die Nebenbedingung sichergestellt.
4.1.6
einzelne Instruktionen
Für jede Instruktion muss nun eine Regel existieren, die angibt, wie diese Instruktion
verifiziert werden kann. Dies entspricht den Transferfunktionen. Ich werde hier einen
Auszug dieser Regeln vorstellen. Konkret handelt es sich bei diesen Regeln um Axiome
mit Nebenbedingungen.
Zuerst folgen einfache Instruktionen, die nur den Keller modifizieren.
einfache Kellerinstruktionen
(4.4)
Ξ ` pp, i : md → pp 0
Wobei folgendes gilt:
pp 0 = pp + 1
md(pp) = hst, lvti
f t 0 = hst 0 , lvti
md(pp 0 ) v f t 0
|st 0 | < ms
pp 0 ist hier die Nachfolgestelle der Instruktion i an Programmstelle pp. md(pp) ist
der Schachteltyp vor der Ausführung und f t 0 ist der Schachteltyp nach der Ausführung
der Instruktion i. Welche Instruktionen für i stehen können und wie sich bei Ausführung
dieser Instruktion der Keller st 0 aus dem Keller st berechnet, zeigt folgende Tabelle an
ein paar Beispielen:
Instruktion i
iconst 0
iconst 1
aconst null
dup
pop
iadd
isub
dadd
st
st
st
st
st1 · mt
st1 · mt
st1 ·int·int
st1 ·int·int
st1 · double2 · double · double2 · double
st 0
st·int
st·int
st·Object
st1 · mt · mt
st1
st1 ·int
st1 ·int
st1 · double2 · double
Das oberste Element des Kellers steht immer rechts. Der Punkt · verkettet Elemente zu einer Liste. So stellt z.B. die Instruktion iconst 0 einen int-Typ oben auf
den Keller.
Durch die Unterstützung von mehrwortigen Datentypen muss bei der pop-Instruktion
die Integrität dieser Typen durch zusätzliche Bedingungen sichergestellt werden. Es
muss verhindert werden, dass durch eine pop-Instruktion eine einzelne Komponente
eines mehrwortigen Typs vom Keller genommen wird:
4.1. DIE HERKÖMMLICHE BYTECODE-VERIFIKATION
Instruktion i
pop
69
Bedingungen
mt 6= long, mt 6= long2, mt 6= double, mt 6= double2
Etwas interessanter sind Instruktionen, die neben dem Keller auch den Konstantenbereich benötigen und auf Felder und Methoden von Objekten zugreifen.
Objektorientierte Instruktionen
Ξ ` pp, i : md → pp 0
(4.5)
Wobei folgendes gilt:
pp 0 = pp + 3
md(pp) = hst, lvti
f t 0 = hst 0 , lvt 0 i
md(pp 0 ) v f t 0
cp(n) = it
cid ≤: cid 0
|st 0 | < ms
it ist ein Element des Konstantenbereichs und muss entweder eine Feldreferenz
oder eine Methodenreferenz enthalten abhängig davon, welche Instruktion i ausgeführt
werden soll. Folgende Tabelle zeigt wieder, wie die Instruktion den Keller von st nach
st 0 verändert unter Verwendung der Informationen aus dem Konstantenbereich:
Instruktion i
putfield[n]
getfield[n]
invokevirtual[n]
invokevirtual[n]
invokespecial[n]
invokespecial[n]
st
st 0 · cid · mt
st1 · cid
st 0 · cid · mt1 · · · mtj
st1 · cid · mt1 · · · mtj
st 0 · cid · mt1 · · · mtj
st1 · cid · mt1 · · · mtj
st 0
st 0
st1 · mt
st 0
st1 · mt
st 0
st1 · mt
it
fieldref(cid 0 , id, mt)
fieldref(cid 0 , id, mt)
methref(cid 0 , methsig(
methref(cid 0 , methsig(
methref(cid 0 , methsig(
methref(cid 0 , methsig(
, mt1 , . . . , mtj ),void)
, mt1 , . . . , mtj ), mt)
, mt1 , . . . , mtj ),void)
, mt1 , . . . , mtj ), mt)
Die Instruktionen invokevirtual und invokespecial sind zweimal aufgeführt,
weil diese bei vorhandenem und nicht vorhandenem Ergebnistyp unterschiedlich behandelt werden müssen. Der Wert n steht hier für einen Index innerhalb des Konstantenbereichs und ist Teil der Instruktion.
Die Bedingung cid ≤: cid 0 garantiert, dass die dem Keller übergebene Klasse eine
Unterklasse zu der im Konstantenbereich angebenen Klasse ist, so wie es laut JVMSpezifikation gefordert ist.
Die Vorgehensweise bei Methoden ist ähnlich. Hier wird anhand der Methodensignatur geprüft, ob sich alle Parameter mit den passenden Typen auf dem Keller
befinden. Liefert diese Methode einen Rückgabewert, so muss auch dieser Typ mit dem
Keller verglichen werden. An dieser Stelle gibt es eine weitere Vereinfachung, da nach
Spezifikation bei den Methodenparametern statt mti auch eine Unterklasse von mti
als aktueller Parameter verwendet werden könnte. Darauf wird in dieser Modellierung
verzichtet.
Nun folgen bedingte Sprunginstruktionen.
70
KAPITEL 4. KORREKTHEIT
bedingte Sprunginstruktionen
Ξ ` pp, i : md → pp 0
(4.6)
Wobei folgendes gilt:
md(pp) = hst, lvti
pp 0 = pp + 3
f t 0 = hst 0 , lvti
md(pp 0 ) v f t 0
pp 00 = pp + n
md(pp 00 ) v f t 0
Die Instruktion i modifiziert dabei den Keller folgendermaßen:
Instruktion i
ifle[n]
ifnull[n]
st
st 0 · int
st 0 · cid
Beide Instruktionen nehmen also genau ein Element vom Keller. Dabei nimmt ifle
einen int-Wert und ifnull eine Klassenreferenz vom Keller.
Abschließend folgen noch Rücksprunginstruktionen, die vor allem prüfen, ob auch
tatsächlich der richtige Ergebnistyp entsprechend der Methodendeklaration geliefert
wird.
Rücksprunginstruktionen
Ξ ` pp, i : md → pp 0
(4.7)
Wobei folgendes gilt:
pp 0 = pp + 1
md(pp) = hst, lvti
Folgende Tabelle zeigt wieder, welche Instruktionen i hier möglich sind und wie der
Keller aussehen muss. Desweiteren gibt es in der Tabelle eine weitere Bedingung, die
überprüft, ob die Methode auch mit dem korrekten Ergebnistyp beendet wird.
Instruktion i
return
ireturn
areturn
4.2
st
st1
st1 · int
st1 · cid
Bedingung
rmt = void
rmt = int
cid ≤: rmt
Die leichtgewichtige Verifikation
Die leichtgewichtige Verifikation besteht aus den beiden Phasen Zertifizierung und
Überprüfung. Wenn in dem Zertifikat ein Eintrag gespeichert werden muss, dann wird
hier der Einfachheit halber ein vollständiger Schachteltyp zusammen mit der zugehörigen Programmstelle in das Zertifikat aufgenommen. Die Zertifikate haben damit folgenden Aufbau:
4.2. DIE LEICHTGEWICHTIGE VERIFIKATION
71
cert ∈ Zertifikat ::= hδ, li
f in
δ ∈ ∆ = Programmstellen −→ Schachteltyp
l ∈ Markierungen = P(Programmstellen)
Die Markierungen haben die gleiche Bedeutung wie in Abschnitt 3.3.1 beschrieben.
Die Schachteltypen wurden bereits in Abschnitt 4.1.2 definiert.
4.2.1
Zertifizierung
Die Regel für die Bytecode-Verifikation (BV) wird nun erweitert, so dass ein Zertifikat
erzeugt wird (leichtgewichtige Bytecode-Zertifizierung).
≤:, cid, cp ` msig, c, ms, mlv : md → cert
(LBC)
Methodenprüfung
Entsprechend wird die Regel (4.1) zur Methodenprüfung um das zu konstruierende
Zertifikat erweitert:
h≤; , cp, ms, mlv, rmti ` ∅, 0, c : md → P P, cert
≤; , cid, cp ` msig, c, ms, mlv : md → cert
Die Bedingungen der Regel bleiben unverändert.
(4.8)
Instruktionsfolgen
Bei der Prüfung von Instruktionsfolgen sind zwei Zertifikate zu vereinigen. Nämlich
einmal das Zertifikat cert, was sich bei Prüfung der Instruktion i ergibt und zum
anderen das Zertifikat cert 0 , das Ergebnis der Prüfung des übrigen Bytecode ist:
Ξ ` pp, i : md → pp 0 , cert
Ξ ` P P 0 , pp 0 , c : md → P P 00 , cert 0
Ξ ` P P, pp, i · c : md → P P 00 , cert 00
P P 0 = P P ∪ {pp}
cert 00 = cert ∪ cert 0
Ξ ` P P, pp, : md → P P, ∅
(4.9)
(4.10)
Das Axiom (4.3) wird um die leere Menge erweitert, weil hier das Zertifikat zu
Beginn leer ist.
einzelne Instruktionen
Schließlich müssen die Regeln für die einzelnen Instruktionen um die Erzeugung des
Zertifikats ergänzt werden. Dabei wird in der Konklusion der Regeln (4.4), (4.5) und
(4.6) pp 0 durch pp 0 , cert ersetzt. Es wird ein Zertifikateintrag erzeugt, wenn md(pp 0 )
echt schwächer definiert ist als f t 0 . Für die Regeln (4.4) und (4.5) ohne Sprünge werden
keine Markierungen für die Rückwärtssprünge erzeugt:
cert = hδ, i
(
{pp 0 7→ md(pp 0 )} falls md(pp 0 ) @ f t 0
δ=
∅
andernfalls
72
KAPITEL 4. KORREKTHEIT
Bei den Sprunginstruktionen sind für Rückwärtssprünge zusätzlich Markierungen
zu erzeugen. Das Zertifikat für die Regel der Sprunginstruktion (4.6) wird daher folgendermaßen berechnet:
cert = hδ, li
(
{pp 0 7→ md(pp 0 )} falls md(pp 0 ) @ f t 0
δ=
∅
andernfalls
(
{pp 00 } falls pp 00 < pp
l=
∅
andernfalls
Schließlich wird das Zertifikat für die Rücksprung-Regel (4.7) bestimmt. Es wird
nur dann ein nicht leerer Zertifikatseintrag erzeugt, wenn eine Instruktion nach der
Rücksprunginstruktion existiert:
cert = hδ, i
(
{pp 0 7→ md(pp 0 )} falls md(pp 0 ) ∈ Dom(md)
δ=
∅
andernfalls
Nun lassen sich Zertifikate erzeugen, die später zur Überprüfung des Bytecode
benutzt werden können.
4.2.2
Überprüfung
Die Überprüfungsphase arbeitet ähnlich wie die herkömmliche Bytecode-Verifikation
(BV). Hier muss statt des Methodendeskriptors md das Zertifikat cert benutzt werden.
Dieses Zertifikat hat die Eigenschaft, dass es Informationen über die Schachteltypen md
bei Bedarf bereitstellen kann. Das Regelsystem beginnt nun mit der folgenden Formel:
≤:, cid, cp ` msig, c, ms, mlv : cert
(LBV)
Die folgende Beschreibung entspricht dem Überprüfungsalgorithmus aus Abschnitt
3.3.1 und hat daher entsprechend den dort beschriebenen Mengen gemerkt und zurueckgestellt ähnliche Definitionen:
f in
S ∈ GemerkteSchachteltypen = Programmstellen −→ Schachteltyp
P ∈ ZurueckgestelltePruefungen = P(Programmstellen × Schachteltyp)
In den folgenden Regeln bezeichnet f t den aktuellen Schachteltyp und entspricht
somit md(pp) im aktuellen Kontext. In der Menge S werden Schachteltypen gemerkt,
die laut Zertifikat später noch einmal benötigt werden. Die Menge P enthält zurückgestellte Schachteltypen, die bei Vorwärtssprüngen in noch nicht geprüfte Bereiche
gespeichert werden.
Methodenprüfung
Die Prüfung einer Methode (4.1) wird folgendermaßen angepasst:
Ξ ` ∅, 0, c : cert, f t0 , ∅, ∅ → f t, S, P, P P
≤; , cid, cp ` msig, c, ms, mlv : cert
(4.11)
4.2. DIE LEICHTGEWICHTIGE VERIFIKATION
73
Wobei folgendes gilt:
msig = methsig(rmt, mt1 . . . mtn )
lvt = {0 7→ cid, 1 7→ mt1 , . . . , n 7→ mtn ,
n + 1 7→ ⊥, . . . , mlv − 1 7→ ⊥}
f t0 = h, lvti
Die zusätzlichen Informationen befinden sich in der Prämisse und werden von der
Regel zur Bearbeitung von Instruktionsfolgen benutzt. Dabei handelt es sich um den
aktuellen Schachteltyp f t und die beiden Mengen S und P .
Instruktionsfolgen
Die Regel 4.2 wird entsprechend so geändert, dass das Zertifikat verwendet wird.
Ξ ` pp, i : cert, f t1 , S, P1 → f t 0 , P 0 , pp 0
Ξ ` P P 0 , pp 0 , c : cert, f t 0 , S 0 , P 0 → f t 00 , S 00 , P 00 , P P 00
Ξ ` P P, pp, i · c : cert, f t, S, P → f t 00 , S 00 , P 00 , P P 00
(4.12)
Wobei folgendes gilt:
P P 0 = P P ∪ pp
cert = hδ, li
(
δ(pp) falls pp ∈ Dom(δ) und δ(pp) v f t
f t1 =
ft
andernfalls
(
S ∪ {pp 7→ f t1 } falls pp ∈ l
S0 =
S
andernfalls
∀f t 000 mit hpp, f t 000 i ∈ P gilt f t 000 v f t1
P1 = {hpp 000 , f t 000 i ∈ P | pp 000 6= pp}
Die dritte Bedingung benutzt den Schachteltyp δ(pp) aus dem Zertifikat, falls für
die aktuelle Programmstelle pp ein Eintrag vorhanden ist. Dieser Schachteltyp f t1
wird schließlich an die Regel für die einzelnen Instruktionen weitergereicht. Dies ist der
erste Teil der Prämisse. Die Ergebnisse der Instruktionenprüfung werden schließlich an
den zweiten Teil der Prämisse weitergegeben, so dass damit die übrigen Instruktionen
geprüft werden.
Die vierte Bedingung speichert den aktuellen Schachteltyp f t1 mit der aktuellen
Programmstelle pp, falls im Zertifikat die aktuelle Programmstelle markiert ist.
Durch die fünfte Bedingung werden alle für die aktuelle Programmstelle zurückgestellten Schachteltypen auf Kompatiblität mit dem aktuellen Schachteltyp überprüft.
Schließlich entfernt die sechste Bedingung alle Elemente aus der Menge P , die in
der fünften Bedingung benutzt wurden.
Das Axiom (4.3) wird folgendermaßen geändert:
Ξ ` P P, pp, : cert, f t, S, ∅ → f t, ∅, S, P P
(4.13)
Dieses Axiom ist nur anwendbar, wenn die Menge P leer ist. Dies garantiert, dass
alle zurückgestellten Schachteltypen auch tatsächlich geprüft werden.
74
KAPITEL 4. KORREKTHEIT
einzelne Instruktionen
Die Regeln für die einzelnen Instruktionen werden folgendermaßen angepasst:
• Jedes Auftreten von md(pp) wird ersetzt durch den aktuellen Schachteltyp f t.
Dies ist der Schachteltyp, der vor Ausführung der Instruktion gilt.
• Jede Bedingung md(pp 0 ) v f t 0 wird entfernt. Dies ist möglich, weil diese Bedingungen durch die Regel (4.12) bereits geprüft werden.
• Die Bedingung md(pp 00 ) v f t 0 prüft die sekundären Fortsetzungsstellen und
wird ersetzt durch
(pp 00 < pp0 ∧ S(pp 00 ) v f t 0 ∧ P 0 = P )
∨ (pp 00 ≥ pp 0 ∧ P 0 = P ∪ {pp 00 7→ f t 0 })
(4.14)
Die Bedingung (4.14) unterscheidet Vorwärts- und Rückwärtssprünge. Bei einem
Rückwärtssprung wird der Ergebnisschachteltyp der Instruktion mit dem gemerkten
Schachteltyp verglichen. Falls dieser nicht existiert, ist die Regel nicht anwendbar und
die Überprüfung scheitert. Der zweite Teil dieser Bedingung stellt noch nicht geprüfte
Sprungziele zur späteren Prüfung durch Einfügen in die Menge P 00 zurück.
Dadurch dass bei dieser Formalisierung die goto-Instruktion nicht unterstützt wird,
kann die Art des sekundären Sprungs pp 0 durch einen Vergleich der Programmstellen
pp 0 und pp 00 geschehen. Gäbe es eine goto-Instruktion, so wäre ein Rückwärtssprung
ein Sprung auf eine schon geprüfte Instruktion. Ein Vorwärtssprung wäre ein Sprung
auf eine noch nicht geprüfte Instruktion.
Für eine Unterstützung von mehreren sekundären Programmstellen wäre statt pp 00
eine Menge zu benutzen. Dann gäbe es mehrere Bedingungen md(pp 00 ) v f t0 , die
entsprechend durch mehrere Bedingungen der Form 4.14 zu ersetzen wären.
4.3
Korrektheit und Fälschungssicherheit
Nachdem die gewöhnliche Bytecode-Verifikation (BV), die Zertifizierung (LBC) und die
Überprüfung (LBV) formalisiert wurden, kann nun die Äquivalenz der leichtgewichtigen
Verifikation zur herkömmlichen Verifikation gezeigt werden. Die drei Formeln seien hier
noch einmal aufgelistet:
≤:, cid, cp ` msig, c, ms, mlv : md
≤:, cid, cp ` msig, c, ms, mlv : md → cert
≤:, cid, cp ` msig, c, ms, mlv : cert
(BV)
(LBC)
(LBV)
Es wird nun zuerst gezeigt, dass die Zertifizierung (LBC) dann und nur dann gelingt, wenn auch die gewöhnliche Bytecode-Verifikation (BV) erfolgreich durchgeführt
werden kann.
Danach wird bewiesen, dass die Überprüfung nur dann gelingt, wenn ein Zertifikat
erzeugt werden kann. Damit wird die Fälschungssicherheit sichergestellt.
Schließlich lässt sich aus den ersten beiden Beweisen die Äquivalenz der herkömmlichen Verifikation und der leichtgewichtigen Verifikation folgern.
Wesentliche Idee des Beweises ist es zu zeigen, dass in der leichtgewichtigen Verifikation alle Schachteltypvergleiche durchgeführt werden, die auch von der herkömmlichen
Verifikation durchgeführt werden.
4.3. KORREKTHEIT UND FÄLSCHUNGSSICHERHEIT
75
Satz 4.1. Die gewöhnliche Bytecode-Verifikation (BV) ist gültig genau dann, wenn folgendes gilt: Es existiert ein Zertifikat, so dass die leichtgewichtige Zertifizierung (LBC)
gültig ist.
Beweis. ⇒“: Die Zertifizierung wurde aus der herkömmlichen Verifikation durch Er”
weiterung der vorhandenen Regeln abgeleitet. Diese Erweiterungen schränken die Anwendbarkeit der Regeln nicht ein, so dass die Erstellung des Zertifikats niemals scheitern
kann, wenn die herkömmliche Verifikation durchgeführt werden kann. Daher kann jeder
Beweis für die herkömmliche Verifikation (BV) zu einem Beweis für die Zertifizierung
(LBC) erweitert werden.
⇐“: Die Rückrichtung ist trivial, da durch Entfernen aller cert-Einträge aus den
”
Formeln eines (LBC)-Beweises sich der (BV)-Beweis ergibt.
Satz 4.2. Die leichtgewichtige Verifikation (LBV) ist genau dann gültig, wenn folgendes gilt: Es existiert ein Methodendeskriptor md, so dass die leichtgewichtige Zertifizierung (LBC) gültig ist.
Beweis. ⇒“: Aus dem Beweis für die leichtgewichtige Verifikation (LBV) muss nun
”
ein Beweis für die Zertifizierung konstruiert werden (LBC). Der dazu notwendige Methodendeskriptor md wird dadurch ermittelt, dass jede Benutzung der Regel (4.12) in
dem Beweis betrachtet wird. Die erste Formel der Prämisse dieser Regel hat die Form
Ξ ` pp, i : cert, f t1 , S, P1 → f t 0 , P 0 , pp 0 . Der aktuelle Schachteltyp befindet sich in
f t1 und wird für die Rekonstruktion von md verwendet. Es sollte klar sein, dass dieser
Schachteltyp f t1 für jede Programmstelle vohanden ist. Schließlich ist noch zu zeigen,
dass alle notwendigen Bedingungen für den (LBC)-Beweis auch in dem (LBV)-Beweis
vorhanden sind. Dazu werden S, P und die Markierungen l des Zertifikats cert betrachtet. Es muss gezeigt werden, dass alle nötigen Schachteltyp-Vergleiche für den zu
konstruierenden (LBC)-Beweis bereits im (LBV)-Beweis durchgeführt wurden. Dabei
werden zwei Vergleiche unterschieden:
• Die Vergleiche md(pp 0 ) v f t 0 werden in der Regel (4.12) bei der Bestimmung
von f t1 erledigt.
• Die Vergleiche md(pp 00 ) v f t 0 bei Sprunginstruktionen werden je nach Art des
Sprungs unterschieden:
– Bei Rückwärtssprüngen wird ein Vergleich mit den gemerkten Schachteltypen S durchgeführt Dieser Vergleich wird in den einzelnen Instruktionen
durchgeführt (4.14). Dieser Vergleich kann nur durchgeführt werden, wenn
vorher ein Eintrag in S gemacht wurde – also ein Eintrag in l im Zertifikat existiert. Da nach Voraussetzung davon ausgegangen wird, dass der
(LBV)-Beweis korrekt ist, existiert auch dieser Eintrag.
– Bei Vorwärtssprüngen in noch nicht geprüfte Bereiche wird in Regel (4.14)
ein Eintrag in die Menge P vorgenommen. Der Vergleich wird somit zurückgestellt und später geprüft, wenn diese noch nicht geprüfte Programmstelle
durch Regel (4.12) bearbeitet wird.
⇐“: Ähnlich wird aus einem (LBC)-Beweis ein (LBV) konstruiert. Der Methodende”
skriptor md ist vollständig vorhanden, und es muss gezeigt werden, dass die für den
(LBV)-Beweis benötigten Schachteltypvergleiche schon bei dem (LBC)-Beweis durchgeführt wurden. Dabei handelt es sich um folgende Vergleiche:
• Der erste Vergleich in den Bedingungen der Regel (4.12) bei der Ermittlung von
f t1 : Dieser Vergleich wird in jeder Regel für einzelne Instruktionen im (LBC)Beweis durchgeführt durch die Bedingung md(pp 0 ) v f t 0 .
76
KAPITEL 4. KORREKTHEIT
• Die Vergleiche f t 000 v f t1 mit den in der Menge P zurückgestellten Schachteltypen aus den Bedingungen der Regel (4.12): Dieser Vergleich wird bei bedingten
Sprüngen (4.6) durchgeführt und entspricht md(pp 00 ) v f t 0 .
• Der Vergleich S(pp 00 ) v f t 0 bei Rückwärtssprüngen in den Regeln (4.14) für
bedingte Sprünge wird ebenfalls bei Regel (4.6) durchgeführt.
Satz 4.3. Die herkömmliche Bytecode-Verifikation (BV) ist genau dann gültig, wenn
folgendes gilt: Es existiert ein Zertifikat cert, so dass sowohl die leichtgewichtige Zertifizierung (LBC) als auch die leichtgewichtige Verifikation (LBV) gültig ist.
Beweis. Dies folgt direkt aus den Sätzen 4.1 und 4.2.
Kapitel 5
Realisierung
Ein Ziel dieser Arbeit ist die Evaluierung des in Kapitel 3 vorgestellten und erweiterten
Verfahrens. Als Grundlage der Evaluierung dient ein Prototyp, der im Laufe dieser Diplomarbeit erstellt wurde. Einige interessante Aspekte dieser Implementierung möchte
ich in diesem Kapitel ansprechen.
Zunächst sollen die benutzten Hilfsmittel – insbesondere die verwendeten Bibliotheken und die Begründung für deren Einsatz – erwähnt werden.
5.1
benutzte Bibliotheken
Die erste Phase der leichtgewichtigen Verifikation besteht im wesentlichen aus einer Datenflussanalyse. Ein Programmgerüst für die Analyse von Java-Bytecode-Programmen
mittels einer Datenflussanalyse wurde von M. Mohnen unter dem Namen The DataFlow Analysis Framework for Java (jDFA) entwickelt [Mo02] [jDFA].
5.1.1
jDFA
Die Verwendung dieses Programmgerüsts hat den Vorteil, dass sich dadurch der Schwerpunkt der Implementierung der Zertifizierungsphase auf den Verband und die Transferfunktionen verlagert.
de.rwth.dfa.jvm
de.rwth.dfa
de.rwth.domains
de.rwth.domains.templates
de.rwth.graph
Abbildung 5.1: Struktur der jDFA
Die jDFA besteht aus fünf Paketen wie in Abbildung 5.1 gezeigt. Ein Paket zur
Erstellung von gerichteten Graphen bildet unter anderem die Grundlage für die Re-
77
78
KAPITEL 5. REALISIERUNG
präsentation von Programmstrukturen. Dabei können die erzeugten Graphen durch
Graphviz [GViz] angezeigt und in verschiedene Grafikformate umgewandelt werden.
Das Paket de.rwth.domains dient zur Modellierung mathematischer Strukturen wie
Mengen, partielle Ordnungen, Verbände und Funktionen. Durch die Implementierung
entsprechender Schnittstellen können Klassen erzeugt werden, die die entsprechenden
mathematischen Strukturen darstellen. Ein Nachteil ist hier, dass bestimmte mathematische Bedingungen nicht durch Java-Schnittstellen formuliert werden können. So
muss der Programmierer beispielsweise selbst dafür sorgen, dass für einen Verband die
Operationen meet und join kommutativ sind. Eine große Hilfe bei der Entwicklung der
Verbände ist zum einen eine Methode, die alle benötigten mathematischen Bedingungen für eine konkrete Implementierung prüft. Eine andere Methode erzeugt für eine
partielle Ordnung ein Hasse-Diagramm, das mit dem Graphen-Paket der jDFA und
Graphviz visualisiert werden kann.
Ein weiteres Paket de.rwth.domains.templates hilft bei der Konstruktion von neuen
Verbänden aus vorhandenen Verbänden auf die gleiche Art und Weise, wie dies bei der
Konzeption durchgeführt wurde. Damit lässt sich aus dem Grundkomponentenverband
sehr elegant der Schachteltypverband aufbauen.
Der eigentliche Algorithmus zur Datenflussanalyse befindet sich in dem vierten
Paket de.rwth.dfa. Dieses Paket baut auf der Graphen-Repräsentation aus dem ersten Paket auf. Ein letztes Paket fügt hierzu eine weitere Abstraktionsebene hinzu. In
de.rwth.dfa.jvm existiert dazu eine Schnittstelle Abstraction, durch deren Implementierung der Verband, die Transferfunktionen und die Startwerte der Datenflussanalyse
festgelegt werden. Falls Änderungen des Operandenkellers modelliert werden sollen, ist
es oft notwendig, dass die Kellergröße für jede Programmstelle der zu untersuchenden
Methode bekannt ist. Dafür bietet dieses Paket die Klasse AbstractSSDependingAbstraction an. Wird die Modellierung der abstrakten JVM von dieser Klasse abgeleitet,
so erhält man zusätzlich eine Methode, die für jede Programmstelle der zu untersuchenden Methode die Kellergröße liefert. Für den Prototypen ist diese Methode wichtig für
die Bestimmung der initialen Schachteltypen. Der erste Schachteltyp hängt von den
Parametern der zu untersuchenden Methode ab. Die übrigen Schachteltypen müssen
mit >-Elementen initialisiert werden. Dazu werden die Kellergrößen benötigt.
Das jDFA-Programmgerüst benutzt für den Zugriff auf Klassendateien die Byte
Code Engineering Library (BCEL) [BCEL].
5.1.2
BCEL
Die BCEL liest eine Klassendatei ein und stellt Datenstrukturen zum Zugriff und zur
Manipulation aller Aspekte dieser Klassendatei zur Verfügung.
Die jDFA benutzt die BCEL zum Einlesen der zu untersuchenden Klassendateien und zum Zugriff auf die einzelnen Instruktionen jeder Methode. Ebenso macht die
hier vorgestellte Implementierung Gebrauch von der BCEL. So greifen die Transferfunktionen über entsprechende Aufrufe der BCEL auf den Code-Bereich und den Konstantenbereich der zu untersuchenden Methode zu, um die benötigten Bedingungen
für die einzelnen Instruktionen zu prüfen. Beispielsweise wird für die Prüfung der
invokevirtual-Instruktion der Konstantenbereich benutzt, um die Typen der formalen Parameter der aufzurufenden Methode zu ermitteln. Diese können dann mit
den Typen der aktuellen Parameter auf dem Keller verglichen werden, um somit die
Ausführbarkeit der Instruktion zu überprüfen.
5.2. ÜBERBLICK ÜBER DIE IMPLEMENTIERUNG
5.2
79
Überblick über die Implementierung
Der Prototyp ist in der Lage, alle Methoden zu zertifizieren, die keine Unterprogrammaufrufe und keinen nicht erreichbaren Bytecode enthalten.
Zertifizierung
Kompression
Überprüfung
PCCCertifier
PCCCompress
PCCChecker
Transferfunktionen
und Verband
PCCAbstraction
Abbildung 5.2: Grobübersicht über die Implementierung
Die Implementierung besteht im wesentlichen aus drei Teilen (siehe Abbildung 5.2):
• Der Zertifizierer wird realisiert durch die Klasse PCCCertifier. Die Kompression des Zertifikats ist eine leicht modifizierte Version des Überprüfers.
• Der Überprüfer, der mit Hilfe des Zertifikats Bytcode auf Typsicherheit überprüfen kann (implementiert durch die Klasse PCCChecker ).
• Ein zentraler Bestandteil sind die Transferfunktionen und der Verband, der
von beiden Programmen benutzt wird (implementiert durch die Klasse PCCAbstraction).
Zertifizierung
Java−Klasse
PCCCertifier
PCCCompress
Zertifikate
Überprüfung
Java−Klasse
und
Zertifikat
PCCChecker
Methode
verifizierbar
Ja / Nein
Abbildung 5.3: Ablauf der Zertifizierung und der Überprüfung
Abbildung 5.3 zeigt den Ablauf der beiden Phasen. Die Zertifizierung wird von der
Klasse PCCCertifier durchgeführt und erhält als Eingabe eine Java-Klassendatei. Als
Ergebnis wird für jede Methode dieser Klassendatei ein Zertifikat geschrieben, nachdem
dieses durch die Klasse PCCCompress komprimiert wurde.
Die Überprüfung erhält als Eingabe eines dieser Zertifikate und die Klassendatei.
Die Klasse PCCChecker führt dann die Typprüfung für die in dem Zertifikat angegebene Methode durch und entscheidet, ob die Methode erfolgreich überprüft werden kann
oder nicht.
Es folgt nun ein näherer Blick auf die beiden Programme und deren benutzte Klassen und Schnittstellen.
80
KAPITEL 5. REALISIERUNG
5.2.1
Zertifizierung
PCCCertifier
PCCCompress
Transfer−
funktionen
AbstractAnalyser
Certificate
AbstractSSDependingAbstraction
PCCAbstraction
Abstraction
Verband
PCCLattice
PCCLocalsLattice
PCCStackLattice
TupleCompleteLattice
LiftedCompleteLattice
PCCComponentLattice
Implementierung
Benutzung
jDFA
Datenflussanalyse
Die Datenflussanalyse wird durch die Klasse PCCCertifier durchgeführt. Die Struktur
und die Abhängigkeiten zur jDFA-Bibliothek und anderen Klassen sind in Abbildung
5.4 zu sehen. Die Verbindung zur BCEL ist hier nicht visualisiert.
CompleteLattice
Erweiterung
Abbildung 5.4: Struktur der Datenflussanalyse in der Zertifizierungsphase
Der Schachteltypverband wird durch die Klasse PCCLattice implementiert und
wird entsprechend der Konzeption aus einfacheren Verbänden zusammengesetzt. Dafür
bietet die jDFA passende Klassen an, die dafür sorgen, dass die Verküpfungen des
Schachteltypverbands korrekt aus den Verknüpfungen der darunterliegenden Verbände
berechnet werden.
Die Transferfunktionen werden durch die Klasse PCCAbstraction realisiert. Weil
diese Klasse von der jDFA-Hilfsklasse AbstractSSDependingAbstraction abgeleitet ist,
ist für jede Instruktion die Größe des Operandenkellers bekannt. Somit lassen sich die
initialen Schachteltypen – wie in Abschnitt 5.1.1 beschrieben – einfach bestimmen.
Zusammen mit dem Verband bildet diese Klasse PCCAbstraction eine abstrakte Interpretation einer Java-Bytecode-Methode.
Die eigentliche Datenflussanalyse wird schließlich von der Klasse PCCCertifier
durchgeführt. Diese Klasse ist wieder von einer jDFA-Klasse abgeleitet und dient in
erster Linie dazu, die benutzten Elemente zu initialisieren und das Ergebnis der Datenflussanalyse zu verarbeiten. Die Datenflussanalyse selbst wird dann von entsprechenden
Klassen der jDFA durchgeführt.
Die Klasse Certificate erfasst und schreibt schließlich das Zertifikat in eine Datei,
das später auch wieder eingelesen werden kann. Die Kompression des Zertifikats wird
durch die Klasse PCCCompress durchgeführt und ist sehr ähnlich zu der Überprüfung.
Daher werde ich zunächst die Implementierung der Überprüfungsphase beschreiben,
die durch die Klasse PCCChecker realisiert ist.
5.2. ÜBERBLICK ÜBER DIE IMPLEMENTIERUNG
5.2.2
81
Die Überprüfungsphase
Überprüfung
Kern der Überprüfung ist die Klasse PCCChecker. Wie bei der Zertifizierung werden
hier ebenfalls die Transferfunktionen aus PCCAbstraction benutzt.
PCCChecker
Transfer−
funktionen
PCCAbstraction
Verband
Certificate
PCCLattice
Benutzung
Abbildung 5.5: Struktur der Überprüfungphase
Das Schaubild 5.5 ist sehr ähnlich zu dem der Datenflussanalyse. Statt der Datenflussanalyse wird hier jedoch der Überprüfungsalgorithmus aus Kapitel 3.3.1 angewendet. Die Abhängigkeiten zur jDFA wurden in dem Schaubild weggelassen. Dabei
benötigt die Klasse PCCChecker die jDFA nicht direkt, sondern nur indirekt über die
Klasse PCCAbstraction.
Es werden die gleichen Transferfunktionen benutzt, wie bei der Datenflussanalyse.
Der Verband spielt hier auch eine Rolle; hier wird aber nur die partielle Ordnung des
Verbands benötigt, um die einzelnen Elemente des Verbands vergleichen zu können. Die
meet-Operation wird ausschließlich von der Datenflussanalyse benutzt. Diese Tatsache
könnte später dazu benutzt werden, die Implementierung der Überprüfungsphase zu
optimieren und die Abhängigkeit zur jDFA zu entfernen.
Dieser Überprüfungsalgorithmus wurde nun so erweitert, dass er Zertifikate minimieren kann. Dies ist notwendig für den zweiten Teil der ersten Phase, um das komprimierte Zertifikat zu erstellen.
5.2.3
Die Kompression des Zertifikats
Die Datenflussanalyse berechnet für jede Programmstelle einen Schachteltyp. Diese
Informationen werden in einem vollständigen Zertifikat gespeichert und können statt
des normalen komprimierten Zertifikats vom erweiterten Überprüfer PCCCompress
benutzt werden. Das vollständige Zertifikat enthält also alle Schachteltypen aus der
Datenflussanalyse und Markierungen für jede Programmstelle.
Die Erweiterungen in PCCCompress bestehen nun darin, dass nur die Informationen aus dem vollständigen Zertifikat in das komprimierte Zertifikat kopiert werden, die
während der Überprüfung benötigt und benutzt werden. Für die Schachteltypen bedeutet dies, dass nur die die Schachteltypen übertragen werden, die sich auch tatsächlich
von den Schachteltypen unterscheiden, die bei dem sequentiellen Durchlauf durch den
82
KAPITEL 5. REALISIERUNG
Überprüfung
Kompression
Bytecode bestimmt werden. Wie in Kapitel 3.2.2 beschrieben, wird hier nur die Differenz dieser beiden unterschiedlichen Schachteltypen in dem komprimierten Zertifikat
gespeichert.
Die Markierungen, die ja Programmstellen bezeichnen, deren Schachteltyp während
der Überprüfung zwischengespeichert werden muss, werden ähnlich behandelt. Dadurch, dass in dem vollständigen Zertifikat jede Programmstelle markiert ist, werden
auch alle Programmstellen mit ihren Schachteltypen zwischengespeichert. Nur wenn
die Schachteltypen dieser Programmstellen im weiteren Verlauf des Algorithmus wieder benötigt werden, wird diese Markierung in das komprimierte Zertifikat übertragen.
Somit erweitert PCCCompress den Überprüfungsalgorithmus an zwei Stellen: Zum
einen bei Benutzung des Zertifikats und zum anderen bei der Verwendung der gespeicherten Schachteltypen.
Abbildung 5.6 zeigt ein Schema des erweiterten Überprüfungsalgorithmus PCCCompress.
PCCCompress
PCCChecker
FullCertificate
Benutzung
Certificate
Erweiterung
Abbildung 5.6: Struktur der Kompression des Zertifikats
An dieser Stelle ist anzumerken, dass der Überprüfungsalgorithmus PCCChecker
unabhängig von der Klasse PCCCompress die vollständigen Zertifikate aus der Klasse
FullCertificate benutzen kann, da diese von Certificate abgeleitet sind. Was konkret als
Eingabe für PCCChecker benutzt wird, wird bei der Erzeugung einer Instanz dieser
Klasse bestimmt.
5.3
Einige interessante Aspekte
In diesem Abschnitt möchte ich einige erwähnenswerte Aspekte der Implementierung
herausstellen.
5.3.1
Verband
Das Zertifizierungsprogramm kann dank einer entsprechenden jDFA-Methode neben
dem komprimierten Zertifikat auch ein Hasse-Diagramm des benutzten Grundkomponentenverbands im Graphviz-Format erzeugen. Diese Diagramme waren zum einen für
die Fehlersuche sehr hilfreich, aber auch fast alle in dieser Arbeit abgebildete Verbände
wurden mit dieser Methode erzeugt.
5.3. EINIGE INTERESSANTE ASPEKTE
83
Die Elemente des Grundkomponentenverbands werden während der Datenflussanalyse bzw. während der Überprüfungsphase dynamisch hinzugefügt. Somit enthält der
Verband immer nur die Elemente, die auch tatsächlich verwendet werden. Werden beispielsweise keine float-Typen in einem Java-Bytecode-Programm verwendet, so treten
diese auch nicht in dem zugehörigen Verband auf.
Dieses dynamische Hinzufügen ist deshalb möglich, weil der Schachteltypverband
nur als Rechenvorschrift unter Anwendung dieses Grundkomponentenverbands implementiert ist. Diese Rechenvorschrift ist immer gleich und gilt für jeden möglichen Verband. Variabel sind nur die Grundkomponenten.
Die Grundkomponenten werden in den Konstruktoren der Transferfunktionen bei
Bedarf dem Verband hinzugefügt. Die Instanziierung dieser Funktionen geschieht bei
der Datenflussanalyse vor Beginn einmalig für jede Instruktion der Methode. Dies bedeutet, dass während der Zertifizierungsphase für jede Programmstelle ein solches Objekt existiert.
Bei der Überprüfung hingegen existiert immer nur ein Objekt einer Transferfunktion. Und zwar genau für die Instruktion, die gerade überprüft wird.
5.3.2
Zertifikate
Die Klasse Certificate erlaubt die Erstellung und den Zugriff auf die Zertifikate. Diese
Klasse enthält eine Methode, die ein textuelle Repräsentation des Zertifikats erzeugt.
Diese textuelle Repräsentation wird in eine Datei geschrieben und bildet so das Zertifikat, das später von dem Überprüfer wieder eingelesen werden kann. Dazu existiert
ebenfalls in dieser Klasse eine entsprechende Methode, die aus der Datei wieder ein
Objekt der Klasse Certificate erzeugen kann.
Beispielsweise sieht das Zertifikat für das zweite Beispiel aus Kapitel 3.3.3 folgendermaßen aus:
class = A
method = void test(int arg1)
maxstack = 1
maxlocals = 3
labels = {11}
types = {*bot*}
11; (2, 0)
Der Kopf des Zertifikats enthält den Namen der Klasse, den Methodennamen mit
den entsprechenden Parametern, die Kellergröße und die Anzahl der lokalen Variablen.
Unter labels sind die markierten Programmstellen aufgelistet. Zu diesen Programmstellen muss der Überprüfungsalgorithmus während der Überprüfung Schachteltypen
speichern. Es folgen unter types die in diesem Zertifikat verwendeten Typen. Damit
die künstlichen Typen von den realen Typen der JVM unterschieden werden können,
werden die künstlichen Typen um Zeichen erweitert, die in Bezeichnern nicht auftreten
dürfen. Daher ist der Typ *bot*, der für das ⊥-Element steht, durch Sterne eingeschlossen.
Diese Typen aus der types-Liste werden von den eigentlichen Einträgen indiziert.
Diese Einträge bestehen aus einer Programmstelle gefolgt von einem oder mehreren
Zahlenpaaren. Diese Zahlenpaare bezeichnen die Differenz zu dem Schachteltyp, der
bei dem sequentiellen Durchlauf durch den Bytecode ermittelt wurde. In dem Beispiel
bedeutet der Eintrag 11; (2, 0), dass an Programmstelle 11 die zweite lokale Variable
das ⊥-Element enthält.
84
5.3.3
KAPITEL 5. REALISIERUNG
Transferfunktionen
Zur einfacheren Implementierung der Transferfunktionen wurden noch weitere künstliche Typen in den Verband eingefügt. Beispielsweise gibt es einen Typ, der kleiner als
jede Reihung ist. Damit lässt sich sehr elegant prüfen, ob ein bestimmter Typ eine Reihung ist. Abbildung 5.7 zeigt ein einfaches Beispiel dazu. Um zu prüfen, ob ein Typ eine
Reihung ist, wird einfach die auf dem Verband induzierte partielle Ordnung verwendet.
Gilt für einen Typ t die Relation *array* v t, so ist t als Reihung anzusehen. Dieser
Vergleich wird für die Instruktionen ARRAYLENGTH, AALOAD und AASTORE benötigt.
*top*
boolean[]
int[]
char[]
byte[]
*array*
short[]
int
java.lang.Object
*ref*
*bot*
Abbildung 5.7: Beispiel für weitere künstliche Typen in dem Grundkomponentenverband
5.4
Schlussfolgerung
Dadurch dass in den beiden Phasen die gleichen Klassen für den Verband und die
Transferfunktionen benutzt werden, lässt sich die Überprüfungsphase noch hinsichtlich
der Programmgröße optimieren, da in dieser Phase nicht alle Methoden benutzt werden,
die auch von der Datenflussanalyse benötigt werden. So lassen sich die Abhängigkeiten
zur jDFA auflösen.
Desweiteren wurde nicht an jeder Stelle auf möglichst kompakte und geschwindigkeitsoptimierte Umsetzung des Überprüfungsalgorithmus geachtet. Für den praktischen
Einsatz auf einer Java Card sollte auch die Abhängigkeit zur BCEL aufgelöst werden.
Dazu sind die Transferfunktionen entsprechend zu ändern, so dass diese nicht mehr
den Konstantenbereich und die Operanden der einzelnen Instruktionen über die BCEL
ermitteln.
Trotzdem zeigt der Prototyp, dass das Konzept der leichtgewichtigen Verifikation
erweiterbar und praktisch umsetzbar ist. Auch zur Evaluierung des Speicherplatzbedarfs eignet sich dieser Prototyp sehr gut.
Kapitel 6
Evaluierung
Im folgenden werde ich die praktischen Ergebnisse der Evaluierung vorstellen. Als
Grundlage diente der Prototyp, der während dieser Diplomarbeit entwickelt wurde.
6.1
Ziele der Evaluierung
Die beiden zentralen Aspekte bei dieser Evaluierung sind zum einen die Größe der
Zertifikate und zum anderen der benötigte Speicherbedarf während der Überprüfung.
Der Aufwand bei der Erstellung der Zertifikate ist von geringerer Bedeutung, weil dieser
Teil nicht auf einer Java Card ablaufen soll und daher unkritisch ist. Folgende Größen
sollen gemessen werden:
• Die Größe der Zertifikate
• Der Speicherplatzbedarf für die Speicherung der Schachteltypen während der
Überprüfungsphase
• Die Anzahl der Methoden, die vom Prototypen nicht zertifiziert werden können
aufgrund von fehlenden Erweiterungen
Bevor ich auf die zu untersuchenden Klassen eingehe, soll zunächst ein Maß für
die Größe der Zertifikate und für den Speicherplatzbedarf während der Überprüfung
festgelegt werden.
6.1.1
Die Größe der Zertifikate
Die Zertifikate bestehen im wesentlichen aus den Markierungen für die zu speichernden
Schachteltypen und den Einträgen für die Typanpassungen. Diese Einträge enthalten
eine Programmstelle und eine bestimmte Anzahl von Indizes. Ein Maß für die Größe
des Zertifikats wäre somit die Anzahl dieser Zahlen, die als Worte anzusehen sind. Um
die Größe der Zertifikate mit der Bytecode-Größe vergleichen zu können, sollte das
Zertifikat in Anzahl Bytes angegeben werden.
Beispielsweise hat das Zertifikat aus Kapitel 5.3.2 nach dieser Rechnung die Größe
8 Byte (eine Markierung und ein Schachteltypeintrag bestehend aus drei Worten).
6.1.2
Speicherplatzbedarf während der Überprüfung
Der Überprüfungsalgorithmus muss Schachteltypen zwischenspeichern. Diese Schachteltypen machen den wesentlichen Speicherplatzbedarf während der Überprüfung aus.
Die Gesamtzahl der zu speichernden Schachteltypen ergibt sich aus der Summe der
85
86
KAPITEL 6. EVALUIERUNG
gemerkten, der zurückgestellten und dem aktuellen Schachteltyp. Da einmal gemerkte
Schachteltypen während der gesamten Überprüfungsphase gespeichert bleiben, entspricht die Anzahl der Markierungen im Zertifikat genau der Maximalzahl gemerkter
Schachteltypen. Die Menge der zurückgestellten Schachteltypen ist dynamischer und
hängt ausschließlich von der Komplexität des Bytecode ab.
Da die Größe eines Schachteltyps von Methode zu Methode unterschiedlich sein
kann, ist es sinnvoll, die Anzahl der Grundkomponenten zu zählen. Dies geschieht
einfach durch Multiplikation der Schachteltypanzahl mit der Schachteltypgröße, die
sich aus der Summe von maximaler Kellergröße und Anzahl lokaler Variablen ergibt.
Dies ist eine pessimistische Abschätzung, da der Keller nicht an jeder Programmstelle
vollständig gefüllt ist.
6.1.3
untersuchte Klassen
Um sich ein genaues Bild von dem praktischen Nutzen der leichtgewichtigen Verfikation zu machen, habe ich mehrere Bibliotheken unterschiedlicher Größe untersucht.
Die größte Bibliothek ist die java.*-Hierarchie mit über 15000 Methoden aus der JavaLaufzeitbibliothek in der Version 1.4.0 01 [JDK]. Die anderen untersuchten Bibliotheken sind wesentlich kleiner. Die jDFA und BCEL wurden bereits bei der Implementierung des Prototyps verwendet und bieten sich hier als kleine und mittelgroße Bibliotheken an. Schließlich wurden noch die Beispiele aus dem Java Card Development Kit
Version 2.2.01 [JCDK] betrachtet, um das Speicherplatzverhalten der leichtgewichtigen
Verifikation an konkreten Beispielen für Java Cards zu untersuchen.
Es folgt eine Übersicht über die Anzahl der Klassen und Methoden der untersuchten
Bibliotheken:
Bibliothek
java.* Hierarchie
BCEL
jDFA
Java Card Beispiele
Summe
6.2
Anzahl Klassen
1742
299
142
24
2207
Anzahl Methoden
15221
2009
684
137
18051
Resultate
Im Gegensatz zu den anderen Bibliotheken konnten bei der Java-Laufzeitbibliothek 61
Methoden nicht erfolgreich zertifiziert werden. Dazu gibt es zwei Gründe:
1. 44 Methoden enthalten Unterprogrammaufrufe (jsr-Instruktionen). Diese werden von dem Prototypen nicht unterstützt.
2. 17 Methoden enthalten nicht erreichbaren Code. Solche Methoden lassen sich
mit dem Überprüfungsalgorithmus nicht verifizieren. Dies ließe sich zwar relativ
einfach nachrüsten, aber man muss sich dann auch die Frage stellen, ob es sinnvoll ist, nicht erreichbaren Code zuzulassen, wenn das Ziel Speicherplatzeffizienz
ist. Es ist Aufgabe des Java-Übersetzers, nicht erreichbaren Code zu vermeiden.
Somit gibt es hier offenbar Schwächen im Java-Übersetzer von Sun.
Es fällt auf, dass Unterprogrammaufrufe tatsächlich nur sehr selten auftreten. Bezogen auf die Gesamtzahl der hier untersuchten Methoden enthalten nur 0,2 % der
Methoden jsr-Instruktionen. Diese Unterprogramme werden von dem Sun-Java-Übersetzer ausschließlich für finally-Blöcke als Teil von Ausnahmebehandlungen erzeugt.
6.2. RESULTATE
87
Werden alle jsr-Instruktionen durch die zugehörigen Unterprogramme ersetzt, lassen sich derartige Methoden ebenfalls zertifizieren mit dem Nachteil, dass der Bytecode
etwas größer wird.
Zunächst werde ich einen Überblick über die Verteilung der Methodengrößen der
einzelnen Bibliotheken geben.
6.2.1
Methodengröße
Um sich eine genauere Übersicht über die betrachteten Bibliotheken zu machen, ist
ein Blick auf die Größe der Methoden hilfreich. Es fällt auf, dass es beispielsweise in
der BCEL viele Methoden gibt, die ein Byte groß sind und somit nur aus einer Rücksprunginstruktion bestehen. Diese leeren Methoden gehören größtenteils zu abstrakten
Klassen und haben einen großen Einfluss auf die durchschnittliche Methodengröße der
BCEL. In der folgenden Tabelle sind die Größen der längsten Methode und die durchschnittliche Methodengröße für die einzelnen Bibliotheken angegeben:
Bibliothek
java.* Hierarchie
BCEL
jDFA
Java Card Beispiele
größte Methode
in Bytes
5901
8936
974
487
durchschnittliche Methodengröße
in Bytes
49,6
40,3
52,2
54,2
Im Durchschnitt liegt die Methodengröße bei ungefähr 50 Bytes. Dies bedeutet,
dass die sehr großen Methoden eher selten sind. Dies wird unterstrichen durch Abbildung 6.1, in der die Verteilung der Methodengrößen für die Bibliotheken abgebildet
ist. Man beachte, dass beide Achsen logarithmisch skaliert sind und daher der falsche
Eindruck erweckt wird, dass große Methoden doch nicht so selten sind.
Es folgt nun die Auswertung der Zertifikatgrößen.
6.2.2
Größe der Zertifikate
Ein wichtiger Aspekt des Speicherplatzbedarfs der leichtgewichtigen Verifikation ist die
Zertifikatgröße. Diese Zertifikate werden zusammen mit dem Bytecode auf die Zielmaschine übertragen, wo dann die Typüberprüfung unter Zuhilfenahme der Zertifikate mit
geringen Aufwand durchgeführt werden kann. Somit bilden die Zertifikate zusammen
mit dem Bytecode eine Einheit und vergrößern quasi den Bytecode.
In diesem Abschnitt soll die Größe der Zertifikate betrachtet werden. Wie zuvor
beschrieben, werden die Zertifikate in Bytes angegeben. Abbildung 6.2 zeigt die Größenverteilung der einzelnen Zertifikate. In den Diagrammen besitzt die Ordinate eine logarithmische Skalierung. Auffallend ist hier, dass die meisten Methoden ein leeres Zertifikat besitzen. Dies wird auch durch die Durchschnittswerte bestätigt, die neben den
Maximalgrößen in der folgenden Tabelle aufgelistet sind:
Bibliothek
java.* Hierarchie
BCEL
jDFA
Java Card Beispiele
größtes Zertifikat
in Bytes
310
74
54
10
durchschnittliche Zertifikatgröße
in Bytes
2,1
1,0
1,8
0,8
88
KAPITEL 6. EVALUIERUNG
10000
1000
Anzahl Methoden
Anzahl Methoden
1000
100
100
10
10
1
1
1
10
100
Methodengröße in Bytes
1000
10000
1
10
(a) java.* Hierarchie
1000
10000
1000
10000
(b) BCEL
10
Anzahl Methoden
100
Anzahl Methoden
100
Methodengröße in Bytes
10
1
1
1
10
100
Methodengröße in Bytes
(c) jDFA
1000
10000
1
10
100
Methodengröße in Bytes
(d) Java Card Beispiele
Abbildung 6.1: Übersicht über die Methodengröße der Bibliotheken
6.2. RESULTATE
89
100000
10000
10000
Anzahl Methoden
Anzahl Methoden
1000
1000
100
100
10
10
1
1
0
50
100
150
200
Zertifikatgröße in Bytes
250
300
350
0
10
20
60
70
80
(b) BCEL
1000
1000
100
100
Anzahl Methoden
Anzahl Methoden
(a) java.* Hierarchie
30
40
50
Zertifikatgröße in Bytes
10
1
10
1
0
10
20
30
40
Zertifikatgröße in Bytes
(c) jDFA
50
60
0
2
4
6
Zertifikatgröße in Bytes
(d) Java Card Beispiele
Abbildung 6.2: Übersicht über die Größe der Zertifikate
8
10
90
KAPITEL 6. EVALUIERUNG
Das durchschnittliche Zertifikat hat somit eine Größe von etwa zwei Byte. Das
größte Zertifikat von 310 Byte wird durch eine Methode erzeugt, die selbst 2450 Byte
groß ist. Dieses Zertifikat ist in Abbildung 6.3 zu sehen.
class = java.security.cert.X509CertSelector
method = public boolean match(java.security.cert.Certificate arg1)
maxstack = 4
maxlocals = 14
labels = {314, 331, 418, 556, 636, 912, 1041, 1143, 1183, 1321, 1414,
1424, 1427, 1445, 1501, 1592, 1687, 1724, 1727, 1843, 2042, 2052,
2222, 2298, 2311}
types = {*bot*, java.lang.Object}
314; (3, 0)
418; (3, 0)
435; (3, 0, 4, 0, 5, 0)
554; (6, 0)
556; (6, 1)
599; (5, 0, 6, 0)
634; (7, 0)
636; (7, 1)
679; (6, 0, 7, 0)
767; (3, 0)
912; (3, 0, 4, 0)
930; (3, 0, 4, 0, 5, 0)
975; (3, 0)
1051; (3, 0, 4, 0)
1180; (4, 0, 5, 0, 6, 0)
1183; (3, 0, 4, 0, 5, 0, 6, 0)
1201; (3, 0)
1427; (3, 0)
1724; (7, 0)
1727; (3, 0)
1745; (3, 0, 4, 0, 5, 0, 6, 0)
1853; (4, 0)
2062; (6, 0)
2308; (4, 0, 5, 0, 6, 0)
2311; (3, 0, 4, 0, 5, 0, 6, 0, 7, 0, 8, 0, 9, 0, 10, 0, 11, 0)
2433; (3, 0)
Abbildung 6.3: Das größte Zertifikat für die Methode match aus der Klasse
java.security.cert.X509CertSelector
Ein Grund für dieses große Zertifikat ist zum einen die Größe der Methode an sich
und zum anderen die umfangreiche Ausnahmentabelle, die mit 16 Einträgen recht groß
ist. Weiterhin gibt es sehr viele Sprünge und switch-Instruktionen. Dies führt dazu,
dass es viele Programmstellen gibt, die mehr als eine Vorgängerinstruktion besitzen.
Dadurch steigt die Wahrscheinlichkeit, dass sich bei der Verknüpfung der Schachteltypen der Vorgängerinstruktionen ein anderer Schachteltyp ergibt als beim sequentiellen
Durchlauf durch den Bytecode. Dies führt dann zu einem Zertifikateintrag.
Vergrößerung des Bytecode
Wie eingangs erwähnt, kann man die Zertifikate als Vergrößerung des Bytecode ansehen. Daher habe ich die Zertifikatgrößen in Relation zu den Methodengrößen gesetzt.
Aus dieser Sicht betrachtet vergrößert das Zertifikat aus Abbildung 6.3 den Bytecode
um 12 %.
In Abbildung 6.4 ist die Verteilung der prozentualen Bytecode-Vergrößerung der
untersuchten Methoden zu sehen. Eine Wert von 0 % bedeutet, dass das Zertifikat leer
ist. Ein Wert von 100 % würde bedeuten, dass das Zertifikat genauso groß ist, wie der
Bytecode selbst. Auch hier besitzt die Ordinate wieder eine logarithmische Einteilung.
An diesen Diagrammen ist recht gut zu sehen, dass die meisten Zertifikate leer sind.
Die Durchschnittswerte der folgenden Tabelle zeigen, dass die Zertifikate insgesamt sehr
klein sind:
6.2. RESULTATE
91
100000
10000
10000
Anzahl Methoden
Anzahl Methoden
1000
1000
100
100
10
10
1
1
0
20
40
60
80
100
Speicherplatzmehrbedarf für die Zertifikate relativ zur Bytecode−Größe in Prozent
0
(b) BCEL
1000
1000
100
100
Anzahl Methoden
Anzahl Methoden
(a) java.* Hierarchie
10
1
20
40
60
80
100
Speicherplatzmehrbedarf für die Zertifikate relativ zur Bytecode−Größe in Prozent
10
1
0
20
40
60
80
100
Speicherplatzmehrbedarf für die Zertifikate relativ zur Bytecode−Größe in Prozent
(c) jDFA
0
20
40
60
80
100
Speicherplatzmehrbedarf für die Zertifikate relativ zur Bytecode−Größe in Prozent
(d) Java Card Beispiele
Abbildung 6.4: Übersicht über die relative Vergrößerung des Bytecode durch
die Zertifikate
92
KAPITEL 6. EVALUIERUNG
Bibliothek
java.* Hierarchie
BCEL
jDFA
Java Card Beispiele
maximale Vergrößerung
77 %
44 %
50 %
14 %
durchschnittliche Vergrößerung
2,3 %
1,0 %
1,9 %
0,8 %
Eine Vergrößerung um 77 % scheint auf den ersten Blick recht problematisch zu sein.
Das entsprechende Zertifikat der Methode write aus der Klasse java.io.PrintWriter
hat folgendes Aussehen:
class = java.io.PrintWriter
method = public void write(int arg1)
maxstack = 2
maxlocals = 4
labels = {24, 42, 43, 48}
types = {*bot*}
32; (2, 0, 3, 0)
42; (2, 0, 3, 0)
48; (2, 0)
Dieses Zertifikat besteht aus 17 Worten und zählt somit 34 Bytes. Die Methode
selbst besteht aus nur 44 Bytes. Allgemein lässt sich sagen, dass die Methoden, die ein
relativ großes Zertifikat benötigen, selbst sehr klein sind.
Betrachtet man nur die Java Card Beispiele, so gehört das relativ zum Bytecode größte Zertifikat zu einer 14 Byte großen Methode, dessen Zertifikat nur aus einer
markierten Programmstelle besteht und somit lediglich 2 Bytes umfasst (14 % von 14
Bytes).
Im Durchschnitt liegt die Vergrößerung der Zertifikate bei etwa 2 %. Dies ist überraschend, weil andere auf Proof-Carrying Code basierende Ansätze wesentlich größere Zertifikate benötigen. Einer dieser Ansätze ist in der K Virtual Machine (KVM)
der Connected Limited Device Configuration [CLDC] implementiert. Nach X. Leroy
[Le02] vergrößern die Zertifikate des KVM-Verifizierers den Bytecode um durchschnittlich 50 %. Desweiteren vermutet Leroy, dass die Zertifikate sich nicht auf unter 20 %
der Bytecode-Größe komprimieren lassen. Als Maß für die Zertifikatgröße dient für die
KVM-Zertifikate ein Byte für Basistypen und drei Bytes für Klassentypen. Selbst wenn
dieses Maß auf die hier vorgestellten Zertifikate angewendet wird, bleibt die durchschnittliche Vergrößerung auf jeden Fall unter 4 %.
Vergleich mit KVM-Zertifikaten
Um einen Vergleich mit den Zertifikatgrößen des KVM-Verifzierers durchführen zu
können, wurde für jede untersuchte Methode die zugehörige KVM-Zertifkatgröße bestimmt. Nach CLDC-Spezifikation enthalten die KVM-Zertifikate vollständige Schachteltypeinträge für alle Programmstellen, deren Instruktion mindestens eine der folgenden Eigenschaften besitzt:
• Der Vorgänger ist eine goto-, return-, athrow- oder switch-Instruktionen. Dabei bezieht sich Vorgänger“ auf die Reihenfolge im Bytecode und nicht auf den
”
Kontrollfluss.
• Die Instruktion bildet den Anfang einer Ausnahmebehandlung.
• Die Instruktion ist Sprungziel einer goto-, switch- oder if-Instruktion.
6.2. RESULTATE
93
Die folgende Tabelle zeigt die Vergrößerung des Bytecodes durch die KVM-Zertifikate. Zur Vereinfachung werden hier als Platzbedarf für jeden Grundkomponententyp
2 Bytes angesetzt. Die Schachteltypgröße in Bytes ergibt sich daher aus der Anzahl der
Grundkomponenten multipliziert mit 2. Die Anzahl der Grundkomponenten wiederum
ist die Summe aus maximaler Kellertiefe und Anzahl lokaler Variablen.
Bibliothek
java.* Hierarchie
BCEL
jDFA
Java Card Beispiele
maximale Vergrößerung
616 %
233 %
245 %
128 %
durchschnittliche Vergrößerung
34,5 %
16,9 %
30,7 %
32,2 %
Die durchschnittliche Zertifikatvergrößerung der BCEL profitiert wieder von der
relativ großen Anzahl leerer Methoden. Dies täuscht aber nicht darüber hinweg, dass
viele Zertifikate den Bytecode spürbar vergrößern. Einige Zertifikate sind sogar so groß,
dass sie den Bytecode um mehr als 5 Kilobyte vergrößern.
Dieser Größenunterschied zwischen den KVM-Zertifikaten und den Zertifikaten der
leichtgewichtigen Verifikation hängt damit zusammen, dass die leichtgewichtige Verifikation die Zertifikate intelligenter erzeugt. Informationen, die während der Überprüfung relativ leicht ermittelt werden können, werden nicht in den Zertifikaten gespeichert. Dafür ist der Aufwand bei der Überprüfung größer. Der Vorteil bei dem
KVM-Verifizierer ist der, dass während der Überprüfung nur ein einziger Schachteltyp
gespeichert werden muss unabhängig von der Struktur der Methode. Der Speicherplatzbedarf der leichtgewichtigen Verifikation hingegen hängt von der Bytecode-Struktur ab
und ist in der Regel größer.
Bewertung
Da die Zertifikate auf einer Java Card genau wie der Bytecode nur gelesen werden, brauchen die Zertifikate nicht in dem sehr kleinen RAM-Bereich gespeichert zu werden. Die
Untersuchung der Zertifikatgrößen der leichtgewichtigen Verifikation hat gezeigt, dass
selbst die großen Zertifikate kein Problem darstellen. Wenn man nur die Java Card
Beispiele betrachtet, ist die Größe der Zertifikate sogar vernachlässigbar gering.
Alles in allem sind somit die Zertifikate sehr klein und bedeuten kein Problem im
Hinblick auf den Speicherplatzmehrbedarf.
6.2.3
Speicherplatzbedarf während der Überprüfung
Während der Überprüfung müssen Schachteltypen zwischengespeichert werden. Dies
sind zum einen die Schachteltypen der durch das Zertifikat markierten Programmstellen
und zum anderen die Schachteltypen, die aufgrund von Sprüngen in noch nicht geprüfte
Bereiche zurückgestellt werden müssen. Diese Schachteltypen machen den wesentlichen
Teil des Speichers aus, der durch die Überprüfungsphase benötigten wird.
Im folgenden wird unter der Anzahl Schachteltypen die Maximalzahl der gleichzeitig im Speicher gehaltenen Schachteltypen verstanden. Dies ist die Summe aus den
gespeicherter Schachteltypen, der maximal gleichzeitig zurückgestellten Schachteltypen
und dem aktuellen Schachteltyp. Da immer ein aktueller Schachteltyp gespeichert werden muss, ist die Gesamtzahl der zu speichernden Schachteltypen immer größer als
Null.
Für die zu speichernden Schachteltypen ergeben sich für die betrachteten Bibliotheken folgende Maximal- und Durchschnittswerte:
94
KAPITEL 6. EVALUIERUNG
Bibliothek
java.* Hierarchie
BCEL
jDFA
Java Card Beispiele
maximal zu speichernde
Anzahl Schachteltypen
131
39
19
15
durchschnittlich zu speichernde
Anzahl Schachteltypen
2,3
1,7
2,3
2,3
Dass eine Methode 131 Schachteltypen speichern muss, liegt an einer lookupswitchInstruktion mit 130 Einträgen. Hier müssen somit 130 sekundäre Sprungstellen mit
identischen Schachteltypen zurückgestellt werden. Diese identischen Schachteltypen
werden nicht nur bei switch-Instruktionen gespeichert, sondern auch bei Instruktionen, die durch mehrere Ausnahmen geschützt sind. Somit lassen sich diese identischen
Schachteltypen zumindest bei diesen Instruktionen leicht identifizieren.
Werden nur die paarweise verschiedenen Schachteltypen betrachtet, so sind für diese
Methode nur 3 Schachteltypen zu speichern. Um sich ein Bild von den Möglichkeiten
dieser simplen Kompression zu machen, habe ich die Bibliotheken noch einmal im
Hinblick auf die paarweise verschiedenen Schachteltypen untersucht. Es ergibt sich
folgende Tabelle:
Bibliothek
java.* Hierarchie
BCEL
jDFA
Java Card Beispiele
maximal zu speichernde
Anzahl Schachteltypen
(paarweise verschieden)
38
13
13
6
durchschnittlich zu speichernde
Anzahl Schachteltypen
(paarweise verschieden)
1,8
1,4
1,7
1,6
Im Vergleich zu der letzten Tabelle ist zu erkennen, dass nicht wenige der zu speichernden Schachteltypen identisch sind. Auch die nicht identischen Schachteltypen haben eine große Ähnlichkeit.
In Abbildung 6.5 sind die 38 zu speichernden Schachteltypen für die Methode
coerceData aus der Klasse java.awt.image.ComponentColorModel angegeben. Die
ersten 6 lokalen Variablen sind in allen Schachteltypen identisch und wurden durch
einen Platzhalter ersetzt.
Weiterhin fällt auf, dass der Keller für jeden dieser Schachteltypen leer ist. Somit
liegt die Vermutung nahe, dass sich diese Schachteltypen komprimieren lassen und so
der Speicherplatzbedarf noch weiter gesenkt werden kann. Beispielsweise könnte im
Zertifikat angegeben werden, wie groß das gemeinsame Präfix ist und wieviele Kellerelemente die zu speichernden Schachteltypen maximal besitzen. Dies würde die sehr
kleinen Zertifikate um zwei Worte vergrößern, den Speicherplatzbedarf aber merkbar
reduzieren. Die Methode coerceData besitzt 18 lokale Variablen und eine Kellergröße
von 8. Mit der Präfixgröße von 6 und dem leeren Operandenkeller ergibt sich ein Speicherplatzreduzierung um 54 % (von 26 Worten auf 12 Worte).
Dass die meisten Methoden wesentlich weniger Schachteltypen speichern müssen,
zeigt die Abbildung 6.6. Hier ist die Verteilung zu sehen, wieviele Methoden welche
Anzahl paarweise verschiedener Schachteltypen speichern müssen.
Anzahl Grundkomponenten
Da die Größe der Schachteltypen von der Anzahl der lokalen Variablen und der maximalen Tiefe des Operandenkellers abhängt und diese Größen von Methode zu Methode
6.2. RESULTATE
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
((...,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
float,
float,
float,
float,
float,
float,
float,
float,
float,
float,
float,
float,
float,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
int,
95
*array*,
byte[],
byte[],
double[],
double[],
float[],
float[],
int[],
int[],
short[],
short[],
byte[],
byte[],
double[],
double[],
double[],
double[],
double[],
float[],
float[],
int[],
int[],
short[],
short[],
byte[],
byte[],
byte[],
float[],
float[],
float[],
float[],
int[],
int[],
int[],
short[],
short[],
short[],
*bot*,
byte[],
float,
double[],
int,
float[],
int,
float,
int[],
float,
short[],
byte[],
float,
double[],
double[],
double[],
int,
int,
float[],
int,
float,
int[],
float,
short[],
byte[],
byte[],
float,
float[],
float[],
int,
int,
float,
int[],
int[],
float,
short[],
short[],
*bot*,
float,
int,
int,
*bot*,
int,
*bot*,
int,
float,
int,
float,
float,
int,
int,
int,
int,
int,
int,
int,
int,
int,
float,
int,
float,
float,
float,
int,
int,
int,
int,
int,
int,
float,
float,
int,
float,
float,
*bot*,
int,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
int,
*bot*,
int,
int,
int,
int,
int,
int,
*bot*,
double,
int,
*bot*,
int,
int,
int,
int,
int,
int,
int,
int,
int,
*bot*,
float,
int,
int,
int,
int,
int,
int,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
int,
*bot*,
*bot*,
double,
double,
*bot*,
*double2*,
*bot*,
*bot*,
*bot*,
int,
*bot*,
int,
int,
int,
float,
*bot*,
int,
*bot*,
int,
float,
int,
int,
float,
int,
int,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*double2*,
*double2*,
*bot*,
double,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
int,
int,
*bot*,
*bot*,
*bot*,
*bot*,
int,
*bot*,
int,
int,
*bot*,
int,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
int,
*bot*,
*double2*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*,
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
int),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
*bot*),
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
[])
...“ steht für die folgenden 6 Typen:
”
java.awt.image.ComponentColorModel, java.awt.image.WritableRaster, int, int, int, int
Der Keller ist zwischen den eckigen Klammern angegeben.
Abbildung 6.5: Liste der paarweise verschiedenen Schachteltypen, die
während der Überprüfung der Methode coerceData aus der Klasse
java.awt.image.ComponentColorModel gespeichert werden müssen
KAPITEL 6. EVALUIERUNG
10000
10000
1000
1000
Anzahl Methoden
Anzahl Methoden
96
100
10
100
10
1
1
0
5
10
15
20
25
30
Anzahl zu speichernde Schachteltypen
35
40
0
5
10
(a) java.* Hierarchie
35
40
35
40
(b) BCEL
1000
100
100
Anzahl Methoden
Anzahl Methoden
15
20
25
30
Anzahl zu speichernde Schachteltypen
10
10
1
1
0
5
10
15
20
25
30
Anzahl zu speichernde Schachteltypen
(c) jDFA
35
40
0
5
10
15
20
25
30
Anzahl zu speichernde Schachteltypen
(d) Java Card Beispiele
Abbildung 6.6: Übersicht über die Anzahl der während der Überprüfung zu
speichernden (paarweise verschiedenen) Schachteltypen
6.2. RESULTATE
97
unterschiedlich sind, sollen nun die Anzahl der Grundkomponenten dieser paarweise
verschiedenen Schachteltypen gezählt werden. Dies dürfte eine gute Näherung für den
tatsächlichen Speicherplatzbedarf während der Überprüfungsphase sein. Das Ergebnis
dieser Untersuchung zeigt folgende Tabelle:
Bibliothek
java.* Hierarchie
BCEL
jDFA
Java Card Beispiele
maximal zu speichernde
Anzahl Grundkomponenten
1176
420
280
102
durchschnittlich zu speichernde
Anzahl Grundkomponenten
13,9
8,3
12,9
10,2
Bei der Interpretation dieser Werte sollte man berücksichtigen, dass zu jedem
Schachteltyp, der gespeichert werden muss, noch die zugehörige Programmstelle mit abgelegt wird. Weiterhin müssen für die Kompression der identischen Schachteltypen noch
weitere Verwaltungsinformationen gespeichert werden. Dieser zusätzliche Speicherbedarf ist jedoch vergleichsweise gering und wird hier nicht berücksichtigt.
Den größten Speicherplatzbedarf an Schachteltypgrundkomponenten hat die Methode nonICCBIFilter aus der Klasse java.awt.image.ColorConvertOp, die 1176
Grundkomponenten während der Überprüfungsphase speichert. Ein Grund für diese
große Zahl ist die Schachteltypgröße. Diese Methode besitzt 43 lokale Variablen und
eine Kellertiefe von 6. In jedem der 24 zu speichernden Schachteltypen sind die ersten 8
lokalen Variablen identisch. Zwei Schachteltypen besitzen ein Element auf dem Keller;
bei den übrigen ist der Keller leer. Somit gibt es auch hier wieder ein Kompressionspotential (von ca. 27 %).
In Abbildung 6.7 ist die Verteilung der Anzahl der zu speichernden Grundkomponenten über die untersuchten Methode zu sehen. Dabei werden – wie oben beschrieben –
nur die paarweise verschiedenen Schachteltypen berücksichtigt. Die mögliche Kompression über die gemeinsamen Präfixe und der maximal von den Schachteltypen benutze
Operandenkeller ist im Prototyp nicht implementiert und kann daher hier auch nicht
evaluiert werden.
Bewertung
Bei den Java Card Beispielen ist der Speicherplatzbedarf während der Überprüfung
derartig gering, dass die Schachteltypen in der Regel im RAM einer Java Card gehalten werden können. Sollte dieser Platz nicht ausreichen, gibt es eine Möglichkeit, die
Schachteltypen im FlashRAM oder im EEPROM mit Caching-Strategien zu speichern,
wie es von D. Deville und G. Grimaud vorgeschlagen wird [DG02].
Durch Änderung der Reihenfolge, in der die Grundblöcke überprüft werden, sollte
sich der Speicherplatzbedarf noch verbessern lassen. Gerade bei Methoden, die sehr viele Ausnahmebehandlungen bzw. sehr lange durch Ausnahmebehandlungen geschützte
Bereiche enthalten, könnte sich der Speicherplatzbedarf verbessern, wenn die Ausnahmebehandlungen zuerst überprüft werden. Dieser Ansatz wurde hier aus Zeitgründen
nicht weiter verfolgt.
98
KAPITEL 6. EVALUIERUNG
10000
1000
Anzahl Methoden
Anzahl Methoden
1000
100
100
10
10
1
1
0
200
400
600
800
1000
Anzahl zu speichernde Komponenten von Schachteltypen
1200
0
50
(a) java.* Hierarchie
400
450
(b) BCEL
1000
100
100
Anzahl Methoden
Anzahl Methoden
100
150
200
250
300
350
Anzahl zu speichernde Komponenten von Schachteltypen
10
10
1
1
0
50
100
150
200
250
Anzahl zu speichernde Komponenten von Schachteltypen
(c) jDFA
300
0
20
40
60
80
100
Anzahl zu speichernde Komponenten von Schachteltypen
120
(d) Java Card Beispiele
Abbildung 6.7: Übersicht über die Anzahl der während der Überprüfung zu
speichernden Schachteltypgrundkomponenten
6.3. WEITERE TESTS
6.3
99
weitere Tests
In diesem Abschnitt möchte ich einige Beispiele für typunsicheren Bytecode beschreiben, aber auch Fälschungsversuche“ an Zertifikaten durchführen.
”
6.3.1
typunsichere Methoden
Dass der Prototyp auch Bytecode abweisen kann, sollen die folgenden vier sehr einfachen, aber fehlerhaften Methoden zeigen:
Method Test()
0
invokespecial #1 hMethod java.lang.Object()i
3
return
Method void stackOverflow()
0 bipush 9
2 istore 1
3
return
Method void stackUnderrun()
0
1
pop
return
Method void integerCast()
0 bipush 0
2
4
astore 1
return
Die Methode Test ist eine Konstruktormethode, in der vor dem Aufruf des Oberklassenkonstruktors nicht wie üblicherweise das zu initialisierende Objekt auf den Keller
abgelegt wird. Somit wird in dieser Methode ebenso wie in stackUnderrun versucht,
ein nicht vorhandenes Element vom Keller zu nehmen. Dies wird von den Transferfunktionen erkannt und daher werden diese beiden Methoden vom Zertifizierer abgelehnt.
Die Methode stackOverflow besitzt laut Klassendatei eine Kellergröße von 0. Damit wird diese Methode bereits beim Erstellen der initialen Schachteltypen zu Beginn
der Datenflussanalyse abgewiesen. Dort wird erkannt, dass es Programmstellen gibt,
die eine Kellertiefe größer als 0 benötigen.
Einen echten Typfehler produziert die Methode IntegerCast. Hier wird ein intTyp auf dem Keller abgelegt und dann mit einer Instruktion wieder gelesen, die jedoch
eine Referenz erwartet. Die Transferfunktion von astore erkennt dies und bricht die
Datenflussanalyse ab.
Die Tatsache, dass diese fehlerhaften Methoden bereits von dem Zertifizierer abgelehnt wurden, ist nicht verwunderlich, da ja der Zertifizierer einem erweiterten herkömmlichen Verifizierer entspricht (vgl. Satz 4.1). Um das Verhalten des Überprüfungsprogramms zu testen, müssen somit entweder Zertifikate von korrekten Methoden geändert
werden oder die Methoden nach der Zertifizierung modifiziert werden.
6.3.2
Änderungen an Zertifikaten
Im folgenden möchte ich an Beispielen das Verhalten des Überprüfungsprogramms
untersuchen, wenn Zertifikate modifiziert werden. Dazu soll die folgende eher sinnlose
Methode betrachtet werden:
100
KAPITEL 6. EVALUIERUNG
static void test ( int x ) {
while ( x > 10 ) {
if ( x == 0 ) {
boolean ret = false;
if ( ! ret ) return;
}
x--;
}
}
Das Zertifizierungsprogramm berechnet für die übersetzte Methode folgendes Zertifikat:
class = A
method = static void test(int arg0)
maxstack = 2
maxlocals = 2
labels = {17}
types = {*bot*}
14; (1, 0)
Wird nun aus diesem Zertifikat die Markierung für die Programmstelle 17 gelöscht,
wird die Methode vom Überprüfungsprogramm abgelehnt, weil im Laufe der Überprüfung diese gemerkte Programmstelle fehlt.
Wenn der Eintrag für die Programmstelle 14 entfernt wird, würde man annehmen,
dass der Überprüfer ebenfalls die Methode ablehnt. Stattdessen wird jedoch die Methode überraschenderweise akzeptiert. Der Grund dafür ist folgender: Die Zertifikate
sind minimal im Bezug auf die vollständige Rekonstruktion der Informationen aus der
Datenflussanalyse. Es kommt vor, dass die Datenflussanalyse mehr Informationen ermittelt als für die Überprüfung notwendig sind. Dann erscheint ein für die Überprüfung
überflüssiger Eintrag im Zertifikat. Dies kann beispielsweise auftreten, wenn eine Instruktion mehrere Vorgänger besitzt, die in der gleichen lokalen Variable verschiedene
Typen enthalten. Diese Informationen werden kombiniert und es erscheint ein Eintrag
im Zertifikat. Wenn in den nachfolgenden Instruktionen diese lokale Variable nicht mehr
benutzt wird, ist es für die Verifikation unerheblich, welchen Typ diese lokale Variable
besitzt.
6.3.3
Änderungen am Bytecode
Gerade im Hinblick auf die Fälschungssicherheit ist es interessant zu überprüfen, wie
sich der Prototyp bei Bytecode-Änderungen nach der Zertifizierung verhält.
Es soll hier das Beispiel aus Kapitel 3.3.3 betrachtet werden. Der Bytecode und
das Zertifikat der Methode haben folgendes Aussehen:
0
1
4
5
6
9
10
11
iload 1
ifne 9
fconst 0
fstore 2
goto 11
iconst 0
istore 2
return
class = A
method = void test(int arg1)
maxstack = 1
maxlocals = 3
labels = {11}
types = {*bot*}
11; (2, 0)
6.4. BEWERTUNG DER ERGEBNISSE
101
Wird nun die erste Instruktion iload 1 durch aload 1 ersetzt, lässt sich die Methode nicht mehr überprüfen, weil die erste Instruktion nach der Änderung laut Überprüfer
eine Referenz erwartet.
Nun könnte man versuchen, das Zertifikat entsprechend zu fälschen, so dass die
erste Instruktion eine Referenz in der ersten lokalen Variable besitzt:
0
1
4
5
6
9
10
11
aload 1
ifne 9
fconst 0
fstore 2
goto 11
iconst 0
istore 2
return
class = A
method = void test(int arg1)
maxstack = 1
maxlocals = 3
labels = {11}
types = {*bot*, *null*}
0; (1, 1)
11; (2, 0)
Aber auch dies führt nicht zum Erfolg, weil dieses geänderte Zertifikat bereits
bekannte Informationen zerstört und daher vom Überprüfer abgewiesen wird. Durch
die Methodensignatur ist nämlich bereits bekannt, dass die erste lokale Variable einen
int-Typ enthält.
Der Überprüfer lehnt Zertifikateinträge ab, die nicht durch eine u-Operation entstanden sind. Dazu wird ein Vergleich auf der partiellen Ordnung durchgeführt. Ein
Eintrag ist zulässig, wenn für den vom Überprüfer bestimmten Typ talt und den Typ
aus dem Zertifikat tneu gilt: tneu v talt . Auf das Hasse-Diagramm bezogen darf ein
Zertifikateintrag einen Typ somit nur in Richtung ⊥-Symbol verändern.
6.4
Bewertung der Ergebnisse
Die Evaluierung hat gezeigt, dass die Größe der Zertifikate sehr gering ist. Im Durchschnitt vergrößern die Zertifikate den Bytecode um ca. 2 %.
Der Speicherplatzbedarf während der Überprüfung ist ebenfalls unproblematisch.
Selbst die aufwändigsten Methoden aus den hier untersuchten Bibliotheken sollten sich
in der Regel mit dem auf Java Cards verfügbaren Speicher überprüfen lassen. Falls der
Speicherplatz nicht ausreichen sollte, lassen sich die zu speichernden Schachteltypen
noch mit einfachen Methoden komprimieren, da sie zum Teil identisch sind.
102
KAPITEL 6. EVALUIERUNG
Kapitel 7
Zusammenfassung
Die leichtgewichtige Verifikation von E. Rose ließ sich weitgehend problemlos erweitern
um
• Reihungen,
• Ausnahmebehandlungen,
• Sprunginstruktionen mit mehr als einem Sprungziel,
• mehrwortige Datentypen und
• Prüfung der Objektinitialisierung.
So konnte ein auf Proof-Carrying Code Technik basierender Bytecode-Verifizierer
implementiert werden. Dieser Verifizierer besteht aus zwei Teilen: Ein Zertifizierer,
der Platz sparende Zertifikate erzeugt, und ein Überprüfer, der wenig Speicherplatz
während der Ausführung benötigt.
Unterprogramme werden von dem Verifizierer nicht unterstützt, da diese im Vorfeld
schon als sehr schwierig identifiziert wurden. Es ist am einfachsten, die Unterprogramme in den wenigen Methoden, wo sie auftreten, zu expandieren.
Der Speicherplatzbedarf der erzeugten Zertifikate ist sehr gering und liegt im Schnitt
bei etwa 2 % der Bytecode-Größe. Auch der Bedarf an Speicherplatz während der
Überprüfungsphase ist vertretbar und liegt bei durchschnittlich 11 Worten für die zu
speichernden Schachteltypen.
Durch geschicktere Speicherung der Schachteltypen lässt sich der Speicherplatzbedarf während der Überprüfung weiter senken, da viele Schachteltypen identisch sind,
ein gemeinsames Präfix besitzen und selten Einträge für den Operandenkeller enthalten.
Eine Frage, die in dieser Arbeit aus Zeitgründen nicht weiter verfolgt wurde, ist der
Einfluss der Überprüfungsreihenfolge der Grundblöcke der zu zertifizierenden Methoden auf die Zertifikatgröße und den Speicherplatzbedarf während der Überprüfungsphase. Gerade durch die Erweiterungen um Ausnahmen und die switch-Instruktionen
dürfte sich dieser Einfluss vergrößert haben.
Die Implementierung hängt noch stark von den beiden Bibliotheken jDFA und
BCEL ab. Diese Abhängigkeiten müssen für einen praktischen Einsatz – zumindestens
für den Überprüfer – aufgelöst werden.
103
104
KAPITEL 7. ZUSAMMENFASSUNG
Die Ergebnisse der Evaluierung haben gezeigt, dass die leichtgewichtige Verifikation
ein sehr vielversprechender Ansatz zur Bytecode-Verifikation ist, vor allem wenn diese
auf Systemen mit knappen Speicherplatz zum Einsatz kommen soll und damit eine
speichereffiziente Verifikation notwendig ist.
Literaturverzeichnis
[Ro98] Eva Rose, Towards secure bytecode verification on a java card, Master’s thesis,
DIKU, University of Copenhagen, 1998.
[RR98] Eva Rose and Kristoffer H. Rose, Lightweight Bytecode Verification, Extended
Abstract, Workshop Fundamental Underspinnings of Java ´98, 1998.
[Ka87] G. Kahn, Natural Semantics, Rapport de Recherche 601, INRA, SophiaAntipolis, France, 1987.
[Kas90] Uwe Kastens, Übersetzerbau, R. Oldenburg Verlag München Wien, 1990.
[Muc97] S. Muchnick, Advanced Compiler Design and Implementation, Morgan Kaufmann Publishers, 1997.
[Nec97] G. C. Necula, Proof Carrying Code, POPL ’97 – 24th Annual ACM symposium
on Principles of Programming Languages, SIGPLAN Notices, 1997.
[NL96] G. C. Necula and P. Lee, safe kernel extensions without run-time checking,
Second Symposium on Operating Systems Design and Implementations, Usenix,
1996.
[Le01] X. Leroy, Java bytecode verification: an overview. In G. Berry, H. Comon, and A.
Finkel, editors, Computer Aided Verification, CAV 2001, volume 2102 of Lecture
Notes in Computer Science, pages 265-285. Springer-Verlag, 2001.
[Le02] X. Leroy, Bytecode verification on Java smart cards, Software Practice & Experience, volume 32, 2002.
[Mo02] M. Mohnen, An Open Framework for Data-Flow Analysis, Aachener Informatik
Berichte AIB-2002-08, RWTH Aachen, 2002.
[DG02] D. Deville and G. Grimaud, Building an “impossible” verifier on a Java Card,
In Second USENIX Workshop on Industrial Experiences with Systems Software
(WIESS’02), Boston USA, 2002.
[JVM96] T. Lindholm and F. Yellin, The Java Virtual Machine Specification, The Java
Series, Addison-Wesley, 1996.
[JCVM] Sun, The Java Card 2.1.1 Virtual Machine Specification, revision 1.0,
http://java.sun.com/products/javacard/javacard21.html, 2000.
[JDK] Sun, Java 2 Software Development Kit, Standard Edition 1.4.1 01,
http://java.sun.com/j2se/1.4.1/download.html, 2002.
[JCDK] Sun, Java Card 2.2 Development Kit,
http://java.sun.com/products/javacard/dev kit.html, 2002.
[CLDC] Sun, Connected, Limited Device
http://java.sun.com/j2me/docs/, 2000.
105
Configuration
Specification
1.0a,
106
LITERATURVERZEICHNIS
[jDFA] M. Mohnen, jDFA – The Data-Flow Analysis Framework for Java,
http://jdfa.sourceforge.net/, 2002.
[BCEL] M. Dahm, BCEL – The Byte Code Engineering Library,
http://jakarta.apache.org/bcel/, 2001.
[GViz] AT&T, Graphviz – open source graph drawing software,
http://www.research.att.com/sw/tools/graphviz/.

Zugehörige Unterlagen

Für Sophie Den Quelltext einfach in den Javaeditor kopieren import

IT-Strategien: Internet, eCommerce, eTrading

Blatt 1

Untitled - Universität Paderborn

Zugehörige Unterlagen

Produkte

Unterstützung

Untitled - Universität Paderborn

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können