(1/4) :*: c` (1/4) - Technische Fakultät

Algorithmen und Datenstrukturen I
phrase1
phrase2
phrase3
phrase4
strophe
endlos
bruderJakob
=
=
=
=
=
=
=
c’ (1/4)
(1/4) :*:
:*: f’
d’ (1/4)
(1/4) :*:
:*: g’
e’ (1/2)
(1/4) :*: c’ (1/4)
e’
g’
(1/8)
:*: a’
(1/8)
:*: g’ (1/8) :*: f’ (1/8)
:*:
e’
(1/4)
:*:
c’
(1/4)
c’
(1/4)
:*::*:
(transponiere
(-12)
(g’phrase3
(1/4))):*:
:*:wdh
c’’phr
(1
wdh
phrase1
wdh
phrase2
:*:
wdh
ad_infinitum
strophe
Tempo
andante
(Instr
VoiceAahs
(einsatz
(0/1)
endlos
:+:
(einsatz
(2/1)
(transponiere
12
endlos))
:+:
(einsatz
(4/1)
endlos)
:+:
(einsatz (6/1) endlos )))
Robert Giegerich · Ralf Hinze · Universität Bielefeld
Universität Bielefeld
Technische Fakultät
WS 2004/2005
Inhaltsverzeichnis
1. Einleitung
1.1. Rechnen und rechnen lassen . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2. Die Aufgabengebiete der Informatik . . . . . . . . . . . . . . . . . . . . .
1.3. Einordnung der Informatik in die Familie der Wissenschaften . . . . . . .
2. Modellierung
2.1. Eine Formelsprache für Musik . . . . . . . . .
2.2. Typen als Hilfsmittel der Modellierung . . . .
2.3. Die Rolle der Abstraktion in der Modellierung
2.4. Modellierung in der molekularen Genetik . .
2.5. Anforderungen an Programmiersprachen . . .
1
1
3
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
11
13
14
23
3. Eine einfache Programmiersprache
3.1. Datentypen . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1. Datentypdefinitionen . . . . . . . . . . . . . . . . . . .
3.1.2. Typsynonyme . . . . . . . . . . . . . . . . . . . . . . .
3.1.3. Typdeklarationen, Typprüfung und Typinferenz . . . .
3.1.4. Typklassen und Typkontexte . . . . . . . . . . . . . . .
3.2. Wertdefinitionen . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1. Muster- und Funktionsbindungen . . . . . . . . . . . .
3.2.2. Bewachte Gleichungen . . . . . . . . . . . . . . . . . .
3.2.3. Gleichungen mit lokalen Definitionen . . . . . . . . .
3.2.4. Das Rechnen mit Gleichungen . . . . . . . . . . . . . .
3.2.5. Vollständige und disjunkte Muster . . . . . . . . . . .
3.3. Ausdrücke . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1. Variablen, Funktionsanwendungen und Konstruktoren
3.3.2. Fallunterscheidungen . . . . . . . . . . . . . . . . . . .
3.3.3. Funktionsausdrücke . . . . . . . . . . . . . . . . . . .
3.3.4. Lokale Definitionen . . . . . . . . . . . . . . . . . . . .
3.4. Anwendung: Binärbäume . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
25
25
25
30
30
32
34
34
36
37
40
41
43
43
44
46
48
49
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ii
Inhaltsverzeichnis
3.5. Vertiefung: Rechnen in Haskell . . . . . . . . . .
3.5.1. Eine Kernsprache/Syntaktischer Zucker . .
3.5.2. Auswertung von Fallunterscheidungen . .
3.5.3. Auswertung von Funktionsanwendungen
3.5.4. Auswertung von lokalen Definitionen . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
53
53
53
54
56
4. Programmiermethodik
4.1. Spezifikation . . . . . . . . . . . . . . . . . . . .
4.2. Strukturelle Rekursion . . . . . . . . . . . . . . .
4.2.1. Strukturelle Rekursion auf Listen . . . . .
4.2.2. Strukturelle Rekursion auf Bäumen . . . .
4.2.3. Das allgemeine Rekursionsschema . . . .
4.2.4. Verstärkung der Rekursion . . . . . . . . .
4.3. Strukturelle Induktion . . . . . . . . . . . . . . .
4.3.1. Strukturelle Induktion auf Listen . . . . .
4.3.2. Strukturelle Induktion auf Bäumen . . . .
4.3.3. Das allgemeine Induktionsschema . . . .
4.3.4. Verstärkung der Induktion . . . . . . . . .
4.3.5. Referential transparency . . . . . . . . . .
4.4. Anwendung: Sortieren durch Fusionieren . . . .
4.4.1. Phase 2: Sortieren eines Binärbaums . . .
4.4.2. Phase 1: Konstruktion von Braun-Bäumen
4.5. Wohlfundierte Rekursion . . . . . . . . . . . . . .
4.5.1. Das Schema der wohlfundierten Rekursion
4.6. Vertiefung: Wohlfundierte Induktion . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
59
59
62
62
66
67
67
69
69
72
73
74
76
76
76
78
80
80
82
5. Effizienz und Komplexität
5.1. Grundlagen der Effizienzanalyse . . . . . . . . . . . . . . . . . . . . .
5.1.1. Maßeinheiten für Zeit und Raum beim Rechnen . . . . . . . .
5.1.2. Detaillierte Analyse von insertionSort . . . . . . . . . . .
5.1.3. Asymptotische Zeit- und Platzeffizienz . . . . . . . . . . . . .
5.2. Effizienz strukturell rekursiver Funktionen . . . . . . . . . . . . . . .
5.3. Effizienz wohlfundiert rekursiver Funktionen . . . . . . . . . . . . . .
5.4. Problemkomplexität . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5. Anwendung: Optimierung von Programmen am Beispiel mergeSort
5.5.1. Varianten der Teile-Phase . . . . . . . . . . . . . . . . . . . .
5.5.2. Berücksichtigung von Läufen . . . . . . . . . . . . . . . . . .
5.6. Datenstrukturen mit konstantem Zugriff: Felder . . . . . . . . . . . .
5.7. Anwendung: Ein lineares Sortierverfahren . . . . . . . . . . . . . . .
5.8. Vertiefung: Rolle der Auswertungsreihenfolge . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
85
85
85
86
89
92
97
98
101
102
106
107
112
115
Inhaltsverzeichnis
6. Abstraktion
6.1. Listenbeschreibungen . . . . . . . . . . . . .
6.2. Funktionen höherer Ordnung . . . . . . . . .
6.2.1. Funktionen als Parameter . . . . . . .
6.2.2. Rekursionsschemata . . . . . . . . . .
6.2.3. foldr und Kolleginnen . . . . . . . .
6.2.4. map und Kolleginnen . . . . . . . . . .
6.3. Typklassen . . . . . . . . . . . . . . . . . . . .
6.3.1. Typpolymorphismus und Typklassen .
6.3.2. class- und instance-Deklarationen
6.3.3. Die Typklassen Eq und Ord . . . . . .
6.3.4. Die Typklassen Show und Read . . . .
6.3.5. Die Typklasse Num . . . . . . . . . . .
6.4. Anwendung: Sequenzen . . . . . . . . . . . .
6.4.1. Klassendefinition . . . . . . . . . . . .
6.4.2. Einfache Instanzen . . . . . . . . . . .
6.4.3. Generische Instanzen . . . . . . . . . .
6.4.4. Schlangen . . . . . . . . . . . . . . . .
6.4.5. Konkatenierbare Listen . . . . . . . . .
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A. Lösungen aller Übungsaufgaben
B. Mathematische Grundlagen
oder: Wieviel Mathematik ist nötig?
B.1. Mengen und Funktionen . . . . . . . . . . . .
B.1.1. Der Begriff der Menge . . . . . . . . .
B.1.2. Der Begriff der Funktion . . . . . . . .
B.2. Relationen und Halbordnungen . . . . . . . .
B.3. Formale Logik . . . . . . . . . . . . . . . . . .
B.3.1. Aussagenlogik . . . . . . . . . . . . . .
B.3.2. Prädikatenlogik . . . . . . . . . . . . .
B.3.3. Natürliche und vollständige Induktion
117
117
121
121
125
128
133
137
137
140
141
143
145
148
148
150
152
152
154
155
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
167
167
167
169
169
170
170
171
172
iv
Inhaltsverzeichnis
1. Einleitung
1.1. Rechnen und rechnen lassen
Man kann vorzüglich Rechnen lernen, ohne sich jemals zu fragen, was denn das Rechnen
vom sonstigen Gebrauch des Verstandes unterscheidet. Wir stellen diese Frage jetzt und
betrachten dazu das Rechnen so wie es uns im Leben zuerst begegnet — als Umgang mit
den Zahlen. Wir werden also die Natur des Rechnens an der Arithmetik studieren, und
dabei am Ende feststellen, daß die Zahlen bei weitem nicht das Einzige sind, womit wir
rechnen können.
Zweifellos ist Rechnen ein besonderer Gebrauch des Verstandes. Eine gewisse Ahnung
vom Unterschied zwischen Denken im allgemeinen und Rechnen im besonderen hat jeder,
der einmal mit seinem Mathematiklehrer darüber diskutiert hat, ob der Fehler in seiner
Schularbeit „bloß“ als Rechenfehler, oder aber als „logischer“ Fehler einzuordnen sei.
Richtig Rechnen heißt Anwendung der Rechenregeln für Addition, Multiplikation etc.
Dies allein garantiert das richtige Ergebnis — und neben ihrer Beachtung und Anwendung
ist als einzige weitere Verstandesleistung die Konzentration auf diese eintönige Tätigkeit
gefragt. Kein Wunder, daß nur wenige Menschen zum Zeitvertreib siebenstellige Zahlen
multiplizieren!1
Damit soll nicht etwa das Rechnen diffamiert werden — es entspricht so gerade der
Natur dessen, worum es dabei geht, nämlich den Zahlen. Diese sind Größen, abstrakte
Quantitäten ohne sonstige Eigenschaft. Bringe ich sie in Verbindung, ergeben sich neue,
andere Größen, aber keine andere Qualität. Der Unterschied von 15 und 42 ist 27, und
daraus folgt — nichts. Die mathematische Differenz zweier Größen ist, so könnte man
sagen, der unwesentliche Unterschied.
Nur zum Vergleich: Stelle ich meinen Beitrag zum Sportverein und meine Einkommenssteuer einander gegenüber, so ergibt sich auch ein Unterschied im Betrag. Daneben aber
auch einer in der Natur der Empfänger, dem Grad der Freiwilligkeit, meine Einflußmöglichkeiten auf die Verwendung dieser Gelder und vieles andere mehr. Dies sind wesentliche
Unterschiede, aus ihnen folgt allerhand. Unter anderem erklären sie auch die Differenz
der Beträge, und rechnen sie nicht bloß aus.
Für das Rechnen jedoch spielt es keine Rolle, wovon eine Zahl die Größe angibt. Jede
sonstige Beschaffenheit der betrachteten Objekte ist für das Rechnen mit ihrer Größe oh1 Denkaufgabe:
Was folgt daraus, wenn einer gut rechnen kann?
Grit Garbo ist Mathematikerin der alten Schule. Für sie gibt es
eigentlich keine Wissenschaft der Informatik — soweit Informatik wissenschaftlich ist, gehört sie zur Mathematik, alles andere ist Ingeniertechnik oder Programmierhandwerk. Fragen der
Programmiersprachen oder des Software Engineering sieht sie
als bloße Äußerlichkeiten an. Sie kann es nicht ganz verschmerzen, daß die Mathematik von ihrer Tochter Informatik heute in
vielerlei Hinsicht überflügelt wird.
2
Harry Hacker ist ein alter Programmierfuchs, nach dem Motto: Eine Woche Programmieren und Testen kann einen ganzen
Nachmittag Nachdenken ersetzen. Er ist einfallsreich und ein
gewitzter Beobachter; allerdings liegt er dabei oft haarscharf
neben der Wahrheit. Zu Programmiersprachen hat er eine dezidiert subjektive Haltung: Er findet die Sprache am besten, die
ihm am besten vertraut ist.
1. Einleitung
ne Belang. Deshalb kann das Rechnen in starre Regeln gegossen werden und nimmt darin
seinen überraschungsfreien Verlauf. Die kreative gedankliche Leistung liegt woanders: Sie
manifestiert sich in der Art und Weise, wie man die abstrakten Objekte der Zahlen konkret aufschreibt. Wir sind daran gewöhnt, das arabische Stellenwertsystem zu verwenden.
Dieses hat sich im Laufe der Geschichte durchgesetzt, da sich darauf relativ einfach Rechenregeln definieren und auch anwenden lassen. Das römische Zahlensystem mit seinen
komplizierten Einheiten und der Vor- und Nachstellung blieb auf der Strecke: Den Zahlen
XV und XLII sieht man den Unterschied XXVII nicht an. Insbesondere das Fehlen eines
Symbols für die Null macht systematisches Rechnen unmöglich — gerade wegen der Null
war das Rechnen mit den arabischen Zahlen im Mittelalter von der Kirche verboten.
Einstweiliges Fazit: Das Rechnen ist seiner Natur nach eine äußerliche, gedankenlose, in
diesem Sinne mechanische Denktätigkeit. Kaum hatte die Menschheit Rechnen gelernt,
schon tauchte die naheliegende Idee auf, das Rechnen auf eine Maschine zu übertragen.
Die Geschichte dieser Idee — von einfachen Additionsmaschinen bis hin zu den ersten
programmgesteuerten Rechenautomaten — ist an vielen Stellen beschrieben worden und
soll hier nicht angeführt werden. An ihrem Endpunkt steht der Computer, der bei entsprechender Programmierung beliebig komplexe arithmetische Aufgaben lösen kann —
schneller als wir, zuverlässiger als wir und (für uns) bequemer.
Wenn dieses Gerät existiert, stellt sich plötzlich eine ganz neue Frage: Jetzt, wo wir
rechnen lassen können, wird es interessant, Aufgaben in Rechenaufgaben zu verwandeln,
die es von Natur aus nicht sind (und die wir mit unserem Verstand auch nie so behandeln
würden). Es gilt, zu einer Problemstellung die richtigen Abstraktionen zu finden, sie durch
Formeln und Rechengesetze, genannt Datenstrukturen und Algorithmen, so weitgehend
zu erfassen, daß wir dem Ergebnis der Rechnung eine Lösung des Problems entnehmen
können. Wir bilden also abstrakte Modelle der konkreten Wirklichkeit, die diese im Falle
der Arithmetik perfekt, in den sonstigen Fällen meist nur annähernd wiedergeben. Die
Wirklichkeitstreue dieser Modelle macht den Reiz und die Schwierigkeit dieser Aufgabe,
und die Verantwortung des Informatikers bei der Software-Entwicklung aus.
Die eigentümliche Leistung der Informatik ist es also, Dinge in Rechenaufgaben zu verwandeln, die es von Natur aus nicht sind. Die Fragestellung „Was können wir rechnen
lassen?“, ist neu in der Welt der Wissenschaften — deshalb hat sich die Informatik nach
der Konstruktion der ersten Rechner schnell aus dem Schoße der Mathematik heraus zu
einer eigenständigen Disziplin entwickelt. Die Erfolge dieser Bemühung sind faszinierend,
und nicht selten, wenn auch nicht ganz richtig, liest man darüber in der Zeitung: „Computer werden immer schlauer“.
1.2. Die Aufgabengebiete der Informatik
3
1.2. Die Aufgabengebiete der Informatik
Informatik ist die Wissenschaft vom maschinellen Rechnen. Daraus ergeben sich verschiedene Fragestellungen, in die sich die Informatik aufgliedert.
Zunächst muß sie sich um die Rechenmaschine selbst kümmern. In der Technischen Informatik geht es um Rechnerarchitektur und Rechnerentwurf, wozu auch die Entwicklung
von Speichermedien, Übertragungskanälen, Sensoren usw. gehören. Der Fortschritt dieser
Disziplin besteht in immer schnelleren und kleineren Rechnern bei fallenden Preisen. In
ihren elementaren Operationen dagegen sind die Rechner heute noch so primitiv wie zur
Zeit ihrer Erfindung. Diese für den Laien überraschende Tatsache erfährt ihre Erklärung in
der theoretischen Abteilung der Informatik.
Mit der Verfügbarkeit der Computer erfolgt eine Erweiterung des Begriffs „Rechnen“.
Das Rechnen mit den guten alten Zahlen ist jetzt nur noch ein hausbackener Sonderfall. Jetzt werden allgemeinere Rechenverfahren entwickelt, genannt Algorithmen, die
aus Eingabe-Daten die Ausgabe-Daten bestimmen. Aber — was genau läßt sich rechnen,
und was nicht? Mit welcher Maschine? Die Theoretische Informatik hat diese Frage beantwortet und gezeigt, daß es nicht berechenbare Probleme2 gibt, d.h. Aufgaben, zu deren
Lösung es keinen Algorithmus gibt. Zugleich hat sie gezeigt, daß alle Rechner prinzipiell
gleichmächtig sind, sofern sie über einige wenige primitive Operationen verfügen. Dagegen erweisen sich die berechenbaren Aufgaben als unterschiedlich aufwendig, so daß die
Untersuchung des Rechenaufwands, Komplexitätstheorie, heute ein wichtiges Teilgebiet
der Theoretischen Informatik darstellt.
Zwischen den prinzipiellen Möglichkeiten des Rechnens und dem Rechner mit seinen
primitiven Operationen klafft eine riesige Lücke. Die Aufgabe der Praktischen Informatik
ist es, den Rechner für Menschen effektiv nutzbar zu machen. Die „semantische Lücke“
wird Schicht um Schicht geschlossen durch Programmiersprachen auf immer höherer Abstraktionsstufe. Heute können wir Algorithmen auf der Abstraktionsstufe der Aufgabenstellung entwickeln und programmieren, ohne die ausführende Maschine überhaupt zu
kennen. Dies ist nicht nur bequem, sondern auch wesentliche Voraussetzung für die Übertragbarkeit von Programmen zwischen verschiedenen Rechnern. Ähnliches gilt für die Benutzung der Rechner (Betriebssysteme, Benutzeroberflächen), für die Organisation großer
Datenmengen (Datenbanken) und sogar für die Kommunikation der Rechner untereinander (Rechnernetze, Verteilte Systeme). Das World Wide Web (WWW) ist das jüngste und
bekannteste Beispiel für das Überbrücken der semantischen Lücke: Es verbindet einfach2 Man
kann solche Aufgaben auch als Ja/Nein-Fragestellungen formulieren und nennt sie dann „formal unentscheidbare“ Probleme. Läßt man darin das entscheidende Wörtchen „formal“ weg, eröffnen sich tiefsinnige,
aber falsche Betrachtungen über Grenzen der Erkenntnis.
Lisa Lista ist die ideale Studentin, den Wunschvorstellungen eines überarbeitetenn Hochschullehrers entsprungen. Sie ist unvoreingenommen und aufgeweckt, greift neue Gedanken auf
und denkt sie in viele Richtungen weiter. Kein Schulunterricht
in Informatik hat sie verdorben. Lisa Lista ist 12 Jahre alt.
4
Peter Paneau ist Professor der Theoretischen Informatik. Er
sieht die Informatik im wesentlichen als eine formale Disziplin.
Am vorliegenden Text stört ihn die saloppe Redeweise und die
Tatsache, daß viele tiefgründige theoretische Probleme grob vereinfacht oder einfach umgangen werden. An solchen Stellen erhebt er mahnend der Zeigefinger . . .
1. Einleitung
ste Benutzbarkeit mit globalem Zugriff auf Informationen und andere Ressourcen in aller
Welt. Heute bedarf es nur eines gekrümmten Zeigefingers, um tausend Computer in aller
Welt für uns arbeiten zu lassen.
In der Angewandten Informatik kommt endlich der Zweck der ganzen Veranstaltung
zum Zuge. Sie wendet die schnellen Rechner, die effizienten Algorithmen, die höheren
Programmiersprachen und ihre Übersetzer, die Datenbanken, die Rechnernetze usw. an,
um Aufgaben jeglicher Art sukzessive immer vollkommener zu lösen. Je weiter die Informatik in die verschiedensten Anwendungsgebiete vordringt, desto spezifischer werden
die dort untersuchten Fragen. Vielleicht werden wir bald erleben, daß sich interdisziplinäre Anwendungen als eigenständige Disziplinen von der „Kerninformatik“ abspalten.
Wirtschaftsinformatik und Bioinformatik sind mögliche Protagonisten einer solchen Entwicklung. Während es früher Jahrhunderte gedauert hat, bis aus den Erfolgen der Physik
zunächst die anderen Natur-, dann die Ingenieurwissenschaften entstanden, so laufen
heute solche Entwicklungen in wenigen Jahrzehnten ab.
Wenn die Rechner heute immer mehr Aufgaben übernehmen, für die der Mensch den
Verstand benutzt, so ist insbesondere für Laien daran längst nicht mehr erkennbar, auf
welche Weise dies erreicht wird. Es entsteht der Schein, daß das analoge Resultat auch
in analoger Weise zustande käme. Diesen Schein nennt man künstliche Intelligenz, und
seiner Förderung hat sich das gleichnamige Arbeitsfeld der Informatik gewidmet. Es lohnt
sich, die Metapher von der Intelligenz des Rechners kurz genauer zu betrachten, weil
sie — unter Laien wie unter Informatikern — manche Verwirrung stiftet. Es ist nichts
weiter dabei, wenn man sagt, daß ein Rechner (oder genauer eine bestimmte Software)
sich intelligent verhält, wenn er (oder sie) eine Quadratwurzel zieht, eine WWW-Seite
präsentiert oder einen Airbus auf die Piste setzt. Schließlich wurden viele Jahre Arbeit
investiert, um solche Aufgaben rechnergerecht aufzubereiten, damit der Rechner diese
schneller und zuverlässiger erledigen kann als wir selbst. Nimmt man allerdings die Metapher allzu wörtlich, kommt man zu der Vorstellung, der Rechner würde dadurch selbst
so etwas wie eine eigene Verständigkeit erwerben. Daraus entsteht gelegentlich sogar die
widersprüchliche Zielsetzung, den Rechner so zu programmieren, daß er sich nicht mehr
wie ein programmierter Rechner verhält. Der Sache nach gehört die „Künstliche Intelligenz“ der Angewandten Informatik an, geht es ihr doch um die erweiterte Anwendbarkeit des Rechners auf immer komplexere Probleme. Andererseits haben diese konkreten
Anwendungen für sie nur exemplarischen Charakter, als Schritte zu dem abstrakten Ziel,
„wirklich“ intelligente künstliche Systeme zu schaffen. So leidet diese Arbeitsrichtung unter dem Dilemma, daß ihr Beitrag zum allgemeinen Fortschritt der Informatik vom Lärm
der immer wieder metaphorisch geweckten und dann enttäuschten Erwartungen übertönt
wird.
Unbeschadet solch metaphorischer Fragen geht der Vormarsch der Informatik in allen
Lebensbereichen voran — der „rechenbare“ Ausschnitt der Wirklichkeit wird ständig er-
1.3. Einordnung der Informatik in die Familie der Wissenschaften
5
weitert: Aus Textverarbeitung wird DeskTop Publishing, aus Computerspielen wird Virtual
Reality, und aus gewöhnlichen Bomben werden „intelligent warheads“. Wie gesagt: die
Rechner werden immer schlauer. Und wir?
1.3. Einordnung der Informatik in die Familie der
Wissenschaften
Wir haben gesehen, daß die Grundlagen der Informatik aus der Mathematik stammen,
während der materielle Ausgangspunkt ihrer Entwicklung die Konstruktion der ersten Rechenmaschinen war. Mutter die Mathematik, Vater der Computer — wissenschaftsmoralisch gesehen ist die Informatik ein Bastard, aus einer Liebschaft des reinen Geistes mit
einem technischen Gerät entstanden.
Die Naturwissenschaft untersucht Phänomene, die ihr ohne eigenes Zutun gegeben
sind. Die Gesetze der Natur müssen entdeckt und erklärt werden. Die Ingenieurwissenschaften wenden dieses Wissen an und konstruieren damit neue Gegenstände, die selbst
wieder auf ihre Eigenschaften untersucht werden müssen. Daraus ergeben sich neue Verbesserungen, neue Eigenschaften, und so weiter.
Im Vergleich dieser beiden Abteilungen der Wissenschaft steht die Informatik eher den
Ingenieurwissenschaften nahe: Auch sie konstruiert Systeme, die — abgesehen von denen der Technischen Informatik — allerdings immateriell sind. Wie die Ingenieurwissenschaften untersucht sie die Eigenschaften ihrer eigenen Konstruktionen, um sie weiter zu
verbessern. Wie bei den Ingenieurwissenschaften spielen bei der Informatik die Aspekte
der Zuverlässigkeit und Lebensdauer ihrer Produkte eine wesentliche Rolle.
Eine interessante Parallele besteht auch zwischen Informatik und Rechtswissenschaft.
Die Informatik konstruiert abstrakte Modelle der Wirklichkeit, die dieser möglichst nahe
kommen sollen. Das Recht schafft eine Vielzahl von Abstraktionen konkreter Individuen.
Rechtlich gesehen sind wir Mieter, Studenten, Erziehungsberechtigte, Verkehrsteilnehmer,
etc. Als solche verhalten wir uns entsprechend der gesetzlichen Regeln. Der Programmierer bildet reale Vorgänge in formalen Modellen nach, der Jurist muß konkrete Vorgänge
unter die relevanten Kategorien des Rechts subsumieren. Die Analogie endet allerdings,
wenn eine Diskrepanz zwischen Modell und Wirklichkeit auftritt: Bei einem Programmfehler behält die Wirklichkeit recht, bei einem Rechtsbruch das Recht.
Eine wissenschaftshistorische Betrachtung der Informatik und ihre Gegenüberstellung
mit der hier gegebenen deduktiven Darstellung ist interessant und sollte zu einem späteren Zeitpunkt, etwa zum Abschluß des Informatik-Grundstudiums, nachgeholt werden.
Interessante Kapitel dieser Geschichte sind das Hilbert’sche Programm, die Entwicklung
der Idee von Programmen als Daten, die oben diskutierte Idee der „Künstlichen Intelligenz“, der Prozeß der Loslösung der Informatik von der Mathematik, die Geschichte der
6
1. Einleitung
Programmiersprachen, die Revolution der Anwendungssphäre durch das Erscheinen der
Mikroprozessoren, und vieles andere mehr.
2. Modellierung
Wir haben im ersten Kapitel gelernt: Programmieren heißt, abstrakte Modelle realer Objekte zu bilden, so daß die Rechenregeln im Modell die relevanten Eigenschaften in der
Wirklichkeit adäquat nachbilden.
Wir werden den Vorgang der Modellierung nun anhand von zwei Beispielen kennen
lernen.
2.1. Eine Formelsprache für Musik
Wir haben gelernt, daß die Welt der Zahlen wegen ihres formalen Charakters die natürliche Heimat des Rechnens ist. Es gibt ein zweites Gebiet, in dem ein gewisser Formalismus
in der Natur der Sache liegt: die Musik.
Das Spielen eines Musikstückes mag vieles sein – ein künstlerischer Akt, ein kulturelles
oder emotionales Ereignis. Im Kern jedoch steht das Musikstück – es bringt die Musikvorstellung des Komponisten in eine objektive Form und ist nichts anderes als ein Programm
zur Ausführung durch einen Musiker (oder heute über eine Midi-Schnittstelle auch durch
einen elektronischen Synthesizer). Wer immer als erster ein Musikstück niedergeschrieben
hat, hat damit den Schritt vom Spielen zum Spielen lassen begründet.
Diese kulturhistorische Leistung ist viel älter als die Idee einer Rechenmaschine. In der
traditionellen Notenschrift ist der formale Anteil der Musik manifestiert. Die Modellierung
ist hier also bereits erfolgt, allerdings ausschließlich im Hinblick auf die Wiedergabe durch
einen menschlichen Interpreten, und nicht bis hin zur Entwicklung von dem Rechnen
vergleichbaren Regeln. Zwar sind viele Gesetze z.B. der Harmonielehre bekannt, man kann
sie aber in der Notenschrift nicht ausdrücken. So kann man zwar jeden Dur-Dreiklang
konkret hinschreiben – aber die allgemeine Aussage, daß ein Dur-Dreiklang immer aus
einem großen und einem kleinen Terz besteht, muß auf andere Art erfolgen. In diesem
Abschnitt setzen wir die Notenschrift (natürlich nur einen kleinen Ausschnitt davon) in
eine Formelsprache samt den zugehörigen Rechenregeln um.
Musikstücke sind aus Noten zusammengesetzt, die gleichzeitig oder nacheinander gespielt werden. Jede Note hat einen Ton und eine Dauer. Dem Stück als Ganzem liegt ein
bestimmter Takt zugrunde, und die Dauer einzelner Töne wird in Takt-Bruchteilen gemessen. Die Tonskala besteht aus 12 Halbtönen, die sich in jeder Oktave wiederholen.
8
2. Modellierung
Wir legen das tiefe C als untersten Ton zugrunde und numerieren die Halbtöne von 0
ab aufwärts. Angaben zum Spieltempo (in Taktschlägen pro Minute) und zur Wahl des
Instruments werden global für ganze Musikstücke gemacht.
Formeln, die Musik bedeuten, können wir uns z.B. so vorstellen:
Note
0 (1/4)
-Note 24 (1/1)
-Pause
(1/16)
-Note 24 (1/4) :*: Note 26 (1/4)
-Note 24 (1/4) :+: Note 28 (1/4)
-Tempo
40 m
-Tempo
100 m
-Instr Oboe m
-Instr VoiceAahs m
--
Viertelnote tiefes C
ganze Note
c’
Sechzehntelpause
:*: Note 28 (1/4)
Anfang der C-Dur Tonleiter
:+: Note 31 (1/4)
C-Dur Akkord
Musik m als Adagio
Musik m als Presto
Musik m von Oboe gespielt
Musik m gesummt
Wir konstruieren nun die Formelwelt, deren Bürger die obigen Beispiele sind. Wir gehen
davon aus, daß es Formeln für ganze Zahlen, Brüche und ein bißchen Arithmetik bereits
gibt in der Formelwelt und führen neue Typen von Formeln ein: Ton, Dauer, Instrument
und Musik.
infixr 7 :*:
infixr 6 :+:
type GanzeZahl
type Bruch
type Ton
type Dauer
data Instrument
data Musik
=
=
=
=
=
Int
-- Ganze Zahlen und Brueche setzen wir
Rational
-- als gegeben voraus.
GanzeZahl
Bruch
Oboe | HonkyTonkPiano |
Cello | VoiceAahs
deriving Show
= Note Ton Dauer |
Pause Dauer |
Musik :*: Musik |
Musik :+: Musik |
Instr Instrument Musik |
Tempo GanzeZahl Musik
deriving Show
Die neuen Formeltypen Ton und Dauer sind nur Synonyme für ganze Zahlen und Brüche entsprechend der besonderen Bedeutung, in der wir sie gebrauchen. Sie tragen keine neuen Formeln bei. Anders bei Instrument und Musik. Die Symbole Note, Pause,
:*:, :+:, Instr, Tempo sind die Konstruktoren für neuartige Formeln, die Musikstücke darstellen. In der Formel m1 :*: m2 dürfen (und müssen!) m1 und m2 beliebige
Formeln für Musikstücke sein, insbesondere selbst wieder zusammengesetzt.
2.1. Eine Formelsprache für Musik
9
In Anlehnung an die Punkt-vor-Strich Regel der Algebra geben wir der Verknüpfung
von Noten zu einer zeitlichen Abfolge (:*:) Vorrang vor der zeitlich parallelen Verknüpfung mehrerer Stimmen (:+:). Damit ist die Formel m1 :+: m2 :*: m3 zu lesen als
m1 :+: (m2 :*: m3).
Umfangreiche Musikstücke können nun als wahre Formelgebirge geschrieben werden.
Zuvor erleichtern wir uns das Leben in der Formelwelt, indem wir einige Abkürzungen
einführen. Etwa für die Pausen:
gP
hP
vP
aP
sP
=
=
=
=
=
Pause
Pause
Pause
Pause
Pause
(1/1)
(1/2)
(1/4)
(1/8)
(1/16)
Diese Definitionen sind zugleich Rechenregeln. Sie bedeuten einerseits, daß man die
neuen Symbole gP, hP, vP, aP, sP überall in Musikstücken einsetzen kann – es erweitert sich damit die Formelwelt. Zugleich kann man jedes Symbol jederzeit durch die
rechte Seite der Definition ersetzen – so daß die Musikstücke in der Formelwelt nicht
mehr geworden sind.
Hier sind klangvolle Namen für einige Tempi:
adagio = 70; andante = 90; allegro = 140; presto = 180
Die üblichen Bezeichnungen für die 12 Halbtöne führen wir so ein:
ce
de
eh
ef
ge
ah
ha
=
=
=
=
=
=
=
0;
2;
4;
5;
7;
9;
11;
cis
dis
eis
fis
gis
ais
his
=
=
=
=
=
=
=
1;
3;
5;
6;
8;
10;
12
des
es
fes
ges
as
be
=
=
=
=
=
=
1
3
4
6
8
10
Diese Töne sind in der untersten Oktave angesiedelt, und wir brauchen sie hier kaum.
Dagegen brauchen wir eine bequeme Notation für Noten (beliebiger Dauer) aus der CDur Tonleiter in der dritten Oktave:
c’
e’
g’
h’
u
u
u
u
=
=
=
=
Note
Note
Note
Note
(ce+24)
(eh+24)
(ge+24)
(ha+24)
u;
u;
u;
u;
d’
f’
a’
c’’
u
u
u
u
=
=
=
=
Note
Note
Note
Note
(de+24)
(ef+24)
(ah+24)
(ce+36)
u
u
u
u
Als Beispiele hier der C-Dur Akkord in neuer Schreibweise, sowie eine (rhythmisch beschwingte) C-Dur Tonleiter:
10
2. Modellierung
cDurTonika = c’ (1/1) :+: e’ (1/1) :+: g’ (1/1)
cDurSkala = Tempo allegro(
c’ (3/8) :*: d’ (1/8) :*: e’ (3/8) :*: f’ (4/8)
:*: g’ (1/8) :*: a’ (1/4) :*: h’ (1/8) :*: c’’ (1/2))
Allgemein gesagt, besteht ein Dur-Dreiklang aus einen Grundton t sowie der großen
Terz und der Quinte über t.
Dieses Gesetz als Formel:
durDreiklang t = Note t (1/1) :+: Note (t+4) (1/1) :+: Note (t+7) (1/1)
Wie wär’s mit einer allgemeinen Regel zur Umkehrung eines Dreiklangs (der unterste
Ton muß eine Oktave nach oben)?
umk ((Note t d) :+: n2 :+: n3) = n2 :+: n3 :+: (Note (t+12) d)
Als komplexe Operation auf ganzen Musikstücken betrachten wir das Transponieren.
Es bedeutet, daß Töne um ein gewisses Intervall verschoben werden, während alles andere gleich bleibt. Wie muß die Rechenregel lauten, um Musikstück m um Intervall i zu
transponieren? Wir geben eine Regel für jede mögliche Form von m an:
transponiere
transponiere
transponiere
transponiere
transponiere
transponiere
i
i
i
i
i
i
(Pause d)
(Note t d)
(m1 :*: m2)
(m1 :+: m2)
(Instr y m)
(Tempo n m)
=
=
=
=
=
=
Pause d
Note (t+i) d
(transponiere i m1) :*:
(transponiere i m1) :+:
Instr y (transponiere i
Tempo n (transponiere n
(transponiere i m2)
(transponiere i m2)
m)
m)
gDurTonika = transponiere 7 cDurTonika
Da das Transponieren Intervalle nicht ändert, führt es einen Dur-Dreiklang wieder in
einen Dur-Dreiklang über. Es gilt folgendes Gesetz für beliebigen Grundton g und beliebiges Intervall i:
transponiere i (durDreiklang t) = durDreiklang(t+i)
Zur Überprüfung rechnen wir beide Seiten mittels der Definition von transponiere
und durDreiklang aus und erhalten beide Male
Note (t+i) (1/1)
:+: Note (t+4+i) (1/1) :+: Note (t+7+i) (1/1)
2.2. Typen als Hilfsmittel der Modellierung
11
Hier haben wir eine Methode zur Validierung von Modellen kennengelernt: Wenn man
beweisen kann, daß ein Gesetz der realen Welt auch in der Formelwelt gilt, so gibt das
Modell die Wirklichkeit zumindest in dieser Hinsicht treu wieder.
Bevor wir ein komplettes Lied zusammenstellen, hier zwei Regeln zur Wiederholung:
wdh m = m :*: m
ad_infinitum m = m :*: ad_infinitum m
Einen um Dauer d verzögerten Einsatz erhält man durch Vorschalten einer Pause.
einsatz
d m = (Pause d) :*: m
Unser letztes Beispiel beschreibt den Kanon „Bruder Jakob“, wobei wir die 2. Stimme
eine Oktave über den anderen notieren.
phrase1 = c’ (1/4) :*: d’ (1/4) :*: e’ (1/4) :*: c’ (1/4)
phrase2 = e’ (1/4) :*: f’ (1/4) :*: g’ (1/2)
phrase3 = g’ (1/8) :*: a’ (1/8) :*: g’ (1/8) :*: f’ (1/8)
:*: e’ (1/4) :*: c’ (1/4)
phrase4 = c’ (1/4) :*: (transponiere (-12) (g’ (1/4))) :*: c’’ (1/2)
strophe = wdh phrase1 :*: wdh phrase2 :*: wdh phrase3 :*: wdh phrase4
endlos = ad_infinitum strophe
bruderJakob = Tempo andante (Instr VoiceAahs
(einsatz (0/1) endlos
:+:
(einsatz (2/1) (transponiere 12 endlos)) :+:
(einsatz (4/1) endlos)
:+:
(einsatz (6/1) endlos )))
Natürlich gehört zu einer praktischen Formelsprache für Musik noch vieles, was wir hier
nicht betrachtet haben – Text, Artikulation, Kontrapunkt, eine Möglichkeit zur Übersetzung der Formeln in die traditionelle Notation und in eine Folge von Midi-Befehlen, um
damit einen Synthesizer zu steuern.
2.2. Typen als Hilfsmittel der Modellierung
In der realen Welt verhindert (meistens) die Physik, daß unpassende Operationen mit
untauglichen Objekten ausgeführt werden. Man kann eben einen Golfball nicht unter einer Fliege verstecken oder einen Rosenbusch mit einer Steuererklärung paaren. Macht
12
2. Modellierung
es Sinn, einer streikenden (?) Waschmaschine gut zuzureden? Das Problem in einer Formelwelt ist, daß man zunächst alles hinschreiben kann, weil die Formeln sich nicht selbst
dagegen sträuben.
Aus diesem Grund gibt man jedem Objekt des Modells einen Typ, der eine Abstraktion
der natürlichen Eigenschaften des realen Objekts ist.
In der Formelsprache für Musik haben wir die Typen Ton (synonym für ganzeZahl) und
Dauer (synonym für positive rationale Zahl) vorausgesetzt und die Typen Musik und
Instrument neu eingeführt. Die Typendeklaration legt nicht nur fest, daß Musik auf
sechs verschiedene Weisen zusammengesetzt werden kann, und zwar durch die (Formel-)
Konstruktoren Note bis Tempo. Sie sagt auch, welche Formeln zusammengefügt werden
dürfen. Note muß stets einen Ton mit einer Dauer verknüpfen. Mit :*: kann man zwei
Musikstücke verknüpfen, nicht aber ein Musikstück mit einem Ton. Folgende Formeln
sind fehlerhaft:
Note 3/4 ce
Pause Cello
Tempo Oboe 100
Pause (1/2 :*: 1/4)
Instr (Cello :+: Oboe) cDurTonika
c’ :+: e’ :+: g’
Möglicherweise hat sich der Autor dieser Formeln etwas Sinnvolles gedacht – aber es
muß in unserer Formelsprache anders ausgedrückt werden. Auch die durch Definitionen
eingeführten Namen erhalten einen Typ. Er ergibt sich aus der rechten Seite der definierenden
Gleichung. Wir schreiben a, b, c :: t für die Aussage „Die Namen (oder Formeln)
a, b, c haben Typ t“ und stellen fest:
ce, cis, des, de, dis, es, eh, eis, fes, ef, fis :: Ton
ges, ge, gis, as, ah, ais, be, ha, his
:: Ton
gP, hP, vP, aP, sP
:: Musik
cDurTonika
:: Musik
adagio, andante, allegro, presto
:: GanzeZahl
Die Namen c’, d’ etc. bezeichnen Funktionen, die eine Dauer als Argument und
Musik als Ergebnis haben. umk, wdh und ad_infinitum wandeln Musikstücke um.
c’, d’, e’, f’, g’, a’, h’, c’’ :: Dauer -> Musik
umk, wdh, ad_infinitum
:: Musik -> Musik
transponiere schließlich hat zwei Argumente, was wir – etwas gewöhnugsbedürftig
– mit zwei Funktionspfeilen ausdrücken.
transponiere :: GanzeZahl -> Musik -> Musik
2.3. Die Rolle der Abstraktion in der Modellierung
13
Hinter dieser Notation steht die Sichtweise, daß man einer zweistelligen Funktion wie
transponiere manchmal nur ein Argument geben möchte: Unter
(transponiere 7) stellen wir uns eine abgeleitete Funktion vor, die Musikstücke um
eine Quinte nach oben transponiert. Natürlich hat (transponiere 7) dann den „restlichen“ Typ Musik -> Musik.
2.3. Die Rolle der Abstraktion in der Modellierung
Unsere Formelsprache für Musik erlaubt es, in direkter Analogie zur Notenschrift Musikstücke als Formeln hinzuschreiben. Darüberhinaus können wir aber auch abstrakte Zusammenhänge zwischen Musikstücken darstellen, wie etwa den Aufbau eines Dur-Dreiklangs
oder das Transponieren. Worauf beruht dies Möglichkeit?
Sie beginnt damit, daß wir beliebige Formeln mit einem Namen versehen können, wie
etwa bei gP, hP oder phrase1 bis phrase4. Diese Namen sind kürzer und (hoffentlich)
lesbarer als die Formeln, für die sie stehen, aber noch nicht abstrakter. Die Abstraktion
kommt mit dem Übergang zu Funktionen ins Spiel. Vergleichen wir die beiden folgenden
Definitionen eines Zweiklangs:
tritonus_f_1 = Note ef (1/1) :+: Note ha (1/1)
tritonus t d = Note t d
:+: Note (t+6) d
tritonus_f_1 beschreibt einen Zweiklang von konkreter Tonlage und Dauer.
tritonus dagegen abstrahiert von Tonlage und Dauer, und hält nur fest, was für den als
Tritonus bekannten Zweiklang wesentlich ist — ein Intervall von 6 Halbtonschritten.
Dieser Unterschied macht sich auch an den Typen bemerkbar. Wir finden:
tritonus_f_1 :: Musik
tritonus
:: Ton -> Dauer -> Musik
Hier verrät uns bereits der Typ, daß in der Formel tritonus erst Ton und Dauer konkretisiert werden müssen, ehe spielbare Musik entsteht. Bei den Noten der eingestrichenen
C-Dur-Skala (c’, d’, ...) haben wir von der Dauer abtrahiert, sonst hätten wir Definitionen für 40 oder noch mehr Namen einführen müssen. Andererseits haben wir hier
natürlich nicht vom Ton abstrahiert, wir wollten ja Namen für bestimmte Töne einführen. Und außerdem gibt es diese Abstraktion bereits: Eine Note von beliebigem Ton und
Dauer wird gerade von dem Konstruktor Note repräsentiert, dem wir daher auch den Typ
Ton -> Dauer -> Musik zuordnen.
Typen halten die Objekte der Formelwelt auseinander, Funktionen stiften Zusammenhänge. Wollten wir ohne Abstraktion das Prinzip der Umkehrung eines Dreiklangs beschreiben, kämen wir über konkrete Beispiele nicht hinaus. Die Funktion umk leistet das
14
2. Modellierung
Gewünschte mühelos. Und schließlich hält uns nichts davon ab (Übungsaufgabe!), im Kanon bruderJakob von der eigentlichen Melodie zu abstrahieren und ein allgemeines
Konstruktionsprinzip für einen vierstimmigen Kanon anzugeben.
Hier haben wir die Methode der funktionalen Abstraktion kennengelernt. Technisch
gesehen besteht sie lediglich darin, in einer Formel einige Positionen als variabel zu betrachten. So wird aus der Formel eine Funktion, die mit einem Namen versehen und in
vielfältiger Weise eingesetzt werden kann, und die zugleich selbst ein abstraktes Prinzip
repräsentiert. Wir werden später noch andere Formen der Abstraktion kennenlernen, aber
die funktionale Abstraktion ist sicher die grundlegendste von allen.
2.4. Modellierung in der molekularen Genetik
Die Basen Adenin, Cytosin, Guanin und Thymin bilden zusammen mit Phosphor und Ribose die Nukleotide, die Bausteine der Erbsubstanz.
data Nucleotide = A | C | G | T
deriving (Eq, Show)
Die 20 Aminosäuren sind die Bausteine aller Proteine:
data AminoAcid
=
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Ala
-- Alanin
Arg
-- Arginin
Asn
-- Asparagin
Asp
-- Aspartat
Cys
-- Cystein
Gln
-- Glutamin
Glu
-- Glutamat
Gly
-- Glycin
His
-- Histidin
Ile
-- Isoleucin
Leu
-- Leucin
Lys
-- Lysin
Met
-- Methionin
Phe
-- Phenylalanin
Pro
-- Prolin
Ser
-- Serin
Thr
-- Threonin
Trp
-- Tryptophan
Tyr
-- Tyrosin
Val
-- Valin
Stp
-- keine Aminosaeure; siehe unten
deriving (Eq, Show)
2.4. Modellierung in der molekularen Genetik
15
Lange Ketten von Nukleotiden bilden die Nukleinsäure, lange Ketten von Aminosäuren bilden Proteine. Chemisch werden diese Ketten auf unterschiedliche Weise gebildet:
Bei den Nukleotiden verknüpfen die Phosphor-Atome die Ribose-Ringe, zwischen den
Aminosäuren werden Peptidbindungen aufgebaut. Da wir aber die Chemie der Moleküle nicht modellieren wollen, wollen wir auch nicht unterscheiden, auf welche Weise die
Ketten konstruiert werden. Als Formel für Kettenmoleküle schreiben wir
A:C:C:A:G:A:T:T:A:T:A:T: ..., oder
Met:Ala:Ala:His:Lys:Lys:Leu: ...
Im Unterschied zur Molekularbiologie kennt also unsere Formelwelt einen Konstruktor
(:), der Ketten jeglicher Art aufbaut:
data [a] = []
| a:[a]
-- leere Kette
-- (:) verlaengert Kette von a’s um ein a.
Den Datentyp [a] nennt man einen polymorphen Listentyp. Hier ist a ein Typparameter. Dies bedeutet, das Elemente beliebigen, aber gleichen Typs mittels der Konstruktoren
(:) und [] zu Listen zusammengefügt werden können. Für Listen führen wir eine spezielle Notation ein: Statt a:b:c:[] schreiben wir auch [a,b,c].
Damit können wir nun sagen, welcher Datentyp in der Formelwelt den realen Nukleinsäuren und Proteinen entsprechen soll:
type DNA
= [Nucleotide]
type Protein = [AminoAcid]
type Codon
= (Nucleotide, Nucleotide, Nucleotide)
Im Ruhezustand (als Informationsspeicher) ist die DNA allerdings ein Doppelmolekül:
Zwei DNA-Stränge bilden die berühmte, von Watson und Crick entdeckte Doppelhelix.
Sie beruht darauf, daß bestimmte Basen zueinander komplementär sind - sie können Wasserstoffbrückenbindungen aufbauen, wenn sie einander gegenüber stehen.
wc_complement
wc_complement
wc_complement
wc_complement
A
T
C
G
=
=
=
=
T
A
G
C
Wir können die dopplesträngige DNA auf zwei verschiedene Weisen darstellen, als Paar
von Listen oder als Liste von Paaren.
type DNA_DoubleStrand = (DNA,DNA) -- als Paar zweier Einzelstraenge
type DNA_DoubleStrand’ = [(Nucleotide,Nucleotide)]
-- als Kette von Watson-Crick-Paaren
dnaDS_Exmpl1 = ([A,C,C,G,A,T],[T,G,G,C,T,A])
dnaDS_Exmpl2 = [(A,T),(C,G),(C,G),(G,C),(A,T),(T,A)]
16
2. Modellierung
Dabei ist die erste Version deutlich vorzuziehen. Sie deutet an, was in der Zelle auch
stattfindet: Das Aufspalten oder Zusammenfügen des Doppelstrangs aus zwei Einzelsträngen. Die zweite Version dagegen suggeriert, daß existierende Watson-Crick Basenpaare zu
einer Doppelkette verknüpft werden. Einzelne solche Paare sind jedoch wegen der sehr
schwachen Wasserstoffbindung nicht stabil und kommen daher in der Zelle nicht vor.
Wir entscheiden uns also für den Datentyp DNA_DoubleStrand. So naheliegend seine
Definition auch erscheint, sie ist nicht ohne Gefahren: Formeln vom Typ
DNA_DoubleStrand sollen beliebige doppelsträngige DNA-Moleküle darstellen. Das können sie auch. Aber darüber hinaus können wir formal korrekte Formeln des Typs
DNA_DoubleStrand hinschreiben, denen keine Doppelhelix entspricht.
incorrectDoubleStrand = ([A,C,C,G,A,T],[T,G,G,C,A,T,C])
incorrectDoubleStrand ist in zweifacher Weise falsch: Erstens sind die jeweiligen
Basen an mehreren Stellen nicht komplementär, und zweitens haben die beiden Einzelstränge gar noch unterschiedliche Länge. Wir stoßen hier auf eine grundlegende Schwierigkeit bei jeder Modellierung: Es gibt Objekte in der Modellwelt, die nichts bedeuten,
d.h. denen keine Objekte der Wirklichkeit entsprechen. Solche Formeln, die wohlgebaut,
aber ohne Bedeutung sind, nennt man syntaktisch korrekt, aber semantisch falsch. Alles
geht gut, solange beim Rechnen mit den Formeln auch keine solchen Objekte erzeugt
werden. Wenn doch, sind die Folgen meist unabsehbar. Im besten Fall bleibt die Rechnung irgendwann stecken, weil eine Funktion berechnet werden soll, die für solche Fälle
keine Regel vorsieht. Manchmal passen die Rechenregeln auch auf die nicht vorgesehenen Formeln, und dann kann es im schlimmsten Fall geschehen, daß die Rechnung ein
Ergebnis liefert, dem man nicht ansieht, daß es falsch ist.
Wir werden sehen, daß selbst die Natur im Falle der DNA-Replikation dieses Problem erkannt und einen Weg zu seiner Lösung gefundenhat. Zunächst betrachten wir
den „Normalfall“ der Replikation. Weil das Komplement jeder Base eindeutig definiert
ist, kann man zu jedem DNA-Einzelstrang den komplementären Doppelstrang berechnen.
In der Tat geschieht dies bei der Zellteilung. Der Doppelstrang wird aufgespalten, und
die DNA-Polymerase synthetisiert zu jedem der beiden Stränge den jeweils komplementären Strang. Die DNA-Polymerase können wir auf zwei verschiedene Weisen darstellen:
Enerseits ist sie ein Enzym, also selbst ein Protein:
dnaPolymerase_Sequenz = Met:Ala:Pro:Val:His:Gly:Asp:Asp:Ser ...
Dies hilft uns allerdings nicht dabei, die Wirkungsweise dieses Enzyms auszudrücken.
Noch viele Jahrzehnte werden vergehen, ehe die Wissenschaft die Funktion eines Proteins
aus der Kette seiner Aminosäuren ableiten kann. Was liegt also näher, als die Funktion der
Polymerase durch eine Funktion zu modellieren:
2.4. Modellierung in der molekularen Genetik
17
dnaPolymerase :: DNA -> DNA_DoubleStrand
dnaPolymerase x = (x, complSingleStrand x) where
complSingleStrand []
= []
complSingleStrand (a:x) = wc_complement a:complSingleStrand x
Will man prüfen (lassen), ob ein Dopplestrang tatsächlich korrekt aufgebaut ist, kann
man dies nun einfach tun.
data Bool = True | False
-- die abstrakten Urteile Wahr und Falsch
wellFormedDoubleStrand :: DNA_DoubleStrand -> Bool
wellFormedDoubleStrand (x,y) = (x,y) == dnaPolymerase x
(Zur Unterscheidung von der definierenden Gleichung schreiben wir den Vergleich zweier Formeln als ==. Dabei werden beide Formeln zunächst ausgerechnet und dann verglichen.)
Blickt man etwas tiefer ins Lehrbuch der Genetik, so findet man, daß auch die Natur
nicht ohne Fehler rechnet: Mit einer (sehr geringen) Fehlerrate wird in den neu polymerisierten Strang ein falsches (nicht komplementäres) Nukleotid eingebaut. Dadurch wird die
Erbinformation verfälscht. Daher gibt es ein weiteres Enzym, eine Exonuclease, die fehlerhafte Stellen erkennt und korrigiert. Sie muß dabei ein subtiles Problem lösen: Gegeben
ein Doppelstrang mit einem nicht komplementären Basenpaar darin – welcher Strang ist
das Original, und welcher muß korrigiert werden? Die Natur behilft sich dadurch, daß der
Originalstrang beim Kopieren geringfügig modifiziert wird – durch Anhängen von Methylgruppen an seine Nukleotide.
Diese Technik können wir nicht einsetzen, da wir die Chemie der Nukleotide nicht modellieren. Wir behelfen uns auf eine nicht weniger subtile Art: Im Unterschied zur Wirklichkeit (Doppelhelix) kann man im Modell (DNA_DoubleStrand) einen „linken“ und
„rechten“ Strang unterscheiden. Übereinstimmend mit der Modellierung der Polymerase
legen wir fest, daß stets der „linke“ Strang als Original gilt, der „rechte“ als die Kopie.
Auch die Exonuclease modellieren wir durch ihre Funktion:
exonuclease
exonuclease
exonuclease
exonuclease
exonuclease
:: DNA_DoubleStrand -> DNA_DoubleStrand
([],[])
= ([],[])
([],x)
= ([],[])
-- Kopie wird abgeschnitten
(x,[])
= dnaPolymerase x -- Kopie wird verlaengert
(a:x,b:y) = if b == ac then (a:x’,b:y’)
else (a:x’,ac:y’)
where ac
= wc_complement a
(x’,y’) = exonuclease (x,y)
Damit erhalten wir z.B. die erwünschte Korrektur des fehlerhaften Doppelstrangs:
18
2. Modellierung
exonuclease incorrectDoubleStrand ==> ([A,C,C,G,A,T],[T,G,G,C,T,A])
Unsere Definition der Exonuclease ist der Natur abgelauscht. Vom Standpunkt des Rechenergebnisses aus betrachtet (man nennt diesen Standpunkt extensional) können wir
das Gleiche auch einfacher haben: Verläßt man sich darauf, daß unsere DNA-Polymerase
im Modell keine Fehler macht, kann man einfach den kopierten Strang gleich neu polymerisieren.
dnaCorr :: DNA_DoubleStrand -> DNA_DoubleStrand
dnaCorr (x,y) = dnaPolymerase x
Es ist nicht ganz überflüssig, die gleiche Funktion auf verschiedene Weisen zu beschreiben. Daraus ergibt sich die Möglichkeit, das Modell an sich selbst zu validieren. Es muß
ja nun die folgende Aussage gelten:
Für alle d::DNA_DoubleStrand gilt dnaCorr d == exonuclease d.
Außerdem muß die dnaPolymerase eine Idempotenzeigenschaft aufweisen:
Für alle x::DNA gilt: x == z where
(x,y) == dnaPolymerase x
(y,z) == dnaPolymerase y
Wir formulieren solche Eigenschaften, die wir aus der Wirklichkeit kennen, in der Sprache der Modellwelt. Können wir sie dort als gültig nachweisen, so wissen wir erstens,
daß unser Modell im Hinblick auf genau diese Eigenschaften der Realität entspricht. Aber
noch mehr: Sofern wir diese Eigenschaften beim Formulieren des Modells nicht explizit
bedacht haben, fördert ihr Nachweis auch unser generelles Vertrauen in die Tauglichkeit
des Modells. Wir werden später Techniken kennenlernen, wie man solche Eigenschaften
nachweist.
Fast ohne Ausnahme benutzen alle Lebewesen den gleichen genetischen Code. Bestimmte Dreiergruppen (genannt Codons) von Nukleotiden codieren für bestimmte Aminosäuren. Da es 43 = 64 Codons, aber nur 20 Aminosäuren gibt, werden viele Aminosäuren durch mehrere Codons codiert. Einige Codons codieren für keine Aminosäure; man
bezeichnet sie als Stop-Codons, da ihr Auftreten das Ende eines Gens markiert.
Der genetische Code ist also eine Funktion, die Codons auf Aminosäuren abbildet. (Wir
abstrahieren hier davon, daß die DNA zunächst in RNA transkribiert wird, wobei die Base
Thymin überall durch Uracil ersetzt wird.)
genCode
genCode
genCode
genCode
:: Codon -> AminoAcid
(A,A,A)
= Lys;
(A,A,C)
= Asn;
(A,C,_)
= Thr
genCode (A,A,G)
genCode (A,A,T)
= Lys
= Asn
2.4. Modellierung in der molekularen Genetik
genCode
genCode
genCode
genCode
genCode
genCode
genCode
genCode
genCode
genCode
genCode
genCode
genCode
genCode
genCode
genCode
genCode
genCode
genCode
genCode
genCode
genCode
genCode
(A,G,A)
(A,G,C)
(A,T,A)
(A,T,T)
(A,T,G)
(C,A,A)
(C,A,C)
(C,G,_)
(C,C,_)
(C,T,_)
(G,A,A)
(G,A,C)
(G,C,_)
(G,G,_)
(G,T,_)
(T,A,A)
(T,G,A)
(T,A,C)
(T,C,_)
(T,G,G)
(T,G,C)
(T,T,A)
(T,T,C)
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
=
Arg;
Ser;
Ile;
Ile
Met
Glu;
His;
Arg
Pro
Leu
Glu;
Asp;
Ala
Gly
Val
Stp;
Stp
Tyr;
Ser
Trp
Cys;
Leu;
Phe;
19
genCode (A,G,G)
genCode (A,G,T)
genCode (A,T,C)
= Arg
= Ser
= Ile
genCode (C,A,G)
genCode (C,A,T)
= Glu
= His
genCode (G,A,G)
genCode (G,A,T)
= Glu
= Asp
genCode (T,A,G)
= Stp
genCode (T,A,T)
= Tyr
genCode (T,G,T)
genCode (T,T,G)
genCode (T,T,T)
= Cys
= Leu
= Phe
Ein Gen beginnt stets mit dem „Startcodon“ (A,T,G) , setzt sich dann mit weiteren
Codons fort und endet mit dem ersten Auftreten eines Stopcodons. Die Translation, d.h.
die Übersetzung des Gens in das codierte Protein erfolgt am Ribosom. Dies ist ein sehr
komplexes Molekül, ein Verbund aus Proteinen und Nukleinsäuren. Wir modellieren es
durch seine Funktion:
ribosome :: DNA -> Protein
ribosome (A:T:G:x) = Met:translate (triplets x) where
triplets :: [a] -> [(a,a,a)]
triplets []
= []
triplets (a:b:c:x) = (a,b,c):triplets x
translate :: [Codon] -> Protein
translate []
= []
translate (t:ts) = if aa == Stp then []
else aa:translate ts where
aa
= genCode t
Auch hier haben wir wieder einige Modellierungsentscheidungen getroffen, die man
sich klarmachen muß. Dies betrifft die Behandlung inkorrekt aufgebauter Gene, die auch
20
2. Modellierung
in der Natur gelegentlich vorkommen. Fehlt das Startcodon, wird kein Protein produziert.
Ist das Gen unvollständig, d.h. bricht es ohne Stopcodon ab, so ist ein unvollständiges
Proteinprodukt entstanden, das entsorgt werden muß. Im Modell ist dies so ausgedrückt:
• Fehlt das Startcodon, gibt es keine passende Rechenregel für ribosome, und die
Rechnung beginnt gar nicht erst.
• Ist das letzte Triplett unvollständig, bleibt die Rechnung in einer Formel der Art
triplets [a] oder triplets[a,b] stecken, für die wir keine Rechenregel vorgesehen haben. Ein Fehlen des Stopcodons wird verziehen. Wer dies nicht will,
streicht die erste Regel für translate, so daß ohne Stopcodon die Rechnung am Ende
in translate [] steckenbleibt.
Eine frühere Entscheidung hat sich hier gelohnt: Da wir den Listentyp polymorph eingeführt haben, können wir hier auch ganz nebenbei Listen von Codons, d.h. den Typ
[Codon] verwenden.
Bisher haben wir Vorgänge modelliert, die in der Natur selbst vorkommen. Zum Abschluß nehmen wir den Standpunkt des Naturforschers ein. Heute liefern die großen
Sequenzierprojekte dank weitgehender Automatisierung eine Fülle von DNA-Sequenzen
immer mehr Organismen. Von einigen ist sogar bereits das komplette Genom bekannt,
etwa vom Koli-Bakterium (ca. 3 Millionen Basenpaare) oder der Bäckerhefe (ca. 14 Millionen Basenpaare). Den Forscher interessiert nun unter anderem, welche Gene eine neue
DNA-Sequenz möglicherweise enthält. Sequenzabschnitte, die den Aufbau eines Gens haben, nennt man ORFs (open reading frames). Ob es sich bei ihnen tatsächlich um Gene
handelt, hängt davon ab, ob sie jemals vom Ribosom als solche behandelt werden. Dies
kann man der Sequenz heute nicht ansehen. Wohl aber ist es interessant, in einer neuen
DNA-Sequenz nach allen ORFs zu suchen und ihre Übersetzung in hypothetische Proteine vorzunehmen. Wir wollen also für unsere Kollegin aus der Molekularbiologie eine
Funktion definieren, die genau dieses tut.
Damit ist unsere Aufgabe so bestimmt: Wir gehen von einem DNA-Doppelstrang aus,
der zu untersuchen ist. Als Ergebnis möchten wir alle ORFs in übersetzter Form sehen, die
in dem Doppelstrang auftreten.
Wir wollen diese Aufgabe durch eine Funktion analyseORFs lösen. Schon beim Versuch, den Typ dieser Funktion anzugeben, wird klar, daß die Aufgabe zwar halbwegs ausreichend, aber keineswegs vollständig beschrieben ist.
Was genau bedeutet „alle ORFs“? Weder in der DNA, noch in unserem Modell liegt
eine feste Einteilung der Nukleotidsequenz in Codons vor. Das Auftreten einer Dreiergruppe A,T,G definiert implizit die Lage der folgenden Codons. Ein einzelnes Nukleotid
kann so drei verschiedenen Leserastern angehören, in denen es jeweils als 1., 2. oder 3.
Element eines Codons interpretiert wird. Damit kann ein DNA-Abschnitt überlappende
2.4. Modellierung in der molekularen Genetik
21
ORFs enthalten. Das gleiche gilt für den Gegenstrang, der dabei in umgekehrter Richtung
abzulesen ist.
„Alle ORFs“ zu finden ist also etwas komplizierter als es zunächst erscheint. Das führt
zu der Frage, wie eigentlich das Ergebnis aussehen soll. Einfach eine Liste aller ORFs,
die vorkommen? Oder will man zu jedem ORF auch wissen, in welchem Leseraster auf
welchem Strang er liegt? Möchte man gar zusätzliche Informationen erhalten, wie etwa
Länge eines ORF und seine Lage relativ zum Anfang der DNA-Sequenz? Schließlich –
wir wissen ja was unsere Kollegin letzlich interessiert – könnte man die hypothetischen
Proteine noch mit einer Proteindatenbank abgleichen, um zu sehen, ob ein solches (oder
ein ähnliches) Protein an anderer Stelle bereits nachgewiesen wurde ...
Es ist immer ein gutes Entwurfsprinzip
• möglicherweise interessante Information, die während der Rechnung anfällt, auch
im Ergebnis sichtbar zu machen. Dies gilt hier für die Verteilung der ORFs auf die
Leseraster.
• die Funktionalität eines Entwurfs nicht zu überfrachten. Was gut und logisch einleuchtend durch zwei getrennte Funktionen realisiert werden kann, wird auch getrennt. Dadurch entstehen kleine Bausteine von überschaubarer Komplexität, die
möglicherweise auch in anderem Kontext wiederverwendbar sind.
Wir entscheiden, daß das Ergebnis eine Liste von 6 Listen übersetzter ORFs sein soll,
getrennt nach Leseraster. Wir halten diesen Beschluß durch die entsprechende Typdeklaration fest.
analyzeORFs :: DNA_DoubleStrand -> [[Protein]]
Da ein Startcodon an beliebiger Stelle stehen kann, bilden wir zunächst 6 verschiedene
Leseraster, die dann alle nach ORFs durchsucht werden.
frames3 :: DNA -> [[Codon]]
frames3 x = if length x < 3 then [[],[],[]]
else [triplets x, triplets (tail x),
triplets (tail(tail x))] where
triplets :: [a] -> [(a,a,a)]
triplets []
= []
triplets [_]
= []
triplets [_,_]
= []
triplets (a:b:c:x) = (a,b,c):triplets x
findStartPositions :: [Codon] -> [[Codon]]
findStartPositions []
= []
findStartPositions (c:x) = if c == (A,T,G) then (c:x):findStartPositions x
else findStartPositions x
22
2. Modellierung
analyzeORFs (strain,antistrain)
= map (map translate) orfs where
sixframes = frames3 strain ++ frames3 (reverse antistrain)
orfs
= map findStartPositions sixframes
Der polymorphe Listendatentyp wird hier in verschiedener Weise benutzt; das Ergebnis
z.B. ist eine Liste von Listen von Listen von Aminosäuren. Wir unterstellen Funktionen
(++) und reverse, die Listen aller Art verketten bzw. umkehren. Die Umkehrung des
Gegenstrangs ist notwendig, weil dieser am Ribosom in gegenläufiger Richtung gelesen
wird. Die Funktion map schließlich wendet eine Funktion f auf alle Elemente einer Liste
an, so daß z.B. gilt map f [x,y,z] = [f x, f y, f z].
Einige Beispiele:
dna_seq3 = dnaPolymerase [A,A,T,G,T,C,C,A,T,G,A,A,T,G,C]
dna_seq4 = dnaPolymerase [A,T,G,A,T,G,A,A,T,G,C,C,G,G,C,A,T,T,C,A,T,C,A,T]
analyzeORFs dna_seq3 ==>
[[],
[[Met, Ser, Met, Asn], [Met, Asn]],
[[Met]],
[[Met, Asp, Ile]],
[],
[]]
analyzeORFs dna_seq4 ==>
[[[Met, Met, Asn, Ala, Gly, Ile, His, His],
[Met, Asn, Ala, Gly, Ile, His, His]],
[[Met, Pro, Ala, Phe, Ile]],
[],
[[Met, Met, Asn, Ala, Gly, Ile, His, His],
[Met, Asn, Ala, Gly, Ile, His, His]],
[[Met, Pro, Ala, Phe, Ile]],
[]]
Daß bei dna_seq4 auf Strang und Gegenstrang die gleichen hypothetischen Proteine
gefunden werden, liegt am besonderen Aufbau dieser Beispielsequenz: Strang und reverser Gegenstrang (in umgekehrter Leserichtung) sind gleich.
2.5. Anforderungen an Programmiersprachen
23
2.5. Anforderungen an Programmiersprachen
Aus der Sprache der Mathematik haben wir den Umgang mit Formeln übernommen. Dabei zeigt sich gleich ein wichtiger Unterschied: Die „Sprache“ der Mathematik ist im wesentlichen fertig – die meisten Anwender kommen ein Leben lang mit den einmal erlernten Formeln und Begriffen – sagen wir einmal aus Arithmetik, Algebra und Analysis – aus.
Erweiterungen dieser Sprache, die Einführung neuer Begriffe und Notationen bleibt einer
kleinen Gemeinde von Forschern vorbehalten, die in dieser Hinsicht keinen Regeln unterliegen. In der Informatik ist das Gegenteil der Fall. Modellierung bedeutet Schaffung
neuer Formelwelten. Jeder Programmierer führt neue Objekte (Typen) und Beziehungen
zwischen ihnen (Funktionen) ein. Wenn ein Formalismus ständig erweitert wird und trotzdem allgemein verständlich und sogar durch den Computer ausführbar sein soll, dann muß
es einen festen Rahmen dafür geben, was man wie hinschreiben darf. Dies begründet die
besondere Rolle der Programmiersprachen in der Informatik. Ihre Syntax legt fest, wie
etwas aufgeschrieben wird. Ihre Semantik bestimmt, wie mit diesen Formeln zu rechnen
ist, sei es durch uns selbst, sei es durch den Computer. Eine präzise definierte Syntax und
Semantik ist die Mindestanforderung an eine Programmiersprache.
Anhand der vorangehenden Abschnitte können wir einige Beobachtungen dazu machen, was eine Programmiersprache darüber hinaus leisten muss.
• Ein strenges, aber flexibles Typkonzept hält die Formelwelt in Ordnung. Streng bedeutet, daß jeder Formel ein Typ zugeordnet wird und sich daher fast alle Programmierfehler bereits als Typfehler bemerkbar machen. Flexibel heißt andererseits, daß
uns das Typkonzept nicht zwingen darf, die gleiche Operation mehrfach zu programmieren, nur weil sich die Typen unwesentlich unterscheiden.
• Ein hierarchisch organisierter Namensraum erlaubt die Kontrolle über die Sichtbarkeit von Namen. Definitionen können ihrerseits lokale Bezeichnungen einführen, die
nach außen hin nicht sichtbar sind. Die Funktion triplets haben wir zweimal und
leicht unterschiedlich definiert, jeweils als lokale Definition innerhalb der Definitionen von ribosome und frames3. Ohne lokal beschränkte Sichtbarkeit könnte
man sich bei größeren Programmen vor Namenskonflikten nicht retten – man denke
allein an die vielfache Verwendung der Variablen „x“ . . . .
• Methoden zum Nachweis von Programmeigenschaften erlauben uns, die Übereinstimmung des Modells mit wesentlichen Aspekten der modellierten Wirklichkeit zu
verifizieren. Auch die Korrektheit einzelner Funktionen sollte man einfach nachweisen können, indem man algebraische Eigenschaften wie im Fall der exonuclease
benutzt.
24
2. Modellierung
• Ein hohes Abstraktionsniveau der Programmiersprache gewährleistet eine überschaubare Beziehung zwischen Modell und Wirklichkeit. Wir wollen Rechenregeln formulieren, die für uns nachvollziehbar sind. Schließlich müssen zuerst wir selbst unsere
Programme verstehen. Vom Computer nehmen wir einfach an, daß er damit klarkommt. (Dafür zu sorgen ist natürlich die Aufgabe des Übersetzers für die jeweilige
Programmiersprache.) Sprachen auf geringem Abstraktionsniveau verlangen doppelten Aufwand, weil die formale Beschreibung der Modellwelt und die Programmierung auseinanderfallen.
Wir haben Haskell als Programmiersprache gewählt, weil es derzeit die obigen Kriterien
am besten erfüllt. Wir werden im Laufe der Vorlesung noch weitere Anforderungen an
Programmiersprachen kennenlernen, und nicht alle sehen Haskell als Sieger.
3. Eine einfache Programmiersprache
Ziele des Kapitels: Im Kapitel Modellierung haben wir uns darauf konzentriert, wie man
Objekte und Zusammenhänge der Realität durch Formeln und ihr Verhalten rechnerisch
nachbildet. Wir haben uns darauf verlassen, daß jeder mit Formeln rechnen kann, auch
wenn diese etwas anders aussehen als aus der Mathematik gewohnt. In diesem Kapitel nehmen wir die umgekehrte Perspektive ein und betrachten näher, wie die Formeln
aussehen, mit denen wir rechnen (lassen) wollen. Mit anderen Worten: wir legen eine
Programmiersprache fest. Diese Sprache wollen wir möglichst einfach halten, da sie uns
nur als Vehikel dient, um über weitere Grundkonzepte der Informatik reden zu können.
Wir werden also nur einen Auschnitt aus der Sprache Haskell einführen.
Gliederung des Kapitels: Ein Haskell-Programm besteht aus einer Folge von Definitionen
und Deklarationen: Definiert werden Werte, meistens Funktionen, und neue Datentypen;
deklariert werden die Typen von Werten. Für Rechnungen spielen Deklarationen keine
Rolle; sie sind nur der „Ordnung halber“ da. Aber wie sagt man so schön: „Ordnung ist
das halbe Leben.“.
3.1. Datentypen
3.1.1. Datentypdefinitionen
Neue Typen und die dazugehörigen Werte werden mittels einer Datentypdefinition definiert. Sie führen Daten-Konstruktoren (kurz Konstruktoren) ein, die unsere Formelwelt
bereichern. Beispiele aus Abschnitt 2.1 sind Musik und Instrument, die wir hier noch
einmal wiederholen:
data Instrument =
|
|
|
Oboe
HonkyTonkPiano
Cello
VoiceAahs
data Musik
Note Ton Dauer
Pause Dauer
Musik :*: Musik
Musik :+: Musik
=
|
|
|
Grit Garbo: Mit anderen Worten: ganz schön ungewohnt.
26
3. Eine einfache Programmiersprache
| Instr Instrument Musik
| Tempo GanzeZahl Musik
Der Typ Instrument führt nur nullstellige Konstruktoren ein. Solche Typen nennt man
Aufzählungstypen. Der Typ Musik hat einen einstelligen Konstruktor (Pause) und fünf
zweistellige Konstruktoren (Note, (:*:), (:+:), Instr, Tempo). Diese Konstruktoren
nehmen wiederum Argumente eines bestimmten Typs, hier etwa Ton und Dauer für Note
und Instrument und Musik bei Instr.
Die Typen der Konstruktor-Argumente können auch Typparameter sein, wie wir das
schon beim Listentyp gesehen haben. Alle Typparameter werden als Argumente des Typnamens auf der linken Seite der Definition angegeben. Die Datentypdefinition selbst wird
mit dem Schlüsselwort1 data eingeleitet. Die allgemeine Form einer Datentypdefinition
hat somit die Gestalt
data T a1 . . . am
=
C1 t11 . . . t1n1
|
...
|
Cr tr1 . . . trnr
mit m > 0, r > 1 und ni > 0. Im Falle m > 0 bezeichnet man den neuen Typ T auch
als Typkonstruktor, weil er in Analogie zu den Daten-Konstruktoren Typen als Argumente
nimmt und daraus Typausdrücke bildet. Allerdings treten diese nur in Typangaben auf und
sind keine Formeln, mit denen gerechnet wird.
Programmierhinweis: Die Namen von Typen bzw. Typkonstruktoren und Konstruktoren müssen
großgeschrieben werden (genauer: der erste Buchstabe groß, alle folgenden beliebig). Die Namen
von Werten bzw. Funktionen, Parametern und Typparametern müssen hingegen klein geschrieben
werden (genauer: der erste Buchstabe klein, alle folgenden beliebig). Jeder Name darf nur einmal
verwendet werden. Ausnahme: Für einen Typ und einen Konstruktor bzw. für eine Variable und
einen Typparameter darf der gleiche Name benutzt werden, da sich Werte und Typen „nicht in die
Quere kommen“.
Wir sehen uns nun einige Datentypen von allgemeiner Nützlichkeit an. Wir geben jeweils die Typdefinition an, erläutern die Semantik des Typs, und gehen gegebenenfalls auf
spezielle Notationen ein.
Wahrheitswerte
data Bool = False | True
Übung 3.1 Definiere (&&), (||) und not.
-- vordefiniert
Die Konstruktoren False und True bezeichnen die Wahrheitswerte Falsch und Wahr.
Der Typ Bool ist ein Aufzählungstyp. Die Boole’schen Funktionen Konjunktion, Disjunktion und Negation werden in Haskell mit (&&), (||) und not notiert.
1 Ein
Schlüsselwort ist ein reservierter Name, der nicht für Funktionen etc. verwendet werden kann.
3.1. Datentypen
27
ifThenElse :: Bool -> a -> a -> a
ifThenElse True a a’ = a
ifThenElse False a a’ = a’
Für die Funktion ifThenElse gibt es als besondere Schreibweise die sogenannte MixfixNotation, bei der der Funktionsname zwischen die Argumente eingestreut wird, etwa wie
in if x >= 0 then x else -x.
Ganze Zahlen
Ganze Zahlen sind vordefiniert als die Typen Integer und Int. Während Integer ganze Zahlen beliebiger Größe enthält, sind die Zahlen im Typ Int auf einen bestimmten
Zahlenbereich begrenzt, der mindestens das Intervall [−229 , 229 − 1] umfaßt. Die Zahlen
vom Typ Int heißen auch Maschinenzahlen, während ihre Kolleginnen vom Typ Integer
mathematische Zahlen genannt werden. Auf letzteren kann mit beliebiger Genauigkeit gerechnet werden, wobei man die Genauigkeit mit einer kleinen Geschwindigkeitseinbuße
erkauft. Auf ganzen Zahlen sind die üblichen arithmetische Operationen vordefiniert:
(+), (-), (*), div, mod und (ˆ). Man beachte, daß es keine „echte Division“ auf den
ganzen Zahlen gibt: div bezeichnet die Division mit Rest. Es gilt der folgende Zusammenhang:
(a ‘div‘ b) * b + (a ‘mod‘ b)
==
a
Harry Hacker: Lieber schnell und falsch als langsam und genau.
(3.1)
für alle ganzen Zahlen a und b.
Tupeltypen
data Pair a b
= Pair a b
data Triple a b c = Triple a b c
Der Typkonstruktor Pair bildet Paare. Genauer: Pair a b umfaßt alle Paare, deren
erste Komponente vom Typ a und deren zweite vom Typ b ist. Entsprechend umfaßt
Triple a b c alle 3-Tupel. Für beide Typkonstruktoren gibt es äquivalente, vordefinierte Typkonstruktoren: statt Pair a b schreibt man (a, b), statt Triple a b c schreibt
man (a, b, c). Nicht nur Paare und Tripel sind vordefiniert, sondern beliebige n-Tupel.
Bei Typkonstruktoren, die nur einen Datenkonstruktor haben, ist es üblich, für beide den gleichen Namen zu verwenden: Pair 3 False ist ein Element vom Typ Pair
Integer Bool. Oder, in der Tupel-Notation: (3, False) ist ein Element vom Typ
(Integer, Bool). Die Konvention, für Werte und Typen die gleiche Notation zu verwenden, ist am Anfang oft verwirrend. Hat man sich aber erst einmal daran gewöhnt, ist
es sehr bequem, da man sich nur eine Notation merken muß.
Für Paare sind Selektorfunktionen für das erste bzw. zweite Element vordefiniert.
Übung 3.2 Definiere Selektorfunktionen first, second und
third für 3-Tupel.
28
Lisa Lista: Kann man Folgen nicht auch anders modellieren? Wie
wär’s mit:
data List a = Empty
| Single a
| App (List a) (List a)
Der Konstruktor Empty ist wie gehabt die leere Liste; Single a
meint eine einelementige Liste und App hängt zwei Listen aneinander.
Harry Hacker: Witzig. Ich hab schon mal weitergeblättert: in
Abschnitt 3.4 wird was ähnliches eingeführt. Die nennen das
aber anders: Tree statt List, Nil statt Empty, Leaf statt
Single und Br statt App.
Prof. Paneau: Liebe StudentInnen, nun wollen wir uns nicht an
Namen stören: allein die Struktur zählt. Lisa greift etwas vor;
aber sie hat Recht: beide Darstellungen sind denkbar. Und: beide haben ihre Vor- und Nachteile. Frau Lista, ich empfehle Ihnen, (++), head, tail und reverse auf Ihrer Variante des
Datentyps List zu definieren.
Lisa Lista: Hey, (++) ist simpel:
(++) :: List a -> List a -> List a
(++) = App
Oh je, head und tail sind komplizierter.
Übung 3.3 Hilf Lisa bei der Definition von head und tail.
3. Eine einfache Programmiersprache
fst :: (a,b) -> a
fst (a,b) = a
-- vordefiniert
snd :: (a,b) -> b
snd (a,b) = b
-- vordefiniert
Listen
data List a = Empty | Front a (List a)
Listen modellieren Folgen oder Sequenzen, also Sammlungen von Elementen, bei denen
die Reihenfolge der Elemente und die Häufigkeit eines Elements eine Rolle spielt. Dies unterscheidet sie von Mengen, die sowohl von der Reihenfolge als auch von der Häufigkeit
abstrahieren.
Der Typ List a umfaßt alle Listen über dem Grundtyp a: Empty ist die leere Liste,
Front a x ist die Liste, deren erstes Element a ist, und deren restliche Elemente mit den
Elementen von x übereinstimmen; a wird als Kopfelement und x als Restliste bezeichnet.
Der Typ List a ist rekursiv definiert, da List a auch als Argumenttyp der Konstructors Front auftritt. Rekursive Typen haben wir auch schon im Falle von Musik kennengelernt. Neu ist hier nur, daß im Falle eines Typkonstruktors auch auf der rechten Seite
der Typparameter angegeben werden muß.
Auch für List a gibt es einen äquivalenten, vordefinierten Typ, den wir bereits aus
Abschnitt 2.4 kennen: Statt List a schreibt man [a], Empty wird zu [] und Front e x
zu e:x. Um Listen mit n Elementen aufzuschreiben, gibt es eine abkürzende Schreibweise:
Statt e1 :(e2 :· · ·(en :[])· · ·) schreibt man kurz [e1 ,e2 ,...,en ].
Listen sind allgegenwärtig, und es gibt viele vordefinierte Funktionen. Der Operator
(++) hängt zwei Listen aneinander; head und tail greifen das Kopfelement bzw. die
Restliste heraus; reverse kehrt die Reihenfolge der Elemente um.
(++) :: [a] -> [a] -> [a]
[]
++ bs = bs
(a:as) ++ bs = a:(as++bs)
Lisa Lista: Die Definition von reverse ist elegant.
reverse’
reverse’
reverse’
reverse’
:: List a ->
Empty
=
(Single a) =
(App l r) =
List a
Empty
Single a
App (reverse’ r) (reverse’ l)
head :: [a] -> a
head (a:as) = a
tail :: [a] -> [a]
tail (a:as) = as
reverse :: [a] -> [a]
reverse []
= []
reverse (a:as)= reverse as ++ [a]
3.1. Datentypen
29
Der Typ Maybe
data Maybe a = Nothing | Just a
-- vordefiniert
Der Typ Maybe a enthält die Elemente von Typ a (in der Form Just a) und zusätzlich
das Element Nothing. Oft wird Maybe zur Fehlerindikation und Fehlerbehandlung eingesetzt: Nothing zeigt an, daß eine Operation nicht erfolgreich war; Just e zeigt an, daß
die Operation erfolgreich mit dem Resultat e abgeschlossen worden ist. Auch Maybe a
ist vordefiniert. Wie List a und Pair a b ist Maybe a ein parametrisierter Typ, ein
Typkonstruktor.
Als Beispiel nehmen wir an, wir wollen das kleinste Element einer Liste von Zahlen
bestimmen. Bei einer nicht-leeren Liste ist dies klar:
minimum1 :: [Integer] -> Integer
minimum1 [a]
= a
minimum1 (a:as) = min a (minimum1 as)
Lisa Lista: Diese Definition ist nicht geheuer. Schließlich kann
man [a] ebensogut als a:[] schreiben. Welche Gleichung gilt
dann? Die zweite Gleichung führt zu der verbotenen Anwendung minimum1 [].
Die Funktion minimum1 ist für leere Listen nicht definiert. Will man auch den Fall leerer
Listen handhaben, muß man die Funktion etwas allgemeiner definieren:
minimum0 :: [Integer] -> Maybe Integer
minimum0 []
= Nothing
minimum0 (a:as) = Just (minimum1 (a:as))
Wenn man so will, spielt Nothing hier die Rolle von +∞, dem neutralen Element von
min.
Zeichen und Zeichenketten
data Char
= ... | ’0’ | ’1’ ...
| ... | ’A’ | ’B’ ...
| ... | ’a’ | ’b’ ...
-- Pseudo-Haskell
type String = [Char]
Der Typ Char umfaßt die Zeichen des ASCII-Alphabets. Die Zeichen werden in Apostrophe gesetzt, um sie von den sonst im Programm verwendeten Bezeichnungen zu unterscheiden. Der Datentyp String beinhaltetet Zeichenketten, auch Texte genannt. Er ist
eine Spezialisierung des polymorphen Listentyps: Zeichenketten sind Listen mit Elementtyp Char. Er führt keine neuen Konstruktoren ein, sondern wird als Typsynonym definiert.
(Mehr zu Typsynonymen findet man in Abschnitt 3.1.2.) Da Zeichenketten häufig verwendet werden, gibt es eine bequeme Notation: statt der Liste [’M’,’a’,’r’,’v’,’i’,
’n’] schreibt man "Marvin", statt [] einfach "". Auf Zeichenketten sind natürlich alle
Lisa Lista: Hmm — dann muß [] den Typ [a] haben, aber ""
den Typ String.
30
3. Eine einfache Programmiersprache
Listenoperationen anwendbar, wie (++) oder reverse.
Programmierhinweis: Ein doppelter Anführungsstrich beendet eine Zeichenkette. Damit stellt sich
die Frage, wie man einen Anführungsstrich in einer Zeichenkette unterbringt: wie schreibt man
[’"’, ’a’, ’"’] kurz? Zu diesem Zweck gibt es sogenannte Ersatzdarstellungen, die mit einem
Backslash „\“ eingeleitet werden: "\"a\"". Den gleichen Trick verwendet man, um einen einfachen
Anführungsstrich als Zeichen zu schreiben: ’\’’. Da der Backslash nun seinerseits eine Sonderrolle einnimmt, muß auch er mit einer Ersatzdarstellung notiert werden: "\\". Der Haskell-Report
führt in §2.5 alle Ersatzdarstellungen auf. Die Funktion isSpace illustriert die Verwendung von
Ersatzdarstellungen; sie überprüft, ob ein Zeichen ein Leerzeichen ist.
isSpace :: Char -> Bool
isSpace c = c == ’ ’ || c == ’\t’ || c == ’\n’ ||
c == ’\r’ || c == ’\f’ || c == ’\v’
3.1.2. Typsynonyme
Typsynonyme bereichern die Formelwelt nicht. Manchmal macht es jedoch Sinn, einem
bestimmten Typ einen zweiten Namen zu geben. Oft ist dies nur bequem im Sinne einer Abkürzung. Manchmal will man andeuten, daß man die Objekte dieses Typs in einer
besonderen, eingeschränkten Weise verwendet. Verschiedene Typsynonyme haben wir
schon gesehen (Ton, Dauer, DNA, Protein, String). Ein weiteres Beispiel zeigt zugleich
Nutzen und Gefahr: Stellen wir uns vor, wir wollen in einem Programm Listen (Typ [a])
verwenden, die aber stets geordnet sein sollen. Wir können ein Typsynonym einführen,
das diese Absicht ausdrückt:
type OrdList a = [a]
merge :: OrdList a -> OrdList a -> OrdList a
Im Typ der Funktion merge können wir damit ausdrücken, daß diese Funktion zwei
geordnete Listen verknüpft und eine geordnete Liste als Ergebnis hat. Wir denken dabei
an ein Pedant der (++)-Funktion auf geordneten Listen. So weit so gut — unsere Absicht
haben wir damit ausgedrückt. Ob wir unser Ziel auch erreichen, liegt jedoch ausschließlich
daran, wie wir merge programmieren. Was die Typen betrifft, sind Ordlist a und [a]
gleich, so daß von daher niemand garantiert, daß das Ergebnis von merge tatsächlich
geordnet ist. In diesem Sinn können Typsynonyme auch einmal falsche Sicherheit stiften.
3.1.3. Typdeklarationen, Typprüfung und Typinferenz
Wenn wir neue Bezeichner einführen, werden wir stets ihre Typen deklarieren. Dies geschieht in der Form, die wir in Abschnitt 2.2 kennengelernt haben. Die Deklaration
x :: τ besagt, daß wir für den Bezeichner x den Typ τ vorsehen. Streng genommen
3.1. Datentypen
31
müssen die Typen nicht deklariert werden, da sie aus der Definition der Bezeichner abgeleitet werden können. Diesen Vorgang nennt man Typinferenz. Es ist nützlich dieses
Verfahren zumindest in groben Zügen zu kennen. Denn: viele Programmierfehler äußern
sich als Tippfehler; um dem Fehler auf die Schliche zu kommen, muß man die Fehlermeldung verstehen. Betrachten wir die Definition der vordefinierten Funktion map:
map f []
= []
map f (a:as) = f a : map f as
-- vordefiniert
Wir leiten in mehreren Schritten einen immer genaueren Typ für map ab. Dabei sind c,
d, e etc Typvariablen, die zunächst frei gewählt sind, dann aber durch Betrachtung der
Definition von map weiter spezifiziert werden.
Beobachtungen über map
map hat zwei Argumente.
Das Ergebnis ist eine Liste.
Das zweite Argument ist eine Liste.
Das erste Argument ist eine Funktion,
die Argumente vom Typ a erhält,
und Elemente der Ergebnisliste vom Typ b liefert.
Typ von map
c -> d -> e
c -> d -> [b]
c -> [a] -> [b]
(f -> g) -> [a] -> [b]
(a -> g) -> [a] -> [b]
(a -> b) -> [a] -> [b]
Die gewonnene Typaussage läßt sich etwas wortreich so formulieren: map ist eine Funktion, die auf beliebige Funktionen f und Listen as anwendbar ist, vorausgesetzt der Argumenttyp von f stimmt mit dem Elementtyp von as überein. Das Ergebnis ist dann eine
Liste von Elementen, die den Ergebnistyp von f haben. Zum Glück kann man dies auch
kürzer sagen, eben
map :: (a -> b) -> [a] -> [b]
Wir haben darauf geachtet, daß der Typ von map nicht unnötig eingeschränkt wird. Hätten
wir grundlos den gleichen Typ für Argument- und Ergebnisliste angenommen, etwa [a],
hätten wir insgesamt den spezifischeren Typ (a -> a) -> [a] -> [a] erhalten. Bei
der Typinferenz wird immer der allgemeinste Typ hergeleitet, um den Einsatzbereich einer
Funktion nicht unnötig zu verengen.
Der Typ von map ist polymorph, da er Typparameter enthält. Wird map auf konkrete
Argumente angewandt, spezialisiert sich der Typ in der Anwendung.
Harry Hacker: Muß ich mich wirklich mit diesem Typenwahn
herumschlagen? Korrekte Programme brauchen keine Typen. Jede Funktion angewandt auf’s richtige Argument — da kann ja
gar nichts schiefgehen.
Lisa Lista: Mag schon sein, Harry. Aber wie kommst Du zu den
korrekten Programmen?
32
3. Eine einfache Programmiersprache
Anwendung von map
map c’ [1/4, 1/8, 1/8, 1/4]
map (transponiere 5)
[cDurTonika, cDurSkala, bruderJakob]
map genCode cs
map (map translate) orfs
inneres Auftreten
äußeres Auftreten
Spezialisierung von
a
b
Dauer
Musik
Musik
Musik
Codon
AminoAcid
zwei Auftreten verschiedenen Typs!
Codon
Protein
[[Codon]] [Protein]
Der Haskell-Übersetzer führt stets die Typinferenz durch. Dies ist zugleich die Typ-Überprüfung: Stößt die Typinferenz auf einen Widerspruch, so daß sich kein Typ ableiten läßt,
liegt eine nicht wohl-getypte Formel, kurz ein Typfehler vor. Daneben kann es geschehen,
daß der abgeleitete Typ spezieller ist als der deklarierte Typ. Auch in diesem Fall erfolgt
eine Fehlermeldung des Übersetzers, die man vermeiden kann, wenn man die Typdeklaration löscht. Wesentlich klüger ist es allerdings in einem solchen Fall, noch einmal darüber
nachzudenken, welche Funktion man eigentlich programmieren wollte. Der umgekehrte
Fall ist erlaubt: der abgeleitete Typ ist allgemeiner als der deklarierte. In diesem Fall wird
die Anwendbarkeit der Funktion bewußt oder vielleicht unbewußt eingeschränkt.
3.1.4. Typklassen und Typkontexte
Typklassen und Typkontexte werden hier nur kurz besprochen, insoweit es für die nächsten Kapitel erforderlich ist. Wir werden sie im Kapitel über Typabstraktion genauer kennen lernen.
Typklassen fassen Typen zusammen, die gewisse Operationen gemeinsam haben. Hier
soll nur gesagt werden, daß es u. a. vordefinierte Typklassen Eq, Ord, Num, Integral
und Show gibt. Die Typklasse
Harry Hacker: Also enthält Eq alle Typen. Warum dieser Aufwand?
Lisa Lista: Hmm — wie steht’s mit Funktionen? Kann man
f == g für zwei Funktionen überhaupt implementieren? Und
was ist mit Typen, die Funktionen enthalten?
• Eq enthält alle Typen, deren Elemente man auf Gleichheit testen kann, und definiert
die folgenden Funktionen:
(==) :: (Eq a) => a -> a -> Bool
(/=) :: (Eq a) => a -> a -> Bool
• Ord enthält alle Typen, deren Elemente man bezüglich einer Ordnungsrelation vergleichen kann, und definiert u.a. die folgenden Funktionen:
(<), (<=), (>=), (>) :: (Ord a) => a -> a -> Bool
max, min
:: (Ord a) => a -> a -> a
3.1. Datentypen
33
• Num enthält alle numerischen Typen und definiert die grundlegenden arithmetischen
Operationen.
(+), (-), (*) :: (Num a) => a -> a -> a
negate
:: (Num a) => a -> a
Die Funktion negate entspricht dem unären Minus.
• Integral enthält die ganzzahligen Typen Int und Integer und definiert u.a. die
folgenden Funktionen:
div, mod :: (Integral a) => a -> a -> a
even, odd :: (Integral a) => a -> Bool
• Show enthält alle Typen, die eine externe Darstellung als Zeichenketten haben. Die
Funktion show liefert diese Darstellung.
show :: (Show a) => a -> String
Für alle vordefinierten Typen ist natürlich bereits festgelegt, welchen Typklassen sie angehören. Bei neu deklarierten Typen kann man dies für die Klassen Eq, Ord und Show
erreichen, indem der Typdefinition die Klausel deriving (Eq, Ord, Show) hinzugefügt wird. Dies bewirkt, daß automatisch die oben genannten Operationen auch auf dem
neuen Datentyp definiert sind.
Typkontexte schränken den Polymorphismus von Funktionen ein: Die Schreibweise
(K a) => ... besagt, daß der Typparameter a auf Typen eingeschränkt ist, die der Klasse K angehören. So haben wir zum Beispiel in der Definition der Funktion minimum1 vorausgesetzt, daß die Listenelemente mittels min verglichen werden können. Da min den
Typ (Ord a) => a -> a - > a hat, müssen die verglichenen Listenelemente der Typklasse Ord angehören. Dies ist der Fall: der Typ Integer gehört der Typklasse Ord an.
Wollen wir eine polymorphe minimum-Funktion definieren, so geschieht dies analog zu
minimum1 unter Benutzung eines Typkontextes (Ord a) =>.
minimum :: (Ord a) => [a] -> a
minimum [a]
= a
minimum (a:as) = min a (minimum as)
-- vordefiniert
Hier erkennt man die enorme praktische Bedeutung der Typklassen: Die obige Definition definiert minimum auf allen Listen geeigneten Typs. Speziellere Versionen wie unser
minimum1 sind überflüssig.
34
3. Eine einfache Programmiersprache
3.2. Wertdefinitionen
3.2.1. Muster- und Funktionsbindungen
Musterbindungen
Mit Hilfe einer oder mehrerer Gleichungen definieren wir einen oder mehrere Bezeichner.
Im einfachsten Fall hat die Gleichung die Form x = e, wobei x der definierte Bezeichner
ist und e der definierende Ausdruck. Gleichungen dieser Form heißen auch Variablenbindungen, da die Variable an den Wert der rechten Seite gebunden wird.
theFinalAnswer :: Integer
theFinalAnswer = 42
aShortList :: [Integer]
aShortList = [1,2,3]
helloWorld :: String
helloWorld = "Hello World"
Das Gleichheitszeichen drückt aus, daß die linke Seite und die rechte Seite per definitionem gleich sind; somit können wir theFinalAnswer stets durch 42 ersetzen und
umgekehrt, ohne dabei die Bedeutung des Programms zu verändern. Weiterhin tut es
einer Definition keinen Abbruch, wenn der Ausdruck auf der rechten Seite erst noch auszurechnen ist:
theFinalAnswer’ :: Integer
theFinalAnswer’ = 6*7
aShortList’
aShortList’
helloWorld’
helloWorld’
Lisa Lista: Hmm — monotonie ist doch identisch mit dem
Funktionsaufruf adInfinitum (c’ (1/1)). Aber auch die
rekursive Definition von adInfinitum ist ungewöhnlich.
:: [Integer]
= reverse ([3]++[2,1])
:: String
= "Hello" ++ " " ++ "World"
Diese Bezeichner haben den gleichen Wert wie die zuvor definierten. Interessantere
Beispiele für Variablenbindungen sind cDurSkala und bruderJakob aus Kapitel 2.
Bezeichner können auch rekursiv definiert sein. Von Funktionen sind wir das mittlerweile gewohnt; neu und überraschend ist vielleicht, daß Elemente beliebiger Datentypen
rekursiv definiert sein können.
monotonie :: Musik
monotonie = c’ (1/1) :*: monotonie
3.2. Wertdefinitionen
35
Was ist an dieser Definition ungewöhnlich? Genau — das zu definierende Objekt wird
durch sich selbst erklärt. Daß eine solche Definition nicht sinnlos ist, kann man sich auf
zwei Arten klarmachen. Beginnt man einfach, das Musikstück monotonie mit Hilfe seiner Definition auszurechnen, sieht man schnell, daß das (potentiell) unendliche Stück
c’ (1/1) :*: c’ (1/1) :*: · · · entsteht. Fragt man sich, ob es ein Musikstück gibt,
das die Definitionsgleichung von monotonie erfüllt, kommt man (nach einigen Fehlversuchen mit endlichen Stücken) ebenfalls auf die Antwort c’ (1/1) :*: c’ (1/1) :*:
· · ·. Unendliche Objekte in der Art von monotonie sind kein Problem in Haskell, man
darf sie nur nie ganz ausrechnen (lassen).
Auf der linken Seite einer Gleichung darf auch ein sogenanntes Muster stehen. In diesem Fall spricht man von einer Musterbindung; diese sind von der Form p = e, wobei p ein
Muster und e ein Ausdruck ist. Ein Muster ist eine Formel, die ausschließlich aus Variablen
und Konstruktoren aufgebaut ist: (a, b), a : a’ : as oder m1 :*: m2 sind Beispiele für Muster. In einem Muster darf keine Variable mehrfach enthalten sein: (a, a) ist
kein gültiges Muster. Musterbindungen treten in erster Linie im Zusammenhang mit lokalen Definitionen auf, die wir in Abschnitt 3.2.3 kennenlernen werden. Aus diesem Grund
verzichten wir hier auf die Angabe von Beispielen.
Funktionsbindungen
Datentypen erlauben uns, Formeln zu bilden, Funktionen erlauben uns, mit ihnen zu rechnen. Eine Funktion wird durch eine oder mehrere Gleichungen definiert. Generell gilt, daß
diese Gleichungen unmittelbar aufeinander folgen müssen, und nicht etwa im Programm
verteilt stehen dürfen.
Mehrfache Gleichungen dienen einer Fallunterscheidung über die Argumente. Im einfachsten und häufigsten Fall wird diese Unterscheidung anhand der Konstruktoren getroffen, aus denen die Argumente aufgebaut sind. Entsprechend dem Typ der Argumente gibt
es im einfachsten Fall genau eine Gleichung pro Konstruktor. Fast alle bisherigen Definitionen haben wir so geschrieben. Hier ein weiteres Beispiel:
length :: [a] -> Int
length []
= 0
length (a:as) = 1 + length as
-- vordefiniert
Der Typ [a] hat die zwei Konstruktoren [] und (:), die gerade die beiden relevanten
Fälle unterscheiden helfen. Analog in der Definition von transponiere in Kapitel 2: Der
Typ Musik hat sechs Konstruktoren, entsprechend werden sechs Gleichungen geschrieben.
36
3. Eine einfache Programmiersprache
Der allgemeine Fall ist etwas flexibler: Die Definition einer n-stelligen Funktion f durch
Mustergleichungen geschieht durch k > 1 Gleichungen der Form
f p11 . . . p1n
=
e1
...
=
...
f pk1 . . . pkn
=
ek
Dabei sind die pij Muster und die ei Ausdrücke. Es gilt die Einschränkung, daß die Muster einer Gleichung keine Variable mehrfach enthalten dürfen. Die Ausdrücke e i dürfen
jeweils die Variablen aus den Mustern pi1 , . . . , pin enthalten. Da Muster beliebig kompliziert aufgebaut sein können, kann es mehr Gleichungen als Konstruktoren geben.
3.2.2. Bewachte Gleichungen
Nicht immer lassen sich die relevanten Fälle allein anhand von Mustern unterscheiden.
Fallunterscheidungen können aus diesem Grund auch mit Hilfe von sogenannten Wächtern erfolgen. Die Funktion dropSpaces entfernt führende Leerzeichen aus einer Zeichenkette.
dropSpaces :: String -> String
dropSpaces []
= []
dropSpaces (c:cs)
| isSpace c
= dropSpaces cs
| otherwise
= c : dropSpaces cs
Der Boole’sche Ausdruck nach dem senkrechten Strich heißt Wächter, da er über die
Anwendung der jeweiligen Gleichung wacht. Der Ausdruck otherwise ist ein Synonym
für True und tritt — wenn überhaupt — als letzter Wächter auf. Damit ist schon gesagt,
daß die Anzahl der Wächter nicht auf zwei beschränkt ist.
Die Funktion squeeze komprimiert Wortzwischenräume auf ein einzelnes Leerzeichen.
squeeze :: String -> String
squeeze []
= []
squeeze (c:c’:cs)
| isSpace c && isSpace c’ = squeeze (c’:cs)
squeeze (c:cs)
= c : squeeze cs
Übung 3.4 Definiere member ohne Wächter unter Verwendung
der Boole’schen Funktionen (&&) und (||).
Die zweite Gleichung behandelt den Fall, daß die Zeichenkette mindestens zwei Elemente umfaßt und beide Zeichen als Leerzeichen qualifizieren. Ist dies gegeben, so wird
ein Leerzeichen entfernt.
Drei Wächter kommen bei der Definition von member zum Einsatz: member a bs
überprüft, ob das Element a in der aufsteigend geordneten Liste bs enthalten ist.
3.2. Wertdefinitionen
member :: (Ord a)
member a []
=
member a (b:bs)
| a < b
=
| a == b
=
| a > b
=
37
=> a -> OrdList a -> Bool
False
False
True
member a bs
Ist das gesuchte Element a kleiner als der Listenkopf, kann die Suche unmittelbar abgebrochen werden.
3.2.3. Gleichungen mit lokalen Definitionen
Rechnen ist selten eine geradlinige Angelegenheit: Man führt Hilfsrechnungen durch,
stellt Zwischenresultate auf, verwendet diese in weiteren Zwischenrechnungen usw. Es
ist nur natürlich, dieses Vorgehen auch in unserer Programmiersprache zu ermöglichen.
Der Zutaten bedarf es nicht vieler: Eine oder mehrere Formeln, die zwischengerechnet
werden, einen oder mehrere Namen für die Ergebnisse der Rechnungen und eine Formel,
in der die Namen verwendet werden.
Das folgende Programm, das die n-te Potenz einer ganzen Zahl x berechnet, illustriert
die Verwendung einer lokalen Definition.
power :: (Num a, Integral b) => a -> b -> a
power x n
| n == 0
= 1
| n ‘mod‘ 2 == 0 = y
| otherwise
= y*x
where y = power (x*x) (n ‘div‘ 2)
Nach dem Schlüsselwort where werden die Hilfsdefinitionen angegeben (hier ist es
nur eine). Mit Ausnahme von Typdefinitionen können alle Arten von Definitionen und
Deklarationen, die wir bisher kennengelernt haben, auch lokal erfolgen. Die Funktion
splitWord, die ein Wort von einer Zeichenkette abtrennt, illustriert die Verwendung
von lokalen Musterbindungen.
splitWord :: String -> (String, String)
splitWord []
= ([],[])
splitWord (c:cs)
| isSpace c = ([], c:cs)
| otherwise = (c:w, cs’)
where (w, cs’) = splitWord cs
Harry Hacker: Warum ist die Definition so kompliziert? Wie
wär’s mit
pow :: (Num a) => a -> Integer -> a
pow x n
| n == 0
= 1
| otherwise = x * pow x (n-1)
Lisa Lista: Hmm — rechne mal pow 2 1024 aus.
Harry Hacker: Ja, ja, Du hast wieder mal recht. Aber daß die
Definition von power korrekt ist, sehe ich noch nicht.
Grit Garbo: Typisch, die Informatiker kennen die einfachsten
Dinge nicht. Hier handelt es sich um eine triviale Anwendung
der Potenzgesetze:
xn = x2(n div 2)+n mod 2 = (x2 )n div 2 xn mod 2
38
3. Eine einfache Programmiersprache
Auf der linken Seite der lokalen Definition steht ein Muster, woran das Ergebnis der
rechten Seite gebunden wird. Auf diese Weise werden mehrere Variablen gleichzeitig definiert. Musterbindungen treten typischerweise bei der Definition rekursiver Funktionen
auf, die Paare oder n-Tupel zum Ergebnis haben.
Gültigkeits- oder Sichtbarkeitsbereiche
Die where-Klausel führt neue Namen ein, genau wie andere definierende Gleichungen.
Diese neuen Namen haben einen lokalen Bereich, in dem sie benutzt werden können.
Diesen Bereich nennt man Gültigkeits- oder Sichtbarkeitsbereich. Er erstreckt sich auf die
rechte Seite der Gleichung, mit der die where-Klausel assoziiert ist, und auf die rechten
Seiten aller Gleichungen innerhalb der where-Klausel, einschließlich darin verschachtelter
where-Klauseln. Führt eine lokale Definition einen neuen Namen ein, der im umgebenden Kontext bereits definiert ist, so gilt innerhalb des lokalen Sichtbarkeitsbereichs die
lokale Definition. Man sagt, die globale Definition wird verschattet. Schauen wir uns ein
(Negativ-) Beispiel an:
f :: Int -> Int
f x = f (x+x)
where x
= 1
f x = x
Harry Hacker: Wer so programmiert, ist selber schuld!
-- Negativ-Beispiel
Der Bezeichner f wird zweimal definiert, die Variable x wird gar an drei Stellen eingeführt: zweimal als Parameter und einmal in der lokalen Definition x = 1. Die inneren
Definitionen verschatten die äußeren, so daß f zu f1 mit
f1 :: Int -> Int
f1 x1 = f2 (x2+x2)
where x2
= 1
f2 x3 = x3
äquivalent ist. Man sieht, daß die Definition der Funktion f insbesondere nicht rekursiv
ist, da die lokale Definition bereits für den Ausdruck f (x + x) sichtbar ist und das
global definierte f verschattet. Da Programme in der Art von f schwer zu lesen und
zu verstehen sind, empfehlen wir, in lokalen Definitionen grundsätzlich andere („neue“)
Bezeichner zu verwenden.
Abseitsregel
Eine Frage ist noch offen: Es ist klar, daß der lokale Sichtbarkeitsbereich der where-Klausel
nach dem Schlüsselwort where beginnt. Aber wo endet er eigentlich? Woher wissen wir,
3.2. Wertdefinitionen
39
daß die Gleichung f x = x Bestandteil der where-Klausel ist, und nicht etwa eine zweite
(wenn auch überflüssige) Gleichung für das global definierte f darstellt?
Antwort: der Übersetzer erkennt das Ende der where-Klausel am Layout des Programmtextes. Wir haben die lokale Definition entsprechend dem Grad ihrer Schachtelung
eingerückt. Diese Formatierung erleichtert es, ein Programm zu lesen und zu verstehen.
Der Übersetzer macht sich diese Konvention zunutze, um das Ende einer lokalen Definition zu erkennen. Es gilt die folgende sogenannte Abseitsregel:
• Das erste Zeichen der Definition unmittelbar nach dem where bestimmt die Einrücktiefe des neu eröffneten Definitionsblocks.
Lisa Lista: Die Folgen dieser anderen Interpretation kommen
mir etwas unheimlich vor!
Harry Hacker: Ist das noch zu fassen — die Bedeutung des
Programms ist vom Layout abhängig! Das ist ja wie in alten
FORTRAN-Tagen! Noch dazu jede Definition auf einer neuen
Zeile. Da werden die Programme viel länger als nötig.
• Zeilen, die weiter als bis zu dieser Position eingerückt sind, gelten als Fortsetzungen
einer begonnenen lokalen Definition.
• Zeilen auf gleicher Einrücktiefe beginnen eine neue Definition im lokalen Block.
• Die erste geringer eingerückte Zeile beendet den lokalen Block.
Die Abseitsregel erlaubt die Einsparung von Abgrenzungssymbolen wie begin, end oder
geschweiften Klammern und Semikola, die man in anderen Programmiersprachen verwenden muß. Außerdem trägt sie dazu bei, daß Programme verschiedener Autoren in
einem relativ einheitlichen Stil erscheinen. Trotz dieser Vorzüge ist die Verwendung der
Abseitsregel optional — es gibt sie doch, die formatfreie Schreibweise: Eingeschlossen in
geschweifte Klammern und getrennt durch Semikolons (also in der Form {d 1 ; ...; dn })
können die Definitionen eines Blocks beliebig auf eine Seite drapiert werden. Ein Fall, wo
dies sinnvoll ist, ist eine lange Reihe sehr kurzer Definitionen.
Die allgemeine Form von Gleichungen
Jetzt haben wir alle Konstrukte kennengelernt, um die allgemeine Form einer Funktionsbindung einzuführen: Eine n-stellige Funktion f mit n > 1 kann durch k Gleichungen
definiert werden:
f
p11 . . . p1n m1
...
f
pk1 . . . pkn mk
Die pij sind beliebige Muster und die mi nehmen wahlweise eine der beiden folgenden
Formen an:
= e where { d1 ; . . . ;dp }
Harry Hacker: Na also, sagt es doch gleich!
40
3. Eine einfache Programmiersprache
oder
| g1 = e1
...
| gq = eq
where { d1 ; . . . ;dp }
Der where-Teil kann jeweils auch entfallen. Bezüglich der Sichtbarkeit der Bezeichner gilt
folgendes: Die in den di eingeführten Bezeichner sind in dem gesamten Block sichtbar,
d.h. in den Wächtern gi , in den rechten Seiten ei und in den Definitionen di selbst. Den
gleichen Sichtbartkeisbereich haben auch die Variablen, die in den Mustern auf der linken
Seite eingeführt werden: die in pi1 , . . . , pin enthaltenen Variablen sind in mi sichtbar
(nicht aber in den anderen Gleichungen).
Musterbindungen haben die allgemeine Form p m, wobei p ein Muster ist und m wie im
Fall von Funktionsbindungen aussieht. Im Unterschied zu Funktionsbindungen definiert
eine Musterbindung unter Umständen gleichzeitig mehrere Bezeichner.
3.2.4. Das Rechnen mit Gleichungen
Kommen wir zum Rechnen. Einen Teil seiner Schulzeit verbringt man damit, Rechnen zu
lernen: Ist zum Beispiel die Funktion q gegeben durch
q :: (Num a) => a -> a
q x = 3*xˆ2 + 1
dann wird man den Ausdruck q 2 - 10 unter Zuhilfenahme der Rechenregeln für die
Grundrechenarten ohne große Schwierigkeiten zu 3 ausrechnen:
q 2 - 10
⇒
(3 * 2ˆ2 + 1) - 10
(Definition von q)
⇒
(3 * 4 + 1) - 10
(Definition von (ˆ))
⇒
(12 + 1) - 10
(Definition von (*))
⇒
13 - 10
(Definition von (+))
⇒
3
(Definition von (-))
Das Rechnen in oder mit Haskell funktioniert nach dem gleichen Prinzip: Ein Ausdruck
wird relativ zu einer Menge von Definitionen zu einem Wert ausgerechnet. Die Notation
e ⇒ v verwenden wir, um dies zu formalisieren. Beachte: das Zeichen „⇒“ ist kein Bestandteil der Programmiersprache, sondern dient dazu, über die Programmiersprache zu
reden.
Wir unterscheiden zwei Formen des Rechnens: Da ist einmal das Ausrechnen eines
Ausdrucks, seine Auswertung. Dabei werden die Gleichungen stets von links nach rechts
3.2. Wertdefinitionen
41
angewandt: Tritt irgendwo in dem Ausdruck eine linke Seite einer Gleichung auf, so kann
sie durch die rechte Seite ersetzt werden (wobei die Variablen aus den Mustern der linken Seite an Unterausdrücke gebunden werden, die in die rechte Seite einzusetzen sind).
Dabei ist zu beachten: Wird ein Bezeichner durch mehrere Gleichungen definiert, so muß
die erste (im Sinne der Aufschreibung) passende Gleichung verwendet werden. Die Gleichung f p1 . . . pn | g = e paßt auf eine Anwendung f a1 . . . an , wenn die Argumente a1 ,
. . . , an aus den Konstruktoren aufgebaut sind, die durch die Muster p1 , . . . pn vorgegeben
sind und der Wächter g zu True auswertet. Die Rechnung endet, wenn keine Gleichung
anwendbar ist. Man sagt dann, der Ausdruck ist in Normalform. Ein berühmter Satz von
Church und Rosser besagt, daß die Normalform, wenn sie existiert, eindeutig ist. Wir können also den Wert eines Ausdrucks mit seiner Normalform identifizieren. Hat ein Ausdruck
keine Normalform — d. h. die Rechnung endet nie — so ist sein Wert undefiniert. Auswertung eines Ausdrucks auf Normalform — das ist Rechnen lassen in einer funktionalen
Programmiersprache.
Die zweite Form des Rechnens tritt auf, wenn wir selbst nicht nur Werte ausrechnen,
sondern über Programme nachdenken. Uns steht es dabei frei, Mustergleichungen auch
von rechts nach links anzuwenden, oder mit Gleichungen zu rechnen, die allgemeine
Programmeigenschaften beschrieben und keine Mustergleichungen sind. Mehr dazu im
Kapitel 4.
3.2.5. Vollständige und disjunkte Muster
Im Allgemeinen achtet man darauf, daß die Mustergleichungen vollständig und disjunkt sind. Vollständig heißt, daß die Funktion für alle möglichen Fälle definiert ist. Disjunkt heißt, daß die Muster so gewählt sind, dß für jeden konkreten Satz von Argumenten nur eine Gleichung paßt. Die
Definition von unique, das aufeinanderfolgende Duplikate aus einer Liste entfernt, erfüllt diese
Forderungen.
unique []
= []
unique [a]
= [a]
unique (a:(b:z)) = if a == b then unique (b:z)
else a : unique (b:z)
Hier unterscheiden die Muster den Fall der null-, ein- oder mehrelementigen Liste.
Wir betrachten nun Situationen, in der die Forderungen Vollständigkeit und Disjunktheit nicht
erfüllt werden können:
Nehmen wir die Funktion head mit head [a1 ,...,an ] = a1 . Ist die Liste leer, ist das Funktionsergebnis nicht definiert. Was bedeutet dies für das Rechnen? Nun, ist man gezwungen head []
auszurechnen, so bleibt einem nicht anderes übrig als abzubrechen und aufzugeben. Das Beste,
was man als Programmiererin machen kann, ist den Abbruch der Rechnung mit einer Meldung zu
garnieren, die die Ursachen des Abbruchs beschreibt. Diesem Zweck dient die Funktion error.
42
3. Eine einfache Programmiersprache
head :: [a] -> a
-- vordefiniert
head []
= error "head of empty list"
head (a:x) = a
Diese Definition von head ist also eine Verbesserung der früher gegebenen, die nun einen vollständigen Satz von Mustergleichungen aufweist. Ähnlich kann man im Falle der Funktion tail
vorgehen.
Zur Übung: Definiere tail mit tail [a1 ,...,an ] = [a2 ,...,an ].
Sowohl head als auch tail bleiben auch in dieser Form partielle Funktionen, weil die Funktion
error ja kein Ergebnis liefert, sondern die Rechnung abbricht. Alternativ zur Benutzung von error
können wir beide Funktionen auch zu totalen Funktionen machen: Der Ergebnistyp wird um ein Element erweitert, das gerade „undefiniert“ repräsentiert. Diesem Zweck dient ja der Typkonstruktor
Maybe.
head’ :: [Integer] -> Maybe Integer
head’ []
= Nothing
head’ (a:x) = Just a
Zur Übung: Definiere ein Pendant zu tail.
Welche der beiden Varianten man verwendet, hängt stark vom Anwendungsfall ab. In der Regel
wird es die erste sein, da diese bequemer ist: Z.B. sind head x:tail x oder tail (tail x)
wohlgetypte Ausdrücke, head’ x:tail’ x oder tail’ (tail’ x) hingegen nicht. Aber man
muß als Programmiererin darauf achten, daß head und tail stets richtig aufgerufen werden. Die
zweiten Varianten ermöglichen, nein sie erzwingen es sogar, daß ein möglicher Fehler behandelt
wird.
Die Disjunktheit der Mustergleichungen ist verletzt, wenn es Argumente gibt, für die mehrere
Gleichungen passen. Ein Beispiel dafür ist die Definition von words:
words :: String -> [String]
words xs = wds [] xs
ws :: String ->
wds "" ""
wds ws ""
wds "" (’ ’:xs)
wds "" ( x :xs)
wds ws (’ ’:xs)
wds ws ( x :xs)
String -> [String]
= []
= [reverse ws]
= wds "" xs
= wds [x] xs
= (reverse ws) : wds "" xs
= wds (x:ws) xs
Die dritte Gleichung für wds paßt auch dann, wenn die zweite paßt: Schließlich kann x ja ein
beliebiges Zeichen, also auch ’ ’ sein. Ebenso paßt die fünfte Gleichung auch dann, wenn die
vierte paßt. Klar: um diese Situation zu vermeiden, müßte man statt Gleichung 3 je eine Gleichung
für alle ASCII-Zeichen außer dem Leerzeichen anführen.
Im Falle nicht disjunkter Mustergleichungen gilt die Regel: Es ist stets die erste (im Sinne der
Aufschreibung) passende Gleichung anzuwenden.
3.3. Ausdrücke
43
3.3. Ausdrücke
Wenn wir rechnen, manipulieren wir Ausdrücke. Von daher ist es höchste Zeit, daß wir uns
den Aufbau von Ausdrücken genauer anschauen. Neben der Vertiefung bereits bekannter
Konstrukte werden wir drei neue Arten von Ausdrücken kennenlernen. Diese zählen zu
den grundlegenden Sprachkonstrukten von Haskell – grundlegend in dem Sinn, daß sie
zwar weiter von der gewohnten mathematischen Notation entfernt, dafür aber allgemeiner sind und sich viele bisher besprochenen Konstrukte als vereinfachte Schreibweise aus
ihnen ableiten lassen. Die grundlegenden Konstrukte werden wir insbesondere verwenden, um in Abschnitt 3.5 das Rechnen in Haskell formal zu definieren.
3.3.1. Variablen, Funktionsanwendungen und Konstruktoren
Im einfachsten Fall besteht ein Ausdruck aus einem Bezeichner. Damit ein solcher Ausdruck Sinn macht, muß der Bezeichner irgendwo eingeführt worden sein, entweder in
einer Definition oder als Parameter einer Funktion. Egal hingegen ist, ob der Bezeichner
eine Funktion bezeichnet, eine Liste oder ein Musikstück.
Die Anwendung einer Funktion f auf Argumente e1 , . . . , en notieren wir einfach, indem wir die Funktion und die Argumente hintereinanderschreiben: f e 1 . . . en . Sowohl f
als auch die ei können wiederum beliebige Ausdrücke sein, vorausgesetzt die Typen der
Ausdrücke ei passen zu den Typen der Funktionsparameter: Damit f e1 . . . en wohlgetypt ist, muß f den Typ σ1 -> · · · ->σn ->τ und ei den Typ σi haben. In diesem Fall besitzt
f e1 . . . en den Typ τ . Sind die Argumente wiederum Funktionsanwendungen, müssen diese in Klammern gesetzt werden wie z.B. in min a (minimum as). Lassen wir die Klammern fälschlicherweise weg, versorgen wir min ungewollt mit drei Argumenten, wobei
das zweite Argument eine Funktion ist.
Die Elemente eines Datentyps werden durch Konstruktoren aufgebaut. Die Anwendung
eines Konstruktors auf Argumente wird genauso notiert wie die Anwendung einer Funktion. Konstruktoren unterscheiden sich von Funktionen nur dadurch, daß sie in Mustern
vorkommen dürfen.
Infix-Notation
Als Infix-Operatoren bezeichnet man (zweistellige) Funktionen, die zwischen ihre Argumente geschrieben werden. Um Klammern zu sparen, werden Operatoren Prioritäten
oder Bindungsstärken zugeordnet: die Multiplikation (+) bindet z.B. stärker als die Addition (+); somit entspricht a + b * c dem Ausdruck a + (b * c). Außerdem legt
man fest, ob Operatoren links, rechts oder gar nicht assoziativ sind: Die Subtraktion
Grit Garbo: Das ist doch wahrlich nicht aufregend: Punkt- vor
Strichrechnung kennt man doch schon aus dem Kindergarten.
44
Lisa Lista: Witzig: Wenn (-) rechts assoziierte, dann wären
a - b - c und a - b + c gleichbedeutend.
Bindungsstärke
9
8
7
6
5
4
4
3
2
1
0
linksassoziativ
!!
nicht
assoziativ
rechtsassoziativ
.
ˆ, ˆˆ, **
\\
==, /=, <,
<=, >, >=,
‘elem‘,
‘notElem‘
:, ++
*, /,
‘div‘, ‘mod‘,
‘rem‘, ‘quot‘
+, -
&&
||
>>, >>=
$, ‘seq‘
Tabelle 3.1: Bindungsstärken der vordefinierten Operatoren
Grit Garbo: Das ist mir völlig unverständlich! Warum sind (+)
und (*) linksassoziativ, (++) aber rechtsassoziativ? Alle diese
Operatoren sind doch assoziativ.
Übung 3.5 Versuche Grit zu helfen.
3. Eine einfache Programmiersprache
(-) zum Beispiel assoziiert links, d.h., die Klammern in a - b - c sind so einzufügen: (a - b) - c. Die Regeln für in Haskell vordefinierte Operatoren findet man in
Tabelle 3.1.
Führen wir selbst neue Infix-Operatoren ein, so müssen ihre Bindungsstärken und assoziativen Eigenschaften deklariert werden. Wie dies geht, haben wir schon bei (:+:) und
(:*:) (in Kapitel 2) gesehen. Dies muß am Programmanfang geschehen, weil sonst der
Übersetzer solche Formeln gar nicht erst richtig lesen kann.
Die meisten Funktionen scheibt man in Präfix-Schreibweise, also vor ihre Argumente.
Dabei bindet eine Präfix-Funktion immer stärker als Infix-Operatoren. Daher ist f x + 1
gleichbedeutend mit (f x) + 1, und nicht etwa mit f (x + 1). Meint man das Letztere, muß man eben die Klammern explizit schreiben. Diese Regel erklärt auch die Notwendigkeit der Klammern in Ausdrücken wie Note ce (1/4). Hat man erst einmal etwas
Haskell-Erfahrung gesammelt, wird man sehen, daß diese Regeln sehr komfortabel sind.
Programmierhinweis: Wir verwenden zwei verschiedene Arten von Bezeichnern: alphanumerische
Bezeichner wie z.B. Note oder transponiere und symbolische wie z.B. „:“ oder „+“. In Haskell
werden symbolische Bezeichner stets infix und alphanumerische stets präfix notiert. Von dieser Festlegung kann man abweichen, indem man symbolische Bezeichner in runde Klammern einschließt
bzw. alphanumerische in Backquotes: a + b wird so zu (+) a b und div a b zu a ‘div‘ b.
Symbolische Bezeichner können auch für Konstruktoren verwendet werden; einzige Bedingung: der
Name muß mit einem Doppelpunkt beginnen.
3.3.2. Fallunterscheidungen
Elemente eines Datentyps werden mit Hilfe von Konstruktoren konstruiert; sogenannte
case-Ausdrücke erlauben es, Elemente eines Datentyps zu analysieren und entsprechend
ihres Aufbaus zu zerlegen. Konstruktor-basierte Fallunterscheidungen kennen wir schon
von Funktionsbindungen; case-Asudrücke stellen Fallunterscheidungen in Reinform dar
— sie ermöglichen eine Analyse, ohne daß eine Funktionsdefinition vorgenommen werden muß. Hier ist die Definition von length unter Verwendung eines case-Ausdrucks:
length’ :: [a] -> Int
-- vordefiniert
length’ as = case as of
[]
-> 0
a:as’ -> 1 + length’ as’
Nach dem Schlüsselwort case wird der Ausdruck aufgeführt, der analysiert werden
soll, der sogenannte Diskriminatorausdruck. Die Behandlung der verschiedenen Fälle oder
Alternativen wird nach dem Schlüsselwort of angegeben, nach dem sich ein lokaler Sichtbarkeitsbereich für die Alternativen eröffnet. Jede Alternative hat im einfachsten Fall die
Form p -> e, wobei p ein Muster ist und e der Rumpf der Alternative.
3.3. Ausdrücke
45
Ähnlich wie length läßt sich jede Funktionsbindung mit Hilfe von case umschreiben.
Funktionsbindungen können wir somit als eine schönere Notation ansehen für Definitionen, die als erstes eine case-Unterscheidung auf einem Funktionsargument vornehmen.
Im Vergleich zur Fallunterscheidung mittels Gleichungen sind case-Ausdrücke flexibler
— zum einen da es Ausdrücke sind und zum anderen weil ein Ausdruck und nicht nur ein
Funktionsparameter analysiert werden kann. Betrachte:
last’ :: [a] -> a
-- vordefiniert
last’ as = case reverse as of a:as’ -> a
Die Funktion last entnimmt das letzte Element einer Liste, sofern vorhanden, durch
eine Fallunterscheidung auf der umgekehrten Liste.
Von der Form sind case-Ausdrücke Funktionsbindungen jedoch sehr ähnlich. Jede Alternative kann z.B. Wächter oder lokale Definitionen enthalten:
case e of { p1 m1 ; . . . ;pn mn }
Die pi sind beliebige Muster und die mi nehmen wahlweise eine der beiden folgenden
Formen an:
-> e where { d1 ; . . . ;dp }
oder
| g1 -> e1
...
| gq -> eq
where { d1 ; . . . ;dp }
Der where-Teil kann jeweils auch entfallen. Dies entspricht der Form von Funktionsbindungen mit dem einzigen Unterschied, daß anstelle des Gleichheitszeichens ein Pfeil
steht. Auch für case-Ausdrücke gilt die Abseitsregel, so daß das Ende der Alternativen
bzw. das Ende des gesamten Ausdrucks entweder mittels Layout oder durch Angabe von
Trennsymbolen angezeigt werden kann.
Schauen wir uns noch zwei Beispiele an: Die Funktion words spaltet eine Zeichenkette
in eine Liste von Zeichenketten auf, indem sie an den Leerzeichen trennt.
words :: String -> [String]
-- vordefiniert
words cs = case dropSpaces cs of
[] -> []
cs’ -> w : words cs’’
where (w,cs’’) = splitWord cs’
46
3. Eine einfache Programmiersprache
Hier ist eine alternative Definition von minimum0, bei der eine Fallunterscheidung über
das Ergebnis des rekursiven Aufrufs vorgenommen wird.
minimum0’ :: (Ord a) => [a] -> Maybe
minimum0’ []
= Nothing
minimum0’ (a:as) = case minimum0’ as
Nothing -> Just
Just m -> Just
a
of
a
(min a m)
3.3.3. Funktionsausdrücke
Betrachten wir einen Ausdruck wie n + 1. In einem Kontext, in dem n gegeben ist,
bezeichnet er einen Wert, den man ausrechnen kann, nachdem man den Wert von n ausgerechnet hat. Betrachten wir dagegen n als variabel, so stellt der Ausdruck eine Funktion
dar, die in Abhängigkeit von der Variablen n ein Ergebnis berechnet. Genauer gesagt haben wir: f n = n + 1. Der Name f ist natürlich mehr oder weniger willkürlich gewählt.
Manchmal lohnt es nicht, sich für eine Hilfsfunktion einen Namen auszudenken: Wer viel
programmiert weiß, daß das Erfinden von aussagekräftigen Bezeichnern zu den schwierigsten Aufgaben gehört. Aus diesem Grund gibt es sogenannte anonyme Funktionen:
Wollen wir ausdrücken, daß n + 1 eine Funktion in Abhängigkeit von n ist schreiben wir
\n -> n + 1
Einen Ausdruck dieser Form nennen wir Funktionsausdruck, da er eine Funktion beschreibt.
Der Schrägstrich (ein abgemagertes λ) läutet den Funktionsausdruck ein, es folgt der formale Parameter der Funktion und nach dem Pfeil „->“ der Rumpf der Funktion. Wir haben
bereits gesehen, daß in Haskell für Ausdrücke und Typen häufig die gleiche Notation verwendet wird. Funktionsausdrücke sind dafür ein gutes Beispiel: Wenn x den Typ σ und
e den Typ τ hat, dann besitzt der Ausdruck \x -> e den Typ σ -> τ . Etwas abstrakter
gesehen ist „->“ wie auch Pair ein 2-stelliger Typkonstruktor. Im Unterschied zu Pair
können wir „->“ aber nicht selbst definieren.
Im allgemeinen hat ein Funktionsausdruck die Form
\p1 . . . pn -> e .
Die pi sind beliebige Muster und e ist ein Ausdruck. Hat ein Funktionsausdruck mehr als
einen Parameter, kann er als Abkürzung aufgefaßt werden für entsprechend geschachtelte Funktionsausdrücke: \p1 p2 -> e ist gleichbedeutend mit \p1 -> \p2 -> e. Für den
zugehörigen Typausdruck gilt dies in ähnlicher Weise: haben wir x 1 :: σ1 , x2 :: σ2 und
e :: τ , dann ist \x1 -> \x2 -> e vom Typ σ1 -> (σ2 -> τ ). Wir vereinbaren, daß
wir rechtsassoziative Klammern weglassen: somit schreiben wir den Typ σ 1 -> (σ2 -> τ )
kurz als σ1 -> σ2 -> τ .
3.3. Ausdrücke
47
Die „umgekehrte“ Regel gilt für die Funktionsanwendung: f e 1 e2 ist gleichbedeutend
mit (f e1 ) e2 , d.h., die Funktionsanwendung bindet linksassoziativ.
Gestaffelte Funktionen
Wir haben oben so nebenbei angemerkt, daß wir den Ausdruck \p1 p2 -> e als Abkürzung für \p1 -> \p2 -> e auffassen können. Diesen Sachverhalt wollen wir in diesem
Abschnitt etwas näher beleuchten. Betrachten wir die folgende Definition von add.
add :: Integer -> Integer -> Integer
add m n = m + n
Als Funktionsausdruck geschrieben erhalten wir die folgenden Definition.
add’ :: Integer -> (Integer -> Integer)
add’ = \m -> \n -> m + n
Man ist gewohnt, die Addition zweier Zahlen als zweistellige Funktion zu interpretieren. Die Definition von add zeigt, daß es auch eine andere — und wie wir gleich sehen
werden pfiffigere — Interpretation gibt: add ist eine einstellige Funktion, die eine einstellige Funktion als Ergebnis hat. Somit ist add 3 eine einstellige Funktion, die ihr Argument
um 3 erhöht: \n -> 3 + n. Die Argumente werden also peu à peu übergeben. Aus diesem Grund nennen wir Funktionen des Typs σ1 -> σ1 -> · · · σn -> τ mit n > 2 auch
gestaffelt. Sie werden auch „curryfizierte“ oder „geschönfinkelte“ Funktionen genannt,
nach den Logikern Haskell B. Curry und Moses Schönfinkel. Daher erklärt sich der Name
Haskell.
Bevor wir zu den Vorteilen gestaffelter Funktionen kommen, merken wir an, daß add
alternativ auch auf Paaren definiert werden kann.
add0 :: (Integer,Integer) -> Integer
add0 (m,n) = m+n
Die Funktion add0 ist ebenfalls einstellig — auch wenn man in der Mathematik Funktionen auf Cartesischen Produkten n-stellig nennt. Der einzige Parameter ist eben ein
Paar. Im Unterschied zu „echten“ mehrstelligen Funktionen kann das Argument von add0
ein beliebiger Ausdruck sein, der zu einem Paar auswertet.
dup :: a -> (a, a)
dup a = (a,a)
double :: Integer -> Integer
double n = add0 (dup n)
Grit Garbo: Schließlich bin ich kein Computer und kann den
Typ sehen wie ich will — ob Klammern oder nicht.
48
3. Eine einfache Programmiersprache
Der Vorteil von gestaffelten Funktionen gegenüber ihren Kolleginnen auf Cartesischen
Produkten ist, daß sie Ableger bilden, wenn man ihnen nur einen Teil der Argumente gibt.
Betrachten wir die folgende Definition:
note :: Int -> Int -> Dauer -> Musik
note oct h d = Note (12 * oct + h) d
Füttert man note nach und nach mit Argumenten, so erhält man folgende Ableger:
note Eine Note in einer beliebigen Oktave und von beliebiger Höhe und Dauer.
note 2 Eine Note in der dritten Oktave und von beliebiger Höhe und Dauer.
note 2 ef Die Note f in der dritten Oktave und von beliebiger Dauer.
note 2 ef (1/4) ergibt Note 29 (1/4).
Übung 3.6 Wann sind Funktionen auf Cartesischen Produkten
besser geeignet?
Durch die gestaffelte Form ist eine Funktion also vielseitiger einsetzbar als bei Verwendung des Cartesischen Produkts als Argumentbereich.
Noch eine terminologische Bemerkung: Man spricht von Funktionen höherer Ordnung,
wenn Argument- oder Ergebnistyp oder beide Funktionstypen sind. Somit sind add und
note Funktionen höherer Ordnung. Im Grunde sind fast alle Programme, die wir bisher
kennengelernt haben, aus Funktionen höherer Ordnung aufgebaut. Auch wenn man nicht
immer daran denkt.
3.3.4. Lokale Definitionen
Lokale Definitionen können nicht nur mit Gleichungen, sondern mit beliebigen Ausdrücken verknüpfen werden. Letzteres geschieht durch sogenannte let-Ausdrücke. Die
folgende Definition von power benutzt let statt where und if anstelle von Wächtern.
power’ :: (Integral b, Num a) => a -> b -> a
power’ x n = if n == 0 then 1
else let y = power’ (x*x) (n ‘div‘ 2)
in if n ‘mod‘ 2 == 0 then y
else y*x
Nach dem Schlüsselwort let werden die Hilfsdefinitionen angegeben (hier ist es nur
eine), entweder in geschweifte Klammern eingeschlossen und durch jeweils ein Semikolon
getrennt oder unter Benutzung der Abseitsregel. Der Ausdruck, in dem die Namen gültig
sind, folgt nach dem Schlüsselwort in. Den obigen let-Ausdruck liest man „sei y gleich
. . . in . . . “. Im allgemeinen haben let-Ausdrücke die Form
let {e1 ; . . . ; en } in e .
3.4. Anwendung: Binärbäume
49
Ein let-Ausdruck führt neue Namen ein, genau wie case-Ausdrücke und Funktionsausdrücke. Schauen wir uns ihre Sichtbarkeitsbereiche genauer an:
case e of { . . . ;pi mi ; . . . } Die in pi eingeführten Variablen sind in mi sichtbar.
\p1 . . . pn -> e Die Variablen in p1 , . . . , pn sind in e sichtbar.
let {d1 ; . . . ;dn } in e Die in den di eingeführten Variablen sind in e und in den Definitionen di selbst sichtbar.
Im Unterschied zur where-Klausel ist der let-Ausdruck ein Ausdruck und kann überall da stehen, wo Ausdrücke erlaubt sind. Die where-Klausel ist hingegen syntaktischer
Bestandteil einer Gleichung.
Der bis hierher eingeführte Ausschnitt aus der Programmiersprache Haskell reicht für
die nun folgenden Anwendungen aus. Wir haben diesen Ausschnitt so gewählt, daß er
einen einfachen intuitiven Zugang bietet, insbesondere was das Rechnen (lassen) betrifft.
Wer mehr über die Sprache Haskell wissen möchte, insbesondere auch präzisere Definitionen zur Frage „Wie rechnet Haskell“ sehen möchte, findet dies in dem vertiefenden
Abschnitt 3.5. Andernfalls kann man sich auch nach dem Studium des nächsten Abschnitts
getrost den allgemeineren Themen der nächsten Kapitel zuwenden.
3.4. Anwendung: Binärbäume
In Kapitel 2 haben wir an zwei Beispielen gesehen, wie man Objekte der Realität durch
Formeln nachbildet. Nun entspringen nicht alle Formeln, mit denen sich die Informatik
beschäftigt, einem derartigen Modellierungsprozeß. Viele Formeln, genannt Datenstrukturen, sind Informatik-intern entwickelt worden, um Probleme mittelbar besser lösen zu
können. Mit einer derartigen Datenstruktur, sogenannten Binärbäumen, beschäftigen wir
uns in diesem Abschnitt. Die einleitenden Worte deuten darauf hin, daß Binärbäume keine biologischen Bäume modellieren. Die biologische Metapher dient hier lediglich als
Lieferant für Begriffe: So haben Binärbäume eine Wurzel, sie haben Verzweigungen und
Blätter.
Zwei Beispiele für Binärbäume sind in Abbildung 3.1 aufgeführt. Zunächst einmal fällt
auf, daß die Informatik die Bäume auf den Kopf stellt: die Wurzel der Bäume ist oben
und die Blätter sind unten.2 Binärbäume bestehen aus drei verschiedenen Komponenten: Es gibt binäre Verzweigungen (dargestellt als Kreise), beschriftete Blätter (dargestellt
als Quadrate) und unbeschriftete Blätter (symbolisiert durch ).3 Für die Darstellung von
2 Diese
Darstellung erklärt sich mit der im westlichen Kulturkreis üblichen Lese- und Schreibrichtung von oben
nach unten.
3 Es gibt auch Varianten von Binärbäumen, die beschriftete Verzweigungen und unbeschriftete Blätter haben.
3
1
2
1
2
3
4
Abbildung 3.1: Beispiele für Binärbäume
50
Übung 3.7 Notiere die folgenden Bäume als Terme:
Binärbäumen mit Formeln, müssen wir uns Namen für die aufgeführten Bestandteile ausdenken:
8
7
1
1
2
1
2
3
2
4
3
4
5
5
3. Eine einfache Programmiersprache
6
(1)
(2)
(3)
Übung 3.8 Zeichne die zu den folgenden Formeln korrespondierenden Bäume.
1. Br Nil (Br (Leaf 1) (Leaf 2))
2. Br (Br (Br (Leaf 1) (Leaf 2))
(Br Nil (Leaf 3)))
(Br (Leaf 4) (Leaf 5))
3. Br (Br (Leaf 1) (Leaf 2))
(Br (Br (Br (Br (Leaf 3) (Leaf 4))
(Leaf 5))
(Leaf 6))
(Br (Leaf 7) (Leaf 8)))
Lisa Lista: Harry, probier leaves doch mal aus!
Harry Hacker: Hey, Du hast wohl den Übergang vom Rechnen
zum Rechnen lassen geschafft :-). [Harry wirft seinen Missile
DX mit Turbo-Haskell an und tippt die Definitionen ab.] Was
sollen wir denn rechnen lassen?
Lisa Lista: Wie wär’s mit leaves (leftist [0 .. 9])?
Harry Hacker: [Harry tippt den Ausdruck ein und die Liste
[9, 8, 7, 6, 5, 4, 3, 2, 1, 0] erscheint prompt am
Bildschirm.] Dauert doch gar nicht so lange wie die sagen.
Lisa Lista: [Lisa schiebt Harry beiseite und tippt eifrig
leaves (leftist [0 .. n]) für immer größere n ein. Für
n = 5000 kann man die Ausgabe der Elemente gemütlich am
Bildschirm verfolgen.] Langsam, aber sicher geht Dein Missile
DX in die Knie, Harry.
data Tree a = Nil
| Leaf a
| Br (Tree a) (Tree a)
Der Typ Tree a umfaßt somit binäre Bäume über dem Grundtyp a: Ein Baum ist entweder leer, oder ein Blatt, das ein Element vom Typ a enthält, oder eine Verzweigung
(engl.: Branch) mit zwei Teilbäumen. Wie der Listentyp ist auch Tree ein Typkonstruktor:
Tree ist mit dem Typ der Blattmarkierungen parametrisiert.
Mit Hilfe der neuen Formeln können wir die Bäume aus Abbildung 3.1 als Terme notieren:
t1, t2 :: Tree Integer
t1 = Br (Br (Leaf 1) (Leaf 2)) (Leaf 3)
t2 = Br (Br (Leaf 1) Nil)
(Br (Br (Leaf 2) (Leaf 3))
(Br Nil (Leaf 4)))
Stellen wir uns die Aufgabe, die Blätter eines Baums in einer Liste aufzusammeln. Für
t1, den linken Baum aus Abbildung 3.1, ergibt sich:
leaves (Br (Br (Leaf 1) (Leaf 2)) (Leaf 3))
⇒
[1, 2, 3]
Man sieht, daß die Reihenfolge der Elemente in der Liste der Reihenfolge der Blätter
im Baum entspricht (jeweils von links nach rechts gelesen). Hier ist eine einfache — und
wie wir gleich sehen werden naive — Lösung für das Problem:
leaves
leaves
leaves
leaves
:: Tree a -> [a]
Nil
= []
(Leaf a) = [a]
(Br l r) = leaves l ++ leaves r
Im letzten Fall — die Wurzel ist eine Verzweigung — werden die Blätter des linken und
des rechten Teilbaums mit (++) konkateniert. Die Definition ist elegant, aber in einigen
Fällen auch sehr rechenintensiv. Dies liegt an der Verwendung der Listenkonkatenation:
Sei ni die Länge der Liste xi ; um x1 ++ x2 auszurechnen, muß die zweite Gleichung für
(++) genau n1 mal angewendet werden. Ist nun der linke Teilbaum jeweils sehr groß und
der rechte klein oder leer, dann wird wiederholt in jedem Rekursionsschritt eine große
Liste durchlaufen. Die folgende Funktion generiert bösartige Fälle:
leftist :: [a] -> Tree a
leftist []
= Nil
leftist (a:as) = Br (leftist as) (Leaf a)
3.4. Anwendung: Binärbäume
51
Da die Listenkonkatenation die Rechenzeit in die Höhe treibt, stellt sich die Frage, ob
wir bei der Definition von leaves auch ohne auskommen. Identifizieren wir zunächst die
einfachen Fälle: Ist der Baum leer oder ein Blatt, können wir das Ergebnis sofort angeben.
Wenn der Baum eine Verzeigung ist, deren linker Teilbaum leer oder ein Blatt ist, kommen
wir ebenfalls ohne (++) aus.
leaves’
leaves’
leaves’
leaves’
leaves’
:: Tree a -> [a]
Nil
=
(Leaf a)
=
(Br Nil r)
=
(Br (Leaf a) r) =
[]
[a]
leaves’ r
a : leaves’ r
Es fehlt der Fall, daß der linke Teilbaum selbst wieder eine Verzweigung ist. Jetzt wenden wir einen Trick an: Wir machen den linken Teilbaum kleiner, indem wir die Bäume
umhängen, und rufen leaves wieder rekursiv auf. Beim Umhängen müssen wir darauf
achten, daß sich die Reihenfolge der Elemente nicht ändert.
Harry Hacker: Jetzt vergleichen wir mal! [Harry gibt den
Ausdruck leaves’ (leftist [0 .. 5000]) ein. Die Liste
[5000, 4999 .. 0] saust über den Bildschirm.] Ich bin beeindruckt.
Übung 3.9 Programmiere leaves’ mit case-Ausdrücken. Verwende dabei nur einfache Muster (ein Konstruktor angewendet
auf Variablen ist ein einfaches Muster).
v
t
=⇒
t
u
u
leaves’ (Br (Br l’ r’) r) = leaves’ (Br l’ (Br r’ r))
Auf diese Weise nähern wir uns Schritt für Schritt einem der oben aufgeführten, einfachen Fälle. Das Umhängen der Bäume ist in Abbildung 3.2 grafisch dargestellt. Aus naheliegenden Gründen wird die Transformation auch als Rechtsrotation bezeichnet. Rechnen
wir leaves’ t1 aus. In den Kommentaren geben die Zahlen die jeweils verwendete
Gleichung an.
leaves’ (Br (Br (Leaf 1) (Leaf 2)) (Leaf 3))
⇒
leaves’ (Br (Leaf 1) (Br (Leaf 2) (Leaf 3)))
(Def. leaves’.5)
⇒
1 : leaves’ (Br (Leaf 2) (Leaf 3))
(Def. leaves’.4)
⇒
1 : 2 : leaves’ (Leaf 3)
(Def. leaves’.4)
⇒
1 : 2 : [3]
(Def. leaves’.2)
Der Nachweiß, daß leaves’ für die Erledigung der gleichen Aufgabe tatsächlich mit
weniger Schritten auskommt, steht natürlich noch aus. Wir führen ihn in Kapitel 5, in
dem wir uns intensiv mit dem Thema Effizienz auseinandersetzen.
Programmieren wir eine Umkehrung von leaves, d.h. eine Funktion build mit
leaves (build x) = x für alle Listen x. Diese Eigenschaft läßt uns Spielraum, denn es
gibt viele Bäume, die von leaves auf die gleiche Liste abgebildet werden: leaves ist
surjektiv. Wir nutzen diese Wahlmöglichkeit und konstruieren einen Baum, bei dem die
Blätter möglichst gleichmäßig auf die Äste verteilt sind. Hat die Liste n Elemente, so verteilen wir bn/2c Elemente auf den linken und dn/2e Elemente auf den rechten Teilbaum.
Somit unterscheidet sich für jede Verzweigung die Größe der Teilbäume um maximal ein
Element. Bäume mit dieser Eigenschaft nennt man ausgeglichen.
Abbildung 3.2: Rechtsrotation
v
52
Übung 3.10 Definiere die Funktion drop, die eine Liste auf die
Liste ohne ihre ersten k Elemente abbildet.
3. Eine einfache Programmiersprache
build :: [a] -> Tree a
build [] = Nil
build [a] = Leaf a
build as = Br (build (take k as)) (build (drop k as))
where k = length as ‘div‘ 2
Die Hilfsfunktion take entnimmt die ersten k Elemente einer Liste. Die Funktion drop
wird in Übung 3.10 besprochen.
take :: Int -> [a] -> [a]
take (n+1) (a:as) = a : take n as
take _ _
= []
1
2
3
6
4
5
9
7
8
10
11
-- vordefiniert
In Abbildung 3.3 ist das Ergebnis von build [1 .. 11] grafisch dargestellt. Die
Struktur ergibt sich aus der wiederholten Halbierung von 11:
11
Abbildung 3.3: Ausgeglichener Baum der Größe 11
=
5+6
=
(2 + 3) + (3 + 3)
=
(1 + 1) + (1 + 2) + (1 + 2) + (1 + 2) .
Auch für build geben wir noch eine bessere, weil schnellere Definition an. Eine Inspektion von build zeigt, daß bei jedem rekursiven Aufruf die Argumentliste dreimal
durchlaufen wird: einmal in gesamter Länge von length und zweimal jeweils bis zur
Hälfte von take und drop. Wir können die wiederholten Durchläufe vermeiden, indem
wir mehrere Schritte zusammenfassen. Zu diesem Zweck definieren wir eine Hilfsfunktion
buildSplit mit der folgenden Eigenschaft: Sei 0 6 n 6 length x, dann gilt
buildSplit n x
=
(build (take n x), drop n x)
Die Funktion build erhalten wir, indem wir buildSplit mit der Listenlänge aufrufen.
build’ :: [a] -> Tree a
build’ as = fst (buildSplit (length as) as)
Die Funktion buildSplit ergibt sich zu:
buildSplit :: Int -> [a] -> (Tree a, [a])
buildSplit 0 as = (Nil, as)
buildSplit 1 as = (Leaf (head as), tail as)
buildSplit n as = (Br l r, as’’)
where k
= n ‘div‘ 2
(l,as’) = buildSplit
k as
(r,as’’) = buildSplit (n-k) as’
3.5. Vertiefung: Rechnen in Haskell
53
Man kann die Definition von buildSplit sogar systematisch aus der obigen Eigenschaft herleiten. Dazu mehr in Kapitel 4. Den Nachweis, daß build’ besser ist als build,
holen wir in Kapitel 5 nach.
3.5. Vertiefung: Rechnen in Haskell
3.5.1. Eine Kernsprache/Syntaktischer Zucker
Reduktion auf Kernsprache: Mustergleichungen lassen sich auf einfachere Gleichungen zurückführen, die keine Fallunterscheidung auf der linken Seite treffen, sondern stattdessen
rechts case-Ausdrücke verwenden.
Wo wir gerade bei Abkürzungen sind: Funktionsdefinitionen können wir ebenfalls als
eine abkürzende Schreibweise auffassen: f x = e kürzt f = \x -> e ab. Dito für mehrstellige Funktionsdefinitionen: g x1 x2 = e kürzt g = \x1 x2 -> e ab. whereKlauseln wiederum können wir durch let-Ausdrücke ersetzen.
Eine Rechnung wird durch die Angabe eines Ausdrucks gestartet, der relativ zu den im
Programm aufgeführten Definitionen ausgerechnet wird. Im Prinzip kann man ein Programm als großen let-Ausdruck auffassen: Nach dem let stehen alle Definitionern des
Programms, nach dem in der zu berechnende Ausdruck. Vordefinierte Typen und Funktionen haben globale Sichtbarkeit.
Hat man sich einmal auf diese Kernsprache beschränkt, kann man das Rechnen in Haskell durch drei Rechenregeln — für Funktionsanwendungen, case- und let-Ausdrücke
— erklären.
3.5.2. Auswertung von Fallunterscheidungen
Voraussetzung: nur einfache case-Ausdrücke.
Ein case-Ausdruck kann ausgerechnet werden, wenn der Diskriminatorausdruck ein
Konstruktorausdruck ist: case C e1 ... ek of .... In diesem Fall wissen wir, welche
der nach of angegeben Alternativen vorliegt. Nehmen wir an, C x 1 ... xk -> e ist
die passende Alternative, dann läßt sich der case-Ausdruck zu e vereinfachen, wobei wir
die Argumente des Konstruktors e1 , . . . , ek für die Variablen x1 , . . . , xk einsetzen müssen.
Das Muster fungiert also als eine Art Schablone.
abs :: (Ord a, Num a) => a -> a
abs n = case n >= 0 of
True -> n
False -> -n
encode :: (Num a) => Maybe a -> a
-- vordefiniert
Harry Hacker: Hmm — die Laufzeiten von build und build’
unterscheiden sich nicht so dramatisch.
54
3. Eine einfache Programmiersprache
encode x = case x of
Nothing -> -1
Just n -> abs n
encode (Just 5)
⇒
case Just 5 of {Nothing -> -1; Just n -> abs n}
(Def. encode)
⇒
abs 5
(case − Regel)
⇒
case 5 >= 0 of {True -> 5; False -> -5}
⇒
case True of {True -> 5; False -> -5}
⇒
5
(Def. abs)
(Def. >=)
(case − Regel)
Für die gleichzeitige Ersetzung von Variablen durch Ausdrücke verwenden wir die Notation e[x1 /e1 , . . . , xn /en ]. Damit bezeichnen wir den Ausdruck, den man aus e erhält, wenn
man alle Vorkommen von xi gleichzeitig durch ei ersetzt. Damit läßt sich unsere erste
Rechenregel formalisieren.
case C e1 ...ek of {...; C x1 ...xk -> e;...}
⇒ e[x1 /e1 , . . . , xn /en ]
Übung 3.11 Stelle abgeleitete Regeln für if auf.
(case-Regel)
Mit den Auslassungspunkten „. . . “ sollen jeweils die nicht passenden Alternativen symbolisiert werden.
3.5.3. Auswertung von Funktionsanwendungen
Wir erklären nun formal, wie man mit Funktionsausdrücken rechnet.
Eine Funktionsanwendung f a kann erfolgen, wenn f ein Funktionsausdruck ist: (\x ->
e) a. Dann läßt sich die Anwendung zu e vereinfachen, wobei wir den aktuellen Parameter a für den formalen Parameter x einsetzen. Etwas ähnliches haben wir schon beim
Ausrechnen von case-Ausdrücken kennengelernt. Die neue Rechenregel läßt sich einfach
formalisieren:
\(x -> e) a ⇒ e[x/a]
(β-Regel)
(3.2)
Der Name β-Regel ist genau wie der Schrägstrich bei Funktionsausdrücken, der ein λ
symbolisiert, historisch begründet. Aus nostalgischen Gründen übernehmen wir beides.
3.5. Vertiefung: Rechnen in Haskell
55
Wiederholen wir noch einmal die Auswertung von encode (Just 5) aus Abschnitt 3.5.2.
Wir werden sehen, daß wir die β-Regel schon heimlich verwendet haben, ohne uns große
Gedanken darüber zu machen. Zunächst schreiben wir encode und abs als Funktionsausdrücke auf:
abs
=
encode =
\n -> case n >= 0 of {True -> n; False -> -n}
\x -> case x of {Nothing -> -1; Just n -> abs n}
Die Rechnung nimmt jetzt den folgenden Verlauf.
(Def. encode)
encode (Just 5)
⇒
(\x-> case x of {Nothing-> -1; Just n-> abs n}) (Just 5)
⇒
case Just 5 of {Nothing -> -1; Just n -> abs n}
⇒
abs 5
⇒
(\n -> case n >= 0 of {True -> n; False -> -n}) 5
(β − Regel)
(case − Regel)
(Def. abs)
⇒
case 5 >= 0 of {True -> 5; False -> -5}
(β − Regel)
⇒
case True of {True -> 5; False -> -5}
(Def. (>=))
⇒
5
(case − Regel)
In der ersten Rechnung haben wir zwei Schritte zusammengefaßt: Das Einsetzen der
Definition von encode bzw. von abs und die Anwendung der β-Regel. Schauen wir uns
noch ein weiteres Beispiel an. [Das Beispiel gehört in die Schublade der akademischen
Beispiele; es erlaubt aber, die Anwendung der β-Regel innerhalb von 9 Schritten immerhin
6-mal einzuüben.]
twice :: (a -> a) -> a -> a
twice = \f -> \a -> f (f a)
Wir rechnen den Ausdruck twice twice inc aus. Ist klar, was als Ergebnis herauskommt?
twice twice inc
⇒
(\f -> \a -> f (f a)) twice inc
(Def. twice)
⇒
(\a -> twice (twice a) inc
(β − Regel)
⇒
twice (twice inc)
(β − Regel)
⇒
twice ((\f -> \a -> f (f a)) inc)
⇒
twice (\a -> inc (inc a))
(Def. twice)
(β − Regel)
⇒
(\f -> \a -> f (f a)) (\a -> inc (inc a))
⇒
\a -> (\a -> inc (inc a)) ((\a -> inc (inc a)) a)
(β − Regel)
⇒
\a -> (\a -> inc (inc a)) (inc (inc a))
(β − Regel)
⇒
\a -> inc (inc (inc (inc a)))
(β − Regel)
(Def. twice)
56
3. Eine einfache Programmiersprache
Man sieht, wir können rechnen, ohne uns Gedanken über die Bedeutung machen zu
müssen. Und das ist auch gut so, schließlich wollen wir ja rechnen lassen.
Trotzdem ist es interessant zu fragen, was twice twice eigentlich bedeutet. Nun, der Ausdruck twice inc bezeichnet laut Definition die 2-fache Anwendung von inc auf ein Argument;
die Rechnung zeigt, daß twice twice inc der 4-fachen Anwendung von inc entspricht. Und
twice twice twice inc oder gar twice twice twice twice inc?
Versuchen wir die Ausdrücke intelligent auszurechnen, indem wir Gesetzmäßigkeiten aufdecken.
Jetzt müssen wir erfinderisch sein und mit den Formeln spielen. Die Arbeit nimmt uns kein Rechner
ab, Gott sei Dank, oder? Als erstes erfinden wir eine Notation für die n-fache Anwendung: hni.
Also, twice = h2i und twice twice = h4i. Definieren können wir hni mithilfe der Komposition:
hni f = f ◦ · · · ◦ f . Wenden wir nun hmi auf hni an, komponieren wir hni m-mal mit sich selbst. Das
| {z }
n-mal
führt uns zu der Frage, was hmi ◦ hni bedeutet? Nun, hni f ist f ◦ · · · ◦ f , mit hmi(hni f ) wiederholt
| {z }
n-mal
sich dieser Ausdruck m-mal: (f ◦ · · · ◦ f ) ◦ · · · ◦ (f ◦ · · · ◦ f ). Ergo, erhalten wir hmni. Nun können
|
{z
}
m-mal
wir auch hmi hni erklären: hmi hni = hni ◦ · · · ◦ hni = hnm i. Somit ist (h2i h2i) h2i = h4i h2i = h16i
|
{z
}
m-mal
und ((h2i h2i) h2i) h2i = h16i h2i = h65536i. Geschafft!
3.5.4. Auswertung von lokalen Definitionen
Voraussetzung: nur einfache let-Ausdrücke.
Die let-Ausdrücke haben uns noch gefehlt: Mit ihnen ist unsere Programmiersprache
komplett. Im folgenden erklären wir, wie man mit ihnen rechnet.
Wenn die Definitionen nicht rekursiv sind, ist die Rechenregel einfach: Die definierenden Ausdrücke werden für die Bezeichner in den Rumpf des let-Ausdrucks eingesetzt.
let {x1 = e1 ;...;xn = en } in e
⇒ e[x1 /e1 , . . . , xn /en ]
Wenn die Definitionen rekursiv sind, geht das nicht so einfach. Die Bezüge für die in den
rechten Seiten auftretenden Bezeichner gïngen sonst verloren. Eine rekursive Definition
wird unter Umständen wiederholt benötigt, etwa für jede rekursive Anwendung einer
Funktion. Um für diesen Fall gerüstet zu sein, ersetzen wir xi statt durch ei durch den
Ausdruck let {x1 = e1 ;...;xn = en } in ei .
3.5. Vertiefung: Rechnen in Haskell
57
let {x1 = e1 ;...;xn = en } in e
⇒ e[x1 /let {x1 = e1 ;...;xn = en } in e1 , . . . ,
(let-Regel)
xn /let {x1 = e1 ;...;xn = en } in en ]
Die lokalen Definitionen werden auf diese Weise einmal aufgefaltet. Das bläht den Ausdruck zunächst einmal gewaltig auf — aber danach können wir ein Stück weiterrechnen
und ihn (vielleicht) wieder vereinfachen. Beachte, daß die Regel auch funktioniert, wenn
die Definitionen nicht rekursiv sind. Schauen wir uns ein Beispiel an.
Lisa Lista: Wetten, daß nicht?
rep 2 8
⇒
let x = 8:x in take 2 x
⇒
take 2 (let x = 8:x in 8:x)
Harry Hacker: Wetten, daß ich diese Rechnung auch mit der
einfachen let-Regel hinkriege?
(Def. rep)
(let − Regel)
⇒
take 2 (8:let x = 8:x in 8:x)
(let − Regel)
⇒
8:take 1 (let x = 8:x in 8:x)
(Def. take)
⇒
8:take 1 (8:let x = 8:x in 8:x)
(let − Regel)
⇒
8:8:take 0 (let x = 8:x in 8:x)
(Def. take)
⇒
8:8:[]
(Def. take)
Man sieht, die merkwürdige Definition von rep funktioniert. Wir haben uns auch geschickt angestellt. Für’s erste verlassen wir uns darauf, daß sich auch der Rechner geschickt
anstellt. Später werden wir uns überlegen, warum wir uns darauf verlassen können.
In der obigen Rechnung haben wir einige Schritte zusammengefaßt: Die Anwendung
von take auf die beiden Argumente und die folgenden Fallunterscheidungen erscheinen
als einziger Rechenschritt. Sobald man sich mit der Funktionsweise einer Funktion vertraut
gemacht hat, ist es natürlich und bequem dies zu tun: Wir fassen die Definition von take
sozusagen als abgeleitete Rechenregel auf.
Fazit: Unsere Programmiersprache umfaßt nur sechs grundlegende Arten von Ausdrücken:
Variablen, Konstruktorausdrücke, case-Ausdrücke, Funktionsausdrücke, Funktionsanwendungen und let-Ausdrücke. Durch die case-, let- und die β-Regel ist das Rechnen in
Haskell formal definiert. Damit können wir alles programmieren, aber nicht unbedingt
lesbar, schön und elegant.
Übung 3.12 Was wäre ungeschickt gewesen?
58
3. Eine einfache Programmiersprache
4. Programmiermethodik
Ziele des Kapitels: In Kapitel 3 haben wir das Werkzeug kennengelernt, das es uns ermöglicht, rechnen zu lassen. In diesem Kapitel gehen wir einen Schritt weiter und beschäftigen uns mit dem systematischen Gebrauch dieses Werkzeugs. Dabei gehen wir
vereinfachend davon aus, daß der Prozeß der Modellierung — den wir in Kapitel 2 an
zwei Beispielen kennengelernt haben — bereits abgeschlossen ist. Innerhalb einer vorgegebenen Modellwelt werden wir uns damit auseinandersetzen, wie man zu ebenfalls
vorgebenen Problemen systematisch Rechenregeln — sprich Programme — entwirft. Als
durchgehendes Beispiel dient uns dabei neben anderen das Sortierproblem.
Eine Bemerkung zur Terminologie sei noch vorausgeschickt: In der Literatur wird oft
eine feinsinnige Unterscheidung zwischen den Begriffen Algorithmus und Programm getroffen. Ein Algorithmus ist ein Rechenverfahren, daß so präzise beschrieben ist, daß eine
automatische Durchführung im Prinzip möglich ist. Dies gegeben, darf der Algorithmus
auf beliebig hohem Abstraktionsgrad und in beliebiger, hoffentlich dem Problem adäquater Notation beschrieben sein. Ein Programm ist die Formulierung des Algorithmus in einer
Programmiersprache, so daß man es (bzw. ihn) auch tatsächlich rechnen lassen kann. Früher, als Programmiersprachen noch wesentlich primitiver waren als heute, spielte dieser
Unterschied eine wesentliche Rolle, und der Übergang vom Algorithmus zum Programm,
manchmal Codierung genannt, war eine nicht zu unterschätzende Fehlerquelle. Dank moderner Programmiersprachen wie unserem Haskell wird die semantische Lücke zwischen
Algorithmus und Programm ein gutes Stück weit geschlossen, und wir werden die Begriffe
Algorithmus und (Haskell-)Programm praktisch synonym verwenden. Unsere Einführung
in die Informatik kommt dadurch wesentlich zügiger voran, als dies früher möglich war.
4.1. Spezifikation
Bevor man sich daran setzt, Rechenregeln aufzuschreiben, muß man zunächst das Problem durchdringen, das es zu lösen gilt. Je genauer man das Problem beschreiben kann,
desto besser wird später auch der Entwurf von Rechenregeln gelingen. Das hört sich einleuchtend an, aber wir werden schnell sehen, daß die Beschreibung eines Problems — in
Fachjargon die Problemspezifikation — alles andere als einfach ist. Wir gehen im folgenden davon aus, daß das Problem in der Berechnung einer Funktion im mathematischen
Prof. Paneau: Die Autoren vergessen darauf hinzuweisen —
und das sollte man mit der gebotenen Eindringlichkeit tun —
daß nur beständiges Üben zum Erfolg führt.
60
Harry Hacker: Aber alle meine Programme sind interaktiv; kann
ich jetzt weiterblättern (goto Kapitel 5)?
4. Programmiermethodik
Sinne besteht: Einer Eingabe wird eindeutig eine Ausgabe zugeordnet. Wir kümmern uns
damit bewußt nicht um Systeme, die mit einer Benutzerin oder allgemein mit einer Umgebung interagieren.
Wie gesagt, wir verwenden das Sortieren als durchgehendes Beispiel. Die informelle
Beschreibung des Sortierproblems ist relativ einfach: Gesucht ist eine Funktion sort, die
eine gegebene Liste von Elementen aufsteigend anordnet. Schauen wir uns ein paar Beispiele an:
sort [8, 3, 5, 3, 6, 1]
⇒
[1, 3, 3, 5, 6, 8]
sort "hello world"
⇒
" dehllloorw"
sort ["Bein", "Anfall", "Anna"]
⇒
["Anfall", "Anna", "Bein"]
sort [(1, 7), (1, 3), (2, 2)]
⇒
[(1, 3), (1, 7), (2, 2)]
Kümmern wir uns zunächst um den Typ der Funktion. Die Festlegung des Typs sollte
stets der erste Schritt bei der Spezifikation sein: durch den Typ wird ja gerade die Art der
Eingabe und der Ausgabe beschrieben. Im obigen Beispiel sind Argument und Ergebnis
jeweils Listen; auf den Typ der Listenelemente wollen wir uns nicht festlegen, wir müssen
lediglich annehmen, daß auf den Elementen eine Vergleichsfunktion definiert ist. Somit
erhalten wir:
sort :: (Ord a) => [a] -> OrdList a
Wie läßt sich nun das Sortierproblem formal spezifizieren? Klar, die Ergebnisliste muß
geordnet sein. Diese Eigenschaft kann man mit einer Haskell-Funktion beschreiben.
Harry Hacker: Geht das nicht einfacher? Wie wär’s mit „für alle
Listen x :: (Ord a) => [a] muß gelten . . . “.
ordered
ordered
ordered
ordered
:: (Ord a)
[]
[a]
(a1:a2:as)
=> [a] -> Bool
= True
= True
= a1 <= a2 && ordered (a2:as)
Wir wagen einen ersten Spezifikationsversuch: Sei τ ein beliebiger Typ, auf dem eine
Ordnung definiert ist, für alle Listen x :: [τ ] muß gelten
ordered (sort x)
=
True .
(4.1)
Reicht das? Leider nein: die Funktion \x -> [] erfüllt (4.1), aber nicht unsere Erwartungen. Wir müssen noch fordern, daß alle Elemente der Argumentliste auch in der Ergebnisliste auftreten. Als zweiten Versuch könnten wir zusätzlich die Listen x und sort x in
Mengen überführen und verlangen, daß beide Mengen gleich sind. Damit haben wir von
der Anordnung der Elemente abstrahiert — aber leider auch von ihrer Anzahl. Schließlich
müssen wir garantieren, daß ein mehrfach auftretendes Element auch noch nach dem Sortieren in gleicher Anzahl auftritt (siehe erstes Beispiel). Dies kann man mit Mengen nicht
modellieren. Wir spezifizieren diese Eigenschaft, indem wir beide Listen auf eine Struktur
4.1. Spezifikation
61
abbilden, in der die Reihenfolge keine Rolle spielt, aber Elemente mehrfach vorkommen
können: die Struktur der Multimenge.
Die Eigenschaft der geordneten Liste haben wir mit einem Haskell-Programm spezifiziert. Dies hat den Vorteil, daß wir mit der Spezifikation auch rechnen können, z.B. können wir sie verwenden, um Sortierprogramme auszutesten. Die Angabe eines HaskellProgramms für die zweite Eigenschaft ist prinzipiell auch möglich, würde uns aber vom
eigentlichen Thema ablenken. Aus diesem Grund nehmen wir an, daß der Typ Bag a,
Multimengen über dem Grundtyp a, mit folgenden Operationen vorgegeben ist:
∅ die leere Multimenge,
*a+ die einelementige Multimenge, die genau ein Vorkommen von a enthält,
x ] y die Vereinigung der Elemente von x und y; das „+“ im Vereinigungszeichen deutet
an, daß sich die Vorkommen in x und y akkumulieren.
Die Hinzunahme neuer Typen und Operationen mit bestimmten Eigenschaften hat den
Vorteil, daß die Spezifikation einfacher und lesbarer wird. Schließlich ist die Spezifikation
kein Selbstzweck; wir werden sie später verwenden, um die Korrektheit unserer Sortierprogramme zu beweisen. Für diese Beweise benutzen wir die folgenden Eigenschaften
der Operationen: ∅ ist ein neutrales Element von (]) und (]) selbst ist assoziativ und
kommutativ.
∅]x
=
x
(4.2)
x]∅
=
x
(4.3)
x]y
=
y]x
(4.4)
(x ] y) ] z
=
x ] (y ] z)
(4.5)
Die Funktion bag, die eine Liste in eine Multimenge überführt, illustriert die Verwendung
der Operationen.
bag :: [a] -> Bag a
bag []
= ∅
bag (a:as) = *a+ ] bag as
Lisa Lista: Das stimmt Harry. Aber Mengen erfüllen noch eine
weitere Eigenschaft, x ∪ x = x, die auf Multimengen nicht zutrifft.
Übung 4.1
(a) Spezifiziere die Funktion
merge :: (Ord a) =>
OrdList a -> OrdList a -> OrdList a
die zwei geordnete Listen in eine geordnete Liste überführt.
(b) Spezifiziere die Funktion
Eine Liste x enthält alle Elemente von y, falls bag x = bag y. In diesem Fall heißt x
Permutation von y. Somit können wir nun spezifizieren: Sei τ ein beliebiger Typ, auf dem
eine Ordnung definiert ist. Für alle Listen x :: [τ ] muß gelten
ordered (sort x) = True ∧ bag (sort x) = bag x .
Harry Hacker: Was unterscheidet jetzt Multimengen von Mengen; diese Gesetze gelten doch auch für Mengen.
(4.6)
Dadurch ist sort als mathematische Funktion, nicht aber als Programm, eindeutig bestimmt.
mergeMany :: (Ord a) =>
[OrdList a] -> OrdList a
die eine Liste geordneter Listen in eine geordnete Liste überführt.
62
Übung 4.2 Zu implementieren ist eine Funktion
split :: Int -> [a] -> [[a]]
die eine Liste in n möglichst gleich lange Listen aufteilt. Lisa
Lista hat diese Funktion folgendermaßen spezifiziert. Für alle
natürlichen Zahlen n und alle Listen x muß gelten:
concat (split n x) = x ∧ length (split n x) = n .
Harry Hacker hat sofort eine Funktion gefunden, die diese Spezifikation erfüllt: die Liste x wird in n − 1 leere Listen und die
Liste x selbst „aufgeteilt“. Helfen Sie Lisa bei einer besseren Spezifikation und bei der Implementierung.
Harry Hacker: [Seufzt] Das kenne ich, meinen Missile DX mußte ich zum Händler zurückschleppen, weil die Fließkommaarithmetik des Prozessors fehlerhaft war.
4. Programmiermethodik
Manchmal kann man sehr einfach zu einer brauchbaren Spezifikation gelangen, indem
man bereits existierende Funktionen benutzt. Dies haben wir zum Beispiel im Falle von
build getan: Wir haben gefordert, daß build eine Inverse zu leaves sein soll mit der
Eigenschaft leaves (build x) = x für alle x. Damit ist build durchaus nicht eindeutig spezifiziert: Auch
Einstweiliges Fazit: Schon die Spezifikation einfacher Probleme ist nicht unbedingt einfach. Da wundert es nicht, daß oftmals die Mühe gescheut wird, ein Problem formal
zu spezifizieren. Dabei sind formale Spezifikationen unerläßlich, wenn wir eine Chance
haben wollen, die Korrektheit unserer Programme nachzuweisen. Aber bleiben wir realistisch: Nach dem heutigen Stand der Forschung wäre es vermessen zu erwarten, daß ein
großes Programmpaket jemals vollständig spezifiziert und als korrekt nachgewiesen wird.
Selbst wenn dies gelänge, hieße das noch nicht, daß „alles läuft“: die Spezifikation kann
falsch sein, oder der Übersetzer oder der Rechner selbst, oder jemand kann den Stecker
herausziehen. Der Schluß, daß es sich damit bei der Programmverifikation um ein nutzloses Unterfangen handelt, ist aber genauso falsch. Denn mit jedem Korrektheitsnachweis
— auch wenn nur ein kleiner Teil eines umfangreichen Programms berücksichtigt wird —
steigt die Zuverlässigkeit und damit unser Vertrauen in die Software. Kurz gesagt: Lieber
etwas Korrektheit als gar keine.
4.2. Strukturelle Rekursion
Zur Lösung eines Problems braucht man in der Regel eine Idee. Das ist beim Programmieren nicht anders. Gott sei Dank steht man nicht alleine da. Es gibt einen kleinen Fundus
von Methoden, die sich beim Lösen von Problemen bewährt haben. Eine einfache werden
wir im folgenden kennenlernen, eine weitere in Abschnitt 4.5.
4.2.1. Strukturelle Rekursion auf Listen
Bevor wir uns dem Sortierproblem zuwenden, schauen wir uns zunächst einmal zwei listenverarbeitende Funktionen aus vorangegangenen Kapiteln an.
translate :: [Codon] -> Protein
translate []
= []
translate (triplet:triplets)
| aminoAcid == Stp = []
| otherwise
= aminoAcid:translate triplets
where aminoAcid = genCode triplet
length :: [a] -> Int
length []
= 0
-- vordefiniert
4.2. Strukturelle Rekursion
63
length (a:as) = 1 + length as
Beide Funktionen lösen unterschiedliche Probleme; nichtsdestotrotz folgen ihre Definitionen dem gleichen Schema, das sich eng an der Definition des Listentyps orientiert. Für
jeden in der Datentypdefinition aufgeführten Konstruktor, [] und (:), gibt es eine Gleichung; der Konstruktor (:) ist rekursiv im zweiten Argument, just über dieses Argument
erfolgt jeweils der rekursive Aufruf. Man sagt, die Funktionen sind strukturell rekursiv
definiert.
Für jeden Datentyp gibt es ein zugehöriges Rekursionsschema, das es erlaubt, Probleme
zu lösen, die Eingaben dieses Datentyps involvieren. Für Listen nimmt das Rekursionsschema die folgende Form an:
Rekursionsbasis ([]) Das Problem wird für die leere Liste [] gelöst.
Rekursionsschritt (a:as) Um das Problem für die Liste a:as zu lösen, wird nach dem
gleichen Verfahren, d.h. rekursiv, zunächst eine Lösung für as bestimmt, die anschließend zu einer Lösung für a:as erweitert wird.
Das ganze etwas formaler: Wir sagen, die listenverarbeitende Funktion f ist strukturell
rekursiv definiert, wenn die Definition von der Form
f
f []
f (a : as)
where s
::
=
=
=
[σ] -> τ
e1
e2
f as
ist, wobei e1 und e2 Ausdrücke vom Typ τ sind und e2 die Variablen a, as und s (nicht
aber f ) enthalten darf. Mit s wird gerade die Lösung für as bezeichnet; tritt s nur einmal
in e2 auf, kann man natürlich für s auch direkt f as einsetzen.
Wenden wir uns der Lösung des Sortierproblems zu. Es ist eine gute Idee, die Funktionsdefinition zunächst so weit aufzuschreiben, wie das Rekursionsschema es vorgibt. Wir
erhalten:
insertionSort
insertionSort []
insertionSort (a : as)
where s
::
=
=
=
(Ord a) => a -> OrdList a -> OrdList a
e1
e2
insertionSort as
Wir werden verschiedene Sortieralgorithmen kennenlernen; die Funktionen erhalten jeweils die in der Literatur gebräuchlichen Namen. Die Lücke in der ersten Gleichung, der
Rekursionsbasis, ist schnell ausgefüllt: die leere Liste ist bereits sortiert, also ersetzen wir
e1 durch []. Zum Rekursionsschritt: Wir müssen die bereits sortierte Liste s um das Element a erweitern, genauer: a muß in s gemäß der vorgegebenen Ordnung eingefügt werden. Das hört sich nach einem neuen (Teil-) Problem an. Wie gehen wir weiter vor? Ganz
Prof. Paneau: Das Schema ist doch primitiv, primitiv rekursiv
meine ich.
64
4. Programmiermethodik
einfach: das Problem erhält einen Namen, sagen wir insert; den Namen verwenden wir,
um die Definition von insertionSort abzuschließen.
insertionSort :: (Ord a) => [a] -> OrdList a
insertionSort []
= []
insertionSort (a:as) = insert a (insertionSort as)
Wenden wir uns dem neuen Problem zu. Bei der Definition von insert verwenden wir
das Kochrezept ein zweites Mal an. Aber halt, insert hat zwei Parameter; das Rekursionsschema sieht nur einen Parameter vor. Wir müssen das Schema zunächst erweitern:
Wir sagen, die listenverarbeitende Funktion g ist strukturell rekursiv definiert, wenn die
Definition von der Form
g
g i []
g i (a : as)
where s
Prof. Paneau: Ich würde den Autoren empfehlen, ihre Worte
vorsichtiger zu wählen. Die Erweiterung ist doch keine: jede
nach dem g-Schema definierbare Funktion läßt sich bereits mit
dem f -Schema definieren.
Harry Hacker: Wie soll das funktionieren? Die Funktion f hat
einen Parameter, die Funktion g aber zwei!
Prof. Paneau: Lieber Herr Hacker, das ist doch eine Illusion: die
Ausdrücke e1 und e2 können doch funktionswertig sein. Lassen
Sie mich dies am Beispiel der Funktion insert verdeutlichen;
mit dem f -Schema erhalten wir (oBdA habe ich die Parameter
vertauscht):
ins []
= \a -> [a]
ins (a’:as) = \a -> if a <= a’
then a:a’:as
else a’:(ins as) a
Lisa Lista: Diese Art der Definition ist aber recht gewöhnungsbedürftig. Ich sehe das so: das g-Schema ist ein abgeleitetes
Schema, das es erlaubt, Funktionen bequemer hinzuschreiben,
aber prinzipiell nichts Neues bietet. Mich würde jetzt noch interessieren, ob sich alle Programme in diese Form bringen lassen?
Prof. Paneau: Das ist eine gute Frage, aber keine die leicht zu
beantworten ist. Vielleicht nur so viel: ein Programm, das einen
Rechner simuliert, können Sie damit nicht definieren.
::
=
=
=
σ1 -> [σ2 ] -> τ
e1
e2
g e3 as
ist, wobei e1 die Variable i, e2 die Variablen i, a, as und s und schließlich e3 die Variablen
i, a und as enthalten darf. Häufig, aber nicht immer, ist e3 gleich i, so daß man sich auf
die Wahl von e1 und e2 konzentrieren kann.
Wie oben schreiben wir die Funktionsdefinition für insert zunächst so weit auf, wie
das Rekursionsschema es vorgibt.
insert
insert a []
insert a (a’ : as)
where s
::
=
=
=
(Ord a) => a -> OrdList a -> OrdList a
e1
e2
insert e3 as
Die Rekursionsbasis ist wieder einfach: e1 ist die einlementige Liste [a]. Zum Rekursionsschritt: Die Argumentliste ist sortiert, damit ist a’ ihr kleinstes Element. Um das erste
Element der Ergebnisliste zu ermitteln, müssen wir a mit a’ vergleichen. Wir erhalten:
insert a []
insert a (a’ : as)
| a <= a’
| otherwise
where s
=
[]
=
=
=
e21
e22
insert e3 as
Im ersten Fall ist a das kleinste Element und e21 somit a : a’ : as. Anderenfalls fängt
die Ergebnisliste mit a’ an und wir müssen a rekursiv in as einfügen, d.h., wir ersetzen
e22 durch a’ : s und e3 durch a.
insert :: (Ord a) => a -> [a] -> [a]
insert a []
= [a]
4.2. Strukturelle Rekursion
65
insert a (a’:as)
| a <= a’
= a:a’:as
| otherwise = a’:insert a as
Dieses Verfahren nennt sich aus naheliegenden Gründen „Sortieren durch Einfügen“.
Geduldige Leute verwenden es schon mal beim Sortieren von Spielkarten. Schauen wir uns
die Arbeitsweise von insertionSort an einem Beispiel an: Es gilt die Liste [8,3,5,3,
6,1] zu sortieren. Unter Verwendung der Rechenregeln, die wir in Abschnitt 3.2.4 kennengelernt haben, ist es leicht, wenn auch etwas langwierig, den Ausdruck
insertionSort [8,3,5,3,6,1] auszurechnen. Schauen wir uns die wichtigsten Etappen an (wir kürzen insertionSort mit isort und insert mit ins ab).
isort (8 : 3 : 5 : 3 : 6 : 1 : [])
⇒
ins 8 (isort (3 : 5 : 3 : 6 : 1 : []))
(Def. isort)
⇒
ins 8 (ins 3 (isort (5 : 3 : 6 : 1 : [])))
(Def. isort)
⇒
...
⇒
ins 8 (ins 3 (ins 5 (ins 3 (ins 6 (ins 1 [])))))
(Def. isort)
⇒
ins 8 (ins 3 (ins 5 (ins 3 (ins 6 (1 : [])))))
(Def. ins)
⇒
ins 8 (ins 3 (ins 5 (ins 3 (1 : ins 6 []))))
(Def. ins)
(Def. ins)
⇒
ins 8 (ins 3 (ins 5 (1 : ins 3 (ins 6 []))))
⇒
...
⇒
1 : ins 8 (ins 3 (ins 5 (ins 3 (ins 6 []))))
(Def. ins)
Nach 7 + 6 = 13 Schritten haben wir das erste Element der sortierten Liste, sprich das Minimum, ausgerechnet. Nach weiteren 5 Schritten erhalten wir das zweitkleinste Element
usw.
An diesem Beispiel lassen sich noch einmal die Grundprinzipien des Rechnens (mit
Haskell) verdeutlichen. Eine konkrete Instanz eines Problems wird durch einen Ausdruck
beschrieben, hier insertionSort [8,3,5,3,6,1]. Durch Ausrechnen des Ausdrucks
erhalten wir die Lösung des Problems, hier [1,3,3,5,6,8]. Ausrechnen meint dabei die
sture Anwendung der aufgestellten Rechenregeln. Das Ausrechnen können wir getrost
einem Rechner überlassen; die eigentliche Arbeit bzw. der Gehirnschmalz steckt in der
Formulierung der Rechenregeln.
Die obige Vorgehensweise bei der Definition von insertionSort ist übrigens typisch
für einen sogenannten „top-down Entwurf“ (oder: Methode der schrittweisen Verfeinerung). Das Gesamtproblem wird schrittweise in immer kleinere Teilprobleme zergliedert,
bis man auf triviale oder bereits gelöste Probleme stößt.
Lisa Lista: Wenn die Eingabeliste länger wird, ist man aber eine
Weile beschäftigt.
Harry Hacker: Papperlapapp! Du sollst ja nicht selbst rechnen, sondern rechnen lassen. Wenn ich meinen Missile DX
mit Turbo-Haskell anwerfe, hast Du das Ergebnis in nullkommanix. [Harry tippt das Programm ab und läßt den Ausdruck
sum (insertionSort [1 .. 3000]) ausrechnen.] Siehst
Du, die Antwort kommt blitzschnell.
Lisa Lista: Stimmt. Ich bin beeindruckt. Aber probier doch mal
sum (insertionSort (reverse [1 .. 3000])). [Harry
gibt den Ausdruck ein und beide warten . . . ]
66
4. Programmiermethodik
4.2.2. Strukturelle Rekursion auf Bäumen
Wir haben bereits angemerkt, daß es für jeden Datentyp ein zugehöriges Rekursionsschema gibt. Schauen wir uns als weiteres Beispiel das Schema für den Datentyp Tree an, den
wir in Abschnitt 3.4 eingeführt haben.
Rekursionsbasis (Nil) Das Problem wird für den leeren Baum gelöst.
Rekursionsbasis (Leaf a) Das Problem wird für das Blatt Leaf a gelöst.
Rekursionsschritt (Br l r) Um das Problem für den Baum Br l r zu lösen, werden
rekursiv Lösungen für l und r bestimmt, die zu einer Lösung für Br l r erweitert
werden.
Im Unterschied zu Listen gibt es zwei Basisfälle und beim Rekursionsschritt müssen zwei
Teillösungen zu einer Gesamtlösung kombiniert werden. Formal heißt eine Funktion f
strukturell rekursiv, wenn die Definition von der Form
f
f Nil
f (Leaf a)
f (Br l r)
where sl
sr
Übung 4.3
Definiere analog zu size die Funktion
branches :: Tree a -> Integer, die die Anzahl der Verzweigungen in einem Baum bestimmt.
Übung 4.4 In Abschnitt 3.4 haben wir zwei Definitionen für
leaves angegeben, welche ist strukturell rekursiv?
::
=
=
=
=
=
Tree σ -> τ
e1
e2
e3
f l
f r
ist. Programmieren wir als Anwendung zwei Funktionen, die Größe bzw. die Tiefe 1 von
Bäumen bestimmen. Die Größe eines Baums setzen wir gleich mit der Anzahl seiner Blätter; die Tiefe entspricht der Länge des längsten Pfads von der Wurzel bis zu einem Blatt.
size
size
size
size
:: Tree a -> Integer
Nil
= 1
(Leaf _) = 1
(Br l r) = size l + size r
depth
depth
depth
depth
:: Tree a -> Integer
Nil
= 0
(Leaf _) = 0
(Br l r) = max (depth l) (depth r) + 1
Auf diese Funktionen werden wir in den nächsten Abschnitten wiederholt zurückkommen, so daß es sich lohnt, sich ihre Definition einzuprägen.
1 Da
die Bäume in der Informatik von oben nach unten wachsen, spricht man eher von der Tiefe eines Baums
und seltener von seiner Höhe.
4.2. Strukturelle Rekursion
67
4.2.3. Das allgemeine Rekursionsschema
Nachdem wir zwei Instanzen des Rekursionsschemas kennengelernt haben, sind wir (hoffentlich) fit für das allgemeine Kochrezept. Ausgangspunkt ist dabei die allgemeine Form
der Datentypdeklaration, wie wir sie in Abschnitt 3.1.1 kennengelernt haben.
data T a1 . . . am
=
C1 t11 . . . t1n1
|
...
|
Cr tr1 . . . trnr
Für die Definition des Schemas müssen wir bei den Konstruktoren Ci zwei Arten von
Argumenten unterscheiden: rekursive (d.h. tij ist gleich T a1 . . . am ) und nicht-rekursive.
Seien also li1 , . . . , lipi mit 1 6 li1 < li2 < · · · < lipi 6 ni die Positionen, an denen der
Konstruktor Ci rekursiv ist. Das Rekursionsschema besteht nun aus r Gleichungen; für
jeden Konstruktor gibt es eine Gleichung, die sich seiner annimmt.
f
f (C1 x11 . . . x1n1 )
where s11
...
s1p1
...
f (Cr xr1 . . . xrnr )
where sr1
...
srpr
::
=
=
T σ1 . . . σm -> τ
e1
f x1l11
=
f x1l1p1
=
=
er
f xrlr1
=
f xrlrpr
Der Ausdruck ei darf die Variablen xi1 , . . . , xini und die Variablen si1 , . . . , sipi enthalten.
Ist pi = 0, so spricht man von einer Rekursionsbasis, sonst von einem Rekursionsschritt.
4.2.4. Verstärkung der Rekursion
Es ist eine gute Idee, als erstes das Schema der strukturellen Rekursion heranzuziehen,
um eine Funktion zu programmieren. Aber nicht immer führt dieser Ansatz zum Erfolg
bzw. nicht immer ist das Ergebnis zufriedenstellend, das man auf diesem Wege erhält.
Schauen wir uns ein Beispiel an: Das Problem lautet, die Reihenfolge der Elemente einer
Liste umzukehren. Wenden wir das Schema der strukturellen Rekursion an, erhalten wir
die folgende oder eine ähnliche Definition.
reverse’ :: [a] -> [a]
-- vordefiniert
reverse’ []
= []
reverse’ (a:as) = reverse’ as ++ [a]
Übung 4.5 Welche Funktionen aus den vorangegangenen Kapiteln sind strukturell rekursiv definiert und welche nicht?
68
4. Programmiermethodik
Mit der Listenkonkatenation wird jeweils das erste Element an die gespiegelte Liste
angehängt; dabei muß die Liste jeweils vollständig durchlaufen werden. Die Tatsache,
daß die geschachtelte Verwendung von (++) sehr rechenintensiv ist, kennen wir bereits aus Abschnitt 3.4 — in der Tat sind reverse und leaves nah verwandt, es gilt
reverse = leaves . leftist. Wie können wir eine bessere Lösung für reverse systematisch herleiten? Die grundlegende Idee ist die folgende: Wir programmieren eine
Funktion, die ein schwierigeres Problem lößt als verlangt, aber die es uns erlaubt, den
Rekursionsschritt besser zu bewältigen. Diese Technik nennt man „Verstärkung des Rekursionsschritts“ oder „Programmieren durch Einbettung“. Schauen wir uns die Technik
zunächst am obigen Beispiel an. Im Rekursionsschritt müssen wir die Restliste spiegeln
und an das Ergebnis eine Liste anhängen. Diese Beobachtung führt zu der Idee, eine
Funktion zu programmieren, die beide Aufgaben gleichzeitig löst. Also:
reel
reel x y
::
=
[a] -> [a] -> [a]
reverse x ++ y
Die Spezifikation verkörpert sozusagen den kreativen Einfall. Interessant ist, daß wir die
Definition von reel aus dieser Spezifikation systematisch ableiten können. Anhaltspunkt
für die Fallunterscheidung ist natürlich wieder das Schema der strukturellen Rekursion.
Rekursionsbasis (x = []):
reel [] y
=
reverse [] ++ y
=
[] ++ y
=
y
(Spezifikation)
(Def. reverse)
(Def. (++))
Rekursionsschritt (x = a:as):
reel (a:as) y
=
reverse (a:as) ++ y
=
(reverse as ++ [a]) ++ y
(Def. reverse)
(Spezifikation)
=
reverse as ++ ([a] ++ y)
(Ass. (++))
=
reverse as ++ (a:y)
(Def. (++))
=
reel as (a:y)
(Spezifikation)
Somit erhalten wir die folgende Definition von reel:
reel :: [a] -> [a] -> [a]
reel []
y = y
reel (a:as) y = reel as (a:y)
Wenn man sich die rekursiven Aufrufe anschaut, sieht man, daß immer ein Listenelement vom ersten zum zweiten Parameter „wandert“. Dieser Vorgang begegnet uns im
4.3. Strukturelle Induktion
69
täglichen Leben, wenn wir einen Stapel von Blättern umdrehen: Das oberste Blatt des
Stapels wird auf einen weiteren, anfangs leeren Stapel gelegt; das wiederholen wir solange, bis der erste Stapel leer ist. Der neue Stapel enthält dann die Blätter in umgekehrter
Reihenfolge.
Die ursprüngliche Funktion, reverse, erhalten wir schließlich durch Spezialisierung
von reel.
Übung 4.6 Wende die Technik der Rekursionsverstärkung auf
die strukturell rekursive Definition von leaves an.
reverse’’ :: [a] -> [a]
reverse’’ as = reel as []
Fassen wir zusammen: Die vielleicht überraschende Erkenntnis ist zunächst, daß ein
schwieriges Problem nicht unbedingt auch schwieriger zu lösen ist. Dies liegt im wesentlichen daran, daß im Rekursionsschritt eine „bessere“ Lösung zur Verfügung steht, die
leichter zu einer Gesamtlösung ausgebaut werden kann. Der kreative Moment liegt in der
Formulierung einer geeigneten Rekursionsverstärkung; eine genaue Analyse, warum der
erste Lösungsansatz scheiterte, liefert dafür in der Regel wichtige Hinweise.
4.3. Strukturelle Induktion
Wir haben bisher das Sortierproblem aus zwei verschiedenen Blickwinkeln betrachtet:
Wir haben das Problem formal spezifiziert und wir haben für das Problem eine Lösung
angegeben. Es ist an der Zeit, die beiden losen Enden wieder zu zusammenzuführen. Wir
werden in diesem Abschnitt zeigen, daß das Sortierprogramme korrekt ist, d.h., daß es die
Spezifikation des Sortierproblems erfüllen. So wie es Programmiermethoden gibt, kennt
man auch Beweismethoden, die uns bei der Programmverifikation unterstützen.
4.3.1. Strukturelle Induktion auf Listen
Das Programm insertionSort sieht richtig aus. Aber, können wir das auch beweisen
— und wenn, dann wie? Es überrascht wahrscheinlich nicht: Der Beweis wird nach einem ähnlichen Schema geführt, wie wir es für die Programmierung von insertionSort
verwendet haben. Für Listen nimmt das Schema die folgende Form an:
Induktionsbasis ([]): Wir zeigen die Aussage zunächst für die leere Liste [].
Induktionsschritt (a:as): Wir nehmen an, daß die Aussage für die Liste as gilt, und
zeigen, daß sie unter dieser Voraussetzung auch für a:as gilt.
Lisa Lista: Harry — kannst Du mir erklären, warum die Anwendung dieser Beweisregel irgendetwas beweist?
Harry Hacker: Nee - habe in der Schule gelernt, das Schlußregeln so etwas wie Axiome sind, also auf Annahmen oder Absprachen beruhen. Hat mich nie überzeugt.
Lisa Lista: Ist doch auch albern, oder? Wenn ich eine Aussage
mit Beweisregeln beweise, die selbst nichts als Annahmen sind,
kann ich doch gleich die Aussage als Annahme annehmen.
Prof. Paneau: Ich muß doch sehr um etwas mehr Respekt gegenüber der Wissenschaftstheorie bitten! In diesem konkreten
Fall aber gebe ich ihnen Recht: Natürlich läßt sich diese Beweisregel begründen. Man hat damit nämlich eine Konstruktionsvorschrift angegeben, wie für jede konkrete Liste ein Beweis geführt
werden kann: Man beginnt mit Φ([]), nimmt dann sukzessive die
Listenelemente hinzu und wendet jedesmal den Beweis des Induktionsschritt an, um zu zeigen, daß auch mit diesem Element
die Aussage noch gilt. Das geht, weil der Induktionsschritt ja
für ein beliebiges Element bewiesen wurde. Was das Induktionsschema also zeigt, ist, daß man für jede Liste einen Beweis
führen kann — und damit gilt die Aussage Φ natürlich für alle
Listen.
Übung 4.7 Benutze die Erläuterung von Prof. Paneau, um zu erklären, warum das hier angegebene Schema nicht für den Nachweis von Eigenschaften unendlicher Listen zu gebrauchen ist.
70
4. Programmiermethodik
Diese Beweisregel kann man formal wie folgt darstellen:
Φ([])
(∀a, as) Φ(as) =⇒ Φ(a:as)
(∀x) Φ(x)
Dabei symbolisiert Φ die Eigenschaft, die wir für alle Listen nachweisen wollen. Über
dem waagerechten Strich werden die Voraussetzungen aufgeführt, unter dem Strich steht
die Schlußfolgerung, die man daraus ziehen kann. Man kann die Regel als Arbeitsauftrag
lesen: Um (∀x) Φ(x) zu zeigen, müssen Φ([] und die Implikation (∀a, as) Φ(as) =⇒
Φ(a:as) nachgewiesen werden. Die im Induktionsschritt getätigte Annahme Φ(as) nennt
man auch Induktionsvoraussetzung; im Beweise notieren wir ihre Anwendung mit dem
Kürzel „I.V.“.
Allgemein gilt, daß sich die Organisation eines Beweises stark an der Organisation der
beteiligten Funktionen orientiert. Also: Die Funktion insertionSort stützt sich auf die
Hilfsfunktion insert ab. Entsprechend weisen wir zunächst die Korrektheit von insert
nach. Hier ist ihre Spezifikation:
ordered x = True =⇒ ordered (insert $a$ $x$) = True
(4.7)
bag (insert a x) = *a+ ] bag x
(4.8)
Wir verlangen, daß insert a eine geordnete Liste in eine geordnete Liste überführt und
daß insert a x eine Permutation von a:x ist. Beachte, daß Aussage 4.7 eine Vorbedingung formuliert: "wir weisen die Korrektheit von insert a x nur für den Fall nach,
daß x geordnet ist.
Wir zeigen zunächst Aussage (4.8): Diesen einen Beweis führen wir, ohne etwas auszulassen oder „mit der Hand zu wedeln“. Es ist ganz nützlich, die Aussage Φ noch einmal
genau aufzuschreiben.
Φ(x)
⇐⇒
(∀a) bag (insert a x) = *a+ ] bag x
(4.9)
Induktionsbasis (x = []):
bag (insert a [])
=
bag [a]
=
*a+ ] bag []
(Def. insert)
(Def. bag)
Induktionsschritt (x = a’:as): Im Rumpf von insert wird an dieser Stelle zwischen
zwei Fällen unterschieden, die wir im Beweis nachvollziehen. Fall a <= a’ = True:
bag (insert a (a’:as))
=
bag (a:a’:as)
=
*a+ ] bag (a’:as)
(Def. insert)
(Def. bag)
4.3. Strukturelle Induktion
71
Fall a <= a’ = False: Hier erfolgt der rekursive Aufruf im Programm, entsprechend ist
zu erwarten, daß wir die Induktionsvoraussetzung anwenden müssen.
bag (insert a (a’:as))
=
bag (a’:insert a as)
(Def. insert)
=
*a’+ ] bag (insert a as)
=
*a’+ ] (*a+ ] bag as)
(I.V.)
=
*a+ ] (*a’+ ] bag as)
(Ass., Komm. ])
=
*a+ ] bag (a’:as)
(Def. bag)
(Def. bag)
Damit ist schon einmal die Aussage (4.8) bewiesen: insert a x verliert weder die
Elemente von x, noch fügt es mehr als a hinzu. Bleibt die Frage, ob das Element a auch
an die richtige Stelle rückt. Wenden wir uns also dem Nachweis von Aussage (4.7) zu. Die
Rekursionsbasis ist einfach zu zeigen; der Rekursionsschritt untergliedert sich in drei Fälle.
1. x = a1 :as ∧ a<=a1 = True
2. x = a1 :as ∧ a<=a1 = False ∧ as = []
3. x = a1 :as ∧ a<=a1 = False ∧ as = a2 :as0
Die ersten beiden Fälle sind jeweils leicht nachzuweisen. Im dritten Fall gilt gemäß der
Voraussetzung ordered as und somit a1 <=a2 = True und ordered as0 = True. Teilfall
a<=a2 = True:
ordered (insert a (a1 :as))
ordered (a1 :insert a as)
=
(Def. insert)
(Def. insert)
=
ordered (a1 :a:as)
=
a1 <=a && a<=a2 && ordered as
=
True
(Def. ordered)
(Vor.)
Teilfall a<=a2 = False:
ordered (insert a (a1 :as))
=
Das wär’s.
ordered (a1 :insert a as)
(Def. insert)
0
=
ordered (a1 :a2 :insert a as )
=
a1 <=a2 && ordered (a2 :insert a as0 )
(Def. insert)
=
ordered (a2 :insert a as0 )
=
ordered (insert a as)
(Def. insert)
=
True
(Vor. und I.V.)
(Def. ordered)
(Vor. undDef. (&&))
72
Übung 4.8 Führe den Korrektheitsbeweis für insertionSort
durch!
Übung 4.9 Zeige die folgenden Eigenschaften mittels Strukturinduktion:
take n x ++ drop n x
bag (x ++ y)
x ++ (y ++ z)
=
=
=
x
(4.10)
bag x ] bag y (4.11)
(x ++ y) ++ z .(4.12)
4. Programmiermethodik
Mit Hilfe der eben bewiesenen Hilfssätze können wir uns nun daran machen, die Korrektheit von insertionSort nachzuweisen. Die Beweise sind allerdings so einfach, daß
wir sie der geneigten Leserin zur Übung überlassen.
Todo: Notation, e1 = e2 , insbesondere e1 <=e2 = True, dafür schreiben wir im folgenden
kurz e1 6 e2 , entsprechend für e1 <=e2 = False schreiben wir e1 > e2 .
4.3.2. Strukturelle Induktion auf Bäumen
So wie es für jeden rekursiven Datentyp ein Rekursionsschema gibt, so läßt sich für jeden
Datentyp eine entsprechende Beweisregel aufstellen. Betrachten wir als zweites Beispiel
den Typkonstruktor Tree, den wir in Abschnitt 3.4 definiert haben. Die zugehörige Induktionsregel lautet:
Induktionsbasis (Nil): Wir zeigen die Aussage für den leeren Baum Nil.
Induktionsbasis (Leaf a): Wir zeigen die Aussage für das Blatt Leaf a.
Induktionsschritt (Br l r): Wir nehmen an, daß die Aussage für den Teilbaum l und
für den Teilbaum r gilt, und zeigen, daß sie unter dieser Voraussetzung auch für den
Baum Br l r gilt.
Auch dieses Schema wollen wir wieder etwas formaler als Beweisregel darstellen.
Φ(Nil)
(∀a) Φ(Leaf a)
(∀l, r) Φ(l) ∧ Φ(r) =⇒ Φ(Br l r)
(∀t) Φ(t)
Übung 4.10 Programmiere eine Funktion complete n, die
einen vollständigen Baum der Tiefe n konstruiert.
Wir verwenden das Prinzip der Strukturinduktion, um die Größe von Bäumen mit ihrer
Tiefe in Beziehung zu setzen: Wieviele Blätter enthält ein Baum der Tiefe n maximal?
Nehmen wir an, wir hätten einen Baum t der Tiefe n mit k Blättern konstruiert. Dann hat
der Baum Br t t die Tiefe n + 1 und 2k Blätter. Wir sehen: Erhöht sich die Tiefe um eins,
kann sich die Anzahl der Blätter höchstens verdoppeln. Somit erhalten wir die folgende
Aussage:
size t
6
2ˆdepth t
(4.13)
Beachte, daß wir bereits von den obigen Vereinbarungen zur Schreibvereinfachung Gebrauch machen. Beweisen wir die Aussage mittels Strukturinduktion über Bäumen. Induktionsbasis (t = Nil):
size Nil
=
1
=
2ˆ0
=
2ˆdepth Nil
(Def. size)
(Def. (ˆ))
(Def. depth)
4.3. Strukturelle Induktion
73
Induktionsbasis (t = Leaf a): analog. Induktionsschritt (t = Br l r): Jetzt können wir
annehmen, daß die Aussage sowohl für l als auch für r gilt.
size (Br l r)
=
size l + size r
6
2ˆdepth l + 2ˆdepth r
(Def. size)
6
2 * 2ˆ(max (depth l) (depth r))
(Eig. max)
=
2ˆ(max (depth l) (depth r) + 1)
(Eig. (ˆ))
=
2ˆdepth (Br l r)
(I.V.)
(Def. depth)
Mit der obigen Formel können wir die Größe nach oben abschätzen. Formen wir die
Ungleichung um, erhalten wir
depth t > log 2 (size t)
Übung 4.11 Zeige den folgenden Zusammenhang zwischen der
Anzahl der Blätter (size) und der Anzahl der Verzweigungen in
einem Binärbaum (branches, siehe Übung 4.3).
branches t + 1
=
size t
(4.14)
(4.15)
und können die Tiefe nach unten abschätzen. Beide Aussagen werden wir noch häufiger
benötigen.
4.3.3. Das allgemeine Induktionsschema
Nachdem wir zwei Instanzen des Induktionsschemas kennengelernt haben, sind wir (hoffentlich) fit für das allgemeine Rezept. Wie auch beim allgemeinen Rekursionsschema
ist der Ausgangspunkt die allgemeine Form der Datentypdeklaration, wie wir sie in Abschnitt 3.1.1 kennengelernt haben.
data T a1 . . . am
=
Übung 4.12 Leite aus dem allgemeinen Induktionsschema eine
Instanz für den Typ Musik ab.
C1 t11 . . . t1n1
|
...
|
Cr tr1 . . . trnr
Wir müssen wiederum zwischen rekursiven und nicht-rekursiven Konstruktorargumenten unterscheiden: Seien also li1 , . . . , lipi mit 1 6 li1 < li2 < · · · < lipi 6 ni die Positionen,
an denen der Konstruktor Ci rekursiv ist. Das Induktionsschema besteht nun aus r Prämissen; für jeden Konstruktor gibt es eine Beweisobligation.
(∀x11 . . . x1n1 ) Φ(x1l11 ) ∧ · · · ∧ Φ(x1l1p1 ) =⇒ Φ(C1 x11 . . . x1n1 )
...
(∀xr1 . . . xrnr ) Φ(xrlr1 ) ∧ · · · ∧ Φ(xrlrpr ) =⇒ Φ(Cr xr1 . . . xrnr )
(∀x) Φ(x)
Ist pi = 0, so spricht man von einer Induktionsbasis, sonst von einem Induktionsschritt.
Übrigens — die natürliche Induktion, die man aus der Schule kennt (siehe Abschnitt B.3.3),
ist ein Spezialfall der strukturellen Induktion. Um dies zu sehen, muß man nur die natürlichen Zahlen als Datentyp mit zwei Konstruktoren einführen, etwa
Harry Hacker: Wie rechnet man denn mit diesen Zahlen:
Succ Zero + Succ (Succ Zero) klappt irgendwie nicht.
Lisa Lista: Du mußt eben entsprechende Rechenregeln aufstellen, z.B. für die Addition zweier Zahlen:
addN :: Natural -> Natural -> Natural
addN Zero
n = n
addN (Succ m) n = Succ (addN m n)
Übung 4.13 Hilf Harry bei der Definition der Multiplikation auf
Natural (Hinweis: Kochrezept anwenden).
74
4. Programmiermethodik
data Natural = Zero | Succ Natural
Die Zahl n schreiben wir damit als n-fache Anwendung von Succ auf Zero: 1 entspricht
Succ Zero, 2 entspricht Succ (Succ Zero) usw. Die Beweisregel für die Natürliche
Induktion nimmt dann die Form der Strukturellen Induktion über dem Typ Natural an:
Φ(Zero)
(∀n) Φ(n) =⇒ Φ(Succ n)
(∀n ∈ Nat) Φ(n)
Die Verallgemeinerung der vollständigen Induktion auf beliebige Datentypen lernen wir
im Vertiefungsabschnitt 4.6 kennen.
4.3.4. Verstärkung der Induktion
Die Formulierung von Rechenregeln und die Formulierung von Beweisen sind zwei sehr
nah verwandte Tätigkeiten. Wir haben versucht, die Zusammenhänge durch den identischen Aufbau der Abschnitte 4.2 und 4.3 zu verdeutlichen. Entsprechend beschäftigen
wir uns in diesem Abschnitt mit dem beweistheoretischen Analogon zur Rekursionsverstärkung.
Übertragen auf Induktionsbeweise haben wir es mit dem folgenden Phänomen zu tun:
Wir versuchen eine Aussage durch Induktion zu zeigen, bleiben aber im Induktionsschritt
stecken; die Induktionsannahme ist zu schwach, um den Induktionsschritt durchzuführen.
Wir entkommen dem Dilemma, indem wir eine stärkere (schwierigere) Aussage zeigen,
die es uns aber erlaubt, den Induktionsschritt erfolgreich zu absolvieren.
Verdeutlichen wir diese Technik vermittels eines Beispiels: Betrachten wir die Bäume,
die die Funktion build aus Abschnitt 3.4 erzeugt. Es fällt auf, daß die Blätter sich höchstens auf zwei Ebenen befinden, d.h., die Länge des kürzesten und des längsten Pfades
von der Wurzel bis zu einem Blatt unterscheidet sich höchstens um eins. Für die Spezifikation dieser Eigenschaft benötigen wir neben depth die Funktion undepth, die die
minimale Tiefe eines Baums bestimmt.
undepth
undepth
undepth
undepth
Übung 4.14 Definiere eine Funktion, die überprüft, ob ein
Baum die Braun-Eigenschaft erfüllt.
:: Tree a -> Integer
Nil
= 0
(Leaf _) = 0
(Br l r) = min (undepth l) (undepth r) + 1
Die Funktion undepth unterscheidet sich von depth nur in der Verwendung von min
statt max. Die Funktion build konstruiert einen Baum, indem sie bn/2c Elemente auf den
linken und dn/2e Elemente auf den rechten Teilbaum verteilt. Bäume mit dieser Knotenverteilung heißen auch Braun-Bäume: t heißt Braun-Baum, wenn jeder Teilbaum der Form
Br l r die Eigenschaft size r - size l ∈ {0, 1} erfüllt.
4.3. Strukturelle Induktion
75
Die Aussage, die wir zeigen wollen, lautet somit: Sei t ein Braun-Baum, dann gilt
depth t - undepth t ∈ {0, 1} .
(4.16)
Führt man für diese Aussage unmittelbar einen Induktionsbeweis durch, scheitert man im
Induktionsschritt: aus den Induktionsvoraussetzungen läßt sich nicht die gewünschte Aussage herleiten. Man merkt nach einigem Herumprobieren, daß man die Tiefe der Bäume
mit ihrer Größe in Verbindung setzen muß. Konkret: Sei t ein Braun-Baum, dann gilt
2n 6 size t < 2n+1
2
n−1
< size t 6 2
n
=⇒
undepth t = n ,
(4.17)
=⇒
depth t = n .
(4.18)
Ist die Größe einer 2-er Potenz, so ist der Baum vollständig ausgeglichen; alle Blätter
befinden sich auf einer Ebene. Anderenfalls liegt ein Höhenunterschied von eins vor.
Wenden wir uns dem Beweis zu. Induktionsbasis (t = Nil): Die Aussage folgt direkt aus size Nil = 1 und undepth Nil = depth Nil = 0. Induktionsbasis (t =
Leaf a): analog. Induktionsschritt (t = Br l r): Da t ein Braun-Baum ist, gilt size l =
b 21 size tc und size r = d 12 size te. Damit folgt für den linken Teilbaum
2n 6 size t < 2n+1
=⇒
2n−1 6 size l < 2n
(Arithmetik)
=⇒
undepth l = n − 1
(I.V.)
und entsprechend für den rechten
2n 6 size t < 2n+1
=⇒
2n−1 6 size r 6 2n
(Arithmetik)
=⇒
undepth r > n − 1
(I.V.)
Insgesamt erhalten wir
undepth (Br l r)
=
min (undepth l) (undepth r) + 1
=
n
(Def. undepth)
(obige Rechnungen)
Die Aussage für depth zeigt man analog.
Die ursprüngliche Behauptung ergibt sich als einfache Folgerung aus dieser Eigenschaft.
Wir sehen: Die schwierigere Aussage ist einfacher nachzuweisen als die ursprüngliche.
Denn: im Induktionsschritt können wir auf stärkeren Voraussetzungen aufbauen. Aber:
die Formulierung der Induktionsverstärkung erfordert auch eine tiefere Durchdringung
des Problems. Der entscheidende Schritt war hier, die minimale und maximale Tiefe nicht
nur zueinander, sondern zur Größe in Beziehung zu setzen.
76
4. Programmiermethodik
4.3.5. Referential transparency
Gleichungslogik, Gesetz von Leibniz, Vergleich zu Pascal (x ++ x mit Seiteneffekten).
4.4. Anwendung: Sortieren durch Fusionieren
[8, 3, 5, 3, 6, 1]
[8, 3, 5]
[3, 6, 1]
[3, 5]
8
3
5
[6, 1]
3
[3, 5]
[3, 5, 8]
6
1
[1, 6]
[1, 3, 6]
[1, 3, 3, 5, 6, 8]
Kommen wir noch einmal auf das Sortierproblem zurück. Der in Abschnitt 4.2.1 entwickelte Algorithmus „Sortieren durch Einfügen“ wird häufig von Hand beim Sortieren von
Spielkarten verwendet. Man kann natürlich auch anders vorgehen, insbesondere wenn es
Helfer gibt: Der Kartenstapel wird halbiert, beide Hälften werden getrennt sortiert und
anschließend werden die beiden sortierten Teilstapel zu einem sortieren Gesamtstapel fusioniert. Das Sortieren der Hälften kann unabhängig voneinander und insbesondere nach
dem gleichen Prinzip durchgeführt werden.
Typisch für dieses Verfahren ist die (gedankliche) Unterteilung in zwei Phasen: In der
ersten Phase wird jeder Stapel wiederholt halbiert, bis sich entweder keine Helfer mehr
finden oder der Stapel nur noch aus einer Karte besteht. In der zweiten Phase werden die
einzelnen Teilstapel wieder zusammengeführt, bis zum Schluß ein sortierter Stapel übrigbleibt. In Abbildung 4.1 wird das Verfahren exemplarisch für die Liste [8, 3, 5, 3, 6, 1]
vorgeführt. Man sieht sehr schön die beiden Phasen des Verfahrens: in der oberen Hälfte
der Abbildung wird geteilt, in der unteren wird zusammengeführt.
Betrachtet man die Graphik in Abbildung 4.1 genauer, so entdeckt man, daß die obere Hälfte gerade einem Binärbaum entspricht — wenn man von den redundanten Beschriftungen der Verzweigungen absieht. Und: wir haben die erste Phase bereits in Abschnitt 3.4 unter dem Namen build programmiert. Nennen wir die zweite Phase sortTree,
dann erhalten wir
Abbildung 4.1: Sortieren durch Fusionieren
Harry Hacker: Was bedeutet denn der Punkt in der Definition
von mergeSort?
Grit Garbo: Den mißglückten Versuch, die Komposition von
Funktionen zu notieren . . .
Lisa Lista: Ich hab mal nachgeschlagen: der Punkt ist so definiert:
(.) :: (b -> c) -> (a -> b) -> (a -> c)
(f . g) a = f (g a)
Nichts Aufregendes, verdeutlicht vielleicht besser die Unterteilung in zwei Phasen.
mergeSort :: (Ord a) => [a] -> OrdList a
mergeSort = sortTree . build
Das Sortierverfahren „Sortieren durch Fusionieren“ ist nach der zentralen Operation der
zweiten Phase, dem Fusionieren zweier geordneter Listen (engl. merge), benannt. 2
4.4.1. Phase 2: Sortieren eines Binärbaums
Für die Definition von sortTree verwenden wir — wie nicht anders zu erwarten — das
Schema der strukturellen Rekursion auf Bäumen.
2 In
der Literatur wird „merge“ häufig und schlecht mit Mischen übersetzt. Unter dem Mischen eines Kartenspiels versteht man freilich eher das Gegenteil.
4.4. Anwendung: Sortieren durch Fusionieren
sortTree
sortTree
sortTree
sortTree
:: (Ord a)
Nil
=
(Leaf a) =
(Br l r) =
77
=> Tree a -> OrdList a
[]
[a]
merge (sortTree l) (sortTree r)
Im Rekursionsschritt müssen zwei bereits geordnete Listen zu einer geordneten Liste fusioniert werden. Die Funktion merge, die sich dieser Aufgabe annimmt, läßt sich ebenfalls
strukturell rekursiv definieren.
merge
merge
merge
merge
|
|
:: (Ord a) =>
[]
bs
(a:as) []
(a:as) (b:bs)
a <= b
otherwise
OrdList a -> OrdList a -> OrdList a
= bs
= a:as
Prof. Paneau: Na ja. Die Schachtelung sieht man nicht sehr
deutlich. Meiner Definition ist dieses Manko nicht zu eigen.
= a:merge as (b:bs)
= b:merge (a:as) bs
Das Rekursionsschema wird hier geschachtelt verwendet: zunächst erfolgt eine Fallunterscheidung über das erste Argument, ist dieses nicht-leer erfolgt eine weitere Fallunterscheidung über das zweite Argument.
Die Funktion merge verallgemeinert im gewissen Sinne die Funktion insert, die wir
in Abschnitt 4.2.1 programmiert haben. Es gilt:
insert a x
=
merge [a] x.
(4.19)
Kommen wir zum Nachweis der Korrektheit von mergeSort. Im wesentlichen müssen
wir uns um die Eigenschaften der Hilfsfunktionen kümmern. Die Funktion merge erfüllt
die beiden folgenden Eigenschaften (die übrigens in Aufgabe 4.1 nachgefragt wurden):
ordered x ∧ ordered y =⇒ ordered (merge x y)
(4.20)
bag (merge x y) = bag x ] bag y
(4.21)
Der Nachweis der beiden Eigenschaften erfolgt analog zur Definition von merge via
einer geschachtelten strukturellen Induktion. Wir überlassen sie der geneigten Leserin zur
Übung (siehe 4.15).
Für die Spezifikation von build und sortTree müssen wir die Funktion bag auf Bäume übertragen.
bag
bag
bag
bag
:: Tree a -> Bag a
Nil
= ∅
(Leaf a) = *a+
(Br l r) = bag l ] bag r
merge’ :: (Ord a) => OrdList a -> OrdList a ->
OrdList a
merge’ []
= id
merge’ (a:as) = insert
where
insert []
= a:as
insert (b:bs)
| a <= b
= a:merge’ as (b:bs)
| otherwise = b:insert bs
Die Funktion id ist nebenbei bemerkt die Identitätsfunktion.
Übung 4.15 Zeige, daß merge ihre Spezifikation erfüllt.
78
4. Programmiermethodik
Wir verwenden bag im folgenden sowohl auf Listen als auch auf Bäumen. Das Phänomen
der Überladung — die Verwendung des gleichen Namens für unterschiedliche, aber verwandte Funktionen — kennen wir bereits von unserem Haskell: (==) verwenden wir auf
allen Typen, die in der Typklasse Eq enthalten sind.
Für die Funktion build muß gelten:
bag (build x) = bag x
(4.22)
Beachte, daß die Struktur des generierten Baums für den Nachweis der Korrektheit keine
Rolle spielt. Beim Nachweis der obigen Aussage versagt das Schema der strukturellen
Induktion: die Funktion build selbst verwendet ein allgemeineres Rekursionsschema,
das wir in Abschnitt 4.5 näher untersuchen. Das beweistheoretische Analogon besprechen
wir im Vertiefungsabschnitt 4.6, so daß wir der Aussage an dieser Stelle einfach Glauben
schenken.
Für sortTree muß schließlich gelten:
Übung 4.16 Zeige, daß sortTree ihre Spezifikation erfüllt.
ordered (sortTree $t$)
(4.23)
bag (sortTree t) = bag t
(4.24)
Beide Aussagen lassen sich mit dem Induktionsschema für Tree einfach nachweisen
(siehe Aufgabe 4.16).
Wir haben kurz angemerkt, daß für den Nachweis der Korrektheit die Struktur des in
der ersten Phase erzeugten Baums keine Rolle spielt. Natürlich können wir mit leftist
bzw. rightist auch einen „Strunk“ erzeugen. Wir erhalten dann:
insertionSort’ :: (Ord a) => [a] -> OrdList a
insertionSort’ = sortTree . rightist
4.4.2. Phase 1: Konstruktion von Braun-Bäumen
Wir haben in Abschnitt 4.3.4 besprochen, daß die Funktion build sogenannte BraunBäume konstruiert. Zur Erinnerung: der linke und der rechte Teilbaum sind jeweils gleich
groß, vorausgesetzt die Gesamtzahl der Blätter ist gerade; anderenfalls ist der rechte Teilbaum ein Element größer. Die beiden Varianten von build, die wir in Abschnitt 3.4
vorgestellt haben, sind beide nicht strukturell rekursiv definiert — sie implementieren die
Idee des wiederholten Halbierens der Ausgangsliste sehr direkt und natürlich.
In diesem Abschnitt wollen wir der — vielleicht akademisch anmutenden — Frage nachgehen, wie sich Braun-Bäume strukturell rekursiv erzeugen lassen. Aus dem Rekursionsschema ergibt sich mehr oder minder zwangsläufig die folgende Definition.
type Braun a = Tree a
4.4. Anwendung: Sortieren durch Fusionieren
79
build’ :: [a] -> Braun a
build’ []
= Nil
build’ (a:as) = extend a (build as)
Im Rekursionsschritt stellt sich eine interessante Teilaufgabe: ein Braun-Baum muß um
ein Element erweitert werden. Die Basisfälle sind schnell gelöst:
extend :: a -> Braun a -> Braun a
extend a Nil
= Leaf a
extend a (Leaf b) = Br (Leaf b) (Leaf a)
Im Rekursionsschritt haben wir einen Baum der Form Br l r mit size r - size l ∈
{0, 1} gegeben, der um ein Element erweitert werden muß. Interessanterweise ergibt sich
das weitere Vorgehen zwangsläufig: Das Element a muß in den kleineren Teilbaum, also
l, eingefügt werden; da der erweiterte Baum extend a l größer ist als r, müssen wir
die beiden Teilbäume zusätzlich vertauschen. Anderenfalls wäre die Braun-Eigenschaft
verletzt. Wir erhalten:
1
0
(a)
extend a (Br l r) = Br r (extend a l)
Diese Vorgehensweise ist typisch für Operationen auf Braun-Bäumen. Trotz der knappen Definition von extend erfordert es einige Kopfakrobatik, die Konstruktion größerer
Bäume nachzuvollziehen. In Abbildung 4.2 sind die Bäume dargestellt, die man erhält,
wenn man nacheinander 0, 1, . . . , 7 in den anfangs leeren Baum einfügt. Beachte, daß
build’ die Elemente anders auf die Blätter verteilt als die Funktionen gleichen Namens
aus Abschnitt 3.4.
Kommen wir zur Korrektheit der Operationen: Zunächst haben wir die übliche Forderung nach dem „Erhalt der Elemente“:
bag (extend a t)
=
*a+ ] bag t
(4.25)
bag (build x)
=
bag x
(4.26)
Zusätzlich müssen build und extend Braun-Bäume erzeugen:
0
(b)
0
2
2
(c)
0
4
0
4
(e)
3
5
1
5
1
0
(f)
0
2
3
1
(d)
3
2
3
1
0
1
2
4
6
(g)
4
2
6
1
5
3
7
(h)
braun t =⇒ braun (extend a t)
(4.27)
braun (build x)
(4.28)
Genau wie bei insert und merge geben wir auch bei extend eine Vorbedingung an:
wir weisen die Korrektheit von extend a t nur für den Fall nach, daß t ein Braun-Baum
ist.
Abbildung 4.2: Braun-Bäume der Größe 1 bis 8
Übung 4.17 Zeige die Korrektheit von build und extend. Ist
die Spezifikation der Funktionen eindeutig?
80
4. Programmiermethodik
4.5. Wohlfundierte Rekursion
4.5.1. Das Schema der wohlfundierten Rekursion
Nicht alle rekursiven Funktionen, die wir bisher kennengelernt haben, verwenden das
Schema der strukturellen Rekursion. Ausnahmen sind power (Abschnitt 3.2.3), leaves’,
build und buildSplit (alle Abschnitt 3.4). Schauen wir uns noch einmal die Definition
von build an.
build :: [a] -> Tree a
build [] = Nil
build [a] = Leaf a
build as = Br (build (take k as)) (build (drop k as))
where k = length as ‘div‘ 2
In der dritten Gleichung wird die Argumentliste halbiert und die rekursiven Aufrufe
erfolgen auf den beiden Hälften. Strukturelle Rekursion liegt nicht vor, da take n as
keine Unterstruktur von as ist (wohl aber drop k as). Die Funktion ist trotzdem wohldefiniert, da die Länge der Teillisten echt kleiner ist als die Länge der Argumentliste. Die
rekursiven Aufrufe erhalten somit immer kleinere Listen, bis irgendwann der einfache Fall
der höchstens einelementigen Liste erreicht ist. Daß der einfache Fall erreicht wird, ist so
sicher wie das Amen in der Kirche: Man sagt, die Rekursion ist wohlfundiert.
Im Gegensatz zur strukturellen Rekursion kann das Schema der wohlfundierten Rekursion universell für beliebige Datentypen verwendet werden. Hier ist das Kochrezept:
Ist das Problem einfach, wird es mit ad-hoc Methoden gelöst. Anderenfalls
wird es in einfachere Teilprobleme aufgeteilt, diese werden nach dem gleichen
Prinzip gelöst und anschließend zu einer Gesamtlösung zusammengefügt.
Das Rekursionsschema heißt manchmal auch etwas kriegerisch „Teile und Herrsche“Prinzip. Betrachten wir noch einmal die oben erwähnten Funktionen: Die Funktion build
unterteilt ein Problem in zwei Teilprobleme; dies ist häufig der Fall, muß aber nicht so
sein. Die Funktionen power und leaves enthalten lediglich einen rekursiven Aufruf. Daß
die rekursiven Aufrufe tatsächlich „einfachere“ Probleme bearbeiten, ist bei allen Funktionen — mit Ausnahme von leaves — einsichtig. Im Fall von leaves geht der Baum
Br (Br l’ r’) r in den Baum Br l’ (Br r’ r) über. Inwiefern ist der zweite Baum
einfacher als der erste? Die Anzahl der Blätter wird zum Beispiel nicht geringer.
Damit die Rekursion wohlfundiert ist, müssen die Argumente der rekursiven Aufrufe
stets kleiner werden. Und: der Abstieg über immer kleiner werdende Elemente muß irgendwann auf einen Basisfall zulaufen. Diese Eigenschaft muß man als Programmiererin
nachweisen; sie wird einem nicht durch das Rekursionsschema geschenkt. Im Gegenteil:
4.5. Wohlfundierte Rekursion
81
der Nachweis der Wohlfundiertheit ist Voraussetzung für die sinnvolle Anwendung des
Schemas.
Formal zeigen wir diese Voraussetzung durch die Angabe einer wohlfundierten Relation:
Die Relation „≺“ heißt wohlfundiert, wenn es keine unendliche absteigende Kette
· · · ≺ xn ≺ · · · ≺ x 2 ≺ x1
gibt. Beispiele für wohlfundierte Relationen sehen wir in Kürze; ein Gegenbeispiel stellt
die Relation „<“ auf den ganzen Zahlen Z dar, da · · · < −3 < −2 < −1 < 0 unendlich
absteigend ist.
Die Wahl der Relation „≺“ hängt natürlich vom jeweiligen Problem ab. Auf den natürlichen Zahlen N wird man für „≺“ in der Regeln die normale, strikte Ordnungsrelation „<“
wählen. Damit läßt sich z.B. die Wohlfundiertheit von power zeigen. 3 Für listenverarbeitende Funktionen werden wir in der Regel die folgende Relation verwenden:
x≺y
⇐⇒
length x < length y .
(4.29)
Damit lassen sich z.B. build und buildSplit als wohlfundiert nachweisen.
Kommen wir zu der spannenden Frage, wie im Fall von leaves die Relation „≺“ zu
wählen ist. Es ist nützlich, sich die Definition von leaves aus Abschnitt 3.4 ins Gedächnis
zu rufen. Die entscheidende Gleichung lautet:
leaves (Br (Br l’ r’) r) =
Übung 4.18 Beweise, daß die in 4.29 definierte Relation wohlfundiert ist.
leaves (Br l’ (Br r’ r))
Der linke Teilbaum wird bei jedem rekursiven Aufruf von leaves verkleinert, bis schließlich ein Blatt erreicht wird, dann kommt die dritte oder vierte Gleichung von leaves zur
Anwendung. Die Verzweigungen aller linken Teilbäume werden somit zweimal angefaßt.
Bei der Gewichtung der Bäume zählen sie doppelt:
weight
weight
weight
weight
:: Tree a -> Integer
Nil
= 0
(Leaf a) = 0
(Br l r) = 1+2*(size l - 1) + weight r
Beachte, daß wir nur die Verzweigungen zählen: size l - 1 entspricht gerade der
Anzahl der Verzweigungen in l (siehe Aufgabe 4.11). Die Gewichtung eines Baums läßt
sich gut graphisch darstellen: Doppelt zählende Knoten malen wir schwarz, einfach zählende weiß. Abbildung 4.3 zeigt ein Beispiel für einen gewichteten Baum. Man sieht, daß
nur die Verzweigungen auf dem Weg zum rechten Blatt einfach zählen. Diese konstituieren gerade die in einem Baum verborgene Listenstruktur. Eine Rechtsrotation verkleinert
3 Streng
Abbildung 4.3: Gewichtung eines Binärbäums
genommen ist power nicht wohlfundiert, da der Aufruf power x n nur für nicht-negative n arbeitet.
Intendiert ist, power auf die natürlichen Zahlen einzuschränken. Haskell verfügt aber nur über ganze Zahlen.
v
t
u
=⇒
t
u
Abbildung 4.4: Gewichtete Rotation
v
82
4. Programmiermethodik
das Gewicht eines Baums um eins: Ein schwarzer wird zu einem weißen Knoten (Abbildung 4.4). Die Relation „≺“ wird somit definiert durch
t≺u
⇐⇒
weight t < weight u .
Überzeugen wir uns, daß das Gewicht des rekursiven Aufrufs tatsächlich kleiner wird.
weight (Br (Br l’ r’) r)
=
2*size (Br l’ r’) + weight r - 1
=
2*size l’ + 2*size r’ + weight r - 1
(Def. size)
(Def. weight)
(Arithmetik)
>
2*size l’ + 2*size r’ + weight r - 2
=
2*size l’ + weight (Br r’ r) - 1
(Def. weight)
=
weight (Br l’ (Br r’ r))
(Def. weight)
Damit ist gezeigt, daß leaves wohlfundiert ist.
Übrigens — die strukturelle Rekursion ist ein Spezialfall der wohlfundierten Rekursion. Die Relation ≺ liegt bei der strukturellen Rekursion implizit zugrunde: y ≺ x ⇐⇒
y ist Substruktur von x. Dieser Zusammenhang macht auch einen Vorzug der strukturellen Rekursion deutlich: wir bekommen den Nachweis der Wohlfundiertheit geschenkt.
4.6. Vertiefung: Wohlfundierte Induktion
Der Beweis von Aussage 4.22 steht noch aus. Daß build x und x stets die gleichen
Elemente enthalten, läßt sich nicht — oder jedenfalls nicht direkt — mit struktureller Induktion beweisen. Dies liegt im wesentlichen daran, daß build das Schema der wohlfundierten Rekursion verwendet. Glücklicherweise gibt es aber auch ein korrespondierendes
Beweisschema, daß es uns erlaubt, den Beweis direkt zu führen.
Wie auch beim Rekursionsschema muß zunächst eine wohlfundierte Relation festgelegt
werden, die beschreibt, was unter „einfacher“ bzw. „kleiner“ zu verstehen ist. Das Schema
der wohlfundierten Induktion nimmt dann die folgende Form an:
Wir zeigen die Aussage für alle Elemente, jeweils unter der Voraussetzung, daß
die Aussage für alle kleineren Elemente wahr ist.
Die formale Definition macht die Beweis-Obligation deutlich:
(∀y) ((∀z ≺ y) Φ(z)) =⇒ Φ(y)
(∀x) Φ(x)
Im Unterschied zur strukturellen Induktion gibt es keine explizite Induktionsbasis und
keinen Induktionsschritt: Die Aussage Φ(y) muß für alle y gezeigt werden, jeweils unter
4.6. Vertiefung: Wohlfundierte Induktion
83
der Annahme, daß Φ(z) für alle z ≺ y gilt. Um diese Allaussage nachzuweisen, wird
man in der Regel eine Fallunterscheidung über die Elemente des beteiligten Datentyps
vornehmen. Ist die Prämisse (∀z ≺ y) Φ(z) leer, d.h., es gibt keine kleineren Elemente als
y, dann liegt implizit ein Basisfall vor.
Wenden wir uns dem Nachweis von 4.22 zu: Die Relation „≺“ ist wie in 4.29 definiert,
d.h., wir führen den Beweis über die Länge von x. Für die Fälle x = [] und x = [a] ist
die Aussage wahr. In allen anderen Fällen gilt 1 6 k < length x. Daraus folgt
length (take k x)
=
k < length x
length (drop k x)
=
length x - k
<
length x.
bag (leaves t)
=
bag t
Übung 4.21 Zeige 4.30 mittels struktureller Induktion.
bag (build x)
bag (Br (build (take k x)) (build (drop k x)))
Übung 4.20 Zeige
mittels wohlfundierter Rekursion.
Somit kann die Induktionsannahme für die Argumente von build angewendet werden.
Wir erhalten:
=
Übung 4.19 Zeige, daß power korrekt ist.
(Def. build)
=
bag (build (take k x)) ] bag (build (drop k x))
=
bag (take k x) ] bag (drop k x)
(I.V.)
=
bag (take k x ++ drop k x)
(4.11)
=
bag x
(4.10)
(Def. bag)
(4.30)
84
4. Programmiermethodik
5. Effizienz und Komplexität
Ziele des Kapitels:
Jeder von uns hat schon manches Mal eine Rechnung abgebrochen — weil uns die Anzahl der Rechenschritte zu groß wurde oder uns die Unhandlichkeit eines immer größer
wachsenden Formelberges entmutigt hat. Für uns ist dies immer der Anstoß, einen geschickteren Lösungsweg zu suchen (oder jemand anders, der die Rechnung durchführt).
Niemand würde deshalb auf die Idee kommen, eine allgemeine Theorie des Rechenaufwands zu entwickeln. Anders liegt die Sache, wenn wir umfangreiche Rechnungen auf
den Computer übertragen. Denn mit gegebenem Programm liegt ja der Lösungsweg fest
— und damit auch der zugehörige Rechenaufwand. Die Frage nach der Effizienz von Programmen kommt damit auf den Tisch.
Dieser Frage ist ein ganzes Teilgebiet der Informatik gewidmet — die Komplexitätstheorie. Die Beurteilung der Effizienz von Programmen ist für sie nur der Ausgangspunkt.
Darüber hinaus geht es in ihr um die allgemeinere Frage, mit welchem Aufwand sich
welche Klassen von Problemen algorithmisch lösen lassen.
Von dieser Theorie behandeln wir hier im wesentlichen nur die Ausgangsfrage, nämlich die Effizienzbeurteilung von Programmen. Die dabei benutzten Begriffe und Techniken gehören zum elementaren Handwerkszeug jeden Informatikers. Über den Bedarf
eines Programms an Rechenzeit und Speicherplatz sollte man sich klar sein, bevor man
ein Programm startet. Im allgemeinen möchten wir ja auch den Computer nicht unnötig
beschäftigen.
5.1. Grundlagen der Effizienzanalyse
5.1.1. Maßeinheiten für Zeit und Raum beim Rechnen
Zeit mißt man in Sekunden, Raum in Metern. Beides taugt natürlich nicht, wenn wir den
Aufwand zur Durchführung eines Programms messen wollen. Sekunden eignen sich nicht
zur Bestimmung der Rechenzeit — verschiedene Rechner, elektronische wie menschliche,
werden ein unterschiedliches Tempo an den Tag legen, was aber nichts mit den Eigenschaften des gerechneten Programms zu tun hat. Gleiches gilt für den Platzbedarf beim
Rechnen. Wir können schlecht die Quadratmeter Papier zählen, die im Zuge einer Rechnung mit Formeln vollgekritzelt werden. Menschliche Rechner weisen enorme Unterschie-
86
Grit Garbo: In der Tat gelingt es mir stets, auch die komplizierteste Rechnung auf einer DIN A4 Seite unterzubringen. Tafelwischen vermeide ich grundsätzlich.
Lisa Lista: Dabei gibt es doch sehr einfache und beliebig komplizierte Gleichungen, und z.B. die Anwendung der let-Regel
kommt mir ganz besonders aufwendig vor. Wenn von all dem
abstrahiert wird — wie können wir dann ein realistisches Effizienzmaß erhalten?
Harry Hacker: Mit Maschineninstruktionen und Bytes als Einheiten für Zeit und Platz wäre mir wohler. Da weiß man was
man hat.
Lisa Lista: Konkreter wär’s allemal, Harry, aber wir müßten die
Haskell-Programme erst in Maschinenbefehle übersetzen, ehe
wir sie beurteilen können...
5. Effizienz und Komplexität
de im Papierverbrauch auf, ohne daß dies als Problem gesehen wird. Dagegen gleicht der
Tafelanschrieb eines Dozenten schon eher einem bewußten Magagement von begrenzten
Platzressourcen und damit dem, was auch beim maschinellen Rechnen mit beschränktem
Speicherplatz berücksichtigt werden muß. Es gilt also, Maßeinheiten für Rechenzeit und
Platzbedarf festzulegen, die vom ausführenden Organ unabhängig sind und so nur die
Eigenschaften des Programms wiedergeben.
Ein etwas abstrakteres Maß der Rechenzeit ist ein Rechenschritt. Dabei gibt es verschiedene Möglichkeiten, was man als einen Rechenschritt zählen will, und wir wählen
die naheliegendste: Ein Rechenschritt ist die Anwendung einer definierenden Gleichung.
Ist die Gleichung bewacht, zählen die Rechenschritte zur Auswertung der Wächter plus
ein extra Schritt zur Auswahl der rechten Seite. Wenn unsere Programme let-, caseoder Funktionsausdrücke enthalten, zählen wir auch die Anwendung jeder let-, caseoder β-Regel als einen Schritt.
Was wir nicht zählen, ist die Anwendung eines Konstruktors auf seine Argumente — schließlich sind Formeln, soweit sie aus Konstruktoren
aufgebaut sind, ja bereits ausgerechnet.
Im Hinblick auf den Platzbedarf einer Rechnung müssen wir zuächst festlegen, was die
Größe einer Formel ist. Sie soll bestimmt sein durch die Anzahl ihrer Symbole (Funktionen, Konstruktoren, Variablen). Klammern zählen wir nicht mit. Eine Rechnung geht von
einer gegebenen Formel aus, die es auszuwerten gilt. Als Platzbedarf der Rechnung, in
deren Verlauf eine Formel ja wachsen und wieder schrumpfen kann, betrachten wir die
maximale Formelgröße, die in der Rechnung auftritt. Dies entspricht also eher dem Modell des Tafelanschriebs mit Löschen erledigter Rechnungsteile (und Wiederverwendung
der Tafelfläche), und weniger dem verschwenderischen Papierverbrauch.
Es ist offensichtlich, daß wir uns bei der Festlegung der Einheiten an den Gegebenheiten der Sprache Haskell orientiert haben. Will man Programme in anderen Sprachen
beurteilen, kann man in ganz analoger Weise vorgehen. Die Techniken, die wir nun kennenlernen, sind auf alle Programmiersprachen anwendbar.
5.1.2. Detaillierte Analyse von insertionSort
Wir haben zwei Sortierprogramme kennengelernt. Da beide korrekt sind, realisieren sie
die gleiche mathematische Funktion: isort = mergeSort. Während der Mathematiker
jetzt verschnauft, fängt für den Informatiker die Arbeit an: Es gilt die von den beiden Programmen benötigten Resourcen, Rechenzeit und Speicherplatz, zu bestimmen. Wenn wir
das erreicht haben, werden wir sehen, daß mergeSort in den meisten Fällen kostengünstiger arbeitet als isort und somit bei Anwendungen den Vorzug erhält.
Es ist nützlich sich eine Notation für die Bestimmung des Rechenaufwands auszudenken: T ime(e ⇒ v) bezeichnet die Anzahl der Rechenschritte, um den Ausdruck e zum
Wert v auszurechnen. Sind wir an v nicht interessiert, schreiben wir auch kurz T ime(e).
5.1. Grundlagen der Effizienzanalyse
87
Den Platzbedarf, um e zu v auszurechnen, bezeichnen wir entsprechend mit Space(e ⇒ v)
oder kurz mit Space(e).
Nähern wir uns dem Thema langsam und versuchen eine Analyse des Zeitbedarfs von
isort — der Platzbedarf ist weniger interessant, wie wir später sehen werden. Die Funktion isort stützt sich auf die Funktion insert ab; also beginnen wir mit der Analyse
von insert. Um die genaue Anzahl der Rechenschritte zu bestimmen, schreiben wir die
Definition von insert noch einmal auf.
insert a []
= [a]
insert a (a’:as)
| a <= a’
= a:a’:as
| otherwise = a’:insert a as
(insert.1)
(insert.2)
(insert.2.a)
(insert.2.b)
Schauen wir uns als erstes an, wieviele Rechenschritte wir benötigen, um den Ausdruck
(insert c) (d:z) auszurechnen. Wir erhalten zwei unterschiedlichr Rechnungen, je
nachdem, ob der Wächter der zweiten Gleichung True oder False ergibt.
(insert c) (d:z)
⇒ | c <= d
= c:d:z
| otherwise
⇒ | True
= c:d:z
| otherwise
(insert.2)
= d:insert c z
(<=)
= d:insert c z
⇒ c : d : z
(insert.2.a)
beziehungsweise
⇒ | False
= c:d:z
| otherwise
(<=)
= d:insert c z
⇒ d:insert c z
(insert.2.b)
Nach 3 Rechenschritten sind wir entweder zum rekursiven Aufruf von insert gelangt,
oder wir haben den Ausdruck c:(d:z) erhalten. Das Ausrechnen von insert c []
schließlich kostet einen Rechenschritt. Fassen wir zusammen:
T ime(insert c [])
=
1
T ime(insert c (d:z))
=
3,
T ime(insert c (d:z))
=
3 + T ime(insert c z),
falls c 6 d
falls c > d
Aus ähnlichen Überlegungen resultieren weitere Gleichungen, die Aussagen über die
Kosten von isort machen.
T ime(isort [])
=
1
T ime(isort (a:x))
=
1 + T ime(isort x ⇒ v) + T ime(insert a v)
Übung 5.1 Schreibe die Definition von insert in let-, caseund Funktionsausdrücke um und führe die folgenden Schritte
mit dieser Version von insert durch. Was ändert sich?
88
5. Effizienz und Komplexität
Die Gleichungen beschreiben unser bisheriges Wissen über die Funktion T ime. Sie reichen aus, um z.B. T ime(isort [8,3,5,3,0,1]) zu bestimmen. [Was kommt heraus?]
Das ist nett, stellt uns aber nicht zufrieden: In der Regel wird man die Rechenzeit nicht
für ein bestimmtes Argument, sondern für beliebige Eingaben, d.h. in Abhängigkeit von
der Eingabe, bestimmen wollen. Und: Die Abhängigkeit der Laufzeit von der Eingabe
soll möglichst griffig dargestellt werden. Schließlich wollen wir ja die Effizienz eines Programms insgesamt bewerten und mit der Effizienz anderer Programme vergleichen. Nun
besteht aber wenig Aussicht, T ime(isort [a1 ,...,an ]) mit einer geschlossenen Formel auszudrücken. Wir vereinfachen uns das Leben, indem wir etwas abstrahieren und die
Rechenzeit in Abhängigkeit von der Größe der Eingabe bestimmen, d.h., wir kümmern uns
nicht um die Elemente der zu sortierenden Liste, sondern nur um ihre Länge. Eigentlich
ist dies auch vernünftig, da wir in der Regel eher genaue Kenntnis über die Anzahl denn
über die Ausprägung von Daten haben.
Nun ist die Laufzeit von isort nicht funktional abhängig von der Größe der Liste:
isort [1,2,3] ist schneller ausgerechnet als isort [3,2,1]. Wir helfen uns, indem
wir eine obere und eine untere Schranke für die Rechenzeit bestimmen und die Rechenzeit auf diese Weise einkreisen. In anderen Worten: Wir fragen, wie schnell kann man
isort [a1 ,...,an ] im besten und im schlechtesten Fall ausrechnen. Wenn wir das
Rechnen anderen — z.B. einem Rechner — überlassen, sagt uns die obere Schranke, ob
es sich lohnt, auf das Ergebnis der Rechnung zu warten. Die untere Schranke hilft uns
bei der Entscheidung, ob wir vorher einen Kaffee trinken gehen. Formal suchen wir zwei
Funktionen T isort und T isort , die die Rechenzeit einkreisen:
T isort (n) 6 T ime(isort [a1 ,...,an ]) 6 T isort (n)
Die untere und die obere Schranke sollten natürlich möglichst exakt sein:
T isort (n)
=
min{ T ime(isort x) | length x = n }
T isort (n)
=
max{ T ime(isort x) | length x = n }
Daß wir mit der Größe der Eingabe ausgedrückt als natürliche Zahl arbeiten, hat einen
weiteren nicht zu unterschätzenden Vorteil: Wir sind gewohnt mit Funktionen auf N zu
rechnen und von Seite der Mathematik werden wir kräftig unterstützt.
Aus den obigen Gleichungen für T ime können wir Gleichungen für T isort und T isort
ableiten, indem wir annehmen, daß der Wächter in insert immer zu True oder immer
5.1. Grundlagen der Effizienzanalyse
89
zu False auswertet.
T insert (0)
=
1
T insert (n + 1)
=
3
T insert (0)
=
1
T insert (n + 1)
=
3 + T insert (n)
T isort (0)
=
1
T isort (n + 1)
=
1 + T insert (n) + T isort (n)
T isort (0)
=
1
T isort (n + 1)
=
1 + T insert (n) + T isort (n)
Aus den rekursiven Gleichungen für insert und isort erhalten wir rekursiv definierte
Kostenfunktionen. In der Literatur heißen solche Gleichungen auch Rekurrenzgleichungen,
da die definierte Funktion auf der rechten Seite wieder auftritt (lat. recurrere). In den
folgenden Abschnitten werden wir Techniken kennenlernen, um diese und etwas kompliziertere Rekurrenzgleichungen aufzulösen. Für den Moment begnügen wir uns damit, die
geschlossenen Formen der Kostenfunktionen anzugeben:
T insert (0)
=
1
T insert (n + 1)
=
3
T insert (n)
=
3n + 1
T isort (0)
=
1
T isort (n + 1)
=
4n + 1
T isort (n)
=
(3/2)n2 + (1/2)n + 1
Im besten Fall muß insert das Element an den Anfang der Liste setzen, im schlechtesten
Fall an das Ende der Liste; die Anzahl der Rechenschritte ist dann proportional zur Länge
der Liste. Sortieren durch Einfügen liebt somit aufsteigend sortierte Listen und verabscheut absteigend sortierte Listen. Bevor wir zur Analyse der Sortierfunktion mergeSort
kommen, stellen wir ein paar allgemeine Betrachtungen an.
5.1.3. Asymptotische Zeit- und Platzeffizienz
In unseren bisherigen Überlegungen paßt etwas nicht zusammen: Einerseits, um die Kostenfunktionen zu ermitteln, haben wir recht pedantisch die Rechenschritte gezählt. Andererseits, bei der Bestimmung der Einheit „Rechenschritt“ haben wir großzügig jede Regel mit Kosten von eins belegt. Tatsächlich könnte es aber sein, daß die case-Regel aufwendiger ist als die let-Regel; die Kosten für die let-Regel könnten abhängen von der
Anzahl der Hilfsdefinitionen. Die Anwendung einer definierenden Gleichung könnte von
90
5. Effizienz und Komplexität
der Anzahl der Parameter und von der Größe der Muster abhängen. Zudem war die Einheit Rechenschritt selbst schon eine Abstraktion von realer, zum Rechnen benötigter Zeit:
Auf dem Rechner Warp III mit dem Übersetzer Turbo-Haskell könnten die Programme
um den Faktor 10 schneller ablaufen als auf dem Rechner Slack I mit dem Übersetzer
Tiny-Haskell. Jede dieser Überlegungen könnte dazu führen, daß die errechneten Kosten
um einen konstanten Faktor verringert oder vergrößert werden müssen.
Die gleiche etwas abstraktere Sichtweise wenden wir auch die Kostenfunktionen an.
Wenn wir die Effizienz eines Programms beurteilen bzw. zwei Programme bezüglich ihrer
Effizienz vergleichen, werden wir zunächst nicht danach fragen, ob 3n 2 oder 15n2 Rechenschritte benötigt werden. Für eine erste Einordnung interessiert uns das asymptotische
Wachstum der Kostenfunktionen: Wie verhält sich die Rechenzeit, wenn die Eingaben
groß — sehr groß — werden. Ein Programm mit einer Rechenzeit von 15n2 is asympto1 3
tisch besser als ein anderes mit einer Rechenzeit von 15
n : Die kleinere Konstante ist für
2
n > 15 = 225 vom höheren Exponenten aufgebraucht.
Um das asymptotische Verhalten von Funktionen zu beschreiben, gibt es einige wichtige
Notationen, die wir im folgenden einführen. Zu einer gegebenen Funktion g : N → N
bezeichnet Θ(g) die Menge aller Funktionen mit der gleichen Wachstumsrate wie g:
Θ(g)
=
{ f | (∃n0 , c1 , c2 )(∀n > n0 ) c1 g(n) 6 f (n) 6 c2 g(n) }
(5.1)
Ist f ∈ Θ(g), so heißt g asymptotische Schranke von f . Funktionen werden in diesem
Zusammenhang überlicherweise durch Ausdrücke beschrieben: 15n 2 meint die Funktion
n 7→ 15n2 . Welche Variable die Rolle des formalen Parameters übernimmt, ergibt sich aus
dem Kontext.1 Wenn wir somit kurz 15n2 ∈ Θ(n2 ) schreiben, meinen wir, daß g mit g(n) =
n2 eine asymptotische Schranke von f mit f (n) = 15n2 ist. Das asymptotische Verhalten
der Kostenfunktionen von insert und isort können wir wie folgt beschreiben:
T insert (n)
∈
Θ(1)
T insert (n)
∈
Θ(n)
T isort (n)
∈
Θ(n)
T isort (n)
∈
Θ(n2 )
Wir sagen, die „best case“-Laufzeit von isort ist Θ(n) und die „worst case“-Laufzeit ist
Θ(n2 ). Man sieht, daß Konstanten und kleine Terme, z.B. 2n + 1 in 3n2 + 2n + 1, unter den
Tisch fallen. Geht n gegen unendlich, dominiert der Term mit dem größten Exponenten.
1 In
unserer Programmiersprache unterscheiden wir sorgfältig zwischen Ausdrücken, die Zahlen bezeichnen,
und Ausdrücken, die Funktionen bezeichnen: 15*nˆ2 ist eine Zahl, die wir ausrechnen können, wenn wir
n kennen. Wollen wir ausdrücken, daß 15*nˆ2 eine Funktion in n ist, schreiben wir \n -> 15*nˆ2. Aus
Gründen der Bequemlichkeit — eine Bequemlichkeit, die uns ein Rechner nicht gestattet — verwenden wir
an dieser Stelle für Funktionen einfach Ausdrücke, ohne den formalen Parameter explizit zu kennzeichnen.
5.1. Grundlagen der Effizienzanalyse
91
Um nicht immer auf die Definition von Θ zurückgreifen zu müssen, ist es nützlich, sich
ein paar Eigenschaften von Θ zu überlegen. Hier ist eine Liste der wichtigsten:
f ∈ Θ(f )
(Reflexivität)
(5.2)
f ∈ Θ(g) ∧ g ∈ Θ(h) ⇒ f ∈ Θ(h)
(Transitivität)
(5.3)
f ∈ Θ(g) ⇒ g ∈ Θ(f )
(Symmetrie)
(5.4)
cf ∈ Θ(f )
(5.5)
na + nb ∈ Θ(na ) für a > b
(5.6)
loga n ∈ Θ(log b n)
(5.7)
In der letzten Beziehung haben wir unsere Notation stillschweigend auf Funktionen über
R ausgedehnt. Das erlaubt es uns, ohne „floor“- und „ceiling“-Funktionen zu rechnen.
Neben exakten asymptotischen Schranken gibt es auch Notationen für untere und obere
asymptotische Schranken:
Ω(g)
=
{ f | (∃n0 , c)(∀n > n0 ) cg(n) 6 f (n) }
(5.8)
O(g)
=
{ f | (∃n0 , c)(∀n > n0 ) f (n) 6 cg(n) }
(5.9)
Ist f ∈ Ω(g), so heißt g untere asymptotische Schranke von f . Für f ∈ O(g) heißt g entsprechend obere asymptotische Schranke von f . Die asymptotische Laufzeit von isort
ist z.B. Ω(n) und O(n2 ). Etwas Vorsicht ist bei der Verwendung von Ω und O geboten.
Auch die folgende Aussage ist wahr: Die asymptotische Laufzeit von isort ist Ω(log n)
und O(n10 ). Die Schranken müssen eben nicht genau sein. Aus diesem Grund ist es besser zu sagen: Die „best case“-Laufzeit von isort ist Θ(n) und die „worst case“-Laufzeit
von isort ist Θ(n2 ). Denkaufgabe: Gibt es eine Funktion f , so daß die Aussage „Die
asymptotische Laufzeit von isort ist Θ(f )“ korrekt ist?
Die asymptotische Betrachtungsweise hat viele Vorteile: Sie setzt nachträglich unsere
zu Beginn dieses Kapitels getroffenen Abstraktionen ins Recht. Wenn wir die asymptotische Laufzeit von Funktionen analysieren, ist es in der Tat korrekt, die Anwendung einer
Gleichung als einen Schritt zu zählen. Warum? Nun, die Gestalt der Gleichungen hängt
nicht von der Eingabe ab, ist also konstant. Jede Gleichung faßt eine feste Anzahl (einfacherer) Rechenschritte zusammen; das Ergebnis der Analyse kann somit nur um einen
konstanten Faktor verfälscht werden. Die Konstante fällt aber in der Θ-Notation wieder
unter den Tisch. Gleiches gilt für den Einfluß des Compilers: Sofern jede Haskell- Rechenregel auf eine feste Anzahl von Maschineninstruktionen abgebildet wird, kommt es für die
asymptotische Effizienz aufs Gleiche heraus, ob wir Maschineninstruktionen oder HaskellRegeln als Einheit wählen. Und schließlich macht auch die unterschiedliche Taktrate der
Rechner Warp III und Slack I nur einen konstanten Faktor aus, für die asymptotische
Effizienz also keinen Unterschied.
Wir dürfen sogar noch konsequenter sein und nur „laufzeitbestimmende“ Operationen
zählen: Getreu der asymptotischen Betrachtungsweise können wir eine Operation X als
Lisa Lista: Harry, damit sind unsere früheren Bedenken gegen
die Einheit Rechenschritt ausgeräumt, oder?
Harry Hacker: Sind sie — bis auf einen letzten Punkt. Vielleicht
sollte ich mal den Source-Code des Haskell-Compilers durchlesen.
92
Prof. Paneau: Wobei nicht verschwiegen werden sollte, daß
sich bei der Bestimmung der bestimmenden Operation schon
mancher verschätzt hat. Strenggenommen muß für jede Regel
nachgewiesen werden, daß für sie T Y 6 CT X gilt, und zwar für
ein festes C. Die Informatiker gehen damit oft sehr intuitiv um.
Übung 5.2 Nimm an, daß das Einfügen eines Elementes in eine
Liste durch insert im Durchschnitt in der Mitte der Liste erfolgt. Leite unter dieser Annahme die average-case Effizienz von
isort ab. Wo liegt der Unterschied zum worst case?
5. Effizienz und Komplexität
bestimmend ansehen, wenn für jede andere Operationen Y gilt T Y ∈ O(T X ). Die Sortierfunktionen basieren z.B. auf dem Vergleich von Elementen; die Anzahl der durchgeführten
Vergleichsoperationen bestimmt somit im wesentlichen die Laufzeit der Funktionen. Im
nächsten Abschnitt werden wir sehen, daß die Analyse von isort die gleiche asymptotische Laufzeit ermittelt, wenn wir nur die Vergleichsoperationen zählen.
Die Vorteile der asymptotischen Betrachtungsweise sind auch ihre Nachteile: Ist die
verborgene Konstante sehr groß, kann ein Verfahren trotz guter asymptotischer Laufzeit
in der Praxis unbrauchbar sein. Auf die Algorithmen, die wir betrachten, trifft das Gott sei
Dank nicht zu.
Noch eine letzte Bemerkung zur Art der Analyse. Bisher haben wir den „best case“ und
den „worst case“ untersucht. Man kann auch den Resourcenverbrauch für den „average
case“ berechnen. Die Analyse des durchschnittlichen Falls ist aber im allgemeinen sehr
schwierig: Sie setzt voraus, daß man Kenntnis über die Häufigkeitsverteilung der Eingaben
hat. Selbst wenn man — ob nun gerechtfertigt oder nicht — annimmt, daß alle Eingaben
gleich wahrscheinlich sind, bleibt die Analyse aufwendig.
5.2. Effizienz strukturell rekursiver Funktionen
Bestimmen wir noch einmal die „worst case“-Laufzeit von isort, indem wir nur die Anzahl der benötigten Vergleichsoperationen bestimmen. Das vereinfacht das Zählen und
auch die Rekurrenzgleichungen.
T insert (0)
=
0
T insert (n + 1)
=
1 + T insert (n)
T isort (0)
=
0
T isort (n + 1)
=
T insert (n) + T isort (n)
Die Gleichungen haben eine besonders einfache Form, die gut als Summenformel geschrieben werden kann. Man rechnet schnell nach, daß eine Kostenfunktion der Form
C(0)
=
c
C(n + 1)
=
f (n + 1) + kC(n)
die geschlossene Form
C(n)
=
kn c +
n
X
kn−i f (i)
(5.10)
i=1
hat. Im Fall von T insert und T isort ist die Konstante k gleich 1, da die Funktionen wie
auch der Datentyp Liste linear rekursiv sind: In der definierenden Gleichung kommt das
5.2. Effizienz strukturell rekursiver Funktionen
93
definierte Objekt genau einmal auf der rechten Seite vor. Mithilfe der Summenformel lassen sich die Kostenfunktionen für insert und isort leicht in eine geschlossene Form
bringen.
T insert (n)
T isort (n)
=
=
n
X
i=1
n
X
1 = n ∈ Θ(n)
i−1=
i=1
1
n(n − 1) ∈ Θ(n2 )
2
Wir sehen: Wenn wir durch die asymptotische Brille blicken, erhalten wir das gleiche
Ergebnis wie in Abschnitt 5.1.2.
Bisher haben wir den Zeitbedarf von isort analysiert. Widmen wir uns jetzt dem Platzbedarf. Bei der Analyse kommen uns die Überlegungen zur asymptotischen Komplexität
ebenfalls zu Gute: Auch hier spielen konstante Faktoren keine Rolle. Schauen wir uns den
typischen Verlauf einer Rechnung an.
isort [a1 , ..., an−1 , an ]
⇒
insert a1 (· · · (insert an−1 (insert an [])) · · ·)
⇒
[aπ(1) , ..., aπ(n−1) , aπ(n) ]
In der Mitte der Rechnung harren n Anwendungen von insert ihrer Abarbeitung. Während der Abarbeitung von insert ai x vergrößert sich die Formel kurzfristig etwas; am
Ende steht die um ai erweiterte Liste x. Summa summarum ist der Platzbedarf proportional zur Länge der Eingabeliste.
Space(insert a x)
∈
Θ(length x)
Space(isort x)
∈
Θ(length x)
Strukturell rekursive Funktionen auf Listen sind in der Regel gut zu analysieren, da die
resultierenden Rekurrenzgleichungen eine einfache Form haben. Funktionen auf Bäumen
stellen uns vor größere Probleme; dafür ist der Erkenntnisgewinn auch größer. Die Funktion sortTree, die einen Baum in eine sortierte Liste überführt, illustriert dies eindrucksvoll.
sortTree :: Tree Integer -> [Integer]
sortTree (Leaf a) = [a]
sortTree (Br l r) = merge (sortTree l) (sortTree r)
[In den nachfolgenden Rechnungen kürzen wir sortTree mit sT ab.] Wir wollen die
„worst case“-Laufzeit von sortTree bestimmen; wie bereits praktiziert zählen wir zu
diesem Zweck nur die Vergleichsoperationen. Das Verhalten von merge ist schnell geklärt:
T merge (m, n)
=
m+n−1
für m, n > 1
94
5. Effizienz und Komplexität
Der schlechteste Fall für merge liegt vor, wenn beide Listen wie ein Reißverschluß verzahnt werden müssen: merge [0,2..98] [1,3..99]. [Ideal wäre es, wenn alle Elemente der kürzeren Liste kleiner sind als die der längeren Liste.]
Die Größe der Eingabe entspricht bei listenverarbeitenden Funktionen der Länge der
Liste. Was ist die bestimmende Eingabegröße im Fall von sortTree? Zur Listenlänge
korrespondiert die Anzahl der Blätter eines Baums — zu length korrespondiert size.
Versuchen wir unser Glück:
T sT (1)
=
0
T sT (n)
=
n − 1 + max{ T sT (i) + T sT (n − i) | 0 < i < n }
Da wir nur die Größe des Baums kennen, nicht aber die Verteilung der Blätter auf den
linken und rechten Teilbaum, sind wir gezwungen alle möglichen Kombinationen durchzuprobieren. Schließlich wollen wir ja die „worst case“-Laufzeit bestimmen. Es ist immer
hilfreich, unbekannte Funktionen für kleine Werte zu tabellieren:
n 1 2 3 4 5 6 7 8 9
T sT (n) 0 1 3 6 10 15 21 28 36
Man sieht, wir erhalten:
T sT (n)
=
n
X
i−1 =
i=1
Übung 5.3 Zeige, daß 12 n(n − 1) die obige Rekurrenzgleichung
tatsächlich erfüllt.
1
n(n − 1) ∈ Θ(n2 )
2
Der schlechteste Fall tritt somit ein, wenn der linke Teilbaum nur einen Knoten enthält
und der rechte alle übrigen, oder umgekehrt. Dann gilt gerade: size t = depth t + 1.
Die Verwendung von size als Maß für die Größe eines Baums ist eigentlich nicht
besonders motiviert, genausogut könnten wir die Tiefe eines Baumes heranziehen. Los
geht’s:
0
T sT (0)
=
0
0
T sT (n
=
2n+1 − 1 + 2T sT (n)
+ 1)
0
Die Kosten für den Aufruf von merge, sprich die Anzahl der Knoten im Baum, haben wir
mit Gleichung (4.13) grob nach oben abgeschätzt. Die Rekurrenzgleichungen können wir
mit (5.10) lösen:
0
T sT (n)
=
n
X
i=1
Übung 5.4 Beweise die Eigenschaft 2ˆ(depth t - 1) <
size t 6 2ˆdepth t .
2n−i (2i − 1) =
n
X
2n − 2n−i = n2n − 2n + 1 ∈ Θ(n2n )
i=1
Hier ist der schlechteste Fall kurioserweise der ausgeglichene Baum 2 , dessen Größe durch
2ˆ(depth t - 1) < size t 6 2ˆdepth t eingeschränkt ist. Jetzt betrachten wir
2 Zur
Erinnerung: Ein Baum heißt ausgeglichen, wenn sich die Größe der Teilbäume für jede Verzweigung um
maximal eins unterscheidet.
5.2. Effizienz strukturell rekursiver Funktionen
95
beide Ergebnisse noch einmal und gleichen die Resultate mit den jeweiligen Beziehungen
zwischen Größe und Tiefe der Bäume ab. In beiden Fällen erhalten wir depth t*size t
als „worst case“-Laufzeit. Die Laufzeit wird durch das Produkt von Größe und Tiefe bestimmt:
T ime(sortTree t)
6
depth t*size t
Wir sehen: Die Laufzeit von sortTree läßt sich am genauesten bestimmen, wenn wir
sowohl die Größe als auch die Tiefe des Baums berücksichtigen.
00
T sT (s, d)
=
sd
Für unsere Mühen werden wir freilich auch belohnt: Mit der Analyse von sortTree
haben wir so nebenbei auch isort und mergeSort erledigt! Die Aufrufstruktur von
isort entspricht gerade einem rechtsentarteten Baum. Aus size t = depth t + 1 folgt
das bereits bekannte Resultat:
T isort (n)
=
00
T sT (n, n − 1) ∈ Θ(n2 )
Der von mergeSort abgearbeitete Baum ist hingegen ausgeglichen. Wir wissen ja bereits, daß build stets ausgeglichene Bäume erzeugt. Aus 2ˆ(depth t - 1) < size t 6
2ˆdepth t folgt dann
T mergeSort (n) = T sortTree (n) + T build (n)
und
00
00
nblog2 nc 6 T sT (n, blog2 nc) 6 T mergeSort (n) 6 T sT (n, dlog2 ne) 6 ndlog2 ne
Da build überhaupt keine Vergleiche durchführt, gilt
T build = 0
und somit (das Weglassen der Basis des Logarithmus ist durch 5.7 gerechtfertigt)
T mergeSort (n)
∈
Θ(n log n).
Aus den Ergebnissen läßt sich unmittelbar folgern, daß Sortieren durch Fusionieren eine
asymptotisch bessere „worst case“-Laufzeit als Sortieren durch Einfügen hat.
Der Platzbedarf von mergeSort ist genau wie der von insertionSort linear in der
Länge der Eingabeliste. Dazu überlegt man sich, wieviele Knoten der Aufrufbaum von
mergeSort enthält.
mergeSort [a1 , ..., an−1 , an ]
⇒
merge (· · ·(merge [a1 ] [a2 ])· · ·) (· · ·(merge [an−1 ] [an ])· · ·)
⇒
[aπ(1) , ..., aπ(n−1) , aπ(n) ]
Übung 5.5 Zeige durch strukturelle Induktion über t, daß die
Beziehung T ime(sortTree t) 6 depth t*size t gilt.
96
5. Effizienz und Komplexität
In der Mitte der Rechnung harren n − 1 merge-Aufrufe ihrer Abarbeitung. Somit ist die
maximale Größe der Formel proportional zur Größe der Eingabeliste.
Space(mergeSort x)
∈
Θ(length x)
Jetzt haben wir alle Informationen zusammen, um die beiden Sortierverfahren quantitativ miteinander zu vergleichen. Da der Platzbedarf asymptotisch gleich ist, betrachten
wir nur den Bedarf an Rechenzeit. Klar, die Funktion n log n ist kleiner als n 2 , also ist
mergeSort effizienter als insertionSort. Aber, um wieviel effizienter? Ein paar Zahlen
verdeutlichen den Unterschied:
n
103
104
105
106
n log2 n
≈ 10, 0 ∗ 103
≈ 13, 3 ∗ 104
≈ 16, 6 ∗ 105
≈ 19, 9 ∗ 106
n2
106
108
1010
1012
Ist n gleich Tausend, ist Sortieren durch Fusionieren 100-mal schneller als Sortieren durch
Einfügen; für n gleich eine Million beträgt der Faktor schon 50.000. Je größer die Listen
werden, desto größer ist der Geschwindigkeitsgewinn.
Harry Hacker und Lisa Lista erhalten den Auftrag einen, Datensatz mit 1.000.000 Einträgen nach
bestimmten Kriterien zu sortieren. Harry verläßt sich auf sein Equipment, Warp III mit dem Übersetzer Turbo-Haskell, und implementiert zu diesem Zweck Sortieren durch Einfügen. Durch geschickte
Programmierung und aufgrund der Verwendung eines optimierenden Übersetzers, benötigt das resultierende Programm 2n2 Rechenschritte, um eine n-elementige Liste zu sortieren. Lisa Lista hat
sich vorher in die Literatur vertieft und Sortieren durch Fusionieren gefunden. Ihre Implementierung
ist nicht besonders ausgefeilt und da sie einen schlechten Übersetzer verwendet, benötigt ihr Programm 80n log 2 n Rechenschritte. Harrys Warp III schafft durchschnittlich 750.000 Rechenschritte
pro Sekunde, Lisas Slack I nur 50.000. Trotzdem wartet Harry — falls er so viel Geduld hat — rund
einen Monat auf das Ergebnis
2 · (106 )2
≈ 2.666.666 Sekunden ≈ 30, 9 Tage,
750.000
während Lisa nach rund neun Stunden den sortierten Datensatz vorliegen hat:
80 · (106 ) · log2 (106 )
≈ 31.891 Sekunden ≈ 8, 9 Stunden.
50.000
In einigen Fällen schneidet insertionSort allerdings besser ab als mergeSort: Gerade dann, wenn die Liste im wesentlichen schon sortiert ist. Dann benötigt insertionSort
statt quadratischer nur noch lineare Laufzeit, während sich an dem Verhalten von mergeSort
5.3. Effizienz wohlfundiert rekursiver Funktionen
97
asympotisch nichts ändert. Nur der konstante Faktor wird etwas besser. Nachrechnen!
Ob der Fall der (fast) vorsortierten Liste häufig auftritt, hängt von der jeweiligen Anwendung ab. Manchmal ist es sinnvoll, ihn zu berücksichtigen. Wir kommen darauf in
Abschnitt 5.5.2 zurück.
5.3. Effizienz wohlfundiert rekursiver Funktionen
Einige der bisher definierten Funktionen basieren auf dem Prinzip der wohlfundierten Rekursion: power, leaves und build. Die Funktion power analysieren wir in Abschnitt 5.8,
build und leaves kommen hier an die Reihe. Beginnen wir mit build. Wir gehen hier
etwas genauer vor und zählen alle Rechenschritte, weil wir später (Abschnitt 5.5) auch für
die konstanten Faktoren interessieren werden. Auch die Konstruktoranwendungen zählen
mit, schließlich besteht der Zweck von build gerade im Baumaufbau. Wir gehen von der
ursprünglichen Definition von build aus:
build []
= Nil
build [a]
= Leaf a
build (a:as) = Br (build (take k as))(build (drop (n-k) as))
where k = length as ‘div‘ 2
Die Effizienz von take und drop haben wir bereits analysiert; build verwendet außerdem length, was besonders einfach zu analysieren ist:
T take (k, n)
=
T drop (k, n) = min(k, n)
T length (n)
=
T length (n) = n + 1 ∈ Θ(n).
T build (0)
=
1
T build (1)
=
1
T build (n)
=
1 + T length (n) + T take (k, n) + T drop (k, n) + T build (bn/2c) + T build (dn/2e)
=
1 + (n + 1) + 2(bn/2c + 1) + T build (bn/2c) + T build (dn/2e)
für n > 1
Zur Vereinfachung nehmen wir an, daß die Division durch 2 immer aufgeht, also n = 2 m
gilt. Wir erhalten damit
T build (2m )
=
1
T build (2m )
=
2 ∗ 2m + 4 + 2T build (2m−1 )
=
(m + 2)2m+1 + 2m − 4
98
Prof. Paneau: Natürlich erwarte ich von einer gewissenhaften
Studentin, daß sie die Summenformel aufstellt und die geschlossene Form von T build nachrechnet.
Grit Garbo: Ehrenwert, Herr Kollege, aber mühsam. Ich würde den Ansatz T build(2m ) = (m + x)2m+1 − y aufstellen und die
Parameter x und y aus den beiden Rekursionsgleichungen bestimmen.
Harry Hacker: Und wenn wir T build ∈ Θ(n2 ) berechnet hätten?
Lisa Lista: Dann wäre auch T mergeSort ∈ Θ(n2 ), und unsere frühere Analyse allein auf Basis der Zahl der Vergleiche wäre falsch
gewesen.
Prof. Paneau: Genau, liebe Studenten. Bei der Bestimmung der
bestimmenden Operation hat sich schon mancher vergriffen.
Auch das Vereinfachen will eben gelernt sein.
5. Effizienz und Komplexität
Ersetzen wir 2m wieder durch n, so ergibt sich
T build (0)
=
1
T build (n)
=
1
T build (n)
=
2n(log n + 2) + n − 4 ∈ Θ(n log n)
Da wir den Fall, daß die Division durch 2 nicht aufgeht, durch einen konstanten Faktor
abschätzen können, gilt die asymptotische Aussage für beliebige Werte von n. Damit
fällt build in die gleiche Effizienzklasse wie sortTree, und unsere Aussage T mergeTree ∈
Θ(n log n) ist endgültig gerechtfertigt.
Wenden wir uns der wohlfundiert rekursiven Funktion leaves zu, die die Blätter eines
Baums ermittelt. Wie im Fall von sortTree haben wir das Problem, wie wir die bestimmende Eingabegröße von leaves wählen: Sowohl size als auch depth scheitern, da die
dritte Gleichung von leaves zu der paradoxen Rekurrenzgleichung
T leaves (n)
=
1 + T leaves (n)
führt. Beide Maße auf Bäumen scheitern, da sie die algorithmische Idee von leaves
nicht berücksichtigen. Was tun? Nun, eigentlich haben wir das Problem schon gelöst:
Der Induktionsbeweis in Abschnitt 4.6 verwendet ein Maß auf Bäumen, weight, dessen
Wert für jeden rekursiven Aufruf gerade um eins abnimmt. Also erhalten wir ohne weitere
Überlegungen:
T ime(leaves t)
=
weight t + 1
Wir müssen noch eins addieren für den Fall, daß t ein Blatt ist. Aus size t 6 weight t <
2*size t folgt:
T leaves (n)
∈
Θ(n)
Wir sehen: Unsere damaligen Anstrengungen werden belohnt. Die Relation „≺“ bzw. die
Funktion weight klären nicht nur, warum leaves terminiert, sondern auch wie schnell.
5.4. Problemkomplexität
Wir haben bisher zwei Sortierverfahren kennengelernt: isort mit einer „worst case“Laufzeit von Θ(n2 ) und mergeSort mit einer „worst case“-Laufzeit von Θ(n log n). Es
stellt sich die Frage, ob mit Sortieren durch Fusionieren bereits das Ende der Fahnenstange erreicht ist, oder ob man andere Verfahren mit einer noch besseren asymptotischen
Laufzeit entwickeln kann. In diesem Abschnitt beschäftigen wir uns mit der Komplexität des Sortierproblems: Wie schnell kann man durch Vergleich von Elementen sortieren?
Man sollte sich zunächst klarmachen, daß diese Fragestellung von einer anderen Qualität
5.4. Problemkomplexität
99
ist als die in den letzten Abschnitten behandelte: Wir analysieren nicht die Effizienz eines
Sortierverfahrens, sondern die Komplexität des Sortierproblems. Dabei ist die (asymptotische) Komplexität eines Problems bestimmt als die (asymptotische) Effizienz des besten
Programms, das dieses Problem löst.
Vorher halten wir noch einen Moment inne, denn es ist keine Selbstverständlichkeit,
daß dies überhaupt eine vernünftige Frage ist. Es ist zwar eine verbreitete Redensart, von
der Komplexität von Problemen aller Art zu sprechen. Nun macht man als Wissenschaftler täglich die Erfahrung, daß zwar manche Dinge zunächst kompliziert erscheinen, aber
immer einfacher werden, je besser man gedanklich erfaßt hat. Wenn also jemand von der
Komplexität eines Problems spricht, so ist es — im einfachsten Fall — eine Aussage über
sein eigenes, mangelhaftes Verständnis. Mag sein, daß auch einer angeben möchte mit
der Komplexität der Dinge, mit denen er sich beschäftigt. Oder er will gar andere davon
abhalten, hier allzusehr auf Klärung zu bestehen ... Was immer es auch sei, eines gibt es
nicht: Eine am Problem selbst festzumachende, objektivierbare Komplexität.
In der Algorithmik allerdings gibt es sie tatsächlich. Das liegt einfach daran, daß wir beim
algorithmischen Problemlösen uns auf einen festen Satz von Rechenregeln festlegen — auf
den Befehlssatz unseres Rechners, oder die Rechenregeln unserer Sprache Haskell. Darauf
bezogen kann man nachweisen, daß es untere Schranken für die Effizienz der Lösung
eines Problems gibt, die sich auf der Basis dieser Rechenregeln nicht unterbieten lassen.
Deshalb ist es korrekt, hier von der Problemkomplexität zu sprechen, ohne damit dem
sonst so fragwürdigen Gebrauch des Begriffes Komplexität recht zu geben.
Fangen wir klein an und überlegen, wieviele Vergleichsoperationen man mindestens
benötigt, um eine 2- oder 3-elementige Liste zu sortieren. Die Sortierprogramme lassen
sich gut durch Entscheidungsbäume darstellen: Die Verzweigungen sind mit Vergleichsoperationen markiert, die Blätter mit den Permutationen der zu sortierenden Liste. Zwei
Entscheidungsbäume sind nachfolgend abgebildet.
a1<=a2
/
\
[a1,a2] [a2,a1]
a1<=a2
/
\
a1<=a3
a2<=a3
/
\
/
\
a2<=a3 [a3,a1,a2]
a1<=a3 [a3,a2,a1]
/
\
/
\
[a1,a2,a3] [a1,a3,a2] [a2,a1,a3] [a2,a3,a1]
Die Tiefe des Entscheidungsbaums entspricht gerade der „worst case“-Laufzeit. Denkaufgabe: Was entspricht der „best case“-Laufzeit? Die Frage ist nun, wie tief ein Entscheidungsbaum mindestens sein muß, um n Elemente zu sortieren — wir suchen also
den besten der schlechtesten Fälle. Ist n = 2 gibt es 2 Permutationen und somit werden
dlog2 2e = 1 Vergleiche benötigt; für n = 3 ist die Tiefe dlog2 6e = 3. Allgemein ist die
100
5. Effizienz und Komplexität
Anzahl der Permutationen einer n-elementigen Liste n!. Mit (4.15) können wir die Anzahl
der benötigten Vergleichsoperationen nach unten abschätzen:
T imesort(n) > log2 (n!)
Die Fakultätsfunktion läßt sich mit der Stirlingschen Formel abschätzen:
n n
√
.
n! > 2πn
e
Insgesamt erhalten wir
T imesort(n) > log2
√
2πn
n n e
∈ Θ(n log n)
Daraus ergibt sich, daß Ω(n log n) eine untere Schranke für das Sortieren durch Vergleichen
ist. Da Mergesort eine „worst case“-Laufzeit von Θ(n log n) hat, wird die Schranke auch
erreicht. Verfahren, deren „worst case“-Laufzeit mit der unteren Schranke der für das
Problem ermittelten Komplexität zusammenfällt, nennt man auch asymptotisch optimal.
Asymptotisch optimale Sortierverfahren sind Mergesort und Heapsort. Nicht optimal sind
Sortieren durch Einfügen, Minimumsortieren, Bubblesort und Quicksort.
Wir betonen noch einmal, daß Ω(n log n) eine untere Schranke für das Sortieren durch
Vergleichen ist. Wenn wir zusätzliche Annahmen über die zu sortierenden Elemente machen können, läßt sich das Sortierproblem unter Umständen schneller lösen. Wissen wir
z.B., daß alle Elemente in dem Intervall [l . . . r] liegen, wobei r − l nicht sehr groß ist, dann
können wir auch in Θ(n) sortieren, siehe Abschnitt 5.6.
Im Idealfall sieht der Weg zu einer guten Problemlösung so aus:
1. Man verschafft sich Klarheit über die Komplexität des zu lösenden Problems.
2. Man entwickelt einen Algorithmus, dessen Effizienz in der Klasse der Problemkomplexität liegt. Asymptotisch gesehen, ist dieser bereits „optimal“.
3. Man analysiert die konstanten Faktoren des Algorithmus und sucht diese zu verbessern.
An den konstanten Faktoren eines Algorithmus zu arbeiten, der nicht der asymptotisch
optimalen Effizienzklasse angehört, macht in der Regel keinen Sinn, weil das aymptotische bessere Verhalten letztlich (also für große n) immer überwiegt. Allerdings darf man
sich auf diese Regel nicht blind verlassen und muß sich fragen, wie groß die Eingabe praktisch werden kann. Hat man z.B. ein Problem der Komplexität Θ(n) und ein asymptotisch
optimales Programm p1 mit großem konstantem Faktor C, so ist eventuell ein asymptotisch suboptimales Programm p2 mit T imep2 (n) ∈ Θ(n log n) vorzuziehen, wenn es einen
5.5. Anwendung: Optimierung von Programmen am Beispiel mergeSort
101
kleinen konstanten Faktor c hat. Ist zum Beispiel C = 10 und c = 1, so ist Programm p2
bis hin zu n = 1010 schneller. In den meisten Anwendungen würde dies den Ausschlag für
p2 geben.
Die Problemkomplexität Θ(f ) heißt polynomial, wenn f ein Polynom in n ist, und exponentiell, wenn n im Exponenten auftritt. Probleme exponentieller Komplexität nennt man
gerne „nicht praktikabel“ (untractable), um anzudeuten, daß bereits für sehr kleine Eingaben der Aufwand nicht mehr mit den verfügbaren Zeit-und Platzresourcen zu bewältigen
ist. Probleme mit polynomialer Effizienz gelten als „praktikabel“ (tractable), allerdings darf
der Grad des Polynoms nicht allzu hoch sein.
Hierzu einige Beispiele aus der molekularen Genetik:
• Das Problem, eine kurze DNA-Sequenz in einer längeren zu finden, liegt in Θ(n). Ist
die lange Sequenz z.B. ein komplettes bakterielles Genom, so liegt n etwa bei 3∗10 6.
• Der Ähnlichkeitsvergleich zweier DNA-Sequenzen besteht darin, daß man beide
durch Enfügen von Lücken so untereinander arrangiert, daß möglichst viele gleiche Nukleotide untereinander stehen. Der Vergleich zweier Sequenzen der Länge
n hat die Komplexität Θ(n2 ). Hier ist n praktisch auf wenige tausend Nukleotide
beschränkt.
• Die zweidimensionale Faltungsstruktur einer RNA (das ist eine einsträngige Variante
der DNA) läßt sich mit einem thermodynamischen Modell berechnen. Die Effizienz
des Verfahrens liegt bei Θ(n3 ) mit einem großen konstanten Faktor, so daß Strukturen von RNA-Molekülen nur bis zu einer Länge von ca. 500 Nukleotiden berechnet
werden können.
• Der simultane Vergleich von k DNA-Sequenzen der Länge n ist eine zentrale Frage
der Molekularbiologie, weil er Rückschlüsse auf evolutionäre Verwandschaft und
gemeinsame Funktionen gibt. Er hat die Effizienz Θ(2k−1 nk ) und kann daher nur für
wenige oder sehr kurze Sequenzen durchgeführt werden.
Allerdings finden Informatiker auch im Falle von nicht praktikablen Problemen in der
Regel einen Ausweg. Dieser kann zum Beispiel darin bestehen, daß das Problem nicht
exakt, sondern nur näherungsweise (aber effizienter) gelöst wird. Hier eröffnet sich ein
weites Feld der Algorithmik, das wir aber nicht betreten wollen.
5.5. Anwendung: Optimierung von Programmen am
Beispiel mergeSort
Optimierung von Programmen hat wenig mit Optimalität zu tun — es ist nur ein schlechter, aber üblicher Ausdruck für die Verbesserung der Effizienz. Sinnvolle Optimierung setzt
102
5. Effizienz und Komplexität
voraus, daß man sich im klaren ist über die „Schwächen“ des vorliegenden Programms und
die Chancen, seine Effizienz zu verbessern. Im diesem Abschnitt geht es um die Verbesserung der konstanten Faktoren.
Wir haben in Abschnitt 5.4 gesehen, daß Mergesort ein asymptotisch optimales Verfahren ist. Trotzdem kann man noch viel verbessern; die Tatsache, daß Mergesort asymptotisch optimal ist, sagt uns, daß es auch sinnvoll ist, bei Mergesort anzusetzen. Wir
werden zwei Verbesserungen vorführen, eine offensichtliche und eine vielleicht weniger
offensichtliche. Die offensichtliche Verbesserung besteht darin, aus einer Vor- oder Teilsortierung der Liste Nutzen zu ziehen. Dies zu tun ist naheliegend und auch angebracht,
denn die Laufzeit von mergeSort ist weitestgehend unabhängig von der Anordnung der
Elemente in der Liste: Auch die „best case“-Laufzeit ist Θ(n log n). Hier schneidet isort
mit einer „best case“-Laufzeit von Θ(n) besser ab (scheitert allerdings, wenn die Liste
absteigend sortiert ist). Die weniger offensichtliche Verbesserung zielt darauf ab, die unproduktive Teile-Phase zu optimieren. Fangen wir mit der weniger offensichtlichen Verbesserung an.
5.5.1. Varianten der Teile-Phase
Wir nehmen nun die Effizienz der Funktion build näher unter die Lupe.
Wie können wir den build-Schritt verbessern? Die wiederholte Längenbestimmung
der Teillisten ist überflüssig, wenn man die Länge als zusätzliches Argument mitführt:
build’’ :: [a] -> Tree a
build’’ as = buildn (length as) as
where buildn :: Int -> [a] -> Tree a
buildn 1 (a:as) = Leaf a
buildn n as
= Br (buildn k (take k as))
(buildn k (drop k as))
where k = n ‘div‘ 2
Was genau ändert sich dadurch? Vergleichen wir buildn mit build, das wir in Abschnitt 5.3 analysiert haben. Dort ist anstelle von T length (n) nun T div + T − einzusetzen,
der Beitrag n + 1 reduziert sich zu 2. Damit gilt: Die Funktion buildn löst also das Problem ebenfalls in einer Laufzeit von Θ(n log n). Der konstante Faktor halbiert sich jedoch
gegenüber build.
Ein schöner Fortschritt, könnte man meinen. Allerdings — da war ja noch die mittels
buildSplit definierte Funktion build’ aus Abschnitt 3.4 . Die Analyse der Effizienz
hatten wir auf später vertagt — hier ist sie.
buildSplit verwendet weder length noch take. Die entscheidende Gleichung ist
buildSplit n as = (Br l r, as’’)
5.5. Anwendung: Optimierung von Programmen am Beispiel mergeSort
103
where k = n ‘div‘ 2
(l,as’) = buildSplit
k as
(r,as’’) = buildSplit (n-k) as’
Für Arithmetik und Konstruktoren fallen 6 Rechenschritte an, und wir erhalten
T buildSplit (n)
=
6 + T buildSplit (bn/2c) + T buildSplit (dn/2e)
T buildSplit (1)
=
1
Als Lösung dieses Gleichungssystems ergibt sich für n = 2k genau T buildSplit (2k ) =
6(2k+1 − 1) = 12n − 6 ∈ Θ(n). Damit liegt build’ sogar in einer besseren Effizienzklasse
als build’’, allerdings mit einem etwa zehnfach schlechteren konstanten Faktor. Erst ab
log n = 12, also n = 212 wird die asymptotisch bessere Funktion build’ auch praktisch
besser sein.
Aber kann man den Baumaufbau nicht ganz weglassen, wenn man die aufgespaltenen
Listen gleich fusioniert? Wir eliminieren damit die Datenstrukur, die die beiden Phasen
trennt. Das funkioniert ganz systematisch: Wir rechnen einige Schritte mit den definierenden Gleichungen von mergeSort. Ausgangspunkt ist die Gleichung
mergeSort as = sortTree (build as)
Wir setzen für as die Fälle [], [a] und (a:as) ein und leiten neue Gleichungen ab:
mergeSort []
= sortTree(build [])
= sortTree Nil
mergeSort [a]
= sortTree(build [a])
= sortTree (Leaf
mergeSort (a:as) = sortTree(build (a:as))
= sortTree(Br (build (take k as)) (build
where k = length
= merge (sortTree (build (take k as))
sortTree (build (drop k as)))
where k = length
= merge (mergeSort (take k as)
mergeSort (drop k as)))
where k = length
a)
= []
= [a]
(drop k as)))
as ‘div‘ 2
as ‘div‘ 2
as ‘div‘ 2
Im letzten Schritt haben wir die definierende Gleichung von mergeSort gleich zweimal
angewandt (und zwar von rechts nach links), um die Funktionen sortTree und build
endgültig zum Verschwinden zu bringen. Als Fazit erhalten wir eine „baumfreie“ Variante
von mergeSort:
mergeSort’ []
= []
mergeSort’ [a]
= [a]
mergeSort’ (a:as) = merge (mergeSort (take k as))
(mergeSort (drop k as))
where k = length as ‘div‘ 2
Übung 5.6 Analysiere die Effizienz von mergeSort anhand der
hier abgeleiteten Definition.
104
5. Effizienz und Komplexität
Was haben wir erreicht? Die Datenstruktur des Baumes ist nur scheinbar verschwunden
— sie tritt nun als Aufrufufstruktur von mergeSort’ auf: Wo bisher eine Verzweigung
Br l r zwei Teilaufgaben zusammenhielt, ist es nun ein Aufruf der Form merge xs ys,
der nicht ausgerechnet werden kann ehe die Teilprobleme xs und ys gelöst sind. An der
aymptotischen Effizienz hat sich nichts geändert, und einen dramatischen Vorteil bei den
konstanten Faktoren dürfen wir auch nicht erwarten: Das Anwenden der Konstruktoren
Br, Nil und Leaf fällt weg, dafür hat merge ein Argument mehr als sortTree und
kostet vielleicht eine Kleinigkeit mehr. Wie diese Abwägung ausgeht, hängt eindeutig vom
Compiler ab und wird daher am einfachsten durch einen Test geklärt. Wir wählen eine
sortierte Liste, damit der Aufwand für merge minimal ausfällt, und andere Unterschiede
besser zu sehen sind:
mtest = mergeSort [1..10000]
mtest’ = mergeSort’ [1..10000]
Vom Standpunkt des systematischen Programmierens allerdings spricht alles für das ursprüngliche mergeSort: Die Trennung in zwei Phasen führt zu einem sehr übersichtlichen
Programm, und noch dazu kann für die erste Phase die Funktion build wiederverwendet
werden. Das ist nicht nur bequem, sondern auch sicher. Entwickelt man mergeSort’ direkt, muß man build implizit neu erfinden, und — Hand auf’s Herz — manch einer hätte
dabei vielleicht die Notwendigkeit der zweiten Gleichung übersehen und zunächst ein
fehlerhaftes Programm abgeliefert. Und last not least haben wir uns ja auch über die Effizienz von build schon Gedanken gemacht, was zu der besseren Variante build geführt
hat. Auch diese Verbesserung müßte man bei mergeSort’ noch einmal programmieren.
Wir bleiben damit bei der Trennung in zwei Phasen und betrachten das Problem noch
einmal aus einem anderen Blickwinkel.
Alle Varianten von build konstruieren den Baum von oben nach unten (engl. top
down). Die Liste [a1 ,...,an ] wir durch build in wenigen Schritten in den Baum Br
(build [a1 ,...,abn/2c ]) (build [abn/2c+1 ,...,an ]) überführt. Die oberste Verweigung wird „zuerst“ erzeugt, die Teilbäume in weiteren Schritten. Da wir Bäume durch
Ausdrücke beschreiben, ergibt sich diese Vorgehensweise fast zwangläufig.
Aber eben nur fast; genausogut können wir einen Baum Ebene für Ebene von unten
nach oben aufbauen (engl. bottom up). Das funktioniert so: Nehmen wir an, wir hätten
schon Bäume der Tiefe k erzeugt:
/\
/t1\
----
/\
/t2\
----
/\
/t3\
----
/\
/t4\
----
/\
/t5\
----
/\
/t6\
----
/\
/t7\
----
Bäume der Tiefe k + 1 erhalten wir, indem wir zwei jeweils zwei benachbarte Bäume
zusammenfassen; eventuell bleibt ein Baum einer kleineren Tiefe als „Rest“.
5.5. Anwendung: Optimierung von Programmen am Beispiel mergeSort
o
/
/\
/t1\
----
o
\
/\
/t2\
----
/
/\
/t3\
----
105
o
\
/\
/t4\
----
/
/\
/t5\
----
\
/\
/t6\
----
/\
/t7\
----
Diesen Schritt wiederholen wir so oft, bis nur noch ein Baum verbleibt, also gerade dlog 2 ne
mal. Um dieses Verfahren zu programmieren, muß man sich nur noch überlegen, daß man
die Zwischenergebnisse durch Listen von Bäumen repräsentiert. Im ersten Schritt ersetzen
wir jedes Listenelement a durch den Baum Leaf a.
bubuild :: [a] -> Tree a
bubuild = buildTree . map Leaf
Die Funktion buildLayer baut eine Ebene auf; buildTree iteriert buildLayer solange, bis ein Baum übrigbleibt.
buildTree :: [Tree a] -> Tree a
buildTree [t] = t
buildTree ts = buildTree (buildLayer ts)
buildLayer
buildLayer
buildLayer
buildLayer
:: [Tree a] -> [Tree a]
[]
= []
[t]
= [t]
(t1:t2:ts) = Br t1 t2:buildLayer ts
Wie effizient ist buildTree? In jedem Schritt wird die Anzahl der Bäume halbiert,
wobei buildLayer n Konstruktoranwendungen für eine Liste mit n Bäumen benötigt.
T buildLayer (n)
=
n
T buildTree (1)
=
0
T buildTree (n)
=
n + T buildTree (dn/2e)
für n > 1
Lösen wir die Rekurrenzgleichung auf, erhalten wir T buildTree (n) ∈ Θ(n). Welches Verfahren besser ist, buildn oder bubuild hängt letztlich noch vom verwendeten Übersetzer ab; dazu lassen sich schlecht allgemeingültige Aussagen machen. Allerdings hat das
„bottom up“-Verfahren einen kleinen Nachteil: Es werden keine ausgeglichenen Bäume
erzeugt; der resultierende Baum ist am rechten Rand ausgefranst. Für n = 2 m + 1 erhalten
wir einen Baum, dessen linker Teilbaum ein vollständiger Binärbaum der Größe 2 m ist und
dessen rechter Baum die Größe 1 hat: In jedem Iterationsschritt bleibt der letzte Baum als
Rest.
Übung 5.7 Knobelaufgabe: Lisa Lista hat die folgende Variante von buildTree entwickelt, die den letztgenannten Nachteil
mildern soll.
buildTree’ [t]
= t
buildTree’ (t:ts) = buildTree’
(buildLayer (ts++[t]))
Ist das tatsächlich eine Verbesserung? Welche Eigenschaft haben
die resultierenden Bäume? Ist diese Variante im Hinblick auf die
Verwendung in mergeSort sinnvoll? Wie kann man den Aufruf
von (++) „wegoptimieren“?
106
5. Effizienz und Komplexität
5.5.2. Berücksichtigung von Läufen
Mergesort läßt sich relativ einfach so modifizieren, daß eine Vor- oder Teilsortierung der
Listen ausgenutzt wird. Eine auf- oder absteigend geordnete, zusammenhängende Teilliste
nennen wir Lauf (engl. run). Da für zwei aufeinanderfolgende Listenelemente stets a i 6
ai+1 oder ai > ai+1 gilt, hat ein Lauf mindestens die Länge zwei. [Wenn wir von der
einelementigen Liste mal absehen.] Die Folge
16 14 13 4 9 10 11 5 1 15 6 2 3 7 8 12
enthält z.B. die folgenden fünf Läufe:
16 14 13 4 | 9 10 11 | 5 1 | 15 6 2 | 3 7 8 12.
Knobelaufgabe: Wieviele verschiedene Unterteilungen in 5 Läufe gibt es? Machen wir
uns daran, die Unterteilung einer Liste in eine Liste von Läufen zu programmieren. Wir
vergleichen zunächst die ersten beiden Elemente, um festzustellen, ob die Liste mit einem
auf- oder absteigendem Lauf beginnt. Für beide Fälle definieren wir eine Hilfsfunktion, die
den entsprechenden Lauf abtrennt.
runs
runs
runs
runs
:: [a] ->
[]
=
[a]
=
(a:b:x) =
[[a]]
[[]]
[[a]]
if a<=b then ascRun b [a] x
else descRun b [a] x
Die beiden Hilfsfunktionen erhalten drei Parameter: das letzte Element des bis dato erkannten Laufs, den Lauf selbst und die aufzuteilende Liste.
ascRun, descRun :: a -> [a] -> [a] -> [[a]]
ascRun a as []
= [reverse (a:as)]
ascRun a as (b:y) = if a<=b then ascRun b (a:as) y
else reverse (a:as):runs (b:y)
descRun a as []
= [a:as]
descRun a as (b:y) = if a<=b then (a:as):runs (b:y)
else descRun b (a:as) y
Wenn man sich die rekursiven Aufrufe anschaut, sieht man, daß immer ein Listenelement vom dritten zum zweiten Parameter „wandert“. Dieser Vorgang ist uns bereits bei
der Funktion reel begegnet. Wie dort dreht sich dabei die Reihenfolge der Elemente
um. Wenn wir einen absteigenden Lauf abarbeiten, ist diese Umkehrung sehr erwünscht:
Wir erhalten den Lauf aufsteigend sortiert. Anders verhält es sich, wenn wir einen aufsteigenden Lauf abarbeiten: Dann ist die Reihenfolge verkehrt und wir müssen den Lauf mit
reverse wieder in die richtige Reihenfolge bringen.
5.6. Datenstrukturen mit konstantem Zugriff: Felder
107
Ein Sortierverfahren, das umso schneller sortiert je weniger Läufe die Liste enthält, heißt
geschmeidig (engl. smooth). Sortieren durch Fusionieren machen wir geschmeidig, indem
wir in der Teile-Phase Bäume konstruieren, die in den Blättern Läufe statt einzelne Elemente enthalten.
smsort :: Ord a => [a] -> [a]
smsort = mergeRuns . build’ . runs
[Statt build’ können wir natürlich auch bubuild verwenden.] Die Herrsche-Phase
müssen wir leicht modifizieren:
mergeRuns :: Tree [a] -> [a]
mergeRuns (Leaf x) = x
mergeRuns (Br l r) = merge (mergeRuns l) (mergeRuns r)
Wir beschließen den Abschnitt mit einer kurzen Überlegung zur Effizienz von smsort.
Die Tiefe der konstruierten Binärbäume wird nicht mehr von der Anzahl der Elemente
bestimmt, sondern von der Anzahl der Läufe. An den Kosten pro Ebene ändert sich hingegen nichts; diese sind weiterhin proportional zur Anzahl der Elemente. Ist l die Zahl der
Läufe, dann hat smsort eine Laufzeit von Θ(n log l).
5.6. Datenstrukturen mit konstantem Zugriff: Felder
Die Komplexität eines gegebenen Problems läßt sich nicht verbessern — es ist ja gerade
ihr Begriff, daß sie sich nicht unterbieten läßt. Allerdings ist es manchmal möglich, die
Problemstellung etwas einzuschränken, und dadurch in eine bessere Effizienzklasse zu
kommen. So haben wir bisher angenommen, daß wir beliebige Daten sortieren, die der
Typklasse Ord angehören. Wir wußten also nichts über die Daten außer daß uns eine
Vergleichsoperation <= zur Verfügung steht. Und für das sortieren durch Vergleichen,
das haben wir gezeigt, ist die Problemkomplexität un einmal Θ(n log n). Wir schränken
nun das Problem etwas ein und setzen voraus, daß unsere Daten der Typklasse Ix, den
Indextypen angehören. Dafür werden wir zeigen, daß das Sortieren sogar mit linearem
Aufwand möglich ist. Alerdings brauchen wir dazu einen speziell auf die Benutzung der
Indextypen zugeschnittenen Datentyp.
Zunächst ein Nachtrag: Listenbeschreibungen.
Listen sind die am häufigsten verwendete Datenstruktur. Aus diesem Grund lohnt es
sich, weitere Notationen einzuführen, die die Konstruktion und die Verarbeitung von Listen vereinfachen. So erlaubt Haskell z.B. die Notation arithmetischer Folgen:
[1 ..] Liste der positiven Zahlen,
Lisa Lista: Wie gut, daß build den polymorphen Typ
[a] -> Tree a. Wo wir bisher einen Tree a aufgebaut haben, bauen wir nun mit der gleiche Funktion einen Tree [a]
auf.
Harry Hacker: Ist mir gar nicht aufgefallen!
108
5. Effizienz und Komplexität
[1 .. 99] Liste der positiven Zahlen bis einschließlich 99,
[1, 3 ..] Liste der ungeraden, positiven Zahlen,
[1, 3 .. 99] Liste der ungeraden, positiven Zahlen bis einschließlich 99.
Die Listen sind jeweils vom Typ [Integer]. Die untere und die obere Grenze können
durch beliebige Ausdrücke beschrieben werden. Die Schrittweite ergibt sich als Differenz
des ersten und zweiten Folgenglieds.
Um Funktionen auf Listen zu definieren, haben wir bis dato rekursive Gleichungen verwendet. Manchmal können listenverarbeitende Funktionen einfacher und lesbarer mit
Listenbeschreibungen programmiert werden. Schauen wir uns ein paar Beispiele an: Die
Liste der ersten hundert Quadratzahlen erhält man mit
squares :: [Integer]
squares = [n*n | n <- [0..99]]
Abstrahieren wir von einer speziellen Funktion und einer speziellen Liste, erhalten wir
die Funktion map:
map’ f x = [f a | a <- x]
Somit ist squares = map (\n -> n * n) [0..99]. Listenbeschreibungen ermöglichen oft eine erstaunlich kurze Formulierung von Programmen: Die vordefinierte Funktion a ‘elem‘ x überprüft, ob a ein Element der Liste x ist. Definieren läßt sie sich wie
folgt:
a ‘elem‘ x = or [a==b | b <- x]
Die vordefinierte Funktion or verallgemeinert die logische Disjunktion auf Listen Boolescher Werte.
Mit Hilfe einer Listenbeschreibung können auch Elemente einer Liste mit bestimmten
Eigenschaften ausgewählt werden. Die Funktion divisors n bestimmt die Liste aller
Teiler von n. Mit ihrer Hilfe läßt sich gut beschreiben, wann eine Zahl eine Prinzahl ist: n
ist prim, wenn divisors n==[1,n]. Beachte: 1 ist keine Primzahl.
divisors :: (Integral a) => a -> [a]
divisors n = [d | d <- [1..n], n ‘mod‘ d == 0]
primes :: (Integral a) => [a]
primes = [n | n <- [2..], divisors n == [1,n]]
Ein bekanntes Sortierverfahren, Quicksort von C.A.R. Hoare, läßt sich gut mit Hilfe von
Listenbeschreibungen definieren.
5.6. Datenstrukturen mit konstantem Zugriff: Felder
109
qsort’’ :: (Ord a) => [a] -> [a]
qsort’’ []
= []
qsort’’ (a:x) = qsort’’ [b | b <- x, b < a]
++ [a]
++ qsort’’ [ b | b <- x, b >= a]
Etwas Terminologie ist hilfreich, um über Listenbeschreibungen zu reden: Eine Listenbeschreibung wird durch den senkrechten Strich in den Kopf und in den Rumpf unterteilt.
Der Kopf enthält einen beliebigen Ausdruck; der Rumpf besteht aus einer Folge von Generatoren und Filtern: Ein Generator hat die Form p<-l, wobei p ein Muster und l ein
listenwertiger Ausdruck ist; ein Filter ist ein Boolescher Ausdruck. Enthält eine Listenbeschreibung mehrere Generatoren, werden diese geschachtelt abgearbeitet.
[(a,b) | a <- [0,1], b <- [1..3]]
⇒
[(0,1),(0,2),(0,3),(1,1),(1,2),(1,3)]
Die Variable a wird zunächst mit 0 belegt, b nimmt nacheinander die Werte von 1 bis 3
an. Der Ausdruck im Kopf wird jeweils bezüglich dieser Belegungen ausgerechnet. Man
sieht: Weiter rechts stehende Generatoren variieren schneller.
Genau wie ein let-Ausdruck führt auch ein Generator neue Variablen ein. Die Sichtbarkeit dieser Variablen erstreckt sich auf den Kopf und auf weiter rechts stehende Generatoren und Filter. Die Funktion concat, die eine Liste von Listen konkateniert, illustriert
dies.
Stellen wir uns die Aufgabe, die folgende kleine Tabelle darzustellen, die die ersten n
Quadratzahlen enthält:
0 1 2 3
n
0 1 4 9 · · · n2
Natürlich gibt es noch eine zusätzliche Bedingung: Der Zugriff auf den i-ten Eintrag soll
in konstanter Zeit möglich sein. Damit scheiden Listen aus: Der Zugriff, der übrigens als
Infix-Operator (!!) vordefiniert ist, benötigt Θ(i) Schritte. Verwenden wir ausgeglichene
Binärbäume, läßt sich die Zugriffszeit von linear auf logarithmisch drücken, konstant wird
sie nicht. Tupel gestatten zwar konstanten Zugriff auf die Koponenten, aber ihre Größe ist
fix. Selbst wenn n bekannt und klein ist, sind Tupel praktisch ungeeignet. Warum?
Mit den uns zur Verfügung stehenden Mitteln können wir die Aufgabe nicht lösen. Aus
diesem Grund gibt es einen vordefinierten Datentyp, der gerade die geforderten Eigenschaften erfüllt: das Feld (engl. array). Die Tabelle der Quadratzahlen ist schnell definiert:
squares’ :: Array Int Int
squares’ = array (0,99) [(i,i*i) | i <- [0..99]]
Schaut man sich die Ausgangstabelle noch einmal an, sieht man, daß sie im Prinzip eine endliche Abbildung realisiert: Jedem i, dem sogenannten Index (pl. Indizes), wird ein
Übung 5.8 Überlege wie Quicksort arbeitet, beweise seine Korrektheit und analysiere die Effizienz.
110
5. Effizienz und Komplexität
Element zugeordnet. Auch der Ausdruck array (l, u) vs, der ein Feld konstruiert,
enthält alle Zutaten einer Funktionsdefinition. Der Typ des Ausdrucks, Array a b, legt
den Vor- und Nachbereich fest, das Intervall (l, u) den Definitionsbereich; der Graph
der Funktion wird durch die Liste vs von Paaren beschrieben, wobei ein Paar (a, b) angibt, daß dem Argument a der Wert b zugeordnet wird. Diese Zuordnung muß eindeutig
sein: Für (a, v) ‘elem‘ xs und (a, w) ‘elem‘ xs gilt stets v == w.
Felder sind sehr flexibel: Sowohl der Definitionsbereich als auch der Graph können
durch beliebige Ausdrücke beschrieben werden. Im obigen Beispiel ist der Graph durch
eine Listenbeschreibung gegeben. Felder sind effizient: Der Zugriff auf ein Feldelement,
der als Infixoperator (!) vordefiniert ist, erfolgt in konstanter Zeit.
squares’!7 ⇒ 17*17 ⇒ 49
Um den Zugriff in konstanter Zeit durchführen zu können, muß an den Indextyp allerdings
eine Anforderung gestellt werden: Das Intervall (l, u) muß stets endlich sein. Dies ist
gewährleistet, wenn l und u ganze Zahlen sind. Auch Tupel ganzer Zahlen sind erlaubt;
auf diese Weise können mehrdimensionale Felder realisiert werden. Das folgende Feld
enthält das kleine 1 × 1:
multTable :: Array (Int, Int) Int
multTable = array ((0,0),(9,9))
[((i,j),i*j) | i <- [0..9], j <- [0..9]]
Listen kommen als Indextyp nicht in Frage: Zwischen zwei beliebigen Listen x und y
liegen stets unendlich viele Listen. Nachdenken! Typen, die als Indextypen verwendet
werden können, sind in der Typklasse Ix zusammengefaßt: Instanzen von Ix sind Int,
Integer, Char, Bool und Tupel von Indextypen. Folgende Funktionen auf Indextypen
sind vordefiniert:
range
inRange
array
bounds
assocs
(!)
::
::
::
::
::
::
(Ix
(Ix
(Ix
(Ix
(Ix
(Ix
a)
a)
a)
a)
a)
a)
=>
=>
=>
=>
=>
=>
(a,a)
(a,a)
(a,a)
Array
Array
Array
-> [a]
-> a -> Bool
-> [(a,b)] -> Array a b
a b -> (a,a)
a b -> [(a,b)]
a b -> a -> b
Mit range (l,u) erhält man die Liste aller Indizes, die in dem Intervall liegen; der
durch das Intervall beschriebene Bereich wird sozusagen als Liste aufgezählt. Die Funktion
inRange überprüft, ob ein Index in einem Intervall liegt. Ein Feld wird wie gesagt mit der
Funktion array konstruiert; mit bounds und assocs werden der Definitionsbereich und
der Graph eines Feldes ermittelt. Der Operator (!) entspricht der Funktionsanwendung.
Betrachtet man seinen Typ, so sieht man, daß der Indizierungsoperator ein Feld auf eine
Funktion abbildet.
5.6. Datenstrukturen mit konstantem Zugriff: Felder
111
Genug der Theorie, wenden wir uns weiteren Beispielen zu: Die Funktion tabulate
tabelliert eine Funktion in einem gegebenen Bereich.
tabulate :: (Ix a) => (a -> b) -> (a,a) -> Array a b
tabulate f bs = array bs [(i, f i) | i <- range bs]
Die Tabelle der ersten hundert Quadratzahlen erhält man alternativ durch den Aufruf
tabulate (\a -> a*a) (0, 99). Eine Liste läßt sich leicht in ein Feld überführen.
listArray :: (Ix a) => (a,a) -> [b] -> Array a b
listArray bs vs = array bs (zip (range bs) vs)
Die vordefinierte Funktion zip überführt dabei zwei Listen in eine Liste von Paaren:
zip [a1 ,a2 ,...] [b1 ,b2 ,...] = [(a1 ,b1 ),(a2 ,b2 ),...]. Die Länge der kürzeren
Liste bestimmt die Länge der Ergebnisliste. Mit zip [0..] x werden die Elemente von
x z.B. durchnumeriert.
Ein Feld heißt geordnet, wenn i 6 j ⇒ a!i 6 a!j für alle Indizes i und j gilt. Stellen
wir uns die Aufgabe, ein Element in einem geordneten Feld zu suchen. Wenn wir das
Feld von links nach rechts durchsuchen, benötigen wir im schlechtesten Fall Θ(n) Schritte, wobei n die Größe des Feldes ist. Sehr viel schneller ist das folgende Verfahren: Ist
(l,r) das Suchintervall, dann vergleichen wir das zu suchende Element mit dem mittleren Feldelement a!m wobei m = (l + r) ‘div‘ 2 ist. Je nach Ausgang des Vergleichs
ist das neue Suchintervall (l, m-1) oder (m+1, r). In jedem Schritt wird die Größe des
Suchintervalls halbiert: Die asymptotische Laufzeit beträgt Θ(log n).
binarySearch :: (Ord b, Integral a, Ix a) => Array a b -> b -> Bool
binarySearch a e = within (bounds a)
where within (l,r) = l <= r
&& let m = (l + r) ‘div‘ 2
in case compare e (a!m) of
LT -> within (l, m-1)
EQ -> True
GT -> within (m+1, r)
Denkaufgabe: Warum heißt das Verfahren binäre Suche?
In der Liste von Argument-/Wertpaaren, die der Funktion array als zweites Argument
übergeben wird, darf jeder Index höchstens einmal auftreten. Die Funktion accumArray
erlaubt beliebige Listen; zusätzlich muß jedoch angegeben werden, wie Werte mit dem
gleichen Index kombiniert werden.
accumArray :: (Ix a) => (b -> c -> b) -> b ->
(a,a) -> [(a,c)] -> Array a b
112
5. Effizienz und Komplexität
Der Ausdruck accumArray (*) e bs vs ergibt das Feld a, wobei das Feldelement a!i
gleich (· · ·((e*c1 )*c2 )· · ·)*ck ist, wenn vs dem Index i nacheinander die Werte c1 , . . . ,
ck zuordnet. Beachte: Ist die Operation (*) nicht kommutativ, spielt die Reihenfolge der
Elemente in vs eine Rolle.
5.7. Anwendung: Ein lineares Sortierverfahren
Wir illustrieren die Verwendung von accumArray mit zwei Sortierverfahren, die ganz anders arbeiten, als die in Kapitel 4 vorgestellten. In beiden Fällen wird zusätzliches Wissen
über die zu sortierenden Elemente ausgenutzt. Gilt es, ganze Zahlen zu sortieren, von
denen wir wissen, daß sie in einem kleinen Intervall liegen, so zählen wir einfach die
Häufigkeit der einzelnen Elemente.
countingSort :: (Ix a) => (a, a) -> [a] -> [a]
countingSort bs x = [ a | (a,n) <- assocs t, i <- [1..n]]
where t = accumArray (+) 0 bs [(a,1) | a <- x, inRange bs a]
Wenn das Intervall bs die Größe m und x die Länge n hat, sortiert countingSort in
Θ(m + n).
Entwickeln wir die Idee weiter, können wir auch Listen sortieren. Die Voraussetzung ist
ähnlich: Die Elemente der zu sortierenden Listen müssen in einem kleinen Intervall liegen.
Geeignete Eingaben sind z.B. Nachnamen; bestehen die Nachnamen nur aus Großbuchstaben, ist das Intervall gerade (’A’,’Z’) und damit klein genug. Für jedes Element aus
dem Intervall gibt es einen Topf, die Listen werden nach ihrem Kopfelement in die Töpfe
geworfen: "HACKER" wandert als "ACKER" in den mit ’H’ markierten Topf, "LISTA"
als "ISTA" in den Topf mit der Aufschrift ’L’. Die Inhalte der einzelnen Töpfe werden
rekursiv nach dem gleichen Prinzip sortiert.
listSort :: (Ix a) => (a, a) -> [[a]] -> [[a]]
listSort bs xs
| drop 8 xs == [] = insertionSort xs
| otherwise
= [[] | [] <- xs] ++
[a:x | (a, ys) <- assocs t, x <- listSort bs ys]
where t = accumArray (\y b -> b:y) [] bs [(a,x) | (a:x) <- xs]
Ist n die Länge von xs und k die maximale Länge der in xs enthaltenen Listen, beträgt die Laufzeit Θ(kn). Da das Verfahren nur für größere n lohnend ist, wird für n 6 8
konventionell sortiert.
Neben array und accumArray gibt es auch die Möglichkeit, ein Feld zu konstruieren,
indem ein gegebenes Feld an einigen Stellen modifiziert wird.
5.7. Anwendung: Ein lineares Sortierverfahren
113
(//) :: (Ix a) => Array a b -> [(a, b)] -> Array a b
Das Feld a//vs ist identisch mit a bis auf die in vs angegeben Stellen. Die folgende
Funktion, die eine Einheitsmatrix einer gegebenen Größe berechnet, demonstriert die
Verwendung von (//):
unitMatrix :: (Ix a, Num b) => (a,a) -> Array (a,a) b
unitMatrix bs@(l,r) = array bs’ [(ij,0) | ij <- range bs’]
// [((i,i),1) | i <- range bs]
where bs’ = ((l,l),(r,r))
Ein Feld, das nur Nullen enthält, wird in der Diagonalen mit Einsen überschrieben.
Aufgabe: Formuliere unitMatrix mit array und accumArray und vergleiche die verschiedenen Definitionen.
Wie bilde ich einen Baum auf ein Feld ab?
data LabTree a = Void | Node (LabTree a) a (LabTree a)
repr :: (Num a) => a -> LabTree b -> [(a,b)]
repr i Void
= []
repr i (Node l a r) = [(i,a)] ++ repr (2*i) l ++ repr (2*i+1) r
treeArray :: (Num b, Ix b) => LabTree
treeArray t = array bs [(i,Nothing) |
// [(i, Just a) | (i,a)
where as = repr 1 t
bs = (1, maximum [i | (i,a)
a -> Array b (Maybe a)
i <- range bs]
<- as]
<- as])
Wie Funktionen dürfen auch Felder rekursiv definiert werden. Schauen wir uns ein populäres Beispiel an: Die nachfolgende Tabelle enthält das sogenannte Pascalsche Dreieck.
0
1
2
3
4
5
6
7
8
0
1
1
1
1
1
1
1
1
1
1
2
1
2
3
4
5
6
7
8
1
3
6
10
15
21
28
3
4
5
6 7 8
1
4 1
10 5 1
20 15 6 1
35 35 21 7 1
56 70 56 28 8 1
Die Elemente der ersten Spalte und der Diagonalen sind gleich eins; alle anderen Elemente
ergeben sich durch Addition des links darüberliegenden und des direkt darüberliegenden
114
5. Effizienz und Komplexität
Elements. Die freien Einträge enthalten in Wirklichkeit Nullen, aus Gründen der Übersichtlichkeit sind sie nicht aufgeführt. Die Zahlen des Pascalschen Dreiecks erfüllen unzähligen
Eigenschaften, ein paar führen wir weiter unten auf. Zunächst kümmern wir uns darum,
ein Programm zu schreiben, das ein Dreick der Größe n erzeugt. Die Umsetzung ist sehr
direkt:
pascalsTriangle :: Int -> Array (Int,Int) Int
pascalsTriangle n = a
where a = array ((0,0),(n,n)) (
[((i,j),0) | i <- [0..n], j <- [i+1..n]]
++ [((i,0),1) | i <- [0..n]]
++ [((i,i),1) | i <- [1..n]]
++ [((i,j),a!(i-1,j) + a!(i-1,j-1)) | i <- [2..n],
j <- [1..i-1]])
Der Eintrag in der Zeile i und der Spalte j ist gleich a!(i,j). Die Elemente der vier
Bereiche — oberes Dreick, erste Spalte, Diagonale und unteres Dreieck — werden jeweils
durch eine Listenbeschreibung definiert. Die Anzahl der Additionsoperationen, die für die
Berechnung der gesamten P
Tabelle benötigt werden, läßt sich direkt aus der letzten Lin
stenbeschreibung ablesen: i=2 i − 1 = 12 n(n − 1). Aber — wie immer gilt, daß nur das
berechnet wird, was tatsächlich benötigt wird. Wird auschließlich auf den Eintrag (m, k)
mit m > k zugegriffen, beträgt die Anzahl der Additionsoperationen (m − k)k, da nur die
Elemente (i, j) in dem Bereich 2 6 i 6 m und max(1, i − k) 6 j 6 min(i − 1, k) ausgerechnet werden müssen. [Dieser Bereich hat die Form einer Raute, die Kosten entsprechen
der Fläche der Raute.] Jeder weitere Zugriff auf Element aus diesem Bereich ist allerdings
kostenlos, da jeder Eintrag höchstens einmal berechnet wird. Denkaufgabe: Nehmen wir
an, daß wir nur an dem Eintrag (m, k) interessiert sind. Warum ist es keine gute Idee, für
diesen Zweck statt des Feldes eine entsprechend rekursiv definierte Funktion zu programmieren?
Die Elemente des Pascalschen Dreiecks heißen auch Binomialkoeffizienten, weil das Element in
Zeile n und Spalte k dem Koeffizienten des Binoms xk`y n−k
´ entspricht, das man erhält, wenn man
die Formel (x + y)n ausmultipliziert. Als Notation ist nk gebräuchlich (sprich: n über k), wobei n
der Zeile und k der Spalte entspricht.
!
n
X
n k n−k
n
(x + y)
x y
=
k
k=0
` ´
In der Kombinatorik sind Binomialkoeffizienten allgegenwärtig, da nk der Anzahl der k-elementigen
Teilmengen einer n-elementigen Menge entspricht. Aus dieser Interpretation leitet sich auch die
folgende Definition ab:
!
n!
n
,
=
(n − k)!k!
k
5.8. Vertiefung: Rolle der Auswertungsreihenfolge
115
wobei n! = 1 · 2 · . . . · n die Fakultät von n ist. Denkaufgabe: Wie rechnet man die obige Formel
geschickt aus? Auch die Randwerte
!
!
!
i
i
i
= 1,
= 1,
= 0 für i < j
0
i
j
und die Beziehung
i
j
!
=
i−1
j
!
+
!
i−1
,
j −1
die wir bei der Konstruktion des Pascalschen Dreiecks verwendet haben, lassen sich bezüglich dieser
Interpretation deuten. Überlegen! Summieren wir die Elemente der n-ten Zeile, erhalten wir gerade
2n . Warum?
5.8. Vertiefung: Rolle der Auswertungsreihenfolge
Wir sind bei unseren Überlegungen bisher stillschweigend davon ausgegangen, daß alle
Ausdrücke ganz ausgerechnet werden müssen. Diese Annahme haben wir zum Beispiel
beim Aufstellen der Rekursionsgleichungen für insertionSort gemacht:
T ime(insertionSort (a:x))
=
3 + T ime(insertionSort x ⇒ v) + T ime(insert a v)
Zur Erinnerung: Mit T ime(e ⇒ v) haben wir die Anzahl der Schritte bezeichnet, um den
Ausdruck e zum Wert v auszurechnen. Die obige Gleichung setzt somit voraus, daß wir
insertionSort x in toto ausrechnen müssen, um insert a (insertionSort x)
ausrechnen zu können. Ist diese Annahme gerechtfertigt? Um mit Radio Eriwan zu antworten: „Im Prinzip ja, aber . . . “. Es kommt darauf an, ob wir die gesamte sortierte Liste
benötigen. Nehmen wir an, wir wollen das Minimum einer Liste von ganzen Zahlen berechnen. Hier ist eine einfache Lösung:
minimum :: [Integer] -> Integer
minimum x = head (insertionSort x)
Unter der — hier falschen — Annahme, daß alle Ausdrücke ausgerechnet werden müssen,
erhalten wir Θ(n log n) als „worst case“-Laufzeit von minimum. Rechnen wir nur das aus,
was wirklich benötigt wird, beträgt die Laufzeit Θ(n): Um insert a x ausrechnen zu
können, muß x die Form [] oder _:_ haben; dann kann insert a x in konstanter Zeit
ebenfalls zu einer Liste dieser Form ausgerechnet werden.
Wie wird nun in Haskell gerechnet? Es ist in der Tat so, daß jeder Ausdruck nur dann
ausgerechnet wird, wenn er im Laufe der Rechnung benötigt wird. Aus diesem Grund
ist die Laufzeit unter Umständen besser als unsere Rechnungen dies vermuten lassen.
Ein Beispiel: Um den Ausdruck let x=e in e’ auszurechnen, rechnen wir zunächst e’
116
5. Effizienz und Komplexität
aus. Stellen wir dabei fest, daß wir den Wert von x benötigen, werten wir e in einer
Nebenrechnung aus und setzen das Ergebnis für x ein. Benötigt wird x z.B., wenn wir eine Fallunterscheidung durchführen müssen, case x of {...}, oder wenn x Argument
arithmetischer Operationen ist: x*x. Auf diese Weise wird e höchstens einmal ausgerechnet.
Sollten wir auf die Idee kommen, e für jedes Auftreten von x neu auszurechnen, kann sich die
Rechenzeit und der Platzbedarf dramatisch erhöhen. Eine Mehrfachungauswertung könnte aus Versehen vorkommen, wenn wir e unausgewertet für x in e’ einsetzen — die let-Regel wird zu früh
angewendet — und mechanisch weiterrechnen.
Analysieren wir zur Illustration des Offensichtlichen die Funktion power aus Abschnitt 3.2.3. Der
Wert von y in let {y = power x (n ‘div‘ 2)} in ... wird offenbar benötigt. Die Laufzeit
von power x n ist abhängig vom Exponenten n; wir zählen die Anzahl der Multiplikationsoperationen. Zunächst die Analyse des tatsächlichen Verhaltens:
T power (0)
=
0
T power (2n − 1)
=
T power (n − 1) + 2
T power (2n)
=
T power (n) + 1
für n > 0
für n > 0
Eine geschlossene Form für T power (n) läßt sich gut bestimmen, wenn wir n binär darstellen, z.B. 13 =
(1101)2 . Mit jedem rekursiven Aufruf wird das letzte Bit, das „least significant bit“, abgeknipst. Ist
es 0, erhöhen sich die Kosten um eins, ist es 1 entsprechend um zwei. Wir erhalten:
T power (n)
für n > 0,
blog 2 nc + ν(n) + 1 ∈ Θ(log n)
=
wobei ν(n) gleich der Anzahl der Einsen in der Binärrepräsentation von n ist. Der Platzbedarf von
power ist ebenfalls Θ(log n).
Nehmen wir nun an, daß wir den Wert von y für jedes Vorkommen neu ausrechnen. Dann ergeben sich folgende Kostengleichungen:
0
T power (0)
0
T power (2n −
0
T power (2n)
1)
=
0
=
2T power (n − 1) + 2
=
0
2T power (n)
0
+1
für n > 0
für n > 0
Lösen wir die Rekurrenzgleichungen auf, erhalten wir
0
T power (n)
=
Θ(n)
für n > 0.
Wir sehen: Wenn wir naiv rechnen, erhöht sich die Laufzeit und unter Umständen auch der Platzbedarf drastisch, nämlich exponentiell.
6. Abstraktion
6.1. Listenbeschreibungen
Listen sind die am häufigsten verwendete Datenstruktur. Aus diesem Grund lohnt es sich,
weitere Notationen einzuführen, die die Konstruktion und die Verarbeitung von Listen
vereinfachen. So erlaubt Haskell z.B. die Notation arithmetischer Folgen:
[1 ..] Liste der positiven Zahlen,
[1 .. 99] Liste der positiven Zahlen bis einschließlich 99,
[1, 3 ..] Liste der ungeraden, positiven Zahlen,
[1, 3 .. 99] Liste der ungeraden, positiven Zahlen bis einschließlich 99.
Die Listen sind jeweils vom Typ [Integer]. Die untere und die obere Grenze können
durch beliebige Ausdrücke beschrieben werden. Die Schrittweite ergibt sich als Differenz
des ersten und zweiten Folgenglieds.
Um Funktionen auf Listen zu definieren, haben wir bis dato rekursive Gleichungen verwendet. Manchmal können listenverarbeitende Funktionen einfacher und lesbarer mit
Listenbeschreibungen programmiert werden. Schauen wir uns ein paar Beispiele an: Die
Liste der ersten hundert Quadratzahlen erhält man mit
squares’’ :: [Integer]
squares’’ = [n*n | n <- [0..99]]
Abstrahieren wir von einer speziellen Funktion und einer speziellen Liste, erhalten wir
die Funktion map:
map’’ f x = [f a | a <- x]
Somit ist squares = map (\n -> n * n) [0..99]. Listenbeschreibungen ermöglichen oft eine erstaunlich kurze Formulierung von Programmen: Die vordefinierte Funktion a ‘elem‘ x überprüft, ob a ein Element der Liste x ist. Definieren läßt sie sich wie
folgt:
a ‘elem‘ x = or [a == b | b <- x]
118
6. Abstraktion
Die vordefinierte Funktion or verallgemeinert die logische Disjunktion auf Listen Boolescher Werte.
Mit Hilfe einer Listenbeschreibung können auch Elemente einer Liste mit bestimmten
Eigenschaften ausgewählt werden. Die Funktion divisors n bestimmt die Liste aller
Teiler von n. Mit ihrer Hilfe läßt sich gut beschreiben, wann eine Zahl eine Prinzahl ist: n
ist prim, wenn divisors n==[1,n]. Beachte: 1 ist keine Primzahl.
divisors’ :: (Integral a) => a -> [a]
divisors’ n = [d | d <- [1..n], n ‘mod‘ d == 0]
primes’ :: (Integral a) => [a]
primes’ = [n | n <- [2..], divisors’ n == [1,n]]
Viel effizienter ist es allerdings, die Primzahlen mit dem „Sieb des Erathosthenes“ zu
bestimmen.
sieve :: (Integral a) => [a] -> [a]
sieve (a:x) = a:sieve [n | n <- x, n ‘mod‘ a /= 0]
primes’’ :: (Integral a) => [a]
primes’’ = sieve [2..]
Ein bekanntes Sortierverfahren, Quicksort von C.A.R. Hoare, läßt sich gut mit Hilfe von
Listenbeschreibungen definieren.
qsort’’’ :: (Ord a) => [a] -> [a]
qsort’’’ []
= []
qsort’’’ (a:x) = qsort’’’ [b | b <- x, b < a]
++ [a]
++ qsort’’’ [b | b <- x, b >= a]
Zur Übung: Überlege wie Quicksort arbeitet, beweise seine Korrektheit und analysiere
die Effizienz.
Etwas Terminologie ist hilfreich, um über Listenbeschreibungen zu reden: Eine Listenbeschreibung wird durch den senkrechten Strich in den Kopf und in den Rumpf unterteilt.
Der Kopf enthält einen beliebigen Ausdruck; der Rumpf besteht aus einer Folge von Generatoren und Filtern: Ein Generator hat die Form p <- l, wobei p ein Muster und l ein
listenwertiger Ausdruck ist; ein Filter ist ein Boolescher Ausdruck. Enthält eine Listenbeschreibung mehrere Generatoren, werden diese geschachtelt abgearbeitet.
[(a,b) | a <- [0,1], b <- [1..3]]
⇒
[(0,1),(0,2),(0,3),(1,1),(1,2),(1,3)]
6.1. Listenbeschreibungen
119
Die Variable a wird zunächst mit 0 belegt, b nimmt nacheinander die Werte von 1 bis 3
an. Der Ausdruck im Kopf wird jeweils bezüglich dieser Belegungen ausgerechnet. Man
sieht: Weiter rechts stehende Generatoren variieren schneller.
Genau wie ein let-Ausdruck führt auch ein Generator neue Variablen ein. Die Sichtbarkeit dieser Variablen erstreckt sich auf den Kopf und auf weiter rechts stehende Generatoren und Filter. Die Funktion concat, die eine Liste von Listen konkateniert, illustriert
dies.
concat’ xs = [a | x <- xs, a <- x]
Als abschließendes Beispiel lösen wir das 8-Damen-Problem: Es gilt 8 Damen auf einem
Schachbrett so zu plazieren, daß sie sich nach den Regeln des Schachs nicht bedrohen.
Wir verallgemeinern das Problem natürlich auf n: Es gilt alle gültigen Stellungen für ein
n × n-Schachbrett zu bestimmen. Zunächst müssen wir überlegen, wie wir eine Stellung
repräsentieren. Da jede Spalte genau eine Dame enthält, können wir z.B. die Liste der
Zeilenpositionen verwenden.
4
3
2 Q
1
1
Q
Q
[2,4,1,3]
2
Q
3
4
Die Repräsentation legt nahe, das Brett spaltenweise von links nach rechts zu belegen.
Sind wir in der i-ten Spalte angelangt, wählen wir eine noch nicht verwendete Zeilenposition aus und überprüfen, ob die Dame über eine Diagonale bedroht wird. Um diesen
Test schnell durchführen zu können, numerieren wir die auf- bzw. absteigenden Diagonalen wie folgt durch:
4 −3 −2 −1 0
3 −2 −1 0 1
2 −1 0
1 2
1 0
1
2 3
1
2
3 4
4
3
2
1
5
4
3
2
1
6
5
4
3
2
7
6
5
4
3
8
7
6
5
4
Die Nummer der aufsteigenden Diagonale ergibt sich als Differenz von Spalten- und Reihenposition, die Nummer der absteigenden Diagonale entsprechend durch die Summe.
type Board = [Integer]
queens :: Integer -> [Board]
queens n = place 1 [1..n] [] []
120
6. Abstraktion
Die Hilfsfunktion place erhält vier Argumente: die Nummer der aktuellen Spalte, die
Liste der noch nicht verwendeten Reihenpositionen und die Nummern der bereits belegten auf- und absteigenden Diagonalen.
place :: Integer -> [Integer] -> [Integer] -> [Integer] -> [Board]
place c [] ud dd = [[]]
place c rs ud dd = [q:qs | q <- rs,
let uq = q - c,
let dq = q + c,
uq ‘notElem‘ ud,
dq ‘notElem‘ dd,
qs <- place (c+1) (delete q rs) (uq:ud) (dq:dd)]
delete q (x:xs) | q == x
= xs
| otherwise = x:delete q xs
Mit let {d1; ...; dn} werden lokale Definitionen innerhalb einer Listenbeschreibung eingeführt; die Sichtbarkeit der Bezeichner erstreckt sich auf die weiter rechts stehenden Konstrukte und auf den Kopf der Listenbeschreibung.
Die Beispiele haben gezeigt: Listenbeschreibungen sind eine feine Sache; hat man sie
erst einmal für die Programmierung entdeckt, möchte man sie nicht mehr missen. Kann
man sich vorstellen, wie die Funktion place ohne Listenbeschreibungen aussieht? Wir
haben eine erkleckliche Anzahl von Listenbeschreibungen verwendet, ohne daß wir uns
darum gekümmert haben, was sie genau bedeuten. Das spricht für Listenbeschreibungen.
Für Zweifelsfälle ist es trotzdem gut, wenn man die Bedeutung festlegt. Das wollen wir
jetzt nachholen. Durch die folgenden vier Eigenschaften werden Listenbeschreibungen
vollständig beschrieben:
[ e | p <- l ]
=
map (\p -> e) l
[ e | b ]
=
if b then [e] else []
[ e | let ds ]
=
let ds in [e]
[ e | q 1 , q2 ]
=
concat [ [ e | q2 ] | q1 ]
Die Gleichungen können von links nach rechts verwendet werden, um Listenbeschreibungen zu eliminieren. Zur Übung: Entferne aus der Definition von place alle Listenbeschreibungen. Läßt sich das Ergebnis weiter vereinfachen?
Listenbeschreibungen haben viel gemeinsam mit der Definition von Mengen mittels
Angabe einer charakterisierenden Eigenschaft. Die Notation ist ähnlich: Vergleiche etwa
{ n2 | n ∈ {0, . . . , 99}∧n mod 2 = 0 } mit [nˆ2 | n <- [0..99], n ‘mod‘ 2 == 0].
Auch die Bedeutung ist ähnlich: Vergleiche { (x, y) | x ∈ M ∧y ∈ N } mit [(x,y) | x <m, y <- n]. Neben den Gemeinsamkeiten gibt es natürlich auch Unterschiede: Eine
Listenbeschreibung bezeichnet eine Liste; Reihenfolge und Anzahl der Elemente spielen
im Unterschied zur Menge eine Rolle. Schauen wir uns ein Beispiel an:
6.2. Funktionen höherer Ordnung
121
rep’ n a = [a | i <- [1..n]]
Die Variable i wird nacheinander mit den Werten von 1 bis n belegt, jeweils bezüglich
dieser Belegung wird der Kopf der Listenbeschreibung ausgewertet. Daß i im Kopf nicht
auftritt spielt keine Rolle. Das Ergebnis ist die n-elementige Liste [a,...,a]. Dagegen
macht die Mengenbeschreibung { a | i ∈ {1 . . . n} } wenig Sinn.
6.2. Funktionen höherer Ordnung
Dieser Abschnitt unterscheidet sich von den beiden vorhergehenden darin, daß wir keine
neuen Sprachkonstrukte einführen, sondern bereits Bekanntes aus einem neuen Blickwinkel betrachten. Dabei lernen wir gleichzeitig eine neue Programmiertechnik kennen, die
— eine gute Beherrschung vorausgesetzt — uns viel Arbeit ersparen kann.
6.2.1. Funktionen als Parameter
In Abschnitt 6.3.1 werden wir sehen, daß die Sortierfunktionen aus Kapitel 4 Listen fast
beliebiger Typen sortieren können — ohne daß wir uns groß anstrengen müssen. Abhängig
vom Typ der zu sortierenden Liste wird automatisch die entsprechende Vergleichsfunktion
verwendet. Keine Automatik ohne Nachteile, denn nicht immer leistet die Voreinstellung
das Gewünschte. Betrachten wir den Datentyp Person
data
data
data
type
type
Person
Date
Sex
FirstName
LastName
=
=
=
=
=
Person Sex FirstName LastName Date
Date Int Int Int
deriving (Eq,Ord)
Female | Male
String
String
Da lexikographisch verglichen wird, werden Elemente vom Typ Person zuerst nach
dem Geschlecht, dann nach dem Vornamen, dem Nachnamen und dem Geburtsdatum
angeordnet. Selbst wenn wir die Vergleichsoperation selbst definieren könnten — in Abschnitt 6.3.2 zeigen wir wie —, bleiben wir unflexibel: Wie können nicht einmal aufsteigend nach dem Nachnamen und ein anderes Mal absteigend nach dem Alter zu sortieren.
Die Lösung für dieses Problem ist einfach: Wir machen die Ordnungsrelation (<=)
zum Parameter der Sortierfunktionen; dann können wir für jede Anwendung eine maßgeschneiderte Ordnungsrelation angeben. Hier ist die Verallgemeinerung von isort:
isortBy :: (a -> a -> Bool) -> [a] -> [a]
isortBy (<=) = isort
where
Harry Hacker: Was heißt hier maßgeschneiderte Ordnungsrelation? Es wird ja doch wieder nach (<=) sortiert.
Lisa Lista: Aber das (<=) steht hier auf der linken Seite und ist
nur ein Parameter, der bei einem Aufruf von isortby an ein
Sortierkriterium gebunden wird. Zum Beispiel an (>=).
Harry Hacker: Okay, schon gut. Aber laß das Grinsen!
122
6. Abstraktion
isort []
= []
isort (a:x)
= insert a (isort x)
insert a []
= [a]
insert a x@(b:y)
| a<=b
= a:x
| otherwise = b:insert a y
Übung 6.1 Mit isortBy lassen sich Listen beliebigen Typs sortieren, auch Listen auf Funktionen. Warum muß a nicht Instanz
von Ord sein?
Die ursprüngliche Funktion isort erhalten wir, wenn wir für den Parameter wieder die
vordefinierte Ordnungsrelation einsetzen: isortBy (<=); mit isortBy (>=) sortieren
wir absteigend. Listen von Personen lassen sich nach vielen unterschiedlichen Kriterien
sortieren:
sortByLastName = isortBy (\p q -> components p <= components q)
where components (Person s f l d) = (l,f,d)
sortByDateOfBirth = isortBy (\p q -> dateOfBirth p <= dateOfBirth q)
where dateOfBirth (Person _ _ _ d) = d
Übung 6.2 Definiere mergeBy und msortBy.
Die Definition der Funktion sortByDateOfBirth wirft eine interessante Frage auf:
Wie werden zwei Personen mit dem gleichen Geburtsdatum angeordnet? Sortieren durch
Einfügen verhält sich erfreulich: Die relative Anordnung von Personen mit dem gleichen
Geburtsdatum wird nicht verändert; sind p und q zwei Personen, die am gleichen Tag
geboren sind, so gilt:
sortByDateOfBirth [..., p, ..., q, ...]
=
[..., p, ..., q, ...].
Sind die Personen bereits nach dem Nachnamen sortiert, so bleibt diese Anordnung je
Geburtsdatum erhalten.
Es lohnt sich, das Phänomen noch einmal genauer zu betrachten. Bisher sind wir davon
ausgegangen, daß „6“ eine totale Ordnung definiert; insbesondere muß „6“ antisymmetrisch sein: a 6 b∧b 6 a ⇒ a = b. Lassen wir — wie oben — diese Eigenschaft fallen, haben
wir nur noch eine Präordnung vor uns. Die Sortieralgorithmen „funktionieren weiterhin“,
nur — die Spezifikation aus Kapitel 4 ist unter diesen abgeschwächten Voraussetzungen
nicht mehr eindeutig, da es mehrere Permutationen einer Liste geben kann, die aufsteigend geordnet sind: Die Reihenfolge von Elementen a und b mit a 6 b ∧ b 6 a ist eben
nicht festgelegt. Verändert ein Sortierlagorithmus die Reihenfolge dieser Elemente nicht,
so heißt er stabil. Wir haben gesehen, daß Stabilität eine wünschenswerte Eigenschaft
ist. Von der bisher eingeführten Sortieralgorithmen ist nur smsort nicht stabil. Übung:
smsort läßt sich durch eine kleine Änderung in der Hilfsfunktion descRun stabilisieren.
Durch welche?
Wir wollen die Verwendung von Funktionen als Parametern noch an einem weiteren
Beispiel studieren, der binären Suche. Die Funktion binarySearch aus Abschnitt 5.6
6.2. Funktionen höherer Ordnung
123
sucht ein Element in einem geordneten Feld. In Analogie zu den Sortierfunktionen könnten wir die zugrundeliegende Vergleichsoperation zum Parameter machen. Aber es geht
noch sehr viel allgemeiner: Betrachten wir die Funktionsdefinition von binarySearch
genauer: Die Vergleichsoperation compare wird nur in dem Ausdruck compare e (a!m)
verwendet; von Aufruf zu Aufruf ändert sich jedoch lediglich m. Von daher liegt es nahe,
die Binäre Suche mit einer Funktion zu parametrisieren, die m direkt auf ein Element von
Ordering abbildet. Daß wir in einem Feld suchen, tritt nunmehr in den Hintergrund.
Indem wir das Suchintervall übergeben, beseitigen wir die Abhängigkeit ganz. Noch eine
letzte Änderung: Sind wir bei der Suche erfolgreich, geben wir m in der Form Just m
zurück; anderenfalls wird Nothing zurückgegeben.
binarySearchBy :: (Integral a) => (a -> Ordering) -> (a,a) -> Maybe a
binarySearchBy cmp = within
where within (l,r) = if l > r then Nothing
else let m = (l+r) ‘div‘ 2
in case cmp m of
LT -> within (l, m-1)
EQ -> Just m
GT -> within (m+1, r)
Die Funktion binarySearchBy implementiert das folgende „Spiel“: Der Rechner fordert die Benutzerin auf, sich eine Zahl zwischen l und r auszudenken. Der Rechner rät:
„Ist die gesuchte Zahl m?“. Die Benutzerin sagt, ob die Zahl gefunden wurde, ob sie kleiner oder größer ist. Nach Θ(log(r − l)) Schritten weiß der Rechner die Lösung — falls
bei den Antworten nicht gemogelt wurde. Im Programm entspricht die Funktion cmp der
Benutzerin: Ist x die ausgedachte Zahl, so beschreibt cmp = \i -> compare x i ihr
Verhalten. Liegt x im Intervall (l,r), so ergibt binarySearchBy cmp (l,r) gerade
Just x.
Was heißt es eigentlich, daß bei den Antworten gemogelt wird? Anders gefragt: Welche
Anforderungen muß cmp erfüllen, damit die Binäre Suche vernünftig arbeitet? Nun — wir
erwarten, daß es höchstens ein Element k gibt mit cmp k = EQ, für alle i < k muß
cmp i = GT gelten, für alle j > k entsprechend cmp j = LT. Die Funktion cmp unterteilt
(l, r) somit maximal in drei Bereiche:
k k + 1...r
l . . . k − 1 |{z}
| {z }
| {z }
EQ
LT
GT
Umfaßt der mittlere Bereich mehr als ein Element, funktioniert die Binäre Suche auch.
In diesem Fall wird irgendein Element aus dem mittleren Drittel zurückgegeben. Formal
muß cmp lediglich antimonoton sein: i 6 j ⇒ cmp i > cmp j mit LT < EQ < GT. Aufgabe: Verallgemeinere die Binäre Suche, so daß sie gerade das mittlere Drittel als Intervall
bestimmt.
124
6. Abstraktion
Wie immer, wenn man eine Funktion verallgemeinert, ist es interessant zu sehen, wie
man die ursprüngliche Funktion durch Spezialisierung der Verallgemeinerung erhält:
binSearch a e = case r of Nothing -> False; Just _ -> True
where r = binarySearchBy (\i -> compare e (a!i)) (bounds a)
Als weitere Anwendung stellen wir uns die Aufgabe, zu einem englischen Begriff die
deutsche Übersetzung herauszusuchen. Das der Suche zugrundeliegende und aus Platzgründen sehr klein geratene Wörterbuch stellen wir als Feld dar:
englishGerman :: Array Int (String, String)
englishGerman = listArray (1,2) [("daffodil", "Narzisse"),
("dandelion","Loewenzahn")]
Das Englisch-Deutsch-Wörterbuch ist naturgemäß nach den englischen Wörtern geordnet; es taugt nicht als Deutsch-Englisch-Wörterbuch. Übung: Programmiere eine Funktion, die ein X-Y-Wörterbuch in ein Y-X-Wörterbuch überführt. Die Funktion german
realisiert die Übersetzung:
german :: [Char] -> Maybe [Char]
german x = case r of Nothing -> Nothing
Just m -> Just (snd (englishGerman!m))
where r = binarySearchBy (\i -> compare x (fst (englishGerman!i)))
(bounds englishGerman)
Der zu übersetzende Begriff wird jeweils mit dem englischen Wort verglichen, bei erfolgreicher Suche wird das deutsche Wort zurückgegeben.
Wenn nur die linke Grenze des Suchintervalls gegeben ist, können wir die Binären Suche leicht
variieren: Zunächst wird die rechte Intervallgrenze bestimmt, also ein beliebiges Element r mit
cmp r = LT. Als Kandidaten werden nacheinander l, 2l, 4l, . . . herangezogen; der Suchraum wird
somit in jedem Schritt verdoppelt. Ist ein r gefunden, folgt eine normale Binäre Suche.
openbinSearchBy :: (Integral a) => (a -> Ordering) -> a -> Maybe a
openbinSearchBy cmp l = lessThan l
where lessThan r = case cmp r of
LT -> binarySearchBy cmp (l,r)
EQ -> Just r
GT -> lessThan (2*r)
Die Suche im offenen Intervall terminiert natürlich nicht, wenn es kein r mit cmp r = LT gibt.
6.2. Funktionen höherer Ordnung
125
6.2.2. Rekursionsschemata
In Abschnitt 4.2 haben wir das Schema der strukturellen Rekursion auf Listen eingeführt.
Der Motor des Schemas ist der Rekursionsschritt. Zitat: „Um das Problem für die Liste
a:x zu lösen, wird [. . . ] zunächst eine Lösung für x bestimmt, die anschließend zu einer
Lösung für a:x erweitert wird.“ Überlegen wir noch einmal genauer, was im Rekursionsschritt zu tun ist: Gegeben ist eine Lösung s, unter Verwendung von a und x gilt es, eine
Gesamtlösung s’ zu konstruieren. Im Prinzip müssen wir eine Funktion angeben, die a,
x und s auf s’ abbildet. Dies erkannt, kann man das Rekursionsschema mit Hilfe einer
Funktion höherer Ordnung programmieren; aus dem Kochrezept wird ein Programm:
structuralRecursionOnLists :: solution
-> (a -> [a] -> solution -> solution)
-> [a] -> solution
structuralRecursionOnLists base extend = rec
where rec []
= base
rec (a:x) = extend a x (rec x)
-- base
-- extend
Auf diese Weise läßt sich das Rekursionsschema formal definieren; wenn Zweifel bestehen, ob eine gegebene Funktion strukturell rekursiv ist, können diese ausgeräumt werden, indem man die Funktion in Termini von sROL formuliert oder zeigt — was ungleich
schwerer ist —, daß dies nicht möglich ist.
Obwohl denkbar wird nicht empfohlen, sROL bei der Programmierung zu verwenden
— im nächsten Abschnitt lernen wir eine abgemagerte Variante kennen, die im Programmieralltag ihren festen Platz hat. Dessen ungeachtet wollen wir uns trotzdem anschauen,
wie die Funktionen isort und insert — die ersten, die wir nach dem Kochrezept der
Strukturellen Rekursion gebraut haben — mit Hilfe von sROL formuliert werden.
isort’ :: (Ord a) => [a] -> [a]
isort’ = structuralRecursionOnLists
[]
(\a _ s -> insert’’ a s)
insert’’ :: (Ord a) => a -> [a] -> [a]
insert’’ a = structuralRecursionOnLists
[a]
(\b x s -> if a <= b then a:b:x else b:s)
Die Verwendung des Rekursionsschemas macht die Struktur der Funktionen deutlich;
Rekursionsbasis und Rekursionsschritt werden explizit benannt. Bei der Interpretation des
Rekursionsschritts muß man sich vergegenwärtigen, daß s in \a x s -> ... jeweils die
Lösung von x darstellt: In der Definition von isort ist s gleich isort x, in der Definition
126
Übung 6.3 Schreibe perms und insertions als Anwendungen des Rekursionsschemas um.
6. Abstraktion
von insert ist s gleich insert a x. Bei der letztgenannten Funktion nutzen wir aus,
daß die Funktion gestaffelt ist: nicht insert wird strukturell rekursiv definiert, sondern
insert a. Knobelaufgabe: Wie ändert sich die Definition, wenn man die Parameter von
insert vertauscht?
Programmiert man tatsächlich Funktionen mit Hilfe von sROL, wird man gezwungen,
sich genau an das Rekursionsschema zu halten. Insbesondere wenn man mit der Strukturellen Rekursion noch nicht per Du ist, erweist sich dieses Diktat oftmals als lehrreich.
Bewahrt es uns doch insbesondere davor, ad-hoc Lösungen zu formulieren.
Nehmen wir die Gelegenheit wahr und schauen uns noch ein Beispiel zur Strukturellen
Rekursion an: Es gilt die Liste aller Permutationen einer gegeben Liste zu bestimmen. Die
Liste [2,6,7] z.B. läßt sich auf sechs verschiedene Arten anordnen. Strukturell rekursiv
erhält man sie wie folgt: Wir dürfen annehmen, daß wir das Problem für die Restliste
[6,7] bereits gelöst haben: [[6,7], [7,6]] ist die gesuchte Liste der Permutationen.
Jede einzelne Permutation müssen wir um das Element 2 erweitern. Aber — an welcher
Position fügen wir es ein? Aus der Aufgabenstellung leitet sich ab, daß alle Positionen zu
berücksichtigen sind. Also, aus der Liste [6,7] werden [2,6,7], [6,2,7] und [6,7,2]
und aus [7,6] erhalten wir [2,7,6], [7,2,6] und [7,6,2]. Das Einfügen an allen
Positionen „riecht“ nach einer Teilaufgabe, die wir wiederum strukturell rekursiv lösen.
Überlegen! Das Aufsammeln der Teillösungen erledigen wir mit Listenbeschreibungen.
Schließlich müssen wir uns noch Gedanken über die Rekursionsbasis machen: Es gibt nur
eine Permutation der leeren Liste, die leere Liste selbst.
perms :: [a] -> [[a]]
perms []
= [[]]
perms (a:x) = [z | y <- perms x, z <- insertions a y]
insertions :: a -> [a] -> [[a]]
insertions a []
= [[a]]
insertions a x@(b:y) = (a:x):[b:z | z <- insertions a y]
Man sieht: Programme lassen sich sehr systematisch entwickeln. Trotz der Systematik
ist Kreativität gefragt: Man muß lernen, Teilprobleme zu identifizieren, die man besser
separat löst.Mit zunehmender Programmiererfahrung wird man Teilprobleme auf bereits
Bekanntes und Erprobtes zurückführenünd „Das Rad nicht immer neu erfinden“.
Kurzer Themenwechsel: Mit Hilfe von perms können wir eine andere Spezifikation für
das Sortierproblem formulieren. Die Funktion sort x ermittelt die erste Permutation von
x, die geordnet ist.
sort :: (Ord a) => [a] -> [a]
sort x = head [s | s <- perms x, ordered s]
Übung 6.4 Diskutiere Vor- und Nachteile beider Spezifikationen.
Im Gegensatz zur Spezifikation aus Abschnitt 4.1 ist diese Spezifikation ein legales HaskellProgramm. Allerdings wird dringend davon abgeraten, es auszuführen. Warum?
6.2. Funktionen höherer Ordnung
127
Auch das Teile- und Herrsche-Prinzip läßt sich mit Hilfe einer Funktion höherer Ordnung definieren. Vier Bausteine werden benötigt: Eine Funktion, die entscheidet, ob ein
Problem einfach ist; eine Funktion, die ein einfaches Problem löst; eine Funktion, die ein
Problem in Teilprobleme zergliedert und schließlich eine Funktion, die Teillösungen zu
einer Gesamtlösung zusammenführt.
divideAndConquer :: (problem -> Bool)
--> (problem -> solution)
--> (problem -> [problem])
--> ([solution] -> solution)
--> problem -> solution
divideAndConquer easy solve divide conquer = rec
where rec x = if easy x then solve x
else conquer [rec y | y
easy
solve
divide
conquer
<- divide x]
Anhand der Typangabe sieht man, daß dAC im Gegensatz zu sROL unabhängig von einem bestimmten Datentyp ist. Zur Illustration des Rekursionsschemas greifen wir nichtsdestotrotz auf Bekanntes zurück. Bis dato haben wir zwei Sortierverfahren (mindestens
zwei) kennengelernt, die nach dem Teile- und Herrsche-Prinzip arbeiten: Sortieren durch
Fusionieren und Quicksort. Beim erstgenannten Verfahren steckt die Hauptarbeit — nämlich das Vergleichen von Elementen — in der Herrsche-Phase, die dem Verfahren auch
seinen Namen gibt.
msort’’ :: (Ord a) => [a] -> [a]
msort’’ = divideAndConquer
(\x -> drop 1 x == [])
(\x -> x)
(\x -> let k = length x ‘div‘ 2 in [take k x, drop k x])
(\[s,t] -> merge s t)
Im Fall Quicksort ist es umgekehrt: Nur in der Teile-Phase werden Elemente verglichen;
in der Herrsche-Phase werden die sortierten Teillisten lediglich aneinandergefügt.
qsort :: (Ord a) => [a] -> [a]
qsort = divideAndConquer
(\x -> drop 1 x == [])
(\x -> x)
(\(a:x) -> [[ b | b <- x, b < a],[a],[b | b <- x, b >= a]])
(\[x,y,z] -> x++y++z)
128
6. Abstraktion
6.2.3. foldr und Kolleginnen
Magert man die strukturelle Rekursion auf Listen etwas ab, erhält man ein Rekursionsschema, das im Programmieralltag seinen festen Platz hat. Schauen wir uns zunächst einmal
zwei einfache strukturell rekursive Funktionen an.
sum’’ :: (Num a) => [a] -> a
sum’’ []
= 0
sum’’ (a:x) = a + sum’’ x
Übung 6.5 Definiere die Funktionen product und and, die
eine Liste ausmultiplizieren bzw. ver„und“en.
or’’ :: [Bool] -> Bool
or’’ []
= False
or’’ (a:x) = a || or’’ x
Inwiefern sind sum und or besonders einfach? Nun, im Rekursionsschritt wird nur das
Kopfelement a mit der Teillösung s kombiniert; der Listenrest x wird nicht benötigt. Diese
Eigenschaft teilen die Funktionen mit isort, nicht aber mit insert. Vergleichen! Das
abgemagerte Rekursionsschema nennt sich foldr. Wie der Name motiviert ist, erklären
wir gleich, zunächst die Definition:
foldr’ :: (a -> solution -> solution) -> solution -> [a] -> solution
foldr’ (*) e = f
where f []
= e
f (a:x) = a * f x
Man sieht: Die Vereinfachung besteht darin, daß wir den dreistelligen Parameter extend
durch den zweistelligen Parameter (*) ersetzt haben, den wir aus Gründen der Übersichtlichkeit zusätzlich infix notieren. [Aus historischen Gründen wird die Induktionsbasis erst
als zweites Argument angegeben.] Die Definitionen von sum und or werden zu Einzeilern,
wenn foldr verwendet wird.
sum’
product’
and’
or’
=
=
=
=
foldr
foldr
foldr
foldr
(+) 0
(*) 1
(&&) True
(||) False
Die Arbeitsweise von foldr kann man sich einfach merken: foldr ersetzt den Listenkonstruktor (:) durch (*) und die leere Liste [] durch e; aus der Liste a1 :(a2 :· · ·:(an−1
:(an :[]))· · ·) wird der Ausdruck a1 *(a2 *· · ·:(an−1 *(an :e))· · ·). Man sagt auch, die
Liste wird aufgefaltet. Der Buchstabe r im Namen deutet dabei an, daß der Ausdruck wie
auch die ursprüngliche Liste rechtsassoziativ geklammert wird. Eine Kollegin von foldr,
deren Namen mit l endet, lernen wir in Kürze kennen. Schauen wir uns vorher noch ein
paar Beispiele an:
6.2. Funktionen höherer Ordnung
isort
length
x ++ y
reverse
concat
=
=
=
=
=
foldr
foldr
foldr
foldr
foldr
129
insert []
(\n _ -> n + 1) 0
(:) y x
(\a x -> x ++ [a]) []
(++) []
Um es noch einmal zu betonen: Das erste Argument von foldr definiert den Rekursionsschritt, das zweite Argument die Rekursionsbasis. Knobelaufgabe: Was macht die
folgende Funktion:
mystery x = foldr (\a -> foldr (<->) [a]) [] x
where a <-> (b:x) = if a <= b then a:b:x else b:a:x
Kommen wir zur Kollegin von foldr: Die Funktion foldl überführt die Liste a 1 :(a2 :
· · ·:(an−1 :(an :[]))· · ·) in den Ausdruck (· · ·((e*a1 )*a2 )*· · ·*an−1 )*an ; im Unterschied zu foldr wird der Ausdruck linksassoziativ geklammert und fängt mit e an. Die
graphische Darstellung der Ausdrücke verdeutlicht die Unterschiede:
*
/ \
a1 *
/ \
a2 ..
\
foldr (*) e
<------------
*
/ \
an e
:
/ \
a1
:
/ \
foldl (*) e
a2 .. ------------>
\
:
/ \
an []
*
/ \
*
an
/
..
/
*
/ \
e
a1
Zwischen foldr und foldl gibt es eine Reihe von Beziehungen. Eine kann man direkt
aus der obigen Grafik ablesen: Der rechte Baum läßt sich in den linken überführen, indem
man ihn erst spiegelt — in jedem Knoten werden linker und rechter Teilbaum vertauscht
– und anschließend die Reihenfolge der Blätter umgekehrt. Formal gilt:
foldr (*) e (reverse x)
=
foldl (flip (*)) e x,
mit flip (*) = \a b -> b * a. Aus dieser Eigenschaft und unter Verwendung der
Definition von reverse aus Abschnitt 5.5.2 läßt sich die folgende Definition von foldl
ableiten.
foldl’’ :: (solution -> a -> solution) -> solution -> [a] -> solution
foldl’’ (*) e x = f x e
where f []
e = e
f (a:x) e = f x (e*a)
130
6. Abstraktion
Die Hilfsfunktion f korrespondiert dabei mit der Hilfsfunktion revTo. Einziger Unterschied: der Listenkonstruktor (:) wird sogleich durch flip (*) ersetzt. Spezialisieren
wir foldl wieder, erhalten wir eine effiziente Definition von reverse.
reverse’’’ = foldl (flip (:)) []
Kommen wir zu weiteren Anwendungen: sum, or, concat etc. können auch via foldl
definiert werden:
sum’’’
= foldl (+) 0
or’’’
= foldl (||) False
concat’’’ = foldl (++) []
Daß die Definitionen äquivalent zu den ursprünglichen sind, liegt daran, daß (+) und
0, (&&) und False, (++) und [] jeweils ein Monoid formen: Die Operation ist assoziativ und das Element ist neutral bezüglich der Operation. Natürlich stellt sich die Frage,
welcher Definition der Vorzug zu geben ist. Also, wie ist es jeweils um den Speicher- und
Zeitbedarf bestellt? Vergleichen wir folgende Rechnungen:
sum [1..9]
⇒ f [1..9]
⇒ 1 + f [2..9]
⇒ 1 + (2 + f [3..9])
...
⇒ 1 + (2 + ... + (9 + f []))
⇒ 1 + (2 + ... + (9 + 0))
⇒ 45
sum’ [1..9]
⇒ f’ [1..9] 0
⇒ f’ [2..9] 1
⇒ f’ [3..9] 3
...
⇒ f’ [] 45
⇒ 45
Die Anzahl der Schritte ist gleich, aber der Platzbedarf ist unterschiedlich. Wird foldr
verwendet, entsteht ein arithmetischer Ausdruck, der proportional zur Länge der Liste
wächst. Erst im letzten Schritt kann der Ausdruck ausgerechnet werden. Wird sum mit
foldl definiert, ist der Platzbedarf hingegen konstant, da die arithmetischen Ausdrücke
in jedem Schritt vereinfacht werden können.1 Im Fall von or erweist sich die Definition
1 Tatsächlich
muß man bei der Auswertung der Teilausdrücke etwas nachhelfen.
6.2. Funktionen höherer Ordnung
131
mit foldr als besser:
⇒
⇒
⇒
⇒
⇒
or [False,True,False]
f [False,True,False]
False || f [True,False]
f [True,False]
True || f [False]
True
⇒
⇒
⇒
⇒
⇒
⇒
⇒
⇒
or’ [False,True,False]
f’ [False,True,False] False
f’ [True,False] (False || False)
f’ [True,False] False
f’ [False] (True || False)
f’ [False] True
f’ [] (False || True)
f’ [] True
True
Im Unterschied zur Addition läßt sich die logische Disjunktion auch ausrechnen, wenn
lediglich der erste Parameter bekannt ist. Ist dieser gleich True wird der zweite Parameter
zudem gar nicht benötigt. Aus diesem Grund wird die Liste Boolescher Werte nur bis zum
ersten True durchlaufen. Auch im Fall von concat ist foldr der Gewinner — aus den
gleichen Gründen, aus denen (++) als rechtsassoziativ vereinbart wird.
Nicht immer ist die leere Liste eine geeignete Induktionsbasis: Nehmen wir an, wir
wollen das kleinste Element einer Liste bestimmen. Was ist das kleinste Element der leeren
Liste? Als Induktionsbasis wird hier sinnvollerweise die einelementige Liste gewählt. Die
Funktionen foldr1 und foldl1 realisieren das entsprechende Rekursionsschema. Wir
geben nur die Typen an und überlassen die Definition der geneigten Leserin.
foldr1 :: (a -> a -> a) -> [a] -> a
foldl1 :: (a -> a -> a) -> [a] -> a
Wie foldr erzeugt auch foldr1 einen rechtsentarteten „Ausdrucksbaum“. Nur — die
Blätter bestehen ausschließlich aus Listenelementen, aus diesem Grund ist der Typ auch
etwas spezieller. Einen „richtigen“ rechts- oder linksentarteten Baum können wir erzeugen, indem wir als Operator den Konstruktor Br angeben. Da binäre Bäume — so wie wir
sie definiert haben — nicht leer sind, müssen wir als Induktionsbasis die einelementige
Liste verwenden.
righty, lefty :: [a] -> Tree a
righty = foldr1 Br . map Leaf
lefty = foldl1 Br . map Leaf
Verschiedene Probleme, verschiedene Lösungen: Wir haben gesehen, daß je nach Aufgabenstellung Anwendungen von foldr und foldl sich stark im Zeit- und Platzbedarf
unterscheiden. Manchmal ist foldr die gute Wahl, manchmal ihre Kollegin foldl. Natürlich gibt es auch Fälle, in denen foldr und foldl gleichermaßen ungeeignet sind:
Betrachten wir z.B. die Aufgabe, eine Liste von Läufen zu fusionieren. Ein verwandtes
132
6. Abstraktion
Problem haben wir bereits einer ausführlichen Analyse unterzogen: Man erinnere sich an
die Funktion mergeTree aus Abschnitt 5.2, die einen Baume in eine sortierte Liste überführt. Die Analyse ergab, daß mergeTree ausgeglichene Bäume bevorzugt. Damit ist klar,
daß weder foldr merge [] noch foldl merge [] gute Lösungen für das obige Problem darstellen. Es liegt nahe, foldr und foldl ein weiteres Rekursionsschema foldm
an die Seite zu stellen, das einen ausgeglichenen Ausdrucksbaum erzeugt: aus der Liste
a1 :(a2 :· · ·:(an−1 :(an :[]))· · ·) wird der Ausdruck
(· · ·(a1 * a2 )· · · * · · ·(ai−1 * ai )· · ·) * (· · ·(ai+1 * ai+2 )· · · * · · ·(an−1 * n)· · ·)
mit i = bn/2c. Der Ausdrucksbaum verdeutlicht die Struktur besser:
:
/ \
a1
:
/ \
a2 ..
*
/
\
*
foldm (*) e
------------>
\
:
/ \
an []
/
..
/
*
/ \
a1 a2
*
/
\
..
..
/
\
* ... *
*
/ \
/ \
/ \
ai-1 ai ai+1 ai+2 an-1 an
\
..
\
Die Implementierung von foldm ist aufwendiger als die ihrer Kolleginnen. Das ist auch
klar, da wir sozusagen „gegen“ die rechtsassoziative Listenstruktur arbeiten. Allerdings
müssen wir das Rad nicht neu erfinden, denn — etwas ähnliches haben wir schon programmiert: die Funktion build aus Abschnitt 3.4 überführt eine Liste in einen ausgeglichenen Baum. Ersetzen wir in der Definition von build den Konstruktor Br durch den
Operator (*), erhalten wir im wesentlichen die Definition von foldm:
foldm :: (a
foldm (*) e
foldm (*) e
where f
-> a -> a) -> a -> [a] -> a
[] = e
x = fst (f (length x) x)
n x = if n == 1 then (head x, tail
else let m
= n
(a,y) = f
(b,z) = f
in (a*b,z)
foldm1 (*) = foldm (*) (error "foldm1 []")
x)
‘div‘ 2
m
x
(n-m) y
Mit Hilfe von foldm läßt sich die anfangs gestellte Aufgabe effizient lösen. Die Funktion
balanced entspricht gerade der Funktion build.
6.2. Funktionen höherer Ordnung
133
mergeList :: (Ord a) => [[a]] -> [a]
mergeList = foldm merge []
balanced :: [a] -> Tree a
balanced = foldm1 Br . map Leaf
Mit der Funktion mergeList sind wir schon fast wieder beim Sortierproblem angelangt: Die top-down Variante von msort und ihre „geschmeidige“ Verbesserung smsort
lassen sich mit foldm erschreckend (?) kurz formulieren.
msortBy, smsortBy :: (a -> a -> Bool) -> [a] -> [a]
msortBy (<=) = foldm (mergeBy (<=)) [] . map (\a -> [a])
smsortBy (<=) = foldm (mergeBy (<=)) [] . runsBy (<=)
Wir haben die Gelegenheit wahrgenommen und beide mit der Vergleichsoperation parametrisiert. Übung: Definiere die Funktion runsBy.
Nachdem wir uns nun einige Seiten lang fast ausschließlich mit Listen beschäftigt haben,
ist es höchste Zeit, sich darauf zu besinnen, daß es noch andere Datentypen gibt. Denn —
auf jeder Datenstruktur läßt sich ein fold-Funktional definieren und dies mit Gewinn. Die
Verallgemeinerung ist nicht schwierig: foldr ersetzt [] durch eine Konstante und (:)
durch eine zweistellige Funktion. Das fold-Funktional auf Tree ersetzt entsprechend
Leaf durch eine einstellige Funktion und Br durch eine zweistellige.
foldTree :: (a -> b) -> (b -> b -> b) -> Tree a -> b
foldTree leaf br = f
where f (Leaf a) = leaf a
f (Br l r) = br (f l) (f r)
Viele Funktionen auf Bäumen lassen sich kurz und knapp mit foldTree definieren.
size’
depth’
mergeTree’
mergeRuns’
=
=
=
=
foldTree
foldTree
foldTree
foldTree
(\a -> 1) (+)
(\a -> 0) (\m n -> max m n + 1)
(\a -> [a]) merge
id merge
6.2.4. map und Kolleginnen
Die Funktion map, die eine Funktion auf alle Elemente einer Liste anwendet, haben wir
schon kennengelernt. Hier ist noch einmal ihre Definition:
map :: (a -> b) -> [a] -> [b]
map f []
= []
map f (a:x) = f a:map f x
Übung 6.6 Definiere mit Hilfe von foldTree die Funktion
branches :: Tree a -> Int, die die Anzahl der Verzeigungen in einem Baum bestimmt.
Übung 6.7 Wie läßt sich foldm auf foldTree und build zurückführen? Welcher Zusammenhang besteht zwischen struktureller Rekursion auf Bäumen und dem Rekursionsschema
foldTree?
134
6. Abstraktion
Ein ideales Anwendungsgebiet für map und ihre Kolleginnen sind Operationen auf Vektoren und Matrizen. Einen Vektor stellen wir einfach durch eine Liste dar — Felder wären
eine Alternative, die wir aber nicht verfolgen, da wir auf die Vektorelemente nie direkt
zugreifen müssen. Eine Matrix repräsentieren wir durch eine Liste von Zeilenvektoren.
type Vector a = [a]
type Matrix a = [Vector a]
Die Matrix
3 8 0
2 17 1
wird z.B. durch den Ausdruck
[[3,8,0],[2,17,1]]
dargestellt. Als erste Operation realisieren wir die Multiplikation eines Skalars mit einem
Vektor (für die Notation der Operationen erfinden wir eine Reihe von Operatoren).
(<*>):: (Num a) => a -> Vector a -> Vector a
k <*> x = map (\a -> k*a) x
Um die Summe und das innere Produkt zweier Vektoren zu programmieren, erweist
sich eine Kollegin von map als hilfreich, die eine zweistellige, gestaffelte Funktion auf zwei
Listen anwendet.
zipWith :: (a -> b -> c) -> [a] -> [b] -> [c]
zipWith f (a:x) (b:y) = f a b:zipWith f x y
zipWith _ _
_
= []
Die Funktion heißt auf englisch Reißverschluß, da f wiederholt jeweils auf die beiden
ersten Listenelemente angewendet wird. Beachte: Die Argumentlisten müssen nicht die
gleiche Länge haben; die kürzere bestimmt die Länge der Ergebnisliste. Summe und inneres Produkt zweier Vektoren sind schnell definiert.
(<+>) :: (Num a) => Vector a -> Vector a -> Vector a
x <+> y = zipWith (+) x y
(<.>) :: (Num a) => Vector a -> Vector a -> a
x <.> y = sum (zipWith (*) x y)
Ein nützlicher Spezialfall von zipWith ist zip: die zweistellige Operation ist hier der
Paarkonstruktor.
zip :: [a] -> [b] -> [(a,b)]
zip = zipWith (\a b -> (a,b))
6.2. Funktionen höherer Ordnung
135
Die Funktion zip wird oft in Verbindung mit Listenbeschreibungen verwendet. Hier sind
noch einmal alle Vektoroperationen unter Verwendung von Listenbeschreibungen definiert.
k <*> x = [k*a | a <- x]
x <+> y = [a+b | (a,b) <- zip x y]
x <.> y = sum [a*b | (a,b) <- zip x y]
Kommen wir zur Addition und Multiplikation von Matrizen. Die Addition ist einfach:
(<++>) :: (Num a) => Matrix a -> Matrix a -> Matrix a
a <++> b = zipWith (<+>) a b
Das Produkt zweier Matrizen A und B erhalten wir, indem wir jede Zeile von A mit jeder Spalte von B multiplizieren. Genauer: Ist x ein Zeilenvektor von A, so ist der entsprechende Zeilenvektor der Produktmatrix gleich [ x <.> y | y <- transpose b ].
Die Funktion transpose überführt dabei eine Liste von Zeilenvektoren in eine Liste von
Spaltenvektoren. [Interpretieren wir die Zeilen als Spalten, erhalten wir gerade die Transponierte der ursprünglichen Matrix; daher der Name der Funktion.]
(<**>) :: (Num a) => Matrix a -> Matrix a -> Matrix a
m <**> n = [[x <.> y | y <- transpose’ n] | x <- m]
Bei der Definition von transpose können wir noch einmal das Prinzip der strukturellen
Induktion einüben. Fangen wir mit dem Induktionsschritt an: Gegegen ist die erste Zeile
x und die aus den restlichen Zeilen gebildeten Spaltenvektoren ys.
a11
a21
a31
..
.
a12
a22
a32
..
.
am1
am2
···
···
a1n
a2n
a3n
..
.
a11
a21
a31
..
.
a12
a22
a32
..
.
amn
am1
am2
···
a1n
a2n
a3n
..
.
amn
Jeder Spaltenvektor yi muß um das entsprechende Element ai der ersten Zeile zu ai :yi
erweitert werden. Dies erledigt der Aufruf zipWith (:) x ys. Bei der Induktionsbasis
mogeln wir etwas: Im Prinzip ist die leere Liste durch eine Liste von n leeren Listen zu
ersetzen. Wir geben stattdessen eine potentiell unendliche Liste von leeren Listen an
und nutzen aus, daß der erste Aufruf von zipWith nur die benötigte Anzahl verwendet:
zipWith (:) [am1 ,...,amn ] (repeat []) ⇒ [am1 :[],...,amn:[]].
transpose’ :: Matrix a -> Matrix a
transpose’ = foldr (zipWith (:)) (repeat [])
136
6. Abstraktion
Die Mogelei hat tatsächlich auch einen Vorteil: transpose kann auch mit Teillisten arbeiten,
die unendlich lang sind. Dieser Fall tritt bei den hier betrachteten Matrizenoperationen nicht auf;
in anderen Anwendungen aber sehr wohl. Die Listen könnten z.B. Meßreihen sein; mit Hilfe von
transpose können diese als Tabellen ausgegeben werden: Bei der Ausgabe der Liste x = [[1..],
[2..],[3..]] wird die zweite Teilliste niemals erreicht; transpose x macht aus den drei unendlichen Listen eine unendliche Liste von dreielementigen Listen, die ohne Probleme ausgegeben
werden kann.
Die folgende Variante von transpose verarbeitet auch obere Dreiecksmatrizen der Form [[1,2,
3],[4,5],[6]]; das Ergebnis ist wieder eine obere Dreiecksmatriz, bei der nur die Enträge oberhalb der Diagonalen aufgeführt werden.
transpose’’ = foldr (\v vs -> zipWith (:) v (vs ++ repeat [])) []
Interessanterweise verarbeiten auch die Addition <++> und Multiplikation <**> — sofern sie
diese Variante von transpose verwendet — obere Dreieickmatrizen fehlerfrei. Warum?
Übung: Nachfolgend ist eine dritte Variante von transpose aufgeführt. Diskutiere Vor- und
Nachteile der drei Definitionen.
transpose’’’ a
| and (map null a) = []
| otherwise
= map head a:transpose’’’ (map tail a)
Die vordefinierte Funktion null :: [a] -> Bool ergibt True gdw. das Argument die leere
Liste ist.
Das Gauß’sche Eliminationsverfahren:
deleteMax :: (Ord b) => (a -> b) -> [a] -> (a, [a])
deleteMax key [a]
= (a,[])
deleteMax key (a:x)
| key a >= key b = (a,x)
| otherwise
= (b,a:y)
where (b,y) = deleteMax key x
gaussElim :: (Ord a, Fractional a) => Matrix a -> Matrix a
gaussElim [row] = [row]
gaussElim rows = prow:gaussElim (map elim rows’)
where (prow@(p:ps),rows’) = deleteMax (\row -> abs (head row)) rows
elim (x:xs)
= xs <+> ((-x/p) <*> ps)
solve :: (Fractional a) => Matrix a -> Vector a
solve []
= [-1]
solve ((x:xs):rows) = -(solns <.> xs)/x:solns
where solns = solve rows
Zur Übung: Definiere die gleichen Operationen auf Feldern.
6.3. Typklassen
137
6.3. Typklassen
6.3.1. Typpolymorphismus und Typklassen
Im letzten Kapitel haben wir uns mit dem Sortieren von Listen beschäftigt. Um die Algorithmen vorzustellen und vorzuführen, sind wir stets davon ausgegangen, daß die Listen
Elemente eines (fast) beliebigen Basistyps enthalten. Aus theoretischer Sicht ist dieser Typ
ohne Belang: Beim Nachweis der Korrektheit oder bei der Analyse der asymptotischen
Laufzeit spielt es keine Rolle, ob Zahlen oder Personendaten sortiert werden. Aus praktischer Sicht ist eine Einschränkung hier wenig annehmbar: Natürlich möchte man sowohl
Zahlen als auch Personendaten sortieren und noch vieles andere mehr.
Die Tatsache, daß der Grundtyp der Listen beliebig ist, drücken wir aus, indem wir bei
der Typdeklaration eine Typvariable für den Grundtyp der Listen einsetzen.
(++) :: [a] -> [a] -> [a]
Lies „für alle Typen a ist [a] -> [a] -> [a] ein Typ von (++)“. Beide Argument müssen somit Listen über dem gleichen Typ sein, dieser ist aber beliebig. Wir sagen, (++) ist
eine polymorphe Funktion. Sie kann für beliebige Ausprägungen von a verwendet werden:
"hello " ++ "world"
⇒
Lisa Lista: Eigentlich ist dies eine Selbstverständlichkeit, oder?
Harry Hacker: Nicht in den Programmiersprachen, die ich als
Kind benutzt habe.
Prof. Paneau: Man darf nicht ganz verschweigen, daß diese Selbstverständlichkeit besonderer Aufmerksamkeit bei der
Übersetzung einer Programmiersprache bedarf.
"hello world"
[19, 9] ++ [7]
⇒
[19, 9, 7]
["hello ","world"] ++ ["it’s","me"]
⇒
["hello ","world","it’s","me"]
Um es noch einmal zu betonen: In beiden Fällen handelt es sich um die gleiche Funktion.
Fast alle der in den letzten Kapiteln definierten Funktionen besitzen einen polymorphen
Typ; hier eine kleine Auswahl:
head
tail
leaves
build
map
::
::
::
::
::
[a] -> a
[a] -> [a]
Tree a -> [a]
[a] -> Tree a
(a -> b) -> ([a] -> [b])
Der Typ von map ist sehr allgemein: Das erste Argument ist eine beliebige Funktion;
Argument- und Ergebnistyp dieser Funktion sind nicht festgelegt, insbesondere müssen
sie nicht gleich sein: map (\n -> n+1), map (\a -> Leaf a) und auch map map
sind korrekte Aufrufe.
Was ist nun der Typ der Sortierfunktionen? Alle Sortierfunktionen stützen sich auf die
Vergleichsoperation (<=) ab, also klären wir zunächst deren Typ. Dazu fragen wir sehr
prinzipiell, was sich überhaupt vergleichen läßt? Zahlen und Zeichen, klar; Paare auch,
wenn wir wissen, wie man die Komponenten vergleicht:
(a,b) <= (c,d) = a < c || a == c && b <= d
Übung 6.8 Was bedeutet map map? Was ist der Typ von
map (1:) ?
138
6. Abstraktion
Auch Listen lassen sich vergleichen, wenn wir die Listenelemente vergleichen können:
[]
<= x
= True
(a:x) <= []
= False
(a:x) <= (b:y) = a < b || a == b && x <= y
Paare und Listen werden hier lexikographisch angeordnet. Lexikas verwenden die gleiche
Ordnung: „Anfang“ kommt vor „Beginn“, aber nach „Anfall“. Auf fast allen Typen läßt
sich eine entsprechende Ordnung definieren. Es gibt nur eine einzige Ausnahme: Funktionen. Vielleicht kommt man nicht auf die Idee, Funktionen miteinander zu vergleichen.
In diesem Fall sollte man sich vor Augen führen, daß Korrektheitsbeweise oft nichts anderes machen. Nachdem die Korrektheit von isort und msort gezeigt war, wußten wir
isort = msort. Man stelle sich vor, die Gleichheit von Funktionen könnte durch Rechnen nachgewiesen werden: Wir hätten uns damit begnügt, die Korrektheit von isort
zu zeigen und dann den Ausdruck isort == msort in den Rechner eingetippt. Leider
eine Illusion, wir stoßen hier an die Grenzen der Mechanisierbarkeit: Die Gleichheit von
Funktionen ist formal unentscheidbar. Wir begnügen uns damit, dies festzustellen und
verweisen auf weiterführend Literatur zur Theoretischen Informatik..
Was bedeutet dies für den Typ der Sortierfunktionen? [a] -> [a] ist zu allgemein,
wir müssen die Belegungen der Typvariable a einschränken:
isort :: (Ord a) => [a] -> [a]
Lies „für alle Typen a, auf denen Vergleichsoperationen definiert sind, ist [a] -> [a] ein
Typ von isort“. Der Teil (Ord a) => ist ein sogenannter Kontext, der die Ausprägung
der Typvariable a einschränkt. Dabei ist Ord eine einstellige Relation auf Typen, eine
sogenannte Typklasse, die sich durch folgende Regeln beschreiben läßt (wir führen nur
eine Auswahl auf):
Ord Integer
Ord Char
Ord a ∧ Ord b ⇒ Ord (a, b)
Ord a ⇒ Ord [a]
Lies „Integer ist eine Instanz der Typklasse Ord“. Wir haben oben gesehen, wie (<=)
jeweils definiert wird. In Abhängigkeit vom Typ der Liste greift isort auf die entsprechende Vergleichsfunktion zu; dies geschieht automatisch ohne unser Zutun.
isort ["Beginn","Anfall","Anfang"]
⇒
["Anfall","Anfang","Beginn"]
isort [(3,1),(1,7),(1,3),(2,2)]
⇒
[(1,3),(1,7),(2,2),(3,1)]
6.3. Typklassen
139
In Haskell sind eine Reihe von Typklassen vordefiniert; die wichtigsten werden wir im
folgenden kennenlernen.
In der Typklasse Show sind alle vordefinierten Typen enthalten; sie stellt Funktionen zur
Verfügung, mit deren Hilfe sich Werte in ihre textuelle Repräsentation überführen lassen.
show :: (Show a) => a -> String
Schauen wir uns einige Anwendungen an:
show 123
⇒
"123"
show [1, 2, 3]
⇒
"[1, 2, 3]"
show "123"
⇒
"\"123\""
Das letzte Beispiel illustriert, wie Anführungsstriche in einem String untergebracht werden können; ihnen ist ein Backslash „\“ voranzustellen.
Die Typklasse Eq umfaßt alle Typen, deren Elemente sich auf Gleichheit testen lassen,
das sind alle Typen mit Ausnahme von Funktionen. Die Funktionen unique und element
verwenden den Test auf Gleichheit, ihre allgemeinsten Typen lauten:
unique :: (Eq a) => [a] -> [a]
element :: (Eq a) => a -> [a] -> Bool
Die Typklasse Ord wird für total geordnete Datentypen verwendet; die meisten Funktionen des letzten Kapitels haben einen Ord-Kontext:
insert :: (Ord a) => a -> [a] -> [a]
merge :: (Ord a) => [a] -> [a] -> [a]
Neben den üblichen Vergleichsoperationen <=, < etc. gibt es noch die Funktion compare,
die es erlaubt, die genaue Anordnung zweier Elemente mit einem Vergleich zu ermitteln.
Hier sieht man, daß Ord nur totale Ordnungen beherbergt.
data Ordering = LT | EQ | GT
compare :: (Ord a) => a -> a -> Ordering
Eine geringfügig effizientere Variante der Funktion uniqueInsert läßt sich mit Hilfe von
compare definieren.
uniqueInsert’ a []
= [a]
uniqueInsert’ a x@(b:y) = case
LT
EQ
GT
compare a b of
-> a:x
-> x
-> b:uniqueInsert’ a y
140
6. Abstraktion
Typen, auf denen Addition, Subtraktion und Multiplikation definiert sind, gehören zur
Klasse Num. Dazu zählen alle in Haskell vordefinierten numerischen Typen wir Int, Integer,
Float und Double. Verwendet eine Funktion die Grundrechenarten (+), (-) oder (*),
erhält sie einen Num-Kontext.
size :: (Num n) => Tree a -> n
depth :: (Num n, Ord n) => Tree a -> n
Werden die Funktionen in dieser Allgemeinheit nicht benötigt, steht es der Programmiererin natürlich frei, den Typ einzuschränken; nichts anderes haben wir in den letzten Kapitel gemacht. Aus Gründen der Effizienz hat man sich z.B. entschlossen, die vordefinierten
Funktionen length, take und drop auf Int zu spezialisieren:
length
:: [a] -> Int
take, drop :: Int -> [a] -> [a]
Man unterscheidet zwischen zwei Divisionsoperatoren: der ganzzahligen Division div
und der normalen Division (/). Entsprechend gibt es zwei verschiedene Klassen: Integral
für numerische Typen, die div anbieten, und Fractional für Typen, die (/) anbieten.
Instanzen von Integral sind Int und Integer, Float und Double sind Instanzen von
Fractional. Die Funktion power, die wir in Abschnitt 3.2.3 definiert haben, erhält den
folgenden Typ:
power :: (Num a, Integral b) => a -> b -> a
Der Exponent muß aufgrund der Verwendung von div und mod eine ganze Zahl sein,
die Basis hingegen ist beliebig. In der Definition von power wird zusätzlich der Test auf
Gleichheit verwendet, warum muß Eq b nicht als Kontext aufgeführt werden? Nun, die
Typklassen sind hierarchisch angeordnet: Eine Instanz von Integral muß auch Instanz
von Num sein, eine Instanz von Num muß auch Instanz von Eq sein. Wir sagen Integral
ist eine Untertypklasse von Num. Welchen Sinn würde es auch machen, div ohne (*)
anzubieten?
Eq
Show
\
/
Ord
Num
\
/ \
Integral Fractional
/
Übung 6.9 Warum ist Num keine Untertypklasse von Ord?
Da Integral a somit Eq a umfaßt, muß nur der erste Kontext aufgeführt werden.
6.3.2. class- und instance-Deklarationen
Ausgangspunkt: polymorphe Typen. Motivation für Typklassen:
6.3. Typklassen
141
• Operation wie (==) oder (<=) nicht für alle Typen sinnvoll,
• je nach Typ müssen (==) oder (<=) unterschiedlich implementiert werden.
Beispiel: Rationale Zahlen.
data Rat = Rat Int Int
Der Bruch 67/18 wird durch Rat 67 18 dargestellt. Die gleiche Zahl hat viele verschiedene Darstellungen: z.B. 67/18 = 8241/2214. Demzufolge ist die folgende Definition von
(==) auf Rat falsch (diese Definition würde mit deriving (Eq) erzeugt werden):
Rat x y == Rat x’ y’ =
x == x’ && y == y’
Richtige Definition:
Rat x y == Rat x’ y’ = x*y’ == x’*y
6.3.3. Die Typklassen Eq und Ord
Definition der Typklasse Eq:
class Eq a where
(==), (/=) :: a -> a -> Bool
x /= y = not (x == y)
Der Name der Typklasse is Eq, danach folgt eine Typvariable (allgemeine Form C a) (==)
und (/=) sind Methoden der Klasse. Für (/=) ist eine Default-Methode angegeben. Die
Zugehörigkeit zu einer Klasse wird explizit mit Hilfe einer Instanzdeklaration angegeben.
Beispiel: Rationale Zahlen.
instance Eq Rat where
Rat x y == Rat x’ y’ =
x*y’ == x’*y
Unschön. Bei jedem Gleichheitstest werden zwei Multiplikationen durchgeführt. Ausweg: ‘smart’
Konstruktor:
rat :: Int -> Int -> Rat
rat x y = norm (x * signum y) (abs y)
where norm x y = let d = gcd x y in Rat (x ‘div‘ d) (y ‘div‘ d)
Wenn wir davon ausgehen, daß Elemente vom Typ Rat immer normiert sind, dann kann die
Standarddefinition von (==) verwendet werden.
Beispiel: Binärbäume:
142
6. Abstraktion
instance (Eq
Leaf a
(Br l r)
_
a)
==
==
==
=> Eq (Tree a) where
Leaf b
= a == b
Br l’ r’ = l == l’ && r == r’
_
= False
Diese Definition wird mit deriving automatisch erzeugt. Allgemeine Form einer Instanzdeklaration:
(C1 β1 ,...,Cm βm ) => C(T α1 . . . αn ) mit {β1 , . . . , βm } ⊆ {α1 , . . . , αn }.
Definition der Typklasse Ord als Untertypklasse von Eq:
class (Eq a) => Ord a where
compare
:: a -> a -> Ordering
(<), (<=), (>=), (>) :: a -> a -> Bool
max, min
:: a -> a -> a
compare x y | x == y
= EQ
| x <= y
= LT
| otherwise = GT
x
x
x
x
<=
<
>=
>
y
y
y
y
=
=
=
=
compare
compare
compare
compare
max x y |
|
min x y |
|
x
x
x
x
y
y
y
y
x >= y
otherwise
x <= y
otherwise
/=
==
/=
==
=
=
=
=
GT
LT
LT
GT
x
y
x
y
Beachte: Die Default-Methoden sind so gewählt, daß nur <= oder nur compare angegeben werden muß. Beispiele für Instanzdeklarationen: Rationale Zahlen.
instance Ord Rat where
Rat x y <= Rat x’ y’ = x*y’ <= x’*y
Beachte: mit deriving würden die Argumente von Rat lexikographisch geordnet:
Rat 2 1 <= Rat 2 3.
Beispiel: Binärbäume:
instance (Ord a) => Ord (Tree a) where
Nil
<= t
= True
Leaf _ <= Nil
= False
Leaf a <= Leaf b
= a <= b
6.3. Typklassen
Leaf
Br _
Br _
Br l
_
_
_
r
143
<=
<=
<=
<=
Br _ _
Nil
Leaf _
Br l’ r’
=
=
=
=
True
False
False
l < l’ || l == l’ && r <= r’
Sehr ineffizient, da unter Umständen sowohl l < l’ als auch l == l’ berechnet wird.
Diese Definition wird mit deriving automatisch erzeugt.
6.3.4. Die Typklassen Show und Read
Probleme bei der Überführung eines Baums in einen String. Ziel: Den Wert so ausgeben,
daß man ihn auch wieder einlesen kann.
showTree
showTree
showTree
showTree
:: Tree String -> String
Nil
= "Nil"
(Leaf a) = "Leaf " ++ a
(Br l r) = "Br " ++ showTree l ++ " " ++ showTree r
[Wir kümmern uns erst einmal nicht um die fehlenden Klammern.] In Analogie zu
leaves hat showTree quadratische Laufzeit. Einen AUsweg beitet wieder die Technik
der Einbettung: Wir führen einen akkumulierenden Parameter ein..
showTree’
showTree’
showTree’
showTree’
:: Tree String -> String -> String
Nil s
= "Nil" ++ s
(Leaf a) s = "Leaf " ++ a ++ s
(Br l r) s = "Br " ++ showTree’ l (" " ++ showTree’ r s)
Das kann man noch etwas schöner schreiben mit Hilfe der Funktionskomposition und
einigen vordefinierten Funktionen.
showTree’’
showTree’’
showTree’’
showTree’’
:: Tree String -> ShowS
Nil
= showString "Nil"
(Leaf a) = showString "Leaf " . showString a
(Br l r) = showString "Br " . showTree’’ l . showChar ’ ’
. showTree’’ r
Mit
type ShowS =
String -> String
showChar :: Char -> ShowS
144
6. Abstraktion
showChar = (:)
showString :: String -> ShowS
showString = (++)
Bei der Typklasse Show wird zusätzlich die Bindungsstärke von Operatoren berücksichtigt, um Klammern zu sparen. Beispiel: unäres Minus (Bindungsstärke 6), vergleiche
[-7,8]
Br (Leaf (-7)) (Leaf 8)
In Abhängigkeit vom Kontext wird -7 mal geklammert mal nicht; 8 wird nie geklammert. Deshalb gibt es einen zusätzlichen Parameter, der Informationen über den Kontext
überbringt. Definition der Typklasse Show:
class Show a where
showsPrec :: Int -> a -> ShowS
showList :: [a] -> ShowS
showList []
= showString "[]"
showList (a:x) = showChar ’[’ . shows a . showRest x
where showRest []
= showChar ’]’
showRest (a:x) = showString ", " . shows a . showRest x
shows :: (Show a) => a -> ShowS
shows = showsPrec 0
show :: (Show a) => a -> String
show x = shows x ""
showParen :: Bool -> ShowS -> ShowS
showParen b p = if b then showChar ’(’ . p . showChar ’)’ else p
Der Parameter p besagt: Operatoren der Bindungsstärke < p müssen geklammert werden:
0 niemals klammern, 10 immer klammern. Beispiele für Instanzdeklarationen:
instance Show Rat where
showsPrec p (Rat x y) = showParen (p > 9)
(showString "Rat " . showsPrec 10 x
. showsPrec 10 y)
Beispiel: Binärbäume.
6.3. Typklassen
145
instance (Show a) => Show (Tree a) where
showsPrec p Nil
= showString "Nil"
showsPrec p (Leaf a) = showParen (p > 9)
(showString "Leaf " . showsPrec 10 a)
showsPrec p (Br l r) = showParen (p > 9)
(showString "Br " . showsPrec 10 l
. showChar ’ ’ . showsPrec 10 r )
Wird statt Br der Infix-Operator :ˆ: verwendet
infix 4 :ˆ:
ändert sich die letzte Gleichung wie folgt:
showsPrec p (l :ˆ: r) = showParen (p > 4)
(showsPrec 5 l . showString " :ˆ: "
. showsPrec 5 r)
Die Klasse Read führen wir nicht auf. Um die Definition verstehen zu können, muß man
schon ein bischen von Parsen kennen. Hier nur die wichtigste Funktion:
read :: (Read a) => String -> a
Problem: Der Übersetzer muß anhand der Typen entscheiden können, welche Instanzen
gemeint sind. Die folgende Definition erweist sich als problematisch:
whoops :: String -> String
whoops x = show (read x)
Abhilfe: explizite Typangabe:
whoops :: String -> String
whoops x = show (read x :: Tree Int)
6.3.5. Die Typklasse Num
Definition der Typklasse Num:
class (Eq a, Show
(+), (-), (*)
negate
abs, signum
fromInteger
a)
::
::
::
::
=> Num a where
a -> a -> a
a -> a
a -> a
Integer -> a
x-y = x + negate y
146
6. Abstraktion
Behandlung numerischer Literale: 5 wird interpretiert als fromInteger (5::Integer).
Beispiel für eine Instanzdeklaration:
instance Num Rat where
Rat x y + Rat x’ y’
Rat x y * Rat x’ y’
negate (Rat x y)
abs (Rat x y)
signum (Rat x y)
fromInteger x
fromInt x
=
=
=
=
=
=
=
Rat
Rat
Rat
Rat
Rat
Rat
Rat
(x*y’ + x’*y) (y*y’)
(x*x’) (y*y’)
(negate x) y
(abs x) (abs y)
(signum (x*y)) 1
(fromInteger x) 1
(fromInt x) 1
-- Hugs-spezifisch
Eleganter: Rat parametrisiert mit einem numerischen Typ.
data (Integral a) => Rat a = Rat a a
Gibt’s vordefiniert als Ratio in der Bibliothek Rational. Gag:
instance Num Bool
(+)
(*)
negate
fromInteger n
fromInt n
where
= (||)
= (&&)
= not
= n /= 0
= n /= 0
-- Hugs-spezifisch
Größeres Beispiel: Zahlen mit ∞ und −∞.
data Inf n =
Fin n | Inf Bool
deriving (Eq)
oo
finite
isFinite (Fin _)
isFinite (Inf _)
=
=
=
=
Inf True
Fin
True
False
instance (Ord n)
Fin m <= Fin
Fin _ <= Inf
Inf b <= Fin
Inf b <= Inf
=> Ord (Inf n) where
n = m <= n
b = b
_ = not b
c = b <= c
instance (Show n) => Show (Inf n) where
showsPrec p (Fin n)
= showsPrec p n
showsPrec p (Inf False) = showParen (p > 6) (showString "-oo")
6.3. Typklassen
147
showsPrec p (Inf True)
instance (Num n) =>
Fin m + Fin n
Fin _ + Inf b
Inf b + Fin _
Inf b + Inf c
| b == c
| otherwise
Fin m * Fin n
Fin m * Inf b
Inf b * Fin n
Inf b * Inf c
negate (Fin
negate (Inf
abs (Fin m)
abs (Inf b)
signum (Fin
signum (Inf
signum (Inf
fromInteger
fromInt i
= showString "oo"
Num (Inf n) where
= Fin (m+n)
= Inf b
= Inf b
=
=
=
=
=
=
m)
b)
Inf b
error "oo
Fin (m*n)
Inf (b ==
Inf (b ==
Inf (b ==
=
=
=
=
m)
=
False) =
True) =
i
=
=
Fin
Inf
Fin
Inf
Fin
Fin
Fin
Fin
Fin
- oo"
(signum m == 1))
(signum n == 1))
c)
(negate m)
(not b)
(abs m)
True
(signum m)
(-1)
1
(fromInteger i)
(fromInt i)
-- Hugs-spezifisch
minimum’, maximum’ :: (Ord n, Num n) => [Inf n] -> Inf n
minimum’ = foldr min
oo
maximum’ = foldr max (-oo)
minimum’ [4,8,2,56,8]
Problem der Eindeutigkeit (da capo):
phyth :: (Floating a) => a -> a -> a
phyth x y = sqrt (xˆ2 + yˆ2)
Die Funktion (ˆ) hat den Typ (Num a, Integral b) => a -> b -> a, 2 hat den
Typ (Num a) => a; somit erhält xˆ2 den Typ ((Num a, Integral b) => a). Problem: Welcher Typ soll für b gewählt werden? Int oder Integer? Da Mehrdeutigkeiten
bei numerischen Typen besonders häufig auftreten, kann das mit Hilfe einer defaultDeklaration festgelegt werden.
default (Int,Double)
Grit Garbo: FALSCH: 0 * oo ist mathematisch nicht definiert!!!
148
6. Abstraktion
6.4. Anwendung: Sequenzen
6.4.1. Klassendefinition
Binärbäume lassen sich als Sequenzen deuten: Leaf a formt eine einelementige Liste, Br
hängt zwei Listen aneinander. Vergleichen wir die Typen von (++) und Br (wir notieren
den Listenkonstruktor präfix: statt [a] einfach [] a).
(++) :: [] a
-> [] a
-> [] a
Br
:: Tree a -> Tree a -> Tree a
Beachte: es wird über einen Typkonstruktor abstrahiert.
class Sequence s where
empty
::
single
::
isEmpty, isSingle ::
(<|)
::
(|>)
::
hd
::
tl
::
(<>)
::
len
::
fromList
::
toList
::
s a
a -> s
s a ->
a -> s
s a ->
s a ->
s a ->
s a ->
s a ->
[a] ->
s a ->
a
Bool
a -> s a
a -> s a
a
s a
s a -> s a
Int
s a
[a]
Je nachdem, ob die Klassenmethoden Sequenzen zusammensetzen, in Komponenten
zerlegen oder Eigenschaften feststellen, nennt man sie Konstruktoren, Selektoren oder
Observatoren.
6.4. Anwendung: Sequenzen
149
Die Definition subsumiert Stapel (engl. stacks): (<|), hd, tl und Schlangen (engl. queues): (|>), hd, tl. Spezifikation:
empty
=
hi
single a
=
hai
isEmpty ha1 . . . an i
=
n=0
isSingle ha1 . . . an i
=
n=1
a <| ha1 . . . an i
=
haa1 . . . an i
ha1 . . . an i |> a
=
ha1 . . . an ai
hd ha1 . . . an i
=
a1
tl ha1 . . . an i
=
ha2 . . . an i
ha1 . . . am i <> hb1 . . . bn i
=
ha1 . . . am b1 . . . bn i
len ha1 . . . an i
=
n
fromList [a1 , . . . , an ]
=
ha1 . . . an i
toList ha1 . . . an i
=
[a1 , . . . , an ]
Default-Methoden:
single a
isSingle s
a <| s
s |> a
x <> y
len
inc x y
fromList
toList
=
=
=
=
=
=
=
=
=
a <| empty
not (isEmpty s) && isEmpty (tl s)
single a <> s
s <> single a
foldrS (<|) y x
foldrS inc 0 where
y+1
foldr (<|) empty
foldrS (:) []
Beachte: die Default-Methoden sind zyklisch definiert: Entweder man gibt empty und
(<|) an oder single und (<>).
Abgeleitete Funktionen.
foldrS :: (Sequence s) => (a -> b -> b) -> b -> s a -> b
foldrS (*) e s
| isEmpty s = e
| otherwise = hd s * foldrS (*) e (tl s)
Als Anwendung programmieren wir eine stabile Version von Quicksort. Ein Sortierverfahren heißt stabil, wenn Elemente mit gleichem Schlüssel beim Sortieren ihre relative
Anordnung beibehalten. Diese Eigenschaft erlaubt sukzessives Sortieren nach verschiedenen Kriterien.
Wir verwenden (|>) anstelle von (:).
Übung 6.10 Definiere foldlS und foldr1S.
Übung 6.11 Zeige, daß das Programm von Qsort aus Abschnitt
6.1 nicht stabil ist. Dafür gibt es sogar zwei Gründe!
150
6. Abstraktion
qsortS :: (Sequence s, Sequence t, Ord a) => s a -> t a
qsortS x
| isEmpty x = empty
| otherwise = partitionS (tl x) empty (hd x) empty
partitionS :: (Sequence s, Sequence t, Ord a) => s a -> s a -> a -> s a -> t a
partitionS x l a r
| isEmpty x = qsortS l <> (single a <> qsortS r)
| a <= b
= partitionS (tl x) l
a (r |> b)
| otherwise = partitionS (tl x) (l |> b) a r
where b = hd x
Beachte: der Typ wäre nicht so allgemein, wenn wir in der ersten Gleichung von qsortS
den Ausdruck empty durch x ersetzen würden.
6.4.2. Einfache Instanzen
Allgemein gilt, daß wir die Default-Methoden nur dann ersetzen, wenn eine bessere asymptotische Laufzeit erreicht wird.
Listen sind Sequenzen ([] ist der Typkonstruktor):
instance Sequence [] where
empty
= []
isEmpty = null
(<|)
= (:)
hd
= head
tl
= tail
toList
= id
fromList = id
Das Überschreiben der Defaults im Falle von toList und fromList ergibt sich daraus, daß hier die Listen zugleich Sequenzen sind. Diese Instanz ist besonders einfach, da
Sequenzen und ihre Repräsentation auf Listen sich eineindeutig entsprechen. Dies ändert
sich im nächsten Beispiel.
Binärbäume sind eine attraktive Repräsentation von Sequenzen: Die Verkettung <> wird
durch Br implementiert und erfolgt (im Unterschied zu ++ auf Listen) in konstanter Zeit..
Andererseits erreichen wir dies auf Kosten längerer Laufzeit von hd und tl.
Die folgende Implementierung liegt nahe:
instance Sequence Tree where
empty
= Nil
isEmpty Nil = True
6.4. Anwendung: Sequenzen
isEmpty t
(<>)
etc.
151
= False
= Br
Allerdings scheitert diese Idee an Fällen wie isEmpty (Nil <> Nil) = False, die
im Widerspruch zur Spezifikation stehen. Das Problem liegt darin, daß der Datentyp Tree
unterschiedliche Repräsentationen der gleiche Sequenz erlaubt. Grundsätzlich gibt es zwei
Wege, dieses Problem zu lösen: Man kann die Sequenz-Konstruktoren so definieren, daß
sie keine „unerwünschten“ Repräsentationen (wie oben Br Nil Bil statt einfach Nil)
erzeugen. Oder man programmiert die Observatoren und Selektoren so, daß sie mit allen
möglichen Repräsentationen korrekt umgehen.
Zu Demonstrationszwecken wenden wir hier beide Techniken an.
instance Sequence Tree where
empty
= Nil
isEmpty Nil
= True
isEmpty (Leaf _)
= False
isEmpty (Br l r)
= isEmpty l && isEmpty r
single
= Leaf
isSingle Nil
= False
isSingle (Leaf _)
= True
isSingle (Br l r)
= isSingle l /= isSingle r
hd (Leaf a)
= a
hd (Br l r)
| isEmpty l
= hd r
| otherwise
= hd l
tl (Br Nil r)
= tl r
tl (Br (Leaf _) r)
= r
tl (Br (Br l’ r’) r) = tl (Br l’ (Br r’ r)) -- Rechtsrotation
(<>)
= br where
-- smart Konstruktor
br Nil r
= r
br l Nil
= l
br l r
= Br l r
toList
= leaves
fromList []
= Nil
fromList [a]
= Leaf a
fromList (a:as)
= a <| fromList as
Beachte: die dritte Gleichung von tl ist sehr bewußt gewählt. Wir verwenden nicht
tl (Br (Br l’ r’) r) = Br (tl (Br l’ r’)) r. Bei der Analyse der Laufzeit
kann die Analyse von leaves helfen. Amortisierte Analyse: Gutes Verhalten bei
t0 , hd t0 , t1 = tl t0 , . . . , hd tn−1 , tn = tl tn−1
Übung 6.12 Beide Möglichkeiten haben auch ihre Nachteile —
welche?
Übung 6.13 Ergänze diese Implementierung
te Fehlermeldungen in den Fällen, wo die
auf Sequenzen nicht spezifiziert sind. Warum
(<|), (|>), fromList, len und toList
Definition übernommen werden?
um expliziOperationen
können für
die default-
152
Übung 6.14 Sequenzen über beliebigen Alphabeten lassen sich
nach einer Technik von Gödel als Zahlen codieren. Hier am Beispiel über dem Alphabet der positiven ganzen Zahlen:
data GoedelNr = G Integer
deriving Show
goedelize :: [Integer] -> GoedelNr
goedelize ns = G (g primes ns)
where g ps
[]
= 1
g (p:ps) (n:ns) = pˆn * g ps ns
Führe diese Technik für beliebige Alphabete a durch und mache
den Typ GoedelNr a zur Instanz von Sequence.
6. Abstraktion
Schlechtes Verhalten bei:
t0 = empty . . . , ti+1 = ti |> ai , hd ti+1 . . .
6.4.3. Generische Instanzen
Erweiterung eines Sequenzenkonstruktors, so daß die Länge in konstanter Zeit berechnet
wird. WithLen hat Kind von (* -> *) -> (* -> *).
data WithLen s a = Len (s a) Int
Beachte: deriving (Show) geht nicht, da die Voraussetzung Show (s a) nicht zulässig ist.
instance (Sequence s) =>
empty
=
single a
=
isEmpty (Len _ n) =
isSingle (Len _ n) =
a <| Len s n
=
Len s n |> a
=
hd (Len s _)
=
tl (Len s n)
=
Len s m <> Len t n =
len (Len _ n)
=
fromList x
=
toList (Len s _)
=
Übung 6.15 Listen mit Löchern als (nicht-generische) Instanz.
Vorübung zur nächsten Aufgabe.
data LList a =
LL ([a] -> [a])
abra, kad :: LList Char
abra = LL ("abra"++)
kad = LL ("kad"++)
-- Beispieldaten
abrakadabra = toList (abra <> (kad <> abra))
Erkläre LList zur Instanz von Sequence.
Übung 6.16 Sequenzen mit Löchern als generische Instanz.
data Iso s a = Iso (s a -> s a)
Sequence (WithLen s) where
Len empty 0
Len (single a) 1
n == 0
n == 1
Len (a <| s) (n+1)
Len (s |> a) (n+1)
hd s
Len (tl s) (n-1)
Len (s <> t) (m+n)
n
Len (fromList x) (length x)
toList s
Ein angenehmer Seiteneffekt: Auch isEmpty und isSingle laufen in konstanter Zeit.
Anwendung:
type List = WithLen []
Durch diese Defintion erhalten wir einen Listentyp, der sozusagen die Länge der Listen
„cached“ und effizienten Zugriff gestattet.
6.4.4. Schlangen
Ziel: (|>), hd und tl in konstanter Zeit. Das sind die typischen Operationen für Schlangen (engl. queues). Ausgangspunkt: (<|), hd und tl arbeiten in konstanter Zeit wie
z.B. bei Listen. Ansatz: die Sequenz ha1 . . . ai ai+1 . . . an i wird durch zwei Sequenzen repräsentiert: ha1 . . . ai i und han . . . ai+1 i.
6.4. Anwendung: Sequenzen
153
data FrontRear s t a = FrontRear (s a) (t a)
Wir tragen Sorge, daß die erste Liste immer mindestens ein Element enthält. Invariante
für FrontRear f r:
isEmpty f
=⇒
isEmpty r
(6.1)
instance (Sequence s, Sequence t) => Sequence (FrontRear s t) where
empty
= FrontRear empty empty
isEmpty (FrontRear f r) = isEmpty f
FrontRear f r |> a
= frontRear f (a <| r)
hd (FrontRear f r)
| isEmpty f
= error "hd of empty"
| otherwise
= hd f
tl (FrontRear f r)
| isEmpty f
= error "tl of empty"
| otherwise
= frontRear (tl f) r
Der Pseudo-Konstruktor (smart construktor) frontRear ist wie folgt definiert:
frontRear :: (Sequence s, Sequence t) => s a -> t a -> FrontRear s t a
frontRear f r
| isEmpty f = FrontRear (rev r) empty
| otherwise = FrontRear f
r
Amortisierte Analyse: gutartig für (Queue wird ephemeral verwendet):
q0 , hd q0 , q1 = tl q0 , . . . , hd qn−1 , qn = tl qn−1
Schlechtes Verhalten bei (Queue wird persistent verwendet):
q = FrontRear [a] r, qi = tl (q |> ai ), hd qi
Idee: das Umdrehen muß frühzeitig erfolgen. Einführung einer Balanzierungsbedingung.
Invariante für FrontRear f r:
len f
>
len r
(6.2)
Beachte: (6.1) impliziert (6.2). Voraussetzung: <> erfolgt inkrementell. Und: len in konstanter Zeit.
frontRear :: (Sequence s, Sequence t) => s a -> t a -> FrontRear s t a
frontRear f r
| len f < len r = FrontRear (f <> rev r) empty
| otherwise
= FrontRear f
r
154
6. Abstraktion
Amortisierte Laufzeit von Θ(1). Worst case Laufzeit von Θ(n). Anwendung:
type Queue = FrontRear List List
6.4.5. Konkatenierbare Listen
Ziel: hd, tl und (<>) in konstanter Zeit. Binärbäume bieten schon (<>) in konstanter
Zeit. Left-spine view:
data GTree s a = GNode a (s (GTree s a))
instance (Sequence s) => Sequence (GTree s) where
single a
= GNode a empty
isSingle (GNode _ s) = isEmpty s
hd (GNode a _)
= a
tl (GNode _ s)
| isEmpty s
= error "tl of singleton"
| otherwise
= foldr1S (<>) s
GNode a s <> g
= GNode a (s |> g)
Anwendung:
type CatList = AddEmpty (GTree Queue)
A. Lösungen aller Übungsaufgaben
3.1 Hier ist die Definition von not:
not :: Bool -> Bool
not True = False
not False = True
-- vordefiniert
Die Definitionen von (&&) und (||) bedienen sich im wesentlichen der entsprechenden
Wertetabelle für die Konjunktion bzw. für die Disjunktion. Gleiche Fälle werden zusammengefaßt.
(&&),
False
True
True
False
(||)
&& y
&& y
|| y
|| y
:: Bool -> Bool -> Bool
= False
= y
= True
= y
-- vordefiniert
[(&&) und (||) sind lazy!]
3.2 Definition von first, second und third:
first
first
:: (a, b, c) -> a
(a, b, c) = a
second :: (a, b, c) -> b
second (a, b, c) = b
third
third
:: (a, b, c) -> c
(a, b, c) = c
3.3 Definition von head’’:
head’’
head’’
head’’
head’’
head’’
head’’
:: List a -> a
Empty
(Single a)
(App Empty r)
(App (Single a) r)
(App (App ll lr) r)
=
=
=
=
=
error "head’’ of empty list"
a
head’’ r
a
head’’ (App ll (App lr r))
156
A. Lösungen aller Übungsaufgaben
Wenn man vereinbart, daß Empty nie unterhalb von App auftritt, dann ist die Definition
einfacher.
tail’
tail’
tail’
tail’
tail’
tail’
:: List a -> List a
Empty
(Single a)
(App Empty r)
(App (Single a) r)
(App (App ll lr) r)
=
=
=
=
=
error "tail’ of empty list"
Empty
tail’ r
r
tail’ (App ll (App lr r))
3.4 Definition von member:
member’ :: (Ord a) => a -> OrdList a -> Bool
member’ a []
= False
member’ a (b:bs) = a >= b && (a == b || member’ a bs)
Beachte: die Klammern sind notwendig, da (&&) stärker bindet als (||).
3.5 Man sollte Grit zunächst klarmachen, daß links- und rechtsassoziativ rein syntaktische Eigenschaften sind, die dem Haskell-Übersetzer mitteilen, wie fehlende Klammern
zu ergänzen sind. Mathematisch gesehen ist die Listenkonkatenation assoziativ: Wie man
x1 ++x2 ++x3 auch klammert, der Wert des Ausdrucks ist stets der gleiche. Warum vereinbart man (++) dann als rechtsassoziativ? Nun, das hat Effizienzgründe: Sei n i die Länge
der Liste xi ; um (x1 ++x2 )++x3 auszurechnen, benötigt man 2n1 + n2 Anwendungen von
„:“, für x1 ++(x2 ++x3 ) hingegen nur n1 + n2 . Die arithmetischen Operatoren werden aus
Gründen der Einheitlichkeit als linksassoziativ deklariert: die Operatoren (-) und (/)
sind es auch und dies aus gutem Grund, wie wir gesehen haben.
3.6 Funktionen auf Cartesischen Produkten sind die bessere Wahl, wenn das Paar oder
das n-Tupel semantisch zusammengehört; etwa wenn ein Paar eine Koordinate in der
Ebene repräsentiert.
3.7 Die Ausdrücke bezeichnen die folgenden Bäume:
1. Br (Br (Leaf 1) (Leaf 2)) Nil
2. Br (Br (Leaf 1) (Leaf 2))
(Br (Br (Leaf 3) Nil)
(Br (Leaf 4) (Leaf 5)))
3. Br (Br (Br (Leaf 1) (Leaf 2))
(Br (Leaf 3)
(Br (Leaf 4)
(Br (Leaf 5) (Leaf 6)))))
(Br (Leaf 7) (Leaf 8))
157
3.8 Die Ausdrücke bezeichnen die folgenden Bäume:
2
1
6
4
2
1
(1)
1
2
5
3
7
8
5
3
(2)
4
(3)
Diese Bäume erhält man übrigens durch Spiegelung der Bäume aus Aufgabe 3.7 (die Blätter müssen zusätzlich neu durchnumeriert werden).
3.9 Definition von leaves’ mit case-Ausdrücken:
leaves’’ :: Tree a -> [a]
leaves’’ t = case t of
Nil
-> []
Leaf a -> [a]
Br l r -> case l of
Nil
-> leaves’’ r
Leaf a
-> a : leaves’’ r
Br l’ r’ -> leaves’’ (Br l’ (Br r’ r))
3.10 Definition von drop:
drop :: Int -> [a] -> [a]
drop n (a:as) | n > 0 = drop (n-1) as
drop _ as
= as
-- vordefiniert
3.11 Rechenregeln für if:
if True then e1 else e2
⇒
e1
if False then e1 else e2
⇒
e2
Schreibt man die Rechenregeln als Programm, erhält man eine Boole’sche Funktion
ifThenElse.
ifThenElse’ :: Bool -> a -> a -> a
ifThenElse’ True a a’ = a
ifThenElse’ False a a’ = a’
3.12 Es ist ungeschickt, zunächst alle Parameter von take auszurechnen, da die Auswertung von x nicht terminiert.
158
A. Lösungen aller Übungsaufgaben
4.1 [Didaktische Anmerkung: (a) übt Vorbedingungen ein, (b) den Umgang mit Quantoren.] (a) Die Vorbedingung an die Argumente von merge drücken wir mittels einer
Implikation aus:
ordered x = True ∧ ordered y = True =⇒ ordered (merge x y) = True
(A.1)
bag (merge x y) = bag x ] bag y
(A.2)
(b) Im Fall von mergeMany müssen wir „alle Elemente der Eingabeliste“ formalisieren.
member :: (Eq a) => a -> [a] -> Bool
member a []
= False
member a (b:x) = a == b || member a x
Mit a ∈ x kürzen wir member a x = True ab.
[
U
((∀a ∈ x) ordered a = True) =⇒ ordered (mergeMany x) = True
]
* bag a | a ∈ x + = bag (mergeMany x)
(A.3)
(A.4)
und * . . . | . . . + erklären.]
4.2 Zusätzlich kann man fordern: Die Längen der Teillisten nehmen zu und die Länge
zweier benachbarter Teillisten unterscheidet sich höchstens um 1.
upstairs :: [Int] -> Bool
upstairs []
= True
upstairs [n]
= True
upstairs (n1:n2:ns) = up n1 n2 && upstairs (n2:ns)
where up n1 n2 = n1 == n2 || n1+1 == n2
Sei xs = split n x, dann muß zusätzlich upstairs (map length xs) gelten.
Eine Liste der Länge l läßt sich damit in n − l mod n Listen der Länge bl/nc und in
l mod n Listen der Länge dl/ne zerlegen.
split :: Int -> [a] -> [[a]]
split n as = repeatedSplit ns as
where (d,r) = divMod (length as) n
ns
= replicate (n-r) d ++ replicate r (d+1)
Die vordefinierte Funktion divMod faßt div und mod zusammen.
repeatedSplit
repeatedSplit
repeatedSplit
where (x,
:: [Int] -> [a] -> [[a]]
[]
as = []
(n:ns) as = x : repeatedSplit ns as’
as’) = splitAt n as
159
Die vordefinierte Funktion splitAt faßt take und drop zusammen. In [GKP94] wird
das folgende Verfahren vorgeschlagen:
split’ n as =
splitn l 1 as
splitn l n as
where k
(x,
splitn (length as) n as
= [as]
= x : splitn (l-k) (n-1) as’
= l ‘div‘ n
as’) = splitAt k as
Daß die Funktion das gleiche leistet, ist nicht unmittelbar einsichtig; die interessierte
Leserin sei für den Nachweis auf [GKP94] verwiesen.
4.3 Definition von branches:
branches
branches
branches
branches
:: Tree a -> Integer
Nil
= 0
(Leaf a) = 0
(Br l r) = 1 + branches l + branches r
4.4 Die erste Definition von leaves in Abschnitt 3.4 ist strukturell rekursiv; die zweite ist es nicht, da der rekursive Aufruf leaves (Br l’ (Br r’ r)) nicht über eine
Teilstruktur des Arguments erfolgt.
4.5 Die folgenden Funktionen aus Kapitel 2 sind strukturell rekursiv definiert:
transponiere, wc_complement, complSingleStrand, exonuclease, genCode,
ribosome, triplets, translate, findStartPositions.
Dito für Kapitel 3:
ifThenElse, fst, snd, (++), head, tail, reverse, minimum1, map, minimum,
length, dropSpaces, squeeze, member, splitWord, minimum0’, leaves,
leftist, take.
4.6 Wir definieren zunächst eine Hilfsfunktion leavesTo mit der folgenden Eigenschaft.
leavesTo
leavesTo t y
::
=
Tree a -> [a] -> [a]
leaves t ++ y
Analog zur Vorgehensweise bei reverse läßt sich die folgende Definition von leavesTo
ableiten.
leavesTo
leavesTo
leavesTo
leavesTo
:: Tree a ->
Nil
y =
(Leaf a) y =
(Br l r) y =
[a] -> [a]
y
a:y
leavesTo l (leavesTo r y)
160
A. Lösungen aller Übungsaufgaben
Die Funktion leaves ergibt sich wiederum durch durch Spezialisierung von leavesTo.
leaves’ :: Tree a -> [a]
leaves’ t = leavesTo t []
4.7 Die Begründung ist hier nicht stichhaltig — erstens weil unendliche Listen nicht in
einem [] enden, zweitens weil der Beweis bei der elementweisen Konstruktion nie fertig
werden würde.
4.10 Die Funktion complete n konstruiert einen vollständigen Baum der Tiefe n.
complete :: Integer -> Tree a
complete 0
= Nil
complete (n+1) = Br t t
where t = complete n
4.11 Nachweis von Aussage 4.14. Induktionsbasis (t = Nil):
branches Nil + 1
=
1
=
size Nil
(Def. branches)
(Def. size)
Induktionsbasis (t = Leaf a): analog. Induktionsschritt (t = Br l r):
branches (Br l r) + 1
=
(branches l + branches r + 1) + 1
=
size l + size r
=
size (Br l r)
(Def. branches)
(I.V.)
(Def. size)
4.13 Die Multiplikation auf Natural:
mutlN :: Natural -> Natural -> Natural
mutlN Zero
n = Zero
mutlN (Succ m) n = addN (mutlN m n) n
Möchte man — wie Harry — die üblichen Symbole zum Rechnen verwenden, muß man
Natural zu einer Instanz der Typklasse Num machen.
instance Num Natural where
(+)
= addN
Zero
- n
= Zero
Succ m - Zero
= Succ m
Succ m - Succ n
= m-n
(*)
= mutlN
fromInteger 0
= Zero
fromInteger (n+1) = Succ (fromInteger n)
161
Mehr dazu in Abschnitt 6.3.
4.14 Eine erste (naive) Definition könnte so aussehen:
naiveBraun
naiveBraun
naiveBraun
naiveBraun
:: Tree a -> Bool
Nil
= True
(Leaf a) = True
(Br l r) = size l += size r && naiveBraun l && naiveBraun r
(+=) :: (Num a) => a -> a -> Bool
m += n = m == n || m+1 == n
Diese Definition krankt daran, daß für jeden Teilbaum erneut die Größe ausgerechnet
wird. Durch Rekursionsverstärkung läßt sich dieses Manko beheben.
braun
braun t
where
check
check Nil
check (Leaf a)
check (Br l r)
where (bl, sl)
(br, sr)
:: Tree a -> Bool
= fst (check t)
::
=
=
=
=
=
Tree a -> (Bool, Integer)
(True, 1)
(True, 1)
(sl += sr && bl && br, sl + sr)
check l
check r
Die Hilfsfunktion check bestimmt zwei Dinge gleichzeitig: die Braun-Eigenschaft und
die Größe des Baums.
4.17 Die Braun-Eigenschaft legt einen Baum in seiner Struktur fest, nicht aber in der
Beschriftung der Blätter. Deshalb ist die Spezifikation nicht eindeutig. Um 4.27 nachzuweisen, zeigt man zuerst
size (extend a t) = size t + 1 .
(A.5)
4.20 Die Fälle t = Nil und t = Leaf a folgen direkt aus den Definitionen. Fall t =
Br Nil $r$: Da weight t = 1 + weight $r$ ist die Induktionsvorausetzung auf
r anwendbar.
bag (leaves (Br (Leaf a) r))
=
bag (a:leaves r)
=
*a+ ] bag (leaves r)
(Def. leaves)
(Def. bag)
=
*a+ ] bag r
=
bag (Leaf a) ] bag r
(Def. bag)
=
bag (Br (Leaf a) r)
(Def. bag)
(I.V.)
162
A. Lösungen aller Übungsaufgaben
Fall t = Br (Leaf a) r: analog. Fall t = Br (Br l’ r’) r: Wir haben bereits nachgerechnet, daß die Induktionsvorausetzung auf Br l’ (Br r’ r) anwendbar ist.
bag (leaves (Br (Br l’ r’) r))
=
bag (leaves (Br l’ (Br r’ r)))
(Def. leaves)
=
bag (Br l’ (Br r’ r))
=
bag l’ ] (bag r’ ] bag r)
(Def. bag)
(I.V.)
=
(bag l’ ] bag r’) ] bag r
(Ass. (]))
=
bag (Br (Br l’ r’) r))
(Def. bag)
5.1
insert = \a -> \x -> case x of {
[] -> a:[];
b:y -> case a<=b of {
True -> a:(b:x);
False -> b:((insert a) y)}}
5.2 Der Unterschied liegt nur im konstanten Faktor.
5.6 Da weder length noch take noch drop Vergleichsoperationen verwenden, ergeben
sich folgende Rekurrenzgleichungen für mergeSort:
T mergeSort (0)
=
0
T mergeSort (1)
=
0
T mergeSort (n)
=
n − 1 + T mergeSort (bn/2c) + T mergeSort (dn/2e)
für n > 1
Diese Form der Rekurrenzgleichung ist typisch für Programme, die auf dem „Teile und
Herrsche“-Prinzip basieren. Rechnen wir die Kostenfunktion zunächst einmal für den Fall
aus, daß die Halbierung stets aufgeht:
T mergeSort (2m )
=
2m − 1 + 2T mergeSort (2m−1 )
Einer ähnlichen Rekurrenz sind wir schon im letzten Abschnitt begegnet:
T mergeSort (2m )
=
0
T sT (m) = m2m − 2m + 1
163
Die obige Formel läßt sich gut mit Hilfe des Rekursionsbaums von mergeSort illustrieren (für m = 4):
1*(16-1)
2*( 8-1)
4*( 4-1)
8*( 2-1)
o
/
\
o
o
/ \
/ \
o o
o o
/\ /\ /\ /\
o o o o o o o o
/\/\/\/\/\/\/\/\
o
1*(16-1)-3
/
\
o
o
/ \
/ \
o o
o o
/\ /\ /\ /\
o o o o o o o o
\/\ \/\ \/\/\/\
2*( 8-1)-3
4*( 4-1)-3
8*( 2-1)-3
Wenn die Länge der zu sortierenden Liste keine Potenz von 2 ist, erhalten wir einen Baum
dessen unterste Ebene ausgefranst ist: Sei m = dlog2 ne, dann fehlen 2m − n Elemente. Um
diese Anzahl verringern sich gerade die Kosten pro Ebene. Da es m Ebenen gibt, erhalten
wir:
T mergeSort (n)
=
T mergeSort (2m ) − m(2m − n) = mn − 2m + 1
T mergeSort (n)
∈
mit m = dlog 2 ne
Θ(n log n).
6.10
foldlS :: (Sequence s) => (a -> b -> a) -> a -> s b -> a
foldlS (*) e = f e
where f e s | isEmpty s = e
| otherwise = f (e * hd s) (tl s)
foldr1S :: (Sequence s) => (a -> a -> a) -> s a -> a
foldr1S (*) s
| isSingle s = hd s
| otherwise = hd s * foldr1S (*) (tl s)
Beispiele:
rev :: (Sequence s, Sequence t) => s a -> t a
rev = foldlS (flip (<|)) empty
6.11 Erstens werden die Teillisten jedesmal umgedreht; zweitens müssen Elemente, die
gleich dem Vergleichselement sind, in die rechte Teilliste (statt in die linke) eingebaut
werden.
164
A. Lösungen aller Übungsaufgaben
6.12 Im ersten Fall muss man dafür sorgen, daß zur Konstruktion von Sequenzen nur die
Konstruktoren der Klasse, aber nicht unmittelbar die des Datentyps verwendet werden.
Im zweiten Fall können sehr ineffiziente Repräsentationen entstehen.
6.14 – Nur Vorüberlegungen zum Spezialfall!
split :: GoedelNr -> (Integer,GoedelNr)
split (G m) = splt primes 0 m
where
splt (p:ps) e m
| m ‘mod‘ p == 0 = splt (p:ps) (e+1) (m ‘div‘ p)
| e == 0
= splt ps 0 m
| otherwise
= (e, G m)
Achtung: bei split (G m) = (u,G v) ist (G v) NICHT die GoedelNr. der verkürzten Liste.
degoedelize :: GoedelNr -> [Integer]
degoedelize (G m) | m == 1
= []
| otherwise = n:degoedelize ns
where (n,ns) = split (G m)
instance (Integral a) => Sequence (GoedelNr a )
where empty = G 1
isEmpty (G m) = (m == 1)
hd (G m) = n
where (n,ns) = split (G m)
tl (G m) = ns
where (n,ns) = split (G m)
(G m) |> n = let k = len (G m)
in G (m* (primes !! (k+1))ˆn)
(G m) <> (G n) | isEmpty (G n) = (G m)
| otherwise
= ((G m) |> a) <> (G as)
where (a:as) = split n
fromList = goedelize
toList = degoedelize
165
6.15
instance Sequence LList where
empty
= LL id
isEmpty (LL s)
= isEmpty (s [])
single a
= LL (a:)
isSingle (LL s) = isSingle (s [])
(LL s) <> (LL t) = LL (s . t)
hd (LL s)
= head (s [])
tl (LL s)
= LL h where
h r
= tail (s r)
len (LL s)
= len (s [])
166
A. Lösungen aller Übungsaufgaben
B. Mathematische Grundlagen
oder: Wieviel Mathematik ist nötig?
B.1. Mengen und Funktionen
B.1.1. Der Begriff der Menge
Eine Menge ist eine abstrakte Zusammenfassung unterschiedener Objekte. Wir schreiben
x ∈ M , wenn x ein Element von M ist, und x ∈
/ M , wenn x kein Element von M ist.
In der Schule haben wir es häufig mit Mengen von Zahlen zu tun. Wir verwenden N
für die Menge der natürlichen Zahlen1 , Z für die Menge der ganzen Zahlen und R für die
Menge der reellen Zahlen.
Mengen werden z.B. durch Aufzählung definiert.
N37
:=
{3, 4, 5, 6, 7}
HS
:=
{Harry, Sally}
M1
:=
{M, A, T, H, E, I, K}
Bool
:=
{False, True}
(Buchstaben des Wortes MATHEMATIK)
(Menge der „Wahrheitswerte“)
Abstrakt ist die Menge als Zusammenfassung ihrer Elemente in dreifacher Hinsicht:
1. die Elemente stehen in keiner besonderen Anordnung, z.B. {M, A, T, H, E, I, K} =
{A, E, I, H, K, T, M },
2. die Elemente gehören der Menge nicht mit unterschiedlicher Intensität oder Häufigkeit an, z.B. {M, A, T, H, E, I, K} = {M, A, T, H, E, M, A, T, I, K},
3. es wird nicht verlangt, daß die zusammengefaßten Elemente überhaupt in irgendeinem logischen Zusammenhang stehen.
Der letzte Punkt bedeutet, daß mathematisch gegen die Definition der Menge
Allerlei
:=
{Lisa Listig’s PC, die Oper „Don Giovanni“,
der Lombardsatz der Deutschen Bundesbank}
1 Im
Unterschied zum Gebrauch in der Mathematik zählt die Informatik die 0 zu den natürlichen Zahlen.
168
B. Mathematische Grundlagenoder: Wieviel Mathematik ist nötig?
nichts einzuwenden ist, obwohl man sich schwerlich einen Zusammenhang vorstellen
kann, indem diese Menge kein Unfug ist. Diese Gleichgültigkeit in bezug darauf, welche
Art von Objekten man in eine Menge faßt, darf man allerdings nicht ungestraft auf die
Spitze treiben. Als Russell’sche Antinomie berühmt ist die Menge aller Mengen, die sich
selbst nicht enthalten. Solche Gefahren werden für uns keine Rolle spielen und wir gehen
nicht weiter auf sie ein.
Mengen werden oft durch Angabe einer charakterisierenden Eigenschaft definiert.
Prim
:=
{ x | x ∈ N und x ist Primzahl }
N37
:=
{ x | x ∈ N und 3 6 x 6 7 }
NullSt
:=
{ x | x5 − x3 = 8x2 − 9 = 0 }
N
:=
{ x | x = 0 oder (x = y + 1 und y ∈ N) }
Eine Definition durch eine charakteristische Eigenschaft unterstellt eine umfassendere
Menge, deren Elemente auf diese Eigenschaft hin zu prüfen sind. Bei Prim und N37 ist
diese Menge N. Die Definition von NullSt ist gerade deswegen anfechtbar, weil die Bezugsmenge nicht genannt wird. Sind ganze, reelle oder komplexe Nullstellen gemeint? Die
hier gegebene Definition von N dagegen bezieht sich auf sich selbst und setzt dabei das
Bildungsgesetz der natürlichen Zahlen — das Zählen — voraus. Solche Definitionen nennt
man rekursiv. Das Zählen ist nichts als der Übergang von einer natürlichen Zahl zur nächsten. Wir haben es hier durch die Operation +1 bezeichnet, so daß unsere natürlichen
Zahlen nach dieser Definition statt des vertrauten 0, 1, 2 . . . das ungewöhnliche Aussehen
0, 0 + 1, (0 + 1) + 1 usw. haben.
Eine Menge M ist Teilmenge von N (M ⊆ N ), wenn jedes Element von M auch Element
von N ist.
M ⊆N
⇐⇒
(∀a) a ∈ M ⇒ a ∈ N
Die Vereinigung von M und N (M ∪ N ) ist definiert durch
M ∪N
=
{ a | a ∈ M oder a ∈ N }
Dabei ist das „oder“ nicht ausschließend zu verstehen. Der Durchschnitt von M und N
(M ∩ N ) ist definiert durch
M ∩N
=
{ a | a ∈ M und a ∈ N }.
Mit den gegebenen Definitionen läßt sich z.B. zeigen, daß ∪ und ∩ assoziative Operationen sind:
K ∪ (M ∪ N )
=
(K ∪ M ) ∪ N
K ∩ (M ∩ N )
=
(K ∩ M ) ∩ N
B.2. Relationen und Halbordnungen
169
Die Potenzmenge einer Menge M ist die Menge aller Teilmengen von M :
P(M ) = { T | T ⊆ M }
Da für alle Mengen M stets ∅ ⊆ M und M ⊆ M gilt, enthält P(M ) stets ∅ und M . Das
Cartesische Produkt zweier Mengen M und N ist die Menge aller möglichen Elementpaare:
M × N = { (x, y) | x ∈ M und y ∈ N }
Das Cartesische Produkt verallgemeinert man auf n > 2 Mengen und spricht dann von
n-Tupeln.
B.1.2. Der Begriff der Funktion
Seien A, B Mengen. Eine partielle Funktion f von A nach B hat den Vorbereich A, den
Nachbereich B und ordnet gewissen Elementen aus A (den Argumenten) jeweils ein Element aus B zu (den Wert). Man schreibt f : A → B und f (a) = b oder f : a 7→ b. Sind
A und B Mengen, so bezeichnet A → B die Menge der partiellen Funktionen mit Vorbereich A und Nachbereich B. Ist die Menge A ein kartesisches Produkt A = (A 1 , . . . , An ),
so nennt man f auch n-stellige Funktion.
Die Menge
Def (f )
:=
{ a ∈ A | es gibt b ∈ B mit f (a) = b }
heißt Definitionsbereich von f , die Menge
Im(f )
:=
{ b ∈ B | es gibt a ∈ A mit f (a) = b }
heißt Bildbereich von f . Ist Def (f ) = A, heißt f totale Funktion.
Bekannte Beispiele von Funktionen sind die Grundrechnungsarten, Polynome, trigonometrische Funktionen usw. über R. Davon sind z.B. Division und Tangens partielle Funktionen, da Divisor 0 bzw. π2 nicht zum Definitionsbereich gehören. Das Differenzieren
kann man selbst als Funktion (·)0 ansehen:
(·)0
:
(R → R) → (R → R).
B.2. Relationen und Halbordnungen
Eine Funktion ordnet gewissen Elementen des Vorbereichs ein Element des Nachbereichs
zu. Relationen geben im Unterschied dazu beliebige Beziehungen zwischen zwei Mengen
170
B. Mathematische Grundlagenoder: Wieviel Mathematik ist nötig?
an: Einem Element des Vorbereichs können durchaus mehrere Elemente des Nachbereichs
zugeordnet werden. Formal ist eine zweistellige Relation eine Teilmenge R ⊆ M × N . Statt
(a, b) ∈ R schreibt man auch oft aRb.
Eine Relation R ⊆ M × M heißt Halbordnung auf M , wenn R
1. reflexiv, (∀x ∈ M ) xRx,
2. antisymmetrisch, (∀x, y ∈ M ) (xRy und yRx) ⇒ x = y, und
3. transitiv, (∀x, y, z ∈ M ) (xRy und yRz) ⇒ xRz, ist.
Ein Beispiel für eine Halbordnung ist etwa die Teilmengenbeziehung (⊆). Das Wörtchen
„Halb“ deutet an, daß es in der Regel Elemente gibt, die nicht miteinander vergleichbar
sind: Die Mengen {1, 2} und {2, 3} sind z.B. unvergleichbar. Ist jedes Element mit jedem
vergleichbar, spricht man von einer totalen Ordnung.
B.3. Formale Logik
B.3.1. Aussagenlogik
Um Sachverhalte, Eigenschaften etc. präzise aufschreiben zu können, verwendet man aussagenlogische bzw. prädikatenlogische Formeln. Wir haben selbst schon einige Formeln
verwendet, um z.B. die Mengeninklusion (⊆) oder Eigenschaften von Relationen (Transitivität) zu notieren.
In der klassischen Logik ist eine Formel entweder wahr oder falsch. Für die Menge
dieser Wahrheitswerte sind verschiedene Schreibweisen gebräuchlich:
Bool
(in der Programmierung)
=
{False, True}
=
{0, 1}
(im Hardware-Entwurf)
=
{F, W }
(in der formalen Logik).
Die wichtigsten Boole’schen Funktionen sind „und“ (∧), „oder“ (∨) und „nicht“ (¬), definiert durch die folgende Wertetabelle:
a
False
False
True
True
b
False
True
False
True
a∧b
False
False
False
True
a∨b
False
True
True
True
¬a
True
True
False
False
B.3. Formale Logik
171
Eine Formel ist aus False, True, ∧, ∨, ¬ und Variablen zusammengesetzt. Wir können
„und“, „oder“ und „nicht“ auch durch Gleichungen definieren:
False ∧ x
True ∧ x
False ∨ x
True ∨ x
= False
= x
= x
= True
¬False
¬True
= True
= False
Durch eine vollständige Fallunterscheidung über das erste Argument sind ∧, ∨ und ¬
totale Funktionen. Mit Hilfe dieser Definitionen zeigt man wichtige Eigenschaften: Für
alle a, b, c ∈ Bool gilt z.B.:
(Idempotenz)
a∧a
=
a
(a ∧ b) ∧ c
=
a ∧ (b ∧ c)
(Assoziativität)
(Kommutativität)
a∧b
=
b∧a
a ∧ (a ∨ b)
=
a
a ∧ (b ∨ c)
=
(a ∧ b) ∨ (a ∧ c)
¬¬a
=
a
(Absorption)
(Distributivität)
(doppelte Negation)
Interessanterweise gelten die Gleichungen auch, wenn man konsistent ∧ durch ∨ und ∨
durch ∧ ersetzt. Wir beweisen das Absorptionsgesetz: Fall a = False:
False ∧ (False ∨ b)
=
(Definition von ∧)
False
Fall a = True:
True ∧ (True ∨ b)
=
True ∨ b
(Definition von ∧)
=
True
(Definition von ∨)
In Formeln verwendet man oft noch weitere Boole’schen Funktionen wie ⇒ (Implikation)
und ⇐⇒ (Äquivalenz), die sich einfach auf die bisher bekannten zurückführen lassen.
a⇒b
=
¬a ∨ b
a ⇐⇒ b
=
(a ⇒ b) ∧ (b ⇒ a)
Zur Übung: Wie sehen die Wahrheitstafeln von ⇒ und ⇐⇒
formalisiert die Gleichheit Boole’scher Werte.
aus? Beachte: ⇐⇒
B.3.2. Prädikatenlogik
Formeln sind natürlich nicht nur aus False, True, ∧ etc. zusammengesetzt. Interessant wird
es erst, wenn man auch Aussagen über Individuen machen kann, wie z.B. in x ∈ M ⇒
x ∈ N . Hier ist x eine Individuenvariable, ein Platzhalter für Individuen. Häufig macht
man Aussagen, daß es mindestens ein Individuum mit einer bestimmten Eigenschaft gibt,
172
B. Mathematische Grundlagenoder: Wieviel Mathematik ist nötig?
oder daß eine Aussage für alle Individuen gilt. Zu diesem Zweck verwendet man den
Existenzquantor (∃) und den Allquantor (∀).
(∃x) Φ(x)
(∀x) Φ(x)
Hier ist Φ(X) irgendeine Aussage über x, z.B. Φ(x) = x ∈ M ⇒ x ∈ N . Gebräuchlich sind
auch Quantoren, bei denen der Individuenbereich direkt angegeben wird:
(∃x ∈ M ) Φ(x)
⇐⇒
(∃x) x ∈ M ∧ Φ(x)
(∀x ∈ M ) Φ(x)
⇐⇒
(∀x) x ∈ M ⇒ Φ(x)
B.3.3. Natürliche und vollständige Induktion
Nehmen wir an, Φ(n) ist eine Eigenschaft, die wir für alle natürlichen Zahlen n nachweisen
wollen. Dazu kann man das Prinzip der natürlichen Induktion2 verwenden:
Induktionsbasis: Wir zeigen Φ(0).
Induktionsschritt: Wir nehmen an, daß Φ(n) gilt (Induktionsvoraussetzung) und zeigen
unter dieser Annahme, daß auch Φ(n + 1) gilt.
Diese Beweisregel kann man formal wie folgt darstellen:
Φ(0)
(∀n ∈ N) Φ(n) ⇒ Φ(n + 1)
(∀n ∈ N) Φ(n)
Über dem Strich werden die Voraussetzungen aufgeführt, unter dem Strich steht die
Schlußfolgerung, die man daraus ziehen kann. Die Beweisregel kann man auch als Arbeitsprogramm lesen (von unten nach oben): Um · · · zu zeigen, muß man · · · zeigen.
Warum leistet die natürliche Induktion das Gewünschte? Oder: Warum ist die natürliche
Induktion korrekt. Klar, es gilt Φ(0), mit dem Induktionsschritt erhalten wir Φ(1), durch
erneute Anwendung Φ(2) etc. Auf diese Weise erhalten wir Φ(n) für jede natürliche Zahl.
Wir demonstrieren das Induktionsprinzip an einem einfachen Beispiel:
Φ(n)
⇐⇒
n
X
2i = 2n+1 − 1
i=0
2 Andere
Bücher, andere Begriffe: „Natürliche Induktion“ wird auch „mathematische Induktion“ genannt. Dieser
Begriff sagt allerdings wenig aus: Sind andere Induktionsprinzipien etwa unmathematisch? Leider ist auch der
Name „vollständige Induktion“ gebräuchlich. Leider deshalb, weil wir ihn für ein anderes Induktionsprinzip
reservieren.
B.3. Formale Logik
173
Induktionsbasis: Die Rechnung ist einfach
n+1
X
2i
=
2n+1 +
i=0
=
=
n
X
2
n+2
i=0
2i = 1 = 21 − 1. Induktionsschritt:
2i
i=0
n+1
2n+1 + 2
P0
(Arithmetik)
−1
(Induktionsvoraussetzung)
(Arithmetik)
−1
Bei der natürlichen Induktion stützt man sich beim Induktionsschritt auf die Voraussetzung ab, daß die Aussage für den unmittelbaren Vorgänger gilt. Wir können großzügiger
sein und verwenden, daß die Aussage für alle kleineren Zahlen gilt. Dies formalisiert das
Prinzip der vollständigen Induktion.
(∀m) ((∀m0 < m) Φ(m0 )) ⇒ Φ(m)
(∀n) Φ(n)
Zur Übung: Sind beide Induktionsprinzipien gleich mächtig?
174
B. Mathematische Grundlagenoder: Wieviel Mathematik ist nötig?
Literaturverzeichnis
[GKP94] Ronald L. Graham, Donald E. Knuth, and Oren Patashnik. Concrete mathematics.
Addison-Wesley Publishing Company, Reading, Massachusetts, second edition
edition, 1994.