Semantik von Programmiersprachen 1. Einführung Werner Struckmann Technische Universität Braunschweig Institut für Programmierung und Reaktive Systeme Sommersemester 2013 1. Einführung 1.1 Sprachen und Paradigmen 1.2 Definition von Programmiersprachen 1.3 Implementierung von Programmiersprachen 1.1 Sprachen und Paradigmen 2/37 Sprachen • Sprache ist ein sich stets weiterentwickelndes, komplexes System von Lauten und Zeichen zum Zwecke der Kommunikation. Jedem Zeichen des Systems wird eine feststehende Bedeutung zugeordnet. • Sprache wirkt im Prozess der Kommunikation als Medium zwischen dem Sender (Sprecher, Schreiber) und Empfänger (Hörer, Leser). • Es werden natürliche und künstliche Sprachen unterschieden. aus Basiswissen Deutsch, Dudenverlag 1.1 Sprachen und Paradigmen 3/37 Natürliche, künstliche und formale Sprachen • Natürliche Sprachen sind historisch gewachsen. Hierzu zählen z. B. Deutsch, Englisch und Französisch. Sie sind Ausdruck menschlichen Denkens, Fühlens und Wollens und weisen im Unterschied zu künstlichen Sprachen Mehrdeutigkeiten auf. • Künstliche Sprachen sind Zeichensysteme, die der Verständigung in einem eng begrenzten Fachgebiets dienen, zum Beispiel Programmiersprachen. Sprachen wie Esperanto sind ebenfalls künstliche Sprachen, die sich durch leichtere Schreibung und Grammatik gegenüber natürlichen Sprachen auszeichnen. • Formale Sprachen sind künstliche Sprachen, die mithilfe mathematischer Methoden definiert sind. 1.1 Sprachen und Paradigmen 4/37 Sprachen der Informatik Um Sachverhalte mit Rechensystemen zu behandeln, müssen sie in eindeutigen – also künstlichen – Sprachen beschrieben werden. Einige Beispiele sollen dies verdeutlichen: • Algorithmen: Programmiersprachen (Java) • Dokumente: Markup-Sprachen (Html, XML), Seitenbeschreibungssprachen (Postscript) • Modelle, Systeme: Modellierungssprachen (UML), Spezifikationssprachen (Z) • Datenbanken: Anfragesprachen (SQL) • Mathematische Objekte: Symbolische Sprachen (Maple) • Abläufe: Simulationssprachen (GPSS) 1.1 Sprachen und Paradigmen 5/37 Sprachen der Informatik • In der Informatik hat man es mit einer Vielzahl von künstlichen Sprachen zu tun. • Sie alle beschreiben Sachverhalte in einem relativ kleinen Kontext, • dafür aber (hoffentlich) präzise, widerspruchsfrei und vollständig. 1.1 Sprachen und Paradigmen 6/37 Paradigmen höherer Programmiersprachen Jeder Programmiersprache liegt ein bestimmtes Denkschema zugrunde. Auf der Basis dieser Konzepte unterteilt man die höheren Programmiersprachen in folgende Kategorien: • Imperative Programmiersprachen, • Funktionale (applikative) Programmiersprachen, • Prädikative (deduktive, logische) Programmiersprachen, • Objektorientierte Programmiersprachen. 1.1 Sprachen und Paradigmen 7/37 Imperative Programmiersprachen • Bei diesen Sprachen besteht ein Programm aus einer Folge aus Befehlen an den Rechner. • Wesentlich ist das Variablenkonzept. Variable können verschiedene Werte annehmen. • Die Menge aller Variablen und ihrer Werte sowie der Programmzähler beschreiben den Zustand zu einem bestimmten Zeitpunkt. • Die Ausführung eines Programms bewirkt eine Zustandstransformation. 1.1 Sprachen und Paradigmen 8/37 Funktionale Programmiersprachen • Bei diesen Sprachen berechnen Programme Funktionen, die Eingabedaten auf Ausgabedaten abbilden. Ein funktionales Programm beschreibt die Beziehungen zwischen Ein- und Ausgabe mithilfe mathematischer Gleichungen. • Ausgehend von elementaren Ausdrücken werden die Beziehungen durch Ausdrücke steigender Komplexität festgelegt. • Das wichtigste Konstruktionsprinzip ist hierbei die Rekursion. • Außerdem spielen Funktionen höherer Ordnung, sogenannte Funktionale, eine wichtige Rolle. 1.1 Sprachen und Paradigmen 9/37 Prädikative Programmiersprachen • Bei diesen Sprachen wird Programmierung als Beweisen in einem System von Tatsachen und Schlussfolgerungen aufgefasst. • Der Anwender gibt eine Menge von Fakten und Regeln vor. • Die Aufgabe des Rechners ist es festzustellen, ob eine eingegebene Tatsache zutrifft oder nicht. • Alternativ können alle Fakten, die bestimmte Kriterien erfüllen, ermittelt werden. • Die Fakten werden durch Prädikate formuliert, den Schlussfolgerungen liegt ein logischer Kalkül zugrunde. 1.1 Sprachen und Paradigmen 10/37 Objektorientierte Programmiersprachen • Bei diesen Sprachen werden alle zum Lösen eines Problems notwendigen Informationen als Objekte aufgefasst. Objekte besitzen Eigenschaften, die als Attribute bezeichnet werden. • Objekte können durch Nachrichten an andere Objekte Informationen austauschen. Dieser Vorgang kann zum Beispiel durch Aufruf von Methoden realisiert werden. • Gleichartige Objekte werden durch Klassen beschrieben. Von jeder Klasse können Objekte gemäß der Beschreibung erstellt und über die Methoden manipuliert werden. • Klassen können untereinander in vielfältigen Beziehungen stehen. 1.1 Sprachen und Paradigmen 11/37 Paradigmen höherer Programmiersprachen Aus einer übergeordneten Sichtweise werden die folgenden Kategorien unterschieden: • Prozedurale Programmiersprachen: Es wird exakt angegeben, wie die Lösung eines Problems ermittelt werden kann. Imperative Programmiersprachen fallen in diese Kategorie. • Deklarative Programmiersprachen: Im Gegensatz zum prozeduralen Paradigma fragt man in der deklarativen Programmierung danach, was berechnet werden soll. Es wird also nicht der Lösungsweg programmiert, sondern angegeben, welches Ergebnis gewünscht ist. Deklarative Paradigmen beruhen auf mathematischen, rechnerunabhängigen Theorien. Beispiele hierfür sind prädikative und – bis zu einem gewissen Grade – auch funktionale Programmiersprachen. 1.1 Sprachen und Paradigmen 12/37 Entwicklung der Programmiersprachen Edsger W. Dijkstra: „Jeder Programmierer weiß, dass es nur eine einzig wahre Programmiersprache gibt. Jede Woche eine neue.“ Albrecht Weinert: Java für Ingenieure, 2001, Seite 7: „Die Zahl der Programmiersprachen, die die Informatik in den letzten fünfzig Jahren hervorgebracht hat, ist Legion. Ernst zu nehmende Schätzungen sprechen von mehr als 20 000.“ Wenn Weinerts Schätzung zutrifft, sind es 7,7 Sprachen pro Woche! 1.1 Sprachen und Paradigmen 13/37 Entwicklung der Programmiersprachen JAVA 1995 93 91 SCHEME−Standard 89 87 C++ 85 83 OCCAM 81 ADA 79 MODULA2 77 1975 LOGO 69 ALGOL68 67 61 59 BASIC COBOL ALGOL FORTRAN 1.1 Sprachen und Paradigmen • Algol68 • Modula-2 • Scheme SIMULA PL/I 57 1955 PROLOG PASCAL 71 63 CSP • Algol SCHEME C 73 65 SMALLTALK80 Programmiersprachen in der Informatikausbildung LISP • Java • ...? 14/37 Paradigmen und Programmiersprachen Einige Programmiersprachen: imperativ: funktional: prädikativ: objektorientiert: Algol, Algol68, Pascal, Ada, C, . . . Lisp, Scheme, ML, Haskell, . . . Prolog Smalltalk, Eiffel, Java, C++, C#, . . . In der Regel lassen sich die Sprachen nicht eindeutig einem bestimmten Paradigma zuordnen. Zum Beispiel gibt es in Scheme Variable und Zuweisungen, d. h. imperative Konzepte. Java sollte besser als „imperativ-basierte objektorientierte Programmiersprache“ (hybrides Paradigma) bezeichnet werden. C++ hingegen besitzt einen vollständigen imperativen Kern, während Smalltalk eine strikt objektorientierte Programmiersprache ist. 1.1 Sprachen und Paradigmen 15/37 Skriptsprachen • Bei Skriptsprachen handelt es sich um übergeordnete Sprachen, um vorhandene Programme oder Prozeduren kontrolliert ablaufen zu lassen. • Skriptsprachen haben ihren Ursprung in den Kommandosprachen (Job Control Language, JCL) von Betriebssystemen. • Einfache Skriptsprachen sind die Shell-Skripts von Unix. Mächtigere Skriptsprachen sind beispielsweise Perl, PHP, Python oder JavaScript. • Skriptsprachen werden in der Regel interpretiert, nicht kompiliert. 1.1 Sprachen und Paradigmen 16/37 Datenstrukturen und Typsysteme Programmiersprachen bieten die Möglichkeit, aus elementaren Datenbereichen mithilfe von Konstruktoren komplexe Datenbereiche aufzubauen. Datenbereiche werden häufig Datenstrukturen genannt. • Elementare Datenbereiche ◦ boolean, char, cardinal, integer, real, enumeration, . . . • Konstruktoren ◦ array, record, set, pointer, . . . • Operationen • Typäquivalenz, Typanpassung, Typkompabilität, . . . Alle Aspekte, die die Datenbereiche einer Programmiersprache betreffen, werden als deren Typsystem bezeichnet. 1.1 Sprachen und Paradigmen 17/37 Paradigmenübergreifende Konzepte (Auswahl) Die folgende Liste enthält einige paradigmenübergreifende Konzepte. Nicht jeder Punkt ist für jedes Paradigma relevant. Beispielsweise benötigt die prädikative Sprache Prolog keine Ablaufsteuerung. • Ablaufsteuerung • Unterprogramme, Module, abstrakte Datentypen • Ausnahme- und Ereignisbehandlung • Annotationen • Programmierung randomisierter Algorithmen • Programmierung nichtdeterministischer Algorithmen • Programmierung paralleler und verteilter Algorithmen • GUI-, Echtzeit-, Netzwerk-, Datenbank-, ... -programmierung 1.1 Sprachen und Paradigmen 18/37 Prinzipien des Sprachentwurfs • Effizienz • Allgemeingültigkeit • Orthogonalität • Uniformität • Einfachheit • Ausdruckskraft • Genauigkeit • Maschinenunabhängigkeit • Sicherheit • Konsistenz mit anerkannten Konventionen • Erweiterbarkeit • Einschränkbarkeit 1.1 Sprachen und Paradigmen 19/37 1. Einführung 1.1 Sprachen und Paradigmen 1.2 Definition von Programmiersprachen 1.3 Implementierung von Programmiersprachen 1.2 Definition von Programmiersprachen 20/37 Definition von Programmiersprachen Bestandteile einer Programmiersprache: • Lexik, • Syntax, • Semantik. Die Pragmatik einer Programmiersprache untersucht ihre Anwendbarkeit und Nützlichkeit. Sie gehört nicht zur Definition der Sprache. 1.2 Definition von Programmiersprachen 21/37 Lexik Im Lexikon findet man: • Lexem (griechisch) das, Sprachwissenschaft: kleinste semantische Einheit, Träger der lexikalischen Bedeutung; das Lexem tritt als Einzelwort (z. B. Wald), als Teil eines Wortes (z. B. wald- in waldig) und als Wortverbindung auf (z. B. Waldbrand). • Lexik die, der Wortschatz einer Sprache. Die Lexik einer Programmiersprache bestimmt die textuellen Grundbausteine der Programme. Solche Bausteine sind etwa Schlüsselwörter, Literale und Bezeichner. Sie werden z. B. durch Aufzählung oder reguläre Ausdrücke angegeben. Lexeme einer Programmiersprache können aus mehr als einem Zeichen bestehen. In Programmiersprachen werden Lexeme auch Token genannt. 1.2 Definition von Programmiersprachen 22/37 Syntax • Die Syntax einer Programmiersprache beschreibt, wie aus den Grundbausteinen vollständige Programme gebildet werden können. • In den meisten Fällen wird die Syntax durch eine kontextfreie Grammatik festgelegt. • Eine kontextfreie Grammatik G = (VN , VT , P, S) besteht aus einem Nichtterminalalphabet VN , einem Terminalalphabet VT , einer Produktionenmenge P und dem Startsymbol S. Mit L(G) bezeichnen wir die von der kontextfreien Grammatik G erzeugte Sprache. • Kontextfreie Grammatiken können durch Syntaxdiagramme grafisch dargestellt werden. 1.2 Definition von Programmiersprachen 23/37 Syntax • Programmiersprachen sind i. Allg. kontextsensitiv und nicht kontextfrei. • Beispielsweise kann durch eine kontextfreie Grammatik nicht ausgedrückt werden, dass jeder Bezeichner vor seiner Benutzung deklariert werden muss. • Andere Formalismen, zum Beispiel zweischichtige oder attributierte Grammatiken, ermöglichen es, kontextsensitive Aspekte in die Definition der Syntax einer Programmiersprache einzubeziehen. 1.2 Definition von Programmiersprachen 24/37 Semantik • Die Bedeutung der syntaktisch korrekten Programme ist durch die Semantik der Sprache gegeben. Sie kann beispielsweise mithilfe von Zuständen definiert werden. Man spricht dann von einer operationellen Semantik. • In der denotationalen Semantik werden den syntaktischen Einheiten Funktionen zugeordnet. Hier spielen vollständige Halbordnungen, stetige Abbildungen und Fixpunkte eine wichtige Rolle. • Weitere Möglichkeiten sind die axiomatische Semantik (Programmverifikation, Hoare-Kalkül, Spezifikationssprachen) und die algebraische Semantik. 1.2 Definition von Programmiersprachen 25/37 Beispiel: Lexik • Eine Programmiersprache enthält endlich viele Schlüsselwörter. Sie können durch Aufzählung angegeben werden: while, do, od, ... • Die Menge der Bezeichner einer Programmiersprache kann zum Beispiel durch die folgenden regulären Ausdrücke definiert werden: Ziffer = {0, 1, ..., 9} Buchstabe = {a, b, c, ..., y , z} Bezeichner = Buchstabe · (Buchstabe | Ziffer)∗ 1.2 Definition von Programmiersprachen 26/37 Beispiel: Syntax Die folgenden Zeilen enthalten einige Produktionen einer kontextfreien Grammatik G zur Beschreibung einer kleinen Programmiersprache in der sog. Backus-Naur-Form: <Anweisungsfolge> ::= <Anweisung> ; <Anweisungsfolge> | <Anweisung> <Anweisung> ::= <Zuweisung> | <While-Anweisung> | ... <Zuweisung> ::= <Bezeichner> := <arithmetischer Ausdruck> <While-Anweisung> ::= while <logischer Ausdruck> do <Anweisungsfolge> od 1.2 Definition von Programmiersprachen 27/37 Beispiel: Operationelle Semantik • Zunächst werden Zustände z ∈ Z definiert. Hierbei kann es sich um die Zustände eines abstrakten Automaten handeln. In unserem Beispiel ist Z = {z | z : V → Z}, wobei V die Menge aller Variablen ist. • Die Semantik ordnet jedem syntaktisch korrektem Programm P ∈ L(G) eine partielle Funktion M [P ] : Z − →Z p als seine Bedeutung zu. Das heißt, M ist eine Abbildung der Form M : L → (Z − → Z ). p • Die Bedeutung eines Programms ist also eine Zustandstransformation. 1.2 Definition von Programmiersprachen 28/37 Beispiel: Algorithmus von Euklid Der folgende in der obigen imperativen Sprache formulierte Algorithmus von Euklid (ca. 300 v. Chr.) berechnet den größten gemeinsamen Teiler der Zahlen x , y ∈ N mit x ≥ 0 und y > 0: a := x; b := y; while b do r := a := b := od # 0 a mod b; b; r Nach Ausführung des Programmfragments gilt a = ggT(x , y ). 1.2 Definition von Programmiersprachen 29/37 Beispiel: Algorithmus von Euklid Es seien x = 36 und y = 52: Variable r a b z0 – – – z1 – 36 – z2 – 36 52 z5 36 52 36 z8 16 36 16 z11 4 16 4 z14 0 4 0 Das Zeichen – bedeutet, dass der Wert dieser Variablen im betreffenden Zustand irrelevant ist. ggT(36, 52) = 4 Durchlaufene Zustände: z0 , z1 , z2 , ... , z14 ∈ Z Es gilt M [P ](z0 ) = z14 . 1.2 Definition von Programmiersprachen 30/37 Sprachreport • Die Definition einer Programmiersprache erfolgt oft in Form eines sog. Sprachreports. • Dieser enthält in der Regel eine kontextfreie Grammatik zur Beschreibung der Lexik und der Syntax. Die Produktionen werden häufig in der Backus-Naur-Form oder einer Varianten davon angegeben. • Darüber hinaus werden die Produktionen meistens grafisch in der Form eines Syntaxdiagramms veranschaulicht. • Die Semantik wird in der Regel informell, in einigen Fällen auch halbformal oder sogar formal definiert. 1.2 Definition von Programmiersprachen 31/37 1. Einführung 1.1 Sprachen und Paradigmen 1.2 Definition von Programmiersprachen 1.3 Implementierung von Programmiersprachen 1.3 Implementierung von Programmiersprachen 32/37 Klassifikation der Programmiersprachen Die Programmiersprachen lassen sich grob in drei Klassen einteilen: • Maschinensprachen Bits und Bytes, für den menschlichen Leser kaum verständlich • Maschinenorientierte Sprachen (Assembler) stellen die Befehle in einem Mnemo-Code dar ADDIC 23, R0 STO R0, #12004 • Problemorientierte Sprachen imperative, funktionale, objektorientierte, logische Sprachen, Spezialsprachen Ein Computer versteht nur Maschinensprachen! 1.3 Implementierung von Programmiersprachen 33/37 Implementierung von Programmiersprachen Compiler übersetzen Quellprogramme aus problemorientierten Sprachen in äquivalente Zielprogramme in Maschinensprachen: cc -o prog prog.c prog input output Interpreter lesen das Programm zusammen mit den Eingabedaten ein und führen es aus: scm prog.scm input output Mischverfahren übersetzen das Programm zunächst mit einem Compiler in eine Zwischensprache. Das übersetzte Programm wird anschließend interpretiert: javac prog.java java prog input output 1.3 Implementierung von Programmiersprachen 34/37 Implementierung von Programmiersprachen Interpreter müssen das Programm bei jedem Lauf erneut analysieren. Dies bedeutet einen gewissen Effizienzverlust. Typisch, aber nicht zwingend: • Compiler: C • Interpreter: Scheme • Mischverfahren: Java Näheres zu Aufbau und Arbeitsweise dieser Programme erfahren Sie in den Veranstaltungen „Compiler I“, „Compiler II“ sowie im „Compilerbaupraktikum“. 1.3 Implementierung von Programmiersprachen 35/37 Verarbeitung von Java-Programmen Java−Quellprogramm javac Java−Bytecode java VM für Windows java VM für Linux • Zuerst wird ein Quellprogramm vom Compiler in Bytecode übersetzt. 1.3 Implementierung von Programmiersprachen • Im zweiten Schritt wird der Bytecode vom Interpreter ausgeführt. Der Bytecode kann als Maschinencode der sogenannten virtuellen Java-Maschine (JVM) angesehen werden. Bytecode ist portabel. • Der Compiler ist maschinenunabhängig, der Interpreter muss für jede Plattform neu entwickelt werden. 36/37 Verarbeitung von Java-Programmen • Interpretierter Code ist langsamer in der Ausführung als kompilierter Code, selbst wenn dieser als Bytecode vorliegt. • Prinzipiell können Java-Programme auch in Maschinensprache übersetzt werden. Dann geht allerdings die Portierbarkeit verloren. • Eine Alternativlösung bieten Just-in-Time-Compiler (JIT). Ein JIT ist ein Programm, das den Bytecode einzelner Methoden während der Ausführung in Maschinencode der jeweiligen Plattform übersetzt. So kann die Methode beim nächsten Aufruf deutlich schneller ausgeführt werden. Vorteilhaft ist, dass der Bytecode nicht verändert wird und damit das übersetzte Programm portabel bleibt. 1.3 Implementierung von Programmiersprachen 37/37