Mathematik II SoSe 2009 J. Baumeister1 20. Juli 2009 1 Dies sind Aufzeichnungen, die kritisch zu lesen sind, da sie noch nicht endgültig korrigiert sind. Hinweise auf Fehler und Verbesserungsvorschläge an [email protected] Vorwort Die Vorlesung Mathematik II “ ist eine Lehrveranstaltung des Moduls B-M2“ des Bachelor” ” studiengangs Informatik“und des Bachelorstudiengangs Bioinformatik“. ” ” Die Lehrveranstaltung schließt an an die Vorlesung Analysis und Lineare Algebra für Infor” matiker“ aus dem ersten Studienjahr, entwickelt die Inhalte aber weitgehend eigenständig. Sie beinhaltet einfache Sachverhalte algebraischen und analytischen Rechnens, elementare Grundlagen in der Stochastik, der diskreten Mathematik und der Numerik. Ein Ziel der Vorlesung ist auch, jeweils die Verbindung zu einer algorithmischen Umsetzung der Inhalte aufzuzeigen. Wie oben angedeutet, ist algorithmisches Handeln ein Teil der Betrachtungen. Algorithmen sind sequentielle Handlungsanweisungen“ zur Lösung eines (in mathematischer Sprache formu” lierten) Problems. Die Abarbeitung der Handlungsanweisungen erfolgt meist mit dem Computer unter Nutzung von Programmiersprachen und Programmpaketen. Der angehende Informatiker sollte daher in der Lage sein, die angebotenen Algorithmen schnell umzusetzen. Im allgemeinen könnte dies schon mit Hilfe von Maple angegangen werden. Eine Einzelliteratur zur Vorlesung, die alles abdeckt, was angeboten wird, ist wohl nicht vorhanden. Im Literaturverzeichnis sind einige hilfreiche Bücher angegeben ([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]). Die Kapitel 10 und 11, die im Skriptum aufgeführt sind, wurden (aus Zeitgründen) nicht vorgetragen. Ihre Überarbeitung ist noch drindend erforderlich. Frankfurt, im Juli 2009 Johann Baumeister i Inhaltsverzeichnis Vorwort i 1 Aussagen und Mengen 1.1 Aussagen und Logik . . . . 1.2 Verknüpfung von Aussagen 1.3 Beweise . . . . . . . . . . . 1.4 Mengen . . . . . . . . . . . 1.5 Quantoren . . . . . . . . . . 1.6 Übungen . . . . . . . . . . . . . . . . . . . . . . . 2 Operieren mit und auf Mengen 2.1 Alphabete . . . . . . . . . . . . 2.2 Relationen . . . . . . . . . . . . 2.3 Ordnung . . . . . . . . . . . . . 2.4 Algorithmen . . . . . . . . . . . 2.5 Abbildungen . . . . . . . . . . 2.6 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 4 6 7 12 12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 . . . . 14 . . . . 16 . . . . 18 . . . . 19 . . . . 21 . . . . 25 3 Zählen 3.1 Natürliche Zahlen . . . . . . . . . 3.2 Induktion . . . . . . . . . . . . . 3.3 Abzählen . . . . . . . . . . . . . 3.4 Rekursion . . . . . . . . . . . . . 3.5 Landausymbole . . . . . . . . . . 3.6 Mastertheorem der Komplexität 3.7 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 26 29 31 34 35 38 41 4 Elementare Arithmetik 4.1 Ganze Zahlen . . . . . . . 4.2 Teilbarkeit . . . . . . . . . 4.3 Primzahlen . . . . . . . . 4.4 Euklidischer Algorithmus 4.5 Modulare Arithmetik . . . 4.6 Zum Gruppenbegriff . . . 4.7 Pseudozufallszahlen . . . 4.8 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 43 45 47 50 54 56 59 61 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii 5 (Diskreter) Zufall 5.1 Laplace–Häufigkeiten . . . . . . 5.2 Zufallsbäume . . . . . . . . . . 5.3 Bedingte Wahrscheinlichkeiten 5.4 Das Ziegenproblem . . . . . . . 5.5 Kombinatorische Überlegungen 5.6 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Zufallsgrößen 6.1 Erwartungswerte . . . . . . . . . . . . . . 6.2 Unabhängigkeit . . . . . . . . . . . . . . . 6.3 Varianz . . . . . . . . . . . . . . . . . . . 6.4 Das schwache Gesetz der großen Zahl oder 6.5 Spezielle Verteilungen . . . . . . . . . . . 6.6 Die Gauß– und Poisson–Verteilung . . . . 6.7 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Fast Fourier Transform 9.1 Some comments concerning signal theory 9.2 Trigonometric interpolation problem . . . 9.3 Discrete Fourier transform . . . . . . . . . 9.4 Fast Fourier Transform . . . . . . . . . . . 9.5 Exercises . . . . . . . . . . . . . . . . . . 10 Verteilungen und Statistik 10.1 Merkmale, Stichproben und Simulation 10.2 Empirische Häufigkeitsverteilung . . . . 10.3 Statistische Parameter . . . . . . . . . . 10.4 Testen und Schätzen . . . . . . . . . . . 10.5 Übungen . . . . . . . . . . . . . . . . . . 11 Markov-Ketten 11.1 Mendelsche Gesetze . . . . . . . . . . 11.2 Hardy-Weinberg–Gesetz . . . . . . . . 11.3 Modellierung als Markovkette . . . . . 11.4 Langzeitverhalten bei Markov–Ketten 11.5 Anhang: Gerschgorin–Kreise . . . . . . iii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . die Intelligenz der Masse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Nullstellen nach Newton 7.1 Polynome . . . . . . . . . . . . . . . . . . . 7.2 Das Nullstellenproblem . . . . . . . . . . . . 7.3 Nullstellensuche nach Newton . . . . . . . . 7.4 Anhang: Realisierung des Newtonverfahrens 7.5 Übungen . . . . . . . . . . . . . . . . . . . . 8 Interpolation und Approximation 8.1 Interpolation mit Polynomen . . 8.2 Newton-Polynome . . . . . . . . 8.3 Approximation mit Polynomen . 8.4 Bezier–Kurven . . . . . . . . . . 8.5 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 63 68 72 75 77 80 82 82 88 89 90 91 95 96 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . in den komplexen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 . 97 . 98 . 101 . 105 . 108 . . . . . . . . . . 109 109 111 114 116 118 . . . . . 122 122 123 125 126 130 . . . . . 131 131 134 136 138 141 . . . . . 142 142 143 144 146 148 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Literaturverzeichnis [1] M. Aigner. Diskrete Mathematik. Vieweg, 1996. [2] M. Brill. Mathematik für Informatiker. Hanser, 2001. [3] O. Forster. Algorithmische Zahlentheorie. Vieweg, 1996. [4] M. Greiner and G. Tinhofer. Stochastik für Studienanfänger der Informatik. Hanser, 1996. [5] D. Hachenberger. Mathematik für Informatiker. Pearson Studium, 2005. [6] P. Hartmann. Mathematik für Informatiker. Vieweg, 2004. [7] N. Henze. Stochastik für Einsteiger. Vieweg, 1997. [8] G. Kersting and A. Wakolbinger. Elementare Stochastik. Birkhäuser, 2008. [9] A. Quateroni, R. Sacco and F. Saleri. Numerische Mathematik 1. Springer, 2001. [10] B. Schuppar. Elementare Numerische Mathematik. Vieweg, 1999. [11] J. Wolfart. Einführung in die Zahlentheorie und Algebra. Vieweg, 1996. [12] M. Wolff, P. Hauck, W. Küchlin. Mathematik für Informatik und Bioinformatik. Springer, 2004. 1 Kapitel 1 Aussagen und Mengen Für die Formulierung von Aussagen von mathematischem Gehalt benötigen wir Verabredungen, Sprechweisen, Symbole und eine griffige Notation. Dabei wollen wir aber nicht in die Tiefen der mathematischen Grundlagen (Mengenlehre, Logik) eintauchen, sondern geben uns mit einem naiven“ Standpunkt zufrieden. Er führt zu keinerlei Konflikten, solange wir uns mit konkret ” definierten Objekten beschäftigen. 1.1 Aussagen und Logik Argumentationen in der Mathematik beruhen darauf, dass ein Zusammenhang zwischen Aussagen hergestellt wird, dass Aussagen verknüpft werden. Was eine Aussage sein soll, halten wir in einer Definition fest, die umgangssprachlich formuliert ist. Definition 1.1.1 Eine Aussage ist eine sprachliche Feststellung, die entweder wahr oder falsch ist. Falsch bzw. wahr charakterisiert man dabei durch einen Wahrheitswert: (w) steht für wahr, (f ) steht für falsch. In der obigen Definition“ spiegelt sich das aristotelische1 Prinzip des tertium non datur ” wieder: eine Aussage ist entweder wahr oder falsch, eine dritte Möglichkeit gibt es nicht. Beispiele: 1. 2. 3. 4. 5. 6. 2 ist eine gerade Zahl 1004 ist durch 3 teilbar Brasilien ist ein Entwicklungsland Die Straße X ist nass Das Dreieck ABC ist gleichschenklig 2999999991 − 1 ist eine Primzahl Die erste Aussage ist wahr, die zweite Aussage ist falsch, wenn wir eine Definition von Teilbarkeit unterstellen; der Wahrheitsgehalt der dritten Aussage hängt von einer Definition eines Entwicklungslandes ab; die vierte Aussage kann auf ihren Wahrheitsgehalt mit physikalischen“ Mitteln ” geprüft werden; ob die fünfte Aussage wahr ist, ist offen, solange keine exakte Definition und Beschreibung des konkreten Dreiecks vorliegt; der Wahrheitsgehalt der letzten Aussage ist offen: 2999999991 − 1 ist eine Primzahl oder sie ist keine, die Instanz“, die dies (schnell) entscheiden ” kann, ist wohl noch zu finden. Der Umgang“ mit Aussagen mit dem Ziel, sie auf ihren Wahrheitsgehalt zu untersuchen, ” sie mit anderen Aussagen zu verknüpfen, sie als Argumente in eine (wissenschaftliche) Diskussion einzubringen, wird im Kontext von Logik studiert. Während die griechische Logik der 1 Aristoteles von Stagira (384-322 v. Chr.) 2 Antike großen Wert auf Argumentationsformen legte, kann die heutige mathematische Logik als kombinatorisches Studium von Inhalten bezeichnet werden. Syntaktische Ebene: Untersuchung von formalen Zeichenketten, in denen Aussagen kodiert sind. Semantische Ebene: Belegung von Zeichenketten mit Bedeutung. Unter den verschiedenen Logiken ist das System der Prädikatenlogik (der ersten Stufe) das bekannteste. Als Teilgebiete der Logik, wobei die Grenzen aber unscharf sind, werden angesehen: • Mengenlehre Auf elementare Überlegungen dazu gehen wir unten ein. • Beweistheorie Wir skizzieren einfache Beweistechniken in einem nicht formalen Rahmen exemplarisch auf unsere Zwecke zugeschnitten. • Modelltheorie Der Informatiker wird Konzepte dazu etwa im Zusammenhang mit Quan” toreneliminationsverfahren“ kennenlernen. • Rekursions-/Berechnungstheorie In der Informatik spielt Berechenbarkeit eine überragende Rolle. Wir skizzieren diese Fragestellung an einfachen Beispielen. In diesem Zusammenhang wird der Begriff des Algorithmus“ seine Bedeutung finden. ” Was meinen wir, wenn wir von logischen Schlüssen reden? Wir halten uns an eine umgangssprachliche Definition. Logik: Die Lehre von folgerichtigen Denkweisen. Logisches Schließen: Folgerichtiges, natürlich“ klares Argumentieren. ” Meist handeln wir nach dem Muster“ des Deduktiven Schließens: Aus vorgegebenen Regeln ” (Prämissen) ziehen wir einen eindeutigen Schluss (Konklusion). Beispiel 1.1.2 Aus einem Kartendeck, auf dem auf einer Seite Zahlen und auf der anderen Seite Buchstaben aufgebracht sind, sind vier Karten aufgedeckt. Sie zeigen 6,3,A,F. Regel: Wenn auf der einen Seite einer Karte ein Vokal sich befindet, dann befindet sich auf der anderen Seite eine gerade Zahl. Frage: Welche der vier Karten muss man umdrehen, um die Regel zu überprüfen?2 Induktives Schließen ist das Ableiten allgemein gültiger Regeln aus Beobachtungen, Experimenten und Erfahrungen. Im nichtmathematischen Kontext geschieht dies meist unter Einbeziehung von (umgangssprachlichen) Wahrscheinlichkeiten, die ihrerseits mathematisch hinterfragt werden können. Wir kommen im Zusammenhang mit natürlichen Zahlen auf induktives Schließen zurück. Beispiel 1.1.3 Apfel-Kerngehäuse-Hypothese: • Jeder Apfel, den ich bisher in meinem Leben gegessen habe, hatte ein Kernghäuse. • Dies ist ein Apfel. • Induktiver Schluss: Dieser Apfel hat ein Kerngehäuse. Aber: Die Apfel-Kerngehäuse-Hypothese Jeder Apfel hat ein Kerngehäuse“ kann niemals be” wiesen werden. 2 Die Lösung ist: Die Karten mit 3 und A. 3 Beispiel 1.1.4 Ein etwas unsinniges Beispiel induktiven Schließens ist in folgender Aufgabe enthalten: Betrachte das Zahlentripel 2 – 4 – 6 Setze das Zahlentripel zu einer Zahlenreihe fort. Beispielsweise ließe sich für jede der Fortsetzungen 2 – 4 – 6 – 8 – 10 – · · · eine offensichtliche Regel finden. 1.2 oder 2 – 4 – 6 – 4 – 2 – 4 – 6 – 4 – ··· Verknüpfung von Aussagen Als erstes Aussagenkonstrukt betrachten wir die Verneinung/Negation einer Aussage. Konkret: Ist P eine Aussage, so bezeichnen wir mit ¬P die Negation der Aussage P ; es ist also P wahr genau dann, wenn ¬P falsch ist. Man bezeichnet die Negation als einstellige Ver” knüpfung“, benötigen wir doch dabei nur eine Aussage. Logische Verknüpfungen, bei denen zwei Aussagen beteiligt sind, nennen wir zweistellige oder binäre Aussageverknüpfungen. Die Aussageverknüpfungen werden – in streng mathematischen Sinne – in der boolschen3 Algebra zusammengefasst. In der folgenden Tabelle fügen wir logische Operatoren, wie sie etwa in Maple nutzbar sind, ein. Durch logische VerOperation Sprechweise Symbol Maple knüpfung zweier Aussagen P,Q ensteht eiNegation nicht . . . ¬ &not ne dritte Aussage R, Konjunktion . . . und . . . ∧ &and eine sogenannte verbundene Aussage. Alternative . . . oder . . . ∨ &or Um den WahrheitsgeImplikation wenn . . ., dann . . . =⇒ &implies halt dieser verbundenen Aussage geht es . . . genau dann, wenn . . . ⇐⇒ &iff Äquivalenz dann. Bestimmt wird die Aussage R dadurch, welcher Wahrheitswert ihr für die verschiedenen Belegungen mit (w) und (f) der Aussagen P und Q zukommt. Die folgende Wahrheitstafel zeigt, wie die oben angeführten Aussageverknüpfungen definiert sind: P Q P ∧ Q P ∨ Q P =⇒ Q P ⇐⇒ Q (w) (w) (w) (w) (w) (w) P ¬P (w) (f) (f) (w) (f) (f) (w) (f) (f) (w) (f) (w) (w) (f) (f) (w) (f) (f) (f) (f) (w) (w) Man beachte insbesondere die Wahrheitstafel zu P =⇒ Q: Ist P falsch, so ist die Implikation P =⇒ Q wahr, unabhängig vom Wahrheitsgehalt von Q. Die Wahrheitstafel der Negation ist angefügt. Mit den nun eingeführten Verknüpfungen stehen uns schon eine große Anzahl von Aussagenkonstrukten zur Verfügung. Halten wir einige logische Gesetze fest: 3 George Boole, 1815-1864, Mathematiker 4 Regel 1.2.1 Seien P, Q Aussagen. (P =⇒ Q) ¬(P ∧ Q) ¬(P ∨ Q) (P =⇒ Q) ⇐⇒ (¬Q =⇒ ¬P ) ⇐⇒ ¬P ∧ ¬Q ⇐⇒ (1.1) ¬P ∨ ¬Q ⇐⇒ (1.2) (1.3) (¬P ∨ Q) (1.4) Von der Richtigkeit dieser Aussagen überzeugen wir uns, indem wir die Wahrheitstafeln erstellen. Etwa zu (1.1): P =⇒ Q ¬ Q ¬ P ¬ Q =⇒ ¬ P (P =⇒ Q) ⇐⇒ (¬ Q =⇒ ¬ P) P Q (w) (w) (w) (f) (f) (w) (w) (w) (f) (f) (w) (f) (f) (w) (f) (w) (w) (f) (w) (w) (w) (f) (f) (w) (w) (w) (w) (w) Die Wahrheitstafel zu P =⇒ Q ist identisch mit der Wahrheitstafel zu ¬ P ∨ Q, wie man leicht verifiziert. Die Aussage ¬ P ∨ Q vermeidet also das der Umgangssprache nahestehende “folgt“ in P =⇒ Q. Regel 1.2.2 Seien P,Q,R Aussagen. P ∧ Q P ∨ Q ⇐⇒ Q ∧ P ⇐⇒ (1.5) Q ∨ P (1.6) (P ∧ Q) ∧ R ⇐⇒ P ∧ (Q ∧ R) (1.7) P ∧ (P ∨ Q) ⇐⇒ P (1.9) P (1.10) (P ∧ Q) ∨ (P ∧ R) (1.11) (P ∨ Q) ∨ R P ∨ (P ∧ Q) P ∧ (Q ∨ R) P ∨ (Q ∧ R) ⇐⇒ P ∨ (Q ∨ R) ⇐⇒ ⇐⇒ ⇐⇒ (1.8) (P ∨ Q) ∧ (P ∨ R) (1.12) Die Gültigkeit von (1.5) , . . . , (1.12) belegt man wieder mit Hilfe von Wahrheitstafeln. Etwa zu (1.11) in nicht vollständiger Aufzählung: P Q R Q ∨ R P ∧ (Q ∨ R) P ∧ Q P ∧ R (P ∧ Q) ∨ (P ∧ R) (w) (w) (f) (w) (w) (w) (f) (w) (w) (f) (w) (w) (w) (f) (w) (w) (f) (w) (w) (w) (f) (f) (f) (f) (f) (f) (f) (f) (f) (f) (f) (f) Sprechweisen: (1.5), (1.6) (1.7), (1.8) (1.9), (1.10) (1.11), (1.12) Kommutativgesetze Assoziativgesetze Verschmelzungsgesetze Distributivgesetze 5 In Definitionen weisen wir mathematischen Objekten manchmal Eigenschaften mit einem definierenden Äquivalenzzeichen “ : ⇐⇒ ,“ zu, etwa: Objekt O hat Eigenschaft E : ⇐⇒ Eine Aussage A über das Objekt O , die äquivalent mit dem Eintreten der Eigenschaft E ist, ist wahr (gilt). Beispiel 1.2.3 Die Schwierigkeit beim Umgang mit Aussagen und ihrer logischen Verwendung zeigt uns die Antinomie von Epimenides: Epimenides sagt, alle Kreter lügen Epimenides ist Kreter Epimenides lügt 1.3 Beweise Ein Satz, Lemma, eine Folgerung, . . . ist die Ausformulierung einer mathematischer Aussage, die wahr ist. Meist stellt sich diese Ausformulierung so dar, dass aus einer Voraussetzung V eine Behauptung B gefolgert werden soll; V, B sind selbst mathematische Aussagen. Ein Beweis eines Satzes mit Voraussetzung V und Behauptung B ist also eine Kette von Implikationen, ausgehend von der Aussage V bis zur Aussage B: V =⇒ . . . =⇒ B Die Regel (1.1) sagt uns, dass wir den Beweis auch führen können, indem wir die Gültigkeit von V =⇒ B dadurch zeigen, dass wir ¬B =⇒ ¬V nachweisen; Beweis durch Kontraposition). Der Widerspruchsbeweis basiert auf der Regel (1.4) zusammen mit (1.3). Er stellt sich so dar: V ∧ ¬B =⇒ . . . =⇒ Q Hierbei ist mit Q dann eine Aussage erreicht, die nicht wahr ist. Ein Beweis durch Fallunterscheidung kann angewendet werden, wenn sich die Voraussetzung V als V1 oder V2 formulieren läßt. Dann reicht es die Fälle V1 =⇒ B und V2 =⇒ B zu zeigen, wie eine Wahrheitstafel sofort zeigt. √ Dem Nachweis von Euklid4 , dass 2 nicht rational ist, liegt die Beweistechnik des Widerspruchbeweises zugrunde: V : a ist eine Zahl mit a2 = 2 B: a ist eine Zahl, die nicht rational ist √ Aus der Annahme V ∧ ¬B, also der Annahme, dass 2 eine rationale Zahl ist, leiten wir durch logisches Schließen (gültige Aussageverknüpfungen) eine Aussage ab, die nicht wahr ist. Also kann die Annahme V ∧ ¬B nicht wahr sein; V =⇒ B ist also wahr. Wir kommen auf diesen Beweis zurück, wenn wir etwas mehr über rationale und irrationale Zahlen Bescheid wissen. Bemerkung 1.3.1 Beweise führt man, u. a. dazu, (-) sich selbst zu überzeugen, dass man richtig überlegt hat; (-) andere Mathematiker zu überzeugen, dass die Aussage eines Satzes, Lemmas, . . . zutrifft; 4 Euklid, 365(?) – 300(?), Mathematiker“ ” 6 (-) den inneren Aufbau eines mathematischen Gebäudes zu erläutern. Einen Beweis zu finden, erfordert oft ein großes Maß an Intuition, Kreativität und Vorstellungsvermögens. Bemerkung 1.3.2 Axiome sind Sätze/Aussagen, deren Gültigkeit ohne Argumente angenommen wird, an deren Wahrheit also nicht gezweifelt wird; wir bezeichnen sie als evidente Grundsätze. Eines der bekanntesten Axiomensysteme ist das von Euklid zur Begründung der Geometrie. Es beinhaltet das so genannte Parallelenaxiom, das sich etwa 2000 Jahre nach Euklid in seiner Evidenz als zweifelhaft gezeigt hat. In den empirischen Wissenschaften kann man keine Axiome festlegen, weil die erfahrbare Welt erst in der Beobachtung zu Tage tritt. 1.4 Mengen Den Begriff der Menge wollen und können wir hier ebenso wie die obigen Darlegungen zur Aussagenlogik“ nicht im strengen Sinne der mathematischen Grundlagen einführen. Er dient ” uns nur als Hilfsmittel für eine möglichst kurze Notation von konkreten Mengen. Von G. Cantor,5 dem Begründer der Mengenlehre, haben wir folgende Definition: Eine Menge ist eine Zusammenfassung bestimmter wohlunterschiedener Objekte unserer Anschauung oder unseres Denkens – welche Elemente der Menge genannt werden – zu einem Ganzen. Diese Begriffsbildung hat die Mathematik tief beeinflusst. Eine Menge besteht also aus Elementen, kennt man alle Elemente der Menge, so kennt man die Menge. Beispiele, die wir noch genauer studieren werden, sind: N := Menge der natürlichen Zahlen Z := Menge der ganzen Zahlen Q := Menge der rationalen Zahlen R := Menge der reellen Zahlen . Mit den natürlichen Zahlen 1, 2, 3, . . . sind wir schon (aus der Schule) wohlvertraut. Später gehen wir etwas struktureller darauf ein. Man kann eine Menge dadurch bezeichnen, dass man ihre Elemente zwischen zwei geschweifte Klammern (Mengenklammern) schreibt. Die Zuordnung eines Elements zu einer Menge erfolgt mit dem Zeichen “ ∈ “. Gehört ein Objekt x nicht zu einer Menge M, so schreiben wir x ∈ / M. Es hat sich als zweckmäßig erwiesen, den Mengenbegriff so aufzufassen, dass eine Menge aus gar keinem Element bestehen kann. Dies ist dann die leere Menge, das Zeichen dafür ist ∅ . Beispielsweise ist die Menge der rationalen Zahlen, deren Quadrat gleich 2 ist, leer. Dies wissen √ wir aus der Anmerkung über die Irrationalität von 2 . Das Hinschreiben der Elemente einer Menge kann auf zweierlei Weisen geschehen. Hat die Menge nur ganz wenige Elemente, so kann man sie einfach alle hinschreiben, durch Kommata getrennt, auf die Reihenfolge kommt es dabei nicht an und eine Mehrfachnennung ist nicht von Bedeutung, etwa: {1, 2, 3} = {2, 3, 1} = {3, 3, 1, 2} . Abgekürzt verfährt man oft auch so: Elemente, die man nicht nennt aber gut kennt, werden durch Punkte angedeutet, etwa: {1, 2, 3, 4, 5, 6, 7, 8} = {1, 2, . . . , 8} = {1, . . . , 8} . 5 Georg Cantor, 1845-1918, Mathematiker 7 Man nennt diese Art, Mengen hinzuschreiben, zu definieren, die Umfangsdefinition. Die zweite Möglichkeit besteht darin, Objekte einer Menge als Elemente dadurch zuzuordnen, dass man ihnen eine charakterisierende Eigenschaft zuweist. Ist E eine Eigenschaft, die jedes Objekt x einer Menge M hat oder nicht hat, so bezeichne {x ∈ M |x hat die Eigenschaft E} die Menge aller Elemente von M , die die Eigenschaft E haben; etwa KO := {x ∈ Obst|x Kernobst} UNO := {x ∈ Länder|x Mitglied der UNO} Man nennt diese Art, Mengen hinzuschreiben, zu definieren, die Inhaltsdefinition.. Die Schreibweise P (x) für ein Element x einer Menge M interpretieren wir, dass x die Eigenschaft/das Prädikat P zukommt. Wichtig beim Hinschreiben von Mengen ist, dass stets nachgeprüft werden kann, ob ein spezielles Objekt einer in Frage stehenden Menge angehört oder nicht; in der Definition von Cantor ist dies festgehalten. Dies korrespondiert mit dem ausgeschlossenen Dritten bei Aussagen. Bei J.A. Poulos6 lesen wir: ... Ähnlich ist es mit der Notation der Mengenlehre. Sie ist so einfach, dass sie schon an der Grundschule gelehrt werden kann. Was manchmal seitenlang in einem Vorwort zu einem Lehrbuch steht, passt schon in ganz wenige Sätze: Mit p ∈ F wird ausgedrückt, dass p ein Element der Menge F ist, und mit F ⊂ G, dass jedes Element von F ebenso ein Element von G ist. Haben wir zwei Mengen A und B, dann ist A ∩ B die Menge, die jene Elemente enthält, die sowohl zu A als auch zur Menge B gehören; mit A ∪ B ist die Menge gemeint, die jene Elemente enthält, die zur Menge A, B oder zu beiden gehören; und A′ ist die Menge jener Elemente, die nicht zu A gehören. Eine Menge, die keine Elemente enthält, ist eine leere Menge und wird mit ∅, manchmal auch mit {} angegeben, geschweifte Klammern ohne Inhalt. Ende des Mini-Kurses. Was uns von den Begriffen aus dem obigen Minikurs noch nicht begegnet ist, bringen wir noch in eine anständige“ Form: ” Definition 1.4.1 Seien A, B Mengen und sei z irgendein Objekt. (a) A ⊂ B : ⇐⇒ (x ∈ A =⇒ x ∈ B) Damit ist die Teilmengeneigenschaft/Inklusion ⊂ definiert. (b) A = B : ⇐⇒ (A ⊂ B und B ⊂ A) (c) z ∈ A ∩ B : ⇐⇒ (z ∈ A und z ∈ B) . Damit ist der Durchschnitt A ∩ B definiert: A ∩ B := {x|x ∈ A und x ∈ B} (d) z ∈ A ∪ B : ⇐⇒ (z ∈ A oder z ∈ B) . Damit ist die Vereinigung A ∪ B definiert: A ∪ B := {x|x ∈ A oder x ∈ B} Das Symbol “ := “ haben wir als definierendes Gleichsetzen von Mengen eingeführt. Es korrespondiert mit dem Symbol “: ⇐⇒ “. 6 Poulos, J.A.: Von Algebra bis Zufall, Campus, Frankfurt, 1992 8 Definition 1.4.2 Sei A eine Menge. Die Potenzmenge von A ist die Menge der Teilmengen von A einschließlich der leeren Menge: P OT (A) := {B|B ⊂ A} . Beispiel 1.4.3 Sei A := {p, q, r}. Wie sieht die Potenzmenge P OT (A) aus? Wir haben P OT (A) = {∅, {p}, {q}, {r}, {p, q}, {q, r}{p, r}, {p, q, r}} Wir stellen fest, dass die Menge A drei und die Menge P OT (A) 8 = 23 Elemente enthält. Dies hat dazugeführt, dass man P OT (A) auch als 2A schreibt, und die Bezeichung Potenzmenge“ ” leitet sich daraus ab. Mitunter wollen wir eine Bezeichnung für diejenigen Elemente haben, die eine gewisse Eigenschaft nicht haben. Dies ist Inhalt von Definition 1.4.4 Seien A, B Teilmengen von U . (a) A\B := {x ∈ A|x ∈ / B} heißt das relative Komplement von B in A . (b) ∁A := U \A heißt das Komplement von A (in U ). (In der Definition (b) steht U für die (universelle) Grundmenge, auf die wir uns bei der Komplementbildung beziehen.) Ein bequemes Hilfsmittel beim Nachdenken über Mengen sind die Venn–Diagramme, bei denen in der Zeichenblattebene Gebiete zur Darstellung von Mengen benutzt werden: Durch Kurven umschlossene Gebiete stellen Mengen A, B, . . . dar. Solche Darstellungen sind gut geeignet, formale Argumente für einen zu beweisenden Sachverhalt zu finden. A B (a) Teilmenge A B (b) Vereinigung A B (c) Durchschnitt Abbildung 1.1: Venn–Diagramme Die Nützlichkeit der leeren Menge ∅ wird deutlich bei der Definition des Durchschnitts. Hier ist ja der Fall, dass A ∩ B kein Element enthält, sicherlich nicht auszuschließen, wie uns ein geeignetes Venn–Diagramm sofort lehrt. Zwei Mengen, deren Durchschnitt leer ist, heissen disjunkt. 9 Regel 1.4.5 Seien A, B, C Mengen. A ⊂ B, B ⊂ C A ∪ (B ∪ C) =⇒ = A ∩ (B ∩ C) = A∩B = A∪B = A ∩ (B ∪ C) = A ∪ (B ∩ C) = A⊂C (A ∪ B) ∪ C (1.13) (1.14) (A ∩ B) ∩ C (1.15) B∩A (1.17) B∪A (1.16) (A ∩ B) ∪ (A ∩ C) (1.18) (A ∪ B) ∩ (A ∪ C) (1.19) Beweis von (1.18): Wir haben zu zeigen: A ∩ (B ∪ C) ⊂ (A ∩ B) ∪ (A ∩ C), (A ∩ B) ∪ (A ∩ C) ⊂ A ∩ (B ∪ C) . Sei x ∈ A ∩ (B ∪ C). Dann gilt: x ∈ A, x ∈ B ∪ C . Daraus folgt: x ∈ A ∩ B oder x ∈ A ∩ C, je nachdem, ob x ∈ B und/oder x ∈ C. Daraus schließen wir: x ∈ (A ∩ B) ∪ (A ∩ C). Für den Beweis der anderen Inklusion lese man die eben vorgeführten Beweisschritte rückwärts. Sprechweisen: (1.13) (1.14), (1.15) (1.16), (1.17) (1.18), (1.19) Transitivität Assoziativgesetze Kommutativgesetze Distributivgesetze. Definition 1.4.6 Seien A, B Mengen. (a) Sind a ∈ A, b ∈ B, so heißt (a, b) das damit gebildete geordnete Paar (bezogen auf die Reihenfolge “zuerst A, dann B“). (b) Zwei Paare (a, b), (a′ , b′ ) mit a, a′ ∈ A, b, b′ ∈ B, heißen gleich genau dann, wenn a = a′ , b = b′ gilt. (c) Die Menge A × B := {(a, b)|a ∈ A, b ∈ B} heißt das kartesische Produkt der Faktoren A, B . Mit geordneten Paaren notieren wir etwa die kartesischen Koordinaten (Vielfache der Einheitsstrecke) eines Punktes in der Ebene: wir kommen darauf zurück.7 Beispiel 1.4.7 Z2 := {(x, y)|x, y ∈ Z} ist die Menge aller Punkte der Ebene mit ganzzahligen Koordinaten. Solche Punkte heißen auch Gitterpunkte“ der Ebene. Analog ist Z n die Menge ” aller Gitterpunkte des Rn . Regel 1.4.8 Seien A, B, C Mengen: A × (B ∪ C) = (A × B) ∪ (A × C) . A × (B ∩ C) = (A × B) ∩ (A × C) . 7 (1.20) (1.21) Da René Descartes, 1596-1650, sehr erfolgreich die Koordinatisierung algebraischer Probleme betrieben hat, ist die Bezeichnung kartesisch“ wohl angebracht. ” 10 Diese Regeln bestätigt man ganz leicht. Nehmen wir uns die Regel (1.20) vor und beweisen eine der Inklusionen, die es zu beweisen gilt: A × (B ∪ C) ⊂ (A × B) ∪ (A × C) . Sei x ∈ A × (B ∪ C) . Dann gibt es a ∈ A, d ∈ B ∪ C mit x = (a, d) . Nach Definition von B ∪ C bedeutet dies x = (a, d) mit a ∈ A, d ∈ B, oder x = (a, d) mit a ∈ A, d ∈ C . Also x ∈ A × B oder x ∈ A × C . Es ist klar, dass wir das kartesische Produkt auf mehr als zwei Faktoren“ ausdehnen können. ” Etwa korrespondiert ein (gültiger) Lottoschein mit den Elementen der Menge {x = (x1 , x2 , x3 , x4 , x5 , x6 ) ∈ Z × · · · × Z|x1 , . . . , x6 sind paarweise verschieden}; dabei ist Z = {1, 2, 3, . . . , 49}. Ein Element (x1 , . . . , x6 ) der Menge nennt man ein 6-Tupel. Das mehrfache kartesische Produkt einer Menge A erhält eine Kurzschreibweise, nämlich An := A · · × A} := {x = (x1 , . . . , xn )| alle xi ∈ A} . | × ·{z n−mal Ein Element x = (x1 , . . . , xn ) der Menge An nennt man ein n-Tupel. Eine Menge kann endlich viele Elemente haben oder unendlich viele. Hier begnügen wir uns mit einer Definition der Endlichkeit“, die aus unserer Erfahrung heraus sehr wohl geeignet ist; ” später, wenn wir uns mit Abbildungen beschäftigt haben, bessern wir nach: Eine Menge heißt endlich, wenn jedem Element der Menge der Reihe nach die Zahlen 1, 2, . . . , N zugeordnet werden kann, wobei mit N dann allen Elementen eine Zahl zugeordnet ist. Eine Menge heißt unendlich, wenn sie nicht endlich ist. Eine endliche Menge {x1 , . . . , xn } hat somit n Elemente, wenn alle xi paaarweise verschieden sind. Die Anzahl der Elemente einer Menge M bezeichnen wir so: #M . Man beachte, dass es unserer Verabredung nicht widerspricht, dass Elemente von Mengen selbst wieder Mengen sein können. Man hüte sich aber vor Konstruktionen wie Menge aller ” Mengen“, Teilmengen aller Mengen“ usw.. Damit sind wir in einer naiven Auffasung von Men” gen überfordert. Mit den Schwierigkeiten, die bei solchen Konstruktionen auftreten, hat sich Bertrand Russel erfolgreich auseinandergesetzt. Auf das Zählen der Elemente einer Menge werden wir nach einer Betrachtung der natürlichen Zahlen eingehen. In der Wahrscheinlichkeitstheorie benutzt man Mengen, um unsichere Ereignisse, also Ereignisse, deren Eintreffen vom Zufall mitbestimmt ist, darzustellen. Die Theorie, die dafür zuständig“ ist, ist die Stocha” stik, in der die Wahrscheinlichkeitstheorie und die Statistik zusammengefaßt sind. Wir kommen darauf zurück. Notation Sprechweise ∀a ∈ A “für alle Elemente a in A“ ∃a ∈ A “es existiert a in A“ ∃1 a ∈ A “es existiert genau ein a in A“ ∀a ∈ A (P (a)) “für alle Elemente a in A ist P (a) wahr“ ∀a ∈ A (P (a)) “für alle Elemente a in A gilt P (a)“ ∃a ∈ A (P (a)) “es existiert a in A mit P (a)“ Abbildung 1.2: Quantoren 11 1.5 Quantoren Wir führen noch Quantoren ein; siehe Abbildung 1.2. Damit können wir dann viele Resultate und Definitionen noch kompakter hinschreiben. Wir werden viele Beispiele für die Nützlichkeit dieser Quantoren kennenlernen. Wir erinnern zum Beispiel an die Definition der Konvergenz einer reellen Zahlenfolge (an )n∈N : a = lim an : ⇐⇒ ∀ ε > 0 ∃ N ∈ N ∀ n ≥ N (|an − a| < ε) . n Man beachte stets, dass Quantoren in der Reihenfolge nicht vertauschbar sind. Wichtig ist es auch, zu verstehen, wie die Negation einer Aussage aussieht, die mit Hilfe von Quantoren beschrieben wird, etwa: ¬(∀ a ∈ A (P (a))) ist gleichbedeutend mit ∃ a ∈ A (¬P (a)) . 1.6 1.) Übungen Verneine folgende Aussagen: (a) Wenn es regnet, ist die Straße nass. (b) Es gibt kein Tier, das genau ein Ohr und genau zwei Augen hat. (c) Alle Quadrate von ganzen Zahlen sind gerade. Was lässt sich über den Wahrheitsgehalt der Aussagen in (a), (b), (c) sagen? 2.) A, B, C, D sind vier Tatverdächtige. Genau einer unter ihnen ist der Täter. Beim Verhör machen sie folgende Aussagen: A: B ist der Täter B: D ist der Täter C,D: Ich bin nicht der Täter Wer ist der Täter, wenn (a) genau einer lügt, (b) genau einer die Wahrheit sagt ? 3.) Seien P, Q Aussagen. Stelle die Wahrheitstafel zu (a) ¬(P ∨ Q) ⇐⇒ ¬P ∧ ¬Q (b) P ∧ (P ∨ Q) ⇐⇒ P auf. 4.) (a) Fülle die folgende Wahrheitstabelle aus: P (w) (w) (f) (f) Q (w) (f) (w) (f) ¬P ¬Q (¬ P ∨ Q) ¬ (¬ P ∨ Q) Was schließt man aus den beiden letzten Spalten? (b) Fülle die folgende Wahrheitstabelle aus: P (w) (w) (f) (f) Q (w) (f) (w) (f) P =⇒ Q 12 (P =⇒ Q) ∨ P P ∧ ¬Q Was schließt man aus der letzten Spalte? 5.) Verneine folgende Aussagen: (a) Zu jedem Vorschlag gibt es jemand, der den Vorschlag kritisiert. (b) Keine Regel ohne Ausnahme. (c) 6.) In manchen Häusern haben nicht alle Wohnungen fließendes Wasser. Betrachte die Sequenz Marylin Monroe ist ein Star/Stare sind Höhlenbrüter/Marylin Monroe ist ein Höhlenbrüter Kommentiere sie hinsichtlich (a) Logisch richtig? (b) Prämisse richtig? (c) 7.) Wo ist ein/das Problem? Seien A, B Mengen. Zeige: (a) Zeige: P OT (A ∩ B) = P OT (A) ∩ P OT (B) (b) Zeige: P OT (A) ∪ P OT (B) ⊂ P OT (A ∪ B) (c) Ist sogar P OT (A ∪ B) = P OT (A) ∪ P OT (B) richtig ? 8.) Seien A, B Mengen. Welche Beziehung besteht zwischen A und B, falls A ∩ B = A oder A ∪ B = B gilt? 9.) Seien G, M Mengen und sei I ⊂ G × M . Zu A ⊂ G setze Aˆ:= {m ∈ M |(a, m) ∈ I für alle a ∈ A} . Zeige: (a) Bˆ⊂ Aˆ falls A ⊂ B . (b) A ⊂ Aˆˆ, Aˆ= Aˆˆˆ. (In der Literatur heisst ein solches Tripel (G, M, I) auch Kontext mit Gegenstandsmenge G, Merkmalen M und Inzidenz I .) 10.) Beweise für Mengen A, B, C : A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) . 11.) Die symmetrische Differenz von Mengen A und B ist definiert durch A △ B := {x ∈ A|x ∈ / B} ∪ {x ∈ B|x ∈ / A} Beweise für Mengen A, B, C : A △ (B △ C) = (A △ B) △ C. 12.) Seien A, B Mengen und definiere ((a, b)) := {{a}, {a, b}} , a ∈ A, b ∈ B . Zeige für a, p ∈ A, b, q ∈ B: ((a, b)) = ((p, q)) ⇐⇒ a = p, b = q . (Damit haben wir geordnete Paare neu definiert.) 13.) Zeige für Mengen A, B die Äquivalenz der folgenden beiden Aussagen: (a) A=B. (b) A ∪ B = A ∩ B . 13 Kapitel 2 Operieren mit und auf Mengen Hier stellen wir einige nützliche Dinge zur Operation mit und auf Mengen vor. Das Objekt Alphabet“ ist für die Belange der Informatik von großem Interesse, ebenso wie Relationen und ” Ordnungen. Daran schließt sich die Definition der Abbildungen an. 2.1 Alphabete Alphabete sind ein zentraler Begriff der theoretischen Informatik im Zusammenhang mit Grammatiken und Verschlüsselungsverfahren. Definition 2.1.1 Sei A eine nichtleere Menge. A∗ bezeichne die Menge der endlichen Tupel von Elementen von A, also x ∈ A∗ genau dann, wenn x = () oder x ∈ An für ein n ∈ N, . Die Elemente von A∗ werden A–Wörter – in der Informatik A–Strings – genannt, das Symbol () bezeichnet das so genannte leere Wort (leeres Tupel). (Wörter sind Bausteine von Sprachen.) Die Menge A wird in diesem Zusammenhang ein Alphabet genannt; die Elemente von A sind der Zeichenvorrat für die Wörter. Einem Element w ∈ A∗ mit w ∈ An wird die Länge n zugesprochen; wir nennen es ein n–Wort; das leere Wort () hat die Länge 0. Im Spezialfall A = {0, 1} spricht man bei A∗ von binären Worten. In der obigen Definition haben wir Wörter als Tupel definiert. Im Kontext von Alphabeten und deren Wörter läßt man in der Tupel-Schreibweise begrenzende runde Klammern und trennende Kommata weg: x = x1 x2 . . . xn ist ein Wort der Länge n . Damit ist die Bezeichnung String“ in der Informatik auch erklärt. ” Beispiel 2.1.2 BAUM 1234 01001 − − •− MMIX : : : : : Deutsches Alphabet {A,B,C, . . . , X,Y,Z,Ä,Ü,Ö} Dezimalziffern-Alphabet {0,1,2,3,4,5,6,7,8,9} Binäres Alphabet {0, 1} Morsealphabet {−, •, ⊔} (− − •− steht für “q“) {I,V,X,L,C,D,M} ist das Alphabet zur Darstellung römischer Zahlen Bemerkung 2.1.3 Sei X = {x1 , . . . , xn } eine Menge mit n Elementen. Jeder Teilmenge A von X, d.h. jedem Element der Potenzmenge von X, entspricht eindeutig ein n−Wort aus dem Alphabet {0, 1} : 1 , falls xi ∈ A A ←→ b1 b2 . . . bn , wobei bi = 0 , falls xi 6∈ A 14 Also ist die Anzahl der Elemente von P OT (X) gleich der Anzahl der möglichen binären n−Worte. Diese können wir so abzählen: Es gibt wn n−Wörter und wn+1 (n + 1)−Wörter. Wir sortieren“ die (n + 1)−Wörter nach dem ” 1. Buchstaben: genau wn Wörter beginnen mit 0, genau wn Wörter beginnen mit 1. Daher gilt: wn+1 = 2 · wn , w1 = 2 . Daraus folgt die Formel wn = 2n , n ∈ N, . (Wir haben hier eine Art Induktionsbeweis“ aufgeschrieben; dazu später.) ” Bemerkung 2.1.4 Es gilt heute als gesicherte Tatsache, dass die Erbanlagen von Pflanzen und Tieren durch die DNS (Desoxyribonukleinsäure) in den Chromosomen übertragen werden. Man konnte zeigen, dass die DNS aus einer langen Kette besteht, die aus 4 Bausteinen, die durch die Buchstaben A,T,G,C dargestellt werden, aufgebaut ist. Hier ist ein Ausschnitt: ATGGCAAGTTACA. . . Vererbung besteht daher aus langen Nachrichten, die in Worten (Strängen) aus einem Vierbuchstabenalphabet geschrieben werden können; das Ergebnis einer Genom–Analyse ist also so hinschreibbar. Die Übertragung von Nachrichten geschieht mittels durch Hardware realisierter mechanischer oder elektronischer Impulse. Telefon, Morseapparat, Telegraph, Funkgerät sind Instrumente der Nachrichtenübermittlung. Die Strecke (physikalische Verbindung), auf der die Übermittlung vor sich geht, bezeichnet man als Kanal. Zur Übertragung werden die Nachrichten in besonderer Weise vorbereitet. Eine erste Vorbereitung ist die sogenannte Quellencodierung, bei der eine Nachricht (einer natürlichen Sprache), die ein Sender an einen Empfänger übermitteln will, in einem vorgegebenen System, Code genannt, dargestellt wird. Quellencodierung bedeutet in der Regel, einer Nachricht x einer Gesamtheit X von Nachrichten ein Wort w, geschrieben in einem Alphabet A zuzuordnen. Ein eventuell so codiertes Wort des Senders geht nun über den Kanal an den Empfänger. Hier ergeben sich zwei wesentliche Probleme. Zum einen kann ASCII–Zeichen Codewort der Kanal Störungen ausgesetzt sein (atmosphäri⊔ (Zwischenraum) 00100000 sche Störungen bei Satelliten, . . . ), zum anderen können beabsichtigte Eingriffe (Lauschen, Stören, 0 00110000 gezieltes Abändern, . . . ) von Unbefugten vorgenom1 00110001 men werden. Der erste Aspekt erfordert eine Tech2 00110010 nik, die Fehler erkennt und korrigiert, der zweite Aspekt eine Technik, die die Nachrichten für Un! 00100001 befugte unlesbar macht. Die Methode für Abhilfe A 01000001 ist bei beiden Aspekten die gleiche: die Nachricht B 01000010 im Quellencode wird vor der Sendung über den Kanal einer Sicherheitsmaßnahme unterzogen; sie wird C 01000011 nochmals codiert. Diesen zweiten Schritt fasst man Abbildung 2.1: Ascii–Code unter dem Stichwort Kanalcodierung zusammen. Auf der Empfängerseite hat man dann entsprechend zwei Decodierungsmaßnahmen zu treffen, die Kanaldecodierung und die Quellendecodierung. Beispiel 2.1.5 Beispiele für in der Praxis verwendete Codes sind: 15 • ASCII–Code (American Standard Code for Information Interchange) Damit wird ein Alphabet, das aus Buchstaben, Ziffern und Sonderzeichen besteht, über dem Alphabet {0, 1} mit Wortlänge 8 codiert. Ein Ausschnitt ist in Abbildung 2.1 zu sehen. • Lochstreifencode Damit wird ein Alphabet aus Buchstaben und Sonderzeichen über dem Alphabet {0, 1} mit Wortlänge 5 dargestellt, physikalisch realisiert als Fünferkombination von gestanzten Löchern und ungestanzten Leerstellen im Lochstreifen. • Zeichensatzcode etwa bei LATE X. Damit wird ein Alphabet aus Buchstaben, Ziffern und Sonderzeichen über dem Alphabet der Ziffern {0, 1, . . . , 7} (oktal) mit Wortlänge 3 dargestellt. Ein Beispiel: 046 steht für & im Zeichensatz cmr10. Dabei ist cmr10 selbst wieder ein Codewort, dessen Bauart sich so erklärt: “cm“ steht für “Computer Modern“, “r“ steht für die Schriftart “Roman“, “10“ steht für die Entwurfsgröße. • ISBN (International Standard Book Number) Beispiel: 3 – 127 – 01901 – 7 (Die Zahl 3 steht für den deutschsprachigen Raum, 127 steht für den Verlag, 01901 steht für die Nummer des Buches in der internen Zählung des Verlages, 7 ist eine Prüfziffer, die so zustande kommt: 1 · 3 + 2 · 1 + 3 · 2 + 4 · 7 + 5 · 0 + 6 · 1 + 7 · 9 + 8 · 0 + 9 · 1 hat Rest 7 bei Teilung durch 11 Eine Prüfziffer 10 wird als X (römische 10) geschrieben.) • E A N (European Article Number/Strichcode) Beispiel: | ||| | || || | 2.2 Relationen Definition 2.2.1 Sei X, Y Mengen. Eine Teilmenge R ⊂ X × Y heißt Relation auf X × Y . Hinter einer Relation verbirgt sich noch nicht viel, denn Teilmengen in einem Kreuzprodukt X × Y gibt es viele. Interessante Beispiele entstehen erst, wenn man weitere Eigenschaften hinzunimmt, wie dies etwa unten bei der Äquivalenzrelation und bei der Relation, die eine Abbildung definieren soll, der Fall ist. Beispiel 2.2.2 Betrachte auf der Menge M := Menge aller lebenden Menschen die Relation R des Verheiratetseins: (a, b) ∈ R : ⇐⇒ a, b sind miteinaner verheiratet. Klar, hier gilt sicher nicht (a, a) ∈ R . Das Gleichheitszeichen “ = “ verwenden wir in einer Menge unter der stillschweigenden Annahme der folgenden Regeln: x = x ; (x = y =⇒ y = x) ; (x = y, y = z =⇒ x = z) . Dies nehmen wir zum Anlass für Definition 2.2.3 Sei X eine Menge. Eine Teilmenge R ⊂ X × X heißt Äquivalenzrelation auf X, falls gilt: 16 (i) (x, x) ∈ R für alle x ∈ X (Reflexivität) (ii) (x, y) ∈ R =⇒ (y, x) ∈ R (Symmetrie) (iii) (x, y), (y, z) ∈ R =⇒ (x, z) ∈ R (Transitivität) R Liegt mit R auf X eine Äquivalenzrelation vor, so schreiben wir für (x, y) ∈ R x ∼ y oder kurz x ∼ y , wenn R uns aus dem Zusammenhang klar ist. Die Bedeutung einer Äquivalenzrelation R auf X liegt darin, dass man damit die Menge X in Teilmengen (Klassen, Bündel) einteilen kann, eine Einteilung, die eventuell gröber ist, als die Aufteilung in einelementige Mengen, und die bezüglich eines Merkmales“ doch noch ” aussagekräftig ist. Die Einteilung geschieht durch R [x] := {y ∈ X|y ∼ x} , x ∈ X , und X/ R := {[x] | x ∈ X} . Die Objekte [x] heißen Äquivalenzklassen, x heißt Repräsentant der Klasse [x] . Man beR achte, dass jedes y ∈ X mit y ∼ x als Repräsentant für [x] Verwendung finden kann. Beispiel 2.2.4 Blutgruppen werden grob eingeteilt in A, AB, B, 0. Sei K eine Gruppe von Kindern. Wir erklären darauf eine Relation durch x ∼ y : ⇐⇒ x, y haben dieselbe Blutgruppe In der Tat liegt eine Äquivalenzrelation vor. Dadurch wird die Gruppe der Kinder in 4 Klassen eingeteilt. Beispiel 2.2.5 Man überlege sich, in welcher Weise, die Geraden in der Ebene durch eine Äquivalenzrelation in Klassen eingeteilt werden können. Lemma 2.2.6 Sei X eine Menge und sei R eine Äquivalenzrelation auf X. Dann sind mit x, y ∈ X folgende Bedingungen äquivalent: R (a) y ∼ x . (b) (c) y ∈ [x] . [y] ∩ [x] 6= ∅ . (d) [y] = [x] . (e) x ∈ [y] . (f ) x ∼ y. R Beweis: Wollten wir alle Äquivalenzen einzeln zeigen, müssten wir 10 Implikationen beweisen. Dies können wir wesentlich abkürzen durch einen Ringschluss: es genügt zu zeigen: (a) =⇒ (b) =⇒ (c) =⇒ (d) =⇒ (e) =⇒ (f ) =⇒ (a) . Dies tun wir nun. Beachte dabei, dass wegen der Reflexivität stets z ∈ [z] . (a) =⇒ (b) Dies folgt aus der Definition der Klasse [x] . 17 (b) =⇒ (c) Klar, y ∈ [y] ∩ [x] . (c) =⇒ (d) Sei z ∈ [y] ∩ [x] , d.h. z ∼ x, z ∼ y . Wir zeigen [z] = [x] = [y] . Es genügt dazu [z] = [y] zu zeigen, der Beweis der anderen Aussage verläuft völlig analog. Sei u ∈ [z] . Dann gilt u ∼ z, z ∼ y und daher mit der Transitivität u ∈ [y] . Sei v ∈ [y] . Dann gilt v ∼ y, z ∼ y und daher mit der Symmetrie und Transitivität u ∈ [z] . (d) =⇒ (e) Klar, denn x ∈ [x] . (e) =⇒ (f ) Dies folgt aus der Definition der Klasse [y] . (f ) =⇒ (a) Symmetrie von ∼ . Folgerung 2.2.7 Sei X eine Menge und sei R eine Äquivalenzrelation auf X. Dann gilt: (a) Für jedes x ∈ X gibt es [y] ∈ X/ R mit x ∈ [y] . (c) Zwei Äquivalenzklassen besitzen genau dann nichtleeren Durchschnitt, wenn sie gleich sind. Beweis: Zu (a). Klar: x ∈ [x] für alle x ∈ X wegen der Reflexivität von “∼“. Zu (b). Siehe Lemma 2.2.6. 2.3 Ordnung Bei den natürlichen Zahlen 1,2,3,. . . – und nicht nur dort – verwenden wir das Ungleichungszeichen “≤“. Es hat die Eigenschaften (x, y, z ∈ N) x ≤ x; x ≤ y und y ≤ x =⇒ y = x ; x ≤ y und y ≤ z =⇒ x ≤ z ; x ≤ y oder y ≤ x . Wir nehmen dies zum Anlass für Definition 2.3.1 Sei X eine Menge. Eine Teilmenge O ⊂ X × X heißt Halbordnung von X, falls gilt: (i) Für alle x ∈ X gilt (x, x) ∈ O. (Reflexivität) (ii) (x, y) ∈ O , (y, x) ∈ O =⇒ y = x . (Antisymmetrie) (iii) (x, y), (y, z) ∈ O =⇒ (x, z) ∈ O . (Transitivität) Ist zusätzlich noch (iv) Für alle x, y ∈ X gilt (x, y) ∈ O oder (y, x) ∈ O erfüllt, dann heißt O eine Ordnung von X. O Meist schreibt man bei Vorliegen einer Halbordnung O statt (x, y) ∈ O auch x ≤ y oder kurz x ≤ y , wenn der Zusammenhang klar ist. 18 Beispiel 2.3.2 Ist X eine Menge, dann ist in P OT (X) eine Halbordnung O definiert durch (A, B) ∈ O : ⇐⇒ A ≤ B : ⇐⇒ A ⊂ B . Beachte, dass nur in trivialen Fällen eine Ordnung vorliegt. Beispiel 2.3.3 Sei A ein (endliches) Alphabet und seien An die Wörter der Länge n über dem Alphabet A . Sei in A eine Ordnung ≤ gegeben. Wir setzen für a = a1 . . . an , b = b1 . . . bn ∈ An : a ≤ b : ⇐⇒ a = b oder ak ≤ bk für das kleinste k mit ak 6= bk . lex Dann ist ≤ eine Ordnung in An . Man nennt sie die lexikographische Ordnung. Als Anwenlex dung ordne man 0002, 0008, 0013, 0029, 0132, 1324 als Worte über dem in natürlicher Weise angeordneten Alphabet A := {0, 1, 2, . . . , 9} . Eine Liste besteht aus einer Sammlung von wohlbestimmten und wohlunterscheidbaren Objekten und ihrer Anordnung nach einem Prinzip; die leere Liste ist zugelassen. Die Anordnung kann nach dem chronologischen Prinzip, nach einem alphabetischen Prinzip oder allgemein mit einer Ordnung erfolgen. Kennt man alle Objekte der Liste, so kennt man die Liste; Hat die Liste nur ganz wenige Elemente, so kann man sie einfach alle innerhalb einer eckigen Klammer – damit machen wir den Unterschied zu Mengen klar – hinschreiben, durch Kommata getrennt, auf die Reihenfolge kommt es hierbei offenbar an. 2.4 Algorithmen Ein Computer ist ein Werkzeug zur Verarbeitung und Speicherung von Information. Um ihn zu nutzen, ist er mit Verarbeitungsvorschriften zu füttern“. Wir formulieren solche Vorschriften in ” der Regel unter dem Stichwort Algorithmus. Hier skizzieren wir, worauf es bei Algorithmen ankommt, und geben erste Beispiele. Für die Analyse von Algorithmen ist der Begriff Abbildung“ ” hilfreich, wenn es darum geht die Laufzeit aufzuschreiben. Ein Algorithmus1 für eine vorgegebene bestimmte Art von Aufgaben ist eine endliche Abfolge von wohldefinierten, ausführbaren Vorschriften, die bei Abarbeitung, ausgehend von einem Eingangszustand (Input) nach einer endlichen Anzahl von Verarbeitungsschritten einen Ausgangszustand (Output) bestimmen, der als Lösung der durch den Eingangszustand charakterisierten Aufgabe angesehen werden kann. Algorithmen sind unabhängig von einer konkreten Programmiersprache und einem konkreten Computertyp, auf denen sie ausgeführt werden. Beispiel 2.4.1 Betrachte folgende Liste von Anweisungen: EIN: Natürliche Zahl n . 1 Die Bezeichnung leitet sich aus dem Namen Al–Khwarizmi (Al–Khwarizmi,780? — 850?), einem der bedeutensten Mathematiker des anfangenden Mittelalters, ab. 19 step 1 a := n, k := 1 . step 2 Ist a ( = 1, dann gehe zu AUS. 3a + 1 falls a ungerade step 3 a := a/2 falls a gerade step 4 k := k + 1, gehe zu step 2. AUS: Mit k die Länge der erzeugten Zahlenfolge. Die Rechenschritte erklären sich selbst: ausgehend von n wird eine Folge von natürlichen Zahlen erzeugt, eine so genannte Collatz/Uhlam/Warring-Folge. Ist dies ein Algorithmus? NEIN, denn es ist nicht sichergestellt, dass die Abfrage Ist a = 1, dann gehe zu AUS“ ” irgendwann zur Beendigung führt. ABER: Bisher hat man keine natürliche Zahl gefunden, bei der die obige Liste von Anweisungen nicht endet. Unterschiedliche Algorithmen können entworfen werden zur Lösung ein und derselben Aufgabe. Leistungsunterschiede lassen sich herausarbeiten, wenn man ihren Aufbau und ihre Wirkungsweise analysiert. Fragestellungen dafür sind: • Entwurf von Algorithmen: Wie soll ein Algorithmus zur Lösung einer bestimmten Aufgabe aussehen? • Berechenbarkeit: Gibt es Aufgaben, für die kein Algorithmus existiert? • Korrektheit: Wie läßt sich nachweisen, ob ein vorliegender Algorithmus die Aufgabe korrekt löst? • Komplexität: Wie läßt sich der Aufwand, der betrieben werden muss, um eine Problemklasse von Aufgaben zu lösen, bestimmen/abschätzen? • Robustheit/Zuverlässigkeit: Wie groß ist die Problemklasse von Aufgaben, die der Algorithmus löst? • Genauigkeit: Was ist die Qualität der Lösung, wenn numerisches Rechnen nötig ist? Hauptziel der Analyse ist die Effizienzuntersuchung und die Entwicklung effizienterer Algorithmen. Diese Analyse sollte aber rechnerunabhängig durchgeführt werden. Dazu benötigt man ein geeignetes Rechnermodell. Solche Modelle stehen zur Verfügung! Wir wollen hier nicht darauf eingehen, unsere Analyseuntersuchungen stützen wir auf die Ermittlung des Rechenaufwands, ausgedrückt durch die Anzahl von elementaren Operationen. Hierbei kann man drei Ansätze unterscheiden: – Worst-case-Komplexität: Dies ist eine obere Schranke für den Aufwand in Abhängigkeit vom Input. – Mittlere Komplexität: Dies ist eine obere Schranke für den Aufwand in Abhängigkeit vom Input bei gewissen Annahmen über das Auftreten des Inputs in der Problemklasse. – Untere Komplexität: Hierunter versteht man die Ermittlung unterer Schranken für den zu betreibenden Aufwand. 20 Diese Ansätze können rechnerunabhängig und a-priori erfolgen, d.h. ohne den Algorithmus zu testen. Unter einer a-posteriori–Analyse versteht man das Testen des Algorithmus an Aufgaben mit (hinreichend) großem Input. Die konkrete Ausführung eines Algorithmus nennt man einen Prozess. Die Einheit, die den Prozess ausführt, ist ein Prozessor. Beim Kuchenbacken ist der Algorithmus das Rezept, der Prozess die Abarbeitung des Rezepts, der Prozessor der Koch. Hier denken wir natürlich an den Prozessor Computer“. Um eine Analyse des Ablaufs eines Algorithmus auf diesem Pro” zessor vornehmen zu können, ist ein geeignetes Modell für den Computer (Maschinenmodell) bereitzuhalten. Die Informatik studiert u.a. die Turing-Maschine und die Random-AccessMaschine (RAM), welche in gewissem Sinne sogar äquivalent sind. Die Analyse von Algorithmen auf einem abstrakten Niveau ist eine Disziplin der Informatik und/oder mathematischen Informatik. Sei M eine endliche Menge mit n Elementen und versehen mit einer Ordnung ≤ . Sortieren heißt, die Elemente von M so anzuordnen, daß sie bzgl. der Ordnung ≤ eine aufsteigende Elementfolge bilden. Sortierverfahren werden benötigt etwa bei: Einordnen von Schlüsseln im Werkzeugkasten, Ordnen der erhaltenen Karten beim Skatspiel, Sortieren von Dateien der Größe nach. Gesichtspunkte für die Leistungsfähigkeit eines Sortierverfahrens sind: Schnelligkeit. Wieviele Rechenoperationen (Vergleiche, Umstellen in einer Liste) in Abhängigkeit von n sind nötig? Dieser Aufwand wird Laufzeitkomplexität des Verfahrens genannt. Speicherplatz. Im allgemeinen kann man sich die Elemente der Menge abgelegt in Fächern vorstellen. Beim Sortieren kann es sinnvoll sein, Zusatzfächer zu benutzen. Der Bedarf an Fächern in Abhängigkeit von n ist die Speicherplatzkomplexität des Verfahrens. 2.5 Abbildungen Mit Abbildungen drücken wir den mathematischen Sachverhalt aus, dass es zwischen zwei Objekten eine klar definierte Abbhängigkeit gibt. Wiederum behandeln wir den Begriff auf der Ebene einer naiven Auffassung. Definition 2.5.1 Seien A, B, C, D Mengen. (a) Eine Abbildung f von A nach B ist eine Vorschrift, durch die jedem a ∈ A genau ein Bild f (a) ∈ B zugeordnet wird; A heißt Definitionsbereich, B heißt Wertebereich von f. Wir schreiben f : A −→ B . (b) Zwei Abbildungen f : A −→ B, g : C −→ D heißen gleich, wenn gilt: A = C, B = D, f (x) = g(x) für alle x ∈ A . Teil (a) der Definition ist nicht ganz zufriedenstellend, denn wir verwenden das umgangssprachliche Vorschrift“. Hier ist eine Definition, die dies vermeidet: ” Definition 2.5.2 Seien A, B Mengen. Eine Abbildung von A nach B ist eine Relation R auf A × B mit folgender Eigenschaft: ∀ a ∈ A ∃1 b ∈ B ((a, b) ∈ R) 21 Wir werden später auch von Funktionen sprechen. In unserem Verständnis ist eine Funktion ein Spezialfall einer Abbildung: wir sprechen dann von einer Funktion, wenn wir eine Abbildung zwischen Zahlbereichen haben, d.h. wenn Definitions– und Wertebereich der Abbildung Mengen von Zahlen sind.2 Beispiel 2.5.3 Sei A eine Menge. Dann nennt man die Abbildung idA : A ∋ x 7−→ x ∈ A die Identität auf A. (Manchmal lassen wir den Index A weg und schreiben einfach id, wenn klar ist, um welches A es sich handelt.) Beispiel 2.5.4 Seien A, B Mengen. Dann heißt die Abbildung π1 : A × B ∋ (a, b) 7−→ a ∈ A die Projektion auf den ersten Faktor.3 Es sollte klar sein, dass entsprechend auch die Projektionen auf beliebige Faktoren in einem kartesischen Produkt erklärt sind. Beispiel 2.5.5 Sei A eine Menge. Jede Abbildung N ∋ n 7−→ xn ∈ A nennt man eine Folge mit Folgengliedern aus A . Meist schreiben wir dafür kurz (xn )n∈N . Jede Abbildung {1, . . . , m} × {1, . . . , n} ∋ (i, j) 7−→ aij ∈ A nennen wir eine Matrix mit m Zeilen und n Spalten mit Einträgen aus A . Meist schreiben wir dafür kurz (aij )1≤i≤n,1≤j≤m . Wenn wir A := {0, 1, . . . , 255} wählen, können wir eine solche Matrix als Pixelbild mit m · n Pixeln und 28 = 256 Grauwertstufen interpretieren. Definition 2.5.6 Sei f : A −→ B eine Abbildung. Die Menge graph(f ) := {(a, b) ∈ A × B|a ∈ A, b = f (a)} heißt der Graph von f . Definition 2.5.7 Sei f : X −→ Y eine Abbildung und seien A ⊂ X, B ⊂ Y . Dann heißt die Menge f (A) := {f (x)|x ∈ A} die Bildmenge von A oder das Bild von A, und die Menge −1 f (B) := {x ∈ X|f (x) ∈ B} heißt die Urbildmenge von B oder einfach das Urbild von B. Beispiel 2.5.8 Sei f : N ∋ n 7−→ 2n + 1 ∈ N . Dann ist das Bild von f die Menge aller ungeraden natürlichen Zahlen mit Ausnahme von 1 . 2 Der Abbildungsbegriff, wie wir ihn hier eingeführt haben, konnte erst nach G. Cantor in Mode“ kommen, ” da nun Mengen handhabare Objekte waren. 3 Die Wortwahl wird verständlich, wenn wir uns A × A als Koordinatensystem realisiert denken. Dann wird von einem Punkt durch Beleuchtung parallel zur zweiten Koordinatenachse auf der ersten Achse der projezierte Punkt sichtbar; man spricht von einer orthogonalen Projektion. 22 Definition 2.5.9 Seien f : X −→ Y , g : Y −→ Z Abbildungen. Die Hintereinanderausführung oder Komposition g ◦ f der Abbildungen f, g ist erklärt durch g ◦ f : X ∋ x 7−→ g(f (x)) ∈ Z . Regel 2.5.10 Seien f : X −→ Y, g : Y −→ Z, h : Z −→ W Abbildungen. idY ◦ f = f ◦ idX h ◦ (g ◦ f ) = (h ◦ g) ◦ f (2.1) (2.2) Die Identität in (2.2) nennt man das Assoziativgesetz. Man beachte, dass für die Hintereinanderausführung von Abbildungen ein Kommutativgesetz ( f ◦ g = g ◦ f ) im allgemeinen nicht gilt. Definition 2.5.11 Sei f : X −→ Y eine Abbildung. (i) f injektiv genau dann, wenn für alle x, x′ ∈ X x 6= x′ =⇒ f (x) 6= f (x′ ) gilt. (ii) f surjektiv genau dann, wenn für alle y ∈ Y ein x ∈ X existiert mit y = f (x) . (iii) f bijektiv : ⇐⇒ f injektiv und surjektiv Ist f : X −→ Y eine bijektive Abbildung, dann gibt es eine Abbildung g : Y −→ X mit f ◦ g = idY , g ◦ f = idX . Dies folgt aus der Tatsache, dass jedes y ∈ Y ein eindeutig bestimmtes Urbild“ xy ∈ X besitzt: ” y = f (xy ) . Damit wird eine Abbildung g : Y −→ X , y 7−→ xy definiert. Definition 2.5.12 Sei f : X −→ Y bijektiv. Die nach obiger Anmerkung eindeutig bestimmte Abbildung4 g mit g ◦ f = f ◦ g = id heißt die (zu f ) inverse Abbildung. Wir schreiben dafür f −1 . Beispiel 2.5.13 Sei f : R\{0} ∋ x 7−→ x1 ∈ R\{0} . Dann ist sicherlich f −1 = f . Ein weiteres Beispiel dieser Art ist f : Z2 ∋ (x, y) 7−→ (y, x) ∈ Z2 . Auch hier gilt f −1 = f . Sei M eine Menge. Wir setzen: G := {f ∈ Abb (M )|f bijektiv } , • := ◦ . Wir bezeichnen diese Menge G mit S(M ) . Diese Menge ist mit der Hintereinanderausführung von Abbildungen eine Gruppe; dazu später. 4 In der Literatur spricht man bei bijektiven Abbildungen oft auch von umkehrbar eineindeutigen Abbildungen. In Satz ?? zusammen mit Definition 2.5.11 liegt die Berechtigung für eine solche Sprechweise. 23 Definition 2.5.14 Ist M eine nichtleere Menge, so nennen wir die Gruppe S(M ) die symmetrische Gruppe von M. Ist M = {1, . . . , m}, dann nennen wir S(M ) Permutationsgruppe und jedes Element in S(M ) eine Permutation. In diesem Spezialfall schreiben wir kurz Sm . Die Wortwahl Permutationsgruppe wird verständlich, wenn wir beobachten, dass bei der Menge M = {1, . . . , m} einer Abbildung f in Sm die Umstellung der Elemente in M gemäß 1 2 ... m f (1) f (2) . . . f (m) entspricht.5 Die Anzahl der Elemente in Sm ist offensichtlich n · (n − 1) · · · · · 2 · 1 = n! . Beispiel 2.5.15 Wir betrachten S3 . Die sechs Elemente der Gruppe sind dann in obiger Schreibweise 123 123 123 123 123 123 τ0 = τ1 = τ2 = τ3 = τ4 = τ5 = . 123 132 213 231 312 321 Klar, τ0 ist die Identität. Beispielsweise bedeutet τ4 in Spalte 3, Zeile 4 τ1 ◦ τ2 = τ4 und τ2 in Spalte 7, Zeile 5 τ5 ◦ τ3 = τ2 . Ein τ ∈ Sm heißt Nachbarvertauschung, wenn ∃i ∈ {1, . . . , m} mit τ (i) = i + 1 , τ (i + 1) = i ; τ (j) = j , j 6= i, i + 1, gilt. Ein τ = τkl ∈ Sm , k 6= l , heißt Transposition, wenn gilt: τ (k) = l , τ (l) = k ; τ (j) = j , j 6= k, l , gilt. Nachbarvertauschungen sind also spezielle Transpositionen. Man überzeugt sich leicht, dass für eine Transposition τ ∈ Sm gilt: τ −1 = τ . Satz 2.5.16 Jedes σ ∈ Sm läßt sich als Hintereinanderausführung von höchstens m Transpositionen schreiben, d.h. zu jedem σ ∈ Sm gibt es s ≤ m Transpositionen τ1 , . . . , τs mit σ = τ1 ◦ · · · ◦ τs . Beweis: Sei σ ∈ Sm . Für σ = id gilt σ = τ21 ◦ τ12 . Sei σ 6= id . Dann gibt es ein kleinstes i1 mit σ(i1 ) = j1 6= i1 . Setze σ1 := σ ◦ τi1 j1 . Es ist σ1 (i) = i für 1 ≤ i ≤ i1 . Falls σ1 = id gilt, sind wir fertig. Anderenfalls gibt es ein i2 > i1 mit σ1 (i2 ) = j2 6= i2 . Setze σ2 := σ1 ◦ τi2 j2 . Dann gilt σ2 (i) = i für 1 ≤ i ≤ i2 . So fortfahrend erreichen wir ein σs , s ≤ m, mit σs = id . Dann ist σ = τis js ◦ · · · ◦ τi1 j1 . 5 Die Wortwahl symmetrische Gruppe rührt daher, dass die Funktionen der Variablen x1 , . . . , xm , die bei allen Permutationen der Variablen invariant bleiben, die symmetrischen Funktionen sind. 24 2.6 1.) Übungen S Sei A ein (endliches) Alphabet, sei A∗ := {()} ∪ n∈N An die Menge der Wörter (beliebiger Länge) über dem Alphabet A . Für zwei Worte u = (u1 , . . . , uk ) ∈ Ak , v = (v1 , . . . , vl ) ∈ Al setzen wir: uv := (u1 , . . . , uk , v1 , . . . , vl ) ∈ Ak+l . Wir definieren für u, v ∈ A∗ : u ≤ v : ⇐⇒ Es gibt z ∈ A∗ mit uz = v . (a) Zeige: ≤ ist eine Halbordnung in A∗ . (b) Ist ≤ stets eine Ordnung in A∗ ? (c) Gibt es in A∗ ein Wort w, so dass gilt: w ≤ u für alle u ∈ A∗ . 2.) Überprüfe, ob die folgende Relation R in N × N reflexiv, symmetrisch, transitiv bzw. antisymmetrisch ist: R := {(m, n) ∈ N × N||m − n| ≤ 100} . 3.) Gegeben seien die Permutationen 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 φ := , π := . 9 1 8 2 7 3 6 4 5 2 1 4 3 6 9 7 8 5 (a) Berechne φ ◦ π, π ◦ φ und φ−1 . (b) Schreibe π als Hintereinanderausführung von Transpositionen. 25 Kapitel 3 Zählen Wir verschaffen uns die Hilfsmittel, um die Kunst des Zählens“ zu skizzieren. Es sind dies ” die natürlichen Zahlen und Operationen auf ihnen; im nächsten Kapitel erwächst daraus das Rechnen in den ganzen Zahlen. Für die Einschätzung der Güte von Algorithmen ist deren Analyse hinsichtlich der Laufzeit wichtig: das Master-Theorem der Komplexität erledigt dies in den meisten Fällen. 3.1 Natürliche Zahlen Die erste mathematische Erfindung“ dürfte wohl das Zählen von Gegenständen gewesen sein: je” dem Gegenstand einer Familie von Gegenständen wird der Reihe nach ein Strich auf einem Auf” zeichnungsbrett“ zugeordnet, einer bestimmten Anzahl von Strichen wird ein Zahlwert (Eins, Zwei,. . . ) bzw. eine Zahl (1,2,. . . ) zugeordnet. Diese Zahlen stehen für die Kardinalzahlen im Gegensatz zu den sogenannten Ordinalzahlen Erster (erster Strich), Zweiter (zweiter Strich), . . . . Die Zahlen 1, 2, 3, . . . bezeichnen wir als natürliche Zahlen. Als Fundament für die Mathematik sind die natürlichen Zahlen ausreichend, alle“ anderen konkreten Objekte der Mathematik ” lassen sich dann mit Definition durch Abstraktion erfinden. Also kommt es darauf an, die natürlichen Zahlen als existierende Menge N sicher zu definieren und zu akzeptieren. Von L. Kronecker1 ist überliefert: Die natürlichen Zahlen hat der liebe Gott gemacht, alles andere ist Menschenwerk. Was sind aber nun die strukturellen Eigenschaften der natürlichen Zahlen, auf die es ankommt? Wir gehen zurück zur Tätigkeit des Zählens. Stets beginnen wir mit einem ersten Gegenstand, wir ordnen ihm die Nummer 1 zu. Haben wir nun eine Reihe von Gegenständen gezählt und ist n die Anzahl dieser gezählten Gegenstände, dann entscheiden wir, ob noch ein weiterer Gegenstand zu zählen ist; wenn ja, ordnen wir ihm die Nummer n′ zu. n′ ist also Nachfolgezahl von n : zur Strichliste haben wir einen Strich hinzugefügt. Diese Beobachtung führt uns zur Definition der natürlichen Zahlen, wie G. Peano2 sie gegeben hat: Definition 3.1.1 (Axiome von Peano) Es gibt eine Menge N und ein Element 1 ∈ N mit folgenden Eigenschaften: (P1) Zu jedem n ∈ N gibt es ein n′ ∈ N , genannt Nachfolger von n . (P2) 1 ist kein Nachfolger, d.h. 1 6= n′ für alle n ∈ N . (P3) Ist n′ = m′ , so ist n = m . 1 2 Leopold Kronecker, 1823 - 1891 Giuseppe Peano, 1858 - 1932 26 (P4) Ist M eine Teilmenge von N mit 1 ∈ M und gilt (n ∈ M =⇒ n′ ∈ M ), dann gilt M = N. Diese Menge N heißt Menge der natürlichen Zahlen. Das Axiom (P 1) könnten wir auch so ausdrücken: ∀ x ∈ N ∃ y ∈ N (y = x′ ) . Ist m = n′ (im Sinne der Definition 3.1.1), so heißt n Vorgänger von m. (P2) besagt, dass das Element 1 keinen Vorgänger hat. Man beachte, dass wir die Definition der natürlichen Zahlen mit Existenz verknüpft haben und nicht das Zählen zur Definition herangezogen haben. Lemma 3.1.2 Es gilt N = {1} ∪ {n′ |n ∈ N} . Beweis: Sei M := {1} ∪ {n′ |n ∈ N}. Es gilt M ⊂ N, 1 ∈ M , und ist n ∈ M, so ist n′ ∈ M . Also ist nach (P4) M = N. Das Axiom (P4) lässt sich bestens verwenden, neue Objekte zu definieren. Man nennt das resultierende Prinzip induktive Definition. Wir führen dies am Beispiel der Definition des kartesischen Produktes vor. Sei A eine Menge. Wir gehen so vor: A1 := A , Ak := A × An falls k = n′ ∈ N . Offenbar ist nun nach Lemma 3.1.2 An definiert für jedes n ∈ N . Ist x ∈ An , n ∈ N, so gibt es x1 , . . . , xn ∈ A mit x = (x1 , . . . , xn ). Dies ist die Schreibweise als n-Tupel der Elemente in An . Dabei haben wir die Schreibweise schon naheliegend verkürzt; wir haben ja früher nur zweistellige Paarklammern (·, ·) definiert. Wir haben diese Definition schon vorweggenommen bei der Definition von Wörtern über einem Alphabet. Wir wollen nun die arithmetischen Operationen Addition, Subtraktion, Multiplikation, Vergleich in den natürlichen Zahlen entdecken. Bei der Einführung bedienen wir uns wieder der induktiven Definition. Addition: ( n′ n + m := (n + k)′ , falls m = 1 , n, m ∈ N . , falls m = k′ Beachte, dass nun wirklich die Definition für alle m, m ∈ N gelungen ist, denn nach Lemma 3.1.2 ist ja für m ∈ N entweder m = 1 oder m = k′ für ein k ∈ N . Nun ist es an der Zeit, zur üblichen Notation 1, 2, 3, . . . zurückzukehren. Dies geschieht durch 1, 2 := 1′ = 1 + 1, 3 := 2′ = 2 + 1, . . . . n′ schreiben wir also nun immer als n + 1 . Wir haben nun also eine (binäre) Verknüpfung “+“, die die Eigenschaften der Addition haben sollte. Die folgenden Rechenregeln belegen, dass die uns geläufigen Eigenschaften der Addition in der Tat vorliegen. Regel 3.1.3 Seien m, n, k ∈ N . Es gilt: (m + n) + k = m + (n + k) ; (3.1) m + n = n + m; (3.2) m + n = m + k =⇒ n = k . (3.3) 27 Wir beweisen exemplarisch (3.1). Dabei verwenden wir ein letztes Mal die Notation n′ für den Nachfolger von n . Sei M := {k ∈ N|(m + n) + k = m + (n + k) für alle m, n ∈ N}. Mit der Definition der Addition gilt (m + n) + 1 = (m + n)′ = m + n′ = m + (n + 1) . Also ist 1 ∈ M . Sei k ∈ M. Dann ist mit der Definition der Addition (m + n) + k′ = ((m + n) + k)′ = (m + (n + k))′ = m + (n + k)′ = m + (n + k′ ), . Also ist auch k′ ∈ M . Nach (P4) gilt nun M = N . Gilt m = k′ , so ist k Vorgänger von m. Also schreiben wir dann k = m − 1 . Damit haben wir die Subtraktion mit 1 zur Verfügung. Wir wissen ja, dass allgemein in N keine Subtraktion möglich ist. Wir sollten nun auch die Multiplikation in den natürlichen Zahlen definieren können. Dies gelingt mit Hilfe der Addition so: m · 1 := m ; m · (n + 1) := m · n + m , n ∈ N . Damit ist die Verknüpfung m · n für m, n ∈ N, die wir Multiplikation nennen, wohldefiniert. Den Multiplikationspunkt · lassen wir mitunter weg, die Schreibweise m × n für m · n vermeiden wir vollständig. Die Potenzschreibweise im Bereich der natürlichen Zahlen können wir nun auch einführen. Wir setzen für alle a ∈ N a1 := a , an+1 := a · an . Es gilt dann an+m = an · am , (an )m = an·m für alle a, n, m ∈ N . Die Rechenarten “+, ·“ vertragen sich dann mit der neuen Schreibweise; etwa: 1 + 7 = 8, 15 · 3 = 45, 33 = 11 · 3 = (7 + 4) · 3 = 7 · 3 + 4 · 3 = 21 + 12 = 33, . . . . Dies ist Inhalt der folgenden Regel, die das Distributivgesetz festhält; der Beweis erfolgt auf dem üblichen Weg über (P4). Regel 3.1.4 Seien m, n, k ∈ N . Es gilt: m(n + k) = mn + mk . (3.4) (3.5) Auch die Kleiner–Beziehung finden wir in N wieder. Dabei lassen wir uns von der Anschauung leiten, dass einer kürzeren Strichliste einige Striche hinzuzufügen sind, um sie einer gegebenen längeren Strichliste gleichzumachen. Definition 3.1.5 Seien m, n ∈ N. (a) m < n : ⇐⇒ ∃ x ∈ N (m + x = n) ; (b) m ≤ n : ⇐⇒ m < n oder m = n ; 28 (c) m > n : ⇐⇒ n < m ; (d) m ≥ n : ⇐⇒ n ≤ m . Klar, ist n ∈ N und n 6= 1, dann ist n > 1 , denn dann ist n ein Nachfolger nach Lemma 3.1.2, also etwa n = k′ = k + 1 mit k ∈ N , und daher n > 1 . Ohne Beweis führen wir an: Regel 3.1.6 3.2 k ≤ m, m < n =⇒ k < n. (3.6) m<n =⇒ (3.7) k<m =⇒ m + k < n + k für alle k ∈ N . k + 1 ≤ m. (3.8) Induktion Nun wollen wir das Axiom (P4) einsetzen als Beweismethode. Dieses Prinzip der Induktion stellt sich so dar: Sei A(n) für jedes n ∈ N eine Aussage. Diese Aussage gilt für alle n ∈ N, falls Induktionsbeginn: A(1) ist wahr. Induktionsschluss: Ist A(n) wahr, dann ist auch A(n + 1) wahr. verifiziert werden kann. Klar, man hat ja nur die Menge M := {n ∈ N|A(n) ist wahr} einzuführen und darauf (P4) anzuwenden. Häufig wird Sei A(n) wahr“ als Zwischenschritt Induktionsverankerung oder Induktions” annahme formuliert; wir verzichten darauf. Damit wird ja nur die Voraussetzung im Induktionsschluss extra herausgestellt. Beispiel 3.2.1 Über C.F. Gauss3 wird berichtet, dass er die Beschäftigungstherapie seines Lehrers “Addiert mal die ersten 20 Zahlen“ durch folgenden Trick zunichte gemacht hat: Er addiert die erste und die letzte Zahl: Ergebnis 21; er addiert die zweite und die vorletzte Zahl: Ergebnis 21; er . . . . Also kann man das verlangte Resultat durch 1 + 2 + · · · + 20 = 10 · 21 = 210 erhalten. Man beachte, dass die Lösungsmethode von Gauß auch tiefere“ Einsichten mitliefert: ” Wann ist das Ergebnis gerade, warum ist die letzte Ziffer im Ergebnis oben eine Null. Löst man sich von den konkreten Zahlen, ist also zu beweisen: 2 n X i = n(n + 1) i=1 Der Beweis mittels vollständiger Induktion sieht so aus: Induktionsbeginn: Die Formel ist offenbar richtig für n = 1. Induktionsschluss: Die Formel sei richtig für n. Wir zeigen damit die Richtigkeit der Formel für n + 1 so: n n+1 X X i + 2(n + 1) = n(n + 1) + 2(n + 1) = (n + 1)(n + 2) . i=2 2 i=1 i=1 3 Gauss, Carl Friedrich (1777 — 1855) 29 Beispiel 3.2.2 Den Pythagoreern war bekannt, dass die Quadratzahlen die Summe ungerader Zahlen sind, d.h. dass n X (2i + 1) = (n + 1)2 , n ∈ N , 1+ i=1 gilt. Sie hatten dafür einen geometrischen Beweis“; lese ihn aus der Figurensequenz in Abbil” dung 3.1 ab! Der Beweis mittels vollständiger Induktion sieht (in abgekürzter Notation) so aus: n = 1 : Klar. n+1 : 1+ n+1 X (2i + 1) = 1 + n X (2i + 1) + (2(n + 1) + 1) = n2 + 4n + 4 = (n + 2)2 i=1 i=1 Die Aufspaltung 1 + n P (2i + 1) ist der Tatsache geschuldet, dass wir hier noch keine Null (als i=1 Summationsindex) zur Verfügung haben. Beispiel 3.2.3 Beweise, dass für jede natürliche Zahl n (n + 3)2 > 3(n + 3) + n gilt. Wir betrachten dazu die Aussage A(n) : (n + 3)2 > 3(n + 3) + n und beweisen die Gültigkeit der Aussage für jedes n ∈ N nach dem Induktionsprinzip. Induktionsbeginn: A(1) ist wahr, da (1 + 3)2 = 42 = 16 > 12 + 1 = 3(1 + 3) + 1 ist. Induktionsschluss: Sei A(n) wahr. ((n + 1) + 3)2 = ((n + 3) + 1)2 = (n + 3)2 + 2(n + 3) + 1 > 3(n + 3) + n + 2(n + 3) + 1 > 3(n + 3) + n + 1 + 3 = 3(n + 4) + n + 1 Also folgt aus der Gültigkeit der Aussage A(n) die Gültigkeit der Aussage A(n + 1). Die Aussage A(n) ist nach dem Induktionsprinzip nun für alle n ∈ N bewiesen. Die Ungleichung (n + 3)2 > 3(n + 3) + n , n ∈ N, kann aber auch ohne den Rückgriff auf das Induktionsprinzip bewiesen werden, da n2 + 2n ≥ 1 ist. Stelle die Verbindung her! Beispiel 3.2.4 Bei einem Tennisturnier ist die Teilnehmerzahl üblicherweise eine Zweierpotenz 2n (n = 7 bei einem Grand-Slam-Turnier). Die Anzahl der Spiele bei einem K.O.-System beträgt 2n − 1. Dies lässt sich mit Induktion zeigen: n = 1: Bei zwei Teilnehmern gibt es offenbar 1 = 21 − 1 Spiele. n + 1: Die 2n+1 Teilnehmer lassen sich in zwei Gruppen zu je 2n Teilnehmern einteilen. Nach Induktionsvoraussetzung gibt es in jeder Gruppe 2n − 1 Paarungen, also insgesamt 2(2n − 1) Paarungen. Die Sieger der beiden Gruppen treffen dann in einer letzten Paarung aufeinander, so dass es 2(2n − 1) + 1 = 2n+1 − 1 Paarungen gibt. Man kann die Lösung mit einem anderen Argument schneller finden. Wegen des K.O.Systems verliert bis auf den Gewinner jeder Teilnehmer genau einmal. Jedes Spiel hat genau 30 einen Verlierer. Also gibt es ein Spiel weniger als die Teilnehmerzahl. Dieser Alternativbeweis lässt sich auf Teilnehmerfelder beliebiger Größe anwenden (z.B. wenn es Freilose gibt). Also gibt es bei m Teilnehmern m − 1 Spiele. Diese Gegenüberstellung der beiden Beweise zeigt, dass Induktion nicht immer die kürzeste Beweismethode ist. Die vollständige Induktion lässt sich sehr gut auch zur Aufklärung der inneren ” Struktur“ der natürlichen Zahlen verwenden. Wir skizzieren dies in folgendem Satz. Satz 3.2.5 Für m, n ∈ N gilt genau eine der folgenden Aussagen: • • ◦ • • • • ◦ ◦ ◦ ◦ • • • • ◦ ◦ ◦ • ◦ ◦ ◦ • ◦ ◦ ◦ • • • • Abbildung 3.1: Quadratzahlen m < n , m = n , m > n. Beweis: Sei n ∈ N . Zu m ∈ N setzen wir Mm := {x ∈ N|n + x = m}. Wir untersuchen die beiden Fälle Mm 6= ∅ und Mm = ∅ . Ist Mm 6= ∅, dann gibt es x ∈ N mit n + x = m , also n < m . Wir beweisen mit vollständiger Induktion (bezüglich m) die folgende Behauptung: Ist Mm = ∅, dann trifft genau eine der folgenden Aussagen zu: n > m, n = m . m = 1 : Ist n = m, dann sind wir fertig. Ist n 6= m = 1, dann ist sicher n > 1 = m . m + 1 : Sei also Mm+1 = ∅. Dann ist auch Mm := {y ∈ N|n + y = m} = ∅, da sonst für y ∈ Mm sofort x := y + 1 ∈ Mm+1 folgt. Also gilt nach Induktionsvoraussetzung genau eine der Aussagen n > m, n = m . n = m ist nicht möglich, da sonst 1 ∈ Mm+1 wäre. Also wissen wir nun n > m, und es gibt daher z ∈ N mit m + z = n. Ist z = 1, dann ist m + 1 = n, ist z > 1, dann ist 1 + u = z mit einem u ∈ N und wir haben (m + 1) + u = m + (1 + u) = n, d. h. n > m + 1 . Damit ist nun gezeigt, dass eine der Aussagen m<n, m=n, m>n jedenfalls eintritt. Bleibt die Unverträglichkeit von zweien der Aussagen zu zeigen, etwa von m = n und m > n . Wenn m = n und m > n gilt, dann gibt es x ∈ N mit m + x = m. Mit vollständiger Induktion folgt sofort, dass diese Gleichheit für kein m ∈ N gelten kann. Satz 3.2.6 (Wohlordnungssatz) Jede nichtleere Teilmenge M von N enthält ein kleinstes Element (bezüglich ≤). Beweis: Sei m ∈ M . Wähle in 1, . . . , m das kleinste Element m∗ aus M (bezüglich ≤ ) aus. Diese Auswahl ist möglich, da nach Satz 3.2.5 die Elemente 1, . . . , m bezüglich ihrer Größe nach verglichen werden können. Da die natürlichen Zahlen n ≥ m nicht als kleinste Elemente von M in Frage kommen, ist m∗ das kleinste Element von M . 3.3 Abzählen Kombinatorik bedeutet Kunst des Zählens“. Sie beschäftigt sich mit Möglichkeiten, die Anzahl ” der Elemente bei endlichen Mengen zu bestimmen. Die Resultate sind interessant und hilfreich 31 etwa beim Einstieg in die Wahrscheinlichkeitstheorie und bei Anwendungen in der Informatik. Hier erläutern wir nur, wie wir die Elemente einer Menge zählen wollen. Als Prototyp“ einer Menge mit n Elementen steht uns Nn := {1, . . . , n} zur Verfügung. ” Damit wollen wir erklären, wann eine beliebige Menge n Elemente besitzt. Wenn wir zählen/abzählen, ordnen wir den Elementen einer Menge von Objekten sukzessive eine natürliche Zahl, beginnend bei 1, zu. Wesentlich beim Zählen ist, dass wir zwei verschiedenen Objekten nicht dieselbe Zahl zuordnen. Dies führt uns dazu, das Zählen mit einer Abbildung, der Zuordnung, mit Werten in N zu beschreiben, die zusätzlich die eben formulierte Forderung respektiert. Als Vorbereitung für das Abzählen von Mengen beweisen wir Satz 3.3.1 Sei A eine Menge, seien m, n ∈ N, und seien φ : A −→ Nn , ψ : A −→ Nm bijektiv. Dann gilt n = m . Beweis: Wir beweisen mit vollständiger Induktion die Aussage Zu n ∈ N gibt es für 1 ≤ m < n keine injektive Abbildung g : Nn −→ Nm . n = 1 : Klar, da Nn = {1}, Nm = ∅ für m < n . n + 1 : Annahme: Es gibt eine injektive Abbildung g : Nn+1 −→ Nm , 1 ≤ m < n + 1 . Da g injektiv ist und Nn+1 mindestens die Elemente 1,2 enthält, ist 1 < m . Sei k := g(n + 1) . Offenbar gibt es eine Bijektion f : Nm −→ Nm mit f (i) = i für i 6= k, m und f (k) = m, f (m) = k . Nun ist (f ◦ g)|Nn : Nn −→ Nm−1 injektiv, wobei also 1 ≤ m − 1 < n gilt. Dies ist im Widerspruch zur Induktionsannahme. Nachdem nun die obige Aussage bewiesen ist, ist die Behauptung des Satzes schnell gezeigt. Annahme: Es gibt bijektive Abbildungen φ : A −→ Nn , ψ : A −→ Nm , n 6= m . O.E. sei etwa n > m . Da ψ ◦ φ−1 : Nn −→ Nm bijektiv ist nach Lemma ??, haben wir einen Widerspruch zur obigen Aussage. Definition 3.3.2 Sei M eine Menge, M 6= ∅ . (a) M heißt endlich, wenn es ein N ∈ N und eine bijektive Abbildung ϕ : M −→ {1, . . . , N } gibt; wir setzen dann #M := N . (Da nach Satz 3.3.1 die Zahl N eindeutig bestimmt ist, ist die Schreibweise #M := N wohldefiniert.) (b) M heißt abzählbar unendlich, wenn es eine bijektive Abbildung ϕ : M −→ N gibt. Wir schreiben dann #M = ∞ . (c) M heißt abzählbar, wenn M endlich oder abzählbar unendlich ist. Die obige Definition sagt also, dass wir die Elemente einer (endlichen) Menge M gezählt haben, wenn wir eine Bijektion φ : M −→ {1, . . . , N } gefunden haben; das Zählergebnis ist #M := N . Endliche Mengen haben wir schon viele kennengelernt. Als ganz einfache Beispiele für abzählbare unendliche Mengen führen wir an: A := {10n |n ∈ N} , N×N . Mit der Definition 3.3.2 (a),(b) verträglich ist, dass wir Nn die Elementanzahl n zuordnen und dass N abzählbar unendlich ist; die Identität ist ja jeweils die passende Bijektion. Klar, der leeren Menge ordnen wir die Elementanzahl 0 zu, d. h. #∅ := 0 , und bezeichnen sie ebenfalls als endliche Menge.4 Man beachte, dass 4 Die Definition 3.3.2 ist nicht die von G. Cantor 1895 erstmals gegebene Definition der Unendlichkeit einer Menge: eine Menge ist unendlich, wenn zwischen ihr und einer ihrer echten Teilmengen eine umkehrbar eindeutige Zuordnung möglich ist. 32 es Mengen gibt, die nicht abzählbar sind. Ein wichtiges Beispiel ist M := R . Das Cantorsche Diagonalisierungsverfahren, das üblicherweise im Rahmen der Analysis im Zusammenhang mit der Dezimalbruchentwicklung vorgestellt wird, belegt dies; wir kommen darauf zurück. Sind A, B endliche Mengen, dann gilt für das kartesische Produkt die Formel #(A × B) = #A · #B a1 a2 .. . (3.9) b1 (a1 , b1 ) (a2 , b1 ) .. . b2 (a1 , b2 ) (a2 , b2 ) .. . ··· ··· ··· a b bn (a1 , bn ) (a2 , bn ) .. . Dies liest man etwa am Rechteckschema in Abbildung 3.2 ab (#A = m, #B = n). am (am , b1 ) (am , b2 ) · · · (am , bn ) Wir können die Situation des kartesischen Produkts in drei Veranschaulichungen festhalAbbildung 3.2: Abzählschema ten; siehe Abbildung 3.3 für m = 3 und n = 4 . Die Baumdarstellung“ hat den Vorteil, dass ” man sie mühelos auf mehr als zwei Faktoren ausdehnen kann; man hat ja nur in die Tiefe weiterzubauen. x a y c b c u z b x (a) Abbildungsmodell c a y u (b) Gittermodell z x y u z x y u z x y u z (c) Baumdarstellung Abbildung 3.3: Veranschaulichung des kartesischen Produkts Wir halten der besseren Zitierbarkeit wegen die elementaren Zählprinzipien nochmal kompakt fest: Gleichheitsregel Existiert eine Bijektion zwischen zwei Mengen M und N , so gilt #M = #N . Summenregel Sei M = ∪ki=1 Mi eine disjunkte Vereinigung endlicher Mengen. Dann gilt: P #M = ki=1 #Mi . Produktregel Sei M = M1 × · · · × Mk ein kartesisches Produkt. Dann gilt #M = Alle Regeln ergeben sich aus den obigen Ableitungen in offensichtlicher Weise. k Q #Mi . i=1 Ein einfaches, aber sehr anwendungsreiches Prinzip, in einer Anzahl von Objekten die Existenz eines Objekts mit einem bestimmten Merkmal behaupten zu können, ist das Schubfachprinzip 5 Verteilt man n Objekte auf r < n Schubfächer, so existiert ein Fach, das mindestens zwei Objekte enthält. Dieses Prinzip ist völlig klar, nichts ist zu beweisen. Es ist daher überraschend, dass dieses Prinzip zu nichttrivialen Ergebnissen führt. Hier ist noch eine Verallgemeinerung: 5 Es wird im Englischen “pigeonhole principle“, also Taubenschlagprinzip genannt. 33 Schubfachprinzip/allgemein Verteilt man n = r·k+1 Objekte auf r Schubfächer, so existiert ein Fach, das mindestens k + 1 Objekte enthält. Formulieren wir das allgemeine Schubfachprinzip mengentheoretisch: Schubfachprinzip für Mengen Ist eine Menge M mit Elementanzahl n = r · k + 1 in r disjunkte Teilmengen zerlegt, so gibt es eine Teilmenge, die mindestens k + 1 Elemente besitzt. 3.4 Rekursion Ein Objekt wird als rekursiv bezeichnet, wenn es sich selbst als Teil enthält oder mit Hilfe von sich selbst definiert ist. Rekursion kommt nicht nur in der Mathematik vor, sondern auch im täglichen Leben (ein Bild im Spiegel im Spiegel . . . ). Rekursion kommt speziell in mathematischen Definitionen vor. Ein Beispiel haben wir schon kennengelernt: in der Definition der natürlichen Zahlen kommt die zur Definition anstehende Menge N selbst vor. Ein anderes Beispiel ist die Fakultät einer natürlichen Zahl. Ihre rekursive Definition sieht so aus: ( 1 falls n = 1 n! := n · (n − 1)! falls n 6= 1 Es ist nicht überraschend, dass Rekursion sehr oft im Zusammenhang mit Objekten greift, die mit natürlichen Zahlen im Zusammenhang stehen, da ja die natürlichen Zahlen selbst rekursiv ” definiert sind“. Das Wesentliche an der Rekursion ist die Möglichkeit, eine unendliche Menge von Objekten durch eine endliche Aussage zu definieren oder eine unendliche Anzahl von Berechnungsschritten durch ein endliches Programm zu beschreiben. Allerdings ist Vorsicht geboten, denn rekursive Anweisungen bergen die Gefahr nicht abbrechender Ausführung; der Terminierung ist also besonderes Augenmerk zu schenken. Hier führen wir zwei Beispiele an, die keine Hintergrundtheorie benötigen. Später kommen wir zu einem weiteren Beispiel, nämlich zur rekursiven Behandlung des Problems des größten gemeinsamen Teilers. Die Türme von Hanoi Wir betrachten drei Pfeiler i, j, k, auf die runde Scheiben mit unterschiedlichem Durchmesser aufgesteckt werden können. Das Problem lautet: Es sind n Scheiben, die auf dem Pfeiler i mit nach oben abnehmendem Durchmesser aufgesteckt sind unter Zuhilfenahme des Pfeilers k durch sukzessive Bewegung jeweils einer Scheibe auf den Pfeiler j umzuschichten. Dabei ist darauf zu achten, dass niemals eine Scheibe mit größerem Durchmesser auf einer mit einem kleinerem Durchmesser zu liegen kommt. Man kann dieses Problem folgendermaßen lösen: Man schichtet die obersten n − 1 Scheiben vom Pfeiler i auf den Pfeiler j unter Zuhilfenahme von Pfeiler k den Regeln entsprechend; dann bringt man die auf dem Pfeiler i verbliebene einzige (anfangs unterste) Scheibe auf den Pfeiler k . Nun ist der Pfeiler i frei und man kann die n − 1 Scheiben vom Pfeiler j auf den Pfeiler k mit Hilfe des Pfeilers i umschichten. Es ist klar das rekursive Vorgehen zu erkennen: zur Lösung des Problems der Größe n bedienen wir uns der Lösung der Größe n − 1 . 34 Wir benötigen die Bewegungsarten bewege(m,von,über,nach), bringe(von,nach) . Hierbei bedeutet bewege(l,a,b,c), dass die l obersten Scheiben vom Pfeiler a nach Pfeiler c den Regeln entsprechend unter Nutzung von b als Hilfspfeiler umzuschichten sind. Mit bringe(a,b) wird die oberste Scheibe vom Pfeiler a auf den Pfeiler b gelegt. Die rekursive Lösung für bewege(n,i,j,k) lautet damit: Solange n > 0 bewege(n-1,i,k,j), bringe(i,k), bewege(n-1,j,i,k). Beim Lösen der Aufgabe für n Scheiben, wird Z(n) := 2n − 1 mal eine Scheibe umgelegt Dies zeigt man induktiv. Der Induktionsbeginn ist trivial, der Induktionsschluss sieht so aus: Z(n) = 1 + 2Z(n − 1) = 1 + 2(2n−1 − 1) = 2n − 1 Der Aufwand ist enorm: für n = 64 müssen 264 − 1 ∼ 1021 Scheiben umgelegt werden. Allerdings sind wir ja nicht sicher, ob es nicht einen schnelleren Algorithmus gibt. Dies ist aber nicht der Fall! (Man kann genauer hinsehen: Die kleinste Scheibe S1 wird bei jedem zweiten Zug bewegt, die größte Scheibe Sn wird nur einmal bewegt, die Scheibe Sm wird genau 2n−m mal bewegt.) Beispiel 3.4.1 Als Beispiel für eine rekursive Funktionsdefinition komplexerer Art betrachten wir das Beispiel der so genannten Ackermann-Funktion A(m, n) . Die Definition lautet: falls m = 0 n + 1 A(m, n) := A(m − 1, 1) falls m 6= 0, n = 0 , m, n ∈ N0 . A(m − 1, A(m, n − 1)) falls m 6= 0, n 6= 0 Die Ackermann-Funktion wächst sehr stark: 2 A(0, n) > n , A(1, n) > n + 1 , A(2, n) > 2n , A(3, n) > 2n , A(4, 3) > 22 , A(5, 4) > 1010000 Der Aufwand, um A(m, n) auszurechnen, wächst auch entsprechend. Beispielsweise erfordert die Berechnung von A(1, 3) bereits folgende Rechenschritte: A(1, 3) = A(0, A(1, 2)) = A(0, A(0, A(1, 1))) = A(0, A(0, A(0, A(1, 0)))) = A(0, A(0, A(0, A(0, 1)))) = A(0, A(0, A(0, 2))) = A(0, A(0, 3)) = A(0, 4) = 5 Es ist nicht sehr einfach einzusehen, dass die Rekursion terminiert; es ist so! 3.5 Landausymbole Die Komplexitätstheorie beschäftigt sich mit der Analyse von Algorithmen hinsichtlich Laufzeit und Speicherplatzbedarf. Normalerweise ist es sehr aufwändig oder ganz unmöglich, für ein Problem L eine Funktion fL : w → fL (w) anzugeben, die allgemein jeder beliebigen Eingabe w für ein Problem die zugehörige Anzahl der Rechenschritte (bzw. der Speicherzellen) fL (w) zuordnet. Daher begnügt man sich in der Regel damit, statt jede Eingabe einzeln zu erfassen, sich lediglich auf die Eingabelänge“ n eines Beispiels mit Größe“ g(w) zu beschränken. ” ” 35 Es ist aber meist ebenfalls zu aufwändig, eine Funktion fL : n 7−→ fL (n), n = g(w) anzugeben. Daher setzt man die Landau-Notation6 ein, die sich auf das asymptotische Verhalten der Funktion fL beschränkt. Man betrachtet also, in welchen Schranken sich der Rechenaufwand (der Bedarf an Speicher und Rechenzeit) hält, wenn man die Eingabe vergrößert. Das wichtigste Landau-Symbol ist O (großer lateinischer Buchstabe O“), mit dem man obere Schran” ken angeben kann; untere Schranken sind im allgemeinen viel schwieriger zu finden. Bei dieser Notation werden, wie die Definitionen der Landau-Symbole zeigen wird, konstante Faktoren vernachlässigt. Dies ist gerechtfertigt, da die Konstanten zu großen Teilen vom verwendeten Maschinenmodell bzw. bei implementierten Algorithmen von der Qualität des Compilers und diversen Eigenschaften der Hardware des ausführenden Computer abhängig sind. Damit können sie nicht direkt mit der Laufzeit des Algorithmus in Verbindung gebracht werden. In der nachfolgenden Tabelle ist f die Funktion, über die eine Aussage getroffen werden soll, und g der einfachste“ Repräsentant einer Klasse gleich schnell wachsender Funktionen, die als ” Vergleich dienen. Notation Anschauliche Bedeutung f ∈ O(g) f wächst nicht wesentlich schneller als g f ∈ Ω(g) f wächst mindestens so schnell wie g f ∈ o(g) f wächst langsamer als g f ∈ ω(g) f wächst schneller als g f ∈ Θ(g) f wächst genauso schnell wie g Diese Tabelle bringen wir nun in eine saubere Definition ein. Definition 3.5.1 Seien f, g : D −→ R Abbildungen, wobei D eine Teilmenge in R sei. Ferner sei a ∈ R ∪ {∞} . (a) f ∈ O(g) : ⇐⇒ ∃ c > 0 ∃ ε > 0 ∀ x ∈ Uε (a)(|f (x)| ≤ c · |g(x)|) (b) (c) f ∈ o(g) : ⇐⇒ ∀ c > 0 ∃ ε > 0 ∀ x ∈ Uε (a)(|f (x)| ≤ c · |g(x)|) f ∈ Ω(g) : ⇐⇒ ∃ c > 0 ∃ ε > 0 ∀ x ∈ Uε (a)(|f (x)| ≥ c · |g(x)|) (d) f ∈ ω(g) : ⇐⇒ ∀ c > 0 ∃ ε > 0 ∀ x ∈ Uε (a)(|f (x)| ≥ c · |g(x)|) (e) f ∈ Θ(g) : ⇐⇒ ∃ c0 > 0 ∃ c1 > 0 ∃ ε > 0 ∀ x ∈ Uε (a)(c0 · |g(x)| ≤ |f (x)| ≤ c1 · |g(x)|) Dabei ist ( {x ∈ D\{a}||x − a| < ε} Uε (a) = {x ∈ D|x > ε} falls a 6= ∞ falls a = ∞ Die Eigenschaften in der obigen Definition beschreiben das Verhalten in der Nähe von a . Wir schreiben daher meist f ∈ O(g), f ∈ Ω(g), . . . für x → a . Im Hinblick auf den nächsten Abschnitt haben wir als Definitionsbereich D eine Teilmenge der natürlichen Zahlen und a = ∞ im Auge. Wenn wir sagen, dass ein Algorithmus etwa einen Aufwand von O(g(n)) hat, dann meinen wir damit Folgendes: Wenn der Algorithmus auf unterschiedlichen Computern mit den gleichen 6 Der Großbuchstabe O (damals eigentlich ein großes Omikron) als Symbol für Ordnung von wurde erstmals vom deutschen Zahlentheoretiker Paul Bachmann 1894 verwendet. Bekannt gemacht wurde diese Notation durch den ebenfalls deutschen Zahlentheoretiker Edmund Landau, mit dessen Namen sie insbesondere im deutschen Sprachraum heute in Verbindung gebracht wird. 36 Datensätzen läuft, und diese die Größe n haben, dann werden die resultierenden Laufzeiten (für große n) immer kleiner sein als eine Konstante mal g(n) . Beim Vergleich von Funktionen mittels der Landau-Symbole im Zusammenhang von Laufzeitproblemen sind Logarithmen (und deren Umkehrfunktionen) sehr wichtig, denn sie kommen ins Spiel bei dem wichtigen Prinzip Teile und Herrsche (Divide et Impera/Divide and Conquer)“; ” Beispiele dazu sehen wir unten. Was sind die wesentlichen Eigenschaften der Logarithmen in unserem Zusammenhang? Seien a, b, c > 1 (a, b, c dienen als Basis). P∞ 1 k Exponentialfunktion exp : R ∋ x 7−→ i=0 k! x ∈ R Beachte: exp(x) = limn (1 + nx )n exp(x + y) = exp(x) exp(y), x, y ∈ R Funktionalgleichung Beachte: exp′ (x) = exp(x), x ∈ R Impliziert strenge Monotonie Beachte: exp : R −→ (0, ∞) bijektiv Impliziert Umkehrabbildung ln : (0, ∞ −→ R , ln(exp(x)) = x, x ∈ R Beachte: Umkehrabbildung b· : R ∋ x 7−→ bx := exp(x ln(b)) ∈ R b· Potenzfunktion zur Basis b : R −→ (0, ∞) bijektiv Impliziert Umkehrabbildung logb : (0, ∞) −→ R , logb (bx ) = x, x ∈ R Umkehrabbildung logb (x · y) = logb (x) + logn (y) , x, y ∈ (0, ∞) Funktionalgleichung Beachte: loga (x) = loga (b) logb (x), x ∈ (0, ∞) Umrechnen von Logarithmen Beachte: alogb (c) = clogb (a) Umrechnen von Logarithmen Beachte: ln = loge mit e := limn (1 + 1 n n) e ist die eulersche Zahl Beachte: limx→∞ xk exp(−x) = 0, limx→∞ x−k ln(x) = 0 Wachstum Beispiel 3.5.2 Es gilt beispielsweise nach der Stirling-Formel für das asymptotische Verhalten der Fakultät n n √ 1 1+Θ für n → ∞ n! = 2πn e n und n! = O √ n· n n e für n → ∞. . √ Der Faktor 2π ist dabei nur eine Konstante und kann für die Abschätzung der Größenordnung vernachlässigt werden. Die Landau-Notation kann auch benutzt werden, um den Fehlerterm einer Approximation zu beschreiben. Beispielsweise besagt ex = 1 + x + x2 /2 + O(x3 ) für x → 0, dass der Absolutbetrag des Approximationsfehlers kleiner als eine Konstante mal x3 ist für x hinreichend nahe bei Null. Das kleine o wird verwendet, um zu sagen, dass ein Ausdruck vernachlässigbar klein gegenüber dem angegebenen Ausdruck ist. Für differenzierbare Funktionen gilt beispielsweise f (x + h) = f (x) + hf ′ (x) + o(h) für h → 0, der Fehler bei Approximation durch die Tangente geht also schneller als linear gegen 0 . 37 Folgende Beziehungen zwischen diesen Funktionenmengen lassen sich aus der Definition ableiten: Θ(f ) = O(f ) ∩ Θ(f ) (3.10) Θ(f ) ⊂ O(f ) ∪ Ω(f ) (3.12) Θ(f ) = O(f ) ∩ Ω(f ) Ø = ω(f ) ∩ o(f ) (3.11) (3.13) Beispiel 3.5.3 n3 = O(n3 ) für n → ∞ . Pn Pn 1 2 i=1 i = O(n ) für n → ∞ , da i=1 i = 2 n(n + 1) . 3.6 Mastertheorem der Komplexität Der Begriff Hauptsatz der Laufzeitfunktionen oder Master-Theorem der Komplexitätstheorie bietet eine schnelle Lösung für die Frage, in welcher Laufzeitklasse eine gegebene rekursiv definierte Funktion liegt. Sei T : N → N eine Laufzeitfunktion eines Problems/Algorithmus. Wir nehmen an, dass das Problem durch ein rekursives Vorgehen gelöst wird. Dann spiegelt sich dieses rekursive Vorgehen in einer rekursiven Darstellung der Funktion T wider. Eine allgemeine Form einer solchen Rekursion sieht wie folgt aus: T (n) = m X T (αi n) + f (n), (3.14) i=1 wobei αi ∈ R : 0 < αi < 1, m ∈ N, und f (n) ∈ Θ(nk ) mit k ∈ N ∪ {0} . Die Interpretation dieser Rekurrenz ist folgende: n = Größe des Problems m = Anzahl der Unterprobleme in der Rekursion, in die das Problem zerlegt wird αi = Anteil des Originalproblems, welches wiederum durch alle Unterprobleme repräsentiert wird f (n) = Kosten (Aufwand) die durch die Aufteilung des Problems und der Kombination der Teillösungen entstehen Dabei ist der Anteil αi n ganzzahlig zu interpretieren durch die Verwendung der Gauss-Klammern: ⌈x⌉ := min{z ∈ Z|z ≥ x} (Obere Gauss-Klammer/ceiling) ⌊x⌋ := max{z ∈ Z|z ≤ x} (Untere Gauss-Klammer/floor) Ein Spezialfall von (3.14)ist die Rekursion n T (1) = 1 , T (n) = a · T ( ) + nc , n = bk , k ∈ N . b wenn a die Anzahl der Teilprobleme ist und αi = 1/b ist. 38 (3.15) Bemerkung 3.6.1 T können wir uns immer durch T (x) := T (⌊x⌋) oder T (⌈x⌉) für x ∈ (0, ∞) auf die reellen Zahlen fortgesetzt denken. In diesem Sinne wird dann der Rekursion (3.14) die reelle“ Rekursion ( ” d 0<x<b t(x) = c at(x/b) + x b ≤ x zugeordnet. Satz 3.6.2 Sei T : N → N die zu untersuchende dass T monoton nicht fallend sei. Dann gilt: c Θ(n ) T (n) ∈ Θ(nc logb n) Θ(nlogb a ) Abbildung der Form (3.15). Wir nehmen an, falls logb a < c falls logb a = c . falls logb a > c Beweis: Wegen der Monotonie genügt es zu zeigen, dass wir die Laufzeit nur für die b-Potenzen kennen. Wir stellen uns die Rekursion als einen (Tannen-)Baum vor mit dem Problem T (n) an der Spitze und m := logb a Verzweigungsebenen darunter. Auf jeder Verzweigungsebene i haben wir es mit der Lösung von ai Teilproblemen der Größe n/bi zu tun. Ein Teilproblem der Größe n/bi erfordert (n/bi )c Zusatzaufwand und daher ergibt sich als Aufwand auf der i-ten Ebene i i a c a i i c c = n a (n/b ) = n . bc bci Auf der Ebene i = m hat man am Teilprobleme der Größe n/bm = 1 zu lösen, was einen Aufwand von a m am · 1 = nc c b ergibt. (Hier können wir sehen, dass die Voraussetzung T (1) = 1 hilfreich ist. Wir lesen aber auch ab, dass T (1) = d, d ∈ N, d 6= 1, keine wesentlichen Schwierigkeiten bereitet.) Wir sehen, dass der Aufwand von Ebene zu Ebene abnimmt, konstant ist, zunimmt, je nachdem, ob q := ac < 1, ac = 1 oder ac > 1 . Dies korrespondiert mit der Fallunterscheidung in der b b b Formulierung unseres Resultats. Wir haben also nach unseren Vorbetrachtungen T (n) = m X nc i=0 a i bc , was in der Analyse zur geometrischen Reihe mit q := ac führt. b Fall logb a < c Wir haben hier 1 − q m+1 = Θ(nc ) , T (n) = nc 1−q da limm q m+1 = 0 ist. Fall logb a = c Damit folgt T (n) = (m + 1)nc und daher T (n) = Θ(nc logb n) . Fall logb a > c Wir haben T (n) = Θ(nc a logb n 39 bc ), da in der Summe der geometrischen Summe der letzte Term der größte ist. Wegen nc a logb n b c = nc logb a logb a alogb n c n c n = n = n = nlogb a c nc (bc )logb n nlogb b Beispiel 3.6.3 Wir stellen uns Dualzahlen der Länge n vor, wobei n eine Zweierpotenz sei: n = 2m . Zwei solche Zahlen A, B können wir so aufschreiben: A = A1 2n/2 + A0 , B = B1 2n/2 + B0 , wobei A1 , A0 , B1 , B0 nun Dualzahlen der Länge n/2 sind. Die Multiplikation von A, B sieht dann so aus: AB = A1 B1 2n + (A1 B0 + A0 B1 )2n/2 + A0 B0 . Also stellt sich der Aufwand, zwei solche Zahlen zu multiplizieren, so dar: T (1) = 1 , T (n) = 4T (n/2) + cn , wobei cn den Aufwand beschreibt, mit Zweierpotenzen zu multiplizieren und die Additionen auszuführen; wir nehmen der Einfachheit halber c = 1 an. Dann erhalten wir mit Satz 3.6.2, da log2 (4) = 2 > 1 , T (n) = Θ(n2 ) . Es ist also nichts gewonnen durch die Aufspaltung der Zahlen, denn jedes herkömmliche Multiplikationsverfahren ist von der Ordnung Θ(n2 ) . Aber wir können eine Multiplikation einsparen7 ! AB = A1 B1 2n + ((A1 + A0 )(B1 + B0 ) − A1 B1 − A0 B0 )2n/2 + A0 B0 . Also stellt sich der Aufwand, zwei solche Zahlen zu multiplizieren, nun so dar: T (1) = 1 , T (n) = 3T (n/2) + n , Dann erhalten wir mit Satz 3.6.2, da log2 (3) = 1.585 > 1 , T (n) = Θ(nlog2 (3) ) , was eine enorme Verbesserung für großes n darstellt. Satz 3.6.4 Sei T : N → N die zu untersuchende Abbildung der Form T (n) = m X T (αi n) + f (n), i=1 wobei αi ∈ R : 0 < αi < 1, m ∈ N : m ≥ 1 und f (n) ∈ Θ(nk ) mit k ∈ N ∪ {0} . Dann gilt: Pm k k falls i=1 (αi ) < 1 Θ(n ) P m k T (n) ∈ Θ(nk logb n) falls i=1 (αi ) = 1 P P m m c k Θ(nc ) mit i=1 (αi ) = 1 falls i=1 (αi ) > 1 7 Karatsuba, 1962 40 Beweis: Für den Beweis verweisen wir auf die Literatur. Beispiel 3.6.5 Betrachte die Rekursionsgleichung T (n) = 9T (n/3) + n2 . Wir haben hier m = 9, αi = 1 3 und f (n) = n2 . Da f (n) ∈ Θ(n2 ) und 9 X 1 ( )2 = 1 3 i=1 ist, haben wir T (n) ∈ O(n2 log2 (n)) . Bemerkung 3.6.6 Wir machen einige Anmerkungen zur Form der Rekurrenzgleichungen. • Angenommen es ist folgende Rekurrenz gegeben, die sich mit der zusätzlichen Konstante c von einer allgemeinen Form unterscheidet: T (n) = aT ( n + c) + f (n) b Wenn n hinreichend groß gewählt wird, fällt die Konstante c nicht ins Gewicht. Aus diesem Grund kann man solche Rekurrenzen so behandeln, als wäre c = 0 . • Ob man nun T (n) ∈ Θ(ln(n)) (Logarithmus naturalis) schreibt, oder T (n) ∈ Θ(lg(n)) (dekadischer Logarithmus) ist egal, da nach den Logarithmengesetzen gilt: ln(n) = logb (n) = loga (n) = c · loga n ∈ Θ(loga n) = Θ(lg n) loga (b) 3.7 1.) Übungen Sei g : N ∋ n 7−→ n(n2 + 11) ∈ N . Zeige: (a) g ist injektiv, aber nicht surjektiv. (b) 6 ist ein Teiler von 3n2 + 3n + 12 für alle n ∈ N . (c) 6 ist ein Teiler von g(n) für alle n ∈ N . 2.) Ein deutsches Autokennzeichen besteht aus einer Kombination von ≤ 3 Buchstaben für den Landkreis oder die Stadt, ≤ 2 weiteren Buchstaben und bis zu einer vierstelligen Zahl. Bestimme die Anzahl der möglichen Kennzeichen (wenn man von einer Assoziation mit dem Namen des Landkreises absieht). 3.) Die Fibonacci-Zahlen Fn sind definiert durch F0 := F1 := 1 , F n + 1 := Fn + Fn−1 , n ≥ 1 . (a) Schreibe ein rekursives Berechnungsschema und mache das rekursive Rechenschema durch einen binären Baum klar. (b) Welche überflüssige Rechenschritte lassen sich finden ? 4.) Finde einen Algorithmus, der die n-te Fibonacci-Zahl rekursiv berechnet. 41 5.) Die Collatz/Kakutani/Klam/Ulam-Folge ist ausgehend vom Startwert c0 ∈ N folgendermaßen definiert: ( 1 cn falls n gerade , cn+1 := 2 3cn + 1 sonst wobei die Berechnung abgebrochen wird, wenn cn = 1 eintritt. Es ist bisher nicht gezeigt, dass die Berechnung für jedes c0 abbricht. Finde eine rekursive Funktion C : N −→ N , die die Länge der Collatz/Kakutani/Klam/UlamFolge in Abhängigkeit von c0 berechnet. 6.) Seien x, y ∈ R . zeige: (a) ⌈x⌉ + ⌈y⌉ − 1 ≤ ⌈x + y⌉ ≤ ⌈x⌉ + ⌈y⌉ . (b) ⌊x⌋ + ⌊y⌋ ≤ ⌊x + y⌋ ≤ ⌊x⌋ + ⌊y⌋ + 1 . (c) 7.) n = ⌊ n2 ⌋ + ⌈ n2 ⌉ , n ∈ N . Betrachte f : N −→ N, f (n) := 9 log n + 5(log n)3 + 3n2 + 2n3 . (a) Zeige: f ∈ O(n3 ) . (b) Macht es einen Unterschied, wenn man log durch ln ersetzt? 8.) 9.) Zeige (die Notation ist etwas hemdsärmelig“): ” (a) 2x ∈ o(x2 ) . (b) x2 ∈ / o(x2 ) . 1 ∈ o(1) . (c) x Sei stets T (1) = 1 . Zeige: (a) T (n) = T (2n/3) + 1 =⇒ T (n) = Θ(log n) . (b) T (n) = 9T (n/3) + n =⇒ T (n) = Θ(n2 ) . (c) T (n) = 2T (n/2) + n log n =⇒ T (n) = O(n log2 n) . 42 Kapitel 4 Elementare Arithmetik Arithmetik ist das Teilgebiet der Mathematik, welches auch als Synonym zum Begriff Zahlentheorie verstanden werden kann. Elementare Arithmetik bezeichnet allgemein das Rechnen mit natürlichen Zahlen und ganzen Zahlen und die Untersuchung der Konsequenzen, die sich daraus ergeben, dass die Division in den ganzen Zahlen nur eingeschränkt möglich ist. Als Beiprodukt lernen wir den euklidischen Algorithmus und den wichtigen Gruppenbegriff kennen. 4.1 Ganze Zahlen In Abschnitt 3.1 haben wir die natürlichen Zahlen geschaffen“. Skizzieren wollen wir nun den ” Konstruktionsweg von den natürlichen Zahlen zu den ganzen Zahlen. Wir sehen dabei die Nützlichkeit des Begriffs der Äquivalenzrelation“ ein. Auf N × N läßt sich nämlich eine Äquivalenzrelation durch R := {((m, n), (k, l)) ∈ N2 × N2 |m + l = n + k} , d.h. (m, n) ∼ (k, l) : ⇐⇒ m + l = n + k , einführen. Man bestätigt leicht, dass in der Tat eine Äquivalenzrelation vorliegt. Etwa folgt die Symmetrie allein schon aus der Kommutativität der Addition in den natürlichen Zahlen; siehe Rechenregel 3.2. Die Zuordnung eines Paares (m, n) zu einer Klasse [(k, l)] geschieht unter dem Gesichtspunkt, dass die Differenz m − n gleich der Differenz k − l ist und dies liefert den Zusammenhang zur Menge der ganzen Zahlen Z, wenn wir sie schon als bekannt voraussetzten. Also sollte etwa [(n, n)] für 0 , [(n + 1, n)] für 1 , [(n, n + 1)] für − 1 , [(n + n, n)] für n , [(n, n + n)] für − n , stehen. Der Weg, ausgehend von der Kenntnis der natürlichen Zahlen, die ganzen Zahlen zu konstruieren, ist also vorgezeichnet: Man führe Z als Menge der Äquivalenzklassen (N × N)/ R ein. Vervollständigt wird dieser Schritt durch die Beobachtung, dass durch [(m, n)] ⊕ [(k, l)] := [(m + k, n + l)] eine Addition und durch [(m, n)] ⊙ [(k, l)] := [(m · k + n · l, m · l + n · k)] 43 eine Multiplikation eingeführt wird. Die Anordnung der ganzen Zahlen spiegelt sich in [(m, n)] ⊳ [(k, l)] : ⇐⇒ m + l < n + k bzw. [(m, n)] [(k, l)] : ⇐⇒ m + l ≤ n + k wieder. Hierbei ist ja “ < , ≤ “ schon von den natürlichen Zahlen her bekannt. Beachte bei diesen Definitionen stets, dass [(m, n)] für m−n stehen sollte. Ergänzend sei nun noch die Subtraktion [(m, n)] ⊖ [(k, l)] := [(m, n)] ⊕ [(l, k)] . eingeführt. Bemerkung 4.1.1 Wenn man mit Äquivalenzklassen neue Objekte unter Verwendung von Repräsentanten für die Klassen definiert, hat man sich zu vergewissern, dass die Definition vom Repräsentanten für die Klasse unabhängig ist. Dies ist oben bei der Definition der Addition, Multiplikation und Kleiner–Beziehung der Fall. Bei der Addition etwa bedeutet dies, nachzuweisen, dass [(m, n)] ⊕ [(k, l)] = [(m′ , n′ )] ⊕ [(k′ , l′ )] ist, falls [(m, n)] = [(m′ , n′ )] , [(k, l)] = [(k′ , l′ )] gilt. Dies sieht man mit Hilfe der Identitäten m + n′ = m′ + n , k + l′ = k′ + l sofort ein. Entsprechend unserer Hinführung finden wir die natürlichen Zahlen wieder als Teilmenge e := {[(n + n, n)]|n ∈ N} . Auch diese Menge erfüllt nun die Peano–Axiome: N e; • 1̃ := [(n + 1, n)] ∈ N • n] + 1 := [(n + n + 1, n)] Nachfolger von n e; • 1̃ ist kein Nachfolger, denn aus 1̃ = [(n+n+1, n)] folgt sofort die widersprüchliche Aussage 1 = n + 1; e so dass 1̃ ∈ M e. f ⊂ N, f und (ñ ∈ M f =⇒ n] f), dann ist offenbar M f=N • Ist M +1∈M e , n ∈ N und die Null 0̃ := [(n, n)] . Zusätzlich haben wir die negativen Zahlen [(n, n + n)] ∈ N Die aufwendige Schreibweise wollen wir nun aber wieder vermeiden. Wir tun dies, indem wir, statt die Existenz der natürlichen Zahlen axiomatisch zu fordern, die ganzen Zahlen axioma” tisch“ einführen. Es gibt Mengen N, Z , ein Element 0 ∈ Z, Abbildungen Z × Z ∋ (a, b) 7−→ a + b ∈ Z, Z × Z ∋ (a, b) 7−→ a · b ∈ Z, und eine Vergleichsoperation ≤ mit folgenden Eigenschaften: 1. (a + b) + c = a + (b + c) für alle a, b, c ∈ Z . 2. a + 0 = 0 + a für alle a ∈ Z . 3. Zu a ∈ Z gibt es genau ein (−a) ∈ Z mit (a + (−a)) = 0 = ((−a) + a) . 4. a + b = b + a für alle a, b ∈ Z . 5. (a · b) · c = a · (b · c) für alle a, b, c ∈ Z . 6. a · b = b · a für alle a, b ∈ Z . 7. a · (b + c) = a · b + a · c für alle a, b, c ∈ Z . 8. N ⊂ Z , 1 6= 0 , Z = N ∪ {0} ∪ −N . 9. 1 · a = a , 0 · a = 0 für alle a ∈ Z . 10. a ≤ b ⇐⇒ b + (−a) ∈ N ∪ {0} . 44 (Addition) (Multiplikation) (Assoziativgesetz) (0 ist neutrales Element) ((−a) ist Negatives von a) (Kommutativgesetz) (Assoziativgesetz) (Kommutativgesetz) (Distributivgesetz) (1 ist neutrales Element) Man beachte aber, dass nur die Existenz der natürlichen Zahlen eine wesentliche Forderung ist. Wir tun dies durch Anführung von Eigenschaften, die das übliche Rechnen in den ganzen Zahlen möglich machen. (Wir legen dabei nicht Wert auf ein minimales Gerüst von Axiomen.) Zur Abkürzung führen wir noch die Subtraktion durch Z × Z ∋ (a, b) 7−→ a − b := a + (−b) ∈ Z ein, schreiben meist kurz ab für a · b und vereinbaren die Schreibweise a < b für a ≤ b, a 6= b . Damit können wir nun in Z und N genauso rechnen, wie wir es gewohnt sind. 4.2 Teilbarkeit Definition 4.2.1 Seien a, b ∈ Z. Wir sagen, dass a die Zahl b teilt, wenn es k ∈ Z gibt mit b = ka. Wir schreiben dafür a|b . Ist b nicht durch a teilbar, so schreiben wir a 6 | b. Srechweisen: Für a|b: a teilt b, a ist Teiler von b, b ist durch a teilbar. Für a 6 | b: a teilt b nicht, a ist kein Teiler von b, b ist nicht durch a teilbar. Folgerung 4.2.2 Seien a, b, c, d ∈ Z. Dann gilt: (1) a|a; a|b und b|a =⇒ a = ±b; a|b und b|c =⇒ a|c. (2) d|a und d|b =⇒ d|(ax + by) für alle x, y ∈ Z. (3) a|b und a|(b + c) =⇒ a|c. Beweis: Zu 1. a|a, da a = 1 · a. Es gibt k, l ∈ Z mit b = ka, a = lb. Ist b = 0, dann ist a = 0 und nichts ist mehr zu zeigen. Sei nun b 6= 0; o.E. b > 0. Dann folgt aus b = klb offenbar kl ∈ N, kl = 1 und damit k = ±1, l = ±1. Wir haben b = ka, c = lb mit k, l ∈ Z. Daraus folgt c = lb = lka, also a|c. Zu 2. Wir haben a = kd, b = ld. Seien x, y ∈ Z. Dann gilt ax + by = kdx + ldy = (kx + ly)d; also d|(ax + by) . Zu 3. Wir haben b = ka, b + c = la mit k, l ∈ Z. Daraus folgt c = la − b = la − ka = (l − k)a, also a|c. Bei Teilbarkeitsfragen in Z können wir uns in der Regel immer auf positive Teiler, d.h. auf Teiler in N, zurückziehen, da von den zwei Zahlen a, −a stets eine in N liegt, falls a 6= 0; der Fall a = 0 ist uninteressant, da dann auch b = 0 . In diesem Abschnitt kommen wir ausschließlich mit den Eigenschaften der ganzen Zahlen aus, wie sie sich aus der axiomatischen Einführung der natürlichen Zahlen mittels der Peano– Axiome ergaben; insbesondere haben wir die Rechenarten“ +, −, ·, ≤, < uneingeschränkt zur ” 45 Verfügung. Nicht zur Verfügung steht die Division ÷, eine Tatsache, die die Reichhaltigkeit der Resultate bzgl. Teilbarkeit beschert. Fragt man nach gemeinsamen Teilern zweier ganzer Zahlen a, b, so interessiert insbesondere der größte dieser gemeinsamen Teiler. Dabei können wir uns dann auf positive Teiler beschränken, denn 1 ist stets ein gemeinsamer Teiler von a und b. Definition 4.2.3 Seien a, b ∈ Z . Eine Zahl d ∈ N heißt größter gemeinsamer Teiler von a, b genau dann, wenn (1) d|a , d|b (2) Ist d′ ∈ N ein Teiler von a und b, so teilt d′ auch d gilt. Wir schreiben d = ggT(a, b) = a ⊓ b . Für a = b = 0 folgt, dass 0 der eindeutig bestimmte größte gemeinsamer Teiler ist. Anderenfalls it jeder größte gemeinsamer Teiler von 0 verschieden. Sind d1 und d2 zwei größte gemeinsamer Teiler von a, b, so gilt nach Definition 4.2.3 d1 |d2 und d2 |d1 , d.h. d1 = ±d2 . Dank der Tatsache, dass wir d ∈ N gefordert haben, ist also der größte gemeinsamer Teiler eindeutig bestimmt. Es sollte klar sein, wie nun der größte gemeinsame Teiler von endlich vielen ganzen Zahlen erklärt ist. Beispiel: 6 ⊓ 10 = 2, 6 ⊓ 10 ⊓ 30 = 2, 6 ⊓ 10 ⊓ 15 = (6 ⊓ 10) ⊓ 15 = 6 ⊓ (10 ⊓ 15) = 1 . Definition 4.2.4 Seien a, b ∈ Z. Gilt ggT(a, b) = 1 , so nennen wir a, b teilerfremd. Lemma 4.2.5 Seien a, b ∈ Z nicht beide Null. Dann gilt a ⊓ b = (−a) ⊓ b = (−a) ⊓ (−b) = a ⊓ (−b) . Beweis: Wir beweisen etwa die erste Gleichheit. Diese folgt aber aus der einfachen Beobachtung, dass d ein Teiler von a und b genau dann ist, wenn d ein Teiler von −a und b ist. Wir suchen den größten gemeinsamen Teiler von Zahlen a, b ∈ Z . Beachte, dass es wegen Lemma 4.2.5 ausreicht, den größten gemeinsamen Teiler für Zahlen in N zu berechnen. Satz 4.2.6 (Division mit Rest) Für alle a ∈ Z, b ∈ N gibt es eindeutig bestimmte Zahlen q, r ∈ Z mit a = bq + r und 0 ≤ r < b. (4.1) Beweis: Wir beweisen zunächst die Existenz von q, r für a ≥ 0 durch vollständige Induktion. Dazu formulieren wir die Aussage: A(n) : Die Darstellung (4.1) ist richtig für 0 ≤ a ≤ n n = 0 : Sei a = 0 . Setze q := r := 0 . n + 1 : Sei a = n + 1 . Ist a < b, so gilt a = 0b + a und wir haben die Darstellung (4.1) für a gezeigt. Ist a ≥ b, so folgt aus der Induktionsvoraussetzung a − b = qb + r mit q ∈ Z, 0 ≤ r < b. 46 Also a = (q + 1)b + r. Aufgrund der Induktionsvoraussetzung, dass A(n), gilt sind wir fertig. Die Existenz folgt für a < 0 aus der Anwendung der eben bewiesenen Aussage auf −a gemäß −a = q ′ b + r ′ , 0 ≤ r ′ < b durch a= (−q ′ − 1)b + (b − r ′ ) , falls r ′ 6= 0 (−q ′ )b , falls r ′ = 0 Um die Eindeutigkeit zu beweisen, nehmen wir ein zweites Zahlenpaar q ′ , r ′ mit a = q′b + r′, 0 ≤ r′ < b , wobei o. E. r ≥ r ′ sei. Dann ist 0 ≤ r − r ′ < b, r − r ′ = (q − q ′ )b, q − q ′ ≥ 0, und dies ist nur mit q ′ = q, r = r ′ verträglich. Lemma 4.2.7 Sei a ∈ Z und b ∈ N. Dann folgt aus der Darstellung a = qb + r , q ∈ Z, die Aussage ggT(a, b) = ggT(b, r). Beweis: Ist d ein Teiler von a, b, dann ist d ein Teiler von b und r und umgekehrt (siehe Folgerung 4.2.2). 4.3 Primzahlen Die Bausteine der natürlichen Zahlen sind die Primzahlen. Dies wollen wir nun belegen. Definition 4.3.1 Eine Zahl p ∈ N, p 6= 1, heißt Primzahl, falls aus p = kl mit k, l ∈ N folgt: k = 1 oder l = 1 . (Später nennen wir k, l Teiler.) Über die Existenz unendlich vieler Primzahlen war sich schon Euklid im Klaren. Die größte Zahl, von der man zur Zeit L. Eulers wusste, dass sie eine Primzahl ist, war 231 − 1, eine Zahl mit 10 Stellen. Zur Vorbereitung Euklids Beweises von der Existenz unendlich vieler Primzahlen geben wir an: Lemma 4.3.2 Sei n ∈ N, n ≥ 2. Sei T := {m ∈ N|m ≥ 2, n = km mit k ∈ N} . Dann besitzt T ein (bezüglich ≤) kleinstes Element p und p ist eine Primzahl. Beweis: Sicherlich ist n ∈ T . Klar, nach dem Wohlordnungssatz 3.2.6 besitzt T ein kleinstes Element p ∈ N, p ≥ 2; also p ≤ m für alle m ∈ T und n = kp mit k ∈ N . Annahme: p ist keine Primzahl. Dann gibt es l, j ∈ N, 2 ≤ l < p, mit p = lj . Dann gilt n = pk = l(jk), also l ∈ T, was im Widerspruch zur Minimalität von p in T ist. Satz 4.3.3 (Unendlichkeit der Primzahlen/Euklid) Es gibt unendlich viele Primzahlen. 47 Beweis: Annahme: Es gibt nur endlich viele Primzahlen. Seien p1 , . . . , pr diese Primzahlen. Setze N := p1 · · · pr + 1. Dann ist N ∈ N und N ≥ 2. Da N > pi für jedes i = 1, . . . , r ist, ist N keine Primzahl. Also gibt es nach Lemma 4.3.2 eine Primzahl p ∈ N mit N = kp, k ∈ N . Also kommt p unter p1 , . . . , pr vor; o.E. p = p1 . Dann folgt: 1 = p(k − p2 . . . pr ) . Daraus liest man nun p = 1 ab, was ein Widerspruch ist. Die einzige gerade Primzahl ist 2. Alle anderen Primzahlen sind ungerade. Daraus folgt sofort, dass diese Primzahlen von der Form 4m + 1 bzw. 4m + 3 mit m ∈ N sind. Also haben wir drei Schubladen“ von Primzahlen: ” P2 = {2} , P1 = {p|p Primzahl , p = 4m + 1} , P3 = {p|p Primzahl , p = 4m + 3} . Nun bleibt die Frage, ob P1 und P3 unendlich viele Zahlen enthält. Dies ist so! Bemerkung 4.3.4 J. Bertrand stellte die Vermutung auf, dass zwischen n und 2n stets eine Primzahl liegt; er selbst verifizierte die Vermutung für n < 3000000 . Ein erster Beweis für die vermutete Tatsache wurde 1850 von P. Tschebyscheff vorgelegt. Wir geben hier nicht den Beweis 2n wieder, der durch eine sorgfältige Abschätzung von n erbracht werden kann, sondern verifizieren die Vermutung nur für n < 4000 (Landau’s Trick): Hier ist eine Folge von Primzahlen, von denen jeweils die Verdopplung größer als die folgende Zahl ist: 2, 3, 5, 7, 13, 23, 43, 83, 163, 317, 631, 1259, 2503, 4001 Beispiel 4.3.5 Lange Zeit glaubte man, dass die so genannten Fermatsche Zahlen n Fn := 22 + 1, n ∈ N , stets Primzahlen sind. Für n = 0, 1, 2, 3, 4 trifft dies zu: F0 = 3, F1 = 5, F2 = 17, F3 = 257, F4 = 65537 . Im Jahre 1733 widerlegte L. Euler mit dem Beispiel F5 = 4294967297 = 641 · 6700417 die Vermutung. Bisher hat man keine weitere Zahl Fn als Primzahl erkannt, im Gegenteil, die Vermutung ist nun, dass keine Fermatzahl Fn , n ≥ 5, eine Primzahl ist. Die kleinste Fermatzahl, von der man derzeit noch nicht weiß, ob sie eine Primzahl ist oder nicht, ist die Zahl F24 . Beispielsweise ist F18 = 13631489 · k , wobei k eine Zahl mit 78906 Stellen ist. Wie kann man bei gegebener Zahl n entscheiden, ob es sich um eine Primzahl handelt oder nicht? Liegt eine große Zahl vor, so ist die Aufgabe schwierig. Die Probiermethode, n sukzessive auf Teiler zu untersuchen, kann man sehr schnell als sehr zeitraubend“ erkennen. Aktualität ” erhielt die Frage bei der Suche nach Primzahltests in der Kryptologie. In der Kryptologie beschäftigt man sich mit der Verschlüsselung von Nachrichten zum Zwecke der Geheimhaltung und mit der Entschlüsselung zum Zwecke der Aufdeckung von Nachrichten. Ein Primzahltest leitet sich aus der Äquivalenz n Primzahl ⇐⇒ n|((n − 1)! + 1) 48 ab. Diese Äquivalenz wird als Satz von Wilson bezeichnet.1 Die Probiermethode – man probiere alle Primzahlen p ≤ n als mögliche Teiler durch – kann dahin verbessert werden, dass man nur solche p mit p2 ≤ n durchzuprobieren hat, da bei einer Zerlegung n = pq, p, q Primzahlen, für einen der beiden Faktoren sicherlich gilt, dass er dem Quadrate nach nicht größer als n ist. Aber hier hat man das Problem, dass man von allen Zahlen z mit z 2 ≤ n wissen sollte, ob sie Primzahlen sind. Da aber jede Primzahl p von der Form p = 6k±1, k ∈ N, ist (Beweis!) können wir dieses Problem umgehen, indem wir mit solchen 6k ± 1 testen. Man hat dann aber immer noch mit einer Anzahl von Zahlen zu testen, die etwa bei einer 100–stelligen Zahl einen nicht zu bewältigender Aufwand darstellt. Folgerung 4.3.6 (Lemma von Euklid) Teilt eine Primzahl ein Produkt a1 · · · ar natürlicher Zahlen, so teilt p wenigstens einen der Faktoren a1 , . . . , ar . Beweis: O. E. sei r = 2. Also haben wir a1 a2 = kp mit k ∈ N . Teilt p die Zahl a1 nicht, dann ist p ⊓ a1 = 1, da p eine Primzahl ist, und es gibt nach Satz 4.4.4 s, t ∈ Z mit 1 = sp + ta1 . Daraus folgt a2 = spa2 + ta1 a2 = p(sa2 + tk). Also teilt p die Zahl a2 . Bevor wir den Hauptsatz der elementaren Zahlentheorie, die Primfaktorzerlegung, beweisen, formulieren noch eine Schreibweise/Vereinbarung: Das Produkt von Zahlen a1 , . . . , an+1 definieren wir induktiv 0 Y i=1 ai := 1 (leeres Produkt) , 1 Y ai := a1 (einfaches Produkt) , n+1 Y i=1 i=1 ai := an+1 · n Y ai . i=1 Satz 4.3.7 (Primfaktorzerlegung) Jede natürliche Zahl n ≥ 2 läßt sich bis auf die Reihenfolge der Faktoren eindeutig als Produkt von Primzahlen darstellen. Beweis: Die Existenz einer Darstellung für n ∈ N beweisen wir induktiv: Für n = 2 ist dies nach der obigen Vereinbarung über das einfache Produkt klar. n + 1 : Ist n + 1 eine Primzahl, dann ist nach Vereinbarung über das einfache Produkt nichts mehr zu zeigen. Anderenfalls gilt n + 1 = pm mit 1 < p, m < n + 1. O.E. können wir nun annehmen nach Lemma 4.3.2, dass m einen Teiler p besitzt, der eine Primzahl ist; also n + 1 = pm mit 1 < p, m < n + 1 . Nach Induktionsvoraussetzung gilt m = p2 · · · pr , p2 , . . . , pr Primzahlen. Dann liegt in n + 1 = pp2 · · · pr eine Zerlegung von n + 1 in Primfaktoren vor. Zur Eindeutigkeit: Sei n = p1 · · · pr = q1 · · · qs mit Primzahlen p1 , . . . , pr , q1 , . . . , qs . Durch Induktion über n zeigen wird, dass r = s und nach Umnumerierung p1 = q1 , . . . , pr = qr gilt. p1 teilt das Produkt q1 · · · qs und damit einen der Faktoren q1 , . . . , qs . Also etwa nach Umnumerierung p1 |q1 . Da q1 Primzahl ist, ist p1 = q1 . Also (Kürzungsregel) p2 · · · pr = q2 · · · qs =: m . Da m < n gilt, sagt die Induktionsannahme r = s, p2 = q2 , . . . , pr = qs nach eventueller Umnumerierung und wir sind fertig. Die Herstellung der Primfaktorzerlegung einer (großen) Zahl ist kein leichtes Unterfangen. Die Schwierigkeit wird dadurch beleuchtet, dass nahezu gleiche Zahlen eine sehr verschiedene Primfaktorzerlegung besitzen können: 370273 = 43 · 79 · 109 , 370277 = 17 · 23 · 947 , 370279 = 7 · 13 · 13 · 313 . 1 Schon G.W. Leibniz hat diesen Satz vermutet, der erste vollständige Beweis stammt von J.L. Lagrange2 , etwa 100 Jahre später hat ihn J. Wilson nachentdeckt. Man sieht schnell, dass, was den Rechenaufwand betrifft, nicht viel gewonnen ist, denn (n − 1)! auszurechnen, ist eine aufwendige Angelegenheit. 49 Definition 4.3.8 Seien a, b ∈ Z, die nicht beide 0 sind. Eine Zahl k ∈ N heißt kleinstes gemeinsames Vielfaches von a, b genau dann, wenn gilt: (1) a|k , b|k . (2) Sind a, b Teiler von k′ ∈ N, so ist k ein Teiler von k′ . Wir schreiben k = kgV (a, b) = a ⊔ b . Bemerkung 4.3.9 Das kleinste gemeinsame Vielfache von Zahlen a, b ∈ N ist die kleinste Zahl m ∈ N, für die a|m , b|m gilt. Kennt man die Primfaktorzerlegung von a und b, so kann man es sehr einfach ablesen(, wie übrigens auch den größten gemeinsamen Teiler). 4.4 Euklidischer Algorithmus Der euklidische Algorithmus baut die Aussage von Lemma ?? aus zu einer effizienten Berechnungsmethode für den größten gemeinsamen Teiler. Algorithm 1 Der euklidische Algorithmus EIN a, b ∈ Z ; o.E. a ≥ b > 0 . Schritt 0 a′ := a, b′ := b . Schritt 1 (a′ , b′ ) := (b′ , r), wobei a′ = qb′ + r mit 0 ≤ r < b′ ist. Schritt 2 Ist r = 0, gehe zu AUS. Ist r 6= 0, setze a′ := b′ , b′ := r, gehe zu Schritt 1. AUS d := b′ = ggT(a, b) . Die Aussage, dass d der größte gemeinsame Teiler von a, b ist, falls die Situation r = 0 erreicht wird, folgt aus dem Lemma 4.2.7. Bleibt noch zu klären, dass die Situation r = 0 in endlich vielen Schritten wirklich erreicht wird. Dies folgt aber aus der Tatsache, dass für zwei aufeinanderfolgende Durchläufe von Schritt 1 (a′ , b′ ) , (a′′ , b′′ ) sicherlich 0 ≤ b′′ < b′ , b′ , b′′ ∈ N0 gilt. Also muss schließlich das Verfahren bei r = 0 abbrechen. Der euklidische Algorithmus gilt als ein recht schneller Algorithmus. Dies wollen wir nun erläutern. Dazu benötigen wir die Fibonacci-Zahlen. Sie sind rekursiv definiert durch: f1 := f2 := 1 , fn+1 := fn + fn−1 , n ∈ N, n ≥ 2 . Die Folge (fn )n∈N gilt (historisch) als ein erstes Modell für die zeitliche Entwicklung einer (Kaninchen-)Population. Man kann (durch vollständige Induktion) zeigen: √ √ 1 1 1 fn = √ (gn − g n ) , n ∈ N , wobei g := (1 + 5), g := (1 − 5) . 2 2 5 (4.2) Der euklidische Algorithmus habe die Eingabewerte a, b, für die wir o.E. annehmen dürfen: a > b > 0 . Sei n die Anzahl der Divisionen mit Rest, die nötig sind, bis der größte gemeinsamer Teiler d = ggT(a, b) gefunden ist. Um die Anzahl der Schritte n abzuschätzen, wählen wir als spezielle Eingabewerte zwei aufeinanderfolgende Fibonacci-Zahlen, nämlich a = fn+1 , b = fn . 50 In diesem Fall sind auf Grund der Rekursionsformel fk+1 = fk + fk−1 die Divisionen mit Rest besonders einfach: fn+1 = 1 · fn + fn−1 fn = 1 · fn−1 + fn−2 .. . f3 = 1 · f2 + f1 f2 = 1 · f1 + 0 Durch Vergleich mit dem allgemeinen Fall sieht man, dass für den euklidischen Algorithmus der ungünstigste Fall für die Eingabe zwei aufeianderfolgende Fibonacci-Zahlen sind. Da offenbar nach (4.2) √ 1 fn+1 = Θ(gn ) mit g = (1 + 5) 2 gilt, ergibt sich hier n = O(ln(a)) mit a = fn+1 . Die Anzahl der beim euklidischen Algorithmus nötigen Divisionen mit Rest wächst also höchstens linear mit der Stellenzahl der Eingabewerte. Wir geben dem Euklidischen Algorithmus, wohlwissend, dass der Schritt 1 nur endlich oft durchlaufen wird, eine explizite Fassung: Euklidischer Algorithmus Kettenbruchentwicklung a b r0 r1 r1 r2 r0 := a , r1 := b, r0 = q1 r1 + r2 , 0 < r2 < r1 , r1 = q2 r2 + r3 , 0 < r3 < r2 , .. . .. . = = q1 + rr2 1 r = q 2 + r3 2 .. . .. . rk−1 = qk rk + rk+1 , 0 < rk+1 < rk , rk = qk+1 rk+1 , rk−1 rk rk rk+1 r0 r1 r = qk + k+1 rk = qk+1 In dieser Darstellung ist rk+1 = rk−1 ⊓ rk = · · · = r0 ⊓ r1 = a ⊓ b nach Lemma 4.2.7. Beachte: Bei der Spalte Kettenbruchentwicklung“ haben wir Brüche vorweggenommen. Für ” ein Verständnis der Kettenbruchentwicklung reicht ein elementares Wissen über rationale Zahlen aus. Beispiel 4.4.1 a = 104629 , b = 432000 . 104629 = 0 · 432000 + 104629 432000 = 4 · 104629 + 13484 104629 = 7 · 13484 + 10241 13484 = 1 · 10241 + 3243 10241 = 3 · 3243 + 512 3243 = 6 · 512 + 171 512 = 2 · 171 + 170 171 = 1 · 170 + 1 170 = 170 · 1 51 Also gilt: 104629 ⊓ 432000 = 1 . Aus der obigen Darstellung des euklidischen Algorithmus lesen wir a r0 r2 1 1 1 = ... (4.3) = = q1 + = q1 + r1 = q1 + = q1 + r 3 1 b r1 r1 q 2 + r2 q2 + r2 r4 q3 + r3 rk+1 ab; wir wissen dabei, dass stets 0 < r < 1 gilt und dass das Schema nach k Schritten abk bricht, denn in formaler Interpretation haben wir rk+2 = 0 . Die berechneten Größen q1 , . . . , qk+1 schreiben als a [q1 , . . . , qk+1 ] oder = [q1 , . . . , qk+1 ] b auf und bezeichnen dies als Kettenbruch. Der Kettenbruch kann mitunter auch sehr lang“ ” sein. In vielen Fällen ist man schon mit einer Näherung [q1 , . . . , ql ] , 1 ≤ l < k + 1 , zufrieden, d.h. mit der Näherung, die entsteht, wenn man rl =0 rl+1 setzt. Beispiel 4.4.2 Die Zahlen a = 71755875 b = 61735500 kommen in Berechnungen des Astronomen Aristarchus von Samos vor. Für a verwendet er die b 43 Näherung 37 . Sie ergibt sich, wenn man den Kettenbruch geeignet abbricht: a 1 . ∼1+ b 6 + 61 Beispiel 4.4.3 Die Umlaufzeit der Erde um die Sonne beträgt ziemlich genau 365 + 104629 Tage . 432000 Aus der Kettenbruchentwicklung 432000 = [0, 4, 7, 1, 3, 6, 2, 1, 170] 104629 ergeben sich Ansätze für Kalender: [0] = 0 [0, 4] = Keine Schaltjahre (Anpassung von Zeit zur Zeit durch Hinzufügen eines Tages) 1 4 [0, 4, 7, 3, 6] = Alle vier Jahre ein Schalttag 194 801 In 800 Jahren lässt man sechs Schaltjahre ausfallen (und zwar in den Jahren, deren Jahreszahlen nicht durch 400 teilbar ist.) Beachte: Da a1 ⊓ a2 ⊓ · · · ⊓ an = a1 ⊓ (a2 ⊓ · · · ⊓ an ) gilt, ist klar, dass wir nun auch ein Verfahren haben, das den größten gemeinsamen Teiler von a1 , . . . , an bereitstellt: Man hat es nur mehrmals anzuwenden. Eine wichtige Konsequenz aus dem Euklidischen Algorithmus ist 52 Satz 4.4.4 (Lemma von Bezout) Seien a, b ∈ Z. Dann gibt es Zahlen s, t ∈ Z mit ggT(a, b) = sa + tb . Beweis: O.E. a ≥ b > 0 . Die Aussage folgt dadurch, dass wir den euklidischen Algorithmus in der expliziten Fassung rückwärts lesen. Wir strukturieren dies, indem wir nachrechnen, dass für 0 ≤ i ≤ k + 1 gilt ri = si a + ti b , mit si , ti ∈ Z. (4.4) Dies ergibt sich so: Für i = 0 setze s0 := 1, t0 := 0 und für i = 1 setzte s1 := 0, t1 := 1 . Nun setzen wir si+1 := si−1 − qi si , ti+1 := ti−1 − qi ti , 1 ≤ i ≤ k. (4.5) Dann gilt offenbar die obige Aussage. Beispiel 4.4.5 Wir betrachten wieder Beispiel 4.4.1. Für das Tupel (ri , qi , si , ti ) haben wir dann nach (4.4) und (4.5) die folgende Sequenz (× bedeutet uninteressant oder nicht definiert): (36667, ×, 1, 0), (12247, 2, 0, 1), (12173, 1, 1, −2), (74, 164, −1, 3), (37, ×, 165, −494). Also haben wir 37 = 36667 ⊓ 12247 = 165 · 36667 − 494 · 12247 Folgerung 4.4.6 Seien a, m ∈ Z, die nicht beide Null sind, mit ggT(a, m) = 1 . Dann gibt es b ∈ Z mit m|(ab − 1) . Beweis: Wir wissen aus dem Lemma von Bezout 1 = ax + my mit x, y ∈ Z . Setze b := x . Dann ist ab − 1 = −my = m(−y) . Die obige Folgerung können wir so lesen, dass bei Teilerfremdheit von a und m zu a eine Zahl b existiert, die die Gleichung a·b=1 bis auf ein Vielfaches von m löst. Bemerkung 4.4.7 Ein Polynom vom Grade n mit ganzzahligen Koeffizienten ist ein Term“ ” der folgenden Form: p(x) := an xn + an−1 xn−1 + · · · + a1 x + a0 ; dabei sind a0 , . . . , an−1 ∈ Z die Koeffizienten des Polynoms und n der Grad, wenn n 6= 0 . Dieses Polynom kann einerseits selbständiges Objekt im Ring Z[X] aller dieser Terme von beliebigem Grad oder als Abbildung von Z nach Z betrachtet werden. Wir nehmen zunächst den ersten Standpunkt ein. Ring“ meint, dass man solche Terme (koeffizientenweise) addieren und mit ” ganzen Zahlen multiplizieren kann. Umgekehrt, kann man nun versuchen, zwei Terme dieser Art zu dividieren“; man wird zur Division mit Rest bei Polynomen geführt. Auf unserer ” ganzzahligen Basis können wir diese nicht vorstellen, denn dazu brauchen wir die rationalen Zahlen; wir kommen im nächsten Kapitel darauf zurück. 53 4.5 Modulare Arithmetik Die modulare Arithmetik beschreibt das Rechnen im Ring Zm , wobei m ∈ N, m ≥ 2, der gewählte Modul ist. Der Ring Zm kommt als Menge der Äquivalenzklassen/Restklassen bezüglich der Äquivalenzrelation Division mit Rest“ bezüglich des Moduls m zustande: ” Zm := {[0], [1], . . . , [m − 1]} wobei [i] := {n ∈ N|n = qm + i für ein q ∈ Z} . Beachte, dass etwa die Klasse [1] auch als die Klasse [m + 1] beschrieben werden kann; wir haben in der Definition von Zm ein naheliegendes Representantensystem gewählt. Klar, für m = 2 erhalten wir gerade die Einteilung der natürlichen Zahlen in die Klassen gerade Zahlen und ungerade Zahlen. Für diese Klassen hat man in natürlicher Weise eine Addition und eine Multiplikation: gerade + gerade = gerade , ungerade + gerade = ungerade gerade · gerade = gerade , ungerade · gerade = gerade Diese Beobachtung schreiben wir nun fort auf Zm : Addition: [i] + [j] := [i + j] , i, j ∈ {0, 1, . . . , m − 1} ; Multiplikation: [i] · [j] := [ij] , i, j ∈ {0, 1, . . . , m − 1} . Damit dies wohldefiniert ist, muss noch gezeigt werden: aus [i] = [j], [i′ ] = [j ′ ] folgt [i+j] = [i′ +j ′ ] und [ij] = [i′ j ′ ] . Wir beweisen dies am Beispiel der Multiplikation. [i] = [j], [i′ ] = [j ′ ] bedeutet i′ = pm + i, j ′ = qm + j für p, q ∈ Z . Daraus folgt i′ j ′ = (pm + i)(qm + j) = (iqm + jpm + pqm)m + ij also [ij] = [i′ j ′ ] . [0] ist das neutrale Element für die Addition, [1] ist das neutrale Element für die Multiplikation: [i] + [0] := [i] , [i] · [1] = [i] , i, j ∈ {0, 1, . . . , m − 1} . Weiterhin ist leicht zu sehen, dass [m − i] das Inverse von [i] bezüglich der Addition ist. Nun können wir so zusammenfassen: Zm ist bezüglich der Addition eine kommutative Gruppe; was die Bezeichnung Gruppe“ beinhaltet, siehe nachfolgenden Abschnitt 4.6. Dieses Ergebnis gilt ” unabhängig von m. Für die Multiplikation ist die Situation nicht so einfach, denn es gibt die Situation, dass Nullteiler auftreten; etwa [2] · [2] = [2 · 2] = [0] in Zm für m = 4 . Also kann hier [2] kein Inverses bezüglich der Multiplikation haben. Ist nun m eine Primzahl, dann ist, wie wir wissen, die Klasse [1] ein neutrales Element und aus dem Lemma von Bezout 4.4.4 folgern wir, dass es zu jeder Zahl k = 1, . . . , m − 1 ein l ∈ N gibt mit m teilt kl − 1; d.h. [k] · [l] = [1] . Somit hat man für jedes Element in Zm \{[0]} ein Inverses. Nun fassen wir zusammen: Zm \{[0]} ist bezüglich der Multiplikation eine kommutative Gruppe, falls m eine Primzahl ist. Die Gruppentafeln – so bezeichnen wir eine vollständige Auflistung der Verknüpfungen der Gruppenelemente – zu m = 5 sehen wie in 4.3 aufgeführt aus. Man beachte, dass sowohl in der Gruppentafel zur Addition als auch in der Gruppentafel zur Multiplikation in jeder Zeile und Spalte jede Klasse genau einmal vertreten ist. Beachte ferner, dass die Potenzen des Elements [2] alle Elemente von Z∗5 := Z5 \{[0]} durchlaufen: [2]0 = [1] , [2]1 = [2] , [2]2 = [4] , [2]3 = [3] , [2]4 = [1] . Man nennt eine Gruppe, die ein solches zyklisches Element besitzt, eine zyklische Gruppe. 54 + [0] [1] [2] [3] [4] [0] [0] [1] [2] [3] [4] · [1] [2] [3] [4] [1] [1] [2] [3] [4] [0] [1] [1] [2] [3] [4] [2] [2] [3] [4] [0] [1] [2] [2] [4] [1] [3] [3] [3] [4] [0] [1] [2] [3] [3] [1] [4] [2] [4] [4] [0] [1] [2] [3] [4] [4] [3] [2] [1] (b) (a) Abbildung 4.1: Gruppentafeln zu Z5 + 0 1 a b · 0 1 a b 0 0 1 a b 0 0 0 0 0 1 1 0 b a 1 0 1 a b a a b 0 1 a 0 a b b b a 1 0 b 0 b (a) 1 1 a (b) Abbildung 4.2: Gruppentafeln zu einem Körper mit 4 Elementen Bemerkung 4.5.1 Für beliebiges m ∈ N, m ≥ 2, ist (Zm , +, ·) ein Ring mit Einselement. Ist p ∈ N eine Primzahl, so ist (Zm , +, ·) sogar ein Körper, ein endlicher, denn Zp hat ja (nur) p Elemente. Damit kennen wir zu jeder Primzahl p einen Körper mit p Elementen. Wie sieht es aber mit den Lücken m = 4, m = 6, m = 8, . . . aus? Es gibt das diese Frage abschließende Resultat, dass es einen Körper mit m Elementen genau dann gibt, wenn m eine Primzahlpotenz ist. In 4.2 findet man einen Körper mit 4 Elementen in abstrakter, d.h. nicht in einer schon durch bekannte Objekte beschriebene Form. Wo werden endliche Körper benötigt? Allgemein in der Diskreten Mathematik, der Mathematischen Informatik und speziell in der Verschlüsselung von Daten. Hier ist noch ein wichtiges Resultat für das Rechnen in Kongruenzen, das man oft zur Vereinfachung von Argumentationen verwenden kann. Satz 4.5.2 (Chinesischer Restsatz) Ist m = pk11 · · · · · pkr r die Primfaktorzerlegung von m, so ist Zm isomorph zu Zpk1 × · · · × Zpkr r , d.h. es gibt eine bijektive Abbildung g : Zm −→ 1 Zpk1 × · · · × Zpkr r , für die gilt: 1 g([u] + [v]) = g([u]) + g([v]) , g([u] · [v]) = g([u]) · g([v]) , u, v ∈ Z . (4.6) Dabei wird sowohl Addition als auch Multiplikation in Zpk1 ×· · ·×Zpkr r komponentenweise erklärt. 1 Beweis: Offenbar haben Zm und Zpk1 × · · · × Zpkr r gleich viele Elemente. Also genügt es zeigen, dass g 1 injektiv ist. Dazu reicht nun zu zeigen, dass aus g([u]) = ([0], . . . , [0]) folgt: [u] = [0] . Aus g([u]) = ([0], . . . , [0]) folgt pki i |u, i = 1, . . . , r . Dann folgt aber m = pk11 · · · pkr r |u . Also [u] = [0] . 55 4.6 Zum Gruppenbegriff Die Gruppenstruktur ist von überrragender Bedeutung. Ihre Nutzung hinterließ eine Erfolgsspur in der Mathematik.3 Definition 4.6.1 Eine Menge G zusammen mit einer Verknüpfung • : G × G ∋ (a, b) 7−→ a • b ∈ G heißt eine Gruppe genau dann, wenn gilt: a) Es gibt ein Element e ∈ G mit a • e = e • a = a für alle a ∈ G . b) Zu jedem a ∈ G gibt es ein Element ā ∈ G mit c) Für alle a, b, c ∈ G gilt a • ā = ā • a = e . a • (b • c) = (a • b) • c . Ist zusätzlich noch d) Für alle a, b ∈ G gilt a • b = b • a. erfüllt, so heißt die Gruppe kommutativ. Sei G eine Gruppe. Die Bedingung a) besagt, dass es ein bezüglich der Verknüpfung “•“ neutrales Element e in G gibt. Ist e′ ein weiteres neutrales Element in G, so lesen wir aus e′ = e′ • e = e – wir haben dabei a) zweimal verwendet – ab, dass das neutrale Element in einer Gruppe eindeutig bestimmt ist. Das in der Bedingung b) eingeführte Element ā heißt das zu a inverse Element. Es ist ebenfalls eindeutig bestimmt, denn aus a • ā = ā • a = e , a • ā′ = ā′ • a = e , folgt ā′ = ā′ • e = ā′ • (a • ā) = (ā′ • a) • ā = e • ā = ā . Die Bedingung c), die wir eben verwendet haben, nennt man das Assoziativgesetz. Es besagt, dass Klammern bei der Reihenfolge der Verknüpfungen beliebig gesetzt werden dürfen und deshalb, soweit sie nicht für die Lesbarkeit benötigt werden, weggelassen werden dürfen. Wegen der Eindeutigkeit des inversen Elements (siehe oben) können wir nun ein inverses Element in der Bezeichnung auszeichnen. Bezeichnung: Wir schreiben für das inverse Element ā von a im abstrakten Rahmen meist a−1 , in speziellen Fällen weichen wir davon ab. Wir führen nun eine Reihe von Beispielen an und zeigen damit, dass der Gruppenbegriff in der Tat geeignet ist, viele Objekte unter einem gemeinsamen Gesichtspunkt zu betrachten. Dabei schreiben wir dann Verknüpfung, Einselement, Inverses immer mit dem Symbol, das wir in der speziellen Situation bereits kennen bzw. wie es dort Verwendung findet. Auf die Verifikation der Eigenschaften verzichten wir, sie sit meist auch offensichtlich. Beispiel 4.6.2 (G := Z, • := +) ist eine kommutative Gruppe mit neutralem Element 0 und Inversem −z für z ∈ Z . 3 Von H. Poincaré ist die Aussage überliefert, Gruppen seien die ganze Mathematik“. Seit dem 17. Jahrhundert ” ist der Gruppenbegriff implizit bei Mathematikern zu finden. 56 Wenn die Verknüpfung eine Addition ist wie etwa in Beispiel 4.6.2, nennt man das Inverse eines Elements meist das Negative. Ist die Verknüpfung • in einer Gruppe einer Addition verwandt“, so nennt man sie, wenn sie kommutativ ist, auch abelsch. 4 ” Beispiel 4.6.3 (G := Q, • := +) , (G := R, • := +) sind abelsche Gruppen. Das neutrale Element ist jeweils 0, das Inverse (Negative) eines Elementes r ist −r. In einer Gruppe (G, •) mit Einselement e können wir nun die Potenzschreibweise einführen: a0 := e , ak+1 := ak • a , k ∈ N0 ; a−k := (a−1 )k , k ∈ N . Lemma 4.6.4 Sei m ∈ N\{1} . Es gilt: a) (Zm , ⊕) ist eine abelsche Gruppe. b) (Z∗m , ⊙) ist eine abelsche Gruppe, wobei Z∗m := {[x] ∈ Zm |∃[x′ ] ∈ Zm ([x] ⊙ [x′ ] = [1]} die sogenannte Einheitengruppe ist. c) Es ist Z∗m = Zm \{[0]} genau dann, wenn m eine Primzahl ist. Beweis: Nur noch b) ist zu beweisen. Doch dies sehr einfach nachzurechnen. Gruppentafeln stellen eine vollständige Auflistung der Verknüpfungen der Gruppenelemente dar. Hat man eine endliche Gruppe (G, •), so tritt in jeder Spalte und jeder Zeile ihrer Gruppentafel jedes Element der Gruppe genau einmal auf. Dies folgt aus der Bijektivität der Abbildungen g : G ∋ h 7−→ h • g ∈ G , g : G ∋ h 7−→ g • h ∈ G für jedes g ∈ G . Die Verifikation dieser Tatsache sei dem Leser überlassen. Definition 4.6.5 Seien (G, •), (G′ , •′ ) Gruppen und φ : G −→ G′ eine Abbildung. φ heißt Isomorphismus und G isomorph G′ vermöge φ, wenn φ bijektiv ist und φ(g •h) = φ(g)•′ φ(h) für alle g, h ∈ G gilt. Die Klassifikation von Gruppen bedeutet dann, die Klassen von Gruppen zu bestimmen, die sich höchstens um einen Isomorphismus unterscheiden. (Sind etwa G, G′ isomorph, so ist G kommutativ genau dann, wenn G′ kommutativ ist.) speziell“, wie oben verwendet, erklärt sich ” hiermit. Alle einelementigen Gruppen sind isomorph. Eine Realisierung der einelementigen Gruppen ist die Symmetriegruppe des Buchstabens F als Figur der Ebene. Realisierungen der zweielementigen Gruppen sind: • Die additive Gruppe Z2 . 4 • Die Symmetriegruppe des Buchstabens A als Figur der Ebene (Spiegelung an der y-Achse). Der Begriff abelsch“ ist vom Namen des norwegischen Mathematikers N.H. Abel abgeleitet. Seine Ideen hierzu ” sind eng mit denen des französischen Mathematikers E. Galois, dessen Theorie in der Algebra eine überragende Rolle spielt, verwandt. Mit ihm teilt er auch das Schicksal, sehr jung zu sterben, Abel starb an Schwindsucht, Galois in einem Duell. 57 c • e a b c e e a b c e e a b c b e a b e e a b a a b c e a a e c a b e b b c e a b b c e a e a c c e a b c c b a e e a e e a a a e b (a) e a b • • a • b (b) (c) Zyklische Gruppe (d) Kleinsche Vierergruppe Abbildung 4.3: Gruppentafeln • Die Symmetriegruppe des Buchstabens Z als Figur der Ebene (Drehung um den Ursprung um 180◦ ). Diese genannten zweielementigen Gruppen sind alle isomorph. Dies gilt aber allgemein, denn jede zweielementige Gruppe {e, a} hat notwendigerweise eine Gruppentafel, wie sie in Abbildung 4.3 (a) zu sehen ist. Die einzige Gruppentafel einer Gruppe {e, a, b}, also mit drei Elementen, hat das Aussehen, wie sie in Abbildung 4.3 (b) aufgeführt ist. Also sind alle Gruppen mit drei Elementen isomorph. Bei Gruppen mit den 4 Elementen e, a, b, c trifft dies nicht zu. Es gibt zwei Typen von Gruppen, die nicht isomorph sind. Der eine Typ wird repräsentiert durch die zyklische Gruppe; hier ist b = a2 , c = a3 , e = a4 . Der andere Typ wird repräsentiert durch die Kleinsche Vierergruppe; hier ist e2 = a2 = b2 = c2 = e . In Abbildung 4.3 (c), (d) sind sie zu sehen. Die Nichtisomorphie folgt schon aus der Tatsache, daß die eine Gruppe zyklisch, die andere es nicht ist. Eine Realisierung der zyklischen Gruppe ist (Z4 , +) . Eine Realisierung der Kleinschen Vierergruppe ist die Symmetriegruppe eines Rechtecks, das kein Quadrat ist: Abbildung 4.4: Ornamente e := id; a := Spiegelung an der senkrechten Achse durch den Diagonalenschnittpunkt; b := Spiegelung an der waagrechten Achse durch den Diagonalenschnittpunkt; c := Drehung um 180o . Es fällt auf, dass sich die Drehung c durch die Spiegelungen a, b ausdrücken lassen. Beispiel 4.6.6 Ebene regelmäßige Ornamente (auch Parkettierungen der Ebene genannt) lassen sich klassifizieren, je nachdem, welche Bewegungen (Drehungen, Spiegelungen, Translationen) das jeweilige Ornament invariant lassen; siehe Abbildung 4.4. Die Symmetriegruppen, die dabei auftreten, nennt man Alhambragruppen. Wenn man auf diese Weise einen Überblick über die Reichhaltigkeit aller regelmäßigen Ornamente gewinnen will, so stellt sich heraus (V. Fedorov), daß es genau siebzehn strukturell verschiedene Alhambragruppen gibt, und dass zu diesen siebzehn Gruppen entsprechende Ornamente in der Alhambra zu finden sind. Definition 4.6.7 Sei (G, •) eine Gruppe. Die Anzahl der Elemente von G heißt Ordnung von G. Wir schreiben |G| für die Ordnung von G . 58 Wir verabreden, dass die Ordnung unendlich sei, falls G keine endliche Menge ist. Also |G| = ∞, falls #G = ∞ . 4.7 Pseudozufallszahlen Um die umständliche Verwendung von Tabellen zu vermeiden, werden Folgen von Zufallszahlen verwendet, die im Allgemeinen durch Iterationen hergestellt werden; wir sprechen von Pseudozufallszahlen. Darunter versteht man mathematisch wohldefinierte Zahlenfolgen, die als Folgen von Zufallszahlen angesehen werden sollen. Diese Zufallszahlen haben den Vorteil, dass sie reproduzierbar sind, und haben den Nachteil, dass sie deterministischen Charakter besitzen. Alles, was wir hier zur Sprechweise Zufallszahl“ sagen können, ist, dass jedenfalls kein Muster, keine ” Struktur in der Folge erkennbar sein soll. Die Wahrscheinlichkeitstheorie und Statistik stellt Hilfsmittel bereit, solche Folgen auf ihre Zufälligkeit zu testen. Zunächst einige allgemeine Bemerkungen. Sei M eine endliche Menge. Pseudozufallszahlen, deren Konstruktionsmethode wir hier besprechen wollen, ergeben sich als Iterierte einer Funktion f : M −→ M in folgender Weise: xn+1 := f (xn ) , n ∈ N0 . (4.7) Der Startwert x0 heißt Samen der Pseudozufallsfolge (xn )n∈N die Folge selbst heißt auch Orbit und die Funktion f heißt der Generator. Die Folge ist durch die Wahl von f und x0 vollständig bestimmt; es handelt sich also um keine echte Zufallsfolge. Durch geschickte Wahl von f – gewünscht wird eine gute Durchmischung von M – kann man jedoch erreichen, dass sich die Folge für viele Anwendungen wie eine Zufallsfolge verhält. Da die Menge M endlich ist, können nicht alle Folgenglieder xn verschieden sein. Es gibt also Indizes k, l mit xk = xl ; o. E. k > l . Seien k, l die ersten Indizes, für die dies eintritt. Sei damit r := k − l . Da xk = xl gilt, folgt xn+r = xn für alle n ≥ l . Also wird der Orbit (xn )n∈N periodisch mit Periode r ; wir haben einen Zyklus der Länge r . Verlangt man, dass jedes Element der Menge M die Chance hat im Orbit aufzutauchen, muss der Zyklus ganz M umfassen. Daraus folgt, dass die Abbildung f surjektiv sein muss. Da M endlich ist, hat f also sogar bijektiv zu sein. Wir werden unten sehen, dass die Bijektivität keineswegs dafür schon ausreicht, ein guter Generator zu sein. Die Pseudozufallszahlengeneratoren, die wir hier besprechen wollen, sind ausschließlich affine Generatoren; also M := Zm ; f : Zm ∋ [x] 7−→ ([ax] + [b]) ∈ Zm , (4.8) mit einem Modul m . Hier sind a.b ∈ Z . Wir bezeichnen (4.8) auch als Kongruenz–Generator, denn Rechnen in Kongruenzen ist nichts anderes als das Rechnen in Restklassen. Wir führen die zugehörige Schreibweise ein. Mit u, v ∈ Z schreiben wir: u=v mod m : ⇐⇒ [u] = [v] ⇐⇒ m|(u − v) . Damit lautet die Rechenvorschrift für den Kongruenz–Generator M := {0, . . . , m − 1} ; f : M ∋ x 7−→ ax + b 59 mod m ∈ M . (4.9) Bemerkung 4.7.1 Durch die Generatoren in (4.8) werden Zufallszahlen in M := {0, 1, . . . , m− 1} erzeugt. Aus einer Zufallszahl y ∈ {0, . . . , m − 1} ergibt sich eine Zufallszahl z in [0, 1] ganz y einfach so: z := m . Damit die Abbildung f aus (4.8) bijektiv wird, muss a ein invertierbares Element in Zm sein, d.h. a muss zu m teilerfremd sein. Für die Klärung der Frage, unter welchen Bedingungen dieser Typ von Generatoren einen Zyklus maximaler Länge erzeugt, schauen wir uns Beispiele an. Beispiel 4.7.2 Betrachte die spezielle Wahl m = 10, a = b = 7 . Hier ist der erzeugte Zyklus 7, 6, 9, 0, 7, 6, 9, 0, . . . ziemlich kurz, obwohl natürlich a = 7 ein invertierbares Element in Z10 ist. Beispiel 4.7.3 Betrachte die spezielle Wahl m = 231 , a = 65539, b = 0 . Dies ist der Zufallsgenerator RANDU, wie er von IBM in den Computern in den 60er Jahren verwendet wurde. Die maximal erreichbare Zykluslänge r ist hier nicht ganz maximal, aber mit r = 229 nahezu maximal. Wir kommen später auf die Güte dieses Generators noch zu sprechen. Hier ist das Hauptergebnis über affine Kongruenzgeneratoren. Satz 4.7.4 Mit m, a, b ∈ Z, m ≥ 2 betrachte die Abbildung f : {0, . . . , m − 1} ∋ x 7−→ ax + b mod m ∈ {0, . . . , m − 1} . (4.10) Für beliebiges x0 ∈ {0, . . . , m − 1} sei die Folge (xn )n∈N definiert durch xn+1 := f (xn ) , n ∈ N 0 . Genau dann ist diese Folge periodisch mit der maximalen Periodenlänge m, wenn folgende Bedingungen erfüllt sind: a) p|(a − 1) für alle Primteiler p von m ; b) 4|(a − 1) falls 4|m ; c) b und m sind teilerfremd. Beweis: Ohne Beweis; siehe [1]. Satz 4.7.4 nennt uns die Bedingungen für einen affinen Kongruenz–Generator, damit er der Minimalforderung, einen Zyklus maximaler Länge zu erzeugen, genügt. Jedoch garantieren diese Bedingungen noch lange keinen guten Zufallsgenerator, wie nachfolgendes Beispiel zeigt. Beispiel 4.7.5 Betrachte für einen beliebigen Modul m den Generator f (x) := x + 1 mod m . Kein Zweifel, die Zykluslänge ist maximal, nämlich m, aber die erzeugte Folge 0, 1, 2, . . . , m − 1, 0, 1 . . . kann sicherlich nicht den Anspruch einer Zufallsfolge erheben. In der Praxis wird häufig ein Modul der Form m = 2k verwendet (und dazu in der Regel der √ √ Multiplikator a im Bereich m < a < m − m). In diesem Fall bedeuten die Bedingungen des Satzes 4.7.4 einfach a = 1 mod 4 und b ungerade . (4.11) Im Beispiel 4.7.3 sind diese Bedingungen offenbar verletzt (a = 216 + 3 und b = 0) und Konsequenz ist ein verkürzter maximaler Zyklus. 60 Beispiel 4.7.6 In der Programmiersprache C++ gibt es einen Generator namens drand48: Modul = 248 , a = 25214903917 , b = 11 . Die Zykluslänge ist maximal, da die Bedingungen (4.11) erfült sind. Beispiel 4.7.7 Von D. Knuth wurde der Generator Modul = 216 , a = 137 , b = 187 vorgeschlagen. Die Zykluslänge ist maximal, da die Bedingungen (4.11) erfüllt sind. Beispiel 4.7.8 Ein weiterer Generator: Modul = 216 , a = 193 , b = 73 . Die Zykluslänge ist maximal, da die Bedingungen (4.11) erfüllt sind. Wie soll man nun gute und weniger gute Generatoren auseinanderhalten? Es liegt nahe, Paare, Trippel,. . . von Zufallszahlen zu betrachten und deren geometrische Verteilung zu untersuchen. Wir skalieren“ dazu die Zufallszahlen mit Modul m gemäß ” X i := xi ∈ [0, 1] , i ∈ N0 . m Vergleichen wir die geometrische Verteilung der Paare (X i+1 , X i ) in [0, 1]×[0, 1] für die Generatoren aus Beispiel 4.7.7 und Beispiel 4.7.8. Man kann Geraden entdecken, worauf alle Zufallszahlen liegen, 21 im ersten Fall, 8 im zweiten Fall; die Streifen dazwischen sind frei von den erzeugten Zufallspaaren. Der maximale Abstand von solchen Streifen ist bei beiden Generatoren dement1 bei Beispiel 4.7.7, √132 bei Beispiel 4.7.8. Dies bedeutet, sprechend ziemlich verschieden: √274 dass der Generator 4.7.7 größeres Vertrauen genießen sollte. Betrachtet man für den Generator 4.7.3 Tripel (X i+2 , X i+1 , X i ) in [0, 1] × [0, 1] × [0, 1], so stellt 1 haben. man fest, dass diese Tripel auf genau 15 Ebenen liegen, die jeweils einen Abstand √118 Neben der mangelnden Maximalität der Zykluslänge ein weiterer Nachteil dieses Generators. 4.8 Übungen 1.) Bestimme ganze Zahlen x, y, z mit 252x + 420y + 315z = 42 . 2.) Betrachte die Zahlen H := {3j + 1|j ∈ N} . Bestimme in dieser Menge nichtzerlegbare Elemente. Bestimme in dieser Menge eine Art Primfaktorzerlegung von 100. Ist diese eindeutig bestimmt? 3.) Was lässt sich über die Güte eines affinen Zufallsgenerators mit m = 231 , a = 75 , b = 0 sagen? 4.) Seien x, y ∈ Z . Zeige: x mod y = x − y⌊ xy ⌋ . 5.) Betrachte die Fibonacci-Zahlen (fn )n∈N , die induktiv so definiert sind: f1 := 1, f2 := 1, fn+1 := fn + fn−1 , n ∈ N, n ≥ 2 . (a) Zeige: fm |fmk , k ∈ N, für alle m ∈ N (durch vollständige Induktion). 61 (b) Folgere aus (a): m|n =⇒ fm |fn . Betrachte die Fibonacci-Zahlen (fn )n∈N , die induktiv so definiert sind: f1 := 1, f2 := 1, fn+1 := fn + fn−1 , n ∈ N, n ≥ 2 . (a) Zeige für n ≥ 2 : Ist d ein Teiler von fn+1 und fn so ist d ein Teiler von fn−1 . (b) Folgere mit (a): ggT(fn+1 , fn ) = 1 für jedes n ∈ N . 6.) Seien x, y ∈ Z\{0}, d := ggT(x, y), und seien u0 , v0 ∈ Z mit u0 x + v0 y = d . Zeige: Ist (u, v) ∈ Z × Z und gilt ux + vy = d , dann gibt es w ∈ Z mit u = u0 + wy/d , v = v0 − wx/d . 62 Kapitel 5 (Diskreter) Zufall Stochastik beschäftigt sich mit der mathematischen Beschreibung und Analyse zufälliger Vorgänge. Den Sammelbegriff Stochastik hat Platon verwendet, um damit die Fähigkeit des geschickten Vermutens zu beschreiben. Vermutungen“ beziehen sich auf versteckte Gesetzmäßigkeiten in ” Beobachtungen. Davon ist Stochastik als Sammelbegriff für Wahrscheinlichkeitstheorie und (mathematische) Statistik übernommen. In diesem einführenden Kapitel über den Zufall stellen wir elementare Fragestellungen vor und erläutern sie an Hand von interessanten Problemstellungen. Im Blickpunkt stehen die Begriffe (Laplace-)Wahrscheinlichkeit, Zufallsbäume, bedingte Wahrscheinlichkeiten. 5.1 Laplace–Häufigkeiten Wie reden wir über den Zufall? Wir wollen uns nicht lange dabei aufhalten. Mögliche Defini” tionsschnipsel“: Zufall ist das Eintreten unvorhergesehener und unbeabsichtigter Ereignisse. Das, wobei unsere Rechnungen versagen, nennen wir Zufall (Albert Einstein). Jemandem fällt etwas (unverdientermaßen) zu. Die Spannung bei der Verwendung des Zufalls resultiert wesentlich aus der naturwissenschaftlichen Sicht vom Eintreten von Ereignissen: das Kausalitätsprinzip lässt Nicht–Determiniertes“ ” nicht zu. Ein Ausweg ist, dass wir unterstellen, die Umstände (Anfangsbedingungen) des Greifens von naturwissenschaftlichen Gesetzen nicht vollständig kennen zu können. Beispiele für das Wirken von Zufall“: ” • Ergebnis beim Münzwurf • Eintreten von Augenzahlen beim Würfeln • Radioaktiver Zerfall • Gesund trifft auf krank in der U-Bahn • Männlicher oder weiblicher Nachwuchs Nun gehen wir daran, das Nichtwissenkönnen des Ausgangs eines Zufallsexperiments zu quantifizieren: Jedem Ereignis soll eine Zahl aus [0, 1] zugeordnet werden, die uns gestattet, die Unsicherheit über den Ausgang anzugeben: 1 sollte für Sicherheit, 0 für vollständige Unsicherheit stehen. Wir tun dies nun in einer einfachen Situation, nämlich in einer Situation, in der alle Elementarereignisse, was die Unsicherheit über ihr Eintreten betrifft, gleichberechtigt sind. Dazu führen wir die Begriffe Laplace–Experiment und Laplace–Wahrscheinlichkeit ein. 63 Der Begriff der Laplace–Wahrscheinlichkeit hat den Vorteil, dass ihm die Vorstellung eines konstruktiven Vorgehens zugrunde liegt, nämlich die Vorstellung von der rein zufälligen Wahl“. Wir ” stellen uns hierunter vor, dass es gelingt, aus einer endlichen Menge von möglichen Elementarereignissen ein Element so auszuwählen, dass jedes Element diesselbe Chance hat, ausgewählt zu werden. Einen Mechanismus, der eine solche Zufallswahl bewerkstelligt, nennen wir einen Laplace–Mechanismus. Ein beliebtes Bild von einem Laplace–Mechanismus ist das Urnenmodell (ein Gefäß, in dem Gegenstände versteckt“ werden, die man dann herausholen kann) ” eine weitere Vorstellung von einem Laplace–Mechanismus ist der Würfelwurf. Definition 5.1.1 Sei Ω eine endliche Menge. Für jede Teilmenge A von Ω ist die Laplace– Wahrscheinlichkeit definiert durch P (A) := #A . #Ω Man nennt P (A) die Wahrscheinlichkeit, dass ein (rein zufällig ausgewähltes) Element ω ∈ Ω in A liegt. Die Abbildung P : P OT (Ω) ∋ A 7−→ P (A) ∈ R heißt (auch) Laplace–Wahrscheinlichkeit. Das Tripel (Ω, P OT (Ω), P ) nennen wir (in Anlehnung an den allgemeinen Fall in der Wahrscheinlichkeitstheorie) einen (Laplace-)Wahrscheinlichkeitsraum. Bemerkung 5.1.2 Die Konzepte einer Wahrscheinlichkeitstheorie mit einem unendlichen Ereignisraum Ω wurden abschließend ausformuliert von Kolmogorov1 . Sie passen zu unserem Herangehen für einen endlichen Ereignisraum. Im folgenden lassen wir das Vorwort Laplace“ meist ” weg. Die Wahrscheinlichkeitstheorie für unendliche Ereignisräume ist ein ganzes Stück schwieriger.2 Ein prominentes Beispiel für die Wahrscheinlichkeitstheorie unendlicher Ereignisräume ist die Modellierung von Finanzinstrumenten, basierenden auf dem Aktienkurs. In unserer Bezeichnung eines Wahrscheinlichkeitsraumes durch (Ω, P OT (Ω), P ) ist nicht einzusehen, warum wir P OT (Ω) mitaufgeschrieben haben. Dies geschieht, um anzudeuten, dass im Fall eines unendlichen Ereignisraumes im Allgemeinen eine ausgezeichnete Teilmenge (σAlgebra) von P OT (Ω) einzutragen ist. Es ist nun offensichtlich, dass bei der Berechnung von Laplace–Wahrscheinlichkeiten das Einmaleins der Kombinatorik“ äußerst hilfreich ist; siehe Abschnitt 5.5. ” Beispiel 5.1.3 Den Münzwurf (mit einer fairen Münze) betrachten wir als Laplace–Mechanismus. Hier ist 1 Ω = {K, Z} ; P ({K}) = P ({Z}) = . 2 Beim Würfelexperiment (mit einem fairen Würfel), betrachtet als Laplace–Mechanismus, haben wir 1 Ω = {1, . . . , 6} ; P ({i}) = , 1 ≤ i ≤ 6. 6 1 A.N. Kolmogorov, 1903-1987 Man macht sich dies etwa klar an der Frage, wie man die zufällige Situation beim Dartspiel handhaben soll. Es kommt hier die geometrische Anschauung von Wahrscheinlichkeit ins Spiel, nämlich das Verhältnis der Fläche von Ringsektoren zur Fläche der Dartsscheibe. Mit der Einteilung von Sektoren ist man der Unendlichkeit von möglichen unterschiedlichen Treffpunkten aus dem Weg gegangen. 2 64 Für das zusammengesetzte“ Ereignis A := {1, 2, 3} errechnen wir P (A) = 21 . ” Beim Würfeln mit zwei (fairen) Würfeln, betrachtet als Laplace–Experiment, haben wir: Ω = {(i, j) ∈ N × N|1 ≤ i, j ≤ 6} ; P ((i, j)) = 1 , 1 ≤ i, j ≤ 6 . 36 Daraus errechnet sich: P (A) = P (A) = 6 1 = für A := {(i, j) ∈ Ω|i + j ≥ 10}, 36 6 5 15 = für A := {(i, j) ∈ Ω|i > j}. 36 12 Für das zusammengesetzte Ereignis A := {(i, j) ∈ N × N|i = 1 oder (i ≥ 4 und j = 1) oder (i ≥ 4 und j ≥ 4)} ist die Laplace–Wahrscheinlichkeit schon etwas mühsam auszurechnen. Sie ist 13 36 . Bemerkung 5.1.4 Beachte, dass ein Laplace–Experiment ein Modell für eine konkrete reale Situation ist. Unsere Definition der Laplace–Wahrscheinlichkeit ist innerhalb dieses Modells gegeben und nicht für die reale Situation. Der Übergang von der Wirklichkeit zum Modell ist in den hier exemplarisch betrachteten Fällen meist naheliegend, in allgemeineren Situationen ( Wie ” wahrscheinlich ist ein Supergau in einem russischen Kernkraftwerk“/ Wie wahrscheinlich ist es, ” dass auf einem Stern der Milchstraße Leben existiert“) ist dieser sicher sehr viel schwieriger zu vollziehen. In der Bemerkung 5.1.4 haben wir den Begriff Modell erwähnt. Nehmen wir hier die Gelegenheit wahr, den Begriff schon mal zu beleuchten. . . . Deshalb vertrete ich die Auffassung, die man als schlicht oder naiv bezeichnet hat, dass eine physikalische Theorie nur ein mathematisches Modell ist, mit dessen Hilfe wir die Ergebnisse unserer Beobachtungen beschreiben. Eine Theorie ist eine gute Theorie, wenn sie ein elegantes Modell ist, wenn sie eine umfassende Klasse von Beobachtungen beschreibt und wenn sie die Ergebnisse weiterer Beobachtungen vorhersagt. Darüber hinaus hat es keinen Sinn zu fragen, ob sie mit der Wirklichkeit übereinstimmt, weil wir nicht wissen, welche Wirklichkeit gemeint ist. . . . Es hat keinen Zweck, sich auf die Wirklichkeit zu berufen, weil wir kein modellunabhängiges Konzept der Wirklichkeit besitzen.3 Legen wir uns nun einige einfache Aussagen zurecht. Folgerung 5.1.5 Sei Ω eine endliche Menge. Wir haben zur Laplace–Wahrscheinlichkeit P : P OT (Ω) ∋ A 7−→ #A ∈R #Ω die folgenden Aussagen: (a) P (A) ∈ [0, 1] ∩ Q für alle A ⊂ Ω. (b) P ({x}) = 1 für alle x ∈ Ω. #Ω (c) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) für alle A, B ∈ P OT (Ω). 3 Aus: St. W. Hawkin, Einsteins Traum, Rowohlt, 1993 65 (d) P (Ω\A) = 1 − P (A) für alle A ⊂ Ω. (e) P (∅) = 0. Beweis: (a) und (b) sind trivial. Die Aussage (c) ist einfach einzusehen. Damit sind nun auch (d) und (e) klar. In einer Urne liegen drei schwarze Kugeln und eine weiße Kugel. Auf gut Glück werden zwei Kugeln der Urne entnommen. Welche Wahrscheinlichkeit ist größer, zwei schwarze Kugeln oder eine weiße und eine schwarze Kugel herauszunehmen? Man ist auf Grund der Tatsache, dass dreimal soviele schwarze wie weiße Kugeln in der Urne liegen zu vermuten, dass die erste Möglichkeit wahrscheinlicher ist. Dem ist aber nicht so, denn es gibt drei Möglichkeiten, zwei schwarze Kugeln herauszunehmen und drei Möglichkeiten eine schwarze und eine weiße Kugel herauszunehmen. Es lässt sich das auch rechnerisch begründen: Wahrscheinlichkeit für das Ziehen zweier schwarzer Kugeln Wahrscheinlichkeit für das Ziehen einer weißen und einer schwarzer Kugel 3 4 1 4 2 1 = 3 2 3 1 1 ·1+ · = . 4 3 2 · Betrachten wir ein Würfelexperiment und nennen wir es das Augensummenparadoxon. G.W. Leibniz soll sich bei der Analyse dieses Experimentes einen kleinen Schnitzer erlaubt haben: Es sei ihm unbegreiflich, wie ihm erfahrene Würfelspieler versicherten, warum bei zwei ” Würfeln die Augensumme 9 wahrscheinlicher sei als die Augensumme 10, aber bei drei Würfeln die Augensumme 10 wahrscheinlicher als die Augensumme 9. Denn schließlich könne die Summe 9 wie die Summe 10 in beiden Fällen auf gleich viele Arten anfallen, also müßten die Augensummen in beiden Fällen gleich wahrscheinlich sein.“. Wir betrachten dieses Würfeln mit zwei Würfeln als Laplace–Experiment. Wir unterstellen damit, dass die Würfel unterscheidbar sind und es einen ersten und einen zweiten Würfel gibt. Wir haben Ω = {(i, j) ∈ N × N|1 ≤ i, j ≤ 6}, und interessieren uns also für die Laplace–Wahrscheinlichkeiten der Ereignisse A9 := {(i, j) ∈ Ω|i + j = 9} , A10 := {(i, j) ∈ Ω|i + j = 10} . Wir haben dazu A9 , A10 abzuzählen. Es gilt A9 = {(3, 6), (6, 3), (4, 5), (5, 4)} , A10 = {(4, 6), (6, 4), (5, 5)} . und daher 1 3 1 4 = , P (A10 ) = = 36 9 36 12 Bei drei Würfeln zeigt eine einfache Aufzählung (bei entsprechender Bezeichnung) P (A9 ) = 24 19 , P (A10 ) = . 216 216 Leibniz hat übersehen, dass die Reihenfolge der Summanden hier wichtig ist. Modelliert man das Experiment mit zwei ununterscheidbaren Würfeln, dann hat man statt 36 Möglichkeiten nur noch 21 mögliche Ausgänge, aber kein Laplace–Experiment mehr, da etwa die Ausgänge 1–1 und 1–2 verschiedene Wahrscheinlichkeiten haben. P (A9 ) = Der Fehler, der hier Leibniz unterlaufen ist, ist Basis für einen Jahrmarkttrick, der nach J. Bertrand Bertrandsches Schachtelparadoxon genannt wird: 66 Drei nicht unterscheidbare Schachteln enthalten zwei Goldmünzen (1. Schachtel), zwei Silbermünzen (2. Schachtel) und eine je eine Gold- und eine Silbermünze (3. Schachtel). Jetzt entnimmt man einer Schachtel eine Münze. Der Veranstalter des Spiels bietet nun eine Wette an: Die zweite Münze in der Schachtel ist aus demselben Metall! Man ist versucht, zu vermuten, dass die Wette fair ist, da man geneigt ist, zu vermuten, dass die Beschaffenheit der zweiten Münze gleichwahrscheinlich ist. Dies ist nicht der Fall. Analysieren wir die Situation, dass G(old) gezogen wurde. Wir vermuten richtig, dass nicht aus der Schachtel mit den zwei Silbermünzen gezogen wurde und schließen daraus irrig, dass mit Wahrscheinlichkeit 1 2 beide Münzen in der Schachtel, aus der gezogen wurde, aus Gold sind. In Wahrheit sind mit einer Wahrscheinlichkeit von 32 beide Münzen aus Gold, weil in zwei von 3 Fällen die beiden Münzen in der Schachtel aus Gold sind. Betrachten wir nun das Geburtstags–Pardoxon. Für eine Gruppe von n Personen ist die Wahrscheinlichkeit“ zu ermitteln, dass mindestens ein Paar unter diesen Personen existiert, das ” am gleichen Jahrestag Geburtstag hat. Wir nehmen an: • Das Jahr wird mit 365 Tagen angesetzt, wir sehen also vom Auftreten von Schaltjahren ab. • Geburtstage sind über die Jahrestage gleichverteilt. Damit liegt ein Laplace–Experiment vor und jede Person hat mit einem bestimmten Jahrestag Geburtstag. Wir setzen 1 365 Wahrscheinlichkeit an Ω := {(ω1 , . . . , ωn ) ∈ Nn |1 ≤ ωi ≤ 365, 1 ≤ i ≤ n}. Das zu betrachtende Ereignis ist A := {(ω1 , . . . , ωn ) ∈ Ω|ωi = ωj für mindestens ein Paar (i, j), i 6= j} und die gesuchte Wahrscheinlichkeit ist Pn∗ := #A 365n Betrachten wir zunächst einige Spezialfälle. n ≥ 365 n=2 Pn∗ = 1 . Die erste Person hat freie Auswahl, für die zweite Person ist die Wahrscheinlichkeit, am gleichen Tag wie die erste Person Geburtstag zu ha1 . Also ben, 365 1 Pn∗ = 365 n=3 Die erste Person hat freie Auswahl, die zweite Person hat einen ver364 , die dritte Person schiedenen Geburtstag mit Wahrscheinlichkeit 365 wiederum einen von den beiden Tagen verschiedenen Geburtstag mit Wahrscheinlichkeit 363 365 . Also gilt Pn∗ = 1 − 365 364 363 · · ≈ 0, 009 365 365 365 Am Beispiel n = 3 sehen wir zweierlei. Erstens wird das günstige Vorgehen deutlich: Statt Pn∗ haben wir zunächst die Wahrscheinlichkeit ausgerechnet, dass das Ereignis nicht eintritt. 67 Zweitens sehen wir einen multiplikativen Ansatz für zusammengesetzte Ereignisse. Wir kommen darauf zurück. Für den allgemeinen Fall erhalten wir Pn∗ = 1 − 365! (365 − n)!365n und damit die Ergebnisse aus Tabelle 5.1. Wir sehen also, dass bei einer Gruppengrößen von 23 Personen die Wahrscheinlichkeit, dass darunter ein Paar mit gleichem Geburtstag ist, bereits größer als 12 ist. Die Annahme über das Schaltjahr beeinflußt die obigen Ergebnisse nur unwesentlich, etwa bleibt es bei der Aussage bezüglich der Gruppengröße n = 23. Die Annahme über die Gleichverteilung der Geburtstage ist auch kein Einwand zur Qualität der obigen Ergebnisse, denn die Wahrscheinlichkeiten werden eher größer; man mache sich dies etwa daran klar, dass alle Personen an einem bestimmten Tag Geburtstag haben. Die Überraschung ist: ein Ereignis, dessen Eintreten für uns als Individuum höchst unwahrscheinlich ist, ist für ein 20 22 23 30 40 50 ne Gruppe bei weitem nicht mehr un∗ Pn 0,411 0,476 0,507 0,706 0,891 0,970 wahrscheinlich. Der Grund ist der, dass wir nicht auf einen bestimmten Ge” Abbildung 5.1: Zum Geburtstagsproblem burtstagszwilling“ warten, sondern auf irgendeinen. Nun wollen wir uns von der Einschränkung lösen, dass jedes Elementarereignis die gleiche Wahrscheinlichkeit für sein Eintreten besitzt. Definition 5.1.6 Sei Ω eine endliche Menge. Eine Abbildung P : POT(Ω) ∋ A 7−→ P (A) ∈ [0, 1] heißt Wahrscheinlichkeitsmaß auf Ω, falls gilt: (a) P (Ω) = 1 , P (∅) = 0 (b) P (A ∪ B) = P (A) + P (B) falls A ∩ B = ∅ . Ist P ein Wahrscheinlichkeitsmaß auf Ω, dann heißt (Ω, POT(Ω), P ) ein Wahrscheinlichkeitsraum. Es ist offensichtlich, dass Laplace-Wahrscheinlichkeiten einen Wahrscheinlichkeitsraum implizieren. 5.2 Zufallsbäume Häufig ist es zweckmäßig, mehrere Zufallsversuche zu einem einzigen, einem mehrstufigen Zufallsversuch, zusammenzufassen Als Ausgang eines Experiments betrachtet man bei einem n-stufigen Zufallsversuch dann das n-Tupel (x1 , . . . , xn ), wobei xi der Ausgang des i-ten Versuchs ist. Veranschaulichen kann man sich einen solchen Zufallsversuch durch einen Wurzelbaum. Wurzelbäume – und damit auch Zufallsbäume – sind Spezialfälle von Graphen, nämlich solchen, die in den Verzweigungen einem realen Baum ähneln: ein realer Baum hat eine Wurzel, er verzweigt von unten nach oben in Äste und Zweige, endet in Blättern, Äste und Zweige verwachsen aber nicht miteinander. Man sagt, auf Graphen übertragen, es entsteht kein Kreis, wie dies etwa beim 68 Haus vom Nikolaus zutrifft, das 5 Ecken (◦) und 8 Kanten (—) besitzt;4 siehe Abbildung 5.2. Damit sind schon die Grundbausteine der Graphentheorie angesprochen, die wir nun skizzieren wollen.5 Definition 5.2.1 Ein Graph G = G(E, K) besteht aus einem Paar (E, K), wobei E eine endliche, nichtleere Menge von Ecken und K eine endliche Menge von Kanten ist, und einer Vorschrift, die jeder Kante k ∈ K genau zwei (verschiedene oder gleiche) Ecken a, b ∈ E zuordnet, die wir Endecken von k nennen; ist a = b, so nennen wir k eine Schlinge bei a. Im englischen Sprachgebrauch spricht man bei Kanten von vertices oder nodes und bei Kanten von edges. Daher ist in der Literatur auch G = G(V, E) zu finden. Ist G = G(E, K) ein Graph, so sagen wir, dass k ∈ K die Ecken a und b verbindet, wenn a, b Endecken von k sind; oft schreiben wir dafür k = {a, b} oder kurz k = ab . Ecken, die durch eine Kante verbunden sind, nennen wir benachbart. Eine Ecke, die zu keiner Kante Endecke ist, nennen wir isoliert. Sind zwei Ecken durch Kanten k1 , k2 , . . . , kn , n ≥ 2, verbunden, so heißen die Kanten k1 , . . . , kn Mehrfachkanten. Im Allgemeinen werden nur einfache Graphen betrachtet, also solche, die weder Schlingen, also Kanten , die eine Ecke mit sich selbst verbinden, noch Mehrfachkanten besitzten. Einen Graph veranschaulicht man sich am besten Abbildung 5.2: Das Haus vom Nikolaus durch ein Diagramm, indem man die Ecken als Punkte der (Zeichen–)Ebene und die Kanten als Kurven zwischen den Endpunkten zeichnet; hier wird die zweistellige Relation, die abstraktes Kernstück eines Graphen ist, deutlich. Dadurch ist auch die Bezeichnung Graph“ erklärt: das Ecken– ” Kanten–System erinnert an graphische Darstellungen Definition 5.2.2 Sei G(E, K) ein Graph. Eine Ecke e hat Grad d = d(e), wenn die Anzahl der Kanten, die e als Endecke haben, d ist. Eine Ecke e mit d(e) = 1 heißt Blatt. Lemma 5.2.3 (Handschlaglemma) Sei G = G(E, K) ein Graph. Dann gilt: X 2 #K = d(v) . v∈E Beweis: Wir zählen die Paare (v, k), v ∈ E, k ∈ K, ab, für die v Endecke von k ist. Da jede Kante genau 2 Endecken hat, ist die Anzahl einerseits 2k, andererseits trägt jede Ecke v ∈ E mit d(v) zu dieser Anzahl bei. In einem Graphen kann man Wege entlang von Kanten, ausgehend von einer Anfangsecke zu einer Endecke betrachten. Definition 5.2.4 Sei G(E, K) ein Graph. 4 Es kann im Rythmus von Dies ist das Haus vom Ni–ko–laus in einem Zug auf das Papier gezaubert werden, ohne zweimal eine Kante nachziehen zu müssen. 5 Als Geburtsstunde der Graphentheorie kann die Lösung des Königsberger Brückenproblems durch L. Euler angesehen werden. 69 (a) Sind v0 , v1 , . . . , vl ∈ E, so dass vi mit vi+1 für jedes i = 0, . . . , l − 1 verbunden ist, so nennen wir W := [v0 , . . . , vl ] einen Kantenzug von v0 nach vl . (b) Ein Kantenzug W = [v0 , . . . , vl ] heißt Weg der Länge l, falls alle zugehörigen Kanten vi vi+1 paarweise verschieden sind. (c) Ein Weg W = [v0 , . . . , vl ] heißt Kreis, falls v0 = vl gilt. Definition 5.2.5 Ein Graph G(E, K) heißt zusammenhängend, wenn je zwei Ecken durch einen Kantenzug verbindbar sind. Definition 5.2.6 Ein Graph heißt Baum, wenn er zusammenhängend ist und keine Kreise enthält. In der Informatik werden Bäume häufig als Datenstruktur eingesetzt, in der Modellierung von Alltagsproblemen findet man sie als Entscheidungshilfen. Bäume lassen sich ziemlich einfach charakterisieren. Satz 5.2.7 Sei G ein Graph mit n Ecken. Es sind äquivalent: (a) G ist ein Baum. (b) Je zwei Ecken des Graphen sind durch genau einen Weg verbunden. (c) G ist zusammenhängend, aber für jede Kante k von G ist der Graph G′ := G(E, K\{k}) nicht zusammenhängend. (d) G ist zusammenhängend und besitzt genau n − 1 Kanten. (e) G besitzt keinen Kreis und besitzt genau n − 1 Kanten. Beweis: Wir beweisen nicht alle Implikationen. a) =⇒ b). Da ein Baum zusammenhängend ist, gibt es stets einen Weg, der zwei beliebige Ecken verbindet. Annahme, es gibt mindestens zwei Wege, die ein gegebenes Paar e, e′ von Ecken verbindet. Wenn beide Wege keine Kante gemeinsam haben, bilden sie einen Kreis: wir laufen den einen Weg von e nach e′ und laufen nun den zweiten Weg von e′ nach e . Enthalten die beiden Wege eine gemeinsame Kante, dann finden wir wieder einen Kreis, denn die beiden Wege treffen sich nun in einer Ecke e′′ , die beide Wege gemeinsam haben. In jedem Falle haben wir, dass der Graph einen Kreis enthält. Widerspruch! b) =⇒ c). Es ist klar, dass G zusammenhängend ist. Sei k = uv eine Kante mit Endecken u, v . Dann ist [u, v] der einzige Weg, der u, v verbindet; in G′ := G(E, K\{k}) können also u, v nicht durch einen Weg verbunden sein. Also kann G′ nicht zusammenhängend sein. c) =⇒ d). Auf Graphen kennen wir die Äquivalenzklassen der Zusammenhangskomponenten; siehe oben. Der zusammenhängende Graph G hat eine Zusammenhangskomponente. Nimmt man eine Kante {k} weg, entsteht ein Graph G′ := G(E, K\{k}), der zwei Zusammenhangskomponenten hat. Nach Wegnahme aller Kanten hat der entstandene Graph keine Kante mehr und daher n Zusammenhangskomponenten. Also muss es n − 1 Kanten im Graphen geben. 70 Ein Wurzelbaum B = B(E, K, w) ist ein Baum im üblichen Sinn zusammen mit einer ausgezeichneten Ecke w ∈ E , der Wurzel von B . Da wir wissen, dass I in einem Baum genau ein Weg W = W (u, v) von einer Ecke u ∈ E nach v ∈ E existiert, können wir die II folgende Sprechweise einführen: x ∈ E ist Vorgänger von v ∈ E bzw. Nachfolger von u ∈ E, falls x Ecke III im Weg W (u, v) ist. Die Ecken ohne Nachfolger, also die Ecken vom Grad 1, heißen Endecken des Baumes oder Blätter, die übrigen Ecken innere Ecken. Abbildung 5.3: Würfelexperiment x ∈ E ist unmittelbarer Vorgänger von v ∈ E, falls x Vorgänger von v und Nachbarecke von v ist; analog ist unmittelbarer Nachfolger von u ∈ E erklärt. Die Länge l(y) einer Ecke y im Wurzelbaum B ist die Länge des (eindeutig bestimmten) Weges W (w, y) von der Wurzel w zu y . Damit ist auch die Länge L = L(B) eines Wurzelbaums B erklärt: L(B) := max l(y) . y∈E Die Wurzel ist also die einzige Ecke, die keinen Vorgänger hat und die die Länge Null hat. Binäre Bäume sind Wurzelbäume, in denen jede Ecke höchstens zwei unmittelbare Nachfolger hat; man kann dann von linken und rechten Nachbarn sprechen. Kehren wir zur Modellierung“ von Zufallssi1. Zug Ereignis Wahrscheinlichkeit ” tuationen mittels Wurzelbäumen zurück. 1 rot 4 Jeder Versuch wird mit einer Ecke gleichge2. Zug Ereignis Wahrscheinlichkeit setzt und so aufgezeichnet. Eine Kante von ei2 ner Ecke zu einer anderen wird als Fortschreirot 5 3 ten von einem Versuch zum nächsten notiert. schwarz 5 Jedem Ausgang (x1 , . . . , xn ) eines mehrstufigen 1. Zug Ereignis Wahrscheinlichkeit Versuchs entspricht dann ein Weg der Länge n 3 in einem zugehörigen Baum – wir sprechen von schwarz 4 einem Zufallsbaum – ausgehend von einer Wur2. Zug Ereignis Wahrscheinlichkeit zel, an der die Wege angehängt“ sind; Jede Kan1 ” rot te trägt dann auch noch ein Kantengewicht“, 5 4 ” schwarz nämlich die Wahrscheinlichkeit, mit der von ei5 ner Stufe zur nächsten entlang dieser Kante fortgeschritten wird. Im Beispiel 5.3 sollten wir jeAbbildung 5.4: Urnenexperiment de Kante mit der Wahrscheinlichkeit 12 versehen, wenn die Münze als fair angesehen werden soll, jeder Ausgang des Experiments hat also die Wahrscheinlichkeit 18 und da wir 8 Blätter haben, summieren sie sich zu 1 auf. Die nebenstehende Abbildung 5.3 beschreibt das dreimalige Werfen einer Münze. . Machen wir ein nicht auf Anhieb zu durchschauendes Urnenexperiment. Eine Urne enthalte eine rote und drei schwarze Kugeln. Es werden zufällig eine Kugel gezogen, ihre Farbe notiert und anschließend diese sowie eine weitere Kugel der gleichen Farbe in die Urne zurückgelegt. Nach gutem Mischen“ wird wiederum ” eine Kugel gezogen. Mit welcher Wahrscheinlichkeit ist diese Kugel rot? Symbolisieren wir das Ziehen einer roten (schwarzen) Kugel mit 1“ (bzw. 0“), so ist Ω := ” ” Ω1 × Ω2 mit Ω1 := Ω2 := {0, 1} ein geeigneter Grundraum für dieses zweistufiges Experiment, 71 wobei sich das interessierende Ereignis die beim zweiten Mal gezogene Kugel ist “ formal als ” B := {(1, 1), (0, 1)} darstellt. Die Wahrscheinlichkeit p eines Ereignisses (a1 , a2 ) ∈ Ω können wir uns aus dem Konzept der Laplace-Wahrscheinlichkeit entnehmen. Wir können also auf Grund der Tabelle 5.4 erwarten: p((1, 1)) = p((0, 1)) = p((1, 0)) = p((0, 0)) = 1 4 3 4 1 4 3 4 2 , 5 1 · , 5 3 · , 5 4 · . 5 · (5.1) (5.2) (5.3) (5.4) Offenbar ist der Faktor 41 in (5.1) die Wahrscheinlichkeit dafür, dass das erste Teilexperiment den Ausgang rot“ besitzt. Der zweite Faktor 25 in (5.1) ist die Wahrscheinlichkeit, welche wir ” auf Grund der Kenntnis des Ausgangs des ersten Teilexperiments festlegen konnten. Da diese Wahrscheinlichkeit etwas mit dem Übergang vom ersten zum zweiten Teilexperiment“ zu tun ” hat, nennt man sie eine Übergangswahrscheinlichkeit; analog sind die anderen Fälle zu betrachten. Im nächsten Abschnitt werden wir uns etwas systematischer damit befassen; das Stichwort ist Bedingte Wahrscheinlichkeit“. ” Das beigefügte Baumdiagramm 5.5 veranschaulicht die Situation. Die Wahrscheinlichkeit p∗ für das Eintreten des gewünschten Ereignisses B ist: p∗ := p((1, 1)) + p((0, 1)) = 1 2 3 1 1 · + · = . 4 5 4 5 4 1/4 2/5 3/5 3/4 1/5 4/5 Dieses Ergebnis ist auf folgendem Wege auch ein2/20 3/20 3/20 12/20 zusehen: Nach dem ersten Zug sind in der Urne 1 rote und 4 schwarze Kugeln ( normale Kugeln“) und eiAbbildung 5.5: Urnenexperiment ” ne Zauberkugel“, von der wir – in Unkenntnis ” der ersten Ziehung – nicht wissen, ob sie rot oder schwarz ist; sie ist rot mit Wahrscheinlichkeit 41 . Wenn wir nun den zweiten Zug ausführen, ziehen wir mit Wahrscheinlichkeit 41 eine rote Kugel, wenn wir nur unter den normalen Kugeln ziehen, mit 41 eine rote Zauberkugel; also in jedem Falle mit Wahrscheinlichkeit 14 eine rote Kugel. 5.3 Bedingte Wahrscheinlichkeiten Häufig steht, bevor der Ausgang eines Zufalls–Experiments bekannt ist, schon die Information zur Verfügung, dass der Ausgang zu einer bestimmten (möglicherweise eingeforderten) Teilmenge des Ereignisraumes gehört. Was lässt sich dann über Wahrscheinlichkeiten sagen? Diese Fragestellung wollen wir nun untersuchen. Zur Motivation des Folgenden greifen wir auf den Begriff der relativen Häufigkeiten zurück. Sei V ein Zufallsexperiment mit zugehörigem Wahrscheinlichkeitsraum (Ω, POT(Ω), P ). Seien A, B Ereignisse in (Ω, POT(Ω), P ) . Der Versuch V werde nun n–mal (unabhängig) wiederholt, 72 d.h.: in jedem Versuch werden stets die gleichen physikalischen Voraussetzungen“ für den Ver” suchsablauf geschaffen/bereitgestellt. Die relativen Häufigkeiten von A unter der Bedingung B sind dann definiert durch hn (A|B) := n#{ Es tritt A ∩ B ein } hn (A ∩ B) #{ Es tritt A ∩ B ein } = = , n ∈ N. #{ Es tritt B ein } n#{ Es tritt B ein } hn (B) Dabei haben wir hn (B) > 0, n ∈ N, unterstellt. Analog zu dieser Formel kommen wir nun zu einer entsprechenden Begriffsbildung im Wahrscheinlichkeitsraum (Ω, POT(Ω), P ) . Definition 5.3.1 Sei (Ω, POT(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Seien A, B ⊂ Ω mit P (B) > 0. Dann heißt P (A ∩ B) P (A|B) := P (B) die bedingte Wahrscheinlichkeit des Ereignisses A unter der Bedingung B. Folgerung 5.3.2 Sei (Ω, POT(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Sei B ⊂ Ω mit P (B) > 0. Dann ist (Ω, P OT (Ω), PB ) mit PB (A) := P (A|B) , A ⊂ Ω, ein Wahrscheinlichkeitsraum. Beweis: Verifiziert man unmittelbar. Satz 5.3.3 (Satz von der totalen Wahrscheinlichkeit) Sei (Ω, POT(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Seien B1 , . . . , Bk ⊂ Ω mit Ω = B1 ∪ · · · ∪ Bk , Bi ∩ Bj = ∅, 1 ≤ i, j ≤ k, i 6= j , P (Bi ) > 0 , 1 ≤ i ≤ k . Dann ist P (A) = k X i=1 P (A|Bi )P (Bi ) , A ⊂ Ω . (5.5) Beweis: Ergibt sich aus der Additivität von P und der Tatsache, dass A disjunkte Vereinigung von A ∩ B1 , . . . , A ∩ Bk ist. Daraus leitet sich der Satz von Bayes ab6 . Satz 5.3.4 (Satz von Bayes) Sei (Ω, POT(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Seien B1 , . . . , Bk ⊂ Ω mit Ω = B1 ∪ · · · ∪ Bk , Bi ∩ Bj = ∅, 1 ≤ i, j ≤ k, i 6= j , P (Bi ) > 0 , 1 ≤ i ≤ k . Ist P (A) > 0, so gilt für j = 1, . . . , k : k X P (A|Bi )P (Bi ))−1 P (Bj |A) = P (Bj )P (A|Bj )( i=1 6 Bayes,Thomas (1701 — 1761) 73 (5.6) Beweis: Folgt aus Satz 5.3.3 zusammen mit P (Bj ∩ A) = P (Bj )P (A|Bj ), 1 ≤ j ≤ k . In beiden Fällen ist man mit der Forderung nicht verschwindender Wahrscheinlichkeiten (P (Bi ) > 0, 1 ≤ i ≤ n) konfrontiert. In der Formel in (a) kann man dies aber überspielen, da das Nennerproblem nun in der Definition bedingter Wahrscheinlichkeit angelegt ist. Beispiel 5.3.5 Bedingte Wahrscheinlichkeiten sind hilfreich, um die Güte von Vorsorgeuntersuchungen für Krankheiten zu bewerten. Sei t eine Testperson. Es bezeichne Epo := t wird positiv getestet , Ekr := t ist krank , Ege := t ist gesund . Es seien p := P (Ekr ) , p′ := P (Epo |Ekr ) , p′′ := P (Epo |Ege ) bekannt. Für die Testperson ist p∗ := P (Ekr |Epo ) interessant. Dazu gehört der in Abbildung 5.6 dargestellte Wurzelbaum. Hierbei ist q := 1 − p, q ′ := 1 − p′ , q ′′ := 1 − p′′ . Ausgehend von der Wurzel gehen wir mit Wahrscheinlichkeit p nach links unten und mit der Gegenwahrscheinlichkeit q nach rechts unten. Im zweiten Schritt gehen wir mit Wahrscheinlichkeit p′ bzw. p′′ wieder nach links unten und mit der Gegenwahrscheinlichkeit q ′ bzw. q ′′ nach rechts unten. Die Wahrscheinlichkeiten, in den vier Blättern zu landen, ergeben sich durch Multiplikation der Kantengewichte als pp′ , pq ′ , qp′′ , qq ′′ . Daraus errechnet sich die Wahrscheinlichkeit p∗ := P (Ekr |Epo ) gemäß p∗ = pp′ + qp′′ = pp′ + (1 − p)p′′ . Aus der bedingten Wahrscheinlichkeit leitet sich der Begriff der Unabhängigkeit ab, der für die Bewertung von Beobachtungen von Zufallsexperimenten von überragender Bedeutung ist. Wir lassen uns dabei davon leiten, dass in einem Wahrscheinlichkeitsraum (Ω, POT(Ω), P ) zwei Ereignisse A, B (nach Wahrscheinlichkeit) als unabhängig voneinander zu betrachten sind, wenn P (A) mit der bedingten Wahrscheinlichkeit P (A|B) übereinstimmt. Dass P (A|B) nur für P (B) > 0 erklärt ist, hat dabei keinen Einfluss mehr. p p’ q’ q p’’ q’’ Abbildung 5.6: Reihenuntersuchung Definition 5.3.6 Sei (Ω, POT(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ⊂ Ω heißen unabhängig, wenn P (A ∩ B) = P (A)P (B) gilt, anderenfalls abhängig. Zahlreiche Fehlvorstellungen zur Wahrscheinlichkeitsrechnung beruhen auf der Nichtberücksichtigung der Abhängigkeit bzw. Unabhängigkeit von Ereignissen. Machen wir uns die Fehlerquellen z.B. beim Skatspiel“ klar. ” 74 In einem Skatblatt gibt es 4 Farben mit den Werten Ass, König, Dame, Bube, zehn, neun, acht sieben, von denen jeder der drei Spieler 10 Karten nach gutem Mischen in den Tranchen drei, vier, drei erhält; zwei Karten kommen in den Skat. Ein Skatspieler berechnet die Wahrscheinlichkeit, in seinem Blatt von 10 Karten 4 Asse zu haben als 28 10 · 9 · 8 · 7 6 32 = 32 · 31 · 30 · 29 ≈ 0.00584 . 10 Die Wahrscheinlichkeit, alle 4 Buben zu bekommen, ist ebenso groß. Daraus schließt er, dass die Wahrscheinlichkeit, alle 4 Asse und alle 4 Buben zu bekommen etwa 0.005842 ≈ 0.000034 beträgt. Die Überlegung ist natürlich falsch, da sie die Abhängigkeit der Ereignisse A : 4 Asse , B : 4 Buben nicht berücksichtigt. Die Wahrscheinlichkeit, alle 4 Buben zu bekommen, wenn man schon 4 Asse hat, ist kleiner als die Wahrscheinlichkeit, ohne die Bedingung alle 4 Buben zu bekommen: 24 P (A ∩ B) = P (B|A) · P (A) = 2 32 10 = 0.0000042 . Unabhängigkeit ist ein in A, B symmetrischer Begriff. Sind A, B ⊂ Ω unabhängig, dann sind es auch A, Ω\B und Ω\A, B und Ω\A, Ω\B. Die Verallgemeinerung der Unabhängigkeit auf mehr als zwei Ereignisse liegt auf der Hand. Definition 5.3.7 Sei (Ω, POT(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Seien A1 , . . . , Ak Ereignisse. Diese Ereignisse heißen unabhängig, wenn für jede Wahl 1 ≤ i1 < · · · < il ≤ k gilt: P (Ai1 ∩ · · · ∩ Ail ) = P (Ail ) · · · P (Ail ). 5.4 Das Ziegenproblem Betrachten wir nun das sogenannte Ziegenproblem.7 In einer Spielshow wird ein Kandidat vom Moderator vor drei geschlossene Türen geführt. Hinter diesen Türen sind ein Auto (Preis) und jeweils eine Ziege (Niete) versteckt. Der Kandidat darf nun eine Tür bestimmen, die geöffnet werden soll. Um die Spannung zu erhöhen, öffnet der Moderator aber vor der Öffnung dieser Tür — zufällig, aber mit der Vorgabe, dass dahinter kein Auto ist — eine andere Tür; hinter dieser Tür ist eine Ziege. Nun erlaubt der Moderator dem Kandidaten seine ursprügliche Wahl zu überdenken und gegebenenfalls seine Entscheidung zu ändern. Wie soll er sich entscheiden? Gibt es aus stochastischer Sicht berechtigte Gründe, die Tür zu wechseln? Ja, er soll wechseln! Dies wollen wir mit bedingten Wahrscheinlichkeiten erklären. Bevor wir dies tun, spielen wir die Situation mit 100 Türen, einem Auto und 99 Ziegen durch; sie vermeidet die 1 : 1 : 1 Situation 7 G.v. Randow: Das Ziegenproblem, Reinbek, 1992, und I. Stewart: Mathematische Unterhaltungen, Spektrum 11/91, 12 – 16 . Dieses Problem hat beträchtlichen Wirbel verursacht, da selbst gestandene“ Mathematiker ” falsche Schlüsse zogen. Das Problem ist auch als Monty-Hall-Dilemma“ bekannt (nach dem Moderator der US” amerikanischen Spielshow Let’s make a deal. 75 1 haben wir die Tür mit dem Auto gewählt und mit bei drei Türen. Mit Wahrscheinlichkeit 100 99 Wahrscheinlichkeit 100 ist das Auto hinter den verbleibenden Türen. Jetzt öffnet der Moderator 98 der verbleibenden Türen, hinter jeder eine Ziege. Natürlich würde jeder wechseln, denn mit 99 Wahrscheinlichkeit 100 ist das Auto hinter der noch verschlossenen Tür. Bevor wir ein mathematisches Modell betrachten, noch eine andere Argumentation, die den Wechsel stützen kann. Der Standhafte gewinnt das Auto genau dann, wenn sich dieses hinter der ursprünglich gewählten Tür befindet; die Wahrscheinlichkeit dafür ist 13 . Ein Wechselnder gewinnt das Auto genau dann, wenn er zuerst auf eine der beiden Ziegentüren zeigt, die Wahrscheinlichkeit dafür ist 32 , denn nach dem Öffnen der anderen Ziegentür durch den Moderator führt die Wechselstrategie in diesem Fall automatisch zur Autotür. Hier geben wir nun eine Erklärung für den Ratschlag Wechseln“ unter Nutzung elementarer ” Wahrscheinlichkeiten. Wir nehmen an, dass das Auto hinter Tür 1 steht. Wir können dies tun ohne Beschränkung der Allgemeinheit: es ist ja nur ein Nummerierungsproblem. Der Kandidat hat drei Möglichkeiten der Wahl, die er zufällig trifft, denn er hat ja keine zusätzliche Information. Der Moderator trifft seine Wahl der Tür ebenfalls zufällig, sofern ihm auf Grund seiner Informationslage eine Wahl bleibt. Dies führt zu folgender Tabelle für die Wahrscheinlichkeit der 4 möglichen Ereignisse vor der Wechselmöglichkeit: Wahl/Kandidat Tür 1 Tür 1 Tür 2 Tür 3 Wahl/Moderator Tür 2 Tür 3 Tür 3 Tür 2 p (Wahrscheinlichkeit) 1 1 1 6 = 3 · 2 1 1 1 6 = 3 · 2 1 1 3 = 3 ·1 1 1 3 = 3 ·1 Die folgende Tabelle listet nun die Gewinn/Verlust–Wahrscheinlichkeiten auf: Wahl/Kandidat Tür 1 Ohne Wechsel Wahl/Moderator Wahl/Kandidat Tür 2 Tür 1 Gewinn JA Tür 1 Tür 3 Tür 1 JA Tür 2 Tür 3 Tür 2 NEIN Tür 3 Tür 2 Tür 3 NEIN Wahl/Kandidat Tür 1 Mit Wechsel Wahl/Moderator Wahl/Kandidat Tür 2 Tür 3 Gewinn NEIN Tür 1 Tür 3 Tür 2 NEIN Tür 2 Tür 3 Tür 1 JA Tür 3 Tür 2 Tür 1 JA p 1 6 1 6 1 3 1 3 p 1 6 1 6 1 3 1 3 Es ist nun klar, dass der Wechsel zu einer Gewinnwahrscheinlichkeit von 2/3 führt, während kein Wechsel nur eine Gewinnwahrscheinlichkeit von 1/3 realisiert. Nun zu einer Darstellung des Dreitüren–Problems, die mit bedingten Wahrscheinlichkeiten arbeitet. O.E. öffne der Kandidat die erste Tür. Sei Ω := {(azz, 2), (azz, 3), (zaz, 3), (zza, 2)}. 76 Hierbei steht etwa (azz, 2) für: Auto hinter der 1. Tür, Ziegen hinter Tür 2 und Tür 3; 2 bezeichnet die Türwahl des Moderators. Setze A1 := {(azz, 2), (azz, 3)}, A2 := {(zaz, 3)}, A3 := {(zza, 2)}. Wir haben als Wahrscheinlichkeiten P (A1 ) = P (A2 ) = P (A3 ) = 1 , 3 und ferner 1 1 , P ({(azz, 3)}) = . 6 6 Wir analysieren etwa den Fall, dass der Moderator Tür 3 öffnet. Setze P ({(azz, 2)}) = B := {(azz, 3), (zaz, 3)}. Wir haben dann 1 1 1 P (B) = , P (A1 ∩ B) = , P (A2 ∩ B) = , P (A3 ∩ B) = 0 2 6 3 und daher 1 P (B|A1 ) = , P (B|A2 ) = 1, P (B|A3 ) = 0. 2 Damit erhalten wir: P (A1 |B) = 1 P (A1 )P (B|A1 ) = , P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + P (B|A3 )P (A3 ) 3 P (A2 |B) = P (A2 )P (B|A2 ) 2 = P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + P (B|A3 )P (A3 ) 3 Nun liegt der Beleg für den Ratschlag Wechsel“ vor ! ” 5.5 Kombinatorische Überlegungen Sei M eine Menge mit n Elementen. Wir wollen für den Sachverhalt Wähle Elemente von M unter den Gesichtspunkten Anzahl und/oder Reihenfolge“ ” aus die damit verbundenen Anzahlprobleme – auf wieviele Arten ist dies möglich? – studieren. Definition 5.5.1 Eine r–Permutation (ohne Wiederholung) der Elemente einer n–elementigen Menge M ist eine injektive Abbildung von {1, . . . , r} nach M. Ist r = n, so sprechen wir kurz von einer Permutation. Sei M = {x1 , . . . , xn } mit #M = n. Aus der Definition 5.5.1 folgt sofort, dass r ≤ #M sein muss, wenn es r−Permutationen geben soll, weil das Bild von {1, . . . , r} unter einer injektiven Abbildung sicher r Elemente besitzt. Ist σ eine r–Permutation, so entspricht dieser Abbildung σ das geordnete Tupel (xσ(1) , . . . , xσ(r) ) . Umgekehrt, hat man eine Menge B := {xi1 , . . . , xir } mit #B = r, so gehört dazu die r– Permutation σ : {1, . . . , r} ∋ j 7−→ xij ∈ M . Damit ist wohl klar, dass die Definition 5.5.1 unserer Anschauung von der Auswahl von r Elementen unter Berücksichtigung der Reihenfolge entspricht. 77 Satz 5.5.2 Sei M eine Menge mit n Elementen. Die Anzahl P (n, r) der r–Permutationen ist P (n, r) = n(n − 1) · · · (n − r + 1) = n! , 0 ≤ r ≤ n. (n − r)! Beweis: Sei M := {x1 , . . . , xn } . Wie können wir eine r–Permutation σ hinschreiben? Für das Bild σ(1) stehen n Elemente zur Verfügung. Sind die Bilder σ(1), . . . , σ(r − 1) festgelegt, so stehen für σ(r) wegen der geforderten Injektivität nur die Elemente in M \{xσ(1) , . . . , xσ(r−1) } zur Verfügung, also n − (r − 1) Elemente. Dies bedeutet nun: P (n, 1) = n ; P (n, r) = P (n, r − 1) · (n − r + 1) . Daraus folgt durch sukzessives Ausmultiplizieren oder induktiv P (n, r) = n(n − 1) · · · (n − r + 1) . Das schnelle Anwachsen der Ziffernstellen bei den Fakultäten8 ist Grund für die große Komplexität für Aufgaben, bei denen etwa eine große Anzahl von Objekten nach einem bestimmten Merkmal in eine Ordnung gebracht werden sollen; siehe Abschnitt 2.3. Im Spezialfall M = {1, . . . , n} kennen wir schon folgende Bezeichnung: Sn := {σ : M −→ M |σ Permutation} Eine Permutation σ ∈ Sn können wir dann schlicht durch die Abfolge (σ(1) . . . σ(n)) hinschreiben. Etwa bedeutet σ = (231) ∈ S3 , dass σ(1) = 2, σ(2) = 3, σ(3) = 1 gilt. Beispiel 5.5.3 Man bestimme die Anzahl m der vierziffrigen Zahlen, deren Ziffern alle verschieden sind; 0 darf als erste Ziffer nicht vorkommen. Für die erste Ziffer gibt es 9 Möglichkeiten: 1, 2, . . . , 9 . Für die Besetzung der verbleibenden drei Ziffern gibt es dann jeweils noch P (9, 3) Möglichkeiten. Also m = 9 · P (9, 3) = 4536 . Für das eben diskutierte Objekt Permutation“ gibt es die Interpretation durch ein Urnenex” periment: In einer Urne befinden sich n Objekte, nämlich die n Elemente von M . Man nimmt der Reihe nach jeweils ein Element aus der Urne, ohne es wieder zurückzulegen. Dann bilden r gezogene Elemente in der Reihenfolge, in der sie gezogen wurden, eine r−Permutation der Menge M . Eine duale Interpretation als Schachtelexperiment ist: Jedem Element von M entspricht eine Schachtel; wir haben also n Schachteln. Es werden nun der Reihenfolge nach r Objekte auf die n Schachteln verteilt und zwar so, dass eine Schachtel höchstens ein Objekt enthält; die Schachtelnummer wird notiert. Definition 5.5.4 Eine r−Permutation mit Wiederholung einer Menge M ist eine Abbildung τ : {1, . . . , r} −→ M. 8 G.W. Leibniz liebte es, zahlenmäßige Zusammenhänge in Form von Tabellen und Tafeln darzustellen. Beispielsweise fügte er seiner Arbeit Dissertatio de Arte Combinatoria“aus dem Jahre 1666, in der mit seinem Titel ” auch die Bezeichnung Kombinatorik vorprägte, eine Tabelle der Fakultäten 1! bis 24! = 620448401733239439360000 an. 78 Die Anzahl W (n, r) der r−Permutationen mit Wiederholungen ist W (n, r) = nr . Der Beweis dafür ist leicht zu erbringen. Die Interpretation der r−Permutationen mit Wiederholung als Urnenexperiment ist folgende: Man nimmt der Reihe nach — die Reihenfolge spielt daher eine Rolle – jeweils ein Element aus der Urne, insgesamt r Elemente, legt sie aber jeweils nach dem Ziehen wieder in die Urne zurück. Die duale Interpretation als Schachtelexperiment ist die Verteilung von r Objekten auf n Schachteln, wobei jede Schachtel beliebig viele Elemente aufnehmen kann. Bisher haben wir Auswahlen betrachtet, so dass die Reihenfolge der Elemente von Relevanz war und verschiedene Reihenfolgen verschieden zu zählen waren. Wenn wir nun keine Rücksicht auf die Anordnung nehmen, kommen wir zum Begriff der Kombination (der Elemente). Definition 5.5.5 Eine r–Kombination von M ist die Auswahl einer Teilmenge von M, bestehend aus r Elementen. Die Anzahl C(n, r) der r–Kombinationen einer Menge M mit n Elementen ist C(n, r) = n! . r!(n − r)! Die Interpretation als Urnenexperiment kann man etwa so sehen: Man ziehe r Elemente ohne Zurücklegen und vergesse die Reihenfolge der gezogenen Elemente. Die Interpretation als Schachtelexperiment ist so: Man verteile r Objekte auf n Schachteln, so dass in jeder Schachtel höchstens ein Objekt liegt. Einordnungen heißen äquivalent (oder werden nicht unterschieden), wenn sie durch eine Permutation der Objekte ineinander übergeführt werden können. Wir nennen n n! (n, r ∈ N, r ≤ n) := r!(n − r)! r Binominalkoeffizienten. n r kann interpretiert werden als die Anzahl der binären Wörter mit r Einsen und n − r Nullen. Aus dieser Interpretation oder aus der Definition folgt sofort n n n n n n = =1, = =n, = (5.7) 0 n 1 n−1 r n−r Sortiert man die Teilmengen der n–elementigen Menge M nach der Anzahl ihrer Elemente, so liefert die Summenregel n n n + + ··· + = 2n , (5.8) 0 1 n 1 1 1 1 1 1 3 4 1 3 6 10 1 4 10 1 1 da links und rechts der Identität die Anzahl ... ... ... aller Teilmengen von M steht. Sortieren wir die nr Wörter der Länge n mit r Einsen und n − r Nullen nach der 1. Ziffer: Abbildung 5.7: Pascalsches Dreieck Mit 1 beginnen n−1 Wörter der Länge n, mit r−1 0 beginnen n−1 n−Wörter. Also r n n−1 n−1 = + . (5.9) r r−1 r 79 5 1 2 5 n n 9 Zusammen mit der Randbedingung“ 0 = n = 1, stellt man dies im Pascalschen Dreieck ” n dar. Die Bezeichnung von r als Binomialkoeffizient hängt zusammen mit dem folgenden Satz. Satz 5.5.6 (Binomialformel) Für a, b ∈ R und n ∈ N gilt: n (a + b) = n X n j=0 j aj bn−j . Beweis: Die Multiplikation der n Faktoren (a + b), . . . , (a + b) kann so erfolgen, dass man für jedes n j, 0 ≤ j ≤ n, aus j Klammern a und aus n − j Klammern b auswählt; dies kann auf j Arten geschehen. Daher ist der Koeffizient von aj bn−j im ausgerechneten Produkt n j . Der Beweis mittels vollständiger Induktion sieht so aus: n = 1 : Klar. n n+1 : X n j n−j ab (a + b)n+1 = (a + b)(a + b)n = (a + b) j j=0 n n X X n j+1 n−j n j n−j+1 = a b + ab j j j=0 = = = = n+1 X j=0 n X n n j n−j+1 k n−(k−1) a b + ab k−1 j j=0 k=1 n n n+1 X n n n n+1 k n+1−k b + + a b + a 0 k−1 k n k=1 n n + 1 n+1 X n + 1 k n+1−k n + 1 n+1 b + a b + a 0 k n+1 k=1 n+1 X n + 1 ak bn+1−k k k=0 Beispiel 5.5.7 Beim Bridge–Spiel erhält ein Spieler 13 Karten aus einem Spiel aus 52 Karten. 12 Kartenzusammenstellungen möglich. Die Chance“ eine ≈ 10 Für einen Spieler sind also 52 13 ” ganz bestimmte Hand“ zu erhalten, ist für einen Spieler also etwa 1 : 1012 . ” Beispiel 5.5.8 Beim Lotto wird bei einer Ziehung aus der Menge {1, . . . , 49} eine 6–elementige Teilmenge ausgewählt. Daher ist die Anzahl der möglichen Ziehungen 49 = 13 983 816 . 6 5.6 1.) 9 Übungen Wie viele Möglichkeiten gibt es, mn Gegenstände so auf m Fächer zu verteilen, dass in jedem Fach n Gegenstände sind? Diese Anordnung der Binomialkoeffizienten findet sich wohl erstmals bei B. Pascal. 80 2.) Wir werfen achtmal einen (fairen) Würfel. (a) Wie groß ist die Wahrscheinlichkeit, dass jede Augenzahl 1,2,3,4,5,6 mindestens einmal erscheint? (b) Wie groß ist die Wahrscheinlichkeit, dass man genau zweimal eine sechs würfelt? 3.) Eine Urne enthalte zwei rote, zwei schwarze und zwei blaue Kugeln. Es werden zufällig zwei Kugel mit einem Griff entnommen. Danach wird zufällig aus den restlichen Kugeln eine Kugel gezogen. Mit welcher Wahrscheinlichkeit ist diese Kugel rot? 4.) Eine Urne enthalte zwei rote und drei schwarze Kugeln. Eine Kugel wird zufällig entnommen und durch eine Kugel der anderen Farbe ersetzt. Dieser Vorgang wird noch einmal wiederholt. Mit welcher Wahrscheinlichkeit ist eine danach entnommene Kugel rot? 81 Kapitel 6 Zufallsgrößen Zufallsgrößen und deren zugordnete Maßzahlen Erwartungswert und Varianz sind zentrale Größen von Zufallsversuchen. Sie sind auch fundamental in der Statistik, die die zweite Säule der Stochastik ist. Das schwache Gesetz der großen Zahl erklärt die angeratene Mittelwertbildung bei Messreihen. 6.1 Erwartungswerte Zunächst zur Motivation des Begriffs Erwartungswert“, den wir nun einführen wollen. ” Beispiel 6.1.1 Stellen wir uns ein Glücksrad mit den s Sektoren Ω := {w1 , . . . , ωs } vor; jedem Sektor werde als Wahrscheinlichkeit dafür, dass der Zeiger beim Drehen im Sektor j stehen bleibt die Zahl p(ωj ) zugeordnet. Ein Spieler gewinnt X(ωj ) Euro, wenn der Zeiger im Sektor j stehen bleibt. Wieviel sollte man pro Spiel einsetzen, wenn man das Spiel wiederholt, etwa n–mal spielen müßte. Offenbar erhält man dann s X X(ωj )hj j=1 Euro ausbezahlt, wenn der Zeiger im Sektor j hj –mal stehen geblieben ist. Also ergibt sich als durchschnittliche Auszahlung s 1X X(ωj )hj n j=1 h Euro. Da man empirisch erwartet, dass nj gegen die Wahrscheinlichkeit p(ωj ) strebt, müßte E := s X X(ωj )p(ωj ) j=1 Euro auf lange Sicht die erwartete Auszahlung sein. Ein Einsatz pro Spiel, der kleiner als E ist, sollte also auf lange Sicht zu einem Gewinn führen. Definition 6.1.2 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum. Jede Abbildung X : Ω −→ R heißt eine Zufallsgröße1 . Sind x1 , . . . , xr die Werte, die X annimmt, dann heißt P ({X = xj }) , j = 1, . . . , r, 1 In der Literatur ist für eine Zufallsgröße auch der ältere Ausdruck Zufallsvariable“ gebräuchlich. Diese ” Begriffsbildung verträgt sich nicht mehr gut mit der heutigen Auffassung von Abbildungen und Variablen. 82 die Verteilung der Zufallsgröße. Die Abbildung FX : R ∋ x 7−→ P ({X ≤ x}) ∈ [0, 1] heißt die Verteilungsfunktion von X . Beachte, dass wir voraussetzen durften, dass nur endlich viele Werte angenommen werden, da wir ja Ω als endliche Menge angenommen haben. Beispiel 6.1.3 Sei Ω := {K(opf ), Z(ahl)}, X(ω) := 1, falls ω = K, := 0, falls ω = Z . Also ist FX eine Treppenfunktion“ mit 2 Stufen: ” x FX (x) x<0 0≤x<1 x≥1 0 1 2 1 Definition 6.1.4 Sei (Ω, P OT (Ω), P ) ein (endlicher) Wahrscheinlichkeitsraum und X : Ω −→ R eine Zufallsgröße. Die Zahl X E(X) := X(ω)P ({ω}) ω∈Ω heißt Erwartungswert von X . Interpretieren wir die Zufallsgröße als Auszahlung eines Spiels, so können wir offenbar E(X) als durchschnittliche Auszahlung pro Spiel auf lange Sicht ansehen (negative Werte sind als Einzahlungen zu interpretieren). Hierbei haben wir die Häufigkeitsinterpretation der Wahrscheinlichkeit zu Grunde gelegt; siehe Beispiel 6.1.1. Eine physikalische Interpretation des Erwartungswertes erhält man, wenn die möglichen Werte x1 , . . . , xr einer Zufallsgrößen X als Massepunkte“ mit den Massen P (X = xj ), j = 1, . . . , r, ” auf der gewichtslosen Zahlengeraden“ gedeutet werden. Der Schwerpunkt (Massenmittelpunkt) ” s des so entstehenden Körpers ergibt sich nämlich aus der Gleichgewichtsbedingung r X (xj − s)P (X = xj ) = 0 j=1 zu s= r X xj P (X = xj ) = E(X) . j=1 Laplace2 schreibt über den Erwartungswert: Die Wahrscheinlichkeit der Ereignisse dient dazu, die Hoffnung oder Furcht der an ihrer Existenz interessierten Personen zu bestimmen. Das Wort Hoffnung hat verschiedene Bedeutungen: es drückt allgemein den Vorteil desjenigen aus, der irgend ein Gut in Folge von Voraussetzungen erwartet, die nur wahrscheinlich sind. Dieser Vorteil ist in der Theorie des Zufalls das Produkt der erwarteten Summe mit der Wahrscheinlichkeit sie zu erlangen. . . . Wir werden diesen Vorteil die mathematische Hoffnung“(esperánce (franz.) = Hoffnung) ” nennen. . . . Man soll es im gewöhnlichen Leben immer so einrichten, dass das Produkt aus dem Gute, das man erwartet, mit seiner Wahrscheinlichkeit dem gleichen Produkte bzgl. des Verlustes mindestens gleichkommt. Aber um das zu erreichen, ist es notwendig, die Vorteile 2 Laplace, Pierre Simon de, (1749 – 1827) 83 und Verluste und ihre gegenseitigen Wahrscheinlichkeiten genau abzuschätzen. Dazu bedarf es einer großen Exaktheit des Geistes, eines feinen Takts und einer bedeutenden sachlichen Erfahrung; man muss sich vor Vorurteilen, vor den Täuschungen der Furcht und der Hoffnung, sowie vor den falschen Begriffen von Glücksgunst und wirklichem Glück, mit denen die meisten Menschen ihre Eigenliebe einwiegen, in Acht nehmen. Beispiel 6.1.5 Der Ereignisraum für einen fairen Würfelwurf ist Ω := {1, . . . , 6} und die Zufallsgröße, die die Augenzahl ausgibt, ist X : Ω ∋ i 7−→ i . Das passende Wahrscheinlichkeitmaß ist die Gleichverteilung, d.h. P (X = j) = 16 , j = 1, . . . , 6 . Als Erwartungswert ergibt sich E(X) = 6 X 1 7 j = . 6 2 j=1 Dies zeigt uns, dass bei fortgesetztem Werfen eines (fairen) Würfels der Wert 3.5 eine gute Prognose für den auf lange Sicht erhaltenen Durchschnitt (arithmetisches Mittel) aller geworfenen Augenzahl sein sollte. Beachte: Die Zufallsgröße realisiert den Wert E(X) nicht! Seien X, Y Zufallsgrößen auf dem Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) und sei a ∈ R . Dann sind aX : Ω ∋ ω 7−→ aX(ω) ∈ R , X +Y X ·Y : Ω ∋ ω 7−→ X(ω) + Y (ω) ∈ R , : Ω ∋ ω 7−→ X(ω) · Y (ω) ∈ R , |X| : Ω ∋ ω 7−→ |X(ω)| ∈ R auch Zufallsgrößen auf (Ω, P OT (Ω), P ) . Für X · X schreiben wir auch oft kurz X 2 . Besondere Bedeutung besitzen die Zufallsgrößen, die das Eintreten oder Nichteintreten von Ereignissen beschreiben. Dies leistet die Indikatorfunktion eines Ereignisses: Ist A ⊂ Ω ein Ereignis, so heißt die durch ( 1 ,ω ∈ A χA (ω) := 0 ,ω ∈ /A definierte Zufallsgröße die Indikatorfunktion von A . Die einfachen Operationen mit Ereignissen spiegeln sich in der Indikatorfunktion folgendermaßen: χA∩B = χA · χB , χ∁A = 1 − χA , χA = χA2 . Will man wissen, wie viele Ereignisse A1 , . . . , An eingetreten sind, so hat man nur die Indikatorsumme χ := χA1 + · · · + χAn zu bilden. Sie dient also als Zählgröße. Beispiel 6.1.6 Betrachte folgendes Spiel: Beim Werfen zweier idealer Würfel erhält der Spieler Euro 10, wenn beide Würfel eine 6 zeigen, Euro 2, wenn genau ein Würfel eine 6 zeigt, Euro 0 sonst. Die Ereignismenge Ω sind die Paare (i, j) mit 1 ≤ i, j ≤ 6 , die Wahrscheinlichkeit für 1 . Damit ist angedeutet, dass die beiden Würfel unabhängig jedes Elementarereignis (i, j) ist 36 84 voneinander geworfen werden. Wir bezeichnen mit X die Zufallsgröße, die den Gewinn eines Spielers beschreibt. Von Interesse sind die Ereignisse A2 := {(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (5, 6), (4, 6), (3, 6), (2, 6), (1, 6)}, A10 := {(6, 6)} , A0 := Ω\(A10 ∪ A2 ) . Die Werte von X erhalten wir durch folgende Zuordnung: 2 , falls ω ∈ A2 Ω ∋ ω 7−→ 10 , falls ω ∈ A10 0 , sonst Daraus leiten wir 1 25 10 , P ({X = 10}) = , P ({X = 0}) = 36 36 36 P ({X = 2}) = ab. Als Erwartungswert ergibt sich E(X) = 2 · 1 25 5 10 + 10 · +0· = 36 36 36 6 Dieses Ergebnis lässt erwarten – siehe unten– , dass der Spieler im Mittel 65 Euro pro Spiel gewinnt. Ein Einsatz des Spielers pro Spiel in Höhe von 1 Euro wäre also nicht vorteilhaft. Halten wir einige Rechenregeln für Erwartungswerte fest: Regel 6.1.7 Seien X, Y : Ω −→ R Zufallsgrößen, a ∈ R, A ⊂ Ω, und g : R −→ R . Es gelten: E(X + Y ) = E(X) + E(Y ) (6.1) E(aX) = aE(X) (6.2) E(χA ) = (6.3) E(g ◦ X) = X≤Y =⇒ P (A) X g(xj )P (X = xj ) x1 ,...,xr ∈X(Ω) E(X) ≤ E(Y ) (6.4) (6.5) Die Regeln sind sehr einfach zu beweisen.3 Wir beweisen nur (6.4). Seien x1 , . . . , xr die Werte der Zufallsgrößen X, also {x1 , . . . , xr } = X(Ω) . Wir setzen Aj := {ω ∈ Ω|X(ω) = xj }, j = 1, . . . , r . Dann gilt Ω = A1 ∪ · · · ∪ Ar und somit E(g ◦ X) = = X ω∈Ω (g ◦ X)(ω)P ({ω}) = r X X g(xj )P ({ω}) = r X j=1 ω∈Aj r X j=1 j=1 ω∈Aj = r X X (g ◦ X)(ω)P ({ω}) g(xj ) X P ({ω}) ω∈Aj g(xj )P (X = xj ) j=1 3 Der Mathematiker fasst die Eigenschaften (6.1), (6.2) zusammen durch: Erwartungswertbildung ist eine Linearform auf dem Vektorraum der Zufallsvariablen. 85 j i 1 2 3 4 5 6 Σ 1 1 36 2 0 1 36 2 36 3 0 0 1 36 1 36 3 36 4 0 0 0 1 36 1 36 1 36 4 36 5 0 0 0 0 1 36 1 36 1 36 1 36 5 36 6 0 0 0 0 0 1 36 1 36 1 36 1 36 1 36 6 36 1 6 1 6 1 6 1 6 1 6 1 6 Σ 1 36 3 36 5 36 7 36 9 36 11 36 1 p(X = i) p(Y = j) Abbildung 6.1: Eine gemeinsame Verteilung Definition 6.1.8 Sind X, Y : Ω y1 , . . . , ys , so heißt das System −→ R zwei Zufallsgrößen mit Werten x1 , . . . , xr bzw. P (X = xj , Y = yj ) := P ({X = xi } ∩ {Y = yj }) , i = 1, . . . , r, j = 1, . . . , s, (6.6) die gemeinsame Verteilung von X, Y . Fasst man das Paar Z := (X, Y ) als Abbildung (X, Y ) : Ω ∋ ω 7−→ (X(ω), Y (ω)) ∈ R2 auf, so nennt man Z eine zweidimensionale Zufallsgröße; (6.6) ist ihre Verteilung (analog zu Definition 6.1.2). Beispiel 6.1.9 Betrachte wieder einen zweifachen Würfelwurf mit einem fairen Würfel (LaplaceExperiment). Sei Xi der Ausgang des i-ten Wurfes und sei Y := max(X1 , X2 ) die Zufallsgröße, die die maximale Augensumme bei den beiden Würfen beschreibt. Die beigefügte Tabelle gibt die gemeinsame Verteilung von X := X1 und Y an. Folgerung 6.1.10 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und sei X eine Zufallsgröße. Sei FX die zugehörige Verteilungsfunktion. Es gilt: (a) P ({a < X ≤ b}) = FX (b) − FX (a) für a ≤ b . (b) FX ist monoton nicht fallend. (c) P ({X > a}) = 1 − FX (a) , P ({X < a}) = FX (a−) , a ∈ R, wobei FX (a−) der linkseitige Grenzwert von FX an der Stelle a ist. (d) P ({a ≤ X ≤ b}) = FX (b) − FX (a−) für a ≤ b . (e) lim FX (x) = 0 , lim FX (x) = 1 . x→−∞ x→∞ 86 Beweis: Zu (a). FX (b) = P ({X ≤ a}) + P ({a < X ≤ b}) = FX (a) + P ({a < X ≤ b}) . Zu (b). Folgt aus (a). Zu (c). P ({X > a}) = 1 − FX (a) folgt aus den Definitionen von P und FX . Die Existenz des angegebenen Grenzwerts folgt aus der Tatsache, dass die Funktion FX monoton wachsend ist und ihr Bildbereich in [0, 1] enthalten ist, so: Zunächst existiert sicher eine Folge (xn )n∈N mit xn < a für alle n ∈ N, lim xn = a und z := lim FX (xn ) existiert. Aus der Monotonie n n folgt, dass z für jede solche Folge identisch ist. Also gilt z = lim FX (xn ) für jede Folge (xn )n∈N n mit xn < a für alle n ∈ N und lim xn = a , da (FX (xn ))n∈N eine konvergente Teilfolge enthält. n ∞ X P ({X < a}) = P ({X ≤ a − 1}) + = FX (a − 1) + lim n = FX (a − 1) + lim n k=1 n X k=1 n X k=1 P ({a − 1 1 <X ≤a− }) k k+1 P ({a − 1 1 <X ≤a− }) k k+1 (FX (a − 1 1 ) − FX (a − )) k+1 k = FX (a − 1) + lim FX (a − n 1 ) − FX (a − 1) n+1 1 ) = FX (a−) = lim FX (a − n n+1 Zu (d). P ({a ≤ X ≤ b}) = P ({a < X ≤ b}) + P ({X = a}) = (FX (b) − FX (a)) + (FX (a) − FX (a−)) = FX (b) − FX (a−) . Zu (e). Die Existenz der angegebenen Grenzwerte folgt aus der Tatsache, dass die Funktion FX monoton wachsend ist und ihr Bildbereich in [0, 1] enthalten ist; siehe oben. Ferner haben wir 0 ≤ lim FX (x) ≤ lim FX (x) ≤ 1 . Es genügt also zu zeigen, dass x→−∞ x→∞ lim FX (−n) = 0 , lim FX (n) = 1 n∈N n∈N gilt. Betrachte die Ereignisfolge (Ak )k∈Z mit Ak := {k − 1 < X ≤ k}, k ∈ Z . Damit haben wir P (Ω) = P (∪k∈Z Ak ) und daher 1 = P (∪k∈Z Ak ) = X P (Ak ) = lim n∈N k∈Z k=n X P (Ak ) = lim n∈N k=−n k=n X k=−n (FX (k) − FX (k − 1)) = lim (FX (n) − FX (−n)) = lim FX (n) − lim FX (−n) n∈N n∈N n∈N Daraus liest man die Tatsache lim FX (−n) = 0 und lim FX (n) = 1 ab. n∈N n∈N Bemerkung 6.1.11 Man mag sich wundern über den obigen Beweis: er ist so aufgeschrieben, als würde die Zufallsgröße unendlich viele Werte annehmen, wir haben dies aber ausgeschlossen. Damit verbunden ist aber der Hinweis, dass auch Zufallsgrößen behandelt werden können, die abzählbar viele Werte annehmen können. Der wirklich große Schritt besteht darin, Zufallsgrößen zuzulassen, die überabzählbar viele Werte annehmen. Dann benötigt man zur Definition eines Erwartungswertes einen passenden Integralbegriff. Daran schließt sich dann das Gebiet der stochastischen Prozesse an, die in vielen Anwendungen eine überragende Rolle spielen. 87 6.2 Unabhängigkeit Definition 6.2.1 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X, Y Zufallsgrößen. Diese Zufallsgrößen heißen unabhängig, falls P ({X = x, Y = y}) = P ({X = x})P ({Y = y}) für alle x, y ∈ R gilt. Folgerung 6.2.2 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X, Y Zufallsgrößen. Sind X, Y unabhängig, so existiert E(X · Y ) und es gilt E(X · Y ) = E(X)E(Y ). Beweis: Seien {xi |i = 1, . . . , r}, {yj |j = 1, . . . , s} die Werte von X bzw. Y . Dann sind {xi yj |i = 1, . . . , r, j = 1, . . . , s} die Werte von X · Y und wir haben r X s X i=1 j=1 xi yj P ({X · Y = xi yj }) = = = r X s X i=1 j=1 s r X X i=1 j=1 r X i=1 xi yj P ({X = xi , Y = yj }) xi yj P ({X = xi })P ({Y = yj }) xi P ({X = xi }) s X j=1 yj P ({Y = yj }) Definition 6.2.3 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X1 , . . . , Xn Zufallsgrößen. Diese Zufallsgrößen heißen unabhängig, falls P ({X1 = x1 , . . . , Xn = xn }) = P ({X1 = x1 }) · · · P ({Xn = xn }) für alle x1 , . . . , xn ∈ R gilt. Durch vollständige Induktion beweist man Folgerung 6.2.4 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X1 , . . . , Xn diskrete Zufallsgrößen. Sind X1 , . . . , Xn unabhängig, so gilt E(X1 · · · Xn ) = E(X1 ) · · · E(Xn ). Beispiel 6.2.5 Betrachten wir die folgenden Spiele: Spiel 1: Würfeln mit drei idealen Würfeln. Das Produkt der Augenzahlen wird in Cents ausgezahlt. Spiel 2: Würfeln mit drei idealen Würfeln. Das Fünffache der Augensumme wird in Cents ausgezahlt. Welches Spiel kann man bei einem Einsatz von 50 Cents pro Spiel spielen? Wir numerieren die Würfel und bezeichnen mit X1 , X2 , X3 die Zufallsgrößen der jeweils geworfenen Augenzahlen. 88 Es gibt 63 = 216 verschiedene Elementarereignisse. Da wir ein Laplace–Experiment unterstellen, gelten die Identitäten 1 P ({X1 = i, X2 = j, X3 = k}) = , 1 ≤ i, j, k ≤ 6 , 216 und 1 , 1 ≤ i, j, k ≤ 6 . P ({X1 = i})P ({X2 = j})P ({X3 = k}) = 216 Die Zufallgrößen sind also unabhängig. Damit gilt nach Folgerung 6.2.4 für die Gewinnerwartung: Spiel 1: E(X1 · X2 · X3 ) = E(X1 )E(X2 )E(X3 ) = ( 72 )3 . Spiel 2: E(5(X1 + X2 + X3 )) = 5(E(X1 ) + E(X2 ) + E(X3 )) = 5 · 3 · 72 . Die Gewinnerwartung liegt bei Spiel 1 unter, bei Spiel 2 über dem Einsatz. Daher kann man das zweite Spiel mitmachen, das erste dagegen aber nicht. 6.3 Varianz Wie wir wissen, ist der Erwartungswert einer Zufallsgröße eine Maßzahl für den Schwerpunkt. Die nun einzuführende Varianz ist eine Maßzahl für die Streuung um diesen Schwerpunkt. Definition 6.3.1 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und sei X eine Zufallsgröße auf Ω mit Erwartungswert E(X) . Dann ist (X − E(X))2 eine Zufallsgröße mit Erwartungswert V(X) := E((X − E(X))2 ) p V(X) heißt die Varianz von X und σX := V(X) die Streuung oder Standardabweichung von X . Bemerkung 6.3.2 Die Streuung σX einer Zufallsgröße ändert sich – dank der Wurzel, die wir über die Varianz gestülpt haben – proportional, d.h. σλX = λσX (λ > 0). Dies würde auch für die alternative Maßzahl σ̃X := E(|X − E(X)|) gelten. Vorteile von σX gegenüber σ̃X sind leichtere Berechenbarkeit und stärkere Bewertung großer Abweichungen vom Erwartungswert. In der Mathematik der Finanzinstrumente (Derivate, Optionen) ist mit dem Begriff der Volatilität der Aktienkurse die Streuung/Schwankung der Aktienkurse gemeint, wobei unterstellt wird, dass sich Aktienkurse wie ein Zufallsgröße verhalten. Hier wird der Erwartungswert meist mit µ (Drift) und mit σ (Volatilität) die Varianz bezeichnet. Lemma 6.3.3 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und seien X, Y Zufallsgrößen auf Ω mit Erwartungswerten E(X), E(Y ) und Varianzen V(X), V(Y ) . Dann gilt: (a) V(X) = E(X 2 ) − E(X)2 (b) V(X + Y ) = V(X) + V(Y ), falls X, Y unabhängig sind. Beweis: Es gilt E((X − E(X))(Y − E(Y ))) = E(XY ) − E(XE(Y )) − E(Y E(X)) + E(E(X)E(Y )) = E(XY ) − E(X)E(Y ) − E(Y )E(X) + E(X)E(Y ) = E(XY ) − E(X)E(Y ) Nun folgt (a) durch Anwendung auf Y := X, (b) folgt ebenfalls daraus unter Zuhilfenahme von Folgerung 6.2.2. 89 6.4 Das schwache Gesetz der großen Zahl oder die Intelligenz der Masse Wenn viele Leute gemeinsam auf das richtige Ergebnis kommen, dann nennen die Wissenschaftler dies die Intelligenz der Masse. Auf dieses Phänomen gestoßen ist vor 100 Jahren der englische Gelehrte Francis Galton und zwar als er eigentlich das Gegenteil beweisen wollte – nämlich, dass die Masse dumm ist.4 Dem oben beschriebenem Sachverhalt wollen wir nun etwas auf den Grund gehen. Aus den Eigenschaften der Varianz einer unabhängigen Zufallsgröße, die einen Zufallsversuch √ beschreiben möge, folgt das so genannte n-Gesetz. Dies soll nun skizziert werden. Sei X eine Zufallsgröße. Bei n-maliger unabhängiger Wiederholung des X zugrundeliegenden Zufallsversuchs beschreibe Xi den i-ten Versuch. Für die Mittelwertgröße n X := 1X Xi n i=1 gilt dann 1 σX = √ σ(X) , n denn für die zugehörige Varianz gilt nämlich σX = n X n 1 1 1 X V( Xi ) = 2 V(Xi ) = 2 nV(X) . n n i=1 n i=1 √ Das n-Gesetz ist in mehrfacher Hinsicht wichtig für die Theorie des Messens. Bei einer Meßreihe x1 , . . . , xn von unter denselben Bedingungen (Unabhängigkeit!) bestimmten Werten geht man davon aus, dass die Fehler nur zufällig zustande kommen. Als besten Wert für die nun zu messende Größe X nimmt man das arithmetische Mittel n x= 1X xi n i=1 und als mittleren Fehler m die Standardabweichung v u n X 1 u m = √ t (xi − x)2 . n i=1 Eine Genauigkeitsaussage x = x ± m besagt in diesem Sinne also nicht, dass x mit Sicherheit im Intervall [x − m, x + m] liegt, sondern nur mit einer gewissen Wahrscheinlichkeit. Wir quantifizieren dies nun. Satz 6.4.1 (Tschebyscheffsche Ungleichung) Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und sei X eine Zufallsgröße mit Erwartungswert E(X) und Varianz V(X) . Dann gilt für jedes ǫ > 0 : P ({|X − E(X)| ≥ ǫ}) ≤ V(X)ǫ−2 (6.7) 4 1906 besuchte Galton die westenglische Nutztiermesse in der Nähe von Plymouth. Dort gab es einen Schätzwettbewerb: Für sechs Pence durfte man auf das Gewicht eines Ochsen wetten. Wer am nächsten dran lag, konnte gewinnen. Nachdem Galton die Schätzungen ausgewertet hatte, muss er ziemlich verblüfft gewesen sein: Der Mittelwert der 787 Einzelschätzungen wich nur um ein Pfund vom tatsächlichen Gewicht des Ochsen ab. Und – was noch erstaunlicher war – kein Einzel-Tipp (auch nicht der eines Experten) war genauer als der Mittelwert der großen Masse. 90 Beweis: Sei ǫ > 0. Setze Z := X − E(X) und Y (ω) := 0, ǫ2 , falls |Z(ω)| < ǫ falls |Z(ω)| ≥ ǫ (6.8) Dann ist 0 ≤ Y ≤ Z 2 und daher V(X) = E(Z 2 ) ≥ E(Y ) = ǫ2 P ({Y = ǫ2 }) = ǫ2 P ({|X − E(X)| ≥ ǫ}) . Der Wert der Tschebyscheffschen Ungleichung liegt in ihrer Allgemeinheit, die Abschätzung darin ist ziemlich grob.5 Satz 6.4.2 (Schwaches Gesetz der großen Zahl) Seien X, X1 , . . . , Xn unabhängige Zufallsgrößen auf dem Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) . Es gelte E(X) = E(Xi ) , V(X) = V(Xi ) ≤ M < ∞ , 1 ≤ i ≤ n . Dann gilt für alle ǫ > 0 : M 1 P ({| (X1 + · · · + Xn ) − E(X)| ≥ ǫ}) ≤ 2 n ǫ n (6.9) Beweis: 1 (X + · · · + X ). Dann ist E(Z) = E(X) und Sei Z := n 1 n V(Z) = n−2 V(X1 + · · · + Xn ) = n−2 (V(X1 ) + · · · + V(Xn )) ≤ Nun wende man die Tschebyscheffsche Ungleichung an. M . n Durch das schwache Gesetz der großen Zahl6 können wir nun verstehen, weshalb die relative Häufigkeit unter Umständen eine gute Approximation für Wahrscheinlichkeiten ist. 6.5 Spezielle Verteilungen Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und sei X : Ω −→ R eine diskrete Zufallsgröße mit Wertebereich WX . Wir unterscheiden: Diskrete Verteilung Bildbereich: Parameter der Verteilung: WX = {w1 , . . . , wn } n = #WX 1 χ (x) , x ∈ R . PX,x = P ({X = x}) = n WX Für den Spezialfall WX = {1, . . . , n} erhalten wir: 1 Erwartungswert: E(X) = n + 2 2 −1 Varianz: V(X) = n 12 Verteilung: 5 Sie wurde erstmals von Bienaymé 1853 aufgestellt, unabhängig davon fand sie P. Tschebyscheff 1867 und verwendete sie erstmals zum Beweis des Gesetzes der großen Zahl. 6 Eine erste Version dieses zentralen Grenzwertsatzes hat A. de Moivre bewiesen. 91 Der Beweis zu den Formeln für E(X) und V(X) ist einfach:7 n E(X) = 1 n(n + 1) n+1 1X i= = n n 2 2 i=1 V(X) = n n 1X n+1 2 1X 2 n + 1 2 n2 − 1 (i − ) = i −( ) = n 2 n 2 12 i=1 i=1 Zu diesem Typ von Verteilung haben wir schon Beispiele kennengelernt. Bernoulli–Verteilung Bildbereich: Parameter der Verteilung: WX = {0, 1} p ∈ [0, 1] (“Erfolgswahrscheinlichkeit“) PX,x = P ({X = x}) = px (1 − p)1−x χWX (x) , x ∈ R . Verteilung: E(X) = p Erwartungswert: V(X) = p(1 − p) Varianz: Der Beweis zu den Formeln für E(X) und V(X) ist einfach: E(X) = 1p + 0(1 − p) = p , V(X) = 12 p + 02 (1 − p) − p2 = p(1 − p) . Jedes Bernoulli–Experiment beinhaltet die Bernoulli–Verteilung; der Münzwurf (p = 21 ) kann als Beispiel dafür dienen. Beispiel 6.5.1 Wir betrachten ein Bernoulli–Experiment mit Erfolgswahrscheinlichkeit p ∈ [0, 1]. Wir wiederholen dieses Experiment n−mal unabhängig und setzen für ein Ereignis A ⊂ Ω 1 , falls ω ∈ A ,1 ≤ i ≤ n. Xi (ω) := 0 , sonst Dann ist 1 E(Xi ) = p , V(Xi ) = p(1 − p) ≤ , 1 ≤ i ≤ n, 4 1 (X + · · · + X ) ist die relative Häufigkeit der Erfolge. Also ist und hn := n 1 n P ({|hn − p| ≥ ǫ} ≤ 1 4ǫ2 n Für großes n ist also die Wahrscheinlichkeit dafür, dass die relative Häufigkeit der Erfolge sich mehr als ǫ von der Erfolgswahrscheinlichkeit p unterscheidet, sehr klein. Dies ist der Schlüssel dafür, abwägen zu können, ob ein Glückspiel mit Einsatz und Auszahlung vorteilhaft ist. Binomial–Verteilung Bildbereich: Parameter der Verteilung: Verteilung: Erwartungswert: Varianz: 7 WX = {0, 1, . . . , n} n, p x n−x PX,x = n χWX (x) , x ∈ R . x p (1 − p) E(X) = np V(X) = np(1 − p) Wir benutzen die bekannte Identität Pn i=1 i2 = n(n+1)(2n+1) 6 92 . Der Beweis zu den Formeln für E(X) und V(X) ist nun schon etwas trickreich“: ” n n X n X n i pi (1 − p)n−i i pi (1 − p)n−i = E(X) = i i i=1 i=0 n n X X n−1 i n − 1 i−1 n−i n p (1 − p) = np = p (1 − p)(n−1)−(i−1) i−1 i−1 i=1 i=1 n−1 X n−1 = np pj (1 − p)(n−1)−j = np(p + (1 − p))n−1 = np j j=0 Der Nachweis für die Formel für V(X) gelingt mit vergleichbaren Rechenschritten. Beispiel 6.5.2 Ein Versuch bestehe aus der n–maligen Durchführung eines Bernoulli–Experimentes mit Erfolgswahrscheinlichkeit p ∈ [0, 1] . Die Menge der Elementarereignisse wird dann adäquat beschrieben durch Ω := {0, 1}n . Die Bernoulli–Experimente sollen unabhängig voneinander durchgeführt werden, das Wahrscheinlichkeitsmaß auf Ω ist also das Produktmaß. Die erfolgreichen Ausgänge unter den n Experimenten werden gezählt durch die Zufallsgröße X : Ω ∋ (ω1 , . . . , ωn ) 7−→ ω1 + · · · + ωn ∈ R . Damit haben wir n x P ({X = x}) = p (1 − p)n−x , x ∈ {0, . . . , n} , x und X ist also binomialverteilt. Nach diesem Beispiel sehen wir auch einen anderen Weg, die Varianz einer Binomial–Verteilung zu berechnen: Wir fassen die Zufallsgröße X als Summe von Zufallsgrößen X1 , . . . , Xn auf, die unabhängig und einzeln nach Bernoulli verteilt sind. Also V(X) = V(X1 ) + · · · + V(Xn ) = np(1 − p) . Geometrische Verteilung Bildbereich: WX = N0 Parameter der Verteilung: p ∈ (0, 1] PX,x = P ({X = x}) = p(1 − p)x χWX (x) , x ∈ R . 1−p E(X) = p 1−p V(X) = p2 Verteilung: Erwartungswert: Varianz: Der Nachweis für die Formeln für E(X) und V(X) gelingt bei Verwendung der Formeln ∞ X j=0 ∞ X q + q2 q 2 j j q = , , jq = (1 − q)2 (1 − q)3 j j=0 welche für q ∈ [0, 1) gültig sind, sehr leicht. Wir beweisen die erste der beiden Formeln: Für N ∈ N gilt N X jq j ) · (1 − q)2 = q − 2N q N +1 + N q N +2 ( j=0 93 und Grenzübergang liefert die Aussage, wenn wir noch beachten, daß die Folge (nq n )n∈N gegen 0 konvergiert, wenn |q| < 1 ist. Dies sieht man nun so: p √ Es ist |q| < 1 . Wegen lim n n = 1 (siehe Lemma ??) gibt es N ∈ N mit n∈N 1≤ √ n Also gilt für alle n ≥ N 1 n ≤ p für alle n ≥ N . |q| p √ 1 |nq n | = | n nq|n ≤ ( p |q|)n = ( |q|)n . |q| p n Die Aussage folgt nun aus der Tatsache, daß lim |q| = 0 gilt. n∈N Interessiert man sich für die Anzahl der Versuche, bis bei einer mehrfachen Wiederholung eines Bernoulli–Experiments mit Erfolgswahrscheinlichkeit p ∈ (0, 1] zum ersten Mal ein Erfolg eintritt, dann beschreibt die Zufallsgröße X mit der Verteilung PX,x = P ({X = x}) = p(1 − p)x χN0 (x) , x ∈ R , die Anzahl der Abbrüche bis zur ersten erfolgreichen Durchführung. Hypergeometrische Verteilung Bildbereich: Parameter der Verteilung: Verteilung: Erwartungswert: Varianz: WX = {0, 1, . . . , n} n<N. n, M, N, p := M N mit M< N, M N −M x n− x PX,x = P ({X = x}) = χWX (x) , x ∈ R . N n (Konvention ji = 0 für j < 0 oder j > i ) E(X) = np −n V(X) = np(1 − p) N N −1 Zur Berechnung von E(X) eine Vorbemerkung. Man beweist für (zulässige) p, q, r ∈ N die Formel r X p q p+q = (6.10) k r−k r k=0 Damit gelingt nun die Berechnung des Erwartungswertes wie folgt: −1 X −1 X n n M N N −M N M N −M x E(X) = = k x n n−x n k n−k x=0 k=1 −1 X −1 X n n−1 N M −1 N −M N M −1 N −M = M =M n k−1 n−k n j n−1−j j=0 k=1 −1 N M −1+N −M M n. = M = N n n−1 Die Berechnung der Formel für V(X) erfolgt auf ähnlichem Wege. 94 Beispiel 6.5.3 Zur Herleitung einer Zufallsgröße, die hypergeometrisch verteilt ist, gehen wir von einer für diese Verteilung typischen Situation (Qualitätskontrolle) aus: Ein Warenposten umfasst N Teile, unter denen sich M Ausschussteile befinden. Wir entnehmen diesem Warenposten nacheinander und ohne Zurücklegen – es möge etwa eine Beschädigung“ durch die Entnahme nicht auszuschließen sein – n Teile und ” interessieren uns für die Wahrscheinlichkeitsverteilung derjenigen Zufallsgröße X, die die Anzahl der Ausschussteile in einer solchen Stichprobe angibt. Es sei X die Anzahl der defekten Teile, die beim Versuch gezogen werden. Ein Elementarereignis dieses Versuches besteht aus einer n–Teilmenge aller Teile des Warenpostens. Jedes Ele mentarereignis ist gleichwahrscheinlich und hat daher die Wahrscheinlichkeit N . Das Ereignis n {X = x} tritt ein, wenn man x–mal eindefektes Teil und (N − x)–mal ein fehlerfreies Teil N −M entnimmt. Für die erste Wahl gibt es M Möglichkeiten. x , für die zweite Wahl gibt es n−x Damit wird M N −M x n−x , P ({X = x}) = N n falls x zum Wertebereich der Zufallsgröße gehört. Die Zufallsgröße hat also eine hypergeometrische Verteilung. 6.6 Die Gauß– und Poisson–Verteilung Nun folgen zwei Verteilungen, die nicht in unseren gesetzten Rahmen passen: ihr zugrundeliegender Wahrscheinlichkeitsraum und ihr Wertebereich ist nicht endlich. Wir skizzieren sie ohne genauer auf eine Anpassung der Begriffe einzugehen. Poisson–Verteilung Bildbereich: WX = N0 Parameter der Verteilung: λ Verteilung: PX,x = P ({X = x}) = Erwartungswert: E(X) = λ Varianz: V(X) = λ exp(−λ)λx χWX (x) , x ∈ R . x! Der Nachweis der Formel für den Erwartungswert ist einfach: E(X) = ∞ X k exp(−λ) k=1 k=0 = λ exp(−λ) ∞ X λk λk = exp(−λ) k! (k − 1)! ∞ X k=0 λk k! = λ exp(−λ) exp(λ) = λ . Der Nachweis der Formel für die Varianz erfolgt mit ähnlichen Rechenschritten. Die Verteilung geht auf S.D. Poisson8 zurück. Stichworte können sein: Anzahl der Telefonanrufe pro Zeiteinheit in der Telefonzentrale einer Firma, Anzahl der von einer radioaktiven Probe ausgestrahlten Partikel pro Zeiteinheit, Anzahl von Jobs, die pro Zeiteinheit an einem Rechnerserver eintreffen, . . . . 8 Poisson, Simeon D. (1781 — 1840) 95 Wir haben die Binominalverteilung kennengelernt. Ihre Verteilung enthält die Parameter p und n. Macht man nun den Grenzübergang n → ∞ bei festem p, so erhält man als Näherung für die Binominalverteilung die Normalverteilung in folgendem Sinne: P ({X = k}) ≈ p 1 2πnp(1 − p) exp(− (k − np2 ) ) 2np(1 − p) Diese Näherung ist schlecht, wenn p nahe 0 oder 1 liegt oder wenn n klein ist. In der Praxis betrachtet man die Näherung als brauchbar, wenn etwa np(1 − p) ≥ 10 gilt. Normalverteilung Bildbereich: WX = R Parameter der Verteilung: µ, σ ∈ R, σ > 0 Verteilung: PX∈B = P ({X ∈ B}) = Erwartungswert: E(X) = µ Varianz: V(X) = σ 6.7 1.) R B µ 2 √1 exp − 21 x − dx , B ⊂ R . σ σ 2π Übungen Ein fairer Würfel wird n-mal geworfen. Die Zufallsgröße Xn sei die größte der geworfenen Augenzahlen, also Xn (a1 , . . . , an ) = max aj , (a1 , . . . , an ) ∈ Ω := {1, . . . , 6} × · · · × {1, . . . , 6} . 1≤j≤n Zeige: limn E(xn ) = 6 . 2.) Die Zufallsgröße X nehme die Werte 0, 1, 2 . . . , n an. Zeige: E(X) = n X j=0 p(X ≥ j) . 3.) Ein fairer Würfel wird 2-mal geworfen. Der Erwartungswert für die größte der geworfenen Augenzahlen ist 161 36 . 4.) Sei Y die Zufallsgröße, die die kleinste Augenzahl beim zweimaligen Würfeln beschreibt. Bestimme den Erwartungswert von Y mit der vorhergehenden Aufgabe. 5.) Beim Fussballtoto wird das Ergebnis eines ausgefallenen Spieles augelost. Steht in der Totozeitung, dass die Tendenz etwa des Spiels TSG Hoffenheim – Bayern München 2:3:5 (S:U:N) betrage, dann soll dies bei der Auslosung berücksichtigt werden. Stelle ein Urnenmodell dafür her. 96 Kapitel 7 Nullstellen nach Newton Das Newtonsche Näherungsverfahren, auch Newton-Raphsonsche Methode1 , ist in der Mathematik ein Standardverfahren zur numerischen Lösung von nichtlinearen Gleichungen und Gleichungssystemen. Die grundlegende Idee dieses Verfahrens ist, die Funktion in einem Ausgangspunkt zu linearisieren, was z.B. bei Polynomen einfach ist. Ein Charakteristikum dieses Verfahrens ist, dass es im allgemeinen sehr schnell gute Näherungswerte liefert. 7.1 Polynome Sei K := R der Körper der reellen Zahlen. Mit Körper meinen wir nicht nur die Menge der Zahlen, die R enthält, sondern auch die uns vertrauten Rechenarten einschließlich der Rechenregeln. Ein Auszug davon ist: Addition a + b = b + a . Subtraktion a − b = b − a mit a − a = 0 . (0 ist die Null) Multiplikation ab = ba mit 1a = a . (1 ist die Eins) Division ab−1 = a/b mit bb−1 = 1 . (Achtung: b 6= 0!) Anordnung a > 0 oder a = 0 oder a < 0 . √ n Wurzel n a = a . (Achtung: a ≥ 0, d.h. a > 0 oder a = 0) Distributionelles Rechnen a(b + c) = ab + ac Betrag |a| = a, falls a ≥ 0, −a, sonst. Unten werden wir noch kurz auf den Körper K := C der komplexen Zahlen zu sprechen kommen. In diesem Zahlbereich ist Vorsicht bei der Wurzelberechnung geboten, eine Anordnung komplexer Zahlen existiert nicht! Betrachte p(x) := p(a0 ,...,an ) (x) = a0 + a1 x + · · · + an−1 xn−1 + an xn = n X ak xk , (7.1) k=0 Ein Ausdruck dieser Art heisst ein Polynom mit Koeffizienten a0 , . . . , an in R . Ist an 6= 0 und n ≥ 1, so sagen wir, dass das Polynom den Grad n hat, anderenfalls den Grad 0 . Wir fassen die Polynome zusammen in R[x]: R[x] := {p|p Polynom} . (7.2) 1 Sir Isaac Newton, 1669 und Joseph Raphson, 1690 97 Eine Teilmenge davon bilden die Polynome vom Grad höchstens n: Rn [x] := {p|p Polynom vom Grad ≤ n} . (7.3) Ein solches Polynom p ∈ R[x] kann man auch als Abbildung interpretieren: R ∋ x 7−→ p(x) ∈ R . Aus der Schulmathematik ist man vertraut mit Polynomen kleinen Grades: • Grad 0: Konstanten • Grad 1: Lineare Funktionen. • Grad 2: Parabeln (Graphen von quadratischen Polynomen) • Grad 3: Kubische Polynome Die Auswertung von p in einem Punkt x ∈ R kann durch Auswertung der Monome und Aufsummierung der Terme erfolgen. Man muss folgenden Aufwand betreiben: n Additionen und 1 + 2 + · · · + n = 21 n(n + 1) Multiplikationen. Ein effizientere Methode basiert auf der Beobachtung, dass jedes Polynom p = p(a0 ,...,an ) (siehe (7.1)) als (7.4) p(x) = a0 + x(a1 + x(a2 + · · · + x(an−1 + an x) · · · )). geschrieben werden kann. Diese Schreibweise eines Polynoms führt zur Horner–Methode zur Auswertung von Polynomen. Wir lesen ab, dass die Auswertung von p in x auf diese Weise mit Hilfe von n Additionen und n Multiplikationen erfolgen kann. Dieses Beobachtung kann als Geburtsstunde der Komplexitätstheorie für Algorithmen angesehen werden. Hier ist ein algorithmisches Fragment der Horner Methode: Horner–Methode: bn−1 := an ; for j = n − 2, n − 3, . . . , 0 do bj := aj+1 + xbj+1 ; p(x) = a0 + xb0 7.2 Das Nullstellenproblem Wir betrachten nun das Problem der Auflösbarkeit von polynomialen Gleichungen mit Koeffizienten im Körper R . Eine Gleichung der Form x−c=0 (7.5) heißt eine lineare Gleichung. Der einzige Lösung ist x = c . Gegeben sei die quadratische Gleichung ax2 + bx + c = 0 98 (7.6) b , denn für y ergibt sich die für a 6= 0. Sie wird vereinfacht durch die Substitution y = x + 2a Gleichung b2 − 4ac , (7.7) y2 = 4a2 deren Lösungskandidaten auf der Hand liegen: y=± 1p 2 b − 4ac . 2a Die Lösungskandidaten von (7.6) werden damit mit x=− b 1p 2 b − 4ac ± 2a 2a (7.8) beschrieben. Aus der Gleichung (7.8) liest man auch die Methode der quadratischen Ergänzung ab: b b2 c b2 b (x + )2 = x2 + x + 2 = − + 2 . 2a a 4a a 4a 2 Lösbarkeit der Gleichung (in R) liegt also vor, wenn b − 4ac ≥ 0 ist. Die Tatsache, dass keine Lösbarkeit vorliegt, wenn dies nicht der Fall ist, hat das Interesse für eine Erweiterung der reellen Zahlen zum Körper C der komplexen Zahlen geweckt (Hier liegt dann Lösbarkeit universell vor. Insbesondere hat die Gleichung x2 + 1 = 0 die Lösungen (Wurzeln) x = ±i.) Bemerkung 7.2.1 Aus der Formel (7.8) lesen wir ab, dass das Produkt der Lösungen der quadratischen Gleichung (7.6) für a = 1 gleich dem Koeffizienten c ist. Diese Tatsache bezeichnet man als Vietaschen Wurzelsatz. Betrachte die kubische Gleichung ax3 + bx2 + cx + d = 0 (7.9) b , denn für y ergibt sich die für a 6= 0. Sie wird vereinfacht durch die Substitution y = x + 3a Gleichung y 3 = py + q, wobei p, q gewisse rationale Ausdrücke in a, b, c, d sind. Diese Gleichung ist immer noch nicht einfach, aber folgende Substitution y = u + v 2 Diese Idee hilft weiter, denn es entsteht 3uv(u + v) + u3 + v 3 = p(u + v) + q. Wir spalten auf in 3uv = p , u3 + v 3 = q, p setzen v := 3u , und lösen u3 + ( p p 3 ) = q , d.h. (u3 )2 − qu3 + ( )3 = 0 . 3u 3 Dies ist eine quadratische Gleichung in u3 und wir haben mit (7.8) r q p q 3 u = ± ( )2 − ( )3 . 2 2 3 2 Die Idee mit den Hilfsgrößen u, v hatte wohl Scipione del Ferro (1465? – 1526), ausgearbeitet wurde sie dann von Niccolo Tartaglia (1500? – 1557) und Geronimo Cardano (1501 – 1576). 99 Die Symmetrie der Formeln in u und v hat zur Folge, dass sich für v nichts wesentlich Neues ergibt. Wir erhalten r r p 3 3 q p q q 2 q 3 u = + ( ) − ( ) , v = − ( )2 − ( )3 , 2 2 3 2 2 3 und daher x= s 3 q + 2 r q p ( )2 − ( )3 + 2 3 s 3 q ( − 2 r q p b ( )2 − ( )3 − . 2 3 3a (7.10) b gefunFür die ursprüngliche Gleichung (7.9) haben wir so einen Lösungskandidaten x = y − 3a den. Durch Division mit Rest reduzieren wir dann die Gleichung 3. Grades auf eine Gleichung 2. Grades und behandeln diese nach dem schon vorgestellten Verfahren für Gleichungen 2. Grades weiter. Betrachte die quartische Gleichung ax4 + bx3 + cx2 + dx + e = 0 (7.11) b vereinfacht zu für a 6= 0. Diese Gleichung wird durch die Substitution y = x + 4a y 4 + py 2 + qy + r = 0, wobei p, q, r gewisse rationale Ausdrücke in a, b, c, d, e sind. Wir schreiben sie um zu (y 2 + p)2 = py 2 − qy + p2 − r – dieser Reduktionsschritt geht wohl auf R. Descartes zurück – und erweitern (y 2 + p + u)2 = (py 2 − qy + p2 − r) + 2u(y 2 + p) + u2 mit beliebigem u ∈ K. Wähle nun u so, dass py 2 − qy + p2 − r + 2u(y 2 + p) + u2 = Ay 2 + By + C ein Quadrat wird; hierbei ist A := p + 2u, B := −q, C := p2 − r + 2up + u2 . Dies gelingt dann, wenn B 2 − 4AC = 0 gilt. Dies ist eine kubische Gleichung für u, die nach dem obigen Verfahren behandelt werden kann. Nach Wahl von u ziehen wir nun die Wurzel und lösen die resultierende quadratische b ergibt Lösungen für die Gleichung Gleichung für y. Einsetzen in die Substitution x = y − 4a (7.11). Betrachte das Polynom p(x) := p(a0 ,...,an ) (x) = a0 + a1 x + · · · + an−1 x n−1 n + an x = n X ak xk (7.12) k=0 mit den reellen Koeffizienten a0 , . . . , an . Wenn wir alle Nullstellen kennen, dann können wir das Polynom hinschreiben als Produkt der Linearfaktoren: m1 p(x) = an (x − z1 ) mk · · · (x − zk ) 100 , k X l=1 ml = n wobei zl bzw. ml die l-te Nullstelle von p bzw. ihre Mehrfachheit bezeichnet. Die Aussage, dass jedes nicht konstante Polynom mit Koeffizienten in R eine Nullstelle im Körper der komplexen Zahlen besitzt, wird der Fundamentalsatz der Algebra genannt. Alle bekannten Beweise dieses Satzes3 benützen offen oder versteckt auch das Konzept Stetigkeit“ ” aus der Analysis. Hier sind drei Probleme, die schon im Altertum formuliert wurden und die alle mit polynomialen Gleichungen zu tun haben. 1. Dreiteilung des Winkels (Teilung eines Winkels in drei gleiche Teile.) 2. Verdoppelung des Würfels (Konstruktion der Seite eines Würfels, dessen Volumen zweimal so groß ist wie das des gegebenen Würfels.) Es wird das Delische Problem genannt. 3. Quadratur des Kreises (Konstruktion eines Quadrates mit einer Fläche, die der Fläche eines gegebenen Kreises gleich ist.) Die Herausforderung bei der Beschäftigung mit den Problemen besteht darin, dass als Handi” cap“ verlangt wird, dass die Lösungen der Probleme mit Zirkel und Lineal konstruierbar sein sollen. Ob dies möglich ist, kann mit der algebraischen Theorie der Körpererweiterung beantwortet werden. Bezogen auf die Probleme bedeutet dies, dass gewisse den Problemen zugeordnete Polynome Nullstellen in Körpern besitzen, die aus dem Körper Q der rationalen Zahlen problembezogen in durchsichtiger Weise abgeleitet werden. Die Quadratur des Kreises kann nicht gelingen, da man nun weiß, dass die Kreiszahl π transzendet ist, also keine Nullstelle eines Polynoms mit rationalen Koeffizienten sein kann. Ebenso besitzt das Delische Problem keine Lösung mit Zirkel und Lineal. Auch das Problem der Winkeldreiteilung mit Zirkel und Lineal besitzt im allgemeinen keine Lösung. Etwa ist dies der Fall für die Dreiteilung von π . 7.3 Nullstellensuche nach Newton Sir Isaac Newton beschreibt4 ein Rechenverfahren zum Lösen einer polynomialen Gleichung und begründet damit ein Verfahren, das heutzutage als Newton-Verfahren bezeichnet wird. Er tut dies am Beispiel des Polynoms p(x) := x3 − 2x − 5 = 0 . Eine leicht zu erratende Näherung 0-ter Ordnung“ ist x0 = 2, denn p(2) = −1 ist klein“. Newton machte den Ansatz ” ” x = 2 + u mit einem als klein“ angenommenen u und setzte diesen Ansatz in die Gleichung ein. ” Es gilt: x3 = (2 + u)3 = 8 + 12u + 6u2 + u3 , 2x = 2(2 + u) = 4 + 2u . Also folgt ! x3 − 2x − 5 = −1 + 10u + 6u2 + u3 = 0 . Da u als klein“ angenommen wurde, können die Terme höherer Ordnung gegen den linearen ” und konstanten Anteil vernachlässigt werden, womit 10u − 1 = 0 bzw. u = 0.1 übrig bleibt. Als Näherung x1 1-ter Ordnung resultiert x1 = 2.1 . Wir können nun dieses Vorgehen wiederholen: wir setzen u = 0.1 + v an, betrachten die Gleichung p(2 + 0.1 + v) = 0, berücksichtigen wiederum nur den linearen Anteil und erhalten so v = −0.061/11.23 = −0.0054 . . . . Als Näherung x2 2-ter Ordnung resultiert x2 = 2.0946 . 3 C.F. Gauß (1777 – 1855) publizierte 1799 den ersten strengen Beweis, später gab er einige weitere Beweise dafür. 4 Isaac Newton, 1643–1727; Methodus fluxionum et serierum infinitarum“ ” 101 Raphson5 beschrieb diesen Rechenprozess formal und illustrierte den Formalismus an der allgemeinen Gleichung 3. Grades, die abstrakte Form des Verfahrens mit Benutzung von Ableitungen stammt von Thomas Simpson. Zur Simpsonschen Form kommen wir nun. Sei f : R −→ R . Eine Nullstelle wird nach folgendem Vorgehen gesucht: (1) Man rät eine Näherung x0 . O.E. f (x0 ) 6= 0 . (2) Man berechnet/zeichnet die Tangente t0 an den Graphen von f im Punkt (x0 , f (x0 )) . (3) Man berechnet/konstruiert die Nullstelle x1 der Tangente. (4) Man setzt x0 := x1 und wiederholt den Vorgang, beginnend bei (1). Klar, um die Tangente bestimmen zu können, müssen wir voraussetzen, dass diese existiert, was die Differenzierbarkeit von f voraussetzt. Dann lautet die Tangentengleichung t0 : y = f (x0 ) + f ′ (x0 )(x − x0 ) (7.13) und die Berechnung der Nullstelle von t0 führt zur Formel x1 = x0 − f ′ (x0 )−1 f (x0 ) . (7.14) Hier tritt das Problem auf, dass f ′ (x0 ) 6= 0 gelten muss, d.h. dass f in (x0 , f (x0 )) keine waagrechte Tangente besitzt. Von der Anschauung her, keine überraschende Forderung, von der Analyse des Verfahrens her eine Forderung, die sukzessive oder a-priori sichergestellt werden muss. Schreiben wir das Verfahren nun kompakt auf: xn+1 := xn − f ′ (xn )−1 f (xn ) , n = 0, . . . . (7.15) Dabei ist die Startnäherung x0 zu wählen. Wir nennen dieses Vorgehen nun Newton–Verfahren; siehe Abbildung 7.1. Das Newton–Verfahren ist ein so genanntes lokal konvergentes Verfahren. Konvergenz der in der Newton–Iteration erzeugten Folge zu einer Nullstelle ist also nur garantiert, wenn der Startwert, d.h. das 0-te Glied der Folge, schon ausreichend ” nahe“ an der Nullstelle liegt. Ist der Startwert nicht gut genug, so haben wir zu rechnen mit: • Die Folge divergiert, der Abstand zur Nullstelle wächst über alle Grenzen. • Die Folge divergiert, bleibt aber beschränkt. Sie kann z.B. periodisch werden, d.h. endlich viele Punkte wechseln sich in immer derselben Reihenfolge ab. Man sagt auch, dass die Folge oszilliert (Bei f (x) := x3 − 2x + 2 ist dies machbar). t f(x) t x1 x0 x2 Abbildung 7.1: Newtonverfahren • Die Folge konvergiert, falls die Funktion mehrere Nullstellen hat, gegen eine andere als die gewünschte Nullstelle konvergieren; in der Abbildung 7.1 kann man dies erahnen. 5 Joseph Raphson, 1648–1715; Arbeit Analysis Aequationum universalis“ ” 102 Ist der Startwert x0 so gewählt, dass das Newton–Verfahren konvergiert, so ist die Konvergenz allerdings quadratisch, also mit der Konvergenzordnung 2 (falls die Ableitung an der Nullstelle nicht verschwindet). Bemerkung 7.3.1 Wie ordnet sich das Newtonsche Vorgehen hier nun ein? Ausgehend von der Startnäherung x0 = 2 wird ein Newtonschritt auf die Nullstellengleichung p(x + 2) = 0 mit x = 0 als Startnäherung angewendet: x1 := 0 − 1 p(2) . = ′ 10 p (2) Nun betrachtet man die Nullstellengleichung p(x + 2.1) = 0 mit x = 0 als Startnäherung und wendet wieder einen Newtonschritt mit Ausgangsnäherung x = 0 an: x2 := 0 − 0.061 p(2.1) = . ′ 11.23 p (2.1) Und so weiter! Viele nichtlineare Gleichungen haben mehrere Lösungen, so hat ein Polynom n-ten Grades bis zu n (reelle) Nullstellen. Will man alle Nullstellen in einem bestimmten Bereich D ⊂ R ermitteln, so muss zu jeder Nullstelle ein passender Startwert in D gefunden werden, für den das Newton–Verfahren konvergiert. Ein beliebtes Vorgehen dazu besteht in Einschachtelungsverfahren: zwischen zwei Punkten z 1 , z 2 , so dass f (z 1 ), f (z 2 ) unterschiedliche Vorzeichen besitzen, liegt immer eine Nullstelle von f, da wir ja Differenzierbarkeit von f (und damit Stetigkeit) voraussetzen. (Man erinnere sich an die Charakterisierung der Stetigkeit, einen Graph in einem Zug hinzeichnen zu können. Man kommt dann bei einer Funktion, die Werte unterschiedlichen Vorzeichens annimmt, unwillkürlich beim Wert Null vorbei“.) ” Beispiel 7.3.2 Ein Spezialfall des Newtonschen Näherungsverfahrens ist das Babylonische Wurzelziehen, auch bekannt als Heronverfahren nach Heron von Alexandria: Wendet man das Verfahren zur Nullstellenbestimmung auf die Funktion f (x) := x2 − a (a > 0), so erhält man wegen √ der Ableitungsfunktion f ′ (x) = 2x für die Lösung a das Näherungsverfahren (xn )2 − a a 1 n xn+1 := xn − x + = . 2xn 2 xn Dieses Verfahren konvergiert für jedes a ≥ 0 und für jeden beliebigen Anfangswert x0 > 0 . Beispiel 7.3.3 Die Quadratwurzel einer Zahl a > 0 sind die Nullstellen der Funktion f (x) := 1− a/x2 . Diese Funktion hat die Ableitung f ′ (x) = 2a/x3 , die Newton-Iteration erfolgt also nach der Vorschrift xn (xn )2 (xn )3 xn n+1 n + = 3− . x := x − 2a 2 2 a Der Vorteil dieser Vorschrift gegenüber dem Wurzelziehen nach Heron (siehe Beispiel 7.3.2) ist, dass es divisionsfrei ist, sobald einmal der Kehrwert von a bestimmt wurde. Als Startwert wurde in der Tabelle x0 := (1 + a)/2 gewählt. Die Iterierten wurden an der ersten ungenauen Stelle abgeschnitten. Es ist zu erkennen, dass nach wenigen Schritten die Anzahl gültiger Stellen schnell wächst. n 0 1 2 3 4 5 xn bei a = 2 xn bei a = 3 xn bei a = 5 1, 5 2 3 1, 40 1, 6 1, 8 1, 4141 1, 72 2, 1 1, 41421355 1, 73203 2, 22 1, 41421356237309502 1, 7320508074 2, 23601 1, 414213562373095048801688724209697 1, 73205080756887729351 2, 236067975 103 Das Newton-Verfahren gilt als ein sehr effizientes Verfahren (in den Naturwissenschaften und anderswo). Worin ist dies begründet, obwohl das Problem der guten Startnäherung und die Tatsache, dass eine Ableitung ausgerechnet werden muss, schwer wiegen? Es liegt an vier Beobachtungen, die in der Literatur ausreichend diskutiert wurden und immer noch werden: (1) Das Verfahren hat eine naheliegende Erweiterung auf Aufgaben in mehreren Variablen. (2) Das Verfahren konvergiert unter gut zu durchschaubaren Voraussetzung (siehe unten) quadratisch. (3) Das Verfahren kann modifiziert werden, um die Berechnung der Ableitung in jedem Schritt zu vermeiden. Etwa durch: xn+1 := xn − f ′ (x0 )−1 f (xn ) , n = 0, . . . . (7.16) Allerdings ist dann die Konvergenzgeschwindigkeit schlechter. (4) Das Verfahren kann globalisiert werden, d.h. man kann Vorkehrungen einbauen, die sicherstellen, dass das so abgeänderte Verfahren auch bei schlechten“ Startwerten konvergiert; ” das Stichwort ist Schrittweitensteuerung: xn+1 := xn − λn f ′ (xn )−1 f (xn ) , n = 0, . . . . (7.17) Sei f eine dreimal differenzierbare Funktion mit einer Nullstelle z , in der die erste Ableitung nicht verschwindet, d.h. f ′ (z) 6= 0 . Diese Voraussetzung besagt, dass der Graph von f die x-Achse transversal schneidet“. Wir wissen aus ” 1 0 = f (z) = f (x) + f ′ (x)(z − x) + f ′′ (ξ)(z − x)2 2 und daher x−z = f (x) 1 f ′′ (ξ) + (x − z)2 . f ′ (x) 2 f ′ (x) Nun stellen wir so um, dass wir eine Verbindung mit der Newtoniteration sehen: x− 1 f ′′ (ξ) f (x) − z = (x − z)2 . 2 f ′ (x) f ′ (x) Ist nun I ein Intervall um z, in dem die Ableitung von f nicht verschwindet – dies kann auf Grund der Tatsache, dass f ′ (z) 6= 0 gilt, sichergestellt werden – dann folgt mit m := inf |f ′ (x)| , M := max |f ′′ (x)| , K := x∈I x∈I |x − f (x) − z| ≤ K|x − z|2 , x ∈ I . f ′ (x) die Abschätzung Dies hat zur Konsequenz, dass für die Newtoniterierten xn gilt n K|xn − z| ≤ (K|x0 − z|)2 , n ∈ N0 , 104 M 2m was man mittels vollständiger Induktion beweisen kann. Ist also K|x0 −z| < 1, dann wird |xn −z| sehr schnell klein. Bei der Bestimmung von Nullstellen von Polynomen ist folgender Hinweis wichtig: hat man eine Nullstelle z 0 gefunden, so kann man diese Nullstelle aus dem Polynom entfernen durch ” Polynomdivision durch den Linearfaktor x − z 0 ; man hat so den Grad des Polynoms um eins verkleinert. Beispiel 7.3.4 Betrachte das Polynom p(x) := x3 − 3x2 − x + 3 . Es hat die Nullstelle x = 1, was man etwa erraten kann. Polynomdivision ergibt p(x) : (x − 1) = x2 − 2x − 3 und als weitere Nullstellen finden wir x = 1 und x = 3 . Division mit Rest ist nicht nur mit Linearfaktoren möglich. Allgemeiner führt man die Rechnung r(x) p(x) : q(x) = s(x) + q(x) durch. 7.4 Anhang: Realisierung des Newtonverfahrens in den komplexen Zahlen Die Tatsache, dass in R eine Anordnung existiert, zeigt, dass in R die Gleichung x2 + 1 = 0 (7.18) keine Lösung hat, da x2 nichtnegativ und 1 = 12 positiv ist. Wir erweitern nun die reellen Zahlen zu einem Körper der komplexen Zahlen. In diesem Körper hat dann die Gleichung (7.18) eine Lösung. Definiere in R2 die folgenden Verknüpfungen: + : R2 × R2 ∋ ((a, b), (c, d)) 7−→ (a + c, b + d) ∈ R2 , · : R2 × R2 ∋ ((a, b), (c, d)) 7−→ (ac − bd, ad + bc) ∈ R2 . (Addition) (Multiplikation) Dann sind (R2 , +) , (R2 \{(0, 0)}, ·) abelsche Gruppen . Das neutrale Element bzgl. der Addition ist (0, 0), das neutrale Element bzgl. der Multiplikation ist (1, 0) . Das Inverse von (a, b) ∈ R2 bzgl. der Addition ist (−a, −b), das Inverse von (a, b) 6= (0, 0) bzgl. der Multiplikation ist (a(a2 + b2 )−1 , −b(a2 + b2 )−1 ) . Mit diesen Verknüpfungen wird R2 ein Körper. Diesen Körper wollen wir nun den Körper der komplexen Zahlen 105 nennen. Eine vielleicht eher bekannte Notation der Elemente von C ergibt sich aus der Darstellung (a, b) = (1, 0)a + (0, 1)b , (a, b) ∈ R2 . (7.19) Wir haben (1, 0) · (1, 0) = (1, 0) und (0, 1) · (0, 1) = (−1, 0) = −(1, 0) . Nun schreiben wir für das Einselement (1, 0) kurz 1 und für (0, 1) führen wir die imaginäre Einheit i ein. Dies bedeutet nun, dass wir wegen (7.19) jedes Element (a, b) ∈ C so (a, b) = a + ib , schreiben können, wobei wir nochmal abgekürzt haben: Statt 1a haben wir einfach a geschrieben. Damit schreiben wir nun C := {a + ib|a, b ∈ R} und passen die Verknüpfungen an: + : C × C ∋ (a + ib, c + id) 7−→ (a + c) + i(b + d) ∈ C , (Addition) · : C × C ∋ (a + ib, c + id) 7−→ (ac − bd) + i(ad + bc) ∈ C . (Multiplikation) Ist z = a + ib eine komplexe Zahl, so heißt a Realteil und b Imaginärteil von z ; wir schreiben a = ℜz oder a = Rez , b = ℑz oder b = Imz . Wir unterscheiden nun nicht zwischen a+i0 ∈ C und a ∈ R und schreiben für a+ib manchmal auch a + bi . Beachte auch, dass in dieser Schreibweise nun aus a + ib = 0 stets a = b = 0 folgt. Definition 7.4.1 Sei z = a + √ ib eine komplexe Zahl. Die zu z konjugierte Zahl ist z := a − ib, der Betrag von z ist |z| := a2 + b2 . Offenbar gilt für jede komplexe Zahl die Identität |z|2 = zz . Ein Quotient z1 z2−1 , z2 6= 0, lässt sich dann wegen z1 z 2 z1 z 2 = z1 z2−1 = z2 z 2 |z2 |2 in ein Produkt komplexer Zahlen mit anschließender Division durch eine reelle Zahl überführen, z.B. 1−i 1−i 1 1 1 = = = + i 1+i (1 + i)(1 − i) 2 2 2 Da wir nun mit der Betragsfunktion eine Abstandsfunktion auf C haben, können wir die Kreisscheiben D̄r (z) := {z ′ ∈ C||z ′ − z| ≤ r} , D̄r := D̄r (0) , definieren. Ebenso ist die Konvergenz von Folgen definiert. Wir halten es nochmal fest: Definition 7.4.2 Sei (zn )n∈N eine Folge komplexer Zahlen. Wir sagen, dass (zn )n∈N gegen z ∈ C konvergiert, wenn ∀ ε > 0 ∃ N ∈ N ∀ n ≥ N (|zn − z| < ε) gilt. z heißt dann Grenzwert und wir schreiben z = lim zn . n∈N 106 Es ist leicht einzusehen, dass eine Folge komplexer Zahlen (zn )n∈N genau dann konvergiert, wenn die Folgen (ℜzn )n∈N und (ℑzn )n∈N als reelle Zahlenfolgen konvergieren. Damit ist die Konvergenz komplexer Zahlenfolgen auf die reeller Zahlenfolgen zurückgeführt. Die über Grenzwerte von reellen Zahlen angeführten Regeln behalten ihre Gültigkeit auch im Körper der komplexen Zahlen; z.B.: der Grenzwert ist eindeutig bestimmt. Da R vollständig ist, ist auch C vollständig. Die trigonometrische Schreibweise für eine komplexe Zahl z = a + ib ist z = r(cos φ + i sin φ) √ wobei r = |z| := a2 + b2 der Betrag und φ := arg z das Argument der Zahl z ist, d.h. sin(φ) cos(φ)−1 = ab . Für z = r(cos φ+i sin φ) verwendet man auch die exponentielle Schreibweise z = reiφ , d.h. eiφ = cos φ + i sin φ . Die Menge C− := C\{z ∈ C|ℑz = 0, ℜz ≤ 0} nennt man die negativ geschlitzte Ebene. Für jedes z ∈ C− gibt es genau ein φ ∈ (−π, π) und r > 0 mit z = r(cos φ + i sin φ) . Die Theorie der komplexen Funktionen, also der Funktionen f : C −→ C lässt sich prinzipiell wie die der reellen Funktionen anpacken. Allerdings können gewisse komplexe Funktionen sehr überraschende Eigenschaften haben, die im Zusammenhang mit der Differenzierbarkeit stehen. Definition 7.4.3 f : C −→ C heißt differenzierbar in z0 ∈ C, falls gilt: lim z→z0 f (z) − f (z0 ) z − z0 existiert. Beispiele differenzierbarer Funktionen sind die Polynome mit komplexen Koeffizienten. Beispiel 7.4.4 Wie berechnet man eine Wurzel aus einer komplexen Zahl? Sei z = a + ib ∈ C . Mit der trigonometrischen Darstellung von z als z = reiφ (r = |z|) gelingt die Berechnung von w mit w2 = z ganz einfach: w= Beachte, dass auch w′ = √ √ φ rei 2 := √ φ φ r(cos( ) + i sin( )) . 2 2 φ rei( 2 +π) eine solche Zahl ist. Der Ausgangspunkt unserer Überlegung war die Lösbarkeit der Gleichung (7.18). Diese hat nun in der Tat in C eine Lösung, nämlich das Element i und das Element −i . Die Lösbarkeit dieser Gleichung haben wir durch Körpererweiterung erreicht. In Analogie zum Newtonverfahren im Reellen formuliert man zur Gleichung z 3 = 1 im Komplexen die Iteration 2z 3 + 1 z3 − 1 zn+1 := zn − n 2 = n 2 , n ∈ N0 . 3zn 3zn 107 Wie sieht nun das Konvergenzverhalten der zugehörigen Orbits aus? Diese Frage erweist sich als außerordentlich tiefliegend. Die Arbeiten von B. Mandelbrot zu Fraktalen in den Jahren von 1975 bis 1985 machten diese lange schon diskutierte Frage wieder populär. Die zunächst naheliegende Vermutung, dass die Einzugsgebiete der drei Nullstellen z1∗ = 1 , z2∗ = − 1 1 1√ 1√ 3 + i , z3∗ = − 3− i 2 2 2 2 an jeweils einer Halbgeraden zusammenstoßen sollten, trifft nicht zu. Computerbilder zeigen eine ganz überraschende Unübersichtlichkeit des Konvergenzverhaltens. Die Ränder der jeweiligen Einzugsgebiete sind so ineinander verwoben, dass immer dort, wo zwei Einzugsbereiche zusammenAbbildung 7.2: Fraktal im Komplexen stoßen, der dritte Einzugsbereich bereits vorhanden ist. Die Ränder der Einzugsbereiche sind keine glatten Kurven, sondern sehr eigenwillig gefranste Gebilde, sie stellen wieder eine so genante Julia–Menge dar, die die oben angeführten Eigenschaften besitzt. Das seltsame Verhalten der Newton–Iteration im Komplexen wurde untersucht für die Gleichungen z 4 − 1 = 0 , z 5 − 1 = 0 , (z − 1)(z 2 + z + c) = 0 (c ∈ C) . Immer wieder stößt man auf Einzugsgebiete, deren Ränder vom Typ Julia–Mengen sind. Überraschend ist, dass als geradezu universelle Menge wieder das Apfelmännchen ins Spiel kommt: Färbt man die Parameter c im dritten Fall schwarz ein, wenn z0 = 0 kein guter Startwert (keine Konvergenz!) ist, so entsteht wieder ein Apfelmännchen. 7.5 Übungen 1.) 108 Kapitel 8 Interpolation und Approximation In diesem Abschnitt betrachten wir unterschiedliche Ansätze, Datenpunkte zu einem Funktionsgraph zu erweitern. Wir tun dies unter Nutzung von Polynomen. 8.1 Interpolation mit Polynomen In der Praxis wissenschaftlichen Rechnens wird man häufig mit der Situation konfrontiert, dass von einem funktionalen Zusammenhang nur diskrete Datenpunkte vorliegen, sei es weil nicht mehr bekannt ist, sei es, weil die dem funktionalen Zusammenhang zu Grunde liegende Funktion nur sehr schwer zu handhaben ist. Um daraus wieder einen funktionalen Zusammenhang zurückzugewinnen, ist nach einer Methode gesucht, die diskreten Datenpunkte irgendwie“ zu ” verbinden. Grundsätzlich sind Polynome dazu sehr gut geeignet, denn sie haben eine Reihe sehr guter Eigenschaften für eine effiziente Nutzung: (1) Einfache Speicherung durch die Koeffizienten. (2) Effiziente Evaluation; siehe oben. (3) Einfache Manipulation (Addition, Differentiation, Integration, . . . ). (4) Gute Approximationseigenschaften. Für die zuletzt genannte Eigenschaft benötigt man einen Abstandsbegriff für Funktionen. Dazu eignet sich, Funktionen punktweise zu vergleichen: Der Tschebycheff-Abstand zweier Funktionen f, g : [a, b] −→ R ist gegeben durch kf − gk∞ := sup |f (x) − g(x)| . x∈[a,b] Hierin verbirgt sich ein Problem: ist das Supremum definiert, d.h. gibt es eine Schranke b mit |f (x) − g(x)| ≤ b für alle x ∈ [a, b] ? Für stetige Funktionen ist dies der Fall, wie wir aus der Analysis wissen. Für solche ist das Supremum sogar ein Maximum, d.h. das Supremum wird durch einen Funktionswert von f − g realisiert. Die obige Fragestellung zur Darstellung eines funktionalen Zusammenhangs mittels Interpolation mit Polynomen lässt sich nun so formulieren: Interpolationsaufgabe 109 Es seien n + 1 verschiedene Punkte (Stützstellen) x0 < x1 < . . . < xn auf der reellen Zahlengerade gegeben. Ferner seien so genannte Stützwerte y0 , . . . , yn+1 ∈ R gegeben. Finde ein Polynom p such that p(xi ) = yi for i = 0, . . . , n. p wird eine Interpolierende genannt. In der obigen Aufgabe haben wir noch den Grad des Polynoms offen gelassen. Klar sein sollte: ist der Grad zu klein, ist nicht zu erwarten, dass alle Interpolationsforderungen p(xi ) = yi erfüllt werden können, sind Polynoms mit großem Grad zugelassen, wird es in der Regel viele Polynome geben, die die Interpolationsforderungen p(xi ) = yi erfüllen. Es lässt sich daraus schließen, dass es wohl einen ausgezeichneten Grad gibt, der sicherstellt, dass die Aufgabe genau eine Lösung besitzt. Ein solcher lässt sich auch aus der Aufgabe ableiten: es sind n+1 Forderung gestellt, also benötigen wir n+1 Freiheiten, um diese Forderung zu erfüllen. Ein Polynom n-ten Grades hat n+ 1 Freiheitsgrade, nämlich n + 1 frei wählbare Koeffizienten. Also sollte die Interpolationsaufgabe mit dem Grad n gelöst werden können. Die Überraschung ist, dass wir dann eine Lösung explizit hinschreiben können, und zwar so: Wir definieren Polynome L0,n , . . . , Ln,n vom Grade n mit folgender Eigenschaft: Lj,n (xi ) = δij , i, j = 0, . . . , n , (8.1) wobei δi,j das so genannte Kronecker-Symbol ist.1 Solche Polynome existieren! Hier ist ihre explizite Darstellung: n Y x − xk , x ∈ R. Lj,n(x) = xj − x k k=0,k6=j Da offenbar die Eigenschaft (8.1) erfüllt ist, können wir eine Lösung der Interpolationsaufgabe so hinschreiben: n X yj Lj,n (x) . (8.2) p(x) = j=0 Beispiel 8.1.1 Sei f die Exponentialfunktion: f (x) := ex , x ∈ R . Betrachte die Datenpunkte (xi , yi ), wobei yi = f (xi ), i = 1, 2, 3, und x1 = 0, x2 = 1, x3 = 2. Dann haben wir: L0,2 (x) = (x − x1 )(x − x2 ) (x − 1)(x − 2) 1 3 = = x2 − x + 2 (x0 − x1 )(x0 − x2 ) (0 − 1)(0 − 2) 2 2 L1,2 (x) = (x − 0)(x − 2) (x − x0 )(x − x2 ) = = −x2 + 2x (x1 − x0 )(x1 − x2 ) (1 − 0)(1 − 2) L2,2 (x) = (x − x0 )(x − x1 ) (x − 0)(x − 1) 1 1 = = x2 − x (x2 − x0 )(x2 − x1 ) (2 − 0)(2 − 1) 2 2 Eine Lösung ist gegeben durch p(x) = 2 X j=0 = f (xj )Lj,2 (x) = 1 · L0,2 (x) + e · L1,2 (x) + e2 · L2,2 (x) 1 1 (e − 1)2 x2 − (e − 1)(e − 3)x + 1 2 2 1 δi,j := ( 1 0 falls i = j falls i = 6 j 110 Damit ist das Existenzproblem gelöst. Bleibt, für eine mathematisch befriedigende Betrachtung, die Eindeutigkeitsfrage. Diese ist mit einem einfachen analytischem Resultat zu klären. Hat man zwei Polynome p, q vom Grad n, die die Interpolationsaufgabe lösen, so gilt offenbar für das Polynom f := p − q : f (xi ) = 0 , i = 0, . . . , n . Als Polynom ist f sicher differenzierbar. Dann gibt es jeweils zwischen xi und xi+1 ein ξ mit f ′ (ξ) = 0 , i = 0, . . . , n . Dies liefert die Tatsache, dass auf Grund der Differenzierbarkeit von f zwischen xi und xi+1 ein Punkt ξ mit f (ξ) = maxt∈[xi ,xi+1] f (t) existiert. Zählen wir nun ab: f hat n + 1 Nullstellen, f ′ hat nun mindestens n Nullstellen. Fährt man so fort, erhält man, dass die n-te Ableitung f (n) immer noch eine Nullstelle hat. f (n) ist aber, da bei jeder Differentiation der Grad von f um Eins verringert wird, eine konstante Funktion, also notwendigerweise die Nullfunktion. Daraus schließt man, dass f (n−1) eine konstante Funktion ist, welche aber 2 Nullstellen hat, was nicht möglich ist, es sei denn f (n−1) ist die Nullfunktion. So fortfahrend erhält man, dass f = f (0) die Nullfunktion ist; p und q stimmen also überein. Die Darstellung der Lösung des Interpolationsproblems in (8.2) ist für die Berechnung nicht sehr gut geeignet. Es gibt numerisch stabilere und effizientere Berechnungverfahren; Stichwort ist die Newton-Darstellung. 8.2 Newton-Polynome Das Interpolationsproblem wird durch eine lineare Abbildung L : Rn+1 −→ Rn+1 folgendermaßen beschrieben: L : Rn+1 ∋ (a0 , . . . , an ) 7−→ (p(a0 ,...,an ) (x0 ), . . . , p(a0 ,...,an ) (xn )) ∈ Rn+1 Daraus leitet sich ab, dass die Abbildung L nach Wahl einer geeigneten Basis im Urbildraum und im Bildraum durch eine Matrix dargestellt wird. Auf Grund der Definition der Abbildung L haben wir eine Basis im Raum der Polynome vom Grad ≤ n zu wählen. Sei b0 , . . . , bn eine Basis im Raum der Polynome vom Grade höchstens n . Dann bedeutet die Lösung des Interpolationsproblems gerade die Lösung des Gleichungssystems Ba = y where B = (bj (xi ))0≤i,j≤n , a = (a0 , . . . , an ), y = (y0 , . . . , yn ) . (8.3) Dank der Injektivität der Abbildung L – das Interpolationsproblem ist ja eindeutig lösbar – ist die Matrix B invertierbar. Die Monome 1, x, . . . , xn und die Lagrange-Polynome Ln,j , j = 0, . . . , n, bilden eine Basis, aber sie haben beide Nachteile: die Monome, da die zugehörige Matrix B schwer zu invertieren ist, die Lagrange-Polynome, da die Matrix B zwar sehr leicht zu invertieren ist – sie ist eine Diagonalmatrix, ja sogar die Einheitsmatrix – aber die Basis numerisch nicht sehr gut auszuwerten ist. Wir diskutieren nun eine spezielle Wahl einer Basis. die numerisch überzeugend ist, die Basis der Newton-Polynome: 1, (x − x0 ), (x − x0 )(x − x1 ), . . . , (x − x0 ) · · · (x − xn−1 ) 111 (8.4) Es ist leicht einzusehen, dass sie eine Basis bilden. Damit sieht das zugehörige Gleichungssystem so aus: 1 0 0 ··· 0 a0 y0 1 x1 − x0 a1 y1 0 · · · 0 1 x2 − x0 (x2 − x0 )(x2 − x1 ) · · · a2 y2 0 (8.5) = .. .. .. .. .. . . . . . . . . . . . 1 xn − x0 (xn − x0 )(xn − x1 ) · · · (xn − x0 ) · · · (xn − xn−1 ) an yn Dieses System kann von der ersten Gleichung aus sukzessive durch Einsetzen gelöst werden (Vorwärtssubstitutuion): berechne aus der ersten Gleichung a0 : a0 := y0 ; berechne aus der zweiten Gleichung unter Verwendung des Resultats für a0 den Koeffizienten a1 aus a1 (x1 − x0 ) = y1 − y0 ; . . . . . . . Die Rechnung kann in einem kompakten Schema organisiert werden unter Verwendung dividierter Differenzen.. Definition 8.2.1 Seien τ : x0 < · · · < xn die Stützstellen und seien y0 , . . . , yn die Stützwerte der Interpolationsaufgabe. Wir definieren rekursiv: y[xi ] := yi , i = 0, . . . , n , y[xj0 , xj1 , . . . , xjk ] := y[xj1 , . . . , xjk ] − y[xj0 , . . . , xjk−1 ] xj k − xj 0 wobei xj0 , xj1 , . . . , xjk eine Permutation von k + 1 Stützstellen ist. Wir bezeichnen diese Größen dividierte Differenzen. Dividierte Differenzen können systematisch in folgendem Schema berechnet werden: x0 y0 x1 y1 x2 .. . y2 .. . xn−1 yn−1 xn yn y[x0 ] ց y[x1 ] −→ ց y[x2 ] −→ .. . y[xn−1 ] −→ ց y[xn ] −→ y[x0 , x1 ] y[x1 , x2 ] .. . ց −→ y[x0 , x1 , x2 ] .. . y[xn−2 , xn−1 ] −→ ց y[xn−1 , xn ] −→ .. ··· . · · · y[x0 , . . . , xn−1 ] ··· ··· ց y[x1 , . . . , xn ] −→ y[x0 , . . . , xn ] Satz 8.2.2 Seien τ : x0 < · · · < xn die Stützstellen und seien y0 , . . . , yn die Stützwerte der Interpolationsaufgabe. Dann ist das Interpolationspolynom p mit Hilfe der Newtonbasis dargestellt durch p(x) = y[x0 ] + y[x0 , x1 ](x − x0 ) + · · · + y[x0 , . . . , xn ](x − x0 ) · · · (x − xn−1 ), x ∈ R . (8.6) Beweis: Wir beweisen dies durch Induktion bezüglich n . Klar, das Resultat gilt für n = 0 . Sei die Darstellung richtig im Falle von n + 1 Stützstellen. Wir wollen die Darstellung nachrechnen für n + 2 Stützstellen. Seien τ : x0 < · · · < xn+1 die Stützstellen und seien y0 , . . . , yn+1 die Stützwerte der Interpolationsaufgabe; sei p das interpolierende Polynom n + 1-ten Grades. Diese Polynom hat die Darstellung durch die Newton–Polynome N0 , . . . , Nn+1 : p(x) = n X i=0 αi Ni (x) + αn+1 Nn+1 (x), x ∈ R . 112 Dann gilt p − αn+1 Nn+1 = n X y[x0 , . . . , xi ]Ni n+1 X y[x1 , . . . , xi ]Ni (x)(x − x0 )−1 , x ∈ R . i=0 gemäß der Induktionsannahme, da das Polynom p−αn+1 Nn+1 die Daten in den n+1 Stützstellen x0 , . . . , xn interpoliert. Seien p1 , p2 die Polynome, die die Daten (x0 , y0 ), . . . , (xn , yn ) bzw. (x1 , y1 ), . . . , (xn+1 , yn+1 ) interpolieren. Dank der Induktionsannahme, kann man p1 , p2 darstellen durch 1 p (x) = n X 2 y[x0 , . . . , xi ]Ni (x) , p (x) = i=1 i=0 Betrachte nun 1 det q(x) := xn+1 − x0 p1 (x) x0 − x p2 (x) xn+1 − x , x ∈ R, (8.7) Klar, q ist ein Polynom vom Grade n + 1 und interpoliert die Daten (x0 , y0 ), . . . , (xn+1 , yn+1 ) . Aus der Eindeutigkeit der Lösung der Interpolationsaufgabe folgt q = p . Dies zeigt αn+1 = y[x0 , . . . , xn+1 ] wegen der Gestalt der dividierten Differenzen. Beispiel 8.2.3 Betrachte die Funktion f (x) := ex . Seien τ : 0 = x0 < x1 = 1 < x2 = 2 Stützstellen. Wir berechnen das folgende Tableau 0 1 1 e 1 e 2 e2 e2 e−1 e2 − e 1 2 (e − 1)2 und schließen, dass das Interpolationspolynom p mit den Stützwerten, die sich an den Stützstellen für die Funktion ergeben, gegeben ist durch 1 p(x) = 1 + (e − 1)x + (e − 1)2 x(x − 1) . 2 Ohne Beweis geben wir an: Folgerung 8.2.4 (Fehlerabschätzung) Sei f : [a, b] −→ R eine (n + 1)-mal differenzierbare Funktion und sei f (n+1) eine stetige Funktion. Seien τ : 0 = x0 < x1 = 1 < x2 = 2 Stützstellen und seien yi := f (xi ), 0 ≤ i ≤ n . Sei pn das zugehörige Interpolationspolynom. Dann gilt: |f (x) − pn (x)| ≤ kf − pn k∞ ≤ wobei wτ (x) := Qn i=0 (x kf (n+1) k∞ |wτ (x)| , x ∈ [a, b] , (n + 1)! (8.8) kf (n+1) k∞ kwτ k∞ , (n + 1)! (8.9) − xi ) , x ∈ R . 113 Will man das Interpolationspolynom nur an einer Stelle auswerten und nicht in Gänze kennen, dann kommt man mit sehr viel weniger Arbeitsaufwand aus, nämlich mit 3 3 (n − 1) + (n − 1)(n − 2) Additionen und (n − 1)(n − 2) Multiplikationen, 2 2 oder kurz, die Auswertung des Interpolationspolynoms ist von der Komplexität O(n2 ) flops. Die Idee für das Vorgehen, das dieses realisiert, steckt schon im Beweis zu Satz 8.2.2. Es wird Aitkens Methode genannt. 8.3 Approximation mit Polynomen Approximation Problem Es sei eine etwas schwierig zu handhabare Funktion“ f : [a, b] −→ R gegeben. Als ” Aufgabe stellen wir uns, eine leicht zu handhabare Funktion “ g : [a, b] −→ R zu ” finden, so dass e(f, g) := kf − gk∞ eine kleine“ Zahl ist. ” Die Funktion g wird die Approximierende von f genannt. Das Beste, was wir tun können, ist eine Menge G von einfach zu handhabaren“ stetigen Funktionen zu wählen und ein g∗ ∈ G zu ” suchen mit e(f, g∗ ) = inf e(f, g) . g∈G g∗ Solch ein wird eine beste Approximation von f bezüglich der Menge G (und der Tschebyscheff-Distanz) genannt.2 Als eine Menge von einfach handhabaren Funktionen ist die Menge von Polynomen; siehe oben. Der folgende Approximationssatz von Weierstrass besagt, dass jede stetige Funktion auf einem Interval [a, b] beliebig genau approximiert werden kann durch ein Polynom genügend großen Grades. Ein konstruktiver Beweis des Satzes kann mit Hilfe der Bernstein-Polynome erbracht werden. Die Bernstein-Monome sind definiert durch n i Bi,n (t) := t (1 − t)n−i , t ∈ [0, 1] , i = 0, . . . , n , n ∈ N . i (8.10) Die ersten Bernstein-Monome sind B0,0 (t) = 1 , B0,1 (t) = 1 − t , B1,1 (t) = t , B0,2 (t) = (1 − t)2 , B1,2 (t) = 2(1 − t)t . Satz 8.3.1 Sei f : [a, b] −→ R eine stetige Funktion. Dann gibt es zu jedem ǫ > 0 eine Zahl n ∈ N und ein Polynom p n–ten Grades mit kf − pk∞ = sup |f (x) − p(x)| < ǫ . x∈[a,b] 2 Wenn G ein endlichdimensionaler Vektorraum ist, dann existiert eine solche beste Approximierende. 114 Beweis: Da jedes Intervall durch eine affin–lineare Abbildung auf das Intervall [0, 1] transformiert werden kann, können wir o.E. annehmen, dass das Intervall [a, b] das intervall [0, 1] ist. Seien n X i n i f( ) x (1 − x)n−i , x ∈ [0, 1] , (n ∈ N) (8.11) bn f (x) := n i i=0 die so genannten Bernstein-Polynome. Diese Polynome nutzen wir nun, das Ergebnis zu beweisen. Eine erste Beobachtung ist: bn f (0) = f (0) , bn f (1) = f (1) für jedes n ∈ N . Mit n n 1 = 1 = (x + (1 − x)) = erhalten wir n X n i i=0 i n−i x (1 − x) =: n X Bi,n (x) , i=0 n X i (f (x) − f ( ))Bi,n (x) , f (x) − bn f (x) = n i=0 |f (x) − bn f (x)| ≤ n X i=0 i |f (x) − f ( )|Bi,n (x) . n Sei ǫ > 0 . Da f stetig ist, ist sie sogar gleichmäßig stetig. Also erhalten wir ein δ > 0 mit ǫ i i |f (x) − f ( )| < , falls |x − | < δ . n 2 n Wi setzen für jedes x ∈ [0, 1] Nx := {i ∈ {0, . . . , n}||x − Dann X i∈Nx i i | < δ} , Mx := {i ∈ {0, . . . , n}||x − | ≥ δ} . n n n ǫX ǫ X ǫ i Bi,n (x) ≤ Bi,n (x) = , |f (x) − f ( )|Bi,n (x) ≤ n 2 2 2 i∈Nx i=0 und mit m := maxx∈[0,1] |f (x)| X i∈Mx i |f (x) − f ( )|Bi,n (x) ≤ n ≤ X i∈Mx i i |f (x) − f ( )|Bi,n (x)(x − )2 δ−2 n n n 2m X i Bi,n (x)(x − )2 2 n δ i=0 n = i 2m X i Bi,n (x)(x2 − 2x + ( )2 ) . 2 n n δ i=0 115 Wir nutzen n X n xi (1 − x)n−i = 1 , i i=0 n n X X n − 1 i−1 n i i = x x (1 − x)(n−1)−(i−1) = x , x (1 − x)n−i n i−1 i i=1 i=0 n n X n i n − 1 i−1 xX x n−i i 2 (i − 1) x (1 − x) ( ) = x (1 − x)n−i + i i−1 n n n i=0 i=1 n 2 X n − 2 i−2 x x (i − 1) x (1 − x)n−i + (n − 1) = i−2 n n i=2 1 x x = x2 (1 − ) + = x2 + (1 − x) . n n n Dies impliziert für jedes x ∈ [0, 1] X i∈Mx n X i=0 Bi,n (x)(x − x(1 − x) 1 x 2 ) = x2 − 2x2 + x2 + ≤ , n n 4n i |f (x) − f ( )|Bi,n (x) ≤ n 2m 1 ǫ 2 4n < 2 δ wenn wir n mit nδ2 ǫ > m wählen. damit ist das Resultat gezeigt. Die Bernstein-Polynome haben eine Reihe von intessanten Eigenschaften: n X Bi,n (t) = Bn−i,n (1 − t) ( Symmetrie) (8.12) Bi,n (t) ≥ 0 ( Positivität) (8.13) Bi,n (t) = 1 ( Normalisierung) (8.14) Bi,n (·) (8.15) i=0 hat ein Maximum für t = i/n in [0, 1] . Bi,n (t) = tBi−1,n−1 (t) + (1 − t)Bi,n−1 (t) , 1 ≤ i ≤ n. (ReKursion) B0,n+1 (t) = (1 − t)B0,n (t) (8.16) (8.17) Bn+1,n+1 (t) = tBn,n (t) (8.18) (8.19) Die Einhüllende en (t) der Bernstein-Monome Bi,n (t), i = 0, . . . , n, ist gegeben durch 8.4 en (t) := p 1 2 π n t(1 − t) , 0 ≤ t ≤ 1. Bezier–Kurven Eine Kurve Rd ist eine Abbildung γ : [a, b] ∋ t 7−→ γ(t) := (γ1 (t), . . . , γd (t)) ∈ Rd ; 116 hier ist [a, b] das so genannte Parameterintervall. Wir nennen eine solche Kurve differenzierbar, falls für jedes t in [a, b] der Grenzwert γ̇(t) = lim h−1 (γ(t + h) − γ(t)) h→0 existiert.3 Beispiel 8.4.1 Betrachte die Kurve [0, 2π] ∋ t 7−→ (cos(t), sin(t)) ∈ R2 . Offenbar ist die Kurve differenzierbar. Eine polynomiale Kurve γ in Rd ist gegeben durch P : R ∋ t 7−→ a0 + a1 t + · · · + an tn ∈ Rd 1 wobei die Koeffizienten a0 , . . . , an ∈ Rd gegebene Vektoren in Rd sind. Eine solche Kurve kann mit einer Horner-ähnlichen Methode ausgewertet werden. Aber es ist schwer, die Koeffizienten so zu manipulieren, dass die Kurve geometrische Eigenschaften besitzt. Dies ist bei den nun zu besprechenden Bezier-Kurven anders. Bezier– Kurven nutzen Bernstein-Polynome als Basisfunktionen. 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 1.2 Seien P0 , . . . , Pn gegebene Punkte in Rd . Die Abbildung 8.1: Approximation des Kreises Kurve ist definiert durch n X P (t) = Pk Bk,n (t) , t ∈ [0, 1], (8.20) k=0 wobei B·,n die Bernstein-Monome der Ordnung n sind. Die Punkte P0 , . . . , Pn werden Kontrollpunkte oder Designpunkte genannt. Wir haben: • P (0) = P0 , P (1) = Pn . • Ṗ (0) = n(P1 − P0 ) , Ṗ (1) = n(Pn − Pn−1 ) . • P (t) ∈ co({P0 , . . . , Pn }) := {y ∈ Rd |y = λ0 P0 + · · · + λn Pn , λ0 + · · · + λn = 1, λi ∈ [0, 1], i = 0, . . . , n} . Die letzte Eigenschaft besagt, dass die Kurve in der konvexen Hülle der Kontrollpunkte liegt. Der Beweis dieser Eigenschaft stützt sich auf die Eigenschaften (8.13), (8.14). Die Rekursionseigenschaft (8.16) führt zu einer numerisch stabilen und effizienten Methode, die Bezierkuve an einer festen Stelle t auszuwerten, nämlich zum Algoithmus von de Casteljau. 3 Im Kontext von Kurven benutzen wir die Bezeichnungsweise der Physiker: γ̇(t) anstatt γ ′ (t). 117 Die Basis der Methode ist die folgende Umfomulierung einer Bezier–Kurve (8.20): P (t) = n X Pk Bk,n (t) = P0 B0,n (t) + k=0 n−1 X Pk Bk,n (t) + Pn Bn,n (t) k=1 = (1 − t)P0 B0,n−1 (t) + (1 − t) +tPn Bn−1,n−1 (t) + t n−1 X n−1 X Pk Bk,n−1 (t) k=1 Pk Bk−1,n−1 (t) k=1 Wir sehen also, dass die Bezier–Kurve der Ordnung n die Konvexkombination zweier Bezier– Kurven der Odnung n − 1 ist. Hier ist ein Fragment des Algorithmus von de Casteljau.4 de Casteljau: for j = 0, . . . , n Q0j := Pj ; for r = 1, . . . , n für j = 0, . . . , n − r r−1 + t(Qr−1 Qrj := Qr−1 j j+1 − Qj ) ; P (t) := Qn0 . Here P0 , . . . , Pn are the control points and t is the parameter where the value of the Bezier–curve has to be found. Beispiel 8.4.2 Wir wollen die Kreislinie mittels einer Bezier–Kurve P dritter ordnung approximieren. Wir führen dies im ersten Quadranten duch und fodern, dass die Tangenten in den Endpunkten P0 = (1, 0) , P3 = (0, 1) mit den Tangenten am Einheitskreis übereinstimmen. Daher haben wir Kontrollpunkte P1 , P2 auf den Tangenten an die Kreislinie zu wählen. Da wir die Symmetrie der Approximation bezüglich der Winkelhalbierenden x = y in R2 erreichen wollen, sind die Punkte P1 , P2 mit den Koordinaten P1 = (1, ξ) , P2 = (ξ, 1) wobei ξ ein freier Parameter ist, zu wählen. Wir bestimmen den freien Paameter so, dass der Punkt P ( 21 ) ein Punkt auf der Kreislinie ist: ξ ≈ 0.5519 . Mit diesen Kontrollpunkten P0 , P1 , P2 , P3 wird die zugeordnete Bezier– Kurve eine ziemlich gute Approximation der Kreislinie: wir können kaum zwischen Approximation und Kreislinie unterscheiden. siehe Abbildung 8.1. 8.5 Übungen 8.1 Consider a polynomial p of degree 3 of the form p(x) = a0 + a1 x + a2 x2 + a3 x3 , a0 , a1 , a2 , a3 ∈ R . 4 Bezier und de Casteljau waren Angestellte bei Renault bzw. Citroen. Der Algoithmus war verborgen in einem technischen Report(1963). 118 (a) Show that p has three distinct real roots when p′ has two distinct real roots u1 , u2 and p(u1 )p(u2 ) < 0 . (b) Is the converse in (a) true? 8.2 Consider a polynomial p of degree 3 with coefficients a0 , a1 , a2 , a3 ∈ [0, 1] . (a) What is an upper (u) and a lower bound (l) for the values of p in the interval [0, 1]? (b) Construct polynomials p1 , . . . , p1 with random coefficient in [0, 1] and find for each polynomial the value in z = 21 . (c) Visualize the results by a plot. 8.3 Let f (x) := ex , x ∈ R and ε := 10−3 . Consider the equidistant partition 0 = x0 < x1 < · · · < xn = 1 . Determine a number n ∈ N such that kf − gn k∞ ≤ ε when gn is chosen as the interpolating polynomial or the natural cubic spline. 8.4 For strictly monotone functions f one can use the inverse interpolation for finding zeros of f. Let x0 < · · · < xn a set of nodes and let yi = f (xi ), i = 0, . . . , n, given values. The method consists in interpolating the data xi of f −1 in the nodes yi . The value q(0) of this interpolation polynomial is an approximation of an zero of f . This value can be found by the Aitken-scheme. Use this method to solve the equation f (x) := 2x − 3 = 0 using the nodes x0 = 0, x1 = 1, x2 = 1.5, x3 = 2 . Which additional node x4 should be used to improve the accuracy of the solution of this equation. 8.5 Consider the statistical data of the population of the world in the table to right. (a) Compute with the Aitken-scheme the size of the population for the year 0 by using the data 1-4. (b) Compute with the Aitken-scheme the size of the population for the year 2000 by using the data 5-8. no. 1 2 3 4 5 6 7 8 year −7000 −1000 900 1700 1800 1900 1950 1960 population 10 80 320 600 906 1608 2414 3003 8.6 Suppose the function g has an inverse f on [a, b] . If a = x0 < x1 < · · · < xn and yi = g(xi ), i = 0, . . . , n. Then the polynomial that interpolates the data (yi , xi ) is an interpolate of the inverse f (inverse interpolation). (a) Compute an approximate of g(x) = 2 by using inverse interpolation when we know the data 0 = g(0), 1 = g(1), 4 = g(2), 9 = g(3) . (b) Give an estimate for the period of life of adam and eve by using the data 1-4 in the table of the last exercise. 8.7 Let us define for a continuous function g : [a, b] −→ R En (g) := inf max |g(x) − p(x)| , n ∈ N . p∈Pn x∈[a,b] Here Pn := {p|p polynomial of degree ≤ n} . Let f (x) := x2 , x ∈ [0, 1] . 119 (a) Determine p ∈ P1 whit E1 (f ) = maxx∈[0,1] |f (x) − p(x)| . (b) The Bernstein-approximations of f are given by bn (f ; x) := n X i=0 i n i x (1 − x)n−i , n ∈ N . f( ) n i Represent b1 (f ; ·) and b2 (f ; ·) by a linear combination of the monomials. (c) Compute E2 (f ) and maxx∈[0,1] |f (x) − b2 (f ; x)| . 8.8 (a) Realize the de Casteljau-algorithm in a Matlab-function y= YourCasteljau(PP,tt) where PP is the vector of control points and tt is the parameter for the evaluation. (b) Use y= YourCasteljau(PP,tt) to find the Bezier–curve with control points P0 = (1, 1) , P1 = (4, 7) , P2 = (9, 8) , P3 = (14, 3) . 8.9 Consider the polynomial p(x) := a0 + a1 x + · · · + an−1 xn−1 + xn ; a0 , . . . , an−1 ∈ R . (a) −1 Let k0 , . . . , kn−1 ∈ (0, ∞) with k0−1 + · · · + kn−1 = 1 . Show for each zero z of p |z| ≤ p n−i max 0≤i≤n−1 |ai |ki . (b) Try to find with (a) a reasonable bound for the zeros of the polynomial p(x) := x3 − x2 + x − 1. (c) Find all zeros of p(x) := x3 − x2 + x − 1. 8.10 Associated to the nodes x0 < x1 < x2 < · · · < xn the Lagrangian polynomials are given by n Y x − xk , j = 0, . . . , n . Ln,j (x) = xj − xk k=0,k6=j Q Let w(x) := nk=0 (x − xk ) . (a) Show Ln,0 (x) + Ln,1 (x) + · · · + Ln,n (x) = 1, x ∈ R . (b) Show Ln,j (x) = (c) w(x) , j = 0, . . . , n . (x − xj )w′ (xj ) Assume that the values y0 , . . . , yn are given. Using (b) the interpolating polynomial is given by n X βj yj p(x) = w(x) with βj = ′ , j = 0, . . . , n . (x − xj ) w (x ) j j=0 What is the advantage of this presentation in comparison to the usual presentation p(x) = n X yj Ln,j (x) , j=0 when we want to evaluate the interpolating polynomial p for several points x = z1 , . . . , zm ? 8.11 120 (a) Write a Matlab-code MyHorner(a,z) to evaluate a polynomial with the coefficients ai in z. (b) A polynomial of the form p(x) = a0 + a2 x2 + · · · + am x2m is said to be even, while a polynomial of the form p(x) = a1 x + a3 x3 + · · · + am x2m+1 is said to be odd. Generalize MyHorner(a,z) so that it has an optional third argument type that indicates whether or not the underlying polynomial is even or odd: YourHorner(a,z,type) (c) Test YourHorner(a,z,type) with the polynomial p(x) := x4 − 2x2 + 1 and with z = 1 . 121 Kapitel 9 Fast Fourier Transform The fast Fourier transform (FFT) is an important tool in signal analysis and image processing. We sketch the main issues in implementing this transform. 9.1 Some comments concerning signal theory A signal is a function of time“ which is used to carry information. Examples of sciences are: ” • Audio signals (speech, music, videos) • Radar signals • Digital signals in imaging • Cell signalling (Digital) signal processing ist the study of signals in a (digital) representation and the processing methods of these signals. Subfields of signal processing are: sampling of signals, converting signals from an analog to a digital form, enhancement of signals, filtering of signals, storing of signals, coding of signals. Definition 9.1.1 A function s : R −→ R of the form s(t) = a sin(ωt + ϕ) , t ∈ R, is called a harmonic signal. a is called the amplitude, ω the circle frequency (measured in sec−1 ), ν := ω/(2π) the frequency (measured in Hz (hertz)), T := 1/ν period and ϕ the phase of the signal, respectively. The hertz1 is a unit of frequency. One hertz means one cycle per second“. In computing, most ” CPUs are labeled in terms of their clock speed expressed in megahertz (106 hertz) or gigahertz (109 hertz). This signal is simply an electric voltage which changes from low to high and back again at regular intervals. A harmonic signal s is a special case of a harmonic signal in complex notation: x : R −→ C , x(t) := a exp(i(ωt + ϕ)) , t ∈ R, since s can be viewed as the imaginary part of x: s(t) = ℑx(t) , t ∈ R . 1 H.R. Hertz, german physicists 122 Definition 9.1.2 A function f : R −→ R is called a periodic signal if there exists a time“ ” T̃ > 0 with f (t + T̃ ) = f (t) for all t ∈ R ; T̃ is called a period of f . In the case that f is a periodic signal, T := inf {T̃ > 0 | T̃ a period of f } is called the period of f. It should be clear that for a periodic signal the number T is the smallest period of f when f is a continuous function. Especially, each harmonic sgnal is periodic with period T = 1/ν . Example 9.1.3 The superposition of periodic signals is not necessarily a periodic signal. This shown by two examples of harmonic signals: s1 (t) := a1 sin(ω1 t) , s2 (t) := a2 sin(ω2 t) , t ∈ R , where a21 + a22 6= 0 . Then s := s1 + s2 can be represented as s(t) = sm (t)str (t) where 1 sm (t) = (a21 + a22 + 2a1 a2 cos((ω1 − ω2 )t)) 2 , t ∈ R , 1 a1 − a2 1 str (t) = sin( (ω1 + ω2 )t + ϕ(t)) , t ∈ R , with tan(ϕ(t)) = tan( (ω1 + ω2 )t) . 2 a1 + a2 2 str and sm are called carrier signal and modulated signal, respectively. The frequency of the carrier signal and the amplitude is timedependent. An interesting special case is when the difference of the frequencies of the harmonic signals is small. This phenomenon is called beat (in Deutsch: Schwebung). It is a very important fact that it is possible to decompose periodic signals into a decomposition of a countable family of harmonic signals. This is considered in the theory of Fourier series very extensively; we refer to the literature. 9.2 Trigonometric interpolation problem Definition 9.2.1 A trigonometric polynomial is a function p : R −→ C of the following form: n X cj eijt , t ∈ R ; p(t) := j=0 c0 , . . . , cn ∈ C are called the coefficients of p and n is called the degree of p (when cn 6= 0). We set Tn := {p : R −→ C | p trigonometric polynomial of degree ≤ n} . It is immediately clear that each trigonometric polynom p is periodic function with period 2π : p(t + 2π) = p(t) for all t ∈ R . Trigonometric interpolation problem Given n distinct points τ := 0 = t0 < t1 < . . . < tn−1 < 2π on the real line and y0 , . . . , yn−1 ∈ C, find a trigonometric polynomial p of degree n − 1 such that p(ti ) = yi for i = 0, . . . , n − 1. (Again, the points t0 , . . . , tn−1 are called the nodes of the partition τ .) 123 Satz 9.2.2 (Existence) Given the data points (t0 , y0 ), . . . , (tn−1 , yn−1 ), then there exists a uniquely determined polynomial p in Tn−1 with p(ti ) = yi for i = 0, . . . , n − 1. Proof: Consider the linear mapping L : Cn −→ Cn , (c0 , . . . , cn−1 ) 7−→ (pc0 ,...,cn−1 (t0 ), . . . , pc0 ,...,cn−1 (tn−1 )) ∈ Cn Pn−1 where pc0 ,...,cn−1 (t) := j=0 cj eijt , t ∈ [0, 2π] . We prove the injectivity of L. Since L is a linear mapping it is enough to show that the preimage of the null vector must be the nullvector. Let L(c0 , . . . , cn−1 ) = (0, . . . , 0). Then 0= n−1 X j=0 cj eijtk , k = 0, . . . , n − 1 , and we conclude that the polynomial q(z) := n−1 X cj z j j=0 has n different zeros, namely z0 = 1 = eit0 , z1 = eit1 , . . . , zn−1 = eitn−1 . This implies that q is the null polynomial by the fundamental theorem of algebra and therefore pc0 ,...,cn−1 is the null polynonial. This proves uniqueness. Since L is a linear mapping, L is surjective too for dimension reasons. Hence L is bijective and uniqueness and existence are proved. Lemma 9.2.3 We have n−1 1 X l−k j (ωn ) = n j=0 ( 1 0 if l = k , k, l = 0, . . . , n − 1 , if l = 6 k (9.1) where ωn := exp(− 2πi n ) is the n-th root of unity. Proof: When k = l nothing has to be shown. Let k 6= l. Assume k > l. Then n−1 X (ωnl−k )j = j=0 (l−k) since ωn 1 − ωn(l−k)n 1 − ωn(l−k) (l−k)n 6= 1 due to 0 < k − l < n and ωn = 0, = e2πi(k−l) = 1 . Satz 9.2.4 Let 0 = t0 < · · · < tn−1 < 2π be an equidistant partition of [0, 2π] : tj = 2π j , j = 0, . . . , n − 1 . n Then the solution p of the interpolation problem is given as follows: p(t) = n−1 X j=0 n−1 cj eijt , t ∈ R, where cj = 124 1 X jl (ωn ) yl n l=0 (9.2) Proof: Since ωnjk = e−ijtk we obtain by using Lemma 9.2.3 ! n−1 n−1 n−1 X X X X 1 n−1 1 (ωnl−k )j = yk , k = 0, . . . , n − 1 . (ωnjl )yl ωn−jk = yl p(tk ) = n n j=0 9.3 l=0 j=0 l=0 Discrete Fourier transform Definition 9.3.1 The mapping ˆ : Cn −→ Cn , Cn ∋ z 7−→ ẑ ∈ Cn , with ẑj := n−1 X k=0 ωnjk zk , j = 0, . . . , n − 1 is called the discrete Fourier transform (DFT); here again ωn := exp(− 2πi n ). (9.3) Remark 9.3.2 According to Theorem 9.2.4, the discrete Fourier transform can be used to compute the coefficients c := (c0 , . . . , cn−1 ) of the interpolating polynomial in the case of equidistant distributed nodes: 1 c = ŷ where y := (y0 , . . . , yn−1 ) . (9.4) n Lemma 9.3.3 Let z = (z0 , . . . , zn−1 ) ∈ Cn . Then n−1 zl = 1 X −jl ωn ẑj , l = 0, . . . , n − 1 . n (9.5) j=0 Proof: We have with Lemma 9.2.3 for l = 0, . . . , n − 1 n−1 n−1 n−1 n−1 n−1 j=0 j=0 k=0 k=0 j=0 X 1X 1 X −jl 1 X X −jl kj zk ωn ωn zk = ωn ẑj = ωn(k−l)j = zl . n n n Definition 9.3.4 The mapping ˇ : Cn −→ Cn , Cn ∋ z 7−→ ž ∈ Cn , with žj := n−1 X k=0 ωn−jk zk , j = 0, . . . , n − 1 (9.6) is called the inverse discrete Fourier transform (IDFT); here again ωn := exp(− 2πi n ). Corollary 9.3.5 (a) ˆ, ˇ : Cn −→ Cn are linear and bijective mappings. (b) n−1 X k=0 n−1 |zk |2 = 1X |ẑj |2 , z = (z0 , . . . , zn−1 ) n j=0 125 (9.7) Proof: The linearity is obvious. The bijectivity follows from Lemma 9.3.3. Let us prove the identity in (9.7). n−1 n−1 n−1 X 1 n−1 X X X ωn−jk ẑj |zk |2 = ωn−lk ẑl 2 n j=0 k=0 k=0 l=0 = = n−1 n−1 1 X X (l−j)k ωn ẑj ẑl 2 n j=0 l=0 k=0 n−1 X n−1 X ẑj j=0 = n−1 X n−1 X l=0 ẑj ẑj j=0 ẑl n−1 1 X (l−j)k ωn n2 k=0 1 n Remark 9.3.6 It is possible to compute the discrete Fourier transform and the inverse Fourier transform by the operation of a certain matrix on the data. Let 1 Ŵ := √ (ωnkj )1≤j,k≤n ∈ Cn,n , n 1 W̌ := √ (ωn−kj )1≤j,k≤n ∈ Cn,n . n With these matrices we have for z = (z0 , . . . , zn−1 ) ∈ Cn √ ẑj = n(Ŵ z)r if j = r mod n , 1 žj = √ (W̌ z)r if j = r mod n . n Here a = r mod b means a = kb + r for some k ∈ Z . Clearly, the evaluation of the discrete Fourier transform and of the inverse discrete Fourier transform in a straight forward manner needs O(n2 ) flops. 9.4 Fast Fourier Transform Here we illustrate the basic steps of the Fast Fourier Transform (FFT).2 This is a recursive method which evaluates the discrete Fourier transform in O(n log2 (n)) flops when n is a power of 2. A recursive algorithm to compute the DFT in this case is described in the following. Let z := (z0 , . . . , zn−1 ). We want to compute Z := ẑ . Clearly, when we have a fast procedure for the computation of the vector Z = (Z0 , . . . , Zn−1 ) then we have a fast procedure for the inverse Fourier transform ž too. This follows from žn−j n−1 n−1 n−1 k=0 k=0 l=0 X1 X1 1 X −k(n−j) = zk ωn−kn+kj = zl ω kj = ŵj , j = 0, . . . , n − 1 , ωn zk = n n n n 2 This transform was discovered in 1965 by Cooley and Tuckey. Actually, the FFT was discovered by Gauss in 1805 - two years before Fourier completed his first big article – but Gauss never published his paper on this subject. 126 1z ,..., 1z where w = ( n 0 n n−1 ) . Consider the following properties: (n−k)j Symmetry ωn = ωnkj , k, j = 0, . . . , n − 1 . k(j±n) Periodicity ωnkj = ωn = ωn±nj , k, j = 0, . . . , n − 1 . These properties are basic in the cyclic group Rn := {1, ωn , . . . , ωnn−1 } . With the help of the symmetry property one can save certain operations. But the break through is to introduce the periodicity property. This property makes it possible to divide the problem into smaller problems of the same form. Let n = 2s , s ≥ 2, and m := n/2 = 2s−1 . We want to solve the following problem: Given z = (z0 , . . . , zn−1 ) ∈ C, compute Z := ẑ = (ẑ0 , . . . , ẑn−1 ) . We start from the following observation: Zj = n−1 X ωnkj zk = m−1 X ωn2lj z2l l=0 l=0 + m−1 X ωn(2l+1)j z2l+1 = m−1 X (ωn2 )lj z2l + ωnj l=0 l=0 m−1 X (ωn2 )lj z2l+1 l=0 Since ωn2 = ωm , ωnm = −1, we obtain Zj = Uj + ωnj Vj , Zj+m = Uj − ωnj Vj , j = 0, . . . , m , where Uj = m−1 X lj ωm z2l , Vj = l=0 m−1 X l=0 lj ωm z2l+1 , j = 0, . . . , m − 1 . (9.8) (9.9) From this identities we conclude that the computation of the DFT of size n can be carried out by applying two n 2 16 256 1024 DFT of size m = n/2 . All what we FT 4 256 65536 1048576 have to do is to divide the data vecFFT 2 64 2048 10240 tor z of size n into two data vectors Einsparung 50 % 75 % 97 % 99 % z e , z o of size m = n/2, where z e conAbbildung 9.1: Schnelligkeitsvergleich tains the components with even and o z contains the components with odd subscripts respectively. Of course, the problems of size m can now be treated in the same way. Since n = 2s with s = log2 (n) the recursive scheme computes the result in log2 (n) stages; the problem with n = 1 is trivial solvable. Such a procedure is called a method of divide et impera“ ” spalte und herrsche“ ” 127 divide and conquer“ ” The method to compute a discrete Fourier transform in this recursive manner (see (9.8), (9.9)), is called the fast Fourier transform/FFT. It can be realized by the following fragment of an algorithm: MATLAB-illustration 9.1 The size n of the problem has to be a power of 2. a.∗b denotes the multiplication“ ” of the vectors a = (a0 , . . . , an−1 ), b = (b0 , . . . , bn−1 ) by building the vector (a0 b0 , . . . , an−1 bn−1 ). function Z = F F T (z) n = length(z); m = n/2; if n = 1 Z = z return end U = F F T (z0 , z2 , . . . , zn−2 ), V = F F T (z1 , z3 , . . . , zn−1 ) for k = 0 : m − 1 wk = exp(−2 ∗ P i ∗ i ∗ k/n) end Z = (U + w. ∗ V, U − w. ∗ V ) Example 9.4.1 Consider the DFT Z of the vector z = (3, −2, 0, 1) . The recursion leads to the following steps: U := 3, V := 0, w := 1, Z := (3 + 1 · 0, 3 − 1 · 0) = (3, 3) . U := −2, V := 1, w := 1, Z := (−2 + 1 · 1, −2 − 1 · 1) = (−1, −3) . U := (3, 3), V := (−1, 3), w := (1, i); therefore Z := ((3, 3) + (−1, −3i), (3, 3) − (−1, −3i)) = (2, 3 − 3i, 4, 3 + 3i) . Remark 9.4.2 The FFT procedure can also be set up when n is not a power of 2. An effective way to handle the general case is to consider the DFT as a problem of multiplying a matrix C of size n to the data vector. Due to the properties of the principal roots this matrix can be partionated into subblocks of smaller size. The implementation of the method is illustrated by the so called butterfly diagram; see Figure 9.2. Let C(n) be the computational cost for computing the DFT of size n where n is a power of 2 via the fast Fourier transform. Then the FFT solves the DFT of size n with cost C(n) = 2C(n/2) + c(n) (9.10) z0 Fouriertrans− z2 formation der z4 Ordnung 4 z6 z1 Fouriertrans− z3 formation der z5 Ordnung 4 z7 U0 U1 ω1 Ζ0 Ζ1 Ζ2 U3 Ζ3 V0 Ζ4 V1 V2 − ω2 −ω Abbildung 9.2: Butterfly 128 0 U2 V3 where c(n) := 3(n/2) is the cost for the computation scheme in (9.8); here we have omitted the computational cost for the evaluation of ωnj . ω 3 Ζ5 Ζ6 Ζ7 Satz 9.4.3 Let n be a power of 2. The cost for computing the discrete Fourier transform of z ∈ Cn by the fast Fourier transform is O(n log2 n) . Proof: We set C(s) := T (2s ) . Oviously C(1) = 2 . We show C(s) = 1.5s2s , s ∈ N , inductively. Clearly, C(1) = 2 . Moreover C(s + 1) = 2C(s) + 3 2s = 3 s2s + 3 2s = 1.5(s + 1)2s+1 . Remark 9.4.4 We have proved the complexity of the fast Fourier method in Theorem 9.4.3 in direct way without using the master theorem of complexity In Section 9.4 we have already mentioned that the computation of the discrete Fourier transform may also considered as multiplication of a vector with a matrix W : W := (wnjk )0≤j,k≤n−1 What is the relation with the fast Fourier transform? The answer is that W may decomposed into s blocks of sparse matrices W 1 , . . . , W s ∈ Cn,n by using the periodicity of the powers of ωn , i.e. W = Ws ···W1 . Then, the computation of the discrete Fourier transform ẑ is done in the following way: Z 0 := z , Z k+1 := W k Z k , k = 0, . . . , s − 1 ; ẑ := Z s . We sketch this procedure in the case n = 4 . We set ω := ω4 . Here W is given as follows: 1 1 1 1 1 ω 1 ω 2 ω 3 W = 1 ω 2 1 ω 2 . 1 ω3 ω2 ω1 We want to compute Z := W z . We swap 1 1 Z0 Z2 1 ω 2 = Z1 1 ω 1 1 ω3 Z3 in the vector Z the components Z1 , Z2 and obtain: z0 |1 1 2 |1 ω z1 , Z̃ = W̃ z . 2 | ω ω 3 z2 | ω2 ω1 z3 Then we see that the submatrices W11 , W12 , W21 , W22 of W̃ satisfy W12 = W11 , W22 = ω 2 W21 . 129 This fact suggests a decomposition of W̃ into a 1 1 1 1 1 1 1 ω 2 1 ω 2 1 ω 2 1 ω 1 ω 2 ω 3 = 0 0 1 ω3 ω2 ω1 0 0 product in the following way: 0 0 1 0 1 0 0 0 0 1 . 0 1 2 0 1 1 1 0 ω 0 ω1 0 ω3 1 ω2 Now, the computation may be carried out in two steps. Step 1 (Notice that ω 2 = −1) 1 Z0 1 0 1 0 z0 Z11 0 1 0 1 z1 = . Z 1 1 0 −ω 0 0 z2 2 Z31 0 ω1 0 −ω 1 z3 To realize this step we need 4 (complex) multiplications and 2 (complex) additions. Step 2 (We ignore the fact ω 2 = −1) 2 1 Z0 1 1 0 0 Z0 Z 2 1 ω 2 0 0 Z 1 1 = 1 Z22 0 0 1 1 Z21 . Z32 0 0 1 ω2 Z31 Actually, this product corresponds to two discrete Fourier transforms of size 2, since ω 2 = ω2 . For the realization of this step we need 2 (complex) multiplications and 4 (complex) additions. For the realization of step 1 and step 2 we need 8 (complex) multiplications and 4 (complex) additions. This corresponds to the result in Theorem 9.4.3. Remark 9.4.5 Digital pictures/images are usually given by a matrix of real numbers representing the gray (or color) values. Such a matrix F = (fij )i,j=0,...,n−1 has a diskrete (2D– )Fouriertransformation F̂ = DFT(F ): F̂ (k, l) := n−1 X n−1 X i=0 j=0 f (i, j)ωn(ki+lj) , k, l = 0, . . . , n − 1 . Since this 2D-transform may be decomposed into two 1D-discrete Fourier transforms we may use the fast Fourier transform for image analysis too. 9.5 Exercises 130 Kapitel 10 Verteilungen und Statistik Statistik beschäftigt sich der Auswertung/Bewertung von Daten und dem Testen von Hypothesen. Das Wort Statistik stammt vom lateinischen statisticum (den Staat betreffend). Die Statistik bezeichnete ursprünglich die Lehre von den Daten über den Staat, also Staatstheorie1 . Erst im 19. Jahrhundert erlangte es seine heutige Bedeutung als allgemeines Sammeln und Auswerten von Daten. Heutzutage liegen sehr erfolgreiche Software-Pakete vor, die Aufgaben bei konkreten Daten erledigen. 10.1 Merkmale, Stichproben und Simulation Die Statistik kann in die folgenden drei Teilbereiche eingeteilt werden: Deskriptive/empirische Statistik Damit werden vorliegende Daten in geeigneter Weise beschrieben und zusammengefasst. Mit ihren Methoden verdichtet man quantitative Daten zu Tabellen, graphischen Darstellungen und Kennzahlen. Mathematische Statistik In der mathematische Statistik, auch schließende Statistik genannt, leitet man aus den Daten einer Stichprobe Eigenschaften einer Grundgesamtheit ab. Die Wahrscheinlichkeitstheorie liefert die Grundlagen für die erforderlichen Schätz- und Testverfahren. Explorative Statistik Diese Form der Statistik stellt methodisch eine Zwischenform dar: Mittels deskriptiver Verfahren und induktiver Testmethoden spürt sie systematisch mögliche Zusammenhänge (oder Unterschiede) zwischen Daten in vorhandenen Datenbeständen (Datenschürfung (data mining)) auf. Im Alltag, in Wissenschaft und Technik, in Verwaltungen fallen große Datenmengen an oder werden gezielt erhoben. Im Regelfall sind dies Daten über ein Merkmal X, das an den Elementen einer (umfangreichen) Beobachtungseinheit/Untersuchungseinheit einer Grundgesamtheit von Individuen oder Objekten in unterschiedlichen Ausprägungen zu erkennen ist. Werte, die von Merkmalen angenommen werden können, heißen Merkmalsausprägungen. Etwa: Untersuchungseinheit Erbsen Laptops Bürgertum Merkmal Oberfläche Leistungsfähigkeit Schulabschluss Ausprägungen glatt, runzelig,. . . Taktfrequenz in Hertz, Operationen/Sekunde. . . Hauptschule, Promotion,. . . 1 Die deutsche Statistik wurde eingeführt von Gottfried Achenwall (1749). Im Statistischen Bundesamt (mit Sitz in Wiesbaden) mit seinem hoheitlichen Charakter spiegelt sich recht gut der historische Ursprung des Begriffs Statistik wider. 131 Das Ziel von Datenanalyse ist dann, eine aufschlussreiche Beschreibung der Verteilung dieser Ausprägung über die Beobachtungsmenge zu gewinnen. Unter einer statistischen Aussage über ein Merkmal X verstehen wir dann eine Aussage über diese Verteilungen. Wahrscheinlichkeiten kommen dann ins Spiel, wenn wir in X eine Zufallsgröße sehen (oder vermuten). Werden wir etwas formaler. Definition 10.1.1 Sei Ω eine endliche nichtleere Menge. a) Sei M eine Menge. Jede Abbildung X : Ω −→ M heißt Merkmal auf der Grundgesamtheit/Beobachtungsmenge Ω ; das Bild X(ω) für ein Element ω ∈ Ω nennt man seine Ausprägung. (b) Ein Merkmal X mit Wertebereich M := R nennt man ein quantitatives Merkmal. (c) Die Beobachtung von Ausprägungen x1 , . . . , xn ∈ M von n Elementen aus Ω nennt man eine Meßreihe. Beachte: Die Werte in einer Stichprobe müssen nicht notwendigerweise verschieden sein. Bei quantitativen Merkmalen unterscheidet man noch zwischen quantitativen und kontinuierlichen Merkmalen. Etwa: Diskrete Merkmale: Anzahl der Diplomabschlüsse pro Jahr, Zahl der Milchkühe in Bayern, Alter in Jahren. Kontinuierliche Mermale: Gewicht eines Affen in einer Affenpopulation; Entfernungen im Planetensystem. Beispiel 10.1.2 Der Fachbereich Mathematik der Universität startet eine Umfrage unter ehemaligen Studenten, die in den letzten fünf Jahren den Abschluß als Diplommathematiker erreicht haben. Es wird eine Fragebogen erarbeitet und verschickt mit folgenden Fragen: (1) Wieviele Monate dauerte es vom Erwerb des Diploms bis zur ersten Anstellung? (2) Sind Sie selbständig erwerbstätig oder war ihre erste Anstellung an einer Universitätseinrichtung, in einer Großfirma (mehr als 200 Mitarbeiter), in einem mittelgroßen Betrieb (30 bis 200 Mitarbeiter), in einer Kleinfirma (weniger als 30 Mitarbeiter) oder sind Sie noch ohne Anstellung? (3) Wie schätzen Sie Ihr Gehalt ein? Höher, etwa gleich oder niedriger als das Gehalt von Diplominformatikern? Die erste Frage bezieht sich auf ein quantitatives Merkmal, als Antwort kommt eine Zahl in Frage, die zweite Frage bezieht sich auf ein qualitatives Merkmal, als Antwort ist ein Element aus der Menge mit den Elementen selbständig, Universitätseinrichtung, Großbetrieb, Mittelbetrieb, Kleinfirma, ohne Anstellung zu entnehmen. Die dritte Frage bezieht sich auf ein Rangmerkmal, der Befragte soll sein Gehalt in eine vorgegebene Liste einordnen. Die Beobachtungsmenge ist hier die Menge der erfolgreichen Studienabgänger im Studiengang Diplommathematik“. ” 132 Als Stichprobe2 bezeichnet man eine Teilmenge einer Grundgesamtheit/Untersuchungseinheit, die unter bestimmten Gesichtspunkten ausgewählt wurde und über die hinsichtlich eines oder mehrerer interessierender Merkmale eine Aussage gemacht werden soll. Mit Stichproben wird in Anwendungen der Statistik (etwa in der Marktforschung, aber auch in der Qualitätskontrolle und in der naturwissenschaftlichen, medizinischen und psychologischen Forschung) häufig gearbeitet, da es oft nicht möglich ist, die Grundgesamtheit, etwa die Gesamtbevölkerung oder alle hergestellten Exemplare eines Produkts, zu untersuchen. Grundgedanke der Zuhilfenahme von Stichproben ist das Induktionsprinzip, bei dem von besonderen auf allgemeine Fälle geschlossen wird. Um die einzelnen Elemente einer Stichprobe zu erhalten, stehen verschiedene Auswahlverfahren zur Verfügung. Die korrekte Wahl des Auswahlverfahrens ist wichtig, da die Stichprobe repräsentativ sein muss, um auf die Grundgesamtheit schließen zu können (siehe dazu z.B. Hochrechnung). Entscheidend ist eine vernünftige Probenahme, die über den Erfolg der Aussage entscheidet. Häufig sind mehrere Tests notwendig um sicherzustellen, dass tatsächlich rational entschieden wurde. Hat man dann schließlich die Stichprobe gewählt, dann liegt das Problem der Datenbeschaffung an. Hier treten etwa bei BeProf. Ulmer: Der Wurm liegt im sogenannten refragungen folgende Probleme auf: präsentativen Querschnitt. Den gibt es nämlich • Ist es gut, Vorinformationen über die Ziele einer Befragung zu geben? • In welcher Weise kann die Anonymität der Befragung gewährleistet werden? • Kann die Befragung durch eine aktuelle Stimmungslage in der Grundgesamtheit beeinträchtigt werden? • Wie wertet man eine geringe Rücklaufquote bei einer Befragung durch verschickte Fragebögen? gar nicht! Es ist unmöglich, aus allen Wahlberechtigten eine Gruppe von 500 bis 2000 Personen auszuwählen, die dann repräsentativ für alle sind. Das geht auch nicht mit 10000. Prof. Ulmer: Für eine handelsübliche Umfrage nehmen sie Telefonbücher und suchen darin zufällig 1000 Nummern aus. Sie rufen an und fragen die Leute. Falls niemand zu Hause ist oder die Person das Interview verweigert, dann wird eine andere Nummer ausgelost bis 1000 Antworten vorliegen. Prof. Ulmer ist Statistik-Professor Abbildung 10.1: Stichprobenkontroverse Was eine Grundgesamtheit ist, bedarf einer genauen Festlegung. Nicht immer fällt dies leicht. Schwierige Fälle etwa sind: Population der arbeitsfähigen Personen, der Millionäre, der Einwohner in Frankfurt deutschen Blutes“. ” Leichte Fälle: Firmen, die beim DAX berücksichtigt werden, Aktiengesellschaften im Bereich der IHK Frankfurt, im Studiengang Diplommathematik“ in Frankfurt eingeschriebene StudentIn” nen. Simulation nennt man die Nachbildung eines realen Processes. Wir kennen die Begriffe simulieren, Flugsimulator, Computersimulation. Hier interessiert die Nachbildung eines Zufallsversuches mit Hilfe eines Zufallsgeräts“. Dabei ist darauf zu achten, dass jedem Ausgang des ” Zufallsversuchs genau ein Ausgang bei der Simulation entspricht. Natürlich müssen auch die Wahrscheinlichkeiten der Ausgänge beim Zufallsversuch und der entsprechenden bei der Simulation übereinstimmen. Eine Simulation, welche für theoretische Überlegungen sehr wichtig ist, 2 Die Bezeichnung Stichprobe kommt von der Praxis, bei Hochöfen durch einen Anstich zu testen, ob der Stahl eine gewünschte Eigenschaft hat. 133 bietet das Urnenmodell. Jeder Zufallsversuch mit rationalen Wahrscheinlichkeiten lässt sich durch ein Urnenmodell simulieren. Ist nämlich Ω = {ω1 , . . . , ωn } die Menge der Elementarereignisse und ai mit ai ∈ N0 für i = 1, . . . , n, und a1 + · · · + an = b > 0 , P (ωi ) = b dann denke man sich eine Urne mit b Kugeln. Jeweils ai Stücke dieser Kugeln werden mit ωi beschriftet. Eine Durchführung des Zufallsversuchs besteht dann drin, nachdem die Kugeln gut gemischt wurden, blind“ eine Kugel aus der Urne zu ziehen, deren Aufschrift festzustellen. Bei ” einer Ziehung mit Wiederholungen, wird die Kugel wieder zurückgelegt, bei einer Ziehung ohne Wiederholung wird eventuell weitergezogen, ohne dass die Kugel wieder in die Urne zurückgelegt wurde. Aus dieser Vorgehensweise leiten sich die 4 Grundaufgaben der Kombinatorik ab: Ziehen mit und ohne Zurücklegen und mit und ohne Notierung der Reihenfolge der Ziehungsergebnisse; siehe Abschnitt 5.5. Eines der bekanntesten Urnenexperimente stellt die Ziehung der Lottozahlen dar. Für praktische Fälle, in denen die experimentelle Durchführung eines Prozesses mühsam oder schwierig ist, ist die Simulation mit Zufallszahlen besonders wichtig. Eine solche Simulation wird auch als eine Monte Carlo-Simulation bezeichnet. Die Zufallszahlen werden dazu aus Tabellen entnommen oder werden nach einer mathematischen Methode erzeugt; siehe Abschnitt 4.7. 10.2 Empirische Häufigkeitsverteilung Sei X ein Merkmal in einer Untersuchungseinheit Ω und sei x1 , . . . , xn eine Stichprobe. Besitzt das Merkmal X genau s verschiedene mögliche Ausprägungen a1 , . . . , as ∈ R, so gelangen wir durch Bildung der absoluten Häufigkeiten hj := n X i=1 χ{xi =aj } , j = 1, . . . , s , der Ausprägungen zur empirische Häufigkeitsverteilung des Merkmals X in der Stichprobe. Die relativen Häufigkeiten sind gegeben durch rj := Klar, wir haben s X j=1 hj , j = 1, . . . , s . n hj = n , s X rj = 1 . j=1 Solche Häufigkeitsverteilungen dienen zur statistischen Beschreibung von Daten (Messwerten, Merkmalswerten). Sie können in tabelarischer Form, als Stab/Balken- oder Kreisdiagramme dargestellt werden. Beim Stabdiagramm werden die absoluten bzw. relativen Häufigkeiten als Funktion der Merkmalsausprägungen, getrennt durch Zwischenräume, angezeigt, wobei hj bzw. rj die Länge des Stäbchens über aj ist. Die Kreisdiagramme finden hauptsächlich bei qualitativen Merkmalen Verwendung. Hier wird die Kreisfläche in Sektoren aufgeteilt, deren Flächen proportional zu den absoluten bzw. relativen Häufigkeiten der Ausprägungen sind. Beide Darstellungen kennen wir von Wahlergebnissen: Stabdiagramme für die Prozentzahlen, Kreisdiagramme für die Sitzverteilungen Ein Histogramm ist die graphische Darstellung der Häufigkeitsverteilung von quantitativen Messwerten. Man geht dabei von den nach Größe geordneten Daten aus und teilt den gesamten 134 Bereich der Stichprobe in k Klassen auf. Diese müssen nicht notwendig gleich breit sein. Allerdings vereinfachen zumindest im Mittelbereich gleichgroße Klassen die Interpretation. Über jeder Klasse wird ein Rechteck errichtet, dessen Fläche proportional zur klassenspezifischen Häufigkeit ist; es sieht aus, wie der Graph einer Treppenfunktion. Stab- bzw. Balkendiagramme sind als Spezialfälle von Histogrammen anzusehen, allerdings wird dabei zwischen den Stäben/ Balken kein Zwischenraum gelassen. Anwendung finden Histogramme auch in der Bildverarbeitung. Ist X ein Merkmal auf der Grundgesamtheit Ω mit Merkmalsraum M, so liegen Begriffe nahe, wie wir sie für Zufallsgrößen eingeführt haben. Definition 10.2.1 Sei S = {x1 , . . . , xn } ⊂ M eine Stichprobe zum Merkmal X : Ω −→ M. (a) Wir setzen 1 #{X = x} , x ∈ M, n und nennen die so definierte Funktion hS : M −→ R die Häufigkeitsfunktion oder empirische Dichte des Merkmals X bei der Stichprobe S. hS (x) := (b) Ist X ein quantitatives Merkmal, so setzen wir HS (x) := 1 #{X ≤ x} , x ∈ R , n und nennen die so definierte Funktion HS : R −→ R die empirische Verteilungsfunktion. Die Funktionen hS , HS erfüllen offenbar die folgenden Bedingungen: • 0 ≤ hS (x) ≤ 1 , 0 ≤ HS (x) ≤ 1 , x ∈ R. • HS ist monoton wachsend. • lim HS (x) = 1, lim HS (x) = 0. x→∞ x→−∞ Die Verwandschaft mit den Begriffen “Verteilung, Verteilungsfunktion“ wird deutlich, wenn wir als Wahrscheinlichkeitsmaß das Zählmaß verwenden. Beispiel 10.2.2 Zur Erhebung aus Beispiel 10.1.2. Ein Teil (98) der Befragten (107) antwortete. Die Auswertung der Antworten auf die 3. Frage ergab: Wartezeit x Monate 0 1 2 3 4 5 6 >6 Absolute Häufigkeit #{X = x} 10 8 15 48 1 2 3 11 Aus der Tabelle in 10.2.2 lesen wir ab: 135 Relative Häufigkeit hS (x) 0.10 0.08 0.15 0.48 0.01 0.02 0.03 0.11 (A) Zehn Prozent der befragten Mathematikabsolventen fanden ihre Arbeit bereits vor Ende ihres Studiums (hS (0) = 0.10). (B) Vier von fünf Befragten fanden ihre Arbeit bereits drei Monate nach Beendigung des Studiums (HS (3) = 0.81). (C) Mehr als zehn Prozent der Befragten hatten nach einem halben Jahr noch keinen Job. 10.3 Statistische Parameter Stichproben kann man durch die Angabe von sogenannten Kenngrößen“ kennzeichnen. Hier ” besprechen wir die beiden Kenngrößen, die später als Approximation für den Erwartungswert und die Varianz angesehen werden können. Definition 10.3.1 Sei {x1 , . . . , xn } eine Stichprobe des quantitativen Merkmals X. Dann heißt das arithmetische Mittel 1 x := (x1 + · · · + xn ) n das Stichprobenmittel von S. Das Stichprobenmittel besitzt eine Optimalitätseigenschaft. Satz 10.3.2 Sei S = {x1 , . . . , xn } eine Stichprobe zum quantitativen Merkmal X. Dann gilt mit dem Stichprobenmittel x : n n X X 2 (xi − x) = inf (xi − x)2 i=1 x∈R i=1 Beweis: n P Betrachte f (x) := (xi − x)2 , x ∈ R. Es gilt für x̂ ∈ R : i=1 f ′ (x̂) = −2 n n X X 1 = 2n > 0. (xi − x̂) , f ′′ (x̂) = 2 i=1 i=1 Also ist x̂ ein Minimum von f genau dann, wenn f ′ (x̂) = 0 gilt. Die Gleichung f ′ (x̂) = 0 führt zu n n X 1X xi = x̄ xi = nx̂, d.h x̂ = n i=1 i=1 Eine weitere Kenngröße einer Stichprobe S = {x1 , . . . , xn } ist der Stichprobenmedian x̃ : ( x n+1 , falls n ungerade 2 x̃ := 1 (x n + x n+1 ) , falls n gerade 2 2 2 Der Median (Zentralwert) teilt die Stichprobe in zwei gleich große Teile, einen mit unterdurch” schnittlichen“ Werten und einen mit überdurchschnittlichen“ Werten. Er ist unempfindlich ” gegenüber sogenannten Ausreißern“, d.h. solchen Werten, die sehr stark von den durchschnitt” ” lichen“ Werten abweichen; siehe Beispiel 10.3.3. Der negative Ausreißereffekt würde sich durch 136 ein gestutztes arithmetisches Mittel vermeiden lassen, man streiche etwa den kleinsten und den größten Wert und bilde dann das arithmetische Mittel (vgl. mit der Wertung beim Ski– und Wasserspringen). Der Stichprobenmedian hat auch eine Optimalitätseigenschaft, nämlich n X i=1 |xi − x̃| = inf x∈R n X i=1 |xi − x| Die Schwierigkeit beim Nachweis dieser Eigenschaft liegt darin, dass die Funktion g : R ∋ x 7−→ n X i=1 |xi − x| ∈ R nicht überall differenzierbar ist. Aus der Darstellung g(x) = l X i=1 (x − xi ) + n X (xi − x) = (2l − n)x + i=l+1 n X I=l+1 xi − l X xi , i=1 wobei o.E. x1 ≤ x2 ≤ · · · ≤ xn (Umnumerierung) gelte und l so gewählt sei, daß xl ≤ x ≤ xl+1 gilt, kann man durch Fallunterscheidung (n gerade/n ungerade) die angesprochene Optimalität verifizieren. Beispiel 10.3.3 In einem Bundesligakader von 20 Spielern ist folgende Gehaltsstruktur gegeben: Verdienst pro Jahr: 6 Millionen Euro 3 Millionen Euro 500 000 Euro Arithmetisches Mittel: 900 000 Euro 1 Spieler 1 Spieler 18 Spieler Median: 500 000 Euro Man sieht, der arithmetische Mittelwert sagt zwar etwas über die pro Jahr anfallende Lohnsumme aus, sagt aber wenig über die durchschnittlichen Verdienstmöglichkeiten aus. Der Median ist hier sicher ausagekräftiger. Definition 10.3.4 Sei S = {x1 , . . . , xn } eine Stichprobe zum quantitativen Merkmal X mit Mittelwert x . Die Zahl v u n u 1 X t sX := (xi − x)2 n−1 i=1 heißt Stichprobenstreuung oder Standardabweichung. Als Maß für die Abweichung von Stichprobenmittel x dient die Stichprobenvarianz s2X . Aus der Definition von s−X leitet man leicht die Aussage √ √ xi ∈ [x − n − 1 sX , x + n − 1 sX ] , 1 ≤ i ≤ n, ab. Sie zeigt deutlich, wie die Stichprobenstreuung die Ausdehnung der durch x1 , . . . , xn gegebenen Punktmenge auf der Zahlengeraden beschreibt. Die Standardabweichung gibt Auskunft, wie sehr die Stichprobenwerte um ihr Zentrum streuen. Sie hat gegenüber der Stichprobenvarianz 137 den Vorteil, daß sie dieselbe Dimension wie das beobachtete Merkmal X hat. Zur praktischen Berechnung von s2X ist oft die Gültigkeit der Identität s2X n X 1 x2i − nx = n−1 i=1 nützlich (Nachweis!). Bemerkung 10.3.5 In der Definition der Stichprobenvarianz würde man anstatt des Faktors 1 1 2 n−1 den Faktor n erwarten. Man beachte aber, dass sX bei festem Stichprobenmittel x eine Funktion von n − 1 Variablen ist, da z.B. xn aus der Gleichung xn + n−1 X xi = x i=1 ermittelt und in s2X eingesetzt werden kann. Die Mittelung“ mit n−1 scheint also gerechtfertigt. ” 10.4 Testen und Schätzen Eine Grundidee der Statistik ist es, Daten als Realisierungen von Zufallsvariablen aufzufassen und an ihren Verteilungen etwas über die Daten zu lernen. Beim statistischen Testen trifft man eine Hypothese über die Verteilung und fragt: Liegen die beobachteten Daten im Rahmen“, ” oder ist hier ein Ereignis eingetreten, das unter der Hypothese so unwahrscheinlich ist, dass wir begründeten Zweifel am Zutreffen der Hypothese haben sollten? Wenn etwa aus einer Urne mit 100 weißen und 100 schwarzen Kugeln bei zufälligem Ziehen ohne Zurücklegen von 120 Kugeln nur 40 weis̈e Kugeln gezogen werden, so kann man Zweifel an der Hypothese hegen, dass die Urne mehr weiße als schwarze Kugeln enthält. Sei X die Zufallgröße, die beim Ziehen von 120 Kugeln die Anzahl der weißen Kugeln beschreibt. Offenbar ist der Erwartungswert E := E(X) von X gegeben durch 100 = 60 . 200 Die Wahrscheinlichkeit ein Ergebnis beim Ziehen zu bekommen, das mindestens so weit von E entfernt ist wie der beobachtete Wert 40, ist E = 120 · p := P (|X − 60| ≥ |40 − 60|) = P (X ≤ 40) + P (X ≥ 80) = 2P (X ≤ 40) = 2 Man kann nun zeigen, dass X hypergeoometrisch verteilt ist. Also gilt: 100 100 4 X i 120 − i 0 p=2 ≤ 10−6 . 200 i=0 120 4 X 0P (X = i) . i=0 Also, angenommen die These trifft zu, dann trifft ein Ergebnis, das so extrem abweicht wie das beobachtete, nicht öfter als 6 mal bei 1 Million Versuchen. Das Ziel von Schätzverfahren ist es, aus Beobachtungen/Stichproben Schlüsse zu ziehen. Man wird dabei nicht darauf bestehen dürfen, dass die Schlüsse stets richtig sind, man wird dann mit dem Schlußverfahren zufrieden sein, wenn der Schaden, den der Schluß, basierend auf zufälligen Beobachtungen, mit sich bringt, klein ist. Wahrscheinlichkeit kommt über die Auswahl der Stichprobe ins Spiel. 138 Beispiel 10.4.1 Ein Teich enthält eine unbestimmte Zahl N von Fischen, die geschätzt werden soll. Dazu werden M Fische gefangen, mit einem weißen Fleck markiert und wieder ausgesetzt. Man wartet eine Weile, dann werden in einem zweiten Fischzug die Fische gefangen, und die Zahl x der markierten Fische in diesem zweiten Fang ermittelt. Eine plausible Schätzung N̂ von N ergibt sich aus folgender Überlegung: Wenn x nicht zu klein ist, müßte der Anteil nx der markierten Fische am zweiten Fang ungefähr gleich dem Anteil M N der markierten Fische am Gesamtbestand sein. Wenn N̂ eine gute Schätzung von N ist, müßte also M x ≈ n N gelten. Es liegt daher nahe, als Schätzwert N die zu M N benachbarte ganze Zahl zu wählen. Die Wahrscheinlichkeit, x markierte Fische im zweiten Fang zu haben ist M N −M PN (x) = X x−x N n (0 ≤ x ≤ n) Der obige Schätzwert N̂ maximiert (Nachweis !) diese Wahrscheinlichkeit, d.h. PN̂ (x) = max PN (x). N ∈N Die Grundidee des Testens von Hypothesen ist einfach: man geht von einer Vermutung, Behauptung, Annahme, allgemein von einer Hypothese aus. Ein Test ist dann ein Verfahren zur Überprüfung von Hypothesen über eine Zufallsvariable. Ein Test ist also ein Prüfverfahren, das man anwendet, wenn man wissen will, ob man die Hypothese ablehnen soll oder nicht. Beispiele dafür sind etwa: Der Erwartungswert der Zufallsvariablen X ist 12 , der Erwartungswert E(X) liegt in [−2, 2], die Erwartungswerte der Zufallsvariablen X, Y sind gleich, die Varianz V(X) hat den Wert 1.5. In der Praxis handelt es sich bei der Formulierung von Hypothesen oft um einen Vergleich, z.B. der Wirksamkeit zweier Medikamente oder der Arbeitsleistung bei verschiedenen Arbeitsbedingungen. Es sei uns die Form der Verteilung von X bekannt. Diese Verteilung hänge jedoch von einem uns unbekannten Parameter ϑ ab. Die zu testende Hypothese sei eine Aussage über ϑ. Es sei Θ die Menge aller in Frage kommender Werte für ϑ. Jede Hypothese über ϑ lässt sich genau dann auf die Form H 0 : ϑ ∈ Θ0 bringen, wobei Θ0 eine geeignete Teilmenge von Θ ist. Der Bereich Θ heißt Parameterraum. Die Aussage H0 heißt Nullhypothese. Jede zu Θ0 disjunkte Teilmenge Θ1 ⊂ Θ kann zur Formulierung einer Alternative H 1 : ϑ ∈ Θ1 dienen. Eine Hypothese der Form ϑ = ϑ0 (wobei also die zugehörige Teilmenge Θ0 oder Θ1 von Θ nur aus einem Element besteht) heißt einfache Hypothese. Der kritische Bereich K eines Tests ist der Ablehnungsbereich, also der Bereich von Stichproben, für den der Test abzulehnen ist. (K hat in einem fundierten Rahmen ein Ereignis des Stichprobenraums zu sein). Sei T ein Test für eine einfache Nullhypothese H 0 : ϑ = ϑ0 mit kritischem Bereich K . Trifft die Nullhypothese zu, so ist die Wahrscheinlichkeit für das Ereignis x := (x1 , . . . , xn ) ∈ K“ mit Hilfe des bekannten Parameterwertes ϑ0 zu ermitteln. Wir ” schreiben dafür Pϑ0 (x ∈ K) 139 Dies ist die Wahrscheinlichkeit dafür, dass man einen sogenannten Fehler erster Art begeht, der darin besteht, dass man die Nullhypothese ablehnt, obwohl sie gilt. Diese Wahrscheinlichkeit soll natürlich gering sein. Das Problem der Konstruktion von Tests besteht also in der Wahl eines kritischen Bereichs K, so dass der Fehler erster Art eine gegebene (meist kleine) Zahl α ist. Ist die Nullhypothese nicht einfach sondern von der Form H 0 : ϑ ∈ Θ0 so möchte man K so wählen, dass die Wahrscheinlichkeit für einen Fehler erster Art durch α beschränkt bleibt, d.h. dass also sup Pϑ (x ∈ K) ≤ α ϑ∈Θ0 gilt. Ein Test, der dieser Forderung genügt, heißt Test zum Niveau α. Die Zahl α heißt Testniveau, die Zahl 1−α heißt Sicherheitswahrscheinlichkeit. Es ist üblich, als Testniveau α eine der Zahlen 0.05, 0.01, 0.001 zu wählen. Jemand bezweifelt, dass beim Werfen einer bestimmten Münze die beiden Ereignisse W : Wappen liegt oben“ ” Z : Zahl liegt oben“ ” gleichwahrscheinlich sind. Um über eine solche Vermutung Aussagen machen zu können, ist es naheliegend, die Münze möglichst oft zu werfen und dann eine Entscheidung auf Grund des umfangreichen Datenmaterials der so gewonnenen Stichprobe zu treffen. Wir bezeichnen mit p die (unbekannte ) Wahrscheinlichket dafür, dass nach dem Werfen der Münze Wappen“ obenliegt. Handelt es sich um eine ideale“ Münze, so ist die ” ” 1 Hypothese : p = 2 richtig, anderenfalls ist sie falsch, d.h. p 6= 21 . Diese Hypothese können wir nun etwa dadurch testen, dass wir die Münze 200 mal werfen und die relativen Häufigkeiten hw , hz für Wappen“ und ” Zahl“ notieren. Ist die obige Hypothese richtig, kann man auf Grund des Bernoullischen Ge” setzes der großen Zahlen erwarten, dass diese relativen Häufigkeiten nahe bei 21 liegen. Nun wird man aber subjekt werden müssen: Was heißt nahe bei 21 , nicht nahe bei 12 . Sicherlich wird man die obige Vermutung/Hypothese verwerfen, wenn hw ∼ 0.3, hz ∼ 0.7 ausfüllt. Große Abweichungen von hw von 21 hat also eine Ablehnung der Hypothese, eine kleine Abweichung eine Annahme der Hypothese zur Folge. Wir leiten drei wichtige Fragen daraus ab: 1. Wann ist eine Abweichung groß, d.h. wir groß soll im allgemeinen die Konstante c gewählt werden, um für 1 |hw − | > c 2 die Hypothese abzulehnen. 2. Wir oft wird bei solchen Entscheidungen die Hypothese abgelehnt, obwohl sie richtig ist, d.h. zu Unrecht abgelehnt ? 3. Wie verhält man sich im Fall 1 |hw − | ≤ c 2 Soll hier die Hypothese angenommen werden ? Wenn ja, wie hüfig trifft man dabei eine falsche Entscheidung ? 140 Fehler der ersten Art haben wir schon beschrieben. Es kann aber nun auch passieren, dass man eine Hypothese nicht ablehnt, obwohl sie falsch ist. Einen derartigen Testfehler nennt man Fehler 2. Art. 10.5 1.) Übungen Ein fairer Würfel wird n-mal geworfen. Die Zufallsgröße Xn sei die größte der geworfenen Augenzahlen, also Xn (a1 , . . . , an ) = max aj , (a1 , . . . , an ) ∈ Ω := {1, . . . , 6} × · · · × {1, . . . , 6} . 1≤j≤n Zeige: limn E(xn ) = 6 . 2.) Die Zufallsgröße X nehme die Werte 0, 1, 2 . . . , n an. Zeige: E(X) = n X j=0 p(X ≥ j) . 3.) Ein fairer Würfel wird 2-mal geworfen. Der Erwartungswert für die größte der geworfenen Augenzahlen ist 161 36 . Sei Y die Zufallsgröse, die die kleinste Augenzahl beim zweimaligen Würfeln beschreibt. Bestimme den Erwartungswert von Y mit der vorhergehenden Aufgabe. 4.) Beim Fussballtoto wird das Ergebnis eines ausgefallenen Spieles augelost. Steht in der Totozeitung, dass die Tendenz etwa des Spiels TSG Hoffenheim – Bayern München 2:3:5 (S:U:N) betrage, dann soll dies bei der Auslosung berücksichtigt werden. Stelle ein Urnenmodell dafür her. 5.) Aus einer Gruppe, bestehend aus 5 Frauen und 5 Männern werden 5 Personen zufällig ausgewählt. Mit welcher Wahrscheinlichkeit besteht diese Stichprobe aus 2 Frauen? Kann man das Ergebnis auch ohne Rechnung einsehen? 6.) Eine Warenlieferung enthalte 40 intakte und 10 defekte Stücke. Wie gros̈ ist die Wahrscheinlichkeit, dass eine Stichprobe vom Umfang 10 (a) genau 2 defekte Stücke enthält? (b) mindestens 2 defekte Stücke enthält? 141 Kapitel 11 Markov-Ketten Markov-Ketten sind ein hervorragendes Modellierungsinstrument für zeitliche Prozesse, die in einfacher Weise den Zufall beinhalten. Die Basis der Theorie von Markov-Ketten ist im wesentlichen die Lineare Algebra. Sie liefert eine Fülle von praktisch anwendbaren Ergebnissen. 11.1 Mendelsche Gesetze Eine der ersten systematischen Arbeiten zur Vererbungslehre wurde im 19. Jahrhundert von Gregor Mendel1 geleistet. Unter anderem untersuchte Mendel die Vererbung einer Eigenschaft von Erbsen, nämlich ob die Erbsen eine glatte oder runzelige Oberfläche besitzen. Wie bei allen Pflanzen besitzt dabei jedes Individuum zwei Eltern. Durch Kreuzung von Erbsen mit glatter Oberfläche und runzeliger Oberfläche erhält jede Erbse in der Tochtergeneration das Genmaterial je eines Elternteils mit glatter und je eines Elternteils mit runzeliger Oberfläche. Überraschenderweise gab es bei den Nachkommen der Erbsen in der ersten Tochtergeneration nur noch glatte Erbsen. Noch überraschender waren die Ergebnisse bei der nachfolgenden Tochtergeneration, bei der nun beide Elternteile aus der ersten Tochtergeneration stammten. Hier kamen sowohl glatte als auch wieder runzelige Erbsen zum Vorschein. Interessanterweise waren jedoch die glatten Erbsen im Übergewicht, und zwar im Verhältnis 3 zu 1. Mendel suchte nach einer Erklärung und fand sie. Bei diploiden“ Organismen, z. B. bei Menschen, Pflanzen,. . . , sind entlang der Chromo” somen Gene wie in einer Kette nebeneinander aufgereiht. Ein Gen kann in zwei oder mehr Zustandsformen auftreten, die man Allele nennt. Am Genort der Erbsen, der für die Oberfläche verantwortlich ist, gibt es zwei allele Gene, bezeichnet mit G (glatte Oberfläche) und g (runzelige Oberfläche). Damit gibt es drei verschiedene Genotypen: GG, Gg, gg (Gg und gG können wir identifizieren). Hier ist die Mendelsche Vererbung: Elterngeneration: Erste Tochtergeneration: Zweite Tochtergeneration: GG, gg Gg, Gg GG, Gg, gG, gg Hier geht man also davon aus, dass in der Elterngeneration die Genotypen GG und gg vorliegen. Wieso kommt es zu den Genotypen in der ersten und zweiten Tochtergeneration und was soll nun Gg eigentlich sein? Wir wissen nur, dass GG glatt und gg runzelig bedeutet. Ein Organismus, der bezüglich einer Ausprägung dieselbe Erbinformation trägt, wird als reinerbig oder homozygot bezeichnet.2 Wir haben nun mit Gg eine mischerbige oder heterozygote Erb1 Gregor Mendel, 1822 - 1884, Augustinermönch Die Annahme, dass eine Situation vorliegt, in der die Elterngeneration reinerbig ist, läst sich durchaus rechtfertigen. 2 142 information vorliegen. Soll daher die Ausprägung ein wenig runzelig“ vorliegen oder soll eine ” der beiden Allele zufällig die Ausprägung bestimmen? Bei anderen Pflanzen gibt es durchaus die Beobachtung, dass Nachfahren eine gemischte Ausprägung“ haben: rote Blume + weisse ” Blume = rosa Blume als Nachfahre. Dies ist aber hier, wie die Experimente gezeigt haben, nicht der Fall: alle Erbsen der ersten Tochtergeneration werden als glatt beobachtet. Die Interpretation dieses Sachverhalts ist, dass beide Allele gegeneinander konkurrieren und in Abhängigkeit der Gene sich immer eines der beiden als dominant behauptet. Dies legt es nahe, der Unterscheidung Genotyp (Zusammensetzung der Erbinformation) die Unterscheidung Phänotyp (sichtbare Ausprägung) zur Seite zu stellen. Damit erklärt sich die Ausprägung der ersten Tochtergeneration dadurch, dass Gg, gG und GG denselben Phänotyp besitzen. Wie kann man nun die Erscheinung in der zweiten Tochtergeneration erklären? Nimmt man an, dass Eltern des Genotyps Gg eines seiner Gene mit gleich großer Wahrscheinlichkeit an seine Kinder weitergibt, dann gibt es für die Erbsen der zweiten Tochtergeneration vier Möglichlichkeiten, wie sie in der obigen Tabelle aufgelistet ist. Davon sind drei der vier Kombinationen, die im Genotyp möglich sind, im Phänotyp gleich, nämlich glatt; nur der Genotyp gg liefert eine runzelige Erbse. Dabei ist offenbar angenommen, dass eine nachfolgende Generation durch zufällige Paarung gebildet wird, ohne Rücksicht auf den Genotyp der Eltern. 11.2 Hardy-Weinberg–Gesetz Betrachten wir nun eine unendliche (in der Praxis sehr große) Population, deren Individuen an einem Genort die allelen Gene A und a tragen. Damit haben wir die Genotypen AA, Aa, aa mit den relativen Häufigkeiten α, 2β, γ . Klar, wir haben (α, β, γ) ∈ M mit M := {(r, s, t) ∈ R3 |r, s, t ≥ 0, r + 2s + t = 1} . Hieraus bestimmen sich die Häufigkeiten der Gene A und a zu p=α+β, q =β+γ. Wir nehmen an, dass die nächste Generation durch zufällige Paarung gebildet wird: die Vereinigung der Erbinformation erfolgt zufällig ohne Rücksicht auf den Genotyp der Eltern, jede Paarung ergibt die gleiche Zahl von Nachkommen. Damit ergibt sich folgende Tabelle: Paarungsmöglichkeiten der Genotypen Häufigkeit Aufspaltung in der Tochtergeneration AA α2 2αβ β2 0 0 0 Aa 0 2αβ 2β 2 2αγ 2βγ 0 aa 0 0 β2 0 2βγ γ2 (α + β)2 2(α + β)(β + γ) (β + γ)2 α2 AA × AA AA × Aa 4αβ Aa × Aa 4β 2 AA × aa 2αγ Aa × aa 4βγ aa × aa γ2 Genotyphäufigkeiten in der Tochtergeneration Die Genotyphäufigkeiten sind also in der Tochtergeneration α̃, 2β̃, γ̃ ergeben sich mit α̃ = (α + β)2 , β̃ = (α + β)(β + γ), γ̃ = (β + γ)2 . 143 Damit haben wir nun auch α̃ = p2 , 2β̃ = 2pq , γ̃ = q 2 . Die Genotyphäufigkeiten der Tochtergeneration hängen also nur von den Genhäufigkeiten der Elterngeneration ab. In der Tochtergeneration sind die Genhäufigkeiten nun α̃ + β̃ = p2 + pq = p , β̃ + γ̃ = pq + q 2 = q . Bezeichnen wir die Genotyphäufigkeiten in aufeinanderfolgenden Generationen mit αk , 2βk , γk , k ∈ N0 , so erhalten wir ein System von Differenzengleichungen: αk+1 = (αk + βk )2 βk+1 = (αk + βk )(βk + γk ) γk+1 = (βk + γk )2 Insbesondere haben wir in dieser Bezeichnung αk = p2 , βk = pq , γk = q 2 , k ∈ N . (11.1) Also sind die Genhäufigkeiten konstant und die Genotyphäufigkeiten hängen konstant von der Tochtergeneration ab. Dies können wir auch so interpretieren: Die Iteration, ausgehend von einem Startwert (α0 , β0 , γ0 ) ∈ M, erreicht bereits nach einem Schritt den Gleichgewichtszustand (p2 , pq, q 2 ) . Dieser Zustand wird Hardy-Weinberg–Gleichgewichtspunkt genannt. Der obige Sachverhalt wird auch als Hardy-Weinberg–Gesetz bekannt. Es besagt grob, dass ohne Mutation, Selektion, Ein- und Auswandern von Individuen nichts passiert. Dies ist auch plaussibel, den anschaulich werden die Genotypen in Allelel zerlegt und letztere dann wieder in irgendeiner Weise zu neuen Genotypen zusammengesetzt. Bemerkung 11.2.1 Liegen an einem Genort die Allele a1 , . . . , an , dann gibt es n2 Genotypen mit Genotyphäufigkeiten X αjk = αkj ≥ 0 , j, k = 1, . . . , n , αjk = 1 . j,k Auch hier wird in einem Schritt ein Gleichgewichtszustand erreicht. 11.3 Modellierung als Markovkette Wir wollen die Aufeinanderfolge von einer Vererbungslinie durch eine Markovkette – im nächsten Abschnitt gehen wir mehr grundsätzlich auf Markovketten ein – modellieren. Beschreibt Xk den genotyp eines Individuums der Vererbungslinie, so ist Xk+1 der eines seiner Nachkommen. Also ist Xk , Xk+1 ∈ X := {AA, Aa, aa} und wir haben uns zu überlegen, wie wir von Xk nach Xk+1 kommen. Dazu arbeitet man mit Übergangswahrscheinlichkeiten. Sei p die Wahrscheinlichkeit“, dass ein Partner das Allel A liefert. Dann können wir – in ” leicht verständlicher Schreibweise – folgende Tabelle aufstellen: 144 Ws(Xk+1 = AA|Xk = AA) = p Ws(Xk+1 = Aa|Xk = AA) = 1 − p Ws(Xk+1 = AA|Xk = Aa) = 1 p 2 Ws(Xk+1 = aa|Xk = AA) = 0 Ws(Xk+1 = aa|Xk = Aa) = 1 (1 − p) 2 Ws(Xk+1 = AA|Xk = aa) = 0 1 1 1 Ws(Xk+1 = Aa|Xk = Aa) = 1 − p − (1 − p) = 2 2 2 Ws(Xk+1 = Aa|Xk = aa) = p Ws(Xk+1 = aa|Xk = aa) = 1 − p Hier ist etwa Ws(Xk+1 = Aa|Xk = AA) als Wahrscheinlichkeit, dass in der Generation k + 1 ” der Genotyp AA beobachtet wird, wenn in der Generation k der Genotyp AA vorliegt“, zu lesen. Wenn wir nun die Zustände AA, Aa, aa mit 1, 2, 3 bezeichnen, dann können wir die obige Tabelle für den Übergang von Xk zu Xk+1 als Matrixmultiplikation interpretieren. Wir setzen dazu 1 0 p 2p 1 P := 1 − p p , 2 1 0 2 (1 − p) 1 − p wobei der Eintrag pij die Wahrscheinlichkeit für den Übergang vom Zustand j in den Zustand i bedeutet. Wir können etwa den Übergang von 1 xk := 0 , 0 was Xk = AA entspricht, zu xk+1 , was Xk+1 entspricht, so beschreiben: p xk+1 = 1 − p = P xk . 0 Die Matrix P hat als Spaltensumme jeweils 1, ist also spaltenstochastisch. Daraus folgt sofort, dass die transponierte Matrix P t zeilenstochastisch ist. Daher hat P t den Eigenwert λ1 = 1 zum Eigenvektor e := e1 + e2 + e3 , wobei ei der i-te (Spalten-)Einheitsvektor ist. Dann hat aber auch P den Eigenwert λ1 = 1 zu einem Eigenvektor w , welcher dann sicher fix bleibt unter der Multipliktion mit P . Die beiden anderen Eigenwerte λ2 , λ3 sind die weiteren interessanten Parameter, die die multiplikative Wirkung von P beschreibt. Man errechnet sie aus der Tatsache, dass det(P ) = λ1 · λ2 · λ3 , spur(P ) = λ1 + λ2 + λ3 gelten muss. Wir wollen dies hier nicht weiterverfolgen. 145 11.4 Langzeitverhalten bei Markov–Ketten Satz 11.4.1 Sei P = (pij )1≤i,j≤k ∈ Rk,k eine spaltenstochastische Matrix. Dann gilt: (a) λ = 1 ist ein Eigenwert von P . (b) (c) |λ| ≤ 1 für alle Eigenwerte λ von P und P t . λ = 1 ist einziger Eigenwert von P und P t mit λ = 1, falls min1≤i≤k pii > 0 . Beweis: Zu (a). Da P eine spaltenstochastische Matrix ist, ist A := P t zeilenstochastisch und hat daher den Eigenwert λ = 1 zum Eigenwert e, wobei e der Vektor ist, der als Einträge lauter Einsen hat. Dann hat auch P den Eigenwert λ = 1 . Zu (b). Betrachte die l1 -Norm | · |1 in Rk , d.h. |x|1 := k X i=1 |xi | , x = (x1 , . . . , xk ) ∈ Rk . Dazu wählen wir die passende“ Norm für die Matrizen, nämlich die Spaltensummennorm; für ” P : ! k X |pij | kP k1 := max 1≤j≤k i=1 Offenbar kP k1 = 1 . Daraus folgt für jeden Eigenwert λ von P mit Eigenvektor z ∈ Rk |λ||z|1 = |λz|1 = |P z|1 ≤ kP k1 |z|1 , d.h. |λ| ≤ kP k1 = 1 . (Argumentiere etwas vollständiger!) Um das Resultat für P t zu beweisen, betrachte man Maximumnorm | · |∞ in Rk , d.h. |x|∞ := max |xi | , x = (x1 , . . . , xk ) ∈ Rk , i=1,...,k und die Zeilensummennorm für P : kP k∞ := max 1≤i≤k k X j=1 |pij | . Zu (c). Nach dem Satz von Gerschgorin – siehe Anhang 11.5 – gibt es zu jedem Eigenwert λ von P t ein i mit k X |λ − pii | ≤ |pij | = 1 − pii . j=1,j6=i Also liegt λ in dem Kreis mit Mittelpunkt pii und Radius 1 − pii . Er berührt den Einheitskreis von innen im Punkt (1, 0) . Aus |λ| = 1 folgt somit λ = 1 . Die Bedeutung des Eigenwertes λ = 1 liegt darin begründet, dass damit das Langzeitverhalten der Markovkette zusammenhängt, denn offenbar ist der Zustand u ein Fixpunkt unter der (Generationen-)Iteration uk+1 := P uk = · · · = u, falls u0 = u und u der Eigenwert zu λ = 1 ist. 146 Satz 11.4.2 Sei P ∈ Rk,k eine spaltenstochastische Matrix. Dann sind äquivalent: (a) limn P n existiert. (b) λ = 1 ist der einzige Eigenwert von P mit Betrag 1. Beweis: Zu (a) =⇒ (b). Sei λ ein Eigenwert von P vom Betrage 1 und sei u ein Eigenvektor von P zu λ . Es folgt P u = λu, P n u = λn u, n ∈ N0 . Daraus lesen wir ab, dass aus der Existenz von limn P n die Konvergenz von limn λn folgt. Dann existiert auch µ := limn λn+1 und wir erhalten µ = lim λn+1 = λ lim λn = λµ . n n Wegen |λ| = 1 ist auch |λn | = 1 und somit |µ| = 1 6= 0 . Aus µ = λµ folgt dann λ = 1 . Zu (b) =⇒ (a). Diesen Beweis übergehen wir. Beispiel 11.4.3 Betrachte die Matrix 0 1 0 P := 0 0 1 . 1 0 0 Die Eigenwerte sind die dritten Einheitswurzeln: √ √ 1 1 λ1 = 1, λ2 = (−1 + i 3), λ3 = (−1 − i 3) . 2 2 Offenbar haben alle Eigenwerte den Betrag 1, aber es liegt keine Konvergenz der Potenzen von A vor: A0 = I, A1 = A, A2 = . . . , A3 = I, A4 = A, . . . . Beispiel 11.4.4 Jedes Jahr ziehen 5 % der Bevölkerung in den alten Bundesländern in die neuen Bundesländer und 15 % der Bevölkerung in den neuen Bundesländern ziehen in die alten Bundesländer. Wir haben zwei Zustände für eine Person: Zustand 1: die Person lebt in den neuen Bundesländern Zustand 2: die Person lebt in den alten Bundesländern Damit erhalten wir dann die spaltenstochastische Matrix 0.85 0.05 P = 0.15 0.95 für den Übergang von einer Jahrgangsgeneration zur nächsten. Die Eigenwerte von P sind λ1 = 1 , λ2 = 147 4 . 5 Dazu gehören die linear unabhängigen Eigenvektoren ! 1 u := 1 4 3 4 2 , u := 1 . −1 Als Zustand in der 0-ten Generation kommt ein Vektor u in Frage, der folgende Darstellung hat u = u1 + αu2 , da ja u einen Verteilung der Population auf die alten und neuen Bundesländer darstellen soll. Nun ist einfach zu sehen, dass lim P n u = u1 n gilt; wir haben das Gleichgewicht gefunden: Über lange Zeit stellt sich folgende Verteilung der Bevölkerung ein: 25 % in den neuen Bundesländern, 75 % in den alten Bundesländern. Ohne Breweis fügen wir ein etwas tiefer liegendes Resultat an: Satz 11.4.5 Sei P ∈ Rk,k eine spaltenstochastische Matrix, zu der es ein l ∈ N gibt, so dass alle Einträge von P l positiv sind. Dann gelten die folgenden Aussagen: (a) Es gibt einen stochastischen Vektor z mit P z = z; dabei heißt z stochastisch, wenn gilt: z = (z1 , . . . , zk ) , zi ≥ 0 für alle i = 1, . . . , k , (b) k X zj = 1 . j=1 Die Matrixfolge (P n )n∈N konvergiert gegen die spaltenstochastische Grenzmatrix P ∞ , deren Spaltenvektoren alle identisch z sind. Die Voraussetzung, dass die Einträge einer Potenz P l alle positiv sind, kann man so interpretieren: in l Generationen ist der Übergang von einem Zustand j zu einem Zustand i positiv für alle i, j . Beispiel 11.4.6 In der Mendelschen Vererbung haben wir die Genotypen D: GG, H: Gg, R: gg . Wir gehen nun so vor: Wir nehmen irgendein Individuum, kreuzen es mit einem Individuum des gewählten Typs, wählen zufällig einen Abkömmling aus, kreuzen diesen wieder mit einem Individuum des gewählten Typs, und so weiter. Beobachtet man die Genotypen der so erzeugten Abkömmlinge durch die Generationen, so erhält man eine Markovkette. Dazu gehören die Übergangsmatrizen 1 1 0 0 0 0 1 21 0 2 4 PD := 0 21 1 , PH := 12 21 12 , PR := 1 21 0 . 0 0 0 0 21 1 0 41 12 Wende nun die obigen Resultate an, um das Langzeitverhalten der Generationen zu studieren. 11.5 Anhang: Gerschgorin–Kreise 148