Mathematik II SoSe 2009

Werbung
Mathematik II
SoSe 2009
J. Baumeister1
20. Juli 2009
1
Dies sind Aufzeichnungen, die kritisch zu lesen sind, da sie noch nicht endgültig korrigiert sind.
Hinweise auf Fehler und Verbesserungsvorschläge an [email protected]
Vorwort
Die Vorlesung Mathematik II “ ist eine Lehrveranstaltung des Moduls B-M2“ des Bachelor”
”
studiengangs Informatik“und des Bachelorstudiengangs Bioinformatik“.
”
”
Die Lehrveranstaltung schließt an an die Vorlesung Analysis und Lineare Algebra für Infor”
matiker“ aus dem ersten Studienjahr, entwickelt die Inhalte aber weitgehend eigenständig. Sie
beinhaltet einfache Sachverhalte algebraischen und analytischen Rechnens, elementare Grundlagen in der Stochastik, der diskreten Mathematik und der Numerik. Ein Ziel der Vorlesung ist
auch, jeweils die Verbindung zu einer algorithmischen Umsetzung der Inhalte aufzuzeigen.
Wie oben angedeutet, ist algorithmisches Handeln ein Teil der Betrachtungen. Algorithmen
sind sequentielle Handlungsanweisungen“ zur Lösung eines (in mathematischer Sprache formu”
lierten) Problems. Die Abarbeitung der Handlungsanweisungen erfolgt meist mit dem Computer
unter Nutzung von Programmiersprachen und Programmpaketen. Der angehende Informatiker
sollte daher in der Lage sein, die angebotenen Algorithmen schnell umzusetzen. Im allgemeinen
könnte dies schon mit Hilfe von Maple angegangen werden.
Eine Einzelliteratur zur Vorlesung, die alles abdeckt, was angeboten wird, ist wohl nicht
vorhanden. Im Literaturverzeichnis sind einige hilfreiche Bücher angegeben ([1, 2, 3, 4, 5, 6,
7, 8, 9, 10, 11, 12]). Die Kapitel 10 und 11, die im Skriptum aufgeführt sind, wurden (aus
Zeitgründen) nicht vorgetragen. Ihre Überarbeitung ist noch drindend erforderlich.
Frankfurt, im Juli 2009
Johann Baumeister
i
Inhaltsverzeichnis
Vorwort
i
1 Aussagen und Mengen
1.1 Aussagen und Logik . . . .
1.2 Verknüpfung von Aussagen
1.3 Beweise . . . . . . . . . . .
1.4 Mengen . . . . . . . . . . .
1.5 Quantoren . . . . . . . . . .
1.6 Übungen . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
2 Operieren mit und auf Mengen
2.1 Alphabete . . . . . . . . . . . .
2.2 Relationen . . . . . . . . . . . .
2.3 Ordnung . . . . . . . . . . . . .
2.4 Algorithmen . . . . . . . . . . .
2.5 Abbildungen . . . . . . . . . .
2.6 Übungen . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
4
6
7
12
12
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
. . . . 14
. . . . 16
. . . . 18
. . . . 19
. . . . 21
. . . . 25
3 Zählen
3.1 Natürliche Zahlen . . . . . . . . .
3.2 Induktion . . . . . . . . . . . . .
3.3 Abzählen . . . . . . . . . . . . .
3.4 Rekursion . . . . . . . . . . . . .
3.5 Landausymbole . . . . . . . . . .
3.6 Mastertheorem der Komplexität
3.7 Übungen . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
26
26
29
31
34
35
38
41
4 Elementare Arithmetik
4.1 Ganze Zahlen . . . . . . .
4.2 Teilbarkeit . . . . . . . . .
4.3 Primzahlen . . . . . . . .
4.4 Euklidischer Algorithmus
4.5 Modulare Arithmetik . . .
4.6 Zum Gruppenbegriff . . .
4.7 Pseudozufallszahlen . . .
4.8 Übungen . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
43
43
45
47
50
54
56
59
61
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ii
5 (Diskreter) Zufall
5.1 Laplace–Häufigkeiten . . . . . .
5.2 Zufallsbäume . . . . . . . . . .
5.3 Bedingte Wahrscheinlichkeiten
5.4 Das Ziegenproblem . . . . . . .
5.5 Kombinatorische Überlegungen
5.6 Übungen . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6 Zufallsgrößen
6.1 Erwartungswerte . . . . . . . . . . . . . .
6.2 Unabhängigkeit . . . . . . . . . . . . . . .
6.3 Varianz . . . . . . . . . . . . . . . . . . .
6.4 Das schwache Gesetz der großen Zahl oder
6.5 Spezielle Verteilungen . . . . . . . . . . .
6.6 Die Gauß– und Poisson–Verteilung . . . .
6.7 Übungen . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9 Fast Fourier Transform
9.1 Some comments concerning signal theory
9.2 Trigonometric interpolation problem . . .
9.3 Discrete Fourier transform . . . . . . . . .
9.4 Fast Fourier Transform . . . . . . . . . . .
9.5 Exercises . . . . . . . . . . . . . . . . . .
10 Verteilungen und Statistik
10.1 Merkmale, Stichproben und Simulation
10.2 Empirische Häufigkeitsverteilung . . . .
10.3 Statistische Parameter . . . . . . . . . .
10.4 Testen und Schätzen . . . . . . . . . . .
10.5 Übungen . . . . . . . . . . . . . . . . . .
11 Markov-Ketten
11.1 Mendelsche Gesetze . . . . . . . . . .
11.2 Hardy-Weinberg–Gesetz . . . . . . . .
11.3 Modellierung als Markovkette . . . . .
11.4 Langzeitverhalten bei Markov–Ketten
11.5 Anhang: Gerschgorin–Kreise . . . . . .
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
die Intelligenz der Masse
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
7 Nullstellen nach Newton
7.1 Polynome . . . . . . . . . . . . . . . . . . .
7.2 Das Nullstellenproblem . . . . . . . . . . . .
7.3 Nullstellensuche nach Newton . . . . . . . .
7.4 Anhang: Realisierung des Newtonverfahrens
7.5 Übungen . . . . . . . . . . . . . . . . . . . .
8 Interpolation und Approximation
8.1 Interpolation mit Polynomen . .
8.2 Newton-Polynome . . . . . . . .
8.3 Approximation mit Polynomen .
8.4 Bezier–Kurven . . . . . . . . . .
8.5 Übungen . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
68
72
75
77
80
82
82
88
89
90
91
95
96
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
in den komplexen Zahlen
. . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
97
. 97
. 98
. 101
. 105
. 108
.
.
.
.
.
.
.
.
.
.
109
109
111
114
116
118
.
.
.
.
.
122
122
123
125
126
130
.
.
.
.
.
131
131
134
136
138
141
.
.
.
.
.
142
142
143
144
146
148
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Literaturverzeichnis
[1] M. Aigner. Diskrete Mathematik. Vieweg, 1996.
[2] M. Brill. Mathematik für Informatiker. Hanser, 2001.
[3] O. Forster. Algorithmische Zahlentheorie. Vieweg, 1996.
[4] M. Greiner and G. Tinhofer. Stochastik für Studienanfänger der Informatik. Hanser, 1996.
[5] D. Hachenberger. Mathematik für Informatiker. Pearson Studium, 2005.
[6] P. Hartmann. Mathematik für Informatiker. Vieweg, 2004.
[7] N. Henze. Stochastik für Einsteiger. Vieweg, 1997.
[8] G. Kersting and A. Wakolbinger. Elementare Stochastik. Birkhäuser, 2008.
[9] A. Quateroni, R. Sacco and F. Saleri. Numerische Mathematik 1. Springer, 2001.
[10] B. Schuppar. Elementare Numerische Mathematik. Vieweg, 1999.
[11] J. Wolfart. Einführung in die Zahlentheorie und Algebra. Vieweg, 1996.
[12] M. Wolff, P. Hauck, W. Küchlin. Mathematik für Informatik und Bioinformatik. Springer,
2004.
1
Kapitel 1
Aussagen und Mengen
Für die Formulierung von Aussagen von mathematischem Gehalt benötigen wir Verabredungen,
Sprechweisen, Symbole und eine griffige Notation. Dabei wollen wir aber nicht in die Tiefen der
mathematischen Grundlagen (Mengenlehre, Logik) eintauchen, sondern geben uns mit einem
naiven“ Standpunkt zufrieden. Er führt zu keinerlei Konflikten, solange wir uns mit konkret
”
definierten Objekten beschäftigen.
1.1
Aussagen und Logik
Argumentationen in der Mathematik beruhen darauf, dass ein Zusammenhang zwischen Aussagen hergestellt wird, dass Aussagen verknüpft werden. Was eine Aussage sein soll, halten wir in
einer Definition fest, die umgangssprachlich formuliert ist.
Definition 1.1.1 Eine Aussage ist eine sprachliche Feststellung, die entweder wahr oder falsch
ist. Falsch bzw. wahr charakterisiert man dabei durch einen Wahrheitswert: (w) steht für wahr,
(f ) steht für falsch.
In der obigen Definition“ spiegelt sich das aristotelische1 Prinzip des tertium non datur
”
wieder: eine Aussage ist entweder wahr oder falsch, eine dritte Möglichkeit gibt es nicht. Beispiele:
1.
2.
3.
4.
5.
6.
2 ist eine gerade Zahl
1004 ist durch 3 teilbar
Brasilien ist ein Entwicklungsland
Die Straße X ist nass
Das Dreieck ABC ist gleichschenklig
2999999991 − 1 ist eine Primzahl
Die erste Aussage ist wahr, die zweite Aussage ist falsch, wenn wir eine Definition von Teilbarkeit
unterstellen; der Wahrheitsgehalt der dritten Aussage hängt von einer Definition eines Entwicklungslandes ab; die vierte Aussage kann auf ihren Wahrheitsgehalt mit physikalischen“ Mitteln
”
geprüft werden; ob die fünfte Aussage wahr ist, ist offen, solange keine exakte Definition und
Beschreibung des konkreten Dreiecks vorliegt; der Wahrheitsgehalt der letzten Aussage ist offen:
2999999991 − 1 ist eine Primzahl oder sie ist keine, die Instanz“, die dies (schnell) entscheiden
”
kann, ist wohl noch zu finden.
Der Umgang“ mit Aussagen mit dem Ziel, sie auf ihren Wahrheitsgehalt zu untersuchen,
”
sie mit anderen Aussagen zu verknüpfen, sie als Argumente in eine (wissenschaftliche) Diskussion einzubringen, wird im Kontext von Logik studiert. Während die griechische Logik der
1
Aristoteles von Stagira (384-322 v. Chr.)
2
Antike großen Wert auf Argumentationsformen legte, kann die heutige mathematische Logik als
kombinatorisches Studium von Inhalten bezeichnet werden.
Syntaktische Ebene: Untersuchung von formalen Zeichenketten, in denen Aussagen
kodiert sind.
Semantische Ebene: Belegung von Zeichenketten mit Bedeutung.
Unter den verschiedenen Logiken ist das System der Prädikatenlogik (der ersten Stufe) das
bekannteste. Als Teilgebiete der Logik, wobei die Grenzen aber unscharf sind, werden angesehen:
• Mengenlehre Auf elementare Überlegungen dazu gehen wir unten ein.
• Beweistheorie Wir skizzieren einfache Beweistechniken in einem nicht formalen Rahmen
exemplarisch auf unsere Zwecke zugeschnitten.
• Modelltheorie Der Informatiker wird Konzepte dazu etwa im Zusammenhang mit Quan”
toreneliminationsverfahren“ kennenlernen.
• Rekursions-/Berechnungstheorie In der Informatik spielt Berechenbarkeit eine überragende Rolle. Wir skizzieren diese Fragestellung an einfachen Beispielen. In diesem Zusammenhang wird der Begriff des Algorithmus“ seine Bedeutung finden.
”
Was meinen wir, wenn wir von logischen Schlüssen reden? Wir halten uns an eine umgangssprachliche Definition.
Logik: Die Lehre von folgerichtigen Denkweisen.
Logisches Schließen: Folgerichtiges, natürlich“ klares Argumentieren.
”
Meist handeln wir nach dem Muster“ des Deduktiven Schließens: Aus vorgegebenen Regeln
”
(Prämissen) ziehen wir einen eindeutigen Schluss (Konklusion).
Beispiel 1.1.2 Aus einem Kartendeck, auf dem auf einer Seite Zahlen und auf der anderen
Seite Buchstaben aufgebracht sind, sind vier Karten aufgedeckt. Sie zeigen 6,3,A,F.
Regel: Wenn auf der einen Seite einer Karte ein Vokal sich befindet, dann befindet sich auf der
anderen Seite eine gerade Zahl.
Frage: Welche der vier Karten muss man umdrehen, um die Regel zu überprüfen?2
Induktives Schließen ist das Ableiten allgemein gültiger Regeln aus Beobachtungen, Experimenten und Erfahrungen. Im nichtmathematischen Kontext geschieht dies meist unter Einbeziehung von (umgangssprachlichen) Wahrscheinlichkeiten, die ihrerseits mathematisch hinterfragt
werden können. Wir kommen im Zusammenhang mit natürlichen Zahlen auf induktives Schließen zurück.
Beispiel 1.1.3 Apfel-Kerngehäuse-Hypothese:
• Jeder Apfel, den ich bisher in meinem Leben gegessen habe, hatte ein Kernghäuse.
• Dies ist ein Apfel.
• Induktiver Schluss: Dieser Apfel hat ein Kerngehäuse.
Aber: Die Apfel-Kerngehäuse-Hypothese Jeder Apfel hat ein Kerngehäuse“ kann niemals be”
wiesen werden.
2
Die Lösung ist: Die Karten mit 3 und A.
3
Beispiel 1.1.4 Ein etwas unsinniges Beispiel induktiven Schließens ist in folgender Aufgabe
enthalten:
Betrachte das Zahlentripel 2 – 4 – 6
Setze das Zahlentripel zu einer Zahlenreihe fort.
Beispielsweise ließe sich für jede der Fortsetzungen
2 – 4 – 6 – 8 – 10 – · · ·
eine offensichtliche Regel finden.
1.2
oder
2 – 4 – 6 – 4 – 2 – 4 – 6 – 4 – ···
Verknüpfung von Aussagen
Als erstes Aussagenkonstrukt betrachten wir die Verneinung/Negation einer Aussage. Konkret: Ist P eine Aussage, so bezeichnen wir mit ¬P die Negation der Aussage P ; es ist also
P wahr genau dann, wenn ¬P falsch ist. Man bezeichnet die Negation als einstellige Ver”
knüpfung“, benötigen wir doch dabei nur eine Aussage. Logische Verknüpfungen, bei denen
zwei Aussagen beteiligt sind, nennen wir zweistellige oder binäre Aussageverknüpfungen.
Die Aussageverknüpfungen werden – in streng mathematischen Sinne – in der boolschen3 Algebra zusammengefasst. In der folgenden Tabelle fügen wir logische Operatoren, wie sie etwa in
Maple nutzbar sind, ein.
Durch logische VerOperation
Sprechweise
Symbol
Maple
knüpfung zweier Aussagen P,Q ensteht eiNegation
nicht . . .
¬
&not
ne dritte Aussage R,
Konjunktion
. . . und . . .
∧
&and
eine sogenannte verbundene Aussage.
Alternative
. . . oder . . .
∨
&or
Um den WahrheitsgeImplikation
wenn . . ., dann . . .
=⇒
&implies
halt dieser verbundenen Aussage geht es
. . . genau dann, wenn . . .
⇐⇒
&iff
Äquivalenz
dann. Bestimmt wird
die Aussage R dadurch, welcher Wahrheitswert ihr für die verschiedenen Belegungen mit (w) und (f) der Aussagen
P und Q zukommt. Die folgende Wahrheitstafel zeigt, wie die oben angeführten Aussageverknüpfungen definiert sind:
P
Q
P ∧ Q
P ∨ Q
P =⇒ Q
P ⇐⇒ Q
(w)
(w)
(w)
(w)
(w)
(w)
P
¬P
(w)
(f)
(f)
(w)
(f)
(f)
(w)
(f)
(f)
(w)
(f)
(w)
(w)
(f)
(f)
(w)
(f)
(f)
(f)
(f)
(w)
(w)
Man beachte insbesondere die Wahrheitstafel zu P =⇒ Q: Ist P falsch, so ist die Implikation
P =⇒ Q wahr, unabhängig vom Wahrheitsgehalt von Q. Die Wahrheitstafel der Negation ist
angefügt.
Mit den nun eingeführten Verknüpfungen stehen uns schon eine große Anzahl von Aussagenkonstrukten zur Verfügung. Halten wir einige logische Gesetze fest:
3
George Boole, 1815-1864, Mathematiker
4
Regel 1.2.1 Seien P, Q Aussagen.
(P =⇒ Q)
¬(P ∧ Q)
¬(P ∨ Q)
(P =⇒ Q)
⇐⇒
(¬Q =⇒ ¬P )
⇐⇒
¬P ∧ ¬Q
⇐⇒
(1.1)
¬P ∨ ¬Q
⇐⇒
(1.2)
(1.3)
(¬P ∨ Q)
(1.4)
Von der Richtigkeit dieser Aussagen überzeugen wir uns, indem wir die Wahrheitstafeln erstellen.
Etwa zu (1.1):
P =⇒ Q ¬ Q ¬ P ¬ Q =⇒ ¬ P
(P =⇒ Q) ⇐⇒ (¬ Q =⇒ ¬ P)
P
Q
(w)
(w)
(w)
(f)
(f)
(w)
(w)
(w)
(f)
(f)
(w)
(f)
(f)
(w)
(f)
(w)
(w)
(f)
(w)
(w)
(w)
(f)
(f)
(w)
(w)
(w)
(w)
(w)
Die Wahrheitstafel zu P =⇒ Q ist identisch mit der Wahrheitstafel zu ¬ P ∨ Q, wie man
leicht verifiziert. Die Aussage ¬ P ∨ Q vermeidet also das der Umgangssprache nahestehende
“folgt“ in P =⇒ Q.
Regel 1.2.2 Seien P,Q,R Aussagen.
P ∧ Q
P ∨ Q
⇐⇒
Q ∧ P
⇐⇒
(1.5)
Q ∨ P
(1.6)
(P ∧ Q) ∧ R
⇐⇒
P ∧ (Q ∧ R)
(1.7)
P ∧ (P ∨ Q)
⇐⇒
P
(1.9)
P
(1.10)
(P ∧ Q) ∨ (P ∧ R)
(1.11)
(P ∨ Q) ∨ R
P ∨ (P ∧ Q)
P ∧ (Q ∨ R)
P ∨ (Q ∧ R)
⇐⇒
P ∨ (Q ∨ R)
⇐⇒
⇐⇒
⇐⇒
(1.8)
(P ∨ Q) ∧ (P ∨ R)
(1.12)
Die Gültigkeit von (1.5) , . . . , (1.12) belegt man wieder mit Hilfe von Wahrheitstafeln. Etwa zu
(1.11) in nicht vollständiger Aufzählung:
P
Q
R
Q ∨ R
P ∧ (Q ∨ R)
P ∧ Q
P ∧ R
(P ∧ Q) ∨ (P ∧ R)
(w)
(w)
(f)
(w)
(w)
(w)
(f)
(w)
(w)
(f)
(w)
(w)
(w)
(f)
(w)
(w)
(f)
(w)
(w)
(w)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
Sprechweisen:
(1.5), (1.6)
(1.7), (1.8)
(1.9), (1.10)
(1.11), (1.12)
Kommutativgesetze
Assoziativgesetze
Verschmelzungsgesetze
Distributivgesetze
5
In Definitionen weisen wir mathematischen Objekten manchmal Eigenschaften mit einem
definierenden Äquivalenzzeichen “ : ⇐⇒ ,“ zu, etwa:
Objekt O hat Eigenschaft E : ⇐⇒
Eine Aussage A über das Objekt O , die äquivalent
mit dem Eintreten der Eigenschaft E ist, ist wahr (gilt).
Beispiel 1.2.3 Die Schwierigkeit beim Umgang mit Aussagen und ihrer logischen Verwendung
zeigt uns die Antinomie von Epimenides:
Epimenides sagt, alle Kreter lügen
Epimenides ist Kreter
Epimenides lügt
1.3
Beweise
Ein Satz, Lemma, eine Folgerung, . . . ist die Ausformulierung einer mathematischer Aussage,
die wahr ist. Meist stellt sich diese Ausformulierung so dar, dass aus einer Voraussetzung V
eine Behauptung B gefolgert werden soll; V, B sind selbst mathematische Aussagen.
Ein Beweis eines Satzes mit Voraussetzung V und Behauptung B ist also eine Kette
von Implikationen, ausgehend von der Aussage V bis zur Aussage B:
V
=⇒ . . . =⇒ B
Die Regel (1.1) sagt uns, dass wir den Beweis auch führen können, indem wir die Gültigkeit von
V =⇒ B dadurch zeigen, dass wir ¬B =⇒ ¬V nachweisen; Beweis durch Kontraposition).
Der Widerspruchsbeweis basiert auf der Regel (1.4) zusammen mit (1.3). Er stellt sich so
dar:
V ∧ ¬B =⇒ . . . =⇒ Q
Hierbei ist mit Q dann eine Aussage erreicht, die nicht wahr ist.
Ein Beweis durch Fallunterscheidung kann angewendet werden, wenn sich die Voraussetzung V als V1 oder V2 formulieren läßt. Dann reicht es die Fälle V1 =⇒ B und V2 =⇒ B zu
zeigen, wie eine Wahrheitstafel sofort zeigt.
√
Dem Nachweis von Euklid4 , dass 2 nicht rational ist, liegt die Beweistechnik des Widerspruchbeweises zugrunde:
V : a ist eine Zahl mit a2 = 2
B: a ist eine Zahl, die nicht rational ist
√
Aus der Annahme V ∧ ¬B, also der Annahme, dass 2 eine rationale Zahl ist, leiten wir durch
logisches Schließen (gültige Aussageverknüpfungen) eine Aussage ab, die nicht wahr ist. Also
kann die Annahme V ∧ ¬B nicht wahr sein; V =⇒ B ist also wahr. Wir kommen auf diesen
Beweis zurück, wenn wir etwas mehr über rationale und irrationale Zahlen Bescheid wissen.
Bemerkung 1.3.1 Beweise führt man, u. a. dazu,
(-) sich selbst zu überzeugen, dass man richtig überlegt hat;
(-) andere Mathematiker zu überzeugen, dass die Aussage eines Satzes, Lemmas, . . . zutrifft;
4
Euklid, 365(?) – 300(?), Mathematiker“
”
6
(-) den inneren Aufbau eines mathematischen Gebäudes zu erläutern.
Einen Beweis zu finden, erfordert oft ein großes Maß an Intuition, Kreativität und Vorstellungsvermögens.
Bemerkung 1.3.2 Axiome sind Sätze/Aussagen, deren Gültigkeit ohne Argumente angenommen wird, an deren Wahrheit also nicht gezweifelt wird; wir bezeichnen sie als evidente Grundsätze.
Eines der bekanntesten Axiomensysteme ist das von Euklid zur Begründung der Geometrie. Es
beinhaltet das so genannte Parallelenaxiom, das sich etwa 2000 Jahre nach Euklid in seiner
Evidenz als zweifelhaft gezeigt hat.
In den empirischen Wissenschaften kann man keine Axiome festlegen, weil die erfahrbare
Welt erst in der Beobachtung zu Tage tritt.
1.4
Mengen
Den Begriff der Menge wollen und können wir hier ebenso wie die obigen Darlegungen zur
Aussagenlogik“ nicht im strengen Sinne der mathematischen Grundlagen einführen. Er dient
”
uns nur als Hilfsmittel für eine möglichst kurze Notation von konkreten Mengen. Von G. Cantor,5
dem Begründer der Mengenlehre, haben wir folgende Definition:
Eine Menge ist eine Zusammenfassung bestimmter wohlunterschiedener Objekte unserer Anschauung oder unseres Denkens – welche Elemente der Menge genannt werden – zu einem
Ganzen.
Diese Begriffsbildung hat die Mathematik tief beeinflusst.
Eine Menge besteht also aus Elementen, kennt man alle Elemente der Menge, so kennt man
die Menge. Beispiele, die wir noch genauer studieren werden, sind:
N := Menge der natürlichen Zahlen Z := Menge der ganzen Zahlen
Q := Menge der rationalen Zahlen R := Menge der reellen Zahlen .
Mit den natürlichen Zahlen 1, 2, 3, . . . sind wir schon (aus der Schule) wohlvertraut. Später gehen
wir etwas struktureller darauf ein.
Man kann eine Menge dadurch bezeichnen, dass man ihre Elemente zwischen zwei geschweifte
Klammern (Mengenklammern) schreibt. Die Zuordnung eines Elements zu einer Menge erfolgt
mit dem Zeichen “ ∈ “. Gehört ein Objekt x nicht zu einer Menge M, so schreiben wir x ∈
/ M.
Es hat sich als zweckmäßig erwiesen, den Mengenbegriff so aufzufassen, dass eine Menge aus
gar keinem Element bestehen kann. Dies ist dann die leere Menge, das Zeichen dafür ist ∅ .
Beispielsweise ist die Menge der rationalen Zahlen, deren
Quadrat gleich 2 ist, leer. Dies wissen
√
wir aus der Anmerkung über die Irrationalität von 2 .
Das Hinschreiben der Elemente einer Menge kann auf zweierlei Weisen geschehen.
Hat die Menge nur ganz wenige Elemente, so kann man sie einfach alle hinschreiben, durch
Kommata getrennt, auf die Reihenfolge kommt es dabei nicht an und eine Mehrfachnennung ist
nicht von Bedeutung, etwa:
{1, 2, 3} = {2, 3, 1} = {3, 3, 1, 2} .
Abgekürzt verfährt man oft auch so: Elemente, die man nicht nennt aber gut kennt, werden
durch Punkte angedeutet, etwa:
{1, 2, 3, 4, 5, 6, 7, 8} = {1, 2, . . . , 8} = {1, . . . , 8} .
5
Georg Cantor, 1845-1918, Mathematiker
7
Man nennt diese Art, Mengen hinzuschreiben, zu definieren, die Umfangsdefinition.
Die zweite Möglichkeit besteht darin, Objekte einer Menge als Elemente dadurch zuzuordnen,
dass man ihnen eine charakterisierende Eigenschaft zuweist. Ist E eine Eigenschaft, die jedes
Objekt x einer Menge M hat oder nicht hat, so bezeichne
{x ∈ M |x hat die Eigenschaft E}
die Menge aller Elemente von M , die die Eigenschaft E haben; etwa
KO := {x ∈ Obst|x Kernobst}
UNO := {x ∈ Länder|x Mitglied der UNO}
Man nennt diese Art, Mengen hinzuschreiben, zu definieren, die Inhaltsdefinition.. Die Schreibweise P (x) für ein Element x einer Menge M interpretieren wir, dass x die Eigenschaft/das
Prädikat P zukommt.
Wichtig beim Hinschreiben von Mengen ist, dass stets nachgeprüft werden kann, ob ein
spezielles Objekt einer in Frage stehenden Menge angehört oder nicht; in der Definition von
Cantor ist dies festgehalten. Dies korrespondiert mit dem ausgeschlossenen Dritten bei Aussagen.
Bei J.A. Poulos6 lesen wir:
... Ähnlich ist es mit der Notation der Mengenlehre. Sie ist so einfach, dass sie schon an
der Grundschule gelehrt werden kann. Was manchmal seitenlang in einem Vorwort zu einem
Lehrbuch steht, passt schon in ganz wenige Sätze: Mit p ∈ F wird ausgedrückt, dass p ein
Element der Menge F ist, und mit F ⊂ G, dass jedes Element von F ebenso ein Element
von G ist. Haben wir zwei Mengen A und B, dann ist A ∩ B die Menge, die jene Elemente
enthält, die sowohl zu A als auch zur Menge B gehören; mit A ∪ B ist die Menge gemeint,
die jene Elemente enthält, die zur Menge A, B oder zu beiden gehören; und A′ ist die Menge
jener Elemente, die nicht zu A gehören. Eine Menge, die keine Elemente enthält, ist eine
leere Menge und wird mit ∅, manchmal auch mit {} angegeben, geschweifte Klammern ohne
Inhalt. Ende des Mini-Kurses.
Was uns von den Begriffen aus dem obigen Minikurs noch nicht begegnet ist, bringen wir
noch in eine anständige“ Form:
”
Definition 1.4.1 Seien A, B Mengen und sei z irgendein Objekt.
(a) A ⊂ B : ⇐⇒ (x ∈ A =⇒ x ∈ B)
Damit ist die Teilmengeneigenschaft/Inklusion ⊂ definiert.
(b) A = B : ⇐⇒ (A ⊂ B und B ⊂ A)
(c) z ∈ A ∩ B : ⇐⇒ (z ∈ A und z ∈ B) .
Damit ist der Durchschnitt A ∩ B definiert: A ∩ B := {x|x ∈ A und x ∈ B}
(d) z ∈ A ∪ B : ⇐⇒ (z ∈ A oder z ∈ B) .
Damit ist die Vereinigung A ∪ B definiert: A ∪ B := {x|x ∈ A oder x ∈ B}
Das Symbol “ := “ haben wir als definierendes Gleichsetzen von Mengen eingeführt. Es korrespondiert mit dem Symbol “: ⇐⇒ “.
6
Poulos, J.A.: Von Algebra bis Zufall, Campus, Frankfurt, 1992
8
Definition 1.4.2 Sei A eine Menge. Die Potenzmenge von A ist die Menge der Teilmengen
von A einschließlich der leeren Menge:
P OT (A) := {B|B ⊂ A} .
Beispiel 1.4.3 Sei A := {p, q, r}. Wie sieht die Potenzmenge P OT (A) aus? Wir haben
P OT (A) = {∅, {p}, {q}, {r}, {p, q}, {q, r}{p, r}, {p, q, r}}
Wir stellen fest, dass die Menge A drei und die Menge P OT (A) 8 = 23 Elemente enthält. Dies
hat dazugeführt, dass man P OT (A) auch als 2A schreibt, und die Bezeichung Potenzmenge“
”
leitet sich daraus ab.
Mitunter wollen wir eine Bezeichnung für diejenigen Elemente haben, die eine gewisse Eigenschaft nicht haben. Dies ist Inhalt von
Definition 1.4.4 Seien A, B Teilmengen von U .
(a) A\B := {x ∈ A|x ∈
/ B} heißt das relative Komplement von B in A .
(b) ∁A := U \A heißt das Komplement von A (in U ).
(In der Definition (b) steht U für die (universelle) Grundmenge, auf die wir uns bei der Komplementbildung beziehen.)
Ein bequemes Hilfsmittel beim Nachdenken über Mengen sind die Venn–Diagramme, bei
denen in der Zeichenblattebene Gebiete zur Darstellung von Mengen benutzt werden: Durch
Kurven umschlossene Gebiete stellen Mengen A, B, . . . dar. Solche Darstellungen sind gut geeignet, formale Argumente für einen zu beweisenden Sachverhalt zu finden.
A
B
(a) Teilmenge
A
B
(b) Vereinigung
A
B
(c) Durchschnitt
Abbildung 1.1: Venn–Diagramme
Die Nützlichkeit der leeren Menge ∅ wird deutlich bei der Definition des Durchschnitts. Hier
ist ja der Fall, dass A ∩ B kein Element enthält, sicherlich nicht auszuschließen, wie uns ein
geeignetes Venn–Diagramm sofort lehrt. Zwei Mengen, deren Durchschnitt leer ist, heissen disjunkt.
9
Regel 1.4.5 Seien A, B, C Mengen.
A ⊂ B, B ⊂ C
A ∪ (B ∪ C)
=⇒
=
A ∩ (B ∩ C)
=
A∩B
=
A∪B
=
A ∩ (B ∪ C)
=
A ∪ (B ∩ C)
=
A⊂C
(A ∪ B) ∪ C
(1.13)
(1.14)
(A ∩ B) ∩ C
(1.15)
B∩A
(1.17)
B∪A
(1.16)
(A ∩ B) ∪ (A ∩ C)
(1.18)
(A ∪ B) ∩ (A ∪ C)
(1.19)
Beweis von (1.18):
Wir haben zu zeigen: A ∩ (B ∪ C) ⊂ (A ∩ B) ∪ (A ∩ C), (A ∩ B) ∪ (A ∩ C) ⊂ A ∩ (B ∪ C) .
Sei x ∈ A ∩ (B ∪ C). Dann gilt: x ∈ A, x ∈ B ∪ C . Daraus folgt: x ∈ A ∩ B oder x ∈ A ∩ C,
je nachdem, ob x ∈ B und/oder x ∈ C. Daraus schließen wir: x ∈ (A ∩ B) ∪ (A ∩ C). Für den
Beweis der anderen Inklusion lese man die eben vorgeführten Beweisschritte rückwärts.
Sprechweisen:
(1.13)
(1.14), (1.15)
(1.16), (1.17)
(1.18), (1.19)
Transitivität
Assoziativgesetze
Kommutativgesetze
Distributivgesetze.
Definition 1.4.6 Seien A, B Mengen.
(a) Sind a ∈ A, b ∈ B, so heißt (a, b) das damit gebildete geordnete Paar (bezogen auf die
Reihenfolge “zuerst A, dann B“).
(b) Zwei Paare (a, b), (a′ , b′ ) mit a, a′ ∈ A, b, b′ ∈ B, heißen gleich genau dann, wenn a =
a′ , b = b′ gilt.
(c) Die Menge A × B := {(a, b)|a ∈ A, b ∈ B} heißt das kartesische Produkt der Faktoren
A, B .
Mit geordneten Paaren notieren wir etwa die kartesischen Koordinaten (Vielfache der Einheitsstrecke) eines Punktes in der Ebene: wir kommen darauf zurück.7
Beispiel 1.4.7 Z2 := {(x, y)|x, y ∈ Z} ist die Menge aller Punkte der Ebene mit ganzzahligen
Koordinaten. Solche Punkte heißen auch Gitterpunkte“ der Ebene. Analog ist Z n die Menge
”
aller Gitterpunkte des Rn .
Regel 1.4.8 Seien A, B, C Mengen:
A × (B ∪ C) = (A × B) ∪ (A × C) .
A × (B ∩ C) = (A × B) ∩ (A × C) .
7
(1.20)
(1.21)
Da René Descartes, 1596-1650, sehr erfolgreich die Koordinatisierung algebraischer Probleme betrieben hat,
ist die Bezeichnung kartesisch“ wohl angebracht.
”
10
Diese Regeln bestätigt man ganz leicht. Nehmen wir uns die Regel (1.20) vor und beweisen eine
der Inklusionen, die es zu beweisen gilt: A × (B ∪ C) ⊂ (A × B) ∪ (A × C) .
Sei x ∈ A × (B ∪ C) . Dann gibt es a ∈ A, d ∈ B ∪ C mit x = (a, d) . Nach Definition von B ∪ C
bedeutet dies
x = (a, d) mit a ∈ A, d ∈ B, oder x = (a, d) mit a ∈ A, d ∈ C .
Also x ∈ A × B oder x ∈ A × C .
Es ist klar, dass wir das kartesische Produkt auf mehr als zwei Faktoren“ ausdehnen können.
”
Etwa korrespondiert ein (gültiger) Lottoschein mit den Elementen der Menge
{x = (x1 , x2 , x3 , x4 , x5 , x6 ) ∈ Z × · · · × Z|x1 , . . . , x6 sind paarweise verschieden};
dabei ist Z = {1, 2, 3, . . . , 49}. Ein Element (x1 , . . . , x6 ) der Menge nennt man ein 6-Tupel.
Das mehrfache kartesische Produkt einer Menge A erhält eine Kurzschreibweise, nämlich
An := A
· · × A} := {x = (x1 , . . . , xn )| alle xi ∈ A} .
| × ·{z
n−mal
Ein Element x = (x1 , . . . , xn ) der Menge An nennt man ein n-Tupel.
Eine Menge kann endlich viele Elemente haben oder unendlich viele. Hier begnügen wir uns
mit einer Definition der Endlichkeit“, die aus unserer Erfahrung heraus sehr wohl geeignet ist;
”
später, wenn wir uns mit Abbildungen beschäftigt haben, bessern wir nach:
Eine Menge heißt endlich, wenn jedem Element der Menge der Reihe nach die Zahlen
1, 2, . . . , N zugeordnet werden kann, wobei mit N dann allen Elementen eine Zahl
zugeordnet ist. Eine Menge heißt unendlich, wenn sie nicht endlich ist.
Eine endliche Menge {x1 , . . . , xn } hat somit n Elemente, wenn alle xi paaarweise verschieden
sind.
Die Anzahl der Elemente einer Menge M bezeichnen wir so: #M .
Man beachte, dass es unserer Verabredung nicht widerspricht, dass Elemente von Mengen
selbst wieder Mengen sein können. Man hüte sich aber vor Konstruktionen wie Menge aller
”
Mengen“, Teilmengen aller Mengen“ usw.. Damit sind wir in einer naiven Auffasung von Men”
gen überfordert. Mit den Schwierigkeiten, die bei solchen Konstruktionen auftreten, hat sich
Bertrand Russel erfolgreich auseinandergesetzt.
Auf das Zählen der Elemente einer Menge werden wir nach einer Betrachtung der natürlichen
Zahlen eingehen.
In der Wahrscheinlichkeitstheorie benutzt man Mengen, um
unsichere Ereignisse, also Ereignisse, deren Eintreffen vom
Zufall mitbestimmt ist, darzustellen. Die Theorie, die dafür
zuständig“ ist, ist die Stocha”
stik, in der die Wahrscheinlichkeitstheorie und die Statistik
zusammengefaßt sind. Wir kommen darauf zurück.
Notation
Sprechweise
∀a ∈ A
“für alle Elemente a in A“
∃a ∈ A
“es existiert a in A“
∃1 a ∈ A
“es existiert genau ein a in A“
∀a ∈ A (P (a))
“für alle Elemente a in A ist P (a) wahr“
∀a ∈ A (P (a))
“für alle Elemente a in A gilt P (a)“
∃a ∈ A (P (a))
“es existiert a in A mit P (a)“
Abbildung 1.2: Quantoren
11
1.5
Quantoren
Wir führen noch Quantoren ein; siehe Abbildung 1.2. Damit können wir dann viele Resultate
und Definitionen noch kompakter hinschreiben. Wir werden viele Beispiele für die Nützlichkeit
dieser Quantoren kennenlernen. Wir erinnern zum Beispiel an die Definition der Konvergenz
einer reellen Zahlenfolge (an )n∈N :
a = lim an : ⇐⇒ ∀ ε > 0 ∃ N ∈ N ∀ n ≥ N (|an − a| < ε) .
n
Man beachte stets, dass Quantoren in der Reihenfolge nicht vertauschbar sind. Wichtig ist
es auch, zu verstehen, wie die Negation einer Aussage aussieht, die mit Hilfe von Quantoren
beschrieben wird, etwa:
¬(∀ a ∈ A (P (a))) ist gleichbedeutend mit ∃ a ∈ A (¬P (a)) .
1.6
1.)
Übungen
Verneine folgende Aussagen:
(a) Wenn es regnet, ist die Straße nass.
(b) Es gibt kein Tier, das genau ein Ohr und genau zwei Augen hat.
(c) Alle Quadrate von ganzen Zahlen sind gerade.
Was lässt sich über den Wahrheitsgehalt der Aussagen in (a), (b), (c) sagen?
2.)
A, B, C, D sind vier Tatverdächtige. Genau einer unter ihnen ist der Täter. Beim Verhör
machen sie folgende Aussagen:
A: B ist der Täter
B: D ist der Täter
C,D: Ich bin nicht der Täter
Wer ist der Täter, wenn
(a) genau einer lügt,
(b) genau einer die Wahrheit sagt ?
3.)
Seien P, Q Aussagen. Stelle die Wahrheitstafel zu
(a) ¬(P ∨ Q) ⇐⇒ ¬P ∧ ¬Q
(b) P ∧ (P ∨ Q) ⇐⇒ P
auf.
4.)
(a)
Fülle die folgende Wahrheitstabelle aus:
P
(w)
(w)
(f)
(f)
Q
(w)
(f)
(w)
(f)
¬P
¬Q
(¬ P ∨ Q)
¬ (¬ P ∨ Q)
Was schließt man aus den beiden letzten Spalten?
(b) Fülle die folgende Wahrheitstabelle aus:
P
(w)
(w)
(f)
(f)
Q
(w)
(f)
(w)
(f)
P =⇒ Q
12
(P =⇒ Q) ∨ P
P ∧ ¬Q
Was schließt man aus der letzten Spalte?
5.)
Verneine folgende Aussagen:
(a)
Zu jedem Vorschlag gibt es jemand, der den Vorschlag kritisiert.
(b) Keine Regel ohne Ausnahme.
(c)
6.)
In manchen Häusern haben nicht alle Wohnungen fließendes Wasser.
Betrachte die Sequenz
Marylin Monroe ist ein Star/Stare sind Höhlenbrüter/Marylin Monroe ist ein Höhlenbrüter
Kommentiere sie hinsichtlich
(a)
Logisch richtig?
(b) Prämisse richtig?
(c)
7.)
Wo ist ein/das Problem?
Seien A, B Mengen. Zeige:
(a)
Zeige: P OT (A ∩ B) = P OT (A) ∩ P OT (B)
(b) Zeige: P OT (A) ∪ P OT (B) ⊂ P OT (A ∪ B)
(c)
Ist sogar P OT (A ∪ B) = P OT (A) ∪ P OT (B) richtig ?
8.)
Seien A, B Mengen. Welche Beziehung besteht zwischen A und
B, falls A ∩ B = A oder A ∪ B = B gilt?
9.)
Seien G, M Mengen und sei I ⊂ G × M . Zu A ⊂ G setze
Aˆ:= {m ∈ M |(a, m) ∈ I für alle a ∈ A} .
Zeige:
(a)
Bˆ⊂ Aˆ falls A ⊂ B .
(b) A ⊂ Aˆˆ, Aˆ= Aˆˆˆ.
(In der Literatur heisst ein solches Tripel (G, M, I) auch Kontext mit Gegenstandsmenge
G, Merkmalen M und Inzidenz I .)
10.) Beweise für Mengen A, B, C : A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) .
11.) Die symmetrische Differenz von Mengen A und B ist definiert durch
A △ B := {x ∈ A|x ∈
/ B} ∪ {x ∈ B|x ∈
/ A}
Beweise für Mengen A, B, C : A △ (B △ C) = (A △ B) △ C.
12.) Seien A, B Mengen und definiere
((a, b)) := {{a}, {a, b}} , a ∈ A, b ∈ B .
Zeige für a, p ∈ A, b, q ∈ B: ((a, b)) = ((p, q)) ⇐⇒ a = p, b = q .
(Damit haben wir geordnete Paare neu definiert.)
13.) Zeige für Mengen A, B die Äquivalenz der folgenden beiden Aussagen:
(a)
A=B.
(b) A ∪ B = A ∩ B .
13
Kapitel 2
Operieren mit und auf Mengen
Hier stellen wir einige nützliche Dinge zur Operation mit und auf Mengen vor. Das Objekt
Alphabet“ ist für die Belange der Informatik von großem Interesse, ebenso wie Relationen und
”
Ordnungen. Daran schließt sich die Definition der Abbildungen an.
2.1
Alphabete
Alphabete sind ein zentraler Begriff der theoretischen Informatik im Zusammenhang mit Grammatiken und Verschlüsselungsverfahren.
Definition 2.1.1 Sei A eine nichtleere Menge. A∗ bezeichne die Menge der endlichen Tupel
von Elementen von A, also x ∈ A∗ genau dann, wenn x = () oder x ∈ An für ein n ∈ N, .
Die Elemente von A∗ werden A–Wörter – in der Informatik A–Strings – genannt, das Symbol
() bezeichnet das so genannte leere Wort (leeres Tupel). (Wörter sind Bausteine von Sprachen.)
Die Menge A wird in diesem Zusammenhang ein Alphabet genannt; die Elemente von A sind
der Zeichenvorrat für die Wörter.
Einem Element w ∈ A∗ mit w ∈ An wird die Länge n zugesprochen; wir nennen es ein n–Wort;
das leere Wort () hat die Länge 0.
Im Spezialfall A = {0, 1} spricht man bei A∗ von binären Worten.
In der obigen Definition haben wir Wörter als Tupel definiert. Im Kontext von Alphabeten
und deren Wörter läßt man in der Tupel-Schreibweise begrenzende runde Klammern und trennende Kommata weg: x = x1 x2 . . . xn ist ein Wort der Länge n . Damit ist die Bezeichnung
String“ in der Informatik auch erklärt.
”
Beispiel 2.1.2
BAUM
1234
01001
− − •−
MMIX
:
:
:
:
:
Deutsches Alphabet {A,B,C, . . . , X,Y,Z,Ä,Ü,Ö}
Dezimalziffern-Alphabet {0,1,2,3,4,5,6,7,8,9}
Binäres Alphabet {0, 1}
Morsealphabet {−, •, ⊔} (− − •− steht für “q“)
{I,V,X,L,C,D,M} ist das Alphabet zur Darstellung
römischer Zahlen
Bemerkung 2.1.3 Sei X = {x1 , . . . , xn } eine Menge mit n Elementen. Jeder Teilmenge A
von X, d.h. jedem Element der Potenzmenge von X, entspricht eindeutig ein n−Wort aus dem
Alphabet {0, 1} :
1 , falls xi ∈ A
A ←→ b1 b2 . . . bn , wobei bi =
0 , falls xi 6∈ A
14
Also ist die Anzahl der Elemente von P OT (X) gleich der Anzahl der möglichen binären n−Worte.
Diese können wir so abzählen:
Es gibt wn n−Wörter und wn+1 (n + 1)−Wörter. Wir sortieren“ die (n + 1)−Wörter nach dem
”
1. Buchstaben: genau wn Wörter beginnen mit 0, genau wn Wörter beginnen mit 1. Daher gilt:
wn+1 = 2 · wn , w1 = 2 . Daraus folgt die Formel wn = 2n , n ∈ N, .
(Wir haben hier eine Art Induktionsbeweis“ aufgeschrieben; dazu später.)
”
Bemerkung 2.1.4 Es gilt heute als gesicherte Tatsache, dass die Erbanlagen von Pflanzen und
Tieren durch die DNS (Desoxyribonukleinsäure) in den Chromosomen übertragen werden. Man
konnte zeigen, dass die DNS aus einer langen Kette besteht, die aus 4 Bausteinen, die durch die
Buchstaben A,T,G,C dargestellt werden, aufgebaut ist. Hier ist ein Ausschnitt:
ATGGCAAGTTACA. . .
Vererbung besteht daher aus langen Nachrichten, die in Worten (Strängen) aus einem Vierbuchstabenalphabet geschrieben werden können; das Ergebnis einer Genom–Analyse ist also so
hinschreibbar.
Die Übertragung von Nachrichten geschieht mittels durch Hardware realisierter mechanischer
oder elektronischer Impulse. Telefon, Morseapparat, Telegraph, Funkgerät sind Instrumente der
Nachrichtenübermittlung. Die Strecke (physikalische Verbindung), auf der die Übermittlung vor
sich geht, bezeichnet man als Kanal. Zur Übertragung werden die Nachrichten in besonderer
Weise vorbereitet. Eine erste Vorbereitung ist die sogenannte Quellencodierung, bei der eine
Nachricht (einer natürlichen Sprache), die ein Sender an einen Empfänger übermitteln will, in
einem vorgegebenen System, Code genannt, dargestellt wird. Quellencodierung bedeutet in der
Regel, einer Nachricht x einer Gesamtheit X von Nachrichten ein Wort w, geschrieben in einem
Alphabet A zuzuordnen.
Ein eventuell so codiertes Wort des Senders geht
nun über den Kanal an den Empfänger. Hier ergeben sich zwei wesentliche Probleme. Zum einen kann
ASCII–Zeichen
Codewort
der Kanal Störungen ausgesetzt sein (atmosphäri⊔ (Zwischenraum) 00100000
sche Störungen bei Satelliten, . . . ), zum anderen
können beabsichtigte Eingriffe (Lauschen, Stören,
0
00110000
gezieltes Abändern, . . . ) von Unbefugten vorgenom1
00110001
men werden. Der erste Aspekt erfordert eine Tech2
00110010
nik, die Fehler erkennt und korrigiert, der zweite
Aspekt eine Technik, die die Nachrichten für Un!
00100001
befugte unlesbar macht. Die Methode für Abhilfe
A
01000001
ist bei beiden Aspekten die gleiche: die Nachricht
B
01000010
im Quellencode wird vor der Sendung über den Kanal einer Sicherheitsmaßnahme unterzogen; sie wird
C
01000011
nochmals codiert. Diesen zweiten Schritt fasst man
Abbildung 2.1: Ascii–Code
unter dem Stichwort Kanalcodierung zusammen.
Auf der Empfängerseite hat man dann entsprechend
zwei Decodierungsmaßnahmen zu treffen, die Kanaldecodierung und die Quellendecodierung.
Beispiel 2.1.5 Beispiele für in der Praxis verwendete Codes sind:
15
• ASCII–Code (American Standard Code for Information Interchange)
Damit wird ein Alphabet, das aus Buchstaben, Ziffern und Sonderzeichen besteht, über dem
Alphabet {0, 1} mit Wortlänge 8 codiert. Ein Ausschnitt ist in Abbildung 2.1 zu sehen.
• Lochstreifencode
Damit wird ein Alphabet aus Buchstaben und Sonderzeichen über dem Alphabet {0, 1} mit
Wortlänge 5 dargestellt, physikalisch realisiert als Fünferkombination von gestanzten Löchern
und ungestanzten Leerstellen im Lochstreifen.
• Zeichensatzcode etwa bei LATE X.
Damit wird ein Alphabet aus Buchstaben, Ziffern und Sonderzeichen über dem Alphabet der
Ziffern {0, 1, . . . , 7} (oktal) mit Wortlänge 3 dargestellt. Ein Beispiel: 046 steht für & im Zeichensatz cmr10. Dabei ist cmr10 selbst wieder ein Codewort, dessen Bauart sich so erklärt:
“cm“ steht für “Computer Modern“, “r“ steht für die Schriftart “Roman“, “10“ steht für die
Entwurfsgröße.
• ISBN (International Standard Book Number)
Beispiel: 3 – 127 – 01901 – 7
(Die Zahl 3 steht für den deutschsprachigen Raum, 127 steht für den Verlag, 01901 steht für die
Nummer des Buches in der internen Zählung des Verlages, 7 ist eine Prüfziffer, die so zustande
kommt:
1 · 3 + 2 · 1 + 3 · 2 + 4 · 7 + 5 · 0 + 6 · 1 + 7 · 9 + 8 · 0 + 9 · 1 hat Rest 7 bei Teilung durch 11
Eine Prüfziffer 10 wird als X (römische 10) geschrieben.)
• E A N (European Article Number/Strichcode)
Beispiel: | ||| | || || |
2.2
Relationen
Definition 2.2.1 Sei X, Y Mengen. Eine Teilmenge R ⊂ X × Y heißt Relation auf X × Y .
Hinter einer Relation verbirgt sich noch nicht viel, denn Teilmengen in einem Kreuzprodukt
X × Y gibt es viele. Interessante Beispiele entstehen erst, wenn man weitere Eigenschaften
hinzunimmt, wie dies etwa unten bei der Äquivalenzrelation und bei der Relation, die eine
Abbildung definieren soll, der Fall ist.
Beispiel 2.2.2 Betrachte auf der Menge M := Menge aller lebenden Menschen die Relation R
des Verheiratetseins:
(a, b) ∈ R : ⇐⇒ a, b sind miteinaner verheiratet.
Klar, hier gilt sicher nicht (a, a) ∈ R .
Das Gleichheitszeichen “ = “ verwenden wir in einer Menge unter der stillschweigenden Annahme der folgenden Regeln:
x = x ; (x = y =⇒ y = x) ; (x = y, y = z =⇒ x = z) .
Dies nehmen wir zum Anlass für
Definition 2.2.3 Sei X eine Menge. Eine Teilmenge R ⊂ X × X heißt Äquivalenzrelation
auf X, falls gilt:
16
(i) (x, x) ∈ R für alle x ∈ X
(Reflexivität)
(ii) (x, y) ∈ R =⇒ (y, x) ∈ R
(Symmetrie)
(iii) (x, y), (y, z) ∈ R =⇒ (x, z) ∈ R
(Transitivität)
R
Liegt mit R auf X eine Äquivalenzrelation vor, so schreiben wir für (x, y) ∈ R x ∼ y oder
kurz x ∼ y , wenn R uns aus dem Zusammenhang klar ist.
Die Bedeutung einer Äquivalenzrelation R auf X liegt darin, dass man damit die Menge
X in Teilmengen (Klassen, Bündel) einteilen kann, eine Einteilung, die eventuell gröber ist,
als die Aufteilung in einelementige Mengen, und die bezüglich eines Merkmales“ doch noch
”
aussagekräftig ist. Die Einteilung geschieht durch
R
[x] := {y ∈ X|y ∼ x} , x ∈ X , und X/ R := {[x] | x ∈ X} .
Die Objekte [x] heißen Äquivalenzklassen, x heißt Repräsentant der Klasse [x] . Man beR
achte, dass jedes y ∈ X mit y ∼ x als Repräsentant für [x] Verwendung finden kann.
Beispiel 2.2.4 Blutgruppen werden grob eingeteilt in A, AB, B, 0. Sei K eine Gruppe von
Kindern. Wir erklären darauf eine Relation durch
x ∼ y : ⇐⇒ x, y haben dieselbe Blutgruppe
In der Tat liegt eine Äquivalenzrelation vor. Dadurch wird die Gruppe der Kinder in 4 Klassen
eingeteilt.
Beispiel 2.2.5 Man überlege sich, in welcher Weise, die Geraden in der Ebene durch eine
Äquivalenzrelation in Klassen eingeteilt werden können.
Lemma 2.2.6 Sei X eine Menge und sei R eine Äquivalenzrelation auf X. Dann sind mit
x, y ∈ X folgende Bedingungen äquivalent:
R
(a) y ∼ x .
(b)
(c)
y ∈ [x] .
[y] ∩ [x] 6= ∅ .
(d) [y] = [x] .
(e)
x ∈ [y] .
(f )
x ∼ y.
R
Beweis:
Wollten wir alle Äquivalenzen einzeln zeigen, müssten wir 10 Implikationen beweisen. Dies
können wir wesentlich abkürzen durch einen Ringschluss: es genügt zu zeigen:
(a) =⇒ (b) =⇒ (c) =⇒ (d) =⇒ (e) =⇒ (f ) =⇒ (a) .
Dies tun wir nun. Beachte dabei, dass wegen der Reflexivität stets z ∈ [z] .
(a) =⇒ (b)
Dies folgt aus der Definition der Klasse [x] .
17
(b) =⇒ (c)
Klar, y ∈ [y] ∩ [x] .
(c) =⇒ (d)
Sei z ∈ [y] ∩ [x] , d.h. z ∼ x, z ∼ y . Wir zeigen [z] = [x] = [y] . Es genügt dazu [z] = [y] zu zeigen,
der Beweis der anderen Aussage verläuft völlig analog.
Sei u ∈ [z] . Dann gilt u ∼ z, z ∼ y und daher mit der Transitivität u ∈ [y] .
Sei v ∈ [y] . Dann gilt v ∼ y, z ∼ y und daher mit der Symmetrie und Transitivität u ∈ [z] .
(d) =⇒ (e)
Klar, denn x ∈ [x] .
(e) =⇒ (f )
Dies folgt aus der Definition der Klasse [y] .
(f ) =⇒ (a)
Symmetrie von ∼ .
Folgerung 2.2.7 Sei X eine Menge und sei R eine Äquivalenzrelation auf X. Dann gilt:
(a) Für jedes x ∈ X gibt es [y] ∈ X/ R mit x ∈ [y] .
(c) Zwei Äquivalenzklassen besitzen genau dann nichtleeren Durchschnitt, wenn sie gleich sind.
Beweis:
Zu (a). Klar: x ∈ [x] für alle x ∈ X wegen der Reflexivität von “∼“.
Zu (b). Siehe Lemma 2.2.6.
2.3
Ordnung
Bei den natürlichen Zahlen 1,2,3,. . . – und nicht nur dort – verwenden wir das Ungleichungszeichen “≤“. Es hat die Eigenschaften (x, y, z ∈ N)
x ≤ x;
x ≤ y und y ≤ x =⇒ y = x ;
x ≤ y und y ≤ z =⇒ x ≤ z ;
x ≤ y oder y ≤ x .
Wir nehmen dies zum Anlass für
Definition 2.3.1 Sei X eine Menge. Eine Teilmenge O ⊂ X × X heißt Halbordnung von X,
falls gilt:
(i) Für alle x ∈ X gilt (x, x) ∈ O.
(Reflexivität)
(ii) (x, y) ∈ O , (y, x) ∈ O =⇒ y = x .
(Antisymmetrie)
(iii) (x, y), (y, z) ∈ O =⇒ (x, z) ∈ O .
(Transitivität)
Ist zusätzlich noch
(iv) Für alle x, y ∈ X gilt (x, y) ∈ O oder (y, x) ∈ O
erfüllt, dann heißt O eine Ordnung von X.
O
Meist schreibt man bei Vorliegen einer Halbordnung O statt (x, y) ∈ O auch x ≤ y oder kurz
x ≤ y , wenn der Zusammenhang klar ist.
18
Beispiel 2.3.2 Ist X eine Menge, dann ist in P OT (X) eine Halbordnung O definiert durch
(A, B) ∈ O : ⇐⇒ A ≤ B : ⇐⇒ A ⊂ B .
Beachte, dass nur in trivialen Fällen eine Ordnung vorliegt.
Beispiel 2.3.3 Sei A ein (endliches) Alphabet und seien An die Wörter der Länge n über dem
Alphabet A . Sei in A eine Ordnung ≤ gegeben.
Wir setzen für a = a1 . . . an , b = b1 . . . bn ∈ An :
a ≤ b : ⇐⇒ a = b oder ak ≤ bk für das kleinste k mit ak 6= bk .
lex
Dann ist ≤ eine Ordnung in An . Man nennt sie die lexikographische Ordnung. Als Anwenlex
dung ordne man
0002, 0008, 0013, 0029, 0132, 1324
als Worte über dem in natürlicher Weise angeordneten Alphabet A := {0, 1, 2, . . . , 9} .
Eine Liste besteht aus einer Sammlung von wohlbestimmten und wohlunterscheidbaren Objekten und ihrer Anordnung nach einem Prinzip; die leere Liste ist zugelassen.
Die Anordnung kann nach dem chronologischen Prinzip, nach einem alphabetischen Prinzip oder
allgemein mit einer Ordnung erfolgen. Kennt man alle Objekte der Liste, so kennt man die Liste;
Hat die Liste nur ganz wenige Elemente, so kann man sie einfach alle innerhalb einer eckigen
Klammer – damit machen wir den Unterschied zu Mengen klar – hinschreiben, durch Kommata
getrennt, auf die Reihenfolge kommt es hierbei offenbar an.
2.4
Algorithmen
Ein Computer ist ein Werkzeug zur Verarbeitung und Speicherung von Information. Um ihn zu
nutzen, ist er mit Verarbeitungsvorschriften zu füttern“. Wir formulieren solche Vorschriften in
”
der Regel unter dem Stichwort Algorithmus. Hier skizzieren wir, worauf es bei Algorithmen ankommt, und geben erste Beispiele. Für die Analyse von Algorithmen ist der Begriff Abbildung“
”
hilfreich, wenn es darum geht die Laufzeit aufzuschreiben.
Ein Algorithmus1 für eine vorgegebene bestimmte Art von Aufgaben ist eine endliche
Abfolge von wohldefinierten, ausführbaren Vorschriften, die bei Abarbeitung, ausgehend von einem Eingangszustand (Input) nach einer endlichen Anzahl von Verarbeitungsschritten einen Ausgangszustand (Output) bestimmen, der als Lösung der durch
den Eingangszustand charakterisierten Aufgabe angesehen werden kann.
Algorithmen sind unabhängig von einer konkreten Programmiersprache und einem konkreten
Computertyp, auf denen sie ausgeführt werden.
Beispiel 2.4.1 Betrachte folgende Liste von Anweisungen:
EIN: Natürliche Zahl n .
1
Die Bezeichnung leitet sich aus dem Namen Al–Khwarizmi (Al–Khwarizmi,780? — 850?), einem der bedeutensten Mathematiker des anfangenden Mittelalters, ab.
19
step 1 a := n, k := 1 .
step 2 Ist a (
= 1, dann gehe zu AUS.
3a + 1 falls a ungerade
step 3 a :=
a/2
falls a gerade
step 4 k := k + 1, gehe zu step 2.
AUS: Mit k die Länge der erzeugten Zahlenfolge.
Die Rechenschritte erklären sich selbst: ausgehend von n wird eine Folge von natürlichen
Zahlen erzeugt, eine so genannte Collatz/Uhlam/Warring-Folge.
Ist dies ein Algorithmus? NEIN, denn es ist nicht sichergestellt, dass die Abfrage
Ist a = 1, dann gehe zu AUS“
”
irgendwann zur Beendigung führt.
ABER: Bisher hat man keine natürliche Zahl gefunden, bei der die obige Liste von Anweisungen
nicht endet.
Unterschiedliche Algorithmen können entworfen werden zur Lösung ein und derselben Aufgabe. Leistungsunterschiede lassen sich herausarbeiten, wenn man ihren Aufbau und ihre Wirkungsweise analysiert. Fragestellungen dafür sind:
• Entwurf von Algorithmen: Wie soll ein Algorithmus zur Lösung einer bestimmten
Aufgabe aussehen?
• Berechenbarkeit: Gibt es Aufgaben, für die kein Algorithmus existiert?
• Korrektheit: Wie läßt sich nachweisen, ob ein vorliegender Algorithmus die Aufgabe
korrekt löst?
• Komplexität: Wie läßt sich der Aufwand, der betrieben werden muss, um eine Problemklasse von Aufgaben zu lösen, bestimmen/abschätzen?
• Robustheit/Zuverlässigkeit: Wie groß ist die Problemklasse von Aufgaben, die der
Algorithmus löst?
• Genauigkeit: Was ist die Qualität der Lösung, wenn numerisches Rechnen nötig ist?
Hauptziel der Analyse ist die Effizienzuntersuchung und die Entwicklung effizienterer Algorithmen. Diese Analyse sollte aber rechnerunabhängig durchgeführt werden. Dazu benötigt
man ein geeignetes Rechnermodell. Solche Modelle stehen zur Verfügung! Wir wollen hier nicht
darauf eingehen, unsere Analyseuntersuchungen stützen wir auf die Ermittlung des Rechenaufwands, ausgedrückt durch die Anzahl von elementaren Operationen. Hierbei kann man drei
Ansätze unterscheiden:
– Worst-case-Komplexität: Dies ist eine obere Schranke für den Aufwand in Abhängigkeit
vom Input.
– Mittlere Komplexität: Dies ist eine obere Schranke für den Aufwand in Abhängigkeit
vom Input bei gewissen Annahmen über das Auftreten des Inputs in der Problemklasse.
– Untere Komplexität: Hierunter versteht man die Ermittlung unterer Schranken für den
zu betreibenden Aufwand.
20
Diese Ansätze können rechnerunabhängig und a-priori erfolgen, d.h. ohne den Algorithmus zu
testen. Unter einer a-posteriori–Analyse versteht man das Testen des Algorithmus an Aufgaben
mit (hinreichend) großem Input.
Die konkrete Ausführung eines Algorithmus nennt man einen Prozess. Die Einheit, die den
Prozess ausführt, ist ein Prozessor. Beim Kuchenbacken ist der Algorithmus das Rezept, der
Prozess die Abarbeitung des Rezepts, der Prozessor der Koch. Hier denken wir natürlich an
den Prozessor Computer“. Um eine Analyse des Ablaufs eines Algorithmus auf diesem Pro”
zessor vornehmen zu können, ist ein geeignetes Modell für den Computer (Maschinenmodell)
bereitzuhalten. Die Informatik studiert u.a. die Turing-Maschine und die Random-AccessMaschine (RAM), welche in gewissem Sinne sogar äquivalent sind. Die Analyse von Algorithmen auf einem abstrakten Niveau ist eine Disziplin der Informatik und/oder mathematischen
Informatik.
Sei M eine endliche Menge mit n Elementen und versehen mit einer Ordnung ≤ . Sortieren heißt, die Elemente von M so anzuordnen, daß sie bzgl. der Ordnung ≤ eine aufsteigende
Elementfolge bilden. Sortierverfahren werden benötigt etwa bei: Einordnen von Schlüsseln im
Werkzeugkasten, Ordnen der erhaltenen Karten beim Skatspiel, Sortieren von Dateien der Größe
nach. Gesichtspunkte für die Leistungsfähigkeit eines Sortierverfahrens sind:
Schnelligkeit. Wieviele Rechenoperationen (Vergleiche, Umstellen in einer Liste) in Abhängigkeit von n sind nötig? Dieser Aufwand wird Laufzeitkomplexität des Verfahrens genannt.
Speicherplatz. Im allgemeinen kann man sich die Elemente der Menge abgelegt in Fächern
vorstellen. Beim Sortieren kann es sinnvoll sein, Zusatzfächer zu benutzen. Der Bedarf an
Fächern in Abhängigkeit von n ist die Speicherplatzkomplexität des Verfahrens.
2.5
Abbildungen
Mit Abbildungen drücken wir den mathematischen Sachverhalt aus, dass es zwischen zwei Objekten eine klar definierte Abbhängigkeit gibt. Wiederum behandeln wir den Begriff auf der
Ebene einer naiven Auffassung.
Definition 2.5.1 Seien A, B, C, D Mengen.
(a) Eine Abbildung f von A nach B ist eine Vorschrift, durch die jedem a ∈ A genau ein
Bild f (a) ∈ B zugeordnet wird; A heißt Definitionsbereich, B heißt Wertebereich
von f. Wir schreiben f : A −→ B .
(b) Zwei Abbildungen f : A −→ B, g : C −→ D heißen gleich, wenn gilt:
A = C, B = D, f (x) = g(x) für alle x ∈ A .
Teil (a) der Definition ist nicht ganz zufriedenstellend, denn wir verwenden das umgangssprachliche Vorschrift“. Hier ist eine Definition, die dies vermeidet:
”
Definition 2.5.2 Seien A, B Mengen. Eine Abbildung von A nach B ist eine Relation R auf
A × B mit folgender Eigenschaft:
∀ a ∈ A ∃1 b ∈ B ((a, b) ∈ R)
21
Wir werden später auch von Funktionen sprechen. In unserem Verständnis ist eine Funktion
ein Spezialfall einer Abbildung: wir sprechen dann von einer Funktion, wenn wir eine Abbildung
zwischen Zahlbereichen haben, d.h. wenn Definitions– und Wertebereich der Abbildung Mengen
von Zahlen sind.2
Beispiel 2.5.3 Sei A eine Menge. Dann nennt man die Abbildung
idA : A ∋ x 7−→ x ∈ A
die Identität auf A. (Manchmal lassen wir den Index A weg und schreiben einfach id, wenn
klar ist, um welches A es sich handelt.)
Beispiel 2.5.4 Seien A, B Mengen. Dann heißt die Abbildung
π1 : A × B ∋ (a, b) 7−→ a ∈ A
die Projektion auf den ersten Faktor.3 Es sollte klar sein, dass entsprechend auch die
Projektionen auf beliebige Faktoren in einem kartesischen Produkt erklärt sind.
Beispiel 2.5.5 Sei A eine Menge.
Jede Abbildung
N ∋ n 7−→ xn ∈ A
nennt man eine Folge mit Folgengliedern aus A . Meist schreiben wir dafür kurz (xn )n∈N .
Jede Abbildung
{1, . . . , m} × {1, . . . , n} ∋ (i, j) 7−→ aij ∈ A
nennen wir eine Matrix mit m Zeilen und n Spalten mit Einträgen aus A . Meist schreiben wir
dafür kurz (aij )1≤i≤n,1≤j≤m .
Wenn wir A := {0, 1, . . . , 255} wählen, können wir eine solche Matrix als Pixelbild mit m · n
Pixeln und 28 = 256 Grauwertstufen interpretieren.
Definition 2.5.6 Sei f : A −→ B eine Abbildung. Die Menge
graph(f ) := {(a, b) ∈ A × B|a ∈ A, b = f (a)}
heißt der Graph von f .
Definition 2.5.7 Sei f : X −→ Y eine Abbildung und seien A ⊂ X, B ⊂ Y . Dann heißt die
Menge
f (A) := {f (x)|x ∈ A}
die Bildmenge von A oder das Bild von A, und die Menge
−1
f (B) := {x ∈ X|f (x) ∈ B}
heißt die Urbildmenge von B oder einfach das Urbild von B.
Beispiel 2.5.8 Sei f : N ∋ n 7−→ 2n + 1 ∈ N . Dann ist das Bild von f die Menge aller
ungeraden natürlichen Zahlen mit Ausnahme von 1 .
2
Der Abbildungsbegriff, wie wir ihn hier eingeführt haben, konnte erst nach G. Cantor in Mode“ kommen,
”
da nun Mengen handhabare Objekte waren.
3
Die Wortwahl wird verständlich, wenn wir uns A × A als Koordinatensystem realisiert denken. Dann wird
von einem Punkt durch Beleuchtung parallel zur zweiten Koordinatenachse auf der ersten Achse der projezierte
Punkt sichtbar; man spricht von einer orthogonalen Projektion.
22
Definition 2.5.9 Seien f : X −→ Y , g : Y −→ Z Abbildungen. Die Hintereinanderausführung oder Komposition g ◦ f der Abbildungen f, g ist erklärt durch
g ◦ f : X ∋ x 7−→ g(f (x)) ∈ Z .
Regel 2.5.10 Seien f : X −→ Y, g : Y −→ Z, h : Z −→ W Abbildungen.
idY ◦ f
= f ◦ idX
h ◦ (g ◦ f ) = (h ◦ g) ◦ f
(2.1)
(2.2)
Die Identität in (2.2) nennt man das Assoziativgesetz. Man beachte, dass für die Hintereinanderausführung von Abbildungen ein Kommutativgesetz ( f ◦ g = g ◦ f ) im allgemeinen nicht
gilt.
Definition 2.5.11 Sei f : X −→ Y eine Abbildung.
(i) f injektiv genau dann, wenn für alle x, x′ ∈ X x 6= x′ =⇒ f (x) 6= f (x′ ) gilt.
(ii) f surjektiv genau dann, wenn für alle y ∈ Y ein x ∈ X existiert mit y = f (x) .
(iii) f bijektiv : ⇐⇒ f injektiv und surjektiv
Ist f : X −→ Y eine bijektive Abbildung, dann gibt es eine Abbildung g : Y −→ X mit
f ◦ g = idY , g ◦ f = idX .
Dies folgt aus der Tatsache, dass jedes y ∈ Y ein eindeutig bestimmtes Urbild“ xy ∈ X besitzt:
”
y = f (xy ) . Damit wird eine Abbildung
g : Y −→ X , y 7−→ xy
definiert.
Definition 2.5.12 Sei f : X −→ Y bijektiv. Die nach obiger Anmerkung eindeutig bestimmte
Abbildung4 g mit g ◦ f = f ◦ g = id heißt die (zu f ) inverse Abbildung. Wir schreiben dafür
f −1 .
Beispiel 2.5.13 Sei f : R\{0} ∋ x 7−→ x1 ∈ R\{0} . Dann ist sicherlich f −1 = f . Ein weiteres
Beispiel dieser Art ist f : Z2 ∋ (x, y) 7−→ (y, x) ∈ Z2 . Auch hier gilt f −1 = f .
Sei M eine Menge. Wir setzen:
G := {f ∈ Abb (M )|f bijektiv } , • := ◦ .
Wir bezeichnen diese Menge G mit S(M ) . Diese Menge ist mit der Hintereinanderausführung
von Abbildungen eine Gruppe; dazu später.
4
In der Literatur spricht man bei bijektiven Abbildungen oft auch von umkehrbar eineindeutigen Abbildungen.
In Satz ?? zusammen mit Definition 2.5.11 liegt die Berechtigung für eine solche Sprechweise.
23
Definition 2.5.14 Ist M eine nichtleere Menge, so nennen wir die Gruppe S(M ) die symmetrische Gruppe von M. Ist M = {1, . . . , m}, dann nennen wir S(M ) Permutationsgruppe
und jedes Element in S(M ) eine Permutation. In diesem Spezialfall schreiben wir kurz Sm .
Die Wortwahl Permutationsgruppe wird verständlich, wenn wir beobachten, dass bei der
Menge M = {1, . . . , m} einer Abbildung f in Sm die Umstellung der Elemente in M gemäß
1
2
...
m
f (1) f (2) . . . f (m)
entspricht.5
Die Anzahl der Elemente in Sm ist offensichtlich n · (n − 1) · · · · · 2 · 1 = n! .
Beispiel 2.5.15 Wir betrachten S3 . Die sechs Elemente der Gruppe sind dann in obiger Schreibweise
123
123
123
123
123
123
τ0 =
τ1 =
τ2 =
τ3 =
τ4 =
τ5 =
.
123
132
213
231
312
321
Klar, τ0 ist die Identität. Beispielsweise bedeutet τ4 in Spalte 3, Zeile 4 τ1 ◦ τ2 = τ4 und τ2 in
Spalte 7, Zeile 5 τ5 ◦ τ3 = τ2 .
Ein τ ∈ Sm heißt Nachbarvertauschung, wenn
∃i ∈ {1, . . . , m} mit τ (i) = i + 1 , τ (i + 1) = i ; τ (j) = j , j 6= i, i + 1,
gilt. Ein τ = τkl ∈ Sm , k 6= l , heißt Transposition, wenn gilt:
τ (k) = l , τ (l) = k ; τ (j) = j , j 6= k, l ,
gilt. Nachbarvertauschungen sind also spezielle Transpositionen. Man überzeugt sich leicht, dass
für eine Transposition τ ∈ Sm gilt: τ −1 = τ .
Satz 2.5.16 Jedes σ ∈ Sm läßt sich als Hintereinanderausführung von höchstens m Transpositionen schreiben, d.h. zu jedem σ ∈ Sm gibt es s ≤ m Transpositionen τ1 , . . . , τs mit
σ = τ1 ◦ · · · ◦ τs .
Beweis:
Sei σ ∈ Sm . Für σ = id gilt σ = τ21 ◦ τ12 . Sei σ 6= id . Dann gibt es ein kleinstes i1 mit
σ(i1 ) = j1 6= i1 . Setze σ1 := σ ◦ τi1 j1 . Es ist σ1 (i) = i für 1 ≤ i ≤ i1 . Falls σ1 = id gilt, sind
wir fertig. Anderenfalls gibt es ein i2 > i1 mit σ1 (i2 ) = j2 6= i2 . Setze σ2 := σ1 ◦ τi2 j2 . Dann
gilt σ2 (i) = i für 1 ≤ i ≤ i2 . So fortfahrend erreichen wir ein σs , s ≤ m, mit σs = id . Dann ist
σ = τis js ◦ · · · ◦ τi1 j1 .
5
Die Wortwahl symmetrische Gruppe rührt daher, dass die Funktionen der Variablen x1 , . . . , xm , die bei
allen Permutationen der Variablen invariant bleiben, die symmetrischen Funktionen sind.
24
2.6
1.)
Übungen
S
Sei A ein (endliches) Alphabet, sei A∗ := {()} ∪ n∈N An die Menge der Wörter (beliebiger Länge) über dem Alphabet A .
Für zwei Worte u = (u1 , . . . , uk ) ∈ Ak , v = (v1 , . . . , vl ) ∈ Al setzen wir: uv := (u1 , . . . , uk , v1 , . . . , vl ) ∈
Ak+l .
Wir definieren für u, v ∈ A∗ :
u ≤ v : ⇐⇒ Es gibt z ∈ A∗ mit uz = v .
(a)
Zeige: ≤ ist eine Halbordnung in A∗ .
(b) Ist ≤ stets eine Ordnung in A∗ ?
(c)
Gibt es in A∗ ein Wort w, so dass gilt:
w ≤ u für alle u ∈ A∗ .
2.)
Überprüfe, ob die folgende Relation R in N × N reflexiv, symmetrisch, transitiv bzw.
antisymmetrisch ist:
R := {(m, n) ∈ N × N||m − n| ≤ 100} .
3.)
Gegeben seien die Permutationen
1 2 3 4 5 6 7 8 9
1 2 3 4 5 6 7 8 9
φ :=
, π :=
.
9 1 8 2 7 3 6 4 5
2 1 4 3 6 9 7 8 5
(a)
Berechne φ ◦ π, π ◦ φ und φ−1 .
(b) Schreibe π als Hintereinanderausführung von Transpositionen.
25
Kapitel 3
Zählen
Wir verschaffen uns die Hilfsmittel, um die Kunst des Zählens“ zu skizzieren. Es sind dies
”
die natürlichen Zahlen und Operationen auf ihnen; im nächsten Kapitel erwächst daraus das
Rechnen in den ganzen Zahlen. Für die Einschätzung der Güte von Algorithmen ist deren
Analyse hinsichtlich der Laufzeit wichtig: das Master-Theorem der Komplexität erledigt dies
in den meisten Fällen.
3.1
Natürliche Zahlen
Die erste mathematische Erfindung“ dürfte wohl das Zählen von Gegenständen gewesen sein: je”
dem Gegenstand einer Familie von Gegenständen wird der Reihe nach ein Strich auf einem Auf”
zeichnungsbrett“ zugeordnet, einer bestimmten Anzahl von Strichen wird ein Zahlwert (Eins,
Zwei,. . . ) bzw. eine Zahl (1,2,. . . ) zugeordnet. Diese Zahlen stehen für die Kardinalzahlen im
Gegensatz zu den sogenannten Ordinalzahlen Erster (erster Strich), Zweiter (zweiter Strich),
. . . . Die Zahlen 1, 2, 3, . . . bezeichnen wir als natürliche Zahlen. Als Fundament für die Mathematik sind die natürlichen Zahlen ausreichend, alle“ anderen konkreten Objekte der Mathematik
”
lassen sich dann mit Definition durch Abstraktion erfinden. Also kommt es darauf an, die natürlichen Zahlen als existierende Menge N sicher zu definieren und zu akzeptieren. Von L. Kronecker1
ist überliefert:
Die natürlichen Zahlen hat der liebe Gott gemacht, alles andere ist Menschenwerk.
Was sind aber nun die strukturellen Eigenschaften der natürlichen Zahlen, auf die es ankommt?
Wir gehen zurück zur Tätigkeit des Zählens. Stets beginnen wir mit einem ersten Gegenstand,
wir ordnen ihm die Nummer 1 zu. Haben wir nun eine Reihe von Gegenständen gezählt und ist n
die Anzahl dieser gezählten Gegenstände, dann entscheiden wir, ob noch ein weiterer Gegenstand
zu zählen ist; wenn ja, ordnen wir ihm die Nummer n′ zu. n′ ist also Nachfolgezahl von n : zur
Strichliste haben wir einen Strich hinzugefügt. Diese Beobachtung führt uns zur Definition der
natürlichen Zahlen, wie G. Peano2 sie gegeben hat:
Definition 3.1.1 (Axiome von Peano) Es gibt eine Menge N und ein Element 1 ∈ N mit
folgenden Eigenschaften:
(P1) Zu jedem n ∈ N gibt es ein n′ ∈ N , genannt Nachfolger von n .
(P2) 1 ist kein Nachfolger, d.h. 1 6= n′ für alle n ∈ N .
(P3) Ist n′ = m′ , so ist n = m .
1
2
Leopold Kronecker, 1823 - 1891
Giuseppe Peano, 1858 - 1932
26
(P4) Ist M eine Teilmenge von N mit 1 ∈ M und gilt (n ∈ M =⇒ n′ ∈ M ), dann gilt M = N.
Diese Menge N heißt Menge der natürlichen Zahlen.
Das Axiom (P 1) könnten wir auch so ausdrücken:
∀ x ∈ N ∃ y ∈ N (y = x′ ) .
Ist m = n′ (im Sinne der Definition 3.1.1), so heißt n Vorgänger von m. (P2) besagt, dass
das Element 1 keinen Vorgänger hat. Man beachte, dass wir die Definition der natürlichen Zahlen
mit Existenz verknüpft haben und nicht das Zählen zur Definition herangezogen haben.
Lemma 3.1.2 Es gilt N = {1} ∪ {n′ |n ∈ N} .
Beweis:
Sei M := {1} ∪ {n′ |n ∈ N}. Es gilt M ⊂ N, 1 ∈ M , und ist n ∈ M, so ist n′ ∈ M . Also ist nach
(P4) M = N.
Das Axiom (P4) lässt sich bestens verwenden, neue Objekte zu definieren. Man nennt das
resultierende Prinzip induktive Definition. Wir führen dies am Beispiel der Definition des
kartesischen Produktes vor. Sei A eine Menge. Wir gehen so vor:
A1 := A , Ak := A × An falls k = n′ ∈ N .
Offenbar ist nun nach Lemma 3.1.2 An definiert für jedes n ∈ N .
Ist x ∈ An , n ∈ N, so gibt es x1 , . . . , xn ∈ A mit x = (x1 , . . . , xn ). Dies ist die Schreibweise als
n-Tupel der Elemente in An . Dabei haben wir die Schreibweise schon naheliegend verkürzt; wir
haben ja früher nur zweistellige Paarklammern (·, ·) definiert. Wir haben diese Definition schon
vorweggenommen bei der Definition von Wörtern über einem Alphabet.
Wir wollen nun die arithmetischen Operationen Addition, Subtraktion, Multiplikation,
Vergleich in den natürlichen Zahlen entdecken. Bei der Einführung bedienen wir uns wieder
der induktiven Definition.
Addition:
(
n′
n + m :=
(n + k)′
, falls m = 1
, n, m ∈ N .
, falls m = k′
Beachte, dass nun wirklich die Definition für alle m, m ∈ N gelungen ist, denn nach Lemma 3.1.2
ist ja für m ∈ N entweder m = 1 oder m = k′ für ein k ∈ N .
Nun ist es an der Zeit, zur üblichen Notation 1, 2, 3, . . . zurückzukehren. Dies geschieht durch
1, 2 := 1′ = 1 + 1, 3 := 2′ = 2 + 1, . . . .
n′ schreiben wir also nun immer als n + 1 .
Wir haben nun also eine (binäre) Verknüpfung “+“, die die Eigenschaften der Addition haben
sollte. Die folgenden Rechenregeln belegen, dass die uns geläufigen Eigenschaften der Addition
in der Tat vorliegen.
Regel 3.1.3 Seien m, n, k ∈ N . Es gilt:
(m + n) + k = m + (n + k) ;
(3.1)
m + n = n + m;
(3.2)
m + n = m + k =⇒ n = k .
(3.3)
27
Wir beweisen exemplarisch (3.1). Dabei verwenden wir ein letztes Mal die Notation n′ für den
Nachfolger von n .
Sei M := {k ∈ N|(m + n) + k = m + (n + k) für alle m, n ∈ N}. Mit der Definition der Addition
gilt
(m + n) + 1 = (m + n)′ = m + n′ = m + (n + 1) .
Also ist 1 ∈ M . Sei k ∈ M. Dann ist mit der Definition der Addition
(m + n) + k′ = ((m + n) + k)′ = (m + (n + k))′ = m + (n + k)′ = m + (n + k′ ), .
Also ist auch k′ ∈ M . Nach (P4) gilt nun M = N .
Gilt m = k′ , so ist k Vorgänger von m. Also schreiben wir dann k = m − 1 . Damit haben
wir die Subtraktion mit 1 zur Verfügung. Wir wissen ja, dass allgemein in N keine Subtraktion
möglich ist.
Wir sollten nun auch die Multiplikation in den natürlichen Zahlen definieren können. Dies
gelingt mit Hilfe der Addition so:
m · 1 := m ; m · (n + 1) := m · n + m , n ∈ N .
Damit ist die Verknüpfung m · n für m, n ∈ N, die wir Multiplikation nennen, wohldefiniert.
Den Multiplikationspunkt · lassen wir mitunter weg, die Schreibweise m × n für m · n vermeiden
wir vollständig.
Die Potenzschreibweise im Bereich der natürlichen Zahlen können wir nun auch einführen.
Wir setzen für alle a ∈ N
a1 := a , an+1 := a · an .
Es gilt dann
an+m = an · am , (an )m = an·m für alle a, n, m ∈ N .
Die Rechenarten “+, ·“ vertragen sich dann mit der neuen Schreibweise; etwa:
1 + 7 = 8, 15 · 3 = 45, 33 = 11 · 3 = (7 + 4) · 3 = 7 · 3 + 4 · 3 = 21 + 12 = 33, . . . .
Dies ist Inhalt der folgenden Regel, die das Distributivgesetz festhält; der Beweis erfolgt auf
dem üblichen Weg über (P4).
Regel 3.1.4 Seien m, n, k ∈ N . Es gilt:
m(n + k) = mn + mk .
(3.4)
(3.5)
Auch die Kleiner–Beziehung finden wir in N wieder. Dabei lassen wir uns von der Anschauung
leiten, dass einer kürzeren Strichliste einige Striche hinzuzufügen sind, um sie einer gegebenen
längeren Strichliste gleichzumachen.
Definition 3.1.5 Seien m, n ∈ N.
(a) m < n : ⇐⇒ ∃ x ∈ N (m + x = n) ;
(b) m ≤ n : ⇐⇒ m < n oder m = n ;
28
(c) m > n : ⇐⇒ n < m ;
(d) m ≥ n : ⇐⇒ n ≤ m .
Klar, ist n ∈ N und n 6= 1, dann ist n > 1 , denn dann ist n ein Nachfolger nach Lemma 3.1.2,
also etwa n = k′ = k + 1 mit k ∈ N , und daher n > 1 . Ohne Beweis führen wir an:
Regel 3.1.6
3.2
k ≤ m, m < n
=⇒
k < n.
(3.6)
m<n
=⇒
(3.7)
k<m
=⇒
m + k < n + k für alle k ∈ N .
k + 1 ≤ m.
(3.8)
Induktion
Nun wollen wir das Axiom (P4) einsetzen als Beweismethode. Dieses Prinzip der Induktion
stellt sich so dar:
Sei A(n) für jedes n ∈ N eine Aussage. Diese Aussage gilt für alle n ∈ N, falls
Induktionsbeginn: A(1) ist wahr.
Induktionsschluss: Ist A(n) wahr, dann ist auch A(n + 1) wahr.
verifiziert werden kann. Klar, man hat ja nur die Menge M := {n ∈ N|A(n) ist wahr} einzuführen und darauf (P4) anzuwenden.
Häufig wird Sei A(n) wahr“ als Zwischenschritt Induktionsverankerung oder Induktions”
annahme formuliert; wir verzichten darauf. Damit wird ja nur die Voraussetzung im Induktionsschluss extra herausgestellt.
Beispiel 3.2.1 Über C.F. Gauss3 wird berichtet, dass er die Beschäftigungstherapie seines Lehrers “Addiert mal die ersten 20 Zahlen“ durch folgenden Trick zunichte gemacht hat: Er addiert
die erste und die letzte Zahl: Ergebnis 21; er addiert die zweite und die vorletzte Zahl: Ergebnis
21; er . . . . Also kann man das verlangte Resultat durch
1 + 2 + · · · + 20 = 10 · 21 = 210
erhalten. Man beachte, dass die Lösungsmethode von Gauß auch tiefere“ Einsichten mitliefert:
”
Wann ist das Ergebnis gerade, warum ist die letzte Ziffer im Ergebnis oben eine Null.
Löst man sich von den konkreten Zahlen, ist also zu beweisen:
2
n
X
i = n(n + 1)
i=1
Der Beweis mittels vollständiger Induktion sieht so aus:
Induktionsbeginn: Die Formel ist offenbar richtig für n = 1.
Induktionsschluss: Die Formel sei richtig für n. Wir zeigen damit die Richtigkeit der Formel für
n + 1 so:
n
n+1
X
X
i + 2(n + 1) = n(n + 1) + 2(n + 1) = (n + 1)(n + 2) .
i=2
2
i=1
i=1
3
Gauss, Carl Friedrich (1777 — 1855)
29
Beispiel 3.2.2 Den Pythagoreern war bekannt, dass die Quadratzahlen die Summe ungerader
Zahlen sind, d.h. dass
n
X
(2i + 1) = (n + 1)2 , n ∈ N ,
1+
i=1
gilt. Sie hatten dafür einen geometrischen Beweis“; lese ihn aus der Figurensequenz in Abbil”
dung 3.1 ab! Der Beweis mittels vollständiger Induktion sieht (in abgekürzter Notation) so aus:
n = 1 : Klar.
n+1 :
1+
n+1
X
(2i + 1) = 1 +
n
X
(2i + 1) + (2(n + 1) + 1) = n2 + 4n + 4 = (n + 2)2
i=1
i=1
Die Aufspaltung 1 +
n
P
(2i + 1) ist der Tatsache geschuldet, dass wir hier noch keine Null (als
i=1
Summationsindex) zur Verfügung haben.
Beispiel 3.2.3 Beweise, dass für jede natürliche Zahl n
(n + 3)2 > 3(n + 3) + n
gilt. Wir betrachten dazu die Aussage
A(n) : (n + 3)2 > 3(n + 3) + n
und beweisen die Gültigkeit der Aussage für jedes n ∈ N nach dem Induktionsprinzip.
Induktionsbeginn: A(1) ist wahr, da (1 + 3)2 = 42 = 16 > 12 + 1 = 3(1 + 3) + 1 ist.
Induktionsschluss: Sei A(n) wahr.
((n + 1) + 3)2 = ((n + 3) + 1)2 = (n + 3)2 + 2(n + 3) + 1
> 3(n + 3) + n + 2(n + 3) + 1 > 3(n + 3) + n + 1 + 3 = 3(n + 4) + n + 1
Also folgt aus der Gültigkeit der Aussage A(n) die Gültigkeit der Aussage A(n + 1).
Die Aussage A(n) ist nach dem Induktionsprinzip nun für alle n ∈ N bewiesen. Die Ungleichung
(n + 3)2 > 3(n + 3) + n , n ∈ N,
kann aber auch ohne den Rückgriff auf das Induktionsprinzip bewiesen werden, da n2 + 2n ≥ 1
ist. Stelle die Verbindung her!
Beispiel 3.2.4 Bei einem Tennisturnier ist die Teilnehmerzahl üblicherweise eine Zweierpotenz
2n (n = 7 bei einem Grand-Slam-Turnier). Die Anzahl der Spiele bei einem K.O.-System beträgt
2n − 1. Dies lässt sich mit Induktion zeigen:
n = 1: Bei zwei Teilnehmern gibt es offenbar 1 = 21 − 1 Spiele.
n + 1: Die 2n+1 Teilnehmer lassen sich in zwei Gruppen zu je 2n Teilnehmern einteilen. Nach
Induktionsvoraussetzung gibt es in jeder Gruppe 2n − 1 Paarungen, also insgesamt 2(2n − 1)
Paarungen. Die Sieger der beiden Gruppen treffen dann in einer letzten Paarung aufeinander,
so dass es
2(2n − 1) + 1 = 2n+1 − 1
Paarungen gibt.
Man kann die Lösung mit einem anderen Argument schneller finden. Wegen des K.O.Systems verliert bis auf den Gewinner jeder Teilnehmer genau einmal. Jedes Spiel hat genau
30
einen Verlierer. Also gibt es ein Spiel weniger als die Teilnehmerzahl. Dieser Alternativbeweis
lässt sich auf Teilnehmerfelder beliebiger Größe anwenden (z.B. wenn es Freilose gibt). Also gibt
es bei m Teilnehmern m − 1 Spiele.
Diese Gegenüberstellung der beiden Beweise zeigt, dass Induktion nicht immer die kürzeste
Beweismethode ist.
Die vollständige Induktion lässt sich
sehr gut auch zur Aufklärung der inneren
”
Struktur“ der natürlichen Zahlen verwenden. Wir skizzieren dies in folgendem Satz.
Satz 3.2.5 Für m, n ∈ N gilt genau eine
der folgenden Aussagen:
•
•
◦
•
•
• •
◦ ◦
◦ ◦
•
•
•
•
◦
◦
◦
•
◦
◦
◦
•
◦
◦
◦
•
•
•
•
Abbildung 3.1: Quadratzahlen
m < n , m = n , m > n.
Beweis:
Sei n ∈ N . Zu m ∈ N setzen wir Mm := {x ∈ N|n + x = m}. Wir untersuchen die beiden Fälle
Mm 6= ∅ und Mm = ∅ .
Ist Mm 6= ∅, dann gibt es x ∈ N mit n + x = m , also n < m .
Wir beweisen mit vollständiger Induktion (bezüglich m) die folgende Behauptung:
Ist Mm = ∅, dann trifft genau eine der folgenden Aussagen zu: n > m, n = m .
m = 1 : Ist n = m, dann sind wir fertig. Ist n 6= m = 1, dann ist sicher n > 1 = m .
m + 1 : Sei also Mm+1 = ∅. Dann ist auch Mm := {y ∈ N|n + y = m} = ∅, da sonst für y ∈ Mm
sofort x := y + 1 ∈ Mm+1 folgt. Also gilt nach Induktionsvoraussetzung genau eine der Aussagen
n > m, n = m . n = m ist nicht möglich, da sonst 1 ∈ Mm+1 wäre. Also wissen wir nun n > m,
und es gibt daher z ∈ N mit m + z = n. Ist z = 1, dann ist m + 1 = n, ist z > 1, dann ist
1 + u = z mit einem u ∈ N und wir haben (m + 1) + u = m + (1 + u) = n, d. h. n > m + 1 .
Damit ist nun gezeigt, dass eine der Aussagen
m<n, m=n, m>n
jedenfalls eintritt. Bleibt die Unverträglichkeit von zweien der Aussagen zu zeigen, etwa von
m = n und m > n . Wenn m = n und m > n gilt, dann gibt es x ∈ N mit m + x = m. Mit
vollständiger Induktion folgt sofort, dass diese Gleichheit für kein m ∈ N gelten kann.
Satz 3.2.6 (Wohlordnungssatz) Jede nichtleere Teilmenge M von N enthält ein kleinstes
Element (bezüglich ≤).
Beweis:
Sei m ∈ M . Wähle in 1, . . . , m das kleinste Element m∗ aus M (bezüglich ≤ ) aus. Diese Auswahl
ist möglich, da nach Satz 3.2.5 die Elemente 1, . . . , m bezüglich ihrer Größe nach verglichen
werden können. Da die natürlichen Zahlen n ≥ m nicht als kleinste Elemente von M in Frage
kommen, ist m∗ das kleinste Element von M .
3.3
Abzählen
Kombinatorik bedeutet Kunst des Zählens“. Sie beschäftigt sich mit Möglichkeiten, die Anzahl
”
der Elemente bei endlichen Mengen zu bestimmen. Die Resultate sind interessant und hilfreich
31
etwa beim Einstieg in die Wahrscheinlichkeitstheorie und bei Anwendungen in der Informatik.
Hier erläutern wir nur, wie wir die Elemente einer Menge zählen wollen.
Als Prototyp“ einer Menge mit n Elementen steht uns Nn := {1, . . . , n} zur Verfügung.
”
Damit wollen wir erklären, wann eine beliebige Menge n Elemente besitzt. Wenn wir zählen/abzählen, ordnen wir den Elementen einer Menge von Objekten sukzessive eine natürliche Zahl,
beginnend bei 1, zu. Wesentlich beim Zählen ist, dass wir zwei verschiedenen Objekten nicht
dieselbe Zahl zuordnen. Dies führt uns dazu, das Zählen mit einer Abbildung, der Zuordnung,
mit Werten in N zu beschreiben, die zusätzlich die eben formulierte Forderung respektiert. Als
Vorbereitung für das Abzählen von Mengen beweisen wir
Satz 3.3.1 Sei A eine Menge, seien m, n ∈ N, und seien φ : A −→ Nn , ψ : A −→ Nm
bijektiv. Dann gilt n = m .
Beweis:
Wir beweisen mit vollständiger Induktion die Aussage
Zu n ∈ N gibt es für 1 ≤ m < n keine injektive Abbildung g : Nn −→ Nm .
n = 1 : Klar, da Nn = {1}, Nm = ∅ für m < n .
n + 1 : Annahme: Es gibt eine injektive Abbildung g : Nn+1 −→ Nm , 1 ≤ m < n + 1 .
Da g injektiv ist und Nn+1 mindestens die Elemente 1,2 enthält, ist 1 < m . Sei k := g(n + 1) .
Offenbar gibt es eine Bijektion f : Nm −→ Nm mit f (i) = i für i 6= k, m und f (k) = m, f (m) =
k . Nun ist (f ◦ g)|Nn : Nn −→ Nm−1 injektiv, wobei also 1 ≤ m − 1 < n gilt. Dies ist im
Widerspruch zur Induktionsannahme.
Nachdem nun die obige Aussage bewiesen ist, ist die Behauptung des Satzes schnell gezeigt.
Annahme: Es gibt bijektive Abbildungen φ : A −→ Nn , ψ : A −→ Nm , n 6= m . O.E. sei etwa
n > m . Da ψ ◦ φ−1 : Nn −→ Nm bijektiv ist nach Lemma ??, haben wir einen Widerspruch
zur obigen Aussage.
Definition 3.3.2 Sei M eine Menge, M 6= ∅ .
(a) M heißt endlich, wenn es ein N ∈ N und eine bijektive Abbildung ϕ : M −→ {1, . . . , N }
gibt; wir setzen dann #M := N . (Da nach Satz 3.3.1 die Zahl N eindeutig bestimmt ist,
ist die Schreibweise #M := N wohldefiniert.)
(b) M heißt abzählbar unendlich, wenn es eine bijektive Abbildung ϕ : M −→ N gibt. Wir
schreiben dann #M = ∞ .
(c) M heißt abzählbar, wenn M endlich oder abzählbar unendlich ist.
Die obige Definition sagt also, dass wir die Elemente einer (endlichen) Menge M gezählt
haben, wenn wir eine Bijektion φ : M −→ {1, . . . , N } gefunden haben; das Zählergebnis ist
#M := N .
Endliche Mengen haben wir schon viele kennengelernt. Als ganz einfache Beispiele für abzählbare unendliche Mengen führen wir an: A := {10n |n ∈ N} , N×N . Mit der Definition 3.3.2 (a),(b)
verträglich ist, dass wir Nn die Elementanzahl n zuordnen und dass N abzählbar unendlich ist;
die Identität ist ja jeweils die passende Bijektion. Klar, der leeren Menge ordnen wir die Elementanzahl 0 zu, d. h. #∅ := 0 , und bezeichnen sie ebenfalls als endliche Menge.4 Man beachte, dass
4
Die Definition 3.3.2 ist nicht die von G. Cantor 1895 erstmals gegebene Definition der Unendlichkeit einer
Menge: eine Menge ist unendlich, wenn zwischen ihr und einer ihrer echten Teilmengen eine umkehrbar eindeutige
Zuordnung möglich ist.
32
es Mengen gibt, die nicht abzählbar sind. Ein wichtiges Beispiel ist M := R . Das Cantorsche
Diagonalisierungsverfahren, das üblicherweise im Rahmen der Analysis im Zusammenhang
mit der Dezimalbruchentwicklung vorgestellt wird, belegt dies; wir kommen darauf zurück.
Sind A, B endliche Mengen, dann gilt für
das kartesische Produkt die Formel
#(A × B) = #A · #B
a1
a2
..
.
(3.9)
b1
(a1 , b1 )
(a2 , b1 )
..
.
b2
(a1 , b2 )
(a2 , b2 )
..
.
···
···
···
a
b
bn
(a1 , bn )
(a2 , bn )
..
.
Dies liest man etwa am Rechteckschema in
Abbildung 3.2 ab (#A = m, #B = n).
am (am , b1 ) (am , b2 ) · · · (am , bn )
Wir können die Situation des kartesischen
Produkts in drei Veranschaulichungen festhalAbbildung 3.2: Abzählschema
ten; siehe Abbildung 3.3 für m = 3 und n = 4 .
Die Baumdarstellung“ hat den Vorteil, dass
”
man sie mühelos auf mehr als zwei Faktoren
ausdehnen kann; man hat ja nur in die Tiefe weiterzubauen.
x
a
y
c
b
c
u
z
b
x
(a) Abbildungsmodell
c
a
y
u
(b) Gittermodell
z
x
y
u z x
y u
z
x y
u
z
(c) Baumdarstellung
Abbildung 3.3: Veranschaulichung des kartesischen Produkts
Wir halten der besseren Zitierbarkeit wegen die elementaren Zählprinzipien nochmal
kompakt fest:
Gleichheitsregel Existiert eine Bijektion zwischen zwei Mengen M und N , so gilt #M = #N .
Summenregel Sei M = ∪ki=1 Mi eine disjunkte Vereinigung endlicher Mengen. Dann gilt:
P
#M = ki=1 #Mi .
Produktregel Sei M = M1 × · · · × Mk ein kartesisches Produkt. Dann gilt #M =
Alle Regeln ergeben sich aus den obigen Ableitungen in offensichtlicher Weise.
k
Q
#Mi .
i=1
Ein einfaches, aber sehr anwendungsreiches Prinzip, in einer Anzahl von Objekten die Existenz eines Objekts mit einem bestimmten Merkmal behaupten zu können, ist das
Schubfachprinzip 5 Verteilt man n Objekte auf r < n Schubfächer, so existiert ein Fach, das
mindestens zwei Objekte enthält.
Dieses Prinzip ist völlig klar, nichts ist zu beweisen. Es ist daher überraschend, dass dieses
Prinzip zu nichttrivialen Ergebnissen führt. Hier ist noch eine Verallgemeinerung:
5
Es wird im Englischen “pigeonhole principle“, also Taubenschlagprinzip genannt.
33
Schubfachprinzip/allgemein Verteilt man n = r·k+1 Objekte auf r Schubfächer, so existiert
ein Fach, das mindestens k + 1 Objekte enthält.
Formulieren wir das allgemeine Schubfachprinzip mengentheoretisch:
Schubfachprinzip für Mengen Ist eine Menge M mit Elementanzahl n = r · k + 1 in r
disjunkte Teilmengen zerlegt, so gibt es eine Teilmenge, die mindestens k + 1 Elemente
besitzt.
3.4
Rekursion
Ein Objekt wird als rekursiv bezeichnet, wenn es sich selbst als Teil enthält oder mit Hilfe
von sich selbst definiert ist. Rekursion kommt nicht nur in der Mathematik vor, sondern auch
im täglichen Leben (ein Bild im Spiegel im Spiegel . . . ). Rekursion kommt speziell in mathematischen Definitionen vor. Ein Beispiel haben wir schon kennengelernt: in der Definition der
natürlichen Zahlen kommt die zur Definition anstehende Menge N selbst vor. Ein anderes Beispiel ist die Fakultät einer natürlichen Zahl. Ihre rekursive Definition sieht so aus:
(
1
falls n = 1
n! :=
n · (n − 1)! falls n 6= 1
Es ist nicht überraschend, dass Rekursion sehr oft im Zusammenhang mit Objekten greift, die
mit natürlichen Zahlen im Zusammenhang stehen, da ja die natürlichen Zahlen selbst rekursiv
”
definiert sind“.
Das Wesentliche an der Rekursion ist die Möglichkeit, eine unendliche Menge von Objekten
durch eine endliche Aussage zu definieren oder eine unendliche Anzahl von Berechnungsschritten
durch ein endliches Programm zu beschreiben. Allerdings ist Vorsicht geboten, denn rekursive
Anweisungen bergen die Gefahr nicht abbrechender Ausführung; der Terminierung ist also besonderes Augenmerk zu schenken.
Hier führen wir zwei Beispiele an, die keine Hintergrundtheorie benötigen. Später kommen
wir zu einem weiteren Beispiel, nämlich zur rekursiven Behandlung des Problems des größten
gemeinsamen Teilers.
Die Türme von Hanoi
Wir betrachten drei Pfeiler i, j, k, auf die runde Scheiben mit unterschiedlichem Durchmesser
aufgesteckt werden können. Das Problem lautet: Es sind n Scheiben, die auf dem Pfeiler i mit
nach oben abnehmendem Durchmesser aufgesteckt sind unter Zuhilfenahme des Pfeilers k durch
sukzessive Bewegung jeweils einer Scheibe auf den Pfeiler j umzuschichten. Dabei ist darauf
zu achten, dass niemals eine Scheibe mit größerem Durchmesser auf einer mit einem kleinerem
Durchmesser zu liegen kommt.
Man kann dieses Problem folgendermaßen lösen:
Man schichtet die obersten n − 1 Scheiben vom Pfeiler i auf den Pfeiler j unter
Zuhilfenahme von Pfeiler k den Regeln entsprechend; dann bringt man die auf dem
Pfeiler i verbliebene einzige (anfangs unterste) Scheibe auf den Pfeiler k . Nun ist
der Pfeiler i frei und man kann die n − 1 Scheiben vom Pfeiler j auf den Pfeiler k
mit Hilfe des Pfeilers i umschichten.
Es ist klar das rekursive Vorgehen zu erkennen: zur Lösung des Problems der Größe n bedienen
wir uns der Lösung der Größe n − 1 .
34
Wir benötigen die Bewegungsarten
bewege(m,von,über,nach), bringe(von,nach) .
Hierbei bedeutet bewege(l,a,b,c), dass die l obersten Scheiben vom Pfeiler a nach Pfeiler c den Regeln entsprechend unter Nutzung von b als Hilfspfeiler umzuschichten sind. Mit
bringe(a,b) wird die oberste Scheibe vom Pfeiler a auf den Pfeiler b gelegt. Die rekursive
Lösung für bewege(n,i,j,k) lautet damit:
Solange n > 0
bewege(n-1,i,k,j), bringe(i,k), bewege(n-1,j,i,k).
Beim Lösen der Aufgabe für n Scheiben, wird
Z(n) := 2n − 1 mal eine Scheibe umgelegt
Dies zeigt man induktiv. Der Induktionsbeginn ist trivial, der Induktionsschluss sieht so aus:
Z(n) = 1 + 2Z(n − 1) = 1 + 2(2n−1 − 1) = 2n − 1
Der Aufwand ist enorm: für n = 64 müssen 264 − 1 ∼ 1021 Scheiben umgelegt werden. Allerdings
sind wir ja nicht sicher, ob es nicht einen schnelleren Algorithmus gibt. Dies ist aber nicht der
Fall! (Man kann genauer hinsehen: Die kleinste Scheibe S1 wird bei jedem zweiten Zug bewegt,
die größte Scheibe Sn wird nur einmal bewegt, die Scheibe Sm wird genau 2n−m mal bewegt.)
Beispiel 3.4.1 Als Beispiel für eine rekursive Funktionsdefinition komplexerer Art betrachten
wir das Beispiel der so genannten Ackermann-Funktion A(m, n) . Die Definition lautet:


falls m = 0
n + 1
A(m, n) := A(m − 1, 1)
falls m 6= 0, n = 0 , m, n ∈ N0 .


A(m − 1, A(m, n − 1)) falls m 6= 0, n 6= 0
Die Ackermann-Funktion wächst sehr stark:
2
A(0, n) > n , A(1, n) > n + 1 , A(2, n) > 2n , A(3, n) > 2n , A(4, 3) > 22 , A(5, 4) > 1010000
Der Aufwand, um A(m, n) auszurechnen, wächst auch entsprechend. Beispielsweise erfordert die
Berechnung von A(1, 3) bereits folgende Rechenschritte:
A(1, 3) = A(0, A(1, 2)) = A(0, A(0, A(1, 1))) = A(0, A(0, A(0, A(1, 0))))
= A(0, A(0, A(0, A(0, 1)))) = A(0, A(0, A(0, 2))) = A(0, A(0, 3)) = A(0, 4) = 5
Es ist nicht sehr einfach einzusehen, dass die Rekursion terminiert; es ist so!
3.5
Landausymbole
Die Komplexitätstheorie beschäftigt sich mit der Analyse von Algorithmen hinsichtlich Laufzeit
und Speicherplatzbedarf. Normalerweise ist es sehr aufwändig oder ganz unmöglich, für ein
Problem L eine Funktion fL : w → fL (w) anzugeben, die allgemein jeder beliebigen Eingabe
w für ein Problem die zugehörige Anzahl der Rechenschritte (bzw. der Speicherzellen) fL (w)
zuordnet. Daher begnügt man sich in der Regel damit, statt jede Eingabe einzeln zu erfassen,
sich lediglich auf die Eingabelänge“ n eines Beispiels mit Größe“ g(w) zu beschränken.
”
”
35
Es ist aber meist ebenfalls zu aufwändig, eine Funktion fL : n 7−→ fL (n), n = g(w) anzugeben. Daher setzt man die Landau-Notation6 ein, die sich auf das asymptotische Verhalten der
Funktion fL beschränkt. Man betrachtet also, in welchen Schranken sich der Rechenaufwand
(der Bedarf an Speicher und Rechenzeit) hält, wenn man die Eingabe vergrößert. Das wichtigste Landau-Symbol ist O (großer lateinischer Buchstabe O“), mit dem man obere Schran”
ken angeben kann; untere Schranken sind im allgemeinen viel schwieriger zu finden. Bei dieser
Notation werden, wie die Definitionen der Landau-Symbole zeigen wird, konstante Faktoren
vernachlässigt. Dies ist gerechtfertigt, da die Konstanten zu großen Teilen vom verwendeten
Maschinenmodell bzw. bei implementierten Algorithmen von der Qualität des Compilers und
diversen Eigenschaften der Hardware des ausführenden Computer abhängig sind. Damit können
sie nicht direkt mit der Laufzeit des Algorithmus in Verbindung gebracht werden.
In der nachfolgenden Tabelle ist f die Funktion, über die eine Aussage getroffen werden soll,
und g der einfachste“ Repräsentant einer Klasse gleich schnell wachsender Funktionen, die als
”
Vergleich dienen.
Notation
Anschauliche Bedeutung
f ∈ O(g)
f wächst nicht wesentlich schneller als g
f ∈ Ω(g)
f wächst mindestens so schnell wie g
f ∈ o(g)
f wächst langsamer als g
f ∈ ω(g)
f wächst schneller als g
f ∈ Θ(g)
f wächst genauso schnell wie g
Diese Tabelle bringen wir nun in eine saubere Definition ein.
Definition 3.5.1 Seien f, g : D −→ R Abbildungen, wobei D eine Teilmenge in R sei. Ferner
sei a ∈ R ∪ {∞} .
(a) f ∈ O(g) : ⇐⇒ ∃ c > 0 ∃ ε > 0 ∀ x ∈ Uε (a)(|f (x)| ≤ c · |g(x)|)
(b)
(c)
f ∈ o(g) : ⇐⇒ ∀ c > 0 ∃ ε > 0 ∀ x ∈ Uε (a)(|f (x)| ≤ c · |g(x)|)
f ∈ Ω(g) : ⇐⇒ ∃ c > 0 ∃ ε > 0 ∀ x ∈ Uε (a)(|f (x)| ≥ c · |g(x)|)
(d) f ∈ ω(g) : ⇐⇒ ∀ c > 0 ∃ ε > 0 ∀ x ∈ Uε (a)(|f (x)| ≥ c · |g(x)|)
(e)
f ∈ Θ(g) : ⇐⇒ ∃ c0 > 0 ∃ c1 > 0 ∃ ε > 0 ∀ x ∈ Uε (a)(c0 · |g(x)| ≤ |f (x)| ≤ c1 · |g(x)|)
Dabei ist
(
{x ∈ D\{a}||x − a| < ε}
Uε (a) =
{x ∈ D|x > ε}
falls a 6= ∞
falls a = ∞
Die Eigenschaften in der obigen Definition beschreiben das Verhalten in der Nähe von a . Wir
schreiben daher meist f ∈ O(g), f ∈ Ω(g), . . . für x → a . Im Hinblick auf den nächsten Abschnitt
haben wir als Definitionsbereich D eine Teilmenge der natürlichen Zahlen und a = ∞ im Auge.
Wenn wir sagen, dass ein Algorithmus etwa einen Aufwand von O(g(n)) hat, dann meinen
wir damit Folgendes: Wenn der Algorithmus auf unterschiedlichen Computern mit den gleichen
6
Der Großbuchstabe O (damals eigentlich ein großes Omikron) als Symbol für Ordnung von wurde erstmals
vom deutschen Zahlentheoretiker Paul Bachmann 1894 verwendet. Bekannt gemacht wurde diese Notation durch
den ebenfalls deutschen Zahlentheoretiker Edmund Landau, mit dessen Namen sie insbesondere im deutschen
Sprachraum heute in Verbindung gebracht wird.
36
Datensätzen läuft, und diese die Größe n haben, dann werden die resultierenden Laufzeiten (für
große n) immer kleiner sein als eine Konstante mal g(n) .
Beim Vergleich von Funktionen mittels der Landau-Symbole im Zusammenhang von Laufzeitproblemen sind Logarithmen (und deren Umkehrfunktionen) sehr wichtig, denn sie kommen ins
Spiel bei dem wichtigen Prinzip Teile und Herrsche (Divide et Impera/Divide and Conquer)“;
”
Beispiele dazu sehen wir unten.
Was sind die wesentlichen Eigenschaften der Logarithmen in unserem Zusammenhang? Seien
a, b, c > 1 (a, b, c dienen als Basis).
P∞ 1 k
Exponentialfunktion
exp : R ∋ x 7−→
i=0 k! x ∈ R
Beachte: exp(x) = limn (1 + nx )n
exp(x + y) = exp(x) exp(y), x, y ∈ R
Funktionalgleichung
Beachte: exp′ (x) = exp(x), x ∈ R
Impliziert strenge Monotonie
Beachte: exp : R −→ (0, ∞) bijektiv
Impliziert Umkehrabbildung
ln : (0, ∞ −→ R , ln(exp(x)) = x, x ∈ R
Beachte:
Umkehrabbildung
b· : R ∋ x 7−→ bx := exp(x ln(b)) ∈ R
b·
Potenzfunktion zur Basis b
: R −→ (0, ∞) bijektiv
Impliziert Umkehrabbildung
logb : (0, ∞) −→ R , logb (bx ) = x, x ∈ R
Umkehrabbildung
logb (x · y) = logb (x) + logn (y) , x, y ∈ (0, ∞)
Funktionalgleichung
Beachte: loga (x) = loga (b) logb (x), x ∈ (0, ∞)
Umrechnen von Logarithmen
Beachte: alogb (c) = clogb (a)
Umrechnen von Logarithmen
Beachte: ln = loge mit e := limn (1 +
1 n
n)
e ist die eulersche Zahl
Beachte: limx→∞ xk exp(−x) = 0, limx→∞ x−k ln(x) = 0
Wachstum
Beispiel 3.5.2 Es gilt beispielsweise nach der Stirling-Formel für das asymptotische Verhalten
der Fakultät
n n √
1
1+Θ
für n → ∞
n! = 2πn
e
n
und
n! = O
√
n·
n n e
für n → ∞. .
√
Der Faktor 2π ist dabei nur eine Konstante und kann für die Abschätzung der Größenordnung
vernachlässigt werden.
Die Landau-Notation kann auch benutzt werden, um den Fehlerterm einer Approximation zu
beschreiben. Beispielsweise besagt
ex = 1 + x + x2 /2 + O(x3 )
für x → 0,
dass der Absolutbetrag des Approximationsfehlers kleiner als eine Konstante mal x3 ist für x
hinreichend nahe bei Null. Das kleine o wird verwendet, um zu sagen, dass ein Ausdruck vernachlässigbar klein gegenüber dem angegebenen Ausdruck ist. Für differenzierbare Funktionen
gilt beispielsweise
f (x + h) = f (x) + hf ′ (x) + o(h)
für h → 0,
der Fehler bei Approximation durch die Tangente geht also schneller als linear gegen 0 .
37
Folgende Beziehungen zwischen diesen Funktionenmengen lassen sich aus der Definition ableiten:
Θ(f ) = O(f ) ∩ Θ(f )
(3.10)
Θ(f ) ⊂ O(f ) ∪ Ω(f )
(3.12)
Θ(f ) = O(f ) ∩ Ω(f )
Ø = ω(f ) ∩ o(f )
(3.11)
(3.13)
Beispiel 3.5.3
n3 = O(n3 ) für n → ∞ .
Pn
Pn
1
2
i=1 i = O(n ) für n → ∞ , da
i=1 i = 2 n(n + 1) .
3.6
Mastertheorem der Komplexität
Der Begriff Hauptsatz der Laufzeitfunktionen oder Master-Theorem der Komplexitätstheorie bietet eine schnelle Lösung für die Frage, in welcher Laufzeitklasse eine gegebene
rekursiv definierte Funktion liegt.
Sei T : N → N eine Laufzeitfunktion eines Problems/Algorithmus. Wir nehmen an, dass das
Problem durch ein rekursives Vorgehen gelöst wird. Dann spiegelt sich dieses rekursive Vorgehen
in einer rekursiven Darstellung der Funktion T wider.
Eine allgemeine Form einer solchen Rekursion sieht wie folgt aus:
T (n) =
m
X
T (αi n) + f (n),
(3.14)
i=1
wobei αi ∈ R : 0 < αi < 1, m ∈ N, und f (n) ∈ Θ(nk ) mit k ∈ N ∪ {0} . Die Interpretation dieser
Rekurrenz ist folgende:
n = Größe des Problems
m = Anzahl der Unterprobleme in der Rekursion, in die das Problem zerlegt wird
αi = Anteil des Originalproblems, welches wiederum durch alle Unterprobleme
repräsentiert wird
f (n) = Kosten (Aufwand) die durch die Aufteilung des Problems und der
Kombination der Teillösungen entstehen
Dabei ist der Anteil αi n ganzzahlig zu interpretieren durch die Verwendung der Gauss-Klammern:
⌈x⌉ := min{z ∈ Z|z ≥ x} (Obere Gauss-Klammer/ceiling)
⌊x⌋ := max{z ∈ Z|z ≤ x} (Untere Gauss-Klammer/floor)
Ein Spezialfall von (3.14)ist die Rekursion
n
T (1) = 1 , T (n) = a · T ( ) + nc , n = bk , k ∈ N .
b
wenn a die Anzahl der Teilprobleme ist und αi = 1/b ist.
38
(3.15)
Bemerkung 3.6.1 T können wir uns immer durch T (x) := T (⌊x⌋) oder T (⌈x⌉) für x ∈ (0, ∞)
auf die reellen Zahlen fortgesetzt denken. In diesem Sinne wird dann der Rekursion (3.14) die
reelle“ Rekursion
(
”
d
0<x<b
t(x) =
c
at(x/b) + x b ≤ x
zugeordnet.
Satz 3.6.2 Sei T : N → N die zu untersuchende
dass T monoton nicht fallend sei. Dann gilt:

c

Θ(n )
T (n) ∈ Θ(nc logb n)


Θ(nlogb a )
Abbildung der Form (3.15). Wir nehmen an,
falls logb a < c
falls logb a = c .
falls logb a > c
Beweis:
Wegen der Monotonie genügt es zu zeigen, dass wir die Laufzeit nur für die b-Potenzen kennen.
Wir stellen uns die Rekursion als einen (Tannen-)Baum vor mit dem Problem T (n) an der
Spitze und m := logb a Verzweigungsebenen darunter. Auf jeder Verzweigungsebene i haben wir
es mit der Lösung von ai Teilproblemen der Größe n/bi zu tun. Ein Teilproblem der Größe n/bi
erfordert (n/bi )c Zusatzaufwand und daher ergibt sich als Aufwand auf der i-ten Ebene
i
i
a
c a
i
i c
c
=
n
a (n/b ) = n
.
bc
bci
Auf der Ebene i = m hat man am Teilprobleme der Größe n/bm = 1 zu lösen, was einen Aufwand
von
a m
am · 1 = nc c
b
ergibt. (Hier können wir sehen, dass die Voraussetzung T (1) = 1 hilfreich ist. Wir lesen aber
auch ab, dass T (1) = d, d ∈ N, d 6= 1, keine wesentlichen Schwierigkeiten bereitet.)
Wir sehen, dass der Aufwand von Ebene zu Ebene abnimmt, konstant ist, zunimmt, je nachdem,
ob q := ac < 1, ac = 1 oder ac > 1 . Dies korrespondiert mit der Fallunterscheidung in der
b
b
b
Formulierung unseres Resultats. Wir haben also nach unseren Vorbetrachtungen
T (n) =
m
X
nc
i=0
a i
bc
,
was in der Analyse zur geometrischen Reihe mit q := ac führt.
b
Fall logb a < c
Wir haben hier
1 − q m+1
= Θ(nc ) ,
T (n) = nc
1−q
da limm q m+1 = 0 ist.
Fall logb a = c
Damit folgt T (n) = (m + 1)nc und daher
T (n) = Θ(nc logb n) .
Fall logb a > c
Wir haben
T (n) = Θ(nc
a logb n
39
bc
),
da in der Summe der geometrischen Summe der letzte Term der größte ist. Wegen
nc
a logb n
b
c
= nc
logb a
logb a
alogb n
c n
c n
=
n
=
n
= nlogb a
c
nc
(bc )logb n
nlogb b
Beispiel 3.6.3 Wir stellen uns Dualzahlen der Länge n vor, wobei n eine Zweierpotenz sei:
n = 2m . Zwei solche Zahlen A, B können wir so aufschreiben:
A = A1 2n/2 + A0 , B = B1 2n/2 + B0 ,
wobei A1 , A0 , B1 , B0 nun Dualzahlen der Länge n/2 sind. Die Multiplikation von A, B sieht dann
so aus:
AB = A1 B1 2n + (A1 B0 + A0 B1 )2n/2 + A0 B0 .
Also stellt sich der Aufwand, zwei solche Zahlen zu multiplizieren, so dar:
T (1) = 1 , T (n) = 4T (n/2) + cn ,
wobei cn den Aufwand beschreibt, mit Zweierpotenzen zu multiplizieren und die Additionen auszuführen; wir nehmen der Einfachheit halber c = 1 an. Dann erhalten wir mit Satz 3.6.2, da
log2 (4) = 2 > 1 ,
T (n) = Θ(n2 ) .
Es ist also nichts gewonnen durch die Aufspaltung der Zahlen, denn jedes herkömmliche Multiplikationsverfahren ist von der Ordnung Θ(n2 ) .
Aber wir können eine Multiplikation einsparen7 !
AB = A1 B1 2n + ((A1 + A0 )(B1 + B0 ) − A1 B1 − A0 B0 )2n/2 + A0 B0 .
Also stellt sich der Aufwand, zwei solche Zahlen zu multiplizieren, nun so dar:
T (1) = 1 , T (n) = 3T (n/2) + n ,
Dann erhalten wir mit Satz 3.6.2, da log2 (3) = 1.585 > 1 ,
T (n) = Θ(nlog2 (3) ) ,
was eine enorme Verbesserung für großes n darstellt.
Satz 3.6.4 Sei T : N → N die zu untersuchende Abbildung der Form
T (n) =
m
X
T (αi n) + f (n),
i=1
wobei αi ∈ R : 0 < αi < 1, m ∈ N : m ≥ 1 und f (n) ∈ Θ(nk ) mit k ∈ N ∪ {0} .
Dann gilt:

Pm
k
k

falls
i=1 (αi ) < 1
Θ(n )
P
m
k
T (n) ∈ Θ(nk logb n)
falls
i=1 (αi ) = 1

P
P

m
m
c
k
Θ(nc ) mit
i=1 (αi ) = 1 falls
i=1 (αi ) > 1
7
Karatsuba, 1962
40
Beweis:
Für den Beweis verweisen wir auf die Literatur.
Beispiel 3.6.5 Betrachte die Rekursionsgleichung
T (n) = 9T (n/3) + n2 .
Wir haben hier m = 9, αi =
1
3
und f (n) = n2 . Da f (n) ∈ Θ(n2 ) und
9
X
1
( )2 = 1
3
i=1
ist, haben wir T (n) ∈ O(n2 log2 (n)) .
Bemerkung 3.6.6 Wir machen einige Anmerkungen zur Form der Rekurrenzgleichungen.
• Angenommen es ist folgende Rekurrenz gegeben, die sich mit der zusätzlichen Konstante c
von einer allgemeinen Form unterscheidet:
T (n) = aT (
n
+ c) + f (n)
b
Wenn n hinreichend groß gewählt wird, fällt die Konstante c nicht ins Gewicht. Aus diesem
Grund kann man solche Rekurrenzen so behandeln, als wäre c = 0 .
• Ob man nun T (n) ∈ Θ(ln(n)) (Logarithmus naturalis) schreibt, oder T (n) ∈ Θ(lg(n))
(dekadischer Logarithmus) ist egal, da nach den Logarithmengesetzen gilt:
ln(n) = logb (n) =
loga (n)
= c · loga n ∈ Θ(loga n) = Θ(lg n)
loga (b)
3.7
1.)
Übungen
Sei g : N ∋ n 7−→ n(n2 + 11) ∈ N . Zeige:
(a)
g ist injektiv, aber nicht surjektiv.
(b) 6 ist ein Teiler von 3n2 + 3n + 12 für alle n ∈ N .
(c)
6 ist ein Teiler von g(n) für alle n ∈ N .
2.)
Ein deutsches Autokennzeichen besteht aus einer Kombination von ≤ 3 Buchstaben für
den Landkreis oder die Stadt, ≤ 2 weiteren Buchstaben und bis zu einer vierstelligen
Zahl. Bestimme die Anzahl der möglichen Kennzeichen (wenn man von einer Assoziation
mit dem Namen des Landkreises absieht).
3.)
Die Fibonacci-Zahlen Fn sind definiert durch
F0 := F1 := 1 , F n + 1 := Fn + Fn−1 , n ≥ 1 .
(a)
Schreibe ein rekursives Berechnungsschema und mache das rekursive Rechenschema
durch einen binären Baum klar.
(b) Welche überflüssige Rechenschritte lassen sich finden ?
4.)
Finde einen Algorithmus, der die n-te Fibonacci-Zahl rekursiv berechnet.
41
5.)
Die Collatz/Kakutani/Klam/Ulam-Folge ist ausgehend vom Startwert c0 ∈ N folgendermaßen definiert:
(
1
cn
falls n gerade
,
cn+1 := 2
3cn + 1 sonst
wobei die Berechnung abgebrochen wird, wenn cn = 1 eintritt. Es ist bisher nicht gezeigt,
dass die Berechnung für jedes c0 abbricht.
Finde eine rekursive Funktion C : N −→ N , die die Länge der Collatz/Kakutani/Klam/UlamFolge in Abhängigkeit von c0 berechnet.
6.)
Seien x, y ∈ R . zeige:
(a)
⌈x⌉ + ⌈y⌉ − 1 ≤ ⌈x + y⌉ ≤ ⌈x⌉ + ⌈y⌉ .
(b) ⌊x⌋ + ⌊y⌋ ≤ ⌊x + y⌋ ≤ ⌊x⌋ + ⌊y⌋ + 1 .
(c)
7.)
n = ⌊ n2 ⌋ + ⌈ n2 ⌉ , n ∈ N .
Betrachte f : N −→ N, f (n) := 9 log n + 5(log n)3 + 3n2 + 2n3 .
(a)
Zeige: f ∈ O(n3 ) .
(b) Macht es einen Unterschied, wenn man log durch ln ersetzt?
8.)
9.)
Zeige (die Notation ist etwas hemdsärmelig“):
”
(a) 2x ∈ o(x2 ) .
(b) x2 ∈
/ o(x2 ) .
1 ∈ o(1) .
(c) x
Sei stets T (1) = 1 . Zeige:
(a)
T (n) = T (2n/3) + 1 =⇒ T (n) = Θ(log n) .
(b) T (n) = 9T (n/3) + n =⇒ T (n) = Θ(n2 ) .
(c)
T (n) = 2T (n/2) + n log n =⇒ T (n) = O(n log2 n) .
42
Kapitel 4
Elementare Arithmetik
Arithmetik ist das Teilgebiet der Mathematik, welches auch als Synonym zum Begriff Zahlentheorie verstanden werden kann. Elementare Arithmetik bezeichnet allgemein das Rechnen mit
natürlichen Zahlen und ganzen Zahlen und die Untersuchung der Konsequenzen, die sich daraus
ergeben, dass die Division in den ganzen Zahlen nur eingeschränkt möglich ist. Als Beiprodukt
lernen wir den euklidischen Algorithmus und den wichtigen Gruppenbegriff kennen.
4.1
Ganze Zahlen
In Abschnitt 3.1 haben wir die natürlichen Zahlen geschaffen“. Skizzieren wollen wir nun den
”
Konstruktionsweg von den natürlichen Zahlen zu den ganzen Zahlen. Wir sehen dabei die Nützlichkeit des Begriffs der Äquivalenzrelation“ ein. Auf N × N läßt sich nämlich eine Äquivalenzrelation durch
R := {((m, n), (k, l)) ∈ N2 × N2 |m + l = n + k} , d.h. (m, n) ∼ (k, l) : ⇐⇒ m + l = n + k ,
einführen. Man bestätigt leicht, dass in der Tat eine Äquivalenzrelation vorliegt. Etwa folgt die
Symmetrie allein schon aus der Kommutativität der Addition in den natürlichen Zahlen; siehe
Rechenregel 3.2.
Die Zuordnung eines Paares (m, n) zu einer Klasse [(k, l)] geschieht unter dem Gesichtspunkt,
dass die Differenz m − n gleich der Differenz k − l ist und dies liefert den Zusammenhang zur
Menge der ganzen Zahlen Z, wenn wir sie schon als bekannt voraussetzten. Also sollte etwa
[(n, n)] für 0 ,
[(n + 1, n)] für 1 , [(n, n + 1)] für − 1 ,
[(n + n, n)] für n , [(n, n + n)] für − n ,
stehen. Der Weg, ausgehend von der Kenntnis der natürlichen Zahlen, die ganzen Zahlen zu
konstruieren, ist also vorgezeichnet:
Man führe Z als Menge der Äquivalenzklassen (N × N)/ R ein.
Vervollständigt wird dieser Schritt durch die Beobachtung, dass durch
[(m, n)] ⊕ [(k, l)] := [(m + k, n + l)]
eine Addition und durch
[(m, n)] ⊙ [(k, l)] := [(m · k + n · l, m · l + n · k)]
43
eine Multiplikation eingeführt wird. Die Anordnung der ganzen Zahlen spiegelt sich in
[(m, n)] ⊳ [(k, l)] : ⇐⇒ m + l < n + k bzw. [(m, n)] [(k, l)] : ⇐⇒ m + l ≤ n + k
wieder. Hierbei ist ja “ < , ≤ “ schon von den natürlichen Zahlen her bekannt. Beachte bei diesen
Definitionen stets, dass [(m, n)] für m−n stehen sollte. Ergänzend sei nun noch die Subtraktion
[(m, n)] ⊖ [(k, l)] := [(m, n)] ⊕ [(l, k)] .
eingeführt.
Bemerkung 4.1.1 Wenn man mit Äquivalenzklassen neue Objekte unter Verwendung von Repräsentanten für die Klassen definiert, hat man sich zu vergewissern, dass die Definition vom
Repräsentanten für die Klasse unabhängig ist. Dies ist oben bei der Definition der Addition,
Multiplikation und Kleiner–Beziehung der Fall. Bei der Addition etwa bedeutet dies, nachzuweisen, dass [(m, n)] ⊕ [(k, l)] = [(m′ , n′ )] ⊕ [(k′ , l′ )] ist, falls [(m, n)] = [(m′ , n′ )] , [(k, l)] = [(k′ , l′ )]
gilt. Dies sieht man mit Hilfe der Identitäten m + n′ = m′ + n , k + l′ = k′ + l sofort ein.
Entsprechend unserer Hinführung finden wir die natürlichen Zahlen wieder als Teilmenge
e := {[(n + n, n)]|n ∈ N} . Auch diese Menge erfüllt nun die Peano–Axiome:
N
e;
• 1̃ := [(n + 1, n)] ∈ N
• n]
+ 1 := [(n + n + 1, n)] Nachfolger von n
e;
• 1̃ ist kein Nachfolger, denn aus 1̃ = [(n+n+1, n)] folgt sofort die widersprüchliche Aussage
1 = n + 1;
e so dass 1̃ ∈ M
e.
f ⊂ N,
f und (ñ ∈ M
f =⇒ n]
f), dann ist offenbar M
f=N
• Ist M
+1∈M
e , n ∈ N und die Null 0̃ := [(n, n)] .
Zusätzlich haben wir die negativen Zahlen [(n, n + n)] ∈ N
Die aufwendige Schreibweise wollen wir nun aber wieder vermeiden. Wir tun dies, indem wir,
statt die Existenz der natürlichen Zahlen axiomatisch zu fordern, die ganzen Zahlen axioma”
tisch“ einführen.
Es gibt Mengen N, Z , ein Element 0 ∈ Z, Abbildungen
Z × Z ∋ (a, b) 7−→ a + b ∈ Z,
Z × Z ∋ (a, b) 7−→ a · b ∈ Z,
und eine Vergleichsoperation ≤ mit folgenden Eigenschaften:
1. (a + b) + c = a + (b + c) für alle a, b, c ∈ Z .
2. a + 0 = 0 + a für alle a ∈ Z .
3. Zu a ∈ Z gibt es genau ein (−a) ∈ Z mit
(a + (−a)) = 0 = ((−a) + a) .
4. a + b = b + a für alle a, b ∈ Z .
5. (a · b) · c = a · (b · c) für alle a, b, c ∈ Z .
6. a · b = b · a für alle a, b ∈ Z .
7. a · (b + c) = a · b + a · c für alle a, b, c ∈ Z .
8. N ⊂ Z , 1 6= 0 , Z = N ∪ {0} ∪ −N .
9. 1 · a = a , 0 · a = 0 für alle a ∈ Z .
10. a ≤ b ⇐⇒ b + (−a) ∈ N ∪ {0} .
44
(Addition)
(Multiplikation)
(Assoziativgesetz)
(0 ist neutrales Element)
((−a) ist Negatives von a)
(Kommutativgesetz)
(Assoziativgesetz)
(Kommutativgesetz)
(Distributivgesetz)
(1 ist neutrales Element)
Man beachte aber, dass nur die Existenz der natürlichen Zahlen eine wesentliche Forderung ist.
Wir tun dies durch Anführung von Eigenschaften, die das übliche Rechnen in den ganzen Zahlen
möglich machen. (Wir legen dabei nicht Wert auf ein minimales Gerüst von Axiomen.)
Zur Abkürzung führen wir noch die Subtraktion durch
Z × Z ∋ (a, b) 7−→ a − b := a + (−b) ∈ Z
ein, schreiben meist kurz
ab für a · b
und vereinbaren die Schreibweise
a < b für a ≤ b, a 6= b .
Damit können wir nun in Z und N genauso rechnen, wie wir es gewohnt sind.
4.2
Teilbarkeit
Definition 4.2.1 Seien a, b ∈ Z. Wir sagen, dass a die Zahl b teilt, wenn es k ∈ Z gibt mit
b = ka. Wir schreiben dafür a|b .
Ist b nicht durch a teilbar, so schreiben wir a 6 | b.
Srechweisen:
Für a|b: a teilt b, a ist Teiler von b, b ist durch a teilbar.
Für a 6 | b: a teilt b nicht, a ist kein Teiler von b, b ist nicht durch a teilbar.
Folgerung 4.2.2 Seien a, b, c, d ∈ Z. Dann gilt:
(1) a|a; a|b und b|a =⇒ a = ±b; a|b und b|c =⇒ a|c.
(2) d|a und d|b =⇒ d|(ax + by) für alle x, y ∈ Z.
(3) a|b und a|(b + c) =⇒ a|c.
Beweis:
Zu 1. a|a, da a = 1 · a.
Es gibt k, l ∈ Z mit b = ka, a = lb. Ist b = 0, dann ist a = 0 und nichts ist mehr zu zeigen. Sei
nun b 6= 0; o.E. b > 0. Dann folgt aus b = klb offenbar kl ∈ N, kl = 1 und damit k = ±1, l = ±1.
Wir haben b = ka, c = lb mit k, l ∈ Z. Daraus folgt c = lb = lka, also a|c.
Zu 2. Wir haben a = kd, b = ld. Seien x, y ∈ Z. Dann gilt ax + by = kdx + ldy = (kx + ly)d;
also d|(ax + by) .
Zu 3. Wir haben b = ka, b + c = la mit k, l ∈ Z. Daraus folgt c = la − b = la − ka = (l − k)a,
also a|c.
Bei Teilbarkeitsfragen in Z können wir uns in der Regel immer auf positive Teiler, d.h. auf
Teiler in N, zurückziehen, da von den zwei Zahlen a, −a stets eine in N liegt, falls a 6= 0; der Fall
a = 0 ist uninteressant, da dann auch b = 0 .
In diesem Abschnitt kommen wir ausschließlich mit den Eigenschaften der ganzen Zahlen
aus, wie sie sich aus der axiomatischen Einführung der natürlichen Zahlen mittels der Peano–
Axiome ergaben; insbesondere haben wir die Rechenarten“ +, −, ·, ≤, < uneingeschränkt zur
”
45
Verfügung. Nicht zur Verfügung steht die Division ÷, eine Tatsache, die die Reichhaltigkeit der
Resultate bzgl. Teilbarkeit beschert.
Fragt man nach gemeinsamen Teilern zweier ganzer Zahlen a, b, so interessiert insbesondere der größte dieser gemeinsamen Teiler. Dabei können wir uns dann auf positive Teiler beschränken, denn 1 ist stets ein gemeinsamer Teiler von a und b.
Definition 4.2.3 Seien a, b ∈ Z . Eine Zahl d ∈ N heißt größter gemeinsamer Teiler von
a, b genau dann, wenn
(1) d|a , d|b
(2) Ist d′ ∈ N ein Teiler von a und b, so teilt d′ auch d
gilt. Wir schreiben d = ggT(a, b) = a ⊓ b .
Für a = b = 0 folgt, dass 0 der eindeutig bestimmte größte gemeinsamer Teiler ist. Anderenfalls it jeder größte gemeinsamer Teiler von 0 verschieden. Sind d1 und d2 zwei größte
gemeinsamer Teiler von a, b, so gilt nach Definition 4.2.3 d1 |d2 und d2 |d1 , d.h. d1 = ±d2 . Dank
der Tatsache, dass wir d ∈ N gefordert haben, ist also der größte gemeinsamer Teiler eindeutig
bestimmt.
Es sollte klar sein, wie nun der größte gemeinsame Teiler von endlich vielen ganzen Zahlen
erklärt ist. Beispiel:
6 ⊓ 10 = 2, 6 ⊓ 10 ⊓ 30 = 2, 6 ⊓ 10 ⊓ 15 = (6 ⊓ 10) ⊓ 15 = 6 ⊓ (10 ⊓ 15) = 1 .
Definition 4.2.4 Seien a, b ∈ Z. Gilt ggT(a, b) = 1 , so nennen wir a, b teilerfremd.
Lemma 4.2.5 Seien a, b ∈ Z nicht beide Null. Dann gilt a ⊓ b = (−a) ⊓ b = (−a) ⊓ (−b) =
a ⊓ (−b) .
Beweis:
Wir beweisen etwa die erste Gleichheit. Diese folgt aber aus der einfachen Beobachtung, dass d
ein Teiler von a und b genau dann ist, wenn d ein Teiler von −a und b ist.
Wir suchen den größten gemeinsamen Teiler von Zahlen a, b ∈ Z . Beachte, dass es wegen
Lemma 4.2.5 ausreicht, den größten gemeinsamen Teiler für Zahlen in N zu berechnen.
Satz 4.2.6 (Division mit Rest) Für alle a ∈ Z, b ∈ N gibt es eindeutig bestimmte Zahlen
q, r ∈ Z mit
a = bq + r und 0 ≤ r < b.
(4.1)
Beweis:
Wir beweisen zunächst die Existenz von q, r für a ≥ 0 durch vollständige Induktion. Dazu
formulieren wir die Aussage:
A(n) : Die Darstellung (4.1) ist richtig für 0 ≤ a ≤ n
n = 0 : Sei a = 0 . Setze q := r := 0 .
n + 1 : Sei a = n + 1 . Ist a < b, so gilt a = 0b + a und wir haben die Darstellung (4.1) für a
gezeigt. Ist a ≥ b, so folgt aus der Induktionsvoraussetzung a − b = qb + r mit q ∈ Z, 0 ≤ r < b.
46
Also a = (q + 1)b + r. Aufgrund der Induktionsvoraussetzung, dass A(n), gilt sind wir fertig.
Die Existenz folgt für a < 0 aus der Anwendung der eben bewiesenen Aussage auf −a gemäß
−a = q ′ b + r ′ , 0 ≤ r ′ < b
durch
a=
(−q ′ − 1)b + (b − r ′ ) , falls r ′ 6= 0
(−q ′ )b
, falls r ′ = 0
Um die Eindeutigkeit zu beweisen, nehmen wir ein zweites Zahlenpaar q ′ , r ′ mit
a = q′b + r′, 0 ≤ r′ < b ,
wobei o. E. r ≥ r ′ sei. Dann ist 0 ≤ r − r ′ < b, r − r ′ = (q − q ′ )b, q − q ′ ≥ 0, und dies ist nur mit
q ′ = q, r = r ′ verträglich.
Lemma 4.2.7 Sei a ∈ Z und b ∈ N. Dann folgt aus der Darstellung a = qb + r , q ∈ Z, die
Aussage ggT(a, b) = ggT(b, r).
Beweis:
Ist d ein Teiler von a, b, dann ist d ein Teiler von b und r und umgekehrt (siehe Folgerung 4.2.2).
4.3
Primzahlen
Die Bausteine der natürlichen Zahlen sind die Primzahlen. Dies wollen wir nun belegen.
Definition 4.3.1 Eine Zahl p ∈ N, p 6= 1, heißt Primzahl, falls aus p = kl mit k, l ∈ N folgt:
k = 1 oder l = 1 . (Später nennen wir k, l Teiler.)
Über die Existenz unendlich vieler Primzahlen war sich schon Euklid im Klaren. Die größte
Zahl, von der man zur Zeit L. Eulers wusste, dass sie eine Primzahl ist, war 231 − 1, eine Zahl
mit 10 Stellen. Zur Vorbereitung Euklids Beweises von der Existenz unendlich vieler Primzahlen
geben wir an:
Lemma 4.3.2 Sei n ∈ N, n ≥ 2. Sei
T := {m ∈ N|m ≥ 2, n = km mit k ∈ N} .
Dann besitzt T ein (bezüglich ≤) kleinstes Element p und p ist eine Primzahl.
Beweis:
Sicherlich ist n ∈ T . Klar, nach dem Wohlordnungssatz 3.2.6 besitzt T ein kleinstes Element
p ∈ N, p ≥ 2; also p ≤ m für alle m ∈ T und n = kp mit k ∈ N .
Annahme: p ist keine Primzahl.
Dann gibt es l, j ∈ N, 2 ≤ l < p, mit p = lj . Dann gilt n = pk = l(jk), also l ∈ T, was im
Widerspruch zur Minimalität von p in T ist.
Satz 4.3.3 (Unendlichkeit der Primzahlen/Euklid) Es gibt unendlich viele Primzahlen.
47
Beweis:
Annahme: Es gibt nur endlich viele Primzahlen.
Seien p1 , . . . , pr diese Primzahlen. Setze N := p1 · · · pr + 1. Dann ist N ∈ N und N ≥ 2. Da
N > pi für jedes i = 1, . . . , r ist, ist N keine Primzahl. Also gibt es nach Lemma 4.3.2 eine
Primzahl p ∈ N mit N = kp, k ∈ N . Also kommt p unter p1 , . . . , pr vor; o.E. p = p1 . Dann folgt:
1 = p(k − p2 . . . pr ) .
Daraus liest man nun p = 1 ab, was ein Widerspruch ist.
Die einzige gerade Primzahl ist 2. Alle anderen Primzahlen sind ungerade. Daraus folgt sofort,
dass diese Primzahlen von der Form 4m + 1 bzw. 4m + 3 mit m ∈ N sind. Also haben wir drei
Schubladen“ von Primzahlen:
”
P2 = {2} , P1 = {p|p Primzahl , p = 4m + 1} , P3 = {p|p Primzahl , p = 4m + 3} .
Nun bleibt die Frage, ob P1 und P3 unendlich viele Zahlen enthält. Dies ist so!
Bemerkung 4.3.4 J. Bertrand stellte die Vermutung auf, dass zwischen n und 2n stets eine
Primzahl liegt; er selbst verifizierte die Vermutung für n < 3000000 . Ein erster Beweis für die
vermutete Tatsache wurde 1850 von P. Tschebyscheff vorgelegt.
Wir geben hier nicht den Beweis
2n
wieder, der durch eine sorgfältige Abschätzung von n erbracht werden kann, sondern verifizieren die Vermutung nur für n < 4000 (Landau’s Trick): Hier ist eine Folge von Primzahlen,
von denen jeweils die Verdopplung größer als die folgende Zahl ist:
2, 3, 5, 7, 13, 23, 43, 83, 163, 317, 631, 1259, 2503, 4001
Beispiel 4.3.5 Lange Zeit glaubte man, dass die so genannten Fermatsche Zahlen
n
Fn := 22 + 1, n ∈ N ,
stets Primzahlen sind. Für n = 0, 1, 2, 3, 4 trifft dies zu:
F0 = 3, F1 = 5, F2 = 17, F3 = 257, F4 = 65537 .
Im Jahre 1733 widerlegte L. Euler mit dem Beispiel F5 = 4294967297 = 641 · 6700417 die
Vermutung. Bisher hat man keine weitere Zahl Fn als Primzahl erkannt, im Gegenteil, die
Vermutung ist nun, dass keine Fermatzahl Fn , n ≥ 5, eine Primzahl ist. Die kleinste Fermatzahl,
von der man derzeit noch nicht weiß, ob sie eine Primzahl ist oder nicht, ist die Zahl F24 .
Beispielsweise ist F18 = 13631489 · k , wobei k eine Zahl mit 78906 Stellen ist.
Wie kann man bei gegebener Zahl n entscheiden, ob es sich um eine Primzahl handelt oder
nicht? Liegt eine große Zahl vor, so ist die Aufgabe schwierig. Die Probiermethode, n sukzessive
auf Teiler zu untersuchen, kann man sehr schnell als sehr zeitraubend“ erkennen. Aktualität
”
erhielt die Frage bei der Suche nach Primzahltests in der Kryptologie. In der Kryptologie
beschäftigt man sich mit der Verschlüsselung von Nachrichten zum Zwecke der Geheimhaltung
und mit der Entschlüsselung zum Zwecke der Aufdeckung von Nachrichten.
Ein Primzahltest leitet sich aus der Äquivalenz
n Primzahl ⇐⇒ n|((n − 1)! + 1)
48
ab. Diese Äquivalenz wird als Satz von Wilson bezeichnet.1
Die Probiermethode – man probiere alle Primzahlen p ≤ n als mögliche Teiler durch – kann
dahin verbessert werden, dass man nur solche p mit p2 ≤ n durchzuprobieren hat, da bei einer
Zerlegung n = pq, p, q Primzahlen, für einen der beiden Faktoren sicherlich gilt, dass er dem
Quadrate nach nicht größer als n ist. Aber hier hat man das Problem, dass man von allen
Zahlen z mit z 2 ≤ n wissen sollte, ob sie Primzahlen sind. Da aber jede Primzahl p von der
Form p = 6k±1, k ∈ N, ist (Beweis!) können wir dieses Problem umgehen, indem wir mit solchen
6k ± 1 testen. Man hat dann aber immer noch mit einer Anzahl von Zahlen zu testen, die etwa
bei einer 100–stelligen Zahl einen nicht zu bewältigender Aufwand darstellt.
Folgerung 4.3.6 (Lemma von Euklid) Teilt eine Primzahl ein Produkt a1 · · · ar natürlicher
Zahlen, so teilt p wenigstens einen der Faktoren a1 , . . . , ar .
Beweis:
O. E. sei r = 2. Also haben wir a1 a2 = kp mit k ∈ N . Teilt p die Zahl a1 nicht, dann ist
p ⊓ a1 = 1, da p eine Primzahl ist, und es gibt nach Satz 4.4.4 s, t ∈ Z mit 1 = sp + ta1 . Daraus
folgt a2 = spa2 + ta1 a2 = p(sa2 + tk). Also teilt p die Zahl a2 .
Bevor wir den Hauptsatz der elementaren Zahlentheorie, die Primfaktorzerlegung, beweisen,
formulieren noch eine Schreibweise/Vereinbarung: Das Produkt von Zahlen a1 , . . . , an+1
definieren wir induktiv
0
Y
i=1
ai := 1 (leeres Produkt) ,
1
Y
ai := a1
(einfaches Produkt) ,
n+1
Y
i=1
i=1
ai := an+1 ·
n
Y
ai .
i=1
Satz 4.3.7 (Primfaktorzerlegung) Jede natürliche Zahl n ≥ 2 läßt sich bis auf die Reihenfolge der Faktoren eindeutig als Produkt von Primzahlen darstellen.
Beweis:
Die Existenz einer Darstellung für n ∈ N beweisen wir induktiv:
Für n = 2 ist dies nach der obigen Vereinbarung über das einfache Produkt klar.
n + 1 : Ist n + 1 eine Primzahl, dann ist nach Vereinbarung über das einfache Produkt nichts
mehr zu zeigen. Anderenfalls gilt n + 1 = pm mit 1 < p, m < n + 1. O.E. können wir nun annehmen nach Lemma 4.3.2, dass m einen Teiler p besitzt, der eine Primzahl ist; also n + 1 = pm
mit 1 < p, m < n + 1 . Nach Induktionsvoraussetzung gilt m = p2 · · · pr , p2 , . . . , pr Primzahlen.
Dann liegt in n + 1 = pp2 · · · pr eine Zerlegung von n + 1 in Primfaktoren vor.
Zur Eindeutigkeit: Sei n = p1 · · · pr = q1 · · · qs mit Primzahlen p1 , . . . , pr , q1 , . . . , qs . Durch Induktion über n zeigen wird, dass r = s und nach Umnumerierung p1 = q1 , . . . , pr = qr gilt.
p1 teilt das Produkt q1 · · · qs und damit einen der Faktoren q1 , . . . , qs . Also etwa nach Umnumerierung p1 |q1 . Da q1 Primzahl ist, ist p1 = q1 . Also (Kürzungsregel) p2 · · · pr = q2 · · · qs =: m .
Da m < n gilt, sagt die Induktionsannahme r = s, p2 = q2 , . . . , pr = qs nach eventueller Umnumerierung und wir sind fertig.
Die Herstellung der Primfaktorzerlegung einer (großen) Zahl ist kein leichtes Unterfangen.
Die Schwierigkeit wird dadurch beleuchtet, dass nahezu gleiche Zahlen eine sehr verschiedene
Primfaktorzerlegung besitzen können:
370273 = 43 · 79 · 109 , 370277 = 17 · 23 · 947 , 370279 = 7 · 13 · 13 · 313 .
1
Schon G.W. Leibniz hat diesen Satz vermutet, der erste vollständige Beweis stammt von J.L. Lagrange2 , etwa
100 Jahre später hat ihn J. Wilson nachentdeckt. Man sieht schnell, dass, was den Rechenaufwand betrifft, nicht
viel gewonnen ist, denn (n − 1)! auszurechnen, ist eine aufwendige Angelegenheit.
49
Definition 4.3.8 Seien a, b ∈ Z, die nicht beide 0 sind. Eine Zahl k ∈ N heißt kleinstes
gemeinsames Vielfaches von a, b genau dann, wenn gilt:
(1) a|k , b|k .
(2) Sind a, b Teiler von k′ ∈ N, so ist k ein Teiler von k′ .
Wir schreiben k = kgV (a, b) = a ⊔ b .
Bemerkung 4.3.9 Das kleinste gemeinsame Vielfache von Zahlen a, b ∈ N ist die kleinste
Zahl m ∈ N, für die a|m , b|m gilt. Kennt man die Primfaktorzerlegung von a und b, so kann
man es sehr einfach ablesen(, wie übrigens auch den größten gemeinsamen Teiler).
4.4
Euklidischer Algorithmus
Der euklidische Algorithmus baut die Aussage von Lemma ?? aus zu einer effizienten Berechnungsmethode für den größten gemeinsamen Teiler.
Algorithm 1 Der euklidische Algorithmus
EIN a, b ∈ Z ; o.E. a ≥ b > 0 .
Schritt 0 a′ := a, b′ := b .
Schritt 1 (a′ , b′ ) := (b′ , r), wobei a′ = qb′ + r mit 0 ≤ r < b′ ist.
Schritt 2 Ist r = 0, gehe zu AUS. Ist r 6= 0, setze a′ := b′ , b′ := r, gehe zu Schritt 1.
AUS d := b′ = ggT(a, b) .
Die Aussage, dass d der größte gemeinsame Teiler von a, b ist, falls die Situation r = 0
erreicht wird, folgt aus dem Lemma 4.2.7. Bleibt noch zu klären, dass die Situation r = 0 in
endlich vielen Schritten wirklich erreicht wird. Dies folgt aber aus der Tatsache, dass für zwei
aufeinanderfolgende Durchläufe von Schritt 1 (a′ , b′ ) , (a′′ , b′′ ) sicherlich 0 ≤ b′′ < b′ , b′ , b′′ ∈ N0
gilt. Also muss schließlich das Verfahren bei r = 0 abbrechen.
Der euklidische Algorithmus gilt als ein recht schneller Algorithmus. Dies wollen wir nun
erläutern. Dazu benötigen wir die Fibonacci-Zahlen. Sie sind rekursiv definiert durch:
f1 := f2 := 1 , fn+1 := fn + fn−1 , n ∈ N, n ≥ 2 .
Die Folge (fn )n∈N gilt (historisch) als ein erstes Modell für die zeitliche Entwicklung einer
(Kaninchen-)Population. Man kann (durch vollständige Induktion) zeigen:
√
√
1
1
1
fn = √ (gn − g n ) , n ∈ N , wobei g := (1 + 5), g := (1 − 5) .
2
2
5
(4.2)
Der euklidische Algorithmus habe die Eingabewerte a, b, für die wir o.E. annehmen dürfen:
a > b > 0 . Sei n die Anzahl der Divisionen mit Rest, die nötig sind, bis der größte gemeinsamer
Teiler d = ggT(a, b) gefunden ist. Um die Anzahl der Schritte n abzuschätzen, wählen wir als
spezielle Eingabewerte zwei aufeinanderfolgende Fibonacci-Zahlen, nämlich a = fn+1 , b = fn .
50
In diesem Fall sind auf Grund der Rekursionsformel fk+1 = fk + fk−1 die Divisionen mit Rest
besonders einfach:
fn+1 = 1 · fn + fn−1
fn = 1 · fn−1 + fn−2
..
.
f3 = 1 · f2 + f1
f2 = 1 · f1 + 0
Durch Vergleich mit dem allgemeinen Fall sieht man, dass für den euklidischen Algorithmus der
ungünstigste Fall für die Eingabe zwei aufeianderfolgende Fibonacci-Zahlen sind. Da offenbar
nach (4.2)
√
1
fn+1 = Θ(gn ) mit g = (1 + 5)
2
gilt, ergibt sich hier n = O(ln(a)) mit a = fn+1 . Die Anzahl der beim euklidischen Algorithmus
nötigen Divisionen mit Rest wächst also höchstens linear mit der Stellenzahl der Eingabewerte.
Wir geben dem Euklidischen Algorithmus, wohlwissend, dass der Schritt 1 nur endlich oft
durchlaufen wird, eine explizite Fassung:
Euklidischer Algorithmus
Kettenbruchentwicklung
a
b
r0
r1
r1
r2
r0 := a , r1 := b,
r0
=
q1 r1 + r2 , 0 < r2 < r1 ,
r1
=
q2 r2 + r3 , 0 < r3 < r2 ,
..
.
..
.
=
= q1 + rr2
1
r
= q 2 + r3
2
..
.
..
.
rk−1
=
qk rk + rk+1 , 0 < rk+1 < rk ,
rk
=
qk+1 rk+1 ,
rk−1
rk
rk
rk+1
r0
r1
r
= qk + k+1
rk
= qk+1
In dieser Darstellung ist rk+1 = rk−1 ⊓ rk = · · · = r0 ⊓ r1 = a ⊓ b nach Lemma 4.2.7.
Beachte: Bei der Spalte Kettenbruchentwicklung“ haben wir Brüche vorweggenommen. Für
”
ein Verständnis der Kettenbruchentwicklung reicht ein elementares Wissen über rationale Zahlen
aus.
Beispiel 4.4.1 a = 104629 , b = 432000 .
104629 = 0 · 432000 + 104629
432000 = 4 · 104629 + 13484
104629 = 7 · 13484 + 10241
13484 = 1 · 10241 + 3243
10241 = 3 · 3243 + 512
3243 = 6 · 512 + 171
512 = 2 · 171 + 170
171 = 1 · 170 + 1
170 = 170 · 1
51
Also gilt: 104629 ⊓ 432000 = 1 .
Aus der obigen Darstellung des euklidischen Algorithmus lesen wir
a
r0
r2
1
1
1
= ...
(4.3)
=
= q1 +
= q1 + r1 = q1 +
= q1 +
r
3
1
b
r1
r1
q 2 + r2
q2 +
r2
r4
q3 +
r3
rk+1
ab; wir wissen dabei, dass stets 0 < r < 1 gilt und dass das Schema nach k Schritten abk
bricht, denn in formaler Interpretation haben wir rk+2 = 0 . Die berechneten Größen q1 , . . . , qk+1
schreiben als
a
[q1 , . . . , qk+1 ] oder = [q1 , . . . , qk+1 ]
b
auf und bezeichnen dies als Kettenbruch. Der Kettenbruch kann mitunter auch sehr lang“
”
sein. In vielen Fällen ist man schon mit einer Näherung [q1 , . . . , ql ] , 1 ≤ l < k + 1 , zufrieden,
d.h. mit der Näherung, die entsteht, wenn man
rl
=0
rl+1
setzt.
Beispiel 4.4.2 Die Zahlen
a = 71755875
b = 61735500
kommen in Berechnungen des Astronomen Aristarchus von Samos vor. Für a verwendet er die
b
43
Näherung 37 . Sie ergibt sich, wenn man den Kettenbruch geeignet abbricht:
a
1
.
∼1+
b
6 + 61
Beispiel 4.4.3 Die Umlaufzeit der Erde um die Sonne beträgt ziemlich genau
365 +
104629
Tage .
432000
Aus der Kettenbruchentwicklung
432000
= [0, 4, 7, 1, 3, 6, 2, 1, 170]
104629
ergeben sich Ansätze für Kalender:
[0] = 0
[0, 4] =
Keine Schaltjahre
(Anpassung von Zeit zur Zeit durch Hinzufügen eines Tages)
1
4
[0, 4, 7, 3, 6] =
Alle vier Jahre ein Schalttag
194
801
In 800 Jahren lässt man sechs Schaltjahre ausfallen
(und zwar in den Jahren, deren Jahreszahlen nicht durch 400 teilbar ist.)
Beachte: Da a1 ⊓ a2 ⊓ · · · ⊓ an = a1 ⊓ (a2 ⊓ · · · ⊓ an ) gilt, ist klar, dass wir nun auch ein
Verfahren haben, das den größten gemeinsamen Teiler von a1 , . . . , an bereitstellt: Man hat es
nur mehrmals anzuwenden.
Eine wichtige Konsequenz aus dem Euklidischen Algorithmus ist
52
Satz 4.4.4 (Lemma von Bezout) Seien a, b ∈ Z. Dann gibt es Zahlen s, t ∈ Z mit ggT(a, b) =
sa + tb .
Beweis:
O.E. a ≥ b > 0 .
Die Aussage folgt dadurch, dass wir den euklidischen Algorithmus in der expliziten Fassung
rückwärts lesen. Wir strukturieren dies, indem wir nachrechnen, dass für 0 ≤ i ≤ k + 1 gilt
ri = si a + ti b , mit si , ti ∈ Z.
(4.4)
Dies ergibt sich so: Für i = 0 setze s0 := 1, t0 := 0 und für i = 1 setzte s1 := 0, t1 := 1 . Nun
setzen wir
si+1 := si−1 − qi si , ti+1 := ti−1 − qi ti , 1 ≤ i ≤ k.
(4.5)
Dann gilt offenbar die obige Aussage.
Beispiel 4.4.5 Wir betrachten wieder Beispiel 4.4.1. Für das Tupel (ri , qi , si , ti ) haben wir dann
nach (4.4) und (4.5) die folgende Sequenz (× bedeutet uninteressant oder nicht definiert):
(36667, ×, 1, 0), (12247, 2, 0, 1), (12173, 1, 1, −2), (74, 164, −1, 3), (37, ×, 165, −494).
Also haben wir
37 = 36667 ⊓ 12247 = 165 · 36667 − 494 · 12247
Folgerung 4.4.6 Seien a, m ∈ Z, die nicht beide Null sind, mit ggT(a, m) = 1 . Dann gibt es
b ∈ Z mit m|(ab − 1) .
Beweis:
Wir wissen aus dem Lemma von Bezout 1 = ax + my mit x, y ∈ Z . Setze b := x . Dann ist
ab − 1 = −my = m(−y) .
Die obige Folgerung können wir so lesen, dass bei Teilerfremdheit von a und m zu a eine Zahl
b existiert, die die Gleichung
a·b=1
bis auf ein Vielfaches von m löst.
Bemerkung 4.4.7 Ein Polynom vom Grade n mit ganzzahligen Koeffizienten ist ein Term“
”
der folgenden Form:
p(x) := an xn + an−1 xn−1 + · · · + a1 x + a0 ;
dabei sind a0 , . . . , an−1 ∈ Z die Koeffizienten des Polynoms und n der Grad, wenn n 6= 0 . Dieses
Polynom kann einerseits selbständiges Objekt im Ring Z[X] aller dieser Terme von beliebigem
Grad oder als Abbildung von Z nach Z betrachtet werden. Wir nehmen zunächst den ersten
Standpunkt ein. Ring“ meint, dass man solche Terme (koeffizientenweise) addieren und mit
”
ganzen Zahlen multiplizieren kann. Umgekehrt, kann man nun versuchen, zwei Terme dieser
Art zu dividieren“; man wird zur Division mit Rest bei Polynomen geführt. Auf unserer
”
ganzzahligen Basis können wir diese nicht vorstellen, denn dazu brauchen wir die rationalen
Zahlen; wir kommen im nächsten Kapitel darauf zurück.
53
4.5
Modulare Arithmetik
Die modulare Arithmetik beschreibt das Rechnen im Ring Zm , wobei m ∈ N, m ≥ 2, der gewählte
Modul ist. Der Ring Zm kommt als Menge der Äquivalenzklassen/Restklassen bezüglich der
Äquivalenzrelation Division mit Rest“ bezüglich des Moduls m zustande:
”
Zm := {[0], [1], . . . , [m − 1]} wobei [i] := {n ∈ N|n = qm + i für ein q ∈ Z} .
Beachte, dass etwa die Klasse [1] auch als die Klasse [m + 1] beschrieben werden kann; wir haben
in der Definition von Zm ein naheliegendes Representantensystem gewählt.
Klar, für m = 2 erhalten wir gerade die Einteilung der natürlichen Zahlen in die Klassen gerade Zahlen und ungerade Zahlen. Für diese Klassen hat man in natürlicher Weise eine Addition
und eine Multiplikation:
gerade + gerade = gerade , ungerade + gerade = ungerade
gerade · gerade = gerade , ungerade · gerade = gerade
Diese Beobachtung schreiben wir nun fort auf Zm :
Addition: [i] + [j] := [i + j] , i, j ∈ {0, 1, . . . , m − 1} ;
Multiplikation: [i] · [j] := [ij] , i, j ∈ {0, 1, . . . , m − 1} .
Damit dies wohldefiniert ist, muss noch gezeigt werden: aus [i] = [j], [i′ ] = [j ′ ] folgt [i+j] = [i′ +j ′ ]
und [ij] = [i′ j ′ ] . Wir beweisen dies am Beispiel der Multiplikation. [i] = [j], [i′ ] = [j ′ ] bedeutet
i′ = pm + i, j ′ = qm + j für p, q ∈ Z . Daraus folgt
i′ j ′ = (pm + i)(qm + j) = (iqm + jpm + pqm)m + ij also [ij] = [i′ j ′ ] .
[0] ist das neutrale Element für die Addition, [1] ist das neutrale Element für die Multiplikation:
[i] + [0] := [i] , [i] · [1] = [i] , i, j ∈ {0, 1, . . . , m − 1} .
Weiterhin ist leicht zu sehen, dass [m − i] das Inverse von [i] bezüglich der Addition ist. Nun
können wir so zusammenfassen: Zm ist bezüglich der Addition eine kommutative Gruppe; was
die Bezeichnung Gruppe“ beinhaltet, siehe nachfolgenden Abschnitt 4.6. Dieses Ergebnis gilt
”
unabhängig von m.
Für die Multiplikation ist die Situation nicht so einfach, denn es gibt die Situation, dass
Nullteiler auftreten; etwa
[2] · [2] = [2 · 2] = [0] in Zm für m = 4 .
Also kann hier [2] kein Inverses bezüglich der Multiplikation haben. Ist nun m eine Primzahl,
dann ist, wie wir wissen, die Klasse [1] ein neutrales Element und aus dem Lemma von Bezout
4.4.4 folgern wir, dass es zu jeder Zahl k = 1, . . . , m − 1 ein l ∈ N gibt mit m teilt kl − 1;
d.h. [k] · [l] = [1] . Somit hat man für jedes Element in Zm \{[0]} ein Inverses. Nun fassen wir
zusammen: Zm \{[0]} ist bezüglich der Multiplikation eine kommutative Gruppe, falls m eine
Primzahl ist.
Die Gruppentafeln – so bezeichnen wir eine vollständige Auflistung der Verknüpfungen der
Gruppenelemente – zu m = 5 sehen wie in 4.3 aufgeführt aus.
Man beachte, dass sowohl in der Gruppentafel zur Addition als auch in der Gruppentafel zur
Multiplikation in jeder Zeile und Spalte jede Klasse genau einmal vertreten ist. Beachte ferner,
dass die Potenzen des Elements [2] alle Elemente von Z∗5 := Z5 \{[0]} durchlaufen:
[2]0 = [1] , [2]1 = [2] , [2]2 = [4] , [2]3 = [3] , [2]4 = [1] .
Man nennt eine Gruppe, die ein solches zyklisches Element besitzt, eine zyklische Gruppe.
54
+
[0] [1] [2] [3] [4]
[0]
[0] [1] [2] [3] [4]
·
[1] [2] [3] [4]
[1]
[1] [2] [3] [4] [0]
[1]
[1] [2] [3] [4]
[2]
[2] [3] [4] [0] [1]
[2]
[2] [4] [1] [3]
[3]
[3] [4] [0] [1] [2]
[3]
[3] [1] [4] [2]
[4]
[4] [0] [1] [2] [3]
[4]
[4] [3] [2] [1]
(b)
(a)
Abbildung 4.1: Gruppentafeln zu Z5
+
0 1 a b
·
0 1 a b
0
0 1 a b
0
0 0 0 0
1
1 0
b
a
1
0 1 a b
a
a b
0 1
a
0 a b
b
b a 1 0
b
0 b
(a)
1
1 a
(b)
Abbildung 4.2: Gruppentafeln zu einem Körper mit 4 Elementen
Bemerkung 4.5.1 Für beliebiges m ∈ N, m ≥ 2, ist (Zm , +, ·) ein Ring mit Einselement. Ist
p ∈ N eine Primzahl, so ist (Zm , +, ·) sogar ein Körper, ein endlicher, denn Zp hat ja (nur)
p Elemente. Damit kennen wir zu jeder Primzahl p einen Körper mit p Elementen. Wie sieht
es aber mit den Lücken m = 4, m = 6, m = 8, . . . aus? Es gibt das diese Frage abschließende
Resultat, dass es einen Körper mit m Elementen genau dann gibt, wenn m eine Primzahlpotenz
ist. In 4.2 findet man einen Körper mit 4 Elementen in abstrakter, d.h. nicht in einer schon
durch bekannte Objekte beschriebene Form.
Wo werden endliche Körper benötigt? Allgemein in der Diskreten Mathematik, der Mathematischen Informatik und speziell in der Verschlüsselung von Daten.
Hier ist noch ein wichtiges Resultat für das Rechnen in Kongruenzen, das man oft zur Vereinfachung von Argumentationen verwenden kann.
Satz 4.5.2 (Chinesischer Restsatz) Ist m = pk11 · · · · · pkr r die Primfaktorzerlegung von m,
so ist Zm isomorph zu Zpk1 × · · · × Zpkr r , d.h. es gibt eine bijektive Abbildung g : Zm −→
1
Zpk1 × · · · × Zpkr r , für die gilt:
1
g([u] + [v]) = g([u]) + g([v]) , g([u] · [v]) = g([u]) · g([v]) , u, v ∈ Z .
(4.6)
Dabei wird sowohl Addition als auch Multiplikation in Zpk1 ×· · ·×Zpkr r komponentenweise erklärt.
1
Beweis:
Offenbar haben Zm und Zpk1 × · · · × Zpkr r gleich viele Elemente. Also genügt es zeigen, dass g
1
injektiv ist. Dazu reicht nun zu zeigen, dass aus g([u]) = ([0], . . . , [0]) folgt: [u] = [0] .
Aus g([u]) = ([0], . . . , [0]) folgt pki i |u, i = 1, . . . , r . Dann folgt aber m = pk11 · · · pkr r |u . Also
[u] = [0] .
55
4.6
Zum Gruppenbegriff
Die Gruppenstruktur ist von überrragender Bedeutung. Ihre Nutzung hinterließ eine Erfolgsspur
in der Mathematik.3
Definition 4.6.1 Eine Menge G zusammen mit einer Verknüpfung • : G × G ∋ (a, b) 7−→
a • b ∈ G heißt eine Gruppe genau dann, wenn gilt:
a) Es gibt ein Element e ∈ G mit
a • e = e • a = a für alle a ∈ G .
b) Zu jedem a ∈ G gibt es ein Element ā ∈ G mit
c) Für alle a, b, c ∈ G gilt
a • ā = ā • a = e .
a • (b • c) = (a • b) • c .
Ist zusätzlich noch
d) Für alle a, b ∈ G gilt
a • b = b • a.
erfüllt, so heißt die Gruppe kommutativ.
Sei G eine Gruppe. Die Bedingung a) besagt, dass es ein bezüglich der Verknüpfung “•“
neutrales Element e in G gibt. Ist e′ ein weiteres neutrales Element in G, so lesen wir aus
e′ = e′ • e = e
– wir haben dabei a) zweimal verwendet – ab, dass das neutrale Element in einer Gruppe
eindeutig bestimmt ist.
Das in der Bedingung b) eingeführte Element ā heißt das zu a inverse Element. Es ist ebenfalls
eindeutig bestimmt, denn aus
a • ā = ā • a = e , a • ā′ = ā′ • a = e ,
folgt
ā′ = ā′ • e = ā′ • (a • ā) = (ā′ • a) • ā = e • ā = ā .
Die Bedingung c), die wir eben verwendet haben, nennt man das Assoziativgesetz. Es besagt,
dass Klammern bei der Reihenfolge der Verknüpfungen beliebig gesetzt werden dürfen und
deshalb, soweit sie nicht für die Lesbarkeit benötigt werden, weggelassen werden dürfen.
Wegen der Eindeutigkeit des inversen Elements (siehe oben) können wir nun ein inverses
Element in der Bezeichnung auszeichnen.
Bezeichnung: Wir schreiben für das inverse Element ā von a im abstrakten Rahmen meist a−1 ,
in speziellen Fällen weichen wir davon ab.
Wir führen nun eine Reihe von Beispielen an und zeigen damit, dass der Gruppenbegriff in der
Tat geeignet ist, viele Objekte unter einem gemeinsamen Gesichtspunkt zu betrachten. Dabei
schreiben wir dann Verknüpfung, Einselement, Inverses immer mit dem Symbol, das wir in der
speziellen Situation bereits kennen bzw. wie es dort Verwendung findet. Auf die Verifikation der
Eigenschaften verzichten wir, sie sit meist auch offensichtlich.
Beispiel 4.6.2 (G := Z, • := +) ist eine kommutative Gruppe mit neutralem Element 0 und
Inversem −z für z ∈ Z .
3
Von H. Poincaré ist die Aussage überliefert, Gruppen seien die ganze Mathematik“. Seit dem 17. Jahrhundert
”
ist der Gruppenbegriff implizit bei Mathematikern zu finden.
56
Wenn die Verknüpfung eine Addition ist wie etwa in Beispiel 4.6.2, nennt man das Inverse
eines Elements meist das Negative. Ist die Verknüpfung • in einer Gruppe einer Addition
verwandt“, so nennt man sie, wenn sie kommutativ ist, auch abelsch. 4
”
Beispiel 4.6.3 (G := Q, • := +) , (G := R, • := +) sind abelsche Gruppen. Das neutrale
Element ist jeweils 0, das Inverse (Negative) eines Elementes r ist −r.
In einer Gruppe (G, •) mit Einselement e können wir nun die Potenzschreibweise einführen:
a0 := e , ak+1 := ak • a , k ∈ N0 ; a−k := (a−1 )k , k ∈ N .
Lemma 4.6.4 Sei m ∈ N\{1} . Es gilt:
a) (Zm , ⊕) ist eine abelsche Gruppe.
b) (Z∗m , ⊙) ist eine abelsche Gruppe, wobei
Z∗m := {[x] ∈ Zm |∃[x′ ] ∈ Zm ([x] ⊙ [x′ ] = [1]}
die sogenannte Einheitengruppe ist.
c) Es ist Z∗m = Zm \{[0]} genau dann, wenn m eine Primzahl ist.
Beweis:
Nur noch b) ist zu beweisen. Doch dies sehr einfach nachzurechnen.
Gruppentafeln stellen eine vollständige Auflistung der Verknüpfungen der Gruppenelemente dar. Hat man eine endliche Gruppe (G, •), so tritt in jeder Spalte und jeder Zeile ihrer
Gruppentafel jedes Element der Gruppe genau einmal auf. Dies folgt aus der Bijektivität der
Abbildungen
g : G ∋ h 7−→ h • g ∈ G , g : G ∋ h 7−→ g • h ∈ G
für jedes g ∈ G . Die Verifikation dieser Tatsache sei dem Leser überlassen.
Definition 4.6.5 Seien (G, •), (G′ , •′ ) Gruppen und φ : G −→ G′ eine Abbildung. φ heißt
Isomorphismus und G isomorph G′ vermöge φ, wenn φ bijektiv ist und φ(g •h) = φ(g)•′ φ(h)
für alle g, h ∈ G gilt.
Die Klassifikation von Gruppen bedeutet dann, die Klassen von Gruppen zu bestimmen,
die sich höchstens um einen Isomorphismus unterscheiden. (Sind etwa G, G′ isomorph, so ist G
kommutativ genau dann, wenn G′ kommutativ ist.) speziell“, wie oben verwendet, erklärt sich
”
hiermit.
Alle einelementigen Gruppen sind isomorph. Eine Realisierung der einelementigen Gruppen
ist die Symmetriegruppe des Buchstabens F als Figur der Ebene.
Realisierungen der zweielementigen Gruppen sind:
• Die additive Gruppe Z2 .
4
• Die Symmetriegruppe des Buchstabens A als Figur der Ebene (Spiegelung an der y-Achse).
Der Begriff abelsch“ ist vom Namen des norwegischen Mathematikers N.H. Abel abgeleitet. Seine Ideen hierzu
”
sind eng mit denen des französischen Mathematikers E. Galois, dessen Theorie in der Algebra eine überragende
Rolle spielt, verwandt. Mit ihm teilt er auch das Schicksal, sehr jung zu sterben, Abel starb an Schwindsucht,
Galois in einem Duell.
57
c
•
e a b
c
e
e a b
c
e
e a b
c
b
e a b
e
e a b
a
a b
c
e
a
a e
c
a b
e
b
b
c
e a
b
b
c
e a
e a
c
c
e a b
c
c
b
a e
e a
e
e a
a
a e
b
(a)
e a b
•
•
a
•
b
(b)
(c) Zyklische Gruppe
(d) Kleinsche Vierergruppe
Abbildung 4.3: Gruppentafeln
• Die Symmetriegruppe des Buchstabens Z als Figur der Ebene (Drehung um den Ursprung
um 180◦ ).
Diese genannten zweielementigen Gruppen sind alle isomorph. Dies gilt aber allgemein, denn jede
zweielementige Gruppe {e, a} hat notwendigerweise eine Gruppentafel, wie sie in Abbildung 4.3
(a) zu sehen ist.
Die einzige Gruppentafel einer Gruppe {e, a, b}, also mit drei Elementen, hat das Aussehen,
wie sie in Abbildung 4.3 (b) aufgeführt ist. Also sind alle Gruppen mit drei Elementen isomorph.
Bei Gruppen mit den 4 Elementen e, a, b, c trifft dies
nicht zu. Es gibt zwei Typen von Gruppen, die nicht
isomorph sind. Der eine Typ wird repräsentiert durch
die zyklische Gruppe; hier ist b = a2 , c = a3 , e = a4 .
Der andere Typ wird repräsentiert durch die Kleinsche Vierergruppe; hier ist e2 = a2 = b2 = c2 = e .
In Abbildung 4.3 (c), (d) sind sie zu sehen. Die Nichtisomorphie folgt schon aus der Tatsache, daß die eine
Gruppe zyklisch, die andere es nicht ist. Eine Realisierung der zyklischen Gruppe ist (Z4 , +) . Eine Realisierung der Kleinschen Vierergruppe ist die Symmetriegruppe eines Rechtecks, das kein Quadrat ist:
Abbildung 4.4: Ornamente
e := id;
a := Spiegelung an der senkrechten Achse durch den Diagonalenschnittpunkt;
b := Spiegelung an der waagrechten Achse durch den Diagonalenschnittpunkt;
c := Drehung um 180o .
Es fällt auf, dass sich die Drehung c durch die Spiegelungen a, b ausdrücken lassen.
Beispiel 4.6.6 Ebene regelmäßige Ornamente (auch Parkettierungen der Ebene genannt) lassen
sich klassifizieren, je nachdem, welche Bewegungen (Drehungen, Spiegelungen, Translationen)
das jeweilige Ornament invariant lassen; siehe Abbildung 4.4. Die Symmetriegruppen, die dabei
auftreten, nennt man Alhambragruppen. Wenn man auf diese Weise einen Überblick über die
Reichhaltigkeit aller regelmäßigen Ornamente gewinnen will, so stellt sich heraus (V. Fedorov),
daß es genau siebzehn strukturell verschiedene Alhambragruppen gibt, und dass zu diesen siebzehn
Gruppen entsprechende Ornamente in der Alhambra zu finden sind.
Definition 4.6.7 Sei (G, •) eine Gruppe. Die Anzahl der Elemente von G heißt Ordnung von
G. Wir schreiben |G| für die Ordnung von G .
58
Wir verabreden, dass die Ordnung unendlich sei, falls G keine endliche Menge ist. Also |G| =
∞, falls #G = ∞ .
4.7
Pseudozufallszahlen
Um die umständliche Verwendung von Tabellen zu vermeiden, werden Folgen von Zufallszahlen
verwendet, die im Allgemeinen durch Iterationen hergestellt werden; wir sprechen von Pseudozufallszahlen. Darunter versteht man mathematisch wohldefinierte Zahlenfolgen, die als Folgen
von Zufallszahlen angesehen werden sollen. Diese Zufallszahlen haben den Vorteil, dass sie reproduzierbar sind, und haben den Nachteil, dass sie deterministischen Charakter besitzen. Alles,
was wir hier zur Sprechweise Zufallszahl“ sagen können, ist, dass jedenfalls kein Muster, keine
”
Struktur in der Folge erkennbar sein soll. Die Wahrscheinlichkeitstheorie und Statistik stellt
Hilfsmittel bereit, solche Folgen auf ihre Zufälligkeit zu testen.
Zunächst einige allgemeine Bemerkungen. Sei M eine endliche Menge. Pseudozufallszahlen,
deren Konstruktionsmethode wir hier besprechen wollen, ergeben sich als Iterierte einer Funktion
f : M −→ M
in folgender Weise:
xn+1 := f (xn ) , n ∈ N0 .
(4.7)
Der Startwert x0 heißt Samen der Pseudozufallsfolge (xn )n∈N die Folge selbst heißt auch Orbit
und die Funktion f heißt der Generator.
Die Folge ist durch die Wahl von f und x0 vollständig bestimmt; es handelt sich also um keine
echte Zufallsfolge. Durch geschickte Wahl von f – gewünscht wird eine gute Durchmischung von
M – kann man jedoch erreichen, dass sich die Folge für viele Anwendungen wie eine Zufallsfolge
verhält.
Da die Menge M endlich ist, können nicht alle Folgenglieder xn verschieden sein. Es gibt
also Indizes k, l mit xk = xl ; o. E. k > l . Seien k, l die ersten Indizes, für die dies eintritt.
Sei damit r := k − l . Da xk = xl gilt, folgt xn+r = xn für alle n ≥ l . Also wird der Orbit
(xn )n∈N periodisch mit Periode r ; wir haben einen Zyklus der Länge r . Verlangt man, dass
jedes Element der Menge M die Chance hat im Orbit aufzutauchen, muss der Zyklus ganz M
umfassen. Daraus folgt, dass die Abbildung f surjektiv sein muss. Da M endlich ist, hat f also
sogar bijektiv zu sein. Wir werden unten sehen, dass die Bijektivität keineswegs dafür schon
ausreicht, ein guter Generator zu sein.
Die Pseudozufallszahlengeneratoren, die wir hier besprechen wollen, sind ausschließlich affine
Generatoren; also
M := Zm ; f : Zm ∋ [x] 7−→ ([ax] + [b]) ∈ Zm ,
(4.8)
mit einem Modul m . Hier sind a.b ∈ Z .
Wir bezeichnen (4.8) auch als Kongruenz–Generator, denn Rechnen in Kongruenzen ist
nichts anderes als das Rechnen in Restklassen. Wir führen die zugehörige Schreibweise ein.
Mit u, v ∈ Z schreiben wir:
u=v
mod m : ⇐⇒ [u] = [v] ⇐⇒ m|(u − v) .
Damit lautet die Rechenvorschrift für den Kongruenz–Generator
M := {0, . . . , m − 1} ; f : M ∋ x 7−→ ax + b
59
mod m ∈ M .
(4.9)
Bemerkung 4.7.1 Durch die Generatoren in (4.8) werden Zufallszahlen in M := {0, 1, . . . , m−
1} erzeugt. Aus einer Zufallszahl y ∈ {0, . . . , m − 1} ergibt sich eine Zufallszahl z in [0, 1] ganz
y
einfach so: z := m .
Damit die Abbildung f aus (4.8) bijektiv wird, muss a ein invertierbares Element in Zm sein,
d.h. a muss zu m teilerfremd sein. Für die Klärung der Frage, unter welchen Bedingungen dieser
Typ von Generatoren einen Zyklus maximaler Länge erzeugt, schauen wir uns Beispiele an.
Beispiel 4.7.2 Betrachte die spezielle Wahl m = 10, a = b = 7 . Hier ist der erzeugte Zyklus
7, 6, 9, 0, 7, 6, 9, 0, . . .
ziemlich kurz, obwohl natürlich a = 7 ein invertierbares Element in Z10 ist.
Beispiel 4.7.3 Betrachte die spezielle Wahl m = 231 , a = 65539, b = 0 . Dies ist der Zufallsgenerator RANDU, wie er von IBM in den Computern in den 60er Jahren verwendet wurde.
Die maximal erreichbare Zykluslänge r ist hier nicht ganz maximal, aber mit r = 229 nahezu
maximal. Wir kommen später auf die Güte dieses Generators noch zu sprechen.
Hier ist das Hauptergebnis über affine Kongruenzgeneratoren.
Satz 4.7.4 Mit m, a, b ∈ Z, m ≥ 2 betrachte die Abbildung
f : {0, . . . , m − 1} ∋ x 7−→ ax + b
mod m ∈ {0, . . . , m − 1} .
(4.10)
Für beliebiges x0 ∈ {0, . . . , m − 1} sei die Folge (xn )n∈N definiert durch
xn+1 := f (xn ) , n ∈ N 0 .
Genau dann ist diese Folge periodisch mit der maximalen Periodenlänge m, wenn folgende Bedingungen erfüllt sind:
a) p|(a − 1) für alle Primteiler p von m ;
b) 4|(a − 1) falls 4|m ;
c) b und m sind teilerfremd.
Beweis:
Ohne Beweis; siehe [1].
Satz 4.7.4 nennt uns die Bedingungen für einen affinen Kongruenz–Generator, damit er der
Minimalforderung, einen Zyklus maximaler Länge zu erzeugen, genügt. Jedoch garantieren diese
Bedingungen noch lange keinen guten Zufallsgenerator, wie nachfolgendes Beispiel zeigt.
Beispiel 4.7.5 Betrachte für einen beliebigen Modul m den Generator f (x) := x + 1 mod m .
Kein Zweifel, die Zykluslänge ist maximal, nämlich m, aber die erzeugte Folge 0, 1, 2, . . . , m −
1, 0, 1 . . . kann sicherlich nicht den Anspruch einer Zufallsfolge erheben.
In der Praxis wird häufig ein Modul der Form m = 2k verwendet (und dazu in der Regel der
√
√
Multiplikator a im Bereich m < a < m − m). In diesem Fall bedeuten die Bedingungen des
Satzes 4.7.4 einfach
a = 1 mod 4 und b ungerade .
(4.11)
Im Beispiel 4.7.3 sind diese Bedingungen offenbar verletzt (a = 216 + 3 und b = 0) und Konsequenz ist ein verkürzter maximaler Zyklus.
60
Beispiel 4.7.6 In der Programmiersprache C++ gibt es einen Generator namens drand48:
Modul = 248 , a = 25214903917 , b = 11 .
Die Zykluslänge ist maximal, da die Bedingungen (4.11) erfült sind.
Beispiel 4.7.7 Von D. Knuth wurde der Generator
Modul = 216 , a = 137 , b = 187
vorgeschlagen. Die Zykluslänge ist maximal, da die Bedingungen (4.11) erfüllt sind.
Beispiel 4.7.8 Ein weiterer Generator:
Modul = 216 , a = 193 , b = 73 .
Die Zykluslänge ist maximal, da die Bedingungen (4.11) erfüllt sind.
Wie soll man nun gute und weniger gute Generatoren auseinanderhalten? Es liegt nahe, Paare,
Trippel,. . . von Zufallszahlen zu betrachten und deren geometrische Verteilung zu untersuchen.
Wir skalieren“ dazu die Zufallszahlen mit Modul m gemäß
”
X i :=
xi
∈ [0, 1] , i ∈ N0 .
m
Vergleichen wir die geometrische Verteilung der Paare (X i+1 , X i ) in [0, 1]×[0, 1] für die Generatoren aus Beispiel 4.7.7 und Beispiel 4.7.8. Man kann Geraden entdecken, worauf alle Zufallszahlen
liegen, 21 im ersten Fall, 8 im zweiten Fall; die Streifen dazwischen sind frei von den erzeugten
Zufallspaaren. Der maximale Abstand von solchen Streifen ist bei beiden Generatoren dement1
bei Beispiel 4.7.7, √132 bei Beispiel 4.7.8. Dies bedeutet,
sprechend ziemlich verschieden: √274
dass der Generator 4.7.7 größeres Vertrauen genießen sollte.
Betrachtet man für den Generator 4.7.3 Tripel (X i+2 , X i+1 , X i ) in [0, 1] × [0, 1] × [0, 1], so stellt
1
haben.
man fest, dass diese Tripel auf genau 15 Ebenen liegen, die jeweils einen Abstand √118
Neben der mangelnden Maximalität der Zykluslänge ein weiterer Nachteil dieses Generators.
4.8
Übungen
1.)
Bestimme ganze Zahlen x, y, z mit 252x + 420y + 315z = 42 .
2.)
Betrachte die Zahlen
H := {3j + 1|j ∈ N} .
Bestimme in dieser Menge nichtzerlegbare Elemente. Bestimme in dieser Menge eine Art
Primfaktorzerlegung von 100. Ist diese eindeutig bestimmt?
3.)
Was lässt sich über die Güte eines affinen Zufallsgenerators mit m = 231 , a = 75 , b = 0
sagen?
4.)
Seien x, y ∈ Z . Zeige: x mod y = x − y⌊ xy ⌋ .
5.)
Betrachte die Fibonacci-Zahlen (fn )n∈N , die induktiv so definiert sind:
f1 := 1, f2 := 1, fn+1 := fn + fn−1 , n ∈ N, n ≥ 2 .
(a)
Zeige: fm |fmk , k ∈ N, für alle m ∈ N (durch vollständige Induktion).
61
(b) Folgere aus (a): m|n =⇒ fm |fn .
Betrachte die Fibonacci-Zahlen (fn )n∈N , die induktiv so definiert sind:
f1 := 1, f2 := 1, fn+1 := fn + fn−1 , n ∈ N, n ≥ 2 .
(a)
Zeige für n ≥ 2 : Ist d ein Teiler von fn+1 und fn so ist d ein Teiler von fn−1 .
(b) Folgere mit (a): ggT(fn+1 , fn ) = 1 für jedes n ∈ N .
6.)
Seien x, y ∈ Z\{0}, d := ggT(x, y), und seien u0 , v0 ∈ Z mit u0 x + v0 y = d .
Zeige: Ist (u, v) ∈ Z × Z und gilt ux + vy = d , dann gibt es w ∈ Z mit
u = u0 + wy/d , v = v0 − wx/d .
62
Kapitel 5
(Diskreter) Zufall
Stochastik beschäftigt sich mit der mathematischen Beschreibung und Analyse zufälliger Vorgänge. Den Sammelbegriff Stochastik hat Platon verwendet, um damit die Fähigkeit des geschickten
Vermutens zu beschreiben. Vermutungen“ beziehen sich auf versteckte Gesetzmäßigkeiten in
”
Beobachtungen. Davon ist Stochastik als Sammelbegriff für Wahrscheinlichkeitstheorie und (mathematische) Statistik übernommen. In diesem einführenden Kapitel über den Zufall stellen
wir elementare Fragestellungen vor und erläutern sie an Hand von interessanten Problemstellungen. Im Blickpunkt stehen die Begriffe (Laplace-)Wahrscheinlichkeit, Zufallsbäume, bedingte
Wahrscheinlichkeiten.
5.1
Laplace–Häufigkeiten
Wie reden wir über den Zufall? Wir wollen uns nicht lange dabei aufhalten. Mögliche Defini”
tionsschnipsel“:
Zufall ist das Eintreten unvorhergesehener und unbeabsichtigter Ereignisse.
Das, wobei unsere Rechnungen versagen, nennen wir Zufall (Albert Einstein).
Jemandem fällt etwas (unverdientermaßen) zu.
Die Spannung bei der Verwendung des Zufalls resultiert wesentlich aus der naturwissenschaftlichen Sicht vom Eintreten von Ereignissen: das Kausalitätsprinzip lässt Nicht–Determiniertes“
”
nicht zu. Ein Ausweg ist, dass wir unterstellen, die Umstände (Anfangsbedingungen) des Greifens von naturwissenschaftlichen Gesetzen nicht vollständig kennen zu können.
Beispiele für das Wirken von Zufall“:
”
• Ergebnis beim Münzwurf
• Eintreten von Augenzahlen beim Würfeln
• Radioaktiver Zerfall
• Gesund trifft auf krank in der U-Bahn
• Männlicher oder weiblicher Nachwuchs
Nun gehen wir daran, das Nichtwissenkönnen des Ausgangs eines Zufallsexperiments zu quantifizieren: Jedem Ereignis soll eine Zahl aus [0, 1] zugeordnet werden, die uns gestattet, die Unsicherheit über den Ausgang anzugeben: 1 sollte für Sicherheit, 0 für vollständige Unsicherheit
stehen. Wir tun dies nun in einer einfachen Situation, nämlich in einer Situation, in der alle Elementarereignisse, was die Unsicherheit über ihr Eintreten betrifft, gleichberechtigt sind.
Dazu führen wir die Begriffe Laplace–Experiment und Laplace–Wahrscheinlichkeit ein.
63
Der Begriff der Laplace–Wahrscheinlichkeit hat den Vorteil, dass ihm die Vorstellung eines konstruktiven Vorgehens zugrunde liegt, nämlich die Vorstellung von der rein zufälligen Wahl“. Wir
”
stellen uns hierunter vor, dass es gelingt, aus einer endlichen Menge von möglichen Elementarereignissen ein Element so auszuwählen, dass jedes Element diesselbe Chance hat, ausgewählt
zu werden. Einen Mechanismus, der eine solche Zufallswahl bewerkstelligt, nennen wir einen
Laplace–Mechanismus. Ein beliebtes Bild von einem Laplace–Mechanismus ist das Urnenmodell (ein Gefäß, in dem Gegenstände versteckt“ werden, die man dann herausholen kann)
”
eine weitere Vorstellung von einem Laplace–Mechanismus ist der Würfelwurf.
Definition 5.1.1 Sei Ω eine endliche Menge. Für jede Teilmenge A von Ω ist die Laplace–
Wahrscheinlichkeit definiert durch
P (A) :=
#A
.
#Ω
Man nennt P (A) die Wahrscheinlichkeit, dass ein (rein zufällig ausgewähltes) Element ω ∈ Ω
in A liegt. Die Abbildung
P : P OT (Ω) ∋ A 7−→ P (A) ∈ R
heißt (auch) Laplace–Wahrscheinlichkeit.
Das Tripel (Ω, P OT (Ω), P ) nennen wir (in Anlehnung an den allgemeinen Fall in der Wahrscheinlichkeitstheorie) einen (Laplace-)Wahrscheinlichkeitsraum.
Bemerkung 5.1.2 Die Konzepte einer Wahrscheinlichkeitstheorie mit einem unendlichen Ereignisraum Ω wurden abschließend ausformuliert von Kolmogorov1 . Sie passen zu unserem Herangehen für einen endlichen Ereignisraum. Im folgenden lassen wir das Vorwort Laplace“ meist
”
weg.
Die Wahrscheinlichkeitstheorie für unendliche Ereignisräume ist ein ganzes Stück schwieriger.2 Ein prominentes Beispiel für die Wahrscheinlichkeitstheorie unendlicher Ereignisräume ist
die Modellierung von Finanzinstrumenten, basierenden auf dem Aktienkurs.
In unserer Bezeichnung eines Wahrscheinlichkeitsraumes durch (Ω, P OT (Ω), P ) ist nicht einzusehen, warum wir P OT (Ω) mitaufgeschrieben haben. Dies geschieht, um anzudeuten, dass
im Fall eines unendlichen Ereignisraumes im Allgemeinen eine ausgezeichnete Teilmenge (σAlgebra) von P OT (Ω) einzutragen ist.
Es ist nun offensichtlich, dass bei der Berechnung von Laplace–Wahrscheinlichkeiten das
Einmaleins der Kombinatorik“ äußerst hilfreich ist; siehe Abschnitt 5.5.
”
Beispiel 5.1.3 Den Münzwurf (mit einer fairen Münze) betrachten wir als Laplace–Mechanismus.
Hier ist
1
Ω = {K, Z} ; P ({K}) = P ({Z}) = .
2
Beim Würfelexperiment (mit einem fairen Würfel), betrachtet als Laplace–Mechanismus, haben
wir
1
Ω = {1, . . . , 6} ; P ({i}) = , 1 ≤ i ≤ 6.
6
1
A.N. Kolmogorov, 1903-1987
Man macht sich dies etwa klar an der Frage, wie man die zufällige Situation beim Dartspiel handhaben soll.
Es kommt hier die geometrische Anschauung von Wahrscheinlichkeit ins Spiel, nämlich das Verhältnis der Fläche
von Ringsektoren zur Fläche der Dartsscheibe. Mit der Einteilung von Sektoren ist man der Unendlichkeit von
möglichen unterschiedlichen Treffpunkten aus dem Weg gegangen.
2
64
Für das zusammengesetzte“ Ereignis A := {1, 2, 3} errechnen wir P (A) = 21 .
”
Beim Würfeln mit zwei (fairen) Würfeln, betrachtet als Laplace–Experiment, haben wir:
Ω = {(i, j) ∈ N × N|1 ≤ i, j ≤ 6} ; P ((i, j)) =
1
, 1 ≤ i, j ≤ 6 .
36
Daraus errechnet sich:
P (A) =
P (A) =
6
1
=
für A := {(i, j) ∈ Ω|i + j ≥ 10},
36
6
5
15
=
für A := {(i, j) ∈ Ω|i > j}.
36
12
Für das zusammengesetzte Ereignis
A := {(i, j) ∈ N × N|i = 1 oder (i ≥ 4 und j = 1) oder (i ≥ 4 und j ≥ 4)}
ist die Laplace–Wahrscheinlichkeit schon etwas mühsam auszurechnen. Sie ist
13
36 .
Bemerkung 5.1.4 Beachte, dass ein Laplace–Experiment ein Modell für eine konkrete reale
Situation ist. Unsere Definition der Laplace–Wahrscheinlichkeit ist innerhalb dieses Modells
gegeben und nicht für die reale Situation. Der Übergang von der Wirklichkeit zum Modell ist in
den hier exemplarisch betrachteten Fällen meist naheliegend, in allgemeineren Situationen ( Wie
”
wahrscheinlich ist ein Supergau in einem russischen Kernkraftwerk“/ Wie wahrscheinlich ist es,
”
dass auf einem Stern der Milchstraße Leben existiert“) ist dieser sicher sehr viel schwieriger zu
vollziehen.
In der Bemerkung 5.1.4 haben wir den Begriff Modell erwähnt. Nehmen wir hier die Gelegenheit wahr, den Begriff schon mal zu beleuchten.
. . . Deshalb vertrete ich die Auffassung, die man als schlicht oder naiv bezeichnet hat, dass
eine physikalische Theorie nur ein mathematisches Modell ist, mit dessen Hilfe wir die Ergebnisse unserer Beobachtungen beschreiben. Eine Theorie ist eine gute Theorie, wenn sie
ein elegantes Modell ist, wenn sie eine umfassende Klasse von Beobachtungen beschreibt und
wenn sie die Ergebnisse weiterer Beobachtungen vorhersagt. Darüber hinaus hat es keinen
Sinn zu fragen, ob sie mit der Wirklichkeit übereinstimmt, weil wir nicht wissen, welche
Wirklichkeit gemeint ist.
. . . Es hat keinen Zweck, sich auf die Wirklichkeit zu berufen, weil wir kein modellunabhängiges Konzept der Wirklichkeit besitzen.3
Legen wir uns nun einige einfache Aussagen zurecht.
Folgerung 5.1.5 Sei Ω eine endliche Menge. Wir haben zur Laplace–Wahrscheinlichkeit
P : P OT (Ω) ∋ A 7−→
#A
∈R
#Ω
die folgenden Aussagen:
(a) P (A) ∈ [0, 1] ∩ Q für alle A ⊂ Ω.
(b) P ({x}) = 1 für alle x ∈ Ω.
#Ω
(c) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) für alle A, B ∈ P OT (Ω).
3
Aus: St. W. Hawkin, Einsteins Traum, Rowohlt, 1993
65
(d) P (Ω\A) = 1 − P (A) für alle A ⊂ Ω.
(e) P (∅) = 0.
Beweis:
(a) und (b) sind trivial. Die Aussage (c) ist einfach einzusehen. Damit sind nun auch (d) und
(e) klar.
In einer Urne liegen drei schwarze Kugeln und eine weiße Kugel. Auf gut Glück werden
zwei Kugeln der Urne entnommen. Welche Wahrscheinlichkeit ist größer, zwei schwarze Kugeln
oder eine weiße und eine schwarze Kugel herauszunehmen? Man ist auf Grund der Tatsache,
dass dreimal soviele schwarze wie weiße Kugeln in der Urne liegen zu vermuten, dass die erste
Möglichkeit wahrscheinlicher ist. Dem ist aber nicht so, denn es gibt drei Möglichkeiten, zwei
schwarze Kugeln herauszunehmen und drei Möglichkeiten eine schwarze und eine weiße Kugel
herauszunehmen. Es lässt sich das auch rechnerisch begründen:
Wahrscheinlichkeit für das Ziehen zweier schwarzer Kugeln
Wahrscheinlichkeit für das Ziehen einer weißen und einer schwarzer Kugel
3
4
1
4
2
1
=
3
2
3 1
1
·1+ · = .
4 3
2
·
Betrachten wir ein Würfelexperiment und nennen wir es das Augensummenparadoxon.
G.W. Leibniz soll sich bei der Analyse dieses Experimentes einen kleinen Schnitzer erlaubt
haben:
Es sei ihm unbegreiflich, wie ihm erfahrene Würfelspieler versicherten, warum bei zwei
”
Würfeln die Augensumme 9 wahrscheinlicher sei als die Augensumme 10, aber bei drei
Würfeln die Augensumme 10 wahrscheinlicher als die Augensumme 9. Denn schließlich könne
die Summe 9 wie die Summe 10 in beiden Fällen auf gleich viele Arten anfallen, also müßten
die Augensummen in beiden Fällen gleich wahrscheinlich sein.“.
Wir betrachten dieses Würfeln mit zwei Würfeln als Laplace–Experiment. Wir unterstellen damit, dass die Würfel unterscheidbar sind und es einen ersten und einen zweiten Würfel gibt. Wir
haben
Ω = {(i, j) ∈ N × N|1 ≤ i, j ≤ 6},
und interessieren uns also für die Laplace–Wahrscheinlichkeiten der Ereignisse
A9 := {(i, j) ∈ Ω|i + j = 9} , A10 := {(i, j) ∈ Ω|i + j = 10} .
Wir haben dazu A9 , A10 abzuzählen. Es gilt
A9 = {(3, 6), (6, 3), (4, 5), (5, 4)} , A10 = {(4, 6), (6, 4), (5, 5)} .
und daher
1
3
1
4
= , P (A10 ) =
=
36
9
36
12
Bei drei Würfeln zeigt eine einfache Aufzählung (bei entsprechender Bezeichnung)
P (A9 ) =
24
19
, P (A10 ) =
.
216
216
Leibniz hat übersehen, dass die Reihenfolge der Summanden hier wichtig ist. Modelliert man
das Experiment mit zwei ununterscheidbaren Würfeln, dann hat man statt 36 Möglichkeiten
nur noch 21 mögliche Ausgänge, aber kein Laplace–Experiment mehr, da etwa die Ausgänge
1–1 und 1–2 verschiedene Wahrscheinlichkeiten haben.
P (A9 ) =
Der Fehler, der hier Leibniz unterlaufen ist, ist Basis für einen Jahrmarkttrick, der nach J.
Bertrand Bertrandsches Schachtelparadoxon genannt wird:
66
Drei nicht unterscheidbare Schachteln enthalten zwei Goldmünzen (1. Schachtel),
zwei Silbermünzen (2. Schachtel) und eine je eine Gold- und eine Silbermünze (3.
Schachtel). Jetzt entnimmt man einer Schachtel eine Münze. Der Veranstalter des
Spiels bietet nun eine Wette an: Die zweite Münze in der Schachtel ist aus demselben
Metall!
Man ist versucht, zu vermuten, dass die Wette fair ist, da man geneigt ist, zu vermuten, dass die
Beschaffenheit der zweiten Münze gleichwahrscheinlich ist. Dies ist nicht der Fall. Analysieren wir
die Situation, dass G(old) gezogen wurde. Wir vermuten richtig, dass nicht aus der Schachtel mit
den zwei Silbermünzen gezogen wurde und schließen daraus irrig, dass mit Wahrscheinlichkeit
1
2 beide Münzen in der Schachtel, aus der gezogen wurde, aus Gold sind. In Wahrheit sind mit
einer Wahrscheinlichkeit von 32 beide Münzen aus Gold, weil in zwei von 3 Fällen die beiden
Münzen in der Schachtel aus Gold sind.
Betrachten wir nun das Geburtstags–Pardoxon. Für eine Gruppe von n Personen ist die
Wahrscheinlichkeit“ zu ermitteln, dass mindestens ein Paar unter diesen Personen existiert, das
”
am gleichen Jahrestag Geburtstag hat. Wir nehmen an:
• Das Jahr wird mit 365 Tagen angesetzt, wir sehen also vom Auftreten von Schaltjahren ab.
• Geburtstage sind über die Jahrestage gleichverteilt.
Damit liegt ein Laplace–Experiment vor und jede Person hat mit
einem bestimmten Jahrestag Geburtstag. Wir setzen
1
365
Wahrscheinlichkeit an
Ω := {(ω1 , . . . , ωn ) ∈ Nn |1 ≤ ωi ≤ 365, 1 ≤ i ≤ n}.
Das zu betrachtende Ereignis ist
A := {(ω1 , . . . , ωn ) ∈ Ω|ωi = ωj für mindestens ein Paar (i, j), i 6= j}
und die gesuchte Wahrscheinlichkeit ist
Pn∗ :=
#A
365n
Betrachten wir zunächst einige Spezialfälle.
n ≥ 365
n=2
Pn∗ = 1 .
Die erste Person hat freie Auswahl, für die zweite Person ist die Wahrscheinlichkeit, am gleichen Tag wie die erste Person Geburtstag zu ha1
. Also
ben, 365
1
Pn∗ =
365
n=3
Die erste Person hat freie Auswahl, die zweite Person hat einen ver364
, die dritte Person
schiedenen Geburtstag mit Wahrscheinlichkeit 365
wiederum einen von den beiden Tagen verschiedenen Geburtstag mit
Wahrscheinlichkeit 363
365 . Also gilt
Pn∗ = 1 −
365 364 363
·
·
≈ 0, 009
365 365 365
Am Beispiel n = 3 sehen wir zweierlei. Erstens wird das günstige Vorgehen deutlich: Statt
Pn∗ haben wir zunächst die Wahrscheinlichkeit ausgerechnet, dass das Ereignis nicht eintritt.
67
Zweitens sehen wir einen multiplikativen Ansatz für zusammengesetzte Ereignisse. Wir kommen
darauf zurück.
Für den allgemeinen Fall erhalten wir
Pn∗ = 1 −
365!
(365 − n)!365n
und damit die Ergebnisse aus Tabelle 5.1. Wir sehen also, dass bei einer Gruppengrößen von
23 Personen die Wahrscheinlichkeit, dass darunter ein Paar mit gleichem Geburtstag ist, bereits
größer als 12 ist.
Die Annahme über das Schaltjahr beeinflußt die obigen Ergebnisse nur unwesentlich, etwa
bleibt es bei der Aussage bezüglich der Gruppengröße n = 23. Die Annahme über die Gleichverteilung der Geburtstage ist auch kein Einwand zur Qualität der obigen Ergebnisse, denn
die Wahrscheinlichkeiten werden eher größer; man mache sich dies etwa daran klar, dass alle
Personen an einem bestimmten Tag Geburtstag haben.
Die Überraschung ist: ein Ereignis, dessen Eintreten für uns als Individuum
höchst unwahrscheinlich ist, ist für ein
20
22
23
30
40
50
ne Gruppe bei weitem nicht mehr un∗
Pn 0,411 0,476 0,507 0,706 0,891 0,970
wahrscheinlich. Der Grund ist der, dass
wir nicht auf einen bestimmten Ge”
Abbildung 5.1: Zum Geburtstagsproblem
burtstagszwilling“ warten, sondern auf
irgendeinen.
Nun wollen wir uns von der Einschränkung lösen, dass jedes Elementarereignis die gleiche
Wahrscheinlichkeit für sein Eintreten besitzt.
Definition 5.1.6 Sei Ω eine endliche Menge. Eine Abbildung
P : POT(Ω) ∋ A 7−→ P (A) ∈ [0, 1]
heißt Wahrscheinlichkeitsmaß auf Ω, falls gilt:
(a) P (Ω) = 1 , P (∅) = 0
(b)
P (A ∪ B) = P (A) + P (B) falls A ∩ B = ∅ .
Ist P ein Wahrscheinlichkeitsmaß auf Ω, dann heißt (Ω, POT(Ω), P ) ein Wahrscheinlichkeitsraum.
Es ist offensichtlich, dass Laplace-Wahrscheinlichkeiten einen Wahrscheinlichkeitsraum implizieren.
5.2
Zufallsbäume
Häufig ist es zweckmäßig, mehrere Zufallsversuche zu einem einzigen, einem mehrstufigen
Zufallsversuch, zusammenzufassen Als Ausgang eines Experiments betrachtet man bei einem
n-stufigen Zufallsversuch dann das n-Tupel (x1 , . . . , xn ), wobei xi der Ausgang des i-ten Versuchs
ist. Veranschaulichen kann man sich einen solchen Zufallsversuch durch einen Wurzelbaum. Wurzelbäume – und damit auch Zufallsbäume – sind Spezialfälle von Graphen, nämlich solchen, die
in den Verzweigungen einem realen Baum ähneln: ein realer Baum hat eine Wurzel, er verzweigt
von unten nach oben in Äste und Zweige, endet in Blättern, Äste und Zweige verwachsen aber
nicht miteinander. Man sagt, auf Graphen übertragen, es entsteht kein Kreis, wie dies etwa beim
68
Haus vom Nikolaus zutrifft, das 5 Ecken (◦) und 8 Kanten (—) besitzt;4 siehe Abbildung 5.2.
Damit sind schon die Grundbausteine der Graphentheorie angesprochen, die wir nun skizzieren
wollen.5
Definition 5.2.1 Ein Graph G = G(E, K) besteht aus einem Paar (E, K), wobei E eine
endliche, nichtleere Menge von Ecken und K eine endliche Menge von Kanten ist, und einer Vorschrift, die jeder Kante k ∈ K genau zwei (verschiedene oder gleiche) Ecken a, b ∈ E
zuordnet, die wir Endecken von k nennen; ist a = b, so nennen wir k eine Schlinge bei a. Im englischen Sprachgebrauch spricht man bei Kanten von vertices oder nodes und bei Kanten
von edges. Daher ist in der Literatur auch G = G(V, E) zu finden.
Ist G = G(E, K) ein Graph, so sagen wir, dass
k ∈ K die Ecken a und b verbindet, wenn a, b Endecken von k sind; oft schreiben wir dafür k = {a, b}
oder kurz k = ab . Ecken, die durch eine Kante verbunden sind, nennen wir benachbart. Eine Ecke, die zu
keiner Kante Endecke ist, nennen wir isoliert. Sind
zwei Ecken durch Kanten k1 , k2 , . . . , kn , n ≥ 2, verbunden, so heißen die Kanten k1 , . . . , kn Mehrfachkanten. Im Allgemeinen werden nur einfache Graphen betrachtet, also solche, die weder Schlingen, also
Kanten , die eine Ecke mit sich selbst verbinden, noch
Mehrfachkanten besitzten.
Einen Graph veranschaulicht man sich am besten Abbildung 5.2: Das Haus vom Nikolaus
durch ein Diagramm, indem man die Ecken als Punkte
der (Zeichen–)Ebene und die Kanten als Kurven zwischen den Endpunkten zeichnet; hier wird die zweistellige Relation, die abstraktes Kernstück
eines Graphen ist, deutlich. Dadurch ist auch die Bezeichnung Graph“ erklärt: das Ecken–
”
Kanten–System erinnert an graphische Darstellungen
Definition 5.2.2 Sei G(E, K) ein Graph. Eine Ecke e hat Grad d = d(e), wenn die Anzahl der
Kanten, die e als Endecke haben, d ist. Eine Ecke e mit d(e) = 1 heißt Blatt.
Lemma 5.2.3 (Handschlaglemma) Sei G = G(E, K) ein Graph. Dann gilt:
X
2 #K =
d(v) .
v∈E
Beweis:
Wir zählen die Paare (v, k), v ∈ E, k ∈ K, ab, für die v Endecke von k ist. Da jede Kante genau
2 Endecken hat, ist die Anzahl einerseits 2k, andererseits trägt jede Ecke v ∈ E mit d(v) zu
dieser Anzahl bei.
In einem Graphen kann man Wege entlang von Kanten, ausgehend von einer Anfangsecke zu
einer Endecke betrachten.
Definition 5.2.4 Sei G(E, K) ein Graph.
4
Es kann im Rythmus von Dies ist das Haus vom Ni–ko–laus in einem Zug auf das Papier gezaubert werden,
ohne zweimal eine Kante nachziehen zu müssen.
5
Als Geburtsstunde der Graphentheorie kann die Lösung des Königsberger Brückenproblems durch L. Euler
angesehen werden.
69
(a) Sind v0 , v1 , . . . , vl ∈ E, so dass vi mit vi+1 für jedes i = 0, . . . , l − 1 verbunden ist, so
nennen wir W := [v0 , . . . , vl ] einen Kantenzug von v0 nach vl .
(b) Ein Kantenzug W = [v0 , . . . , vl ] heißt Weg der Länge l, falls alle zugehörigen Kanten
vi vi+1 paarweise verschieden sind.
(c) Ein Weg W = [v0 , . . . , vl ] heißt Kreis, falls v0 = vl gilt.
Definition 5.2.5 Ein Graph G(E, K) heißt zusammenhängend, wenn je zwei Ecken durch
einen Kantenzug verbindbar sind.
Definition 5.2.6 Ein Graph heißt Baum, wenn er zusammenhängend ist und keine Kreise
enthält.
In der Informatik werden Bäume häufig als Datenstruktur eingesetzt, in der Modellierung
von Alltagsproblemen findet man sie als Entscheidungshilfen. Bäume lassen sich ziemlich einfach
charakterisieren.
Satz 5.2.7 Sei G ein Graph mit n Ecken. Es sind äquivalent:
(a) G ist ein Baum.
(b)
Je zwei Ecken des Graphen sind durch genau einen Weg verbunden.
(c)
G ist zusammenhängend, aber für jede Kante k von G ist der Graph G′ := G(E, K\{k})
nicht zusammenhängend.
(d) G ist zusammenhängend und besitzt genau n − 1 Kanten.
(e)
G besitzt keinen Kreis und besitzt genau n − 1 Kanten.
Beweis:
Wir beweisen nicht alle Implikationen.
a) =⇒ b).
Da ein Baum zusammenhängend ist, gibt es stets einen Weg, der zwei beliebige Ecken verbindet. Annahme, es gibt mindestens zwei Wege, die ein gegebenes Paar e, e′ von Ecken verbindet.
Wenn beide Wege keine Kante gemeinsam haben, bilden sie einen Kreis: wir laufen den einen
Weg von e nach e′ und laufen nun den zweiten Weg von e′ nach e . Enthalten die beiden Wege
eine gemeinsame Kante, dann finden wir wieder einen Kreis, denn die beiden Wege treffen sich
nun in einer Ecke e′′ , die beide Wege gemeinsam haben. In jedem Falle haben wir, dass der
Graph einen Kreis enthält. Widerspruch!
b) =⇒ c).
Es ist klar, dass G zusammenhängend ist. Sei k = uv eine Kante mit Endecken u, v . Dann ist
[u, v] der einzige Weg, der u, v verbindet; in G′ := G(E, K\{k}) können also u, v nicht durch
einen Weg verbunden sein. Also kann G′ nicht zusammenhängend sein.
c) =⇒ d).
Auf Graphen kennen wir die Äquivalenzklassen der Zusammenhangskomponenten; siehe oben.
Der zusammenhängende Graph G hat eine Zusammenhangskomponente. Nimmt man eine Kante {k} weg, entsteht ein Graph G′ := G(E, K\{k}), der zwei Zusammenhangskomponenten hat.
Nach Wegnahme aller Kanten hat der entstandene Graph keine Kante mehr und daher n Zusammenhangskomponenten. Also muss es n − 1 Kanten im Graphen geben.
70
Ein Wurzelbaum B = B(E, K, w) ist ein Baum
im üblichen Sinn zusammen mit einer ausgezeichneten
Ecke w ∈ E , der Wurzel von B . Da wir wissen, dass
I
in einem Baum genau ein Weg W = W (u, v) von einer Ecke u ∈ E nach v ∈ E existiert, können wir die
II
folgende Sprechweise einführen: x ∈ E ist Vorgänger
von v ∈ E bzw. Nachfolger von u ∈ E, falls x Ecke
III
im Weg W (u, v) ist. Die Ecken ohne Nachfolger, also
die Ecken vom Grad 1, heißen Endecken des Baumes oder Blätter, die übrigen Ecken innere Ecken.
Abbildung 5.3: Würfelexperiment
x ∈ E ist unmittelbarer Vorgänger von v ∈ E, falls
x Vorgänger von v und Nachbarecke von v ist; analog ist unmittelbarer Nachfolger von u ∈ E
erklärt. Die Länge l(y) einer Ecke y im Wurzelbaum B ist die Länge des (eindeutig bestimmten)
Weges W (w, y) von der Wurzel w zu y . Damit ist auch die Länge L = L(B) eines Wurzelbaums
B erklärt:
L(B) := max l(y) .
y∈E
Die Wurzel ist also die einzige Ecke, die keinen Vorgänger hat und die die Länge Null hat.
Binäre Bäume sind Wurzelbäume, in denen jede Ecke höchstens zwei unmittelbare Nachfolger
hat; man kann dann von linken und rechten Nachbarn sprechen.
Kehren wir zur Modellierung“ von Zufallssi1. Zug Ereignis Wahrscheinlichkeit
”
tuationen mittels Wurzelbäumen zurück.
1
rot
4
Jeder Versuch wird mit einer Ecke gleichge2. Zug Ereignis Wahrscheinlichkeit
setzt und so aufgezeichnet. Eine Kante von ei2
ner Ecke zu einer anderen wird als Fortschreirot
5
3
ten von einem Versuch zum nächsten notiert.
schwarz
5
Jedem Ausgang (x1 , . . . , xn ) eines mehrstufigen
1. Zug Ereignis Wahrscheinlichkeit
Versuchs entspricht dann ein Weg der Länge n
3
in einem zugehörigen Baum – wir sprechen von
schwarz
4
einem Zufallsbaum – ausgehend von einer Wur2. Zug Ereignis Wahrscheinlichkeit
zel, an der die Wege angehängt“ sind; Jede Kan1
”
rot
te trägt dann auch noch ein Kantengewicht“,
5
4
”
schwarz
nämlich die Wahrscheinlichkeit, mit der von ei5
ner Stufe zur nächsten entlang dieser Kante fortgeschritten wird. Im Beispiel 5.3 sollten wir jeAbbildung 5.4: Urnenexperiment
de Kante mit der Wahrscheinlichkeit 12 versehen,
wenn die Münze als fair angesehen werden soll,
jeder Ausgang des Experiments hat also die Wahrscheinlichkeit 18 und da wir 8 Blätter haben,
summieren sie sich zu 1 auf. Die nebenstehende Abbildung 5.3 beschreibt das dreimalige Werfen
einer Münze. .
Machen wir ein nicht auf Anhieb zu durchschauendes Urnenexperiment.
Eine Urne enthalte eine rote und drei schwarze Kugeln. Es werden zufällig eine
Kugel gezogen, ihre Farbe notiert und anschließend diese sowie eine weitere Kugel
der gleichen Farbe in die Urne zurückgelegt. Nach gutem Mischen“ wird wiederum
”
eine Kugel gezogen. Mit welcher Wahrscheinlichkeit ist diese Kugel rot?
Symbolisieren wir das Ziehen einer roten (schwarzen) Kugel mit 1“ (bzw. 0“), so ist Ω :=
”
”
Ω1 × Ω2 mit Ω1 := Ω2 := {0, 1} ein geeigneter Grundraum für dieses zweistufiges Experiment,
71
wobei sich das interessierende Ereignis die beim zweiten Mal gezogene Kugel ist “ formal als
”
B := {(1, 1), (0, 1)}
darstellt. Die Wahrscheinlichkeit p eines Ereignisses (a1 , a2 ) ∈ Ω können wir uns aus dem Konzept der Laplace-Wahrscheinlichkeit entnehmen. Wir können also auf Grund der Tabelle 5.4
erwarten:
p((1, 1)) =
p((0, 1)) =
p((1, 0)) =
p((0, 0)) =
1
4
3
4
1
4
3
4
2
,
5
1
· ,
5
3
· ,
5
4
· .
5
·
(5.1)
(5.2)
(5.3)
(5.4)
Offenbar ist der Faktor 41 in (5.1) die Wahrscheinlichkeit dafür, dass das erste Teilexperiment
den Ausgang rot“ besitzt. Der zweite Faktor 25 in (5.1) ist die Wahrscheinlichkeit, welche wir
”
auf Grund der Kenntnis des Ausgangs des ersten Teilexperiments festlegen konnten. Da diese
Wahrscheinlichkeit etwas mit dem Übergang vom ersten zum zweiten Teilexperiment“ zu tun
”
hat, nennt man sie eine Übergangswahrscheinlichkeit; analog sind die anderen Fälle zu
betrachten. Im nächsten Abschnitt werden wir uns etwas systematischer damit befassen; das
Stichwort ist Bedingte Wahrscheinlichkeit“.
”
Das beigefügte Baumdiagramm 5.5 veranschaulicht die Situation. Die Wahrscheinlichkeit p∗ für
das Eintreten des gewünschten Ereignisses B ist:
p∗ := p((1, 1)) + p((0, 1)) =
1 2 3 1
1
· + · = .
4 5 4 5
4
1/4
2/5
3/5
3/4
1/5
4/5
Dieses Ergebnis ist auf folgendem Wege auch ein2/20
3/20
3/20
12/20
zusehen:
Nach dem ersten Zug sind in der Urne 1 rote und
4 schwarze Kugeln ( normale Kugeln“) und eiAbbildung 5.5: Urnenexperiment
”
ne Zauberkugel“, von der wir – in Unkenntnis
”
der ersten Ziehung – nicht wissen, ob sie rot oder
schwarz ist; sie ist rot mit Wahrscheinlichkeit 41 . Wenn wir nun den zweiten Zug ausführen,
ziehen wir mit Wahrscheinlichkeit 41 eine rote Kugel, wenn wir nur unter den normalen Kugeln
ziehen, mit 41 eine rote Zauberkugel; also in jedem Falle mit Wahrscheinlichkeit 14 eine rote
Kugel.
5.3
Bedingte Wahrscheinlichkeiten
Häufig steht, bevor der Ausgang eines Zufalls–Experiments bekannt ist, schon die Information
zur Verfügung, dass der Ausgang zu einer bestimmten (möglicherweise eingeforderten) Teilmenge
des Ereignisraumes gehört. Was lässt sich dann über Wahrscheinlichkeiten sagen? Diese Fragestellung wollen wir nun untersuchen.
Zur Motivation des Folgenden greifen wir auf den Begriff der relativen Häufigkeiten zurück.
Sei V ein Zufallsexperiment mit zugehörigem Wahrscheinlichkeitsraum (Ω, POT(Ω), P ). Seien
A, B Ereignisse in (Ω, POT(Ω), P ) . Der Versuch V werde nun n–mal (unabhängig) wiederholt,
72
d.h.: in jedem Versuch werden stets die gleichen physikalischen Voraussetzungen“ für den Ver”
suchsablauf geschaffen/bereitgestellt. Die relativen Häufigkeiten von A unter der Bedingung B
sind dann definiert durch
hn (A|B) :=
n#{ Es tritt A ∩ B ein }
hn (A ∩ B)
#{ Es tritt A ∩ B ein }
=
=
, n ∈ N.
#{ Es tritt B ein }
n#{ Es tritt B ein }
hn (B)
Dabei haben wir hn (B) > 0, n ∈ N, unterstellt. Analog zu dieser Formel kommen wir nun zu
einer entsprechenden Begriffsbildung im Wahrscheinlichkeitsraum (Ω, POT(Ω), P ) .
Definition 5.3.1 Sei (Ω, POT(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Seien A, B ⊂ Ω
mit P (B) > 0. Dann heißt
P (A ∩ B)
P (A|B) :=
P (B)
die bedingte Wahrscheinlichkeit des Ereignisses A unter der Bedingung B.
Folgerung 5.3.2 Sei (Ω, POT(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Sei B ⊂ Ω mit
P (B) > 0. Dann ist (Ω, P OT (Ω), PB ) mit
PB (A) := P (A|B) , A ⊂ Ω,
ein Wahrscheinlichkeitsraum.
Beweis:
Verifiziert man unmittelbar.
Satz 5.3.3 (Satz von der totalen Wahrscheinlichkeit) Sei (Ω, POT(Ω), P ) ein endlicher
Wahrscheinlichkeitsraum. Seien B1 , . . . , Bk ⊂ Ω mit
Ω = B1 ∪ · · · ∪ Bk , Bi ∩ Bj = ∅, 1 ≤ i, j ≤ k, i 6= j , P (Bi ) > 0 , 1 ≤ i ≤ k .
Dann ist
P (A) =
k
X
i=1
P (A|Bi )P (Bi ) , A ⊂ Ω .
(5.5)
Beweis:
Ergibt sich aus der Additivität von P und der Tatsache, dass A disjunkte Vereinigung von
A ∩ B1 , . . . , A ∩ Bk ist.
Daraus leitet sich der Satz von Bayes ab6 .
Satz 5.3.4 (Satz von Bayes) Sei (Ω, POT(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Seien B1 , . . . , Bk ⊂ Ω mit
Ω = B1 ∪ · · · ∪ Bk , Bi ∩ Bj = ∅, 1 ≤ i, j ≤ k, i 6= j , P (Bi ) > 0 , 1 ≤ i ≤ k .
Ist P (A) > 0, so gilt für j = 1, . . . , k :
k
X
P (A|Bi )P (Bi ))−1
P (Bj |A) = P (Bj )P (A|Bj )(
i=1
6
Bayes,Thomas (1701 — 1761)
73
(5.6)
Beweis:
Folgt aus Satz 5.3.3 zusammen mit P (Bj ∩ A) = P (Bj )P (A|Bj ), 1 ≤ j ≤ k .
In beiden Fällen ist man mit der Forderung nicht verschwindender Wahrscheinlichkeiten
(P (Bi ) > 0, 1 ≤ i ≤ n) konfrontiert. In der Formel in (a) kann man dies aber überspielen, da
das Nennerproblem nun in der Definition bedingter Wahrscheinlichkeit angelegt ist.
Beispiel 5.3.5 Bedingte Wahrscheinlichkeiten sind hilfreich, um die Güte von Vorsorgeuntersuchungen für Krankheiten zu bewerten. Sei t eine Testperson. Es bezeichne
Epo := t wird positiv getestet , Ekr := t ist krank , Ege := t ist gesund .
Es seien
p := P (Ekr ) , p′ := P (Epo |Ekr ) , p′′ := P (Epo |Ege )
bekannt. Für die Testperson ist
p∗ := P (Ekr |Epo )
interessant. Dazu gehört der in Abbildung 5.6 dargestellte Wurzelbaum. Hierbei ist q := 1 −
p, q ′ := 1 − p′ , q ′′ := 1 − p′′ . Ausgehend von der Wurzel gehen wir mit Wahrscheinlichkeit p nach
links unten und mit der Gegenwahrscheinlichkeit q nach rechts unten. Im zweiten Schritt gehen
wir mit Wahrscheinlichkeit p′ bzw. p′′ wieder nach links unten und mit der Gegenwahrscheinlichkeit q ′ bzw. q ′′ nach rechts unten. Die Wahrscheinlichkeiten, in den vier Blättern zu landen,
ergeben sich durch Multiplikation der Kantengewichte als
pp′ , pq ′ , qp′′ , qq ′′ .
Daraus errechnet sich die Wahrscheinlichkeit p∗ := P (Ekr |Epo ) gemäß
p∗ = pp′ + qp′′ = pp′ + (1 − p)p′′ .
Aus der bedingten Wahrscheinlichkeit leitet sich
der Begriff der Unabhängigkeit ab, der für die Bewertung von Beobachtungen von Zufallsexperimenten
von überragender Bedeutung ist. Wir lassen uns dabei
davon leiten, dass in einem Wahrscheinlichkeitsraum
(Ω, POT(Ω), P ) zwei Ereignisse A, B (nach Wahrscheinlichkeit) als unabhängig voneinander zu betrachten sind, wenn P (A) mit der bedingten Wahrscheinlichkeit P (A|B) übereinstimmt. Dass P (A|B) nur für
P (B) > 0 erklärt ist, hat dabei keinen Einfluss mehr.
p
p’
q’
q
p’’
q’’
Abbildung 5.6: Reihenuntersuchung
Definition 5.3.6 Sei (Ω, POT(Ω), P ) ein endlicher
Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ⊂ Ω heißen unabhängig, wenn P (A ∩ B) =
P (A)P (B) gilt, anderenfalls abhängig.
Zahlreiche Fehlvorstellungen zur Wahrscheinlichkeitsrechnung beruhen auf der Nichtberücksichtigung der Abhängigkeit bzw. Unabhängigkeit von Ereignissen. Machen wir uns die Fehlerquellen z.B. beim Skatspiel“ klar.
”
74
In einem Skatblatt gibt es 4 Farben mit den Werten Ass, König, Dame, Bube, zehn, neun,
acht sieben, von denen jeder der drei Spieler 10 Karten nach gutem Mischen in den Tranchen
drei, vier, drei erhält; zwei Karten kommen in den Skat.
Ein Skatspieler berechnet die Wahrscheinlichkeit, in seinem Blatt von 10 Karten 4 Asse zu
haben als
28
10 · 9 · 8 · 7
6
32 = 32 · 31 · 30 · 29 ≈ 0.00584 .
10
Die Wahrscheinlichkeit, alle 4 Buben zu bekommen, ist ebenso groß. Daraus schließt er, dass die
Wahrscheinlichkeit, alle 4 Asse und alle 4 Buben zu bekommen etwa
0.005842 ≈ 0.000034
beträgt. Die Überlegung ist natürlich falsch, da sie die Abhängigkeit der Ereignisse
A : 4 Asse , B : 4 Buben
nicht berücksichtigt. Die Wahrscheinlichkeit, alle 4 Buben zu bekommen, wenn man schon 4
Asse hat, ist kleiner als die Wahrscheinlichkeit, ohne die Bedingung alle 4 Buben zu bekommen:
24
P (A ∩ B) = P (B|A) · P (A) =
2
32
10
= 0.0000042 .
Unabhängigkeit ist ein in A, B symmetrischer Begriff. Sind A, B ⊂ Ω unabhängig, dann sind
es auch A, Ω\B und Ω\A, B und Ω\A, Ω\B. Die Verallgemeinerung der Unabhängigkeit auf
mehr als zwei Ereignisse liegt auf der Hand.
Definition 5.3.7 Sei (Ω, POT(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Seien A1 , . . . , Ak
Ereignisse. Diese Ereignisse heißen unabhängig, wenn für jede Wahl 1 ≤ i1 < · · · < il ≤ k
gilt:
P (Ai1 ∩ · · · ∩ Ail ) = P (Ail ) · · · P (Ail ).
5.4
Das Ziegenproblem
Betrachten wir nun das sogenannte Ziegenproblem.7 In einer Spielshow wird ein Kandidat
vom Moderator vor drei geschlossene Türen geführt. Hinter diesen Türen sind ein Auto (Preis)
und jeweils eine Ziege (Niete) versteckt. Der Kandidat darf nun eine Tür bestimmen, die geöffnet
werden soll. Um die Spannung zu erhöhen, öffnet der Moderator aber vor der Öffnung dieser
Tür — zufällig, aber mit der Vorgabe, dass dahinter kein Auto ist — eine andere Tür; hinter
dieser Tür ist eine Ziege. Nun erlaubt der Moderator dem Kandidaten seine ursprügliche Wahl
zu überdenken und gegebenenfalls seine Entscheidung zu ändern. Wie soll er sich entscheiden?
Gibt es aus stochastischer Sicht berechtigte Gründe, die Tür zu wechseln?
Ja, er soll wechseln!
Dies wollen wir mit bedingten Wahrscheinlichkeiten erklären. Bevor wir dies tun, spielen wir die
Situation mit 100 Türen, einem Auto und 99 Ziegen durch; sie vermeidet die 1 : 1 : 1 Situation
7
G.v. Randow: Das Ziegenproblem, Reinbek, 1992, und I. Stewart: Mathematische Unterhaltungen, Spektrum
11/91, 12 – 16 . Dieses Problem hat beträchtlichen Wirbel verursacht, da selbst gestandene“ Mathematiker
”
falsche Schlüsse zogen. Das Problem ist auch als Monty-Hall-Dilemma“ bekannt (nach dem Moderator der US”
amerikanischen Spielshow Let’s make a deal.
75
1
haben wir die Tür mit dem Auto gewählt und mit
bei drei Türen. Mit Wahrscheinlichkeit 100
99
Wahrscheinlichkeit 100 ist das Auto hinter den verbleibenden Türen. Jetzt öffnet der Moderator
98 der verbleibenden Türen, hinter jeder eine Ziege. Natürlich würde jeder wechseln, denn mit
99
Wahrscheinlichkeit 100
ist das Auto hinter der noch verschlossenen Tür.
Bevor wir ein mathematisches Modell betrachten, noch eine andere Argumentation, die den
Wechsel stützen kann. Der Standhafte gewinnt das Auto genau dann, wenn sich dieses hinter
der ursprünglich gewählten Tür befindet; die Wahrscheinlichkeit dafür ist 13 . Ein Wechselnder
gewinnt das Auto genau dann, wenn er zuerst auf eine der beiden Ziegentüren zeigt, die Wahrscheinlichkeit dafür ist 32 , denn nach dem Öffnen der anderen Ziegentür durch den Moderator
führt die Wechselstrategie in diesem Fall automatisch zur Autotür.
Hier geben wir nun eine Erklärung für den Ratschlag Wechseln“ unter Nutzung elementarer
”
Wahrscheinlichkeiten.
Wir nehmen an, dass das Auto hinter Tür 1 steht. Wir können dies tun ohne Beschränkung
der Allgemeinheit: es ist ja nur ein Nummerierungsproblem. Der Kandidat hat drei Möglichkeiten
der Wahl, die er zufällig trifft, denn er hat ja keine zusätzliche Information. Der Moderator trifft
seine Wahl der Tür ebenfalls zufällig, sofern ihm auf Grund seiner Informationslage eine Wahl
bleibt. Dies führt zu folgender Tabelle für die Wahrscheinlichkeit der 4 möglichen Ereignisse vor
der Wechselmöglichkeit:
Wahl/Kandidat
Tür 1
Tür 1
Tür 2
Tür 3
Wahl/Moderator
Tür 2
Tür 3
Tür 3
Tür 2
p (Wahrscheinlichkeit)
1 1
1
6 = 3 · 2
1
1 1
6 = 3 · 2
1
1
3 = 3 ·1
1
1
3 = 3 ·1
Die folgende Tabelle listet nun die Gewinn/Verlust–Wahrscheinlichkeiten auf:
Wahl/Kandidat
Tür 1
Ohne Wechsel
Wahl/Moderator Wahl/Kandidat
Tür 2
Tür 1
Gewinn
JA
Tür 1
Tür 3
Tür 1
JA
Tür 2
Tür 3
Tür 2
NEIN
Tür 3
Tür 2
Tür 3
NEIN
Wahl/Kandidat
Tür 1
Mit Wechsel
Wahl/Moderator Wahl/Kandidat
Tür 2
Tür 3
Gewinn
NEIN
Tür 1
Tür 3
Tür 2
NEIN
Tür 2
Tür 3
Tür 1
JA
Tür 3
Tür 2
Tür 1
JA
p
1
6
1
6
1
3
1
3
p
1
6
1
6
1
3
1
3
Es ist nun klar, dass der Wechsel zu einer Gewinnwahrscheinlichkeit von 2/3 führt, während
kein Wechsel nur eine Gewinnwahrscheinlichkeit von 1/3 realisiert.
Nun zu einer Darstellung des Dreitüren–Problems, die mit bedingten Wahrscheinlichkeiten
arbeitet. O.E. öffne der Kandidat die erste Tür. Sei
Ω := {(azz, 2), (azz, 3), (zaz, 3), (zza, 2)}.
76
Hierbei steht etwa (azz, 2) für: Auto hinter der 1. Tür, Ziegen hinter Tür 2 und Tür 3; 2
bezeichnet die Türwahl des Moderators.
Setze
A1 := {(azz, 2), (azz, 3)}, A2 := {(zaz, 3)}, A3 := {(zza, 2)}.
Wir haben als Wahrscheinlichkeiten
P (A1 ) = P (A2 ) = P (A3 ) =
1
,
3
und ferner
1
1
, P ({(azz, 3)}) = .
6
6
Wir analysieren etwa den Fall, dass der Moderator Tür 3 öffnet. Setze
P ({(azz, 2)}) =
B := {(azz, 3), (zaz, 3)}.
Wir haben dann
1
1
1
P (B) = , P (A1 ∩ B) = , P (A2 ∩ B) = , P (A3 ∩ B) = 0
2
6
3
und daher
1
P (B|A1 ) = , P (B|A2 ) = 1, P (B|A3 ) = 0.
2
Damit erhalten wir:
P (A1 |B) =
1
P (A1 )P (B|A1 )
= ,
P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + P (B|A3 )P (A3 )
3
P (A2 |B) =
P (A2 )P (B|A2 )
2
=
P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + P (B|A3 )P (A3 )
3
Nun liegt der Beleg für den Ratschlag Wechsel“ vor !
”
5.5
Kombinatorische Überlegungen
Sei M eine Menge mit n Elementen. Wir wollen für den Sachverhalt
Wähle Elemente von M unter den Gesichtspunkten Anzahl und/oder Reihenfolge“
”
aus
die damit verbundenen Anzahlprobleme – auf wieviele Arten ist dies möglich? – studieren.
Definition 5.5.1 Eine r–Permutation (ohne Wiederholung) der Elemente einer n–elementigen Menge M ist eine injektive Abbildung von {1, . . . , r} nach M. Ist r = n, so sprechen
wir kurz von einer Permutation.
Sei M = {x1 , . . . , xn } mit #M = n. Aus der Definition 5.5.1 folgt sofort, dass r ≤ #M sein
muss, wenn es r−Permutationen geben soll, weil das Bild von {1, . . . , r} unter einer injektiven
Abbildung sicher r Elemente besitzt.
Ist σ eine r–Permutation, so entspricht dieser Abbildung σ das geordnete Tupel (xσ(1) , . . . , xσ(r) ) .
Umgekehrt, hat man eine Menge B := {xi1 , . . . , xir } mit #B = r, so gehört dazu die r–
Permutation σ : {1, . . . , r} ∋ j 7−→ xij ∈ M . Damit ist wohl klar, dass die Definition 5.5.1
unserer Anschauung von der Auswahl von r Elementen unter Berücksichtigung der Reihenfolge
entspricht.
77
Satz 5.5.2 Sei M eine Menge mit n Elementen. Die Anzahl P (n, r) der r–Permutationen ist
P (n, r) = n(n − 1) · · · (n − r + 1) =
n!
, 0 ≤ r ≤ n.
(n − r)!
Beweis:
Sei M := {x1 , . . . , xn } . Wie können wir eine r–Permutation σ hinschreiben? Für das Bild σ(1)
stehen n Elemente zur Verfügung. Sind die Bilder σ(1), . . . , σ(r − 1) festgelegt, so stehen für σ(r)
wegen der geforderten Injektivität nur die Elemente in M \{xσ(1) , . . . , xσ(r−1) } zur Verfügung,
also n − (r − 1) Elemente. Dies bedeutet nun:
P (n, 1) = n ; P (n, r) = P (n, r − 1) · (n − r + 1) .
Daraus folgt durch sukzessives Ausmultiplizieren oder induktiv P (n, r) = n(n − 1) · · · (n − r + 1) .
Das schnelle Anwachsen der Ziffernstellen bei den Fakultäten8 ist Grund für die große Komplexität für Aufgaben, bei denen etwa eine große Anzahl von Objekten nach einem bestimmten
Merkmal in eine Ordnung gebracht werden sollen; siehe Abschnitt 2.3.
Im Spezialfall M = {1, . . . , n} kennen wir schon folgende Bezeichnung:
Sn := {σ : M −→ M |σ Permutation}
Eine Permutation σ ∈ Sn können wir dann schlicht durch die Abfolge (σ(1) . . . σ(n)) hinschreiben. Etwa bedeutet σ = (231) ∈ S3 , dass σ(1) = 2, σ(2) = 3, σ(3) = 1 gilt.
Beispiel 5.5.3 Man bestimme die Anzahl m der vierziffrigen Zahlen, deren Ziffern alle verschieden sind; 0 darf als erste Ziffer nicht vorkommen.
Für die erste Ziffer gibt es 9 Möglichkeiten: 1, 2, . . . , 9 . Für die Besetzung der verbleibenden
drei Ziffern gibt es dann jeweils noch P (9, 3) Möglichkeiten. Also m = 9 · P (9, 3) = 4536 .
Für das eben diskutierte Objekt Permutation“ gibt es die Interpretation durch ein Urnenex”
periment:
In einer Urne befinden sich n Objekte, nämlich die n Elemente von M . Man nimmt
der Reihe nach jeweils ein Element aus der Urne, ohne es wieder zurückzulegen.
Dann bilden r gezogene Elemente in der Reihenfolge, in der sie gezogen wurden, eine
r−Permutation der Menge M .
Eine duale Interpretation als Schachtelexperiment ist:
Jedem Element von M entspricht eine Schachtel; wir haben also n Schachteln. Es
werden nun der Reihenfolge nach r Objekte auf die n Schachteln verteilt und zwar so,
dass eine Schachtel höchstens ein Objekt enthält; die Schachtelnummer wird notiert.
Definition 5.5.4 Eine r−Permutation mit Wiederholung einer Menge M ist eine Abbildung τ : {1, . . . , r} −→ M.
8
G.W. Leibniz liebte es, zahlenmäßige Zusammenhänge in Form von Tabellen und Tafeln darzustellen. Beispielsweise fügte er seiner Arbeit Dissertatio de Arte Combinatoria“aus dem Jahre 1666, in der mit seinem Titel
”
auch die Bezeichnung Kombinatorik vorprägte, eine Tabelle der Fakultäten 1! bis 24! = 620448401733239439360000
an.
78
Die Anzahl W (n, r) der r−Permutationen mit Wiederholungen ist
W (n, r) = nr .
Der Beweis dafür ist leicht zu erbringen.
Die Interpretation der r−Permutationen mit Wiederholung als Urnenexperiment ist folgende:
Man nimmt der Reihe nach — die Reihenfolge spielt daher eine Rolle – jeweils ein Element aus
der Urne, insgesamt r Elemente, legt sie aber jeweils nach dem Ziehen wieder in die Urne
zurück. Die duale Interpretation als Schachtelexperiment ist die Verteilung von r Objekten auf
n Schachteln, wobei jede Schachtel beliebig viele Elemente aufnehmen kann.
Bisher haben wir Auswahlen betrachtet, so dass die Reihenfolge der Elemente von Relevanz
war und verschiedene Reihenfolgen verschieden zu zählen waren. Wenn wir nun keine Rücksicht
auf die Anordnung nehmen, kommen wir zum Begriff der Kombination (der Elemente).
Definition 5.5.5 Eine r–Kombination von M ist die Auswahl einer Teilmenge von M, bestehend aus r Elementen.
Die Anzahl C(n, r) der r–Kombinationen einer Menge M mit n Elementen ist
C(n, r) =
n!
.
r!(n − r)!
Die Interpretation als Urnenexperiment kann man etwa so sehen: Man ziehe r Elemente ohne Zurücklegen und vergesse die Reihenfolge der gezogenen Elemente. Die Interpretation als
Schachtelexperiment ist so: Man verteile r Objekte auf n Schachteln, so dass in jeder Schachtel
höchstens ein Objekt liegt. Einordnungen heißen äquivalent (oder werden nicht unterschieden),
wenn sie durch eine Permutation der Objekte ineinander übergeführt werden können.
Wir nennen
n
n!
(n, r ∈ N, r ≤ n)
:=
r!(n − r)!
r
Binominalkoeffizienten. n
r kann interpretiert werden als die Anzahl der binären Wörter mit
r Einsen und n − r Nullen. Aus dieser Interpretation oder aus der Definition folgt sofort
n
n
n
n
n
n
=
=1,
=
=n,
=
(5.7)
0
n
1
n−1
r
n−r
Sortiert man die Teilmengen der n–elementigen
Menge M nach der Anzahl ihrer Elemente, so
liefert die Summenregel
n
n
n
+
+ ··· +
= 2n ,
(5.8)
0
1
n
1
1
1
1
1
1
3
4
1
3
6
10
1
4
10
1
1
da links und rechts der Identität die Anzahl
...
...
...
aller Teilmengen von
M steht.
Sortieren wir die nr Wörter der Länge n mit
r Einsen und n − r Nullen nach der 1. Ziffer:
Abbildung 5.7: Pascalsches Dreieck
Mit 1 beginnen n−1
Wörter
der
Länge
n,
mit
r−1
0 beginnen n−1
n−Wörter. Also
r
n
n−1
n−1
=
+
.
(5.9)
r
r−1
r
79
5
1
2
5
n
n
9
Zusammen mit der Randbedingung“
0 = n = 1, stellt man dies im Pascalschen Dreieck
”
n
dar. Die Bezeichnung von r als Binomialkoeffizient hängt zusammen mit dem folgenden Satz.
Satz 5.5.6 (Binomialformel) Für a, b ∈ R und n ∈ N gilt:
n
(a + b) =
n X
n
j=0
j
aj bn−j .
Beweis:
Die Multiplikation der n Faktoren (a + b), . . . , (a + b) kann so erfolgen, dass man für
jedes
n
j, 0 ≤ j ≤ n, aus j Klammern a und aus n − j Klammern b auswählt; dies kann auf j Arten
geschehen. Daher ist der Koeffizient von aj bn−j im ausgerechneten Produkt n
j .
Der Beweis mittels vollständiger Induktion sieht so aus:
n = 1 : Klar.
n n+1 :
X
n j n−j
ab
(a + b)n+1 = (a + b)(a + b)n = (a + b)
j
j=0
n n X
X
n j+1 n−j
n j n−j+1
=
a b
+
ab
j
j
j=0
=
=
=
=
n+1
X
j=0
n X
n
n j n−j+1
k n−(k−1)
a b
+
ab
k−1
j
j=0
k=1
n n n+1 X
n
n
n n+1
k n+1−k
b
+
+
a b
+
a
0
k−1
k
n
k=1
n n + 1 n+1 X n + 1 k n+1−k
n + 1 n+1
b
+
a b
+
a
0
k
n+1
k=1
n+1
X n + 1
ak bn+1−k
k
k=0
Beispiel 5.5.7 Beim Bridge–Spiel
erhält ein Spieler 13 Karten aus einem Spiel aus 52 Karten.
12 Kartenzusammenstellungen möglich. Die Chance“ eine
≈
10
Für einen Spieler sind also 52
13
”
ganz bestimmte Hand“ zu erhalten, ist für einen Spieler also etwa 1 : 1012 .
”
Beispiel 5.5.8 Beim Lotto wird bei einer Ziehung aus der Menge {1, . . . , 49} eine 6–elementige
Teilmenge ausgewählt. Daher ist die Anzahl der möglichen Ziehungen
49
= 13 983 816 .
6
5.6
1.)
9
Übungen
Wie viele Möglichkeiten gibt es, mn Gegenstände so auf m Fächer zu verteilen, dass in
jedem Fach n Gegenstände sind?
Diese Anordnung der Binomialkoeffizienten findet sich wohl erstmals bei B. Pascal.
80
2.)
Wir werfen achtmal einen (fairen) Würfel.
(a)
Wie groß ist die Wahrscheinlichkeit, dass jede Augenzahl 1,2,3,4,5,6 mindestens
einmal erscheint?
(b) Wie groß ist die Wahrscheinlichkeit, dass man genau zweimal eine sechs würfelt?
3.)
Eine Urne enthalte zwei rote, zwei schwarze und zwei blaue Kugeln. Es werden zufällig
zwei Kugel mit einem Griff entnommen. Danach wird zufällig aus den restlichen Kugeln
eine Kugel gezogen. Mit welcher Wahrscheinlichkeit ist diese Kugel rot?
4.)
Eine Urne enthalte zwei rote und drei schwarze Kugeln. Eine Kugel wird zufällig entnommen und durch eine Kugel der anderen Farbe ersetzt. Dieser Vorgang wird noch einmal
wiederholt. Mit welcher Wahrscheinlichkeit ist eine danach entnommene Kugel rot?
81
Kapitel 6
Zufallsgrößen
Zufallsgrößen und deren zugordnete Maßzahlen Erwartungswert und Varianz sind zentrale Größen
von Zufallsversuchen. Sie sind auch fundamental in der Statistik, die die zweite Säule der Stochastik ist. Das schwache Gesetz der großen Zahl erklärt die angeratene Mittelwertbildung bei
Messreihen.
6.1
Erwartungswerte
Zunächst zur Motivation des Begriffs Erwartungswert“, den wir nun einführen wollen.
”
Beispiel 6.1.1 Stellen wir uns ein Glücksrad mit den s Sektoren Ω := {w1 , . . . , ωs } vor; jedem
Sektor werde als Wahrscheinlichkeit dafür, dass der Zeiger beim Drehen im Sektor j stehen
bleibt die Zahl p(ωj ) zugeordnet. Ein Spieler gewinnt X(ωj ) Euro, wenn der Zeiger im Sektor
j stehen bleibt. Wieviel sollte man pro Spiel einsetzen, wenn man das Spiel wiederholt, etwa
n–mal spielen müßte. Offenbar erhält man dann
s
X
X(ωj )hj
j=1
Euro ausbezahlt, wenn der Zeiger im Sektor j hj –mal stehen geblieben ist. Also ergibt sich als
durchschnittliche Auszahlung
s
1X
X(ωj )hj
n
j=1
h
Euro. Da man empirisch erwartet, dass nj gegen die Wahrscheinlichkeit p(ωj ) strebt, müßte
E :=
s
X
X(ωj )p(ωj )
j=1
Euro auf lange Sicht die erwartete Auszahlung sein. Ein Einsatz pro Spiel, der kleiner als E ist,
sollte also auf lange Sicht zu einem Gewinn führen.
Definition 6.1.2 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum.
Jede Abbildung X : Ω −→ R heißt eine Zufallsgröße1 . Sind x1 , . . . , xr die Werte, die X
annimmt, dann heißt
P ({X = xj }) , j = 1, . . . , r,
1
In der Literatur ist für eine Zufallsgröße auch der ältere Ausdruck Zufallsvariable“ gebräuchlich. Diese
”
Begriffsbildung verträgt sich nicht mehr gut mit der heutigen Auffassung von Abbildungen und Variablen.
82
die Verteilung der Zufallsgröße.
Die Abbildung
FX : R ∋ x 7−→ P ({X ≤ x}) ∈ [0, 1]
heißt die Verteilungsfunktion von X .
Beachte, dass wir voraussetzen durften, dass nur endlich viele Werte angenommen werden, da
wir ja Ω als endliche Menge angenommen haben.
Beispiel 6.1.3 Sei Ω := {K(opf ), Z(ahl)}, X(ω) := 1, falls ω = K, := 0, falls ω = Z . Also ist
FX eine Treppenfunktion“ mit 2 Stufen:
”
x
FX (x)
x<0
0≤x<1
x≥1
0
1
2
1
Definition 6.1.4 Sei (Ω, P OT (Ω), P ) ein (endlicher) Wahrscheinlichkeitsraum und X : Ω −→
R eine Zufallsgröße. Die Zahl
X
E(X) :=
X(ω)P ({ω})
ω∈Ω
heißt Erwartungswert von X .
Interpretieren wir die Zufallsgröße als Auszahlung eines Spiels, so können wir offenbar E(X) als
durchschnittliche Auszahlung pro Spiel auf lange Sicht ansehen (negative Werte sind als Einzahlungen zu interpretieren). Hierbei haben wir die Häufigkeitsinterpretation der Wahrscheinlichkeit
zu Grunde gelegt; siehe Beispiel 6.1.1.
Eine physikalische Interpretation des Erwartungswertes erhält man, wenn die möglichen Werte x1 , . . . , xr einer Zufallsgrößen X als Massepunkte“ mit den Massen P (X = xj ), j = 1, . . . , r,
”
auf der gewichtslosen Zahlengeraden“ gedeutet werden. Der Schwerpunkt (Massenmittelpunkt)
”
s des so entstehenden Körpers ergibt sich nämlich aus der Gleichgewichtsbedingung
r
X
(xj − s)P (X = xj ) = 0
j=1
zu
s=
r
X
xj P (X = xj ) = E(X) .
j=1
Laplace2 schreibt über den Erwartungswert:
Die Wahrscheinlichkeit der Ereignisse dient dazu, die Hoffnung oder Furcht der an ihrer
Existenz interessierten Personen zu bestimmen. Das Wort Hoffnung hat verschiedene Bedeutungen: es drückt allgemein den Vorteil desjenigen aus, der irgend ein Gut in Folge von
Voraussetzungen erwartet, die nur wahrscheinlich sind. Dieser Vorteil ist in der Theorie des
Zufalls das Produkt der erwarteten Summe mit der Wahrscheinlichkeit sie zu erlangen. . . .
Wir werden diesen Vorteil die mathematische Hoffnung“(esperánce (franz.) = Hoffnung)
”
nennen. . . . Man soll es im gewöhnlichen Leben immer so einrichten, dass das Produkt aus
dem Gute, das man erwartet, mit seiner Wahrscheinlichkeit dem gleichen Produkte bzgl. des
Verlustes mindestens gleichkommt. Aber um das zu erreichen, ist es notwendig, die Vorteile
2
Laplace, Pierre Simon de, (1749 – 1827)
83
und Verluste und ihre gegenseitigen Wahrscheinlichkeiten genau abzuschätzen. Dazu bedarf
es einer großen Exaktheit des Geistes, eines feinen Takts und einer bedeutenden sachlichen
Erfahrung; man muss sich vor Vorurteilen, vor den Täuschungen der Furcht und der Hoffnung, sowie vor den falschen Begriffen von Glücksgunst und wirklichem Glück, mit denen
die meisten Menschen ihre Eigenliebe einwiegen, in Acht nehmen.
Beispiel 6.1.5 Der Ereignisraum für einen fairen Würfelwurf ist Ω := {1, . . . , 6} und die Zufallsgröße, die die Augenzahl ausgibt, ist X : Ω ∋ i 7−→ i . Das passende Wahrscheinlichkeitmaß
ist die Gleichverteilung, d.h. P (X = j) = 16 , j = 1, . . . , 6 . Als Erwartungswert ergibt sich
E(X) =
6
X
1
7
j = .
6
2
j=1
Dies zeigt uns, dass bei fortgesetztem Werfen eines (fairen) Würfels der Wert 3.5 eine gute Prognose für den auf lange Sicht erhaltenen Durchschnitt (arithmetisches Mittel) aller geworfenen
Augenzahl sein sollte.
Beachte: Die Zufallsgröße realisiert den Wert E(X) nicht!
Seien X, Y Zufallsgrößen auf dem Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) und sei a ∈ R .
Dann sind
aX : Ω ∋ ω 7−→ aX(ω) ∈ R ,
X +Y
X ·Y
: Ω ∋ ω 7−→ X(ω) + Y (ω) ∈ R ,
: Ω ∋ ω 7−→ X(ω) · Y (ω) ∈ R ,
|X| : Ω ∋ ω 7−→ |X(ω)| ∈ R
auch Zufallsgrößen auf (Ω, P OT (Ω), P ) . Für X · X schreiben wir auch oft kurz X 2 .
Besondere Bedeutung besitzen die Zufallsgrößen, die das Eintreten oder Nichteintreten von
Ereignissen beschreiben. Dies leistet die Indikatorfunktion eines Ereignisses: Ist A ⊂ Ω ein
Ereignis, so heißt die durch
(
1 ,ω ∈ A
χA (ω) :=
0 ,ω ∈
/A
definierte Zufallsgröße die Indikatorfunktion von A . Die einfachen Operationen mit Ereignissen spiegeln sich in der Indikatorfunktion folgendermaßen:
χA∩B = χA · χB , χ∁A = 1 − χA , χA = χA2 .
Will man wissen, wie viele Ereignisse A1 , . . . , An eingetreten sind, so hat man nur die Indikatorsumme
χ := χA1 + · · · + χAn
zu bilden. Sie dient also als Zählgröße.
Beispiel 6.1.6 Betrachte folgendes Spiel: Beim Werfen zweier idealer Würfel erhält der Spieler
Euro 10, wenn beide Würfel eine 6 zeigen, Euro 2, wenn genau ein Würfel eine 6 zeigt, Euro
0 sonst. Die Ereignismenge Ω sind die Paare (i, j) mit 1 ≤ i, j ≤ 6 , die Wahrscheinlichkeit für
1 . Damit ist angedeutet, dass die beiden Würfel unabhängig
jedes Elementarereignis (i, j) ist 36
84
voneinander geworfen werden. Wir bezeichnen mit X die Zufallsgröße, die den Gewinn eines
Spielers beschreibt. Von Interesse sind die Ereignisse
A2 := {(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (5, 6), (4, 6), (3, 6), (2, 6), (1, 6)},
A10 := {(6, 6)} , A0 := Ω\(A10 ∪ A2 ) .
Die Werte von X erhalten wir durch folgende Zuordnung:

 2 , falls ω ∈ A2
Ω ∋ ω 7−→
10 , falls ω ∈ A10

0 , sonst
Daraus leiten wir
1
25
10
, P ({X = 10}) =
, P ({X = 0}) =
36
36
36
P ({X = 2}) =
ab. Als Erwartungswert ergibt sich
E(X) = 2 ·
1
25
5
10
+ 10 ·
+0·
=
36
36
36
6
Dieses Ergebnis lässt erwarten – siehe unten– , dass der Spieler im Mittel 65 Euro pro Spiel
gewinnt. Ein Einsatz des Spielers pro Spiel in Höhe von 1 Euro wäre also nicht vorteilhaft. Halten wir einige Rechenregeln für Erwartungswerte fest:
Regel 6.1.7 Seien X, Y : Ω −→ R Zufallsgrößen, a ∈ R, A ⊂ Ω, und g : R −→ R . Es gelten:
E(X + Y )
=
E(X) + E(Y )
(6.1)
E(aX)
=
aE(X)
(6.2)
E(χA )
=
(6.3)
E(g ◦ X)
=
X≤Y
=⇒
P (A)
X
g(xj )P (X = xj )
x1 ,...,xr ∈X(Ω)
E(X) ≤ E(Y )
(6.4)
(6.5)
Die Regeln sind sehr einfach zu beweisen.3 Wir beweisen nur (6.4).
Seien x1 , . . . , xr die Werte der Zufallsgrößen X, also {x1 , . . . , xr } = X(Ω) . Wir setzen Aj :=
{ω ∈ Ω|X(ω) = xj }, j = 1, . . . , r . Dann gilt Ω = A1 ∪ · · · ∪ Ar und somit
E(g ◦ X) =
=
X
ω∈Ω
(g ◦ X)(ω)P ({ω}) =
r X
X
g(xj )P ({ω}) =
r
X
j=1 ω∈Aj
r
X
j=1
j=1 ω∈Aj
=
r X
X
(g ◦ X)(ω)P ({ω})
g(xj )
X
P ({ω})
ω∈Aj
g(xj )P (X = xj )
j=1
3
Der Mathematiker fasst die Eigenschaften (6.1), (6.2) zusammen durch: Erwartungswertbildung ist eine Linearform auf dem Vektorraum der Zufallsvariablen.
85
j
i
1
2
3
4
5
6
Σ
1
1
36
2
0
1
36
2
36
3
0
0
1
36
1
36
3
36
4
0
0
0
1
36
1
36
1
36
4
36
5
0
0
0
0
1
36
1
36
1
36
1
36
5
36
6
0
0
0
0
0
1
36
1
36
1
36
1
36
1
36
6
36
1
6
1
6
1
6
1
6
1
6
1
6
Σ
1
36
3
36
5
36
7
36
9
36
11
36
1
p(X = i)
p(Y = j)
Abbildung 6.1: Eine gemeinsame Verteilung
Definition 6.1.8 Sind X, Y : Ω
y1 , . . . , ys , so heißt das System
−→
R zwei Zufallsgrößen mit Werten x1 , . . . , xr bzw.
P (X = xj , Y = yj ) := P ({X = xi } ∩ {Y = yj }) , i = 1, . . . , r, j = 1, . . . , s,
(6.6)
die gemeinsame Verteilung von X, Y .
Fasst man das Paar Z := (X, Y ) als Abbildung
(X, Y ) : Ω ∋ ω 7−→ (X(ω), Y (ω)) ∈ R2
auf, so nennt man Z eine zweidimensionale Zufallsgröße; (6.6) ist ihre Verteilung (analog zu
Definition 6.1.2).
Beispiel 6.1.9 Betrachte wieder einen zweifachen Würfelwurf mit einem fairen Würfel (LaplaceExperiment). Sei Xi der Ausgang des i-ten Wurfes und sei Y := max(X1 , X2 ) die Zufallsgröße,
die die maximale Augensumme bei den beiden Würfen beschreibt. Die beigefügte Tabelle gibt die
gemeinsame Verteilung von X := X1 und Y an.
Folgerung 6.1.10 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und sei X eine Zufallsgröße. Sei FX die zugehörige Verteilungsfunktion. Es gilt:
(a) P ({a < X ≤ b}) = FX (b) − FX (a) für a ≤ b .
(b) FX ist monoton nicht fallend.
(c) P ({X > a}) = 1 − FX (a) , P ({X < a}) = FX (a−) , a ∈ R, wobei FX (a−) der linkseitige
Grenzwert von FX an der Stelle a ist.
(d) P ({a ≤ X ≤ b}) = FX (b) − FX (a−) für a ≤ b .
(e)
lim FX (x) = 0 , lim FX (x) = 1 .
x→−∞
x→∞
86
Beweis:
Zu (a). FX (b) = P ({X ≤ a}) + P ({a < X ≤ b}) = FX (a) + P ({a < X ≤ b}) .
Zu (b). Folgt aus (a).
Zu (c). P ({X > a}) = 1 − FX (a) folgt aus den Definitionen von P und FX .
Die Existenz des angegebenen Grenzwerts folgt aus der Tatsache, dass die Funktion FX monoton
wachsend ist und ihr Bildbereich in [0, 1] enthalten ist, so: Zunächst existiert sicher eine Folge
(xn )n∈N mit xn < a für alle n ∈ N, lim xn = a und z := lim FX (xn ) existiert. Aus der Monotonie
n
n
folgt, dass z für jede solche Folge identisch ist. Also gilt z = lim FX (xn ) für jede Folge (xn )n∈N
n
mit xn < a für alle n ∈ N und lim xn = a , da (FX (xn ))n∈N eine konvergente Teilfolge enthält.
n
∞
X
P ({X < a}) = P ({X ≤ a − 1}) +
= FX (a − 1) + lim
n
= FX (a − 1) + lim
n
k=1
n
X
k=1
n
X
k=1
P ({a −
1
1
<X ≤a−
})
k
k+1
P ({a −
1
1
<X ≤a−
})
k
k+1
(FX (a −
1
1
) − FX (a − ))
k+1
k
= FX (a − 1) + lim FX (a −
n
1
) − FX (a − 1)
n+1
1
) = FX (a−)
= lim FX (a −
n
n+1
Zu (d).
P ({a ≤ X ≤ b}) = P ({a < X ≤ b}) + P ({X = a})
= (FX (b) − FX (a)) + (FX (a) − FX (a−))
= FX (b) − FX (a−) .
Zu (e).
Die Existenz der angegebenen Grenzwerte folgt aus der Tatsache, dass die Funktion FX monoton wachsend ist und ihr Bildbereich in [0, 1] enthalten ist; siehe oben. Ferner haben wir
0 ≤ lim FX (x) ≤ lim FX (x) ≤ 1 . Es genügt also zu zeigen, dass
x→−∞
x→∞
lim FX (−n) = 0 , lim FX (n) = 1
n∈N
n∈N
gilt. Betrachte die Ereignisfolge (Ak )k∈Z mit Ak := {k − 1 < X ≤ k}, k ∈ Z . Damit haben wir
P (Ω) = P (∪k∈Z Ak ) und daher
1 = P (∪k∈Z Ak ) =
X
P (Ak ) = lim
n∈N
k∈Z
k=n
X
P (Ak ) = lim
n∈N
k=−n
k=n
X
k=−n
(FX (k) − FX (k − 1))
= lim (FX (n) − FX (−n)) = lim FX (n) − lim FX (−n)
n∈N
n∈N
n∈N
Daraus liest man die Tatsache lim FX (−n) = 0 und lim FX (n) = 1 ab.
n∈N
n∈N
Bemerkung 6.1.11 Man mag sich wundern über den obigen Beweis: er ist so aufgeschrieben,
als würde die Zufallsgröße unendlich viele Werte annehmen, wir haben dies aber ausgeschlossen. Damit verbunden ist aber der Hinweis, dass auch Zufallsgrößen behandelt werden können,
die abzählbar viele Werte annehmen können. Der wirklich große Schritt besteht darin, Zufallsgrößen zuzulassen, die überabzählbar viele Werte annehmen. Dann benötigt man zur Definition
eines Erwartungswertes einen passenden Integralbegriff. Daran schließt sich dann das Gebiet der
stochastischen Prozesse an, die in vielen Anwendungen eine überragende Rolle spielen.
87
6.2
Unabhängigkeit
Definition 6.2.1 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X, Y
Zufallsgrößen. Diese Zufallsgrößen heißen unabhängig, falls
P ({X = x, Y = y}) = P ({X = x})P ({Y = y})
für alle x, y ∈ R gilt.
Folgerung 6.2.2 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X, Y
Zufallsgrößen. Sind X, Y unabhängig, so existiert E(X · Y ) und es gilt E(X · Y ) = E(X)E(Y ).
Beweis:
Seien {xi |i = 1, . . . , r}, {yj |j = 1, . . . , s} die Werte von X bzw. Y . Dann sind {xi yj |i =
1, . . . , r, j = 1, . . . , s} die Werte von X · Y und wir haben
r X
s
X
i=1 j=1
xi yj P ({X · Y = xi yj }) =
=
=
r X
s
X
i=1 j=1
s
r X
X
i=1 j=1
r
X
i=1
xi yj P ({X = xi , Y = yj })
xi yj P ({X = xi })P ({Y = yj })
xi P ({X = xi })
s
X
j=1
yj P ({Y = yj })
Definition 6.2.3 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X1 , . . . , Xn
Zufallsgrößen. Diese Zufallsgrößen heißen unabhängig, falls
P ({X1 = x1 , . . . , Xn = xn }) = P ({X1 = x1 }) · · · P ({Xn = xn })
für alle x1 , . . . , xn ∈ R gilt.
Durch vollständige Induktion beweist man
Folgerung 6.2.4 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X1 , . . . , Xn
diskrete Zufallsgrößen. Sind X1 , . . . , Xn unabhängig, so gilt
E(X1 · · · Xn ) = E(X1 ) · · · E(Xn ).
Beispiel 6.2.5 Betrachten wir die folgenden Spiele:
Spiel 1: Würfeln mit drei idealen Würfeln. Das Produkt der Augenzahlen wird in Cents ausgezahlt.
Spiel 2: Würfeln mit drei idealen Würfeln. Das Fünffache der Augensumme wird in Cents
ausgezahlt.
Welches Spiel kann man bei einem Einsatz von 50 Cents pro Spiel spielen? Wir numerieren die
Würfel und bezeichnen mit X1 , X2 , X3 die Zufallsgrößen der jeweils geworfenen Augenzahlen.
88
Es gibt 63 = 216 verschiedene Elementarereignisse. Da wir ein Laplace–Experiment unterstellen,
gelten die Identitäten
1
P ({X1 = i, X2 = j, X3 = k}) =
, 1 ≤ i, j, k ≤ 6 ,
216
und
1
, 1 ≤ i, j, k ≤ 6 .
P ({X1 = i})P ({X2 = j})P ({X3 = k}) =
216
Die Zufallgrößen sind also unabhängig. Damit gilt nach Folgerung 6.2.4 für die Gewinnerwartung:
Spiel 1: E(X1 · X2 · X3 ) = E(X1 )E(X2 )E(X3 ) = ( 72 )3 .
Spiel 2: E(5(X1 + X2 + X3 )) = 5(E(X1 ) + E(X2 ) + E(X3 )) = 5 · 3 · 72 .
Die Gewinnerwartung liegt bei Spiel 1 unter, bei Spiel 2 über dem Einsatz. Daher kann man das
zweite Spiel mitmachen, das erste dagegen aber nicht.
6.3
Varianz
Wie wir wissen, ist der Erwartungswert einer Zufallsgröße eine Maßzahl für den Schwerpunkt.
Die nun einzuführende Varianz ist eine Maßzahl für die Streuung um diesen Schwerpunkt.
Definition 6.3.1 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und sei X eine Zufallsgröße auf Ω mit Erwartungswert E(X) . Dann ist (X − E(X))2 eine Zufallsgröße mit Erwartungswert
V(X) := E((X − E(X))2 )
p
V(X) heißt die Varianz von X und σX := V(X) die Streuung oder Standardabweichung
von X .
Bemerkung 6.3.2 Die Streuung σX einer Zufallsgröße ändert sich – dank der Wurzel, die wir
über die Varianz gestülpt haben – proportional, d.h. σλX = λσX (λ > 0). Dies würde auch für die
alternative Maßzahl σ̃X := E(|X − E(X)|) gelten. Vorteile von σX gegenüber σ̃X sind leichtere
Berechenbarkeit und stärkere Bewertung großer Abweichungen vom Erwartungswert.
In der Mathematik der Finanzinstrumente (Derivate, Optionen) ist mit dem Begriff der Volatilität der Aktienkurse die Streuung/Schwankung der Aktienkurse gemeint, wobei unterstellt
wird, dass sich Aktienkurse wie ein Zufallsgröße verhalten. Hier wird der Erwartungswert meist
mit µ (Drift) und mit σ (Volatilität) die Varianz bezeichnet.
Lemma 6.3.3 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und seien X, Y Zufallsgrößen
auf Ω mit Erwartungswerten E(X), E(Y ) und Varianzen V(X), V(Y ) . Dann gilt:
(a) V(X) = E(X 2 ) − E(X)2
(b) V(X + Y ) = V(X) + V(Y ), falls X, Y unabhängig sind.
Beweis:
Es gilt
E((X − E(X))(Y − E(Y ))) = E(XY ) − E(XE(Y )) − E(Y E(X)) + E(E(X)E(Y ))
= E(XY ) − E(X)E(Y ) − E(Y )E(X) + E(X)E(Y )
= E(XY ) − E(X)E(Y )
Nun folgt (a) durch Anwendung auf Y := X, (b) folgt ebenfalls daraus unter Zuhilfenahme von
Folgerung 6.2.2.
89
6.4
Das schwache Gesetz der großen Zahl oder die Intelligenz
der Masse
Wenn viele Leute gemeinsam auf das richtige Ergebnis kommen, dann nennen die Wissenschaftler
dies die Intelligenz der Masse. Auf dieses Phänomen gestoßen ist vor 100 Jahren der englische
Gelehrte Francis Galton und zwar als er eigentlich das Gegenteil beweisen wollte – nämlich,
dass die Masse dumm ist.4 Dem oben beschriebenem Sachverhalt wollen wir nun etwas auf den
Grund gehen.
Aus den Eigenschaften der Varianz einer unabhängigen Zufallsgröße, die einen Zufallsversuch
√
beschreiben möge, folgt das so genannte n-Gesetz. Dies soll nun skizziert werden.
Sei X eine Zufallsgröße. Bei n-maliger unabhängiger Wiederholung des X zugrundeliegenden
Zufallsversuchs beschreibe Xi den i-ten Versuch. Für die Mittelwertgröße
n
X :=
1X
Xi
n
i=1
gilt dann
1
σX = √ σ(X) ,
n
denn für die zugehörige Varianz gilt nämlich
σX =
n
X
n
1
1
1 X
V( Xi ) = 2
V(Xi ) = 2 nV(X) .
n
n i=1
n
i=1
√
Das n-Gesetz ist in mehrfacher Hinsicht wichtig für die Theorie des Messens. Bei einer
Meßreihe x1 , . . . , xn von unter denselben Bedingungen (Unabhängigkeit!) bestimmten Werten
geht man davon aus, dass die Fehler nur zufällig zustande kommen. Als besten Wert für die nun
zu messende Größe X nimmt man das arithmetische Mittel
n
x=
1X
xi
n
i=1
und als mittleren Fehler m die Standardabweichung
v
u n
X
1 u
m = √ t (xi − x)2 .
n i=1
Eine Genauigkeitsaussage x = x ± m besagt in diesem Sinne also nicht, dass x mit Sicherheit im Intervall [x − m, x + m] liegt, sondern nur mit einer gewissen Wahrscheinlichkeit. Wir
quantifizieren dies nun.
Satz 6.4.1 (Tschebyscheffsche Ungleichung) Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und sei X eine Zufallsgröße mit Erwartungswert E(X) und Varianz V(X) . Dann
gilt für jedes ǫ > 0 :
P ({|X − E(X)| ≥ ǫ}) ≤ V(X)ǫ−2
(6.7)
4
1906 besuchte Galton die westenglische Nutztiermesse in der Nähe von Plymouth. Dort gab es einen
Schätzwettbewerb: Für sechs Pence durfte man auf das Gewicht eines Ochsen wetten. Wer am nächsten dran
lag, konnte gewinnen. Nachdem Galton die Schätzungen ausgewertet hatte, muss er ziemlich verblüfft gewesen
sein: Der Mittelwert der 787 Einzelschätzungen wich nur um ein Pfund vom tatsächlichen Gewicht des Ochsen
ab. Und – was noch erstaunlicher war – kein Einzel-Tipp (auch nicht der eines Experten) war genauer als der
Mittelwert der großen Masse.
90
Beweis:
Sei ǫ > 0. Setze Z := X − E(X) und
Y (ω) :=
0,
ǫ2 ,
falls |Z(ω)| < ǫ
falls |Z(ω)| ≥ ǫ
(6.8)
Dann ist 0 ≤ Y ≤ Z 2 und daher
V(X) = E(Z 2 ) ≥ E(Y ) = ǫ2 P ({Y = ǫ2 }) = ǫ2 P ({|X − E(X)| ≥ ǫ}) .
Der Wert der Tschebyscheffschen Ungleichung liegt in ihrer Allgemeinheit, die Abschätzung
darin ist ziemlich grob.5
Satz 6.4.2 (Schwaches Gesetz der großen Zahl) Seien X, X1 , . . . , Xn unabhängige Zufallsgrößen auf dem Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) . Es gelte
E(X) = E(Xi ) , V(X) = V(Xi ) ≤ M < ∞ , 1 ≤ i ≤ n .
Dann gilt für alle ǫ > 0 :
M
1
P ({| (X1 + · · · + Xn ) − E(X)| ≥ ǫ}) ≤ 2
n
ǫ n
(6.9)
Beweis:
1 (X + · · · + X ). Dann ist E(Z) = E(X) und
Sei Z := n
1
n
V(Z) = n−2 V(X1 + · · · + Xn ) = n−2 (V(X1 ) + · · · + V(Xn )) ≤
Nun wende man die Tschebyscheffsche Ungleichung an.
M
.
n
Durch das schwache Gesetz der großen Zahl6 können wir nun verstehen, weshalb die relative
Häufigkeit unter Umständen eine gute Approximation für Wahrscheinlichkeiten ist.
6.5
Spezielle Verteilungen
Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und sei X : Ω −→ R eine diskrete Zufallsgröße
mit Wertebereich WX . Wir unterscheiden:
Diskrete Verteilung
Bildbereich:
Parameter der Verteilung:
WX = {w1 , . . . , wn }
n = #WX
1 χ (x) , x ∈ R .
PX,x = P ({X = x}) = n
WX
Für den Spezialfall WX = {1, . . . , n} erhalten wir:
1
Erwartungswert:
E(X) = n +
2
2
−1
Varianz:
V(X) = n 12
Verteilung:
5
Sie wurde erstmals von Bienaymé 1853 aufgestellt, unabhängig davon fand sie P. Tschebyscheff 1867 und
verwendete sie erstmals zum Beweis des Gesetzes der großen Zahl.
6
Eine erste Version dieses zentralen Grenzwertsatzes hat A. de Moivre bewiesen.
91
Der Beweis zu den Formeln für E(X) und V(X) ist einfach:7
n
E(X) =
1 n(n + 1)
n+1
1X
i=
=
n
n
2
2
i=1
V(X) =
n
n
1X
n+1 2
1X 2
n + 1 2 n2 − 1
(i −
) =
i −(
) =
n
2
n
2
12
i=1
i=1
Zu diesem Typ von Verteilung haben wir schon Beispiele kennengelernt.
Bernoulli–Verteilung
Bildbereich:
Parameter der Verteilung:
WX = {0, 1}
p ∈ [0, 1] (“Erfolgswahrscheinlichkeit“)
PX,x = P ({X = x}) = px (1 − p)1−x χWX (x) , x ∈ R .
Verteilung:
E(X) = p
Erwartungswert:
V(X) = p(1 − p)
Varianz:
Der Beweis zu den Formeln für E(X) und V(X) ist einfach:
E(X) = 1p + 0(1 − p) = p , V(X) = 12 p + 02 (1 − p) − p2 = p(1 − p) .
Jedes Bernoulli–Experiment beinhaltet die Bernoulli–Verteilung; der Münzwurf (p = 21 ) kann
als Beispiel dafür dienen.
Beispiel 6.5.1 Wir betrachten ein Bernoulli–Experiment mit Erfolgswahrscheinlichkeit p ∈
[0, 1]. Wir wiederholen dieses Experiment n−mal unabhängig und setzen für ein Ereignis A ⊂ Ω
1 , falls ω ∈ A
,1 ≤ i ≤ n.
Xi (ω) :=
0 , sonst
Dann ist
1
E(Xi ) = p , V(Xi ) = p(1 − p) ≤ , 1 ≤ i ≤ n,
4
1 (X + · · · + X ) ist die relative Häufigkeit der Erfolge. Also ist
und hn := n
1
n
P ({|hn − p| ≥ ǫ} ≤
1
4ǫ2 n
Für großes n ist also die Wahrscheinlichkeit dafür, dass die relative Häufigkeit der Erfolge sich
mehr als ǫ von der Erfolgswahrscheinlichkeit p unterscheidet, sehr klein. Dies ist der Schlüssel
dafür, abwägen zu können, ob ein Glückspiel mit Einsatz und Auszahlung vorteilhaft ist.
Binomial–Verteilung
Bildbereich:
Parameter der Verteilung:
Verteilung:
Erwartungswert:
Varianz:
7
WX = {0, 1, . . . , n}
n, p
x
n−x
PX,x = n
χWX (x) , x ∈ R .
x p (1 − p)
E(X) = np
V(X) = np(1 − p)
Wir benutzen die bekannte Identität
Pn
i=1
i2 =
n(n+1)(2n+1)
6
92
.
Der Beweis zu den Formeln für E(X) und V(X) ist nun schon etwas trickreich“:
”
n
n
X n
X n
i
pi (1 − p)n−i
i
pi (1 − p)n−i =
E(X) =
i
i
i=1
i=0
n n
X
X
n−1 i
n − 1 i−1
n−i
n
p (1 − p)
= np
=
p (1 − p)(n−1)−(i−1)
i−1
i−1
i=1
i=1
n−1
X n−1
= np
pj (1 − p)(n−1)−j = np(p + (1 − p))n−1 = np
j
j=0
Der Nachweis für die Formel für V(X) gelingt mit vergleichbaren Rechenschritten.
Beispiel 6.5.2 Ein Versuch bestehe aus der n–maligen Durchführung eines Bernoulli–Experimentes mit Erfolgswahrscheinlichkeit p ∈ [0, 1] . Die Menge der Elementarereignisse wird dann
adäquat beschrieben durch Ω := {0, 1}n . Die Bernoulli–Experimente sollen unabhängig voneinander durchgeführt werden, das Wahrscheinlichkeitsmaß auf Ω ist also das Produktmaß. Die
erfolgreichen Ausgänge unter den n Experimenten werden gezählt durch die Zufallsgröße
X : Ω ∋ (ω1 , . . . , ωn ) 7−→ ω1 + · · · + ωn ∈ R .
Damit haben wir
n x
P ({X = x}) =
p (1 − p)n−x , x ∈ {0, . . . , n} ,
x
und X ist also binomialverteilt.
Nach diesem Beispiel sehen wir auch einen anderen Weg, die Varianz einer Binomial–Verteilung
zu berechnen: Wir fassen die Zufallsgröße X als Summe von Zufallsgrößen X1 , . . . , Xn auf, die
unabhängig und einzeln nach Bernoulli verteilt sind. Also
V(X) = V(X1 ) + · · · + V(Xn ) = np(1 − p) .
Geometrische Verteilung
Bildbereich:
WX = N0
Parameter der Verteilung:
p ∈ (0, 1]
PX,x = P ({X = x}) = p(1 − p)x χWX (x) , x ∈ R .
1−p
E(X) = p
1−p
V(X) =
p2
Verteilung:
Erwartungswert:
Varianz:
Der Nachweis für die Formeln für E(X) und V(X) gelingt bei Verwendung der Formeln
∞
X
j=0
∞
X
q + q2
q
2 j
j
q
=
,
,
jq =
(1 − q)2
(1 − q)3
j
j=0
welche für q ∈ [0, 1) gültig sind, sehr leicht. Wir beweisen die erste der beiden Formeln: Für
N ∈ N gilt
N
X
jq j ) · (1 − q)2 = q − 2N q N +1 + N q N +2
(
j=0
93
und Grenzübergang liefert die Aussage, wenn wir noch beachten, daß die Folge (nq n )n∈N gegen
0 konvergiert,
wenn |q| < 1 ist. Dies sieht man nun so:
p
√
Es ist |q| < 1 . Wegen lim n n = 1 (siehe Lemma ??) gibt es N ∈ N mit
n∈N
1≤
√
n
Also gilt für alle n ≥ N
1
n ≤ p für alle n ≥ N .
|q|
p
√
1
|nq n | = | n nq|n ≤ ( p |q|)n = ( |q|)n .
|q|
p n
Die Aussage folgt nun aus der Tatsache, daß lim |q| = 0 gilt.
n∈N
Interessiert man sich für die Anzahl der Versuche, bis bei einer mehrfachen Wiederholung
eines Bernoulli–Experiments mit Erfolgswahrscheinlichkeit p ∈ (0, 1] zum ersten Mal ein Erfolg
eintritt, dann beschreibt die Zufallsgröße X mit der Verteilung
PX,x = P ({X = x}) = p(1 − p)x χN0 (x) , x ∈ R ,
die Anzahl der Abbrüche bis zur ersten erfolgreichen Durchführung.
Hypergeometrische Verteilung
Bildbereich:
Parameter der Verteilung:
Verteilung:
Erwartungswert:
Varianz:
WX = {0, 1, . . . , n}
n<N.
n, M, N, p := M
N mit M< N,
M
N −M
x n− x
PX,x = P ({X = x}) =
χWX (x) , x ∈ R .
N
n
(Konvention ji = 0 für j < 0 oder j > i )
E(X) = np
−n
V(X) = np(1 − p) N
N −1
Zur Berechnung von E(X) eine Vorbemerkung. Man beweist für (zulässige) p, q, r ∈ N die Formel
r X
p
q
p+q
=
(6.10)
k
r−k
r
k=0
Damit gelingt nun die Berechnung des Erwartungswertes wie folgt:
−1 X
−1 X
n
n
M
N
N −M
N
M
N −M
x
E(X) =
=
k
x
n
n−x
n
k
n−k
x=0
k=1
−1 X
−1 X
n
n−1 N
M −1 N −M
N
M −1
N −M
=
M
=M
n
k−1
n−k
n
j
n−1−j
j=0
k=1
−1 N
M −1+N −M
M
n.
= M
=
N
n
n−1
Die Berechnung der Formel für V(X) erfolgt auf ähnlichem Wege.
94
Beispiel 6.5.3 Zur Herleitung einer Zufallsgröße, die hypergeometrisch verteilt ist, gehen wir
von einer für diese Verteilung typischen Situation (Qualitätskontrolle) aus:
Ein Warenposten umfasst N Teile, unter denen sich M Ausschussteile befinden. Wir
entnehmen diesem Warenposten nacheinander und ohne Zurücklegen – es möge etwa
eine Beschädigung“ durch die Entnahme nicht auszuschließen sein – n Teile und
”
interessieren uns für die Wahrscheinlichkeitsverteilung derjenigen Zufallsgröße X,
die die Anzahl der Ausschussteile in einer solchen Stichprobe angibt.
Es sei X die Anzahl der defekten Teile, die beim Versuch gezogen werden. Ein Elementarereignis dieses Versuches besteht aus einer n–Teilmenge aller Teile des Warenpostens.
Jedes Ele
mentarereignis ist gleichwahrscheinlich und hat daher die Wahrscheinlichkeit N
.
Das
Ereignis
n
{X = x} tritt ein, wenn man x–mal eindefektes Teil und (N − x)–mal ein fehlerfreies Teil
N −M
entnimmt. Für die erste Wahl gibt es M
Möglichkeiten.
x , für die zweite Wahl gibt es
n−x
Damit wird
M
N −M
x
n−x
,
P ({X = x}) =
N
n
falls x zum Wertebereich der Zufallsgröße gehört. Die Zufallsgröße hat also eine hypergeometrische Verteilung.
6.6
Die Gauß– und Poisson–Verteilung
Nun folgen zwei Verteilungen, die nicht in unseren gesetzten Rahmen passen: ihr zugrundeliegender Wahrscheinlichkeitsraum und ihr Wertebereich ist nicht endlich. Wir skizzieren sie ohne
genauer auf eine Anpassung der Begriffe einzugehen.
Poisson–Verteilung
Bildbereich:
WX = N0
Parameter der Verteilung:
λ
Verteilung:
PX,x = P ({X = x}) =
Erwartungswert:
E(X) = λ
Varianz:
V(X) = λ
exp(−λ)λx
χWX (x) , x ∈ R .
x!
Der Nachweis der Formel für den Erwartungswert ist einfach:
E(X) =
∞
X
k exp(−λ)
k=1
k=0
= λ exp(−λ)
∞
X λk
λk
= exp(−λ)
k!
(k − 1)!
∞
X
k=0
λk
k!
= λ exp(−λ) exp(λ) = λ .
Der Nachweis der Formel für die Varianz erfolgt mit ähnlichen Rechenschritten.
Die Verteilung geht auf S.D. Poisson8 zurück. Stichworte können sein: Anzahl der Telefonanrufe pro Zeiteinheit in der Telefonzentrale einer Firma, Anzahl der von einer radioaktiven
Probe ausgestrahlten Partikel pro Zeiteinheit, Anzahl von Jobs, die pro Zeiteinheit an einem
Rechnerserver eintreffen, . . . .
8
Poisson, Simeon D. (1781 — 1840)
95
Wir haben die Binominalverteilung kennengelernt. Ihre Verteilung enthält die Parameter p
und n. Macht man nun den Grenzübergang n → ∞ bei festem p, so erhält man als Näherung
für die Binominalverteilung die Normalverteilung in folgendem Sinne:
P ({X = k}) ≈ p
1
2πnp(1 − p)
exp(−
(k − np2 )
)
2np(1 − p)
Diese Näherung ist schlecht, wenn p nahe 0 oder 1 liegt oder wenn n klein ist. In der Praxis
betrachtet man die Näherung als brauchbar, wenn etwa np(1 − p) ≥ 10 gilt.
Normalverteilung
Bildbereich:
WX = R
Parameter der Verteilung:
µ, σ ∈ R, σ > 0
Verteilung:
PX∈B = P ({X ∈ B}) =
Erwartungswert:
E(X) = µ
Varianz:
V(X) = σ
6.7
1.)
R
B
µ 2
√1 exp − 21 x −
dx , B ⊂ R .
σ
σ 2π
Übungen
Ein fairer Würfel wird n-mal geworfen. Die Zufallsgröße Xn sei die größte der geworfenen
Augenzahlen, also
Xn (a1 , . . . , an ) = max aj , (a1 , . . . , an ) ∈ Ω := {1, . . . , 6} × · · · × {1, . . . , 6} .
1≤j≤n
Zeige: limn E(xn ) = 6 .
2.)
Die Zufallsgröße X nehme die Werte 0, 1, 2 . . . , n an. Zeige:
E(X) =
n
X
j=0
p(X ≥ j) .
3.)
Ein fairer Würfel wird 2-mal geworfen. Der Erwartungswert für die größte der geworfenen
Augenzahlen ist 161
36 .
4.)
Sei Y die Zufallsgröße, die die kleinste Augenzahl beim zweimaligen Würfeln beschreibt.
Bestimme den Erwartungswert von Y mit der vorhergehenden Aufgabe.
5.)
Beim Fussballtoto wird das Ergebnis eines ausgefallenen Spieles augelost. Steht in der
Totozeitung, dass die Tendenz etwa des Spiels TSG Hoffenheim – Bayern München 2:3:5
(S:U:N) betrage, dann soll dies bei der Auslosung berücksichtigt werden. Stelle ein Urnenmodell dafür her.
96
Kapitel 7
Nullstellen nach Newton
Das Newtonsche Näherungsverfahren, auch Newton-Raphsonsche Methode1 , ist in der Mathematik ein Standardverfahren zur numerischen Lösung von nichtlinearen Gleichungen und Gleichungssystemen. Die grundlegende Idee dieses Verfahrens ist, die Funktion in einem Ausgangspunkt zu linearisieren, was z.B. bei Polynomen einfach ist. Ein Charakteristikum dieses Verfahrens ist, dass es im allgemeinen sehr schnell gute Näherungswerte liefert.
7.1
Polynome
Sei K := R der Körper der reellen Zahlen. Mit Körper meinen wir nicht nur die Menge der Zahlen, die R enthält, sondern auch die uns vertrauten Rechenarten einschließlich der Rechenregeln.
Ein Auszug davon ist:
Addition a + b = b + a .
Subtraktion a − b = b − a mit a − a = 0 . (0 ist die Null)
Multiplikation ab = ba mit 1a = a . (1 ist die Eins)
Division ab−1 = a/b mit bb−1 = 1 . (Achtung: b 6= 0!)
Anordnung a > 0 oder a = 0 oder a < 0 .
√ n
Wurzel n a = a . (Achtung: a ≥ 0, d.h. a > 0 oder a = 0)
Distributionelles Rechnen a(b + c) = ab + ac
Betrag |a| = a, falls a ≥ 0, −a, sonst.
Unten werden wir noch kurz auf den Körper K := C der komplexen Zahlen zu sprechen kommen.
In diesem Zahlbereich ist Vorsicht bei der Wurzelberechnung geboten, eine Anordnung komplexer
Zahlen existiert nicht!
Betrachte
p(x) := p(a0 ,...,an ) (x) = a0 + a1 x + · · · + an−1 xn−1 + an xn =
n
X
ak xk ,
(7.1)
k=0
Ein Ausdruck dieser Art heisst ein Polynom mit Koeffizienten a0 , . . . , an in R . Ist an 6= 0 und
n ≥ 1, so sagen wir, dass das Polynom den Grad n hat, anderenfalls den Grad 0 . Wir fassen die
Polynome zusammen in R[x]:
R[x] := {p|p Polynom} .
(7.2)
1
Sir Isaac Newton, 1669 und Joseph Raphson, 1690
97
Eine Teilmenge davon bilden die Polynome vom Grad höchstens n:
Rn [x] := {p|p Polynom vom Grad ≤ n} .
(7.3)
Ein solches Polynom p ∈ R[x] kann man auch als Abbildung interpretieren:
R ∋ x 7−→ p(x) ∈ R .
Aus der Schulmathematik ist man vertraut mit Polynomen kleinen Grades:
• Grad 0: Konstanten
• Grad 1: Lineare Funktionen.
• Grad 2: Parabeln (Graphen von quadratischen Polynomen)
• Grad 3: Kubische Polynome
Die Auswertung von p in einem Punkt x ∈ R kann durch Auswertung der Monome und
Aufsummierung der Terme erfolgen. Man muss folgenden Aufwand betreiben:
n Additionen und 1 + 2 + · · · + n = 21 n(n + 1) Multiplikationen.
Ein effizientere Methode basiert auf der Beobachtung, dass jedes Polynom p = p(a0 ,...,an ) (siehe
(7.1)) als
(7.4)
p(x) = a0 + x(a1 + x(a2 + · · · + x(an−1 + an x) · · · )).
geschrieben werden kann. Diese Schreibweise eines Polynoms führt zur Horner–Methode zur
Auswertung von Polynomen. Wir lesen ab, dass die Auswertung von p in x auf diese Weise mit
Hilfe von
n Additionen und n Multiplikationen
erfolgen kann. Dieses Beobachtung kann als Geburtsstunde der Komplexitätstheorie für Algorithmen angesehen werden. Hier ist ein algorithmisches Fragment der Horner Methode:
Horner–Methode:
bn−1 := an ;
for j = n − 2, n − 3, . . . , 0 do
bj := aj+1 + xbj+1 ;
p(x) = a0 + xb0
7.2
Das Nullstellenproblem
Wir betrachten nun das Problem der Auflösbarkeit von polynomialen Gleichungen mit Koeffizienten im Körper R . Eine Gleichung der Form
x−c=0
(7.5)
heißt eine lineare Gleichung. Der einzige Lösung ist x = c .
Gegeben sei die quadratische Gleichung
ax2 + bx + c = 0
98
(7.6)
b , denn für y ergibt sich die
für a 6= 0. Sie wird vereinfacht durch die Substitution y = x + 2a
Gleichung
b2 − 4ac
,
(7.7)
y2 =
4a2
deren Lösungskandidaten auf der Hand liegen:
y=±
1p 2
b − 4ac .
2a
Die Lösungskandidaten von (7.6) werden damit mit
x=−
b
1p 2
b − 4ac
±
2a 2a
(7.8)
beschrieben. Aus der Gleichung (7.8) liest man auch die Methode der quadratischen Ergänzung ab:
b
b2
c
b2
b
(x + )2 = x2 + x + 2 = − + 2 .
2a
a
4a
a 4a
2
Lösbarkeit der Gleichung (in R) liegt also vor, wenn b − 4ac ≥ 0 ist. Die Tatsache, dass keine
Lösbarkeit vorliegt, wenn dies nicht der Fall ist, hat das Interesse für eine Erweiterung der reellen
Zahlen zum Körper C der komplexen Zahlen geweckt (Hier liegt dann Lösbarkeit universell vor.
Insbesondere hat die Gleichung x2 + 1 = 0 die Lösungen (Wurzeln) x = ±i.)
Bemerkung 7.2.1 Aus der Formel (7.8) lesen wir ab, dass das Produkt der Lösungen der
quadratischen Gleichung (7.6) für a = 1 gleich dem Koeffizienten c ist. Diese Tatsache bezeichnet
man als Vietaschen Wurzelsatz.
Betrachte die kubische Gleichung
ax3 + bx2 + cx + d = 0
(7.9)
b , denn für y ergibt sich die
für a 6= 0. Sie wird vereinfacht durch die Substitution y = x + 3a
Gleichung
y 3 = py + q,
wobei p, q gewisse rationale Ausdrücke in a, b, c, d sind. Diese Gleichung ist immer noch nicht
einfach, aber folgende Substitution y = u + v 2 Diese Idee hilft weiter, denn es entsteht
3uv(u + v) + u3 + v 3 = p(u + v) + q.
Wir spalten auf in
3uv = p , u3 + v 3 = q,
p
setzen v := 3u , und lösen
u3 + (
p
p 3
) = q , d.h. (u3 )2 − qu3 + ( )3 = 0 .
3u
3
Dies ist eine quadratische Gleichung in u3 und wir haben mit (7.8)
r
q
p
q
3
u = ± ( )2 − ( )3 .
2
2
3
2
Die Idee mit den Hilfsgrößen u, v hatte wohl Scipione del Ferro (1465? – 1526), ausgearbeitet wurde sie dann
von Niccolo Tartaglia (1500? – 1557) und Geronimo Cardano (1501 – 1576).
99
Die Symmetrie der Formeln in u und v hat zur Folge, dass sich für v nichts wesentlich Neues
ergibt. Wir erhalten
r
r
p 3 3
q
p
q
q 2
q
3
u = + ( ) − ( ) , v = − ( )2 − ( )3 ,
2
2
3
2
2
3
und daher
x=
s
3
q
+
2
r
q
p
( )2 − ( )3 +
2
3
s
3
q
( −
2
r
q
p
b
( )2 − ( )3 −
.
2
3
3a
(7.10)
b gefunFür die ursprüngliche Gleichung (7.9) haben wir so einen Lösungskandidaten x = y − 3a
den. Durch Division mit Rest reduzieren wir dann die Gleichung 3. Grades auf eine Gleichung 2.
Grades und behandeln diese nach dem schon vorgestellten Verfahren für Gleichungen 2. Grades
weiter.
Betrachte die quartische Gleichung
ax4 + bx3 + cx2 + dx + e = 0
(7.11)
b vereinfacht zu
für a 6= 0. Diese Gleichung wird durch die Substitution y = x + 4a
y 4 + py 2 + qy + r = 0,
wobei p, q, r gewisse rationale Ausdrücke in a, b, c, d, e sind. Wir schreiben sie um zu
(y 2 + p)2 = py 2 − qy + p2 − r
– dieser Reduktionsschritt geht wohl auf R. Descartes zurück – und erweitern
(y 2 + p + u)2 = (py 2 − qy + p2 − r) + 2u(y 2 + p) + u2
mit beliebigem u ∈ K. Wähle nun u so, dass
py 2 − qy + p2 − r + 2u(y 2 + p) + u2 = Ay 2 + By + C
ein Quadrat wird; hierbei ist A := p + 2u, B := −q, C := p2 − r + 2up + u2 . Dies gelingt dann,
wenn
B 2 − 4AC = 0
gilt. Dies ist eine kubische Gleichung für u, die nach dem obigen Verfahren behandelt werden
kann. Nach Wahl von u ziehen wir nun die Wurzel und lösen die resultierende quadratische
b ergibt Lösungen für die Gleichung
Gleichung für y. Einsetzen in die Substitution x = y − 4a
(7.11).
Betrachte das Polynom
p(x) := p(a0 ,...,an ) (x) = a0 + a1 x + · · · + an−1 x
n−1
n
+ an x =
n
X
ak xk
(7.12)
k=0
mit den reellen Koeffizienten a0 , . . . , an . Wenn wir alle Nullstellen kennen, dann können wir das
Polynom hinschreiben als Produkt der Linearfaktoren:
m1
p(x) = an (x − z1 )
mk
· · · (x − zk )
100
,
k
X
l=1
ml = n
wobei zl bzw. ml die l-te Nullstelle von p bzw. ihre Mehrfachheit bezeichnet.
Die Aussage, dass jedes nicht konstante Polynom mit Koeffizienten in R eine Nullstelle im
Körper der komplexen Zahlen besitzt, wird der Fundamentalsatz der Algebra genannt. Alle
bekannten Beweise dieses Satzes3 benützen offen oder versteckt auch das Konzept Stetigkeit“
”
aus der Analysis.
Hier sind drei Probleme, die schon im Altertum formuliert wurden und die alle mit polynomialen Gleichungen zu tun haben.
1. Dreiteilung des Winkels (Teilung eines Winkels in drei gleiche Teile.)
2. Verdoppelung des Würfels (Konstruktion der Seite eines Würfels, dessen Volumen
zweimal so groß ist wie das des gegebenen Würfels.) Es wird das Delische Problem genannt.
3. Quadratur des Kreises (Konstruktion eines Quadrates mit einer Fläche, die der Fläche
eines gegebenen Kreises gleich ist.)
Die Herausforderung bei der Beschäftigung mit den Problemen besteht darin, dass als Handi”
cap“ verlangt wird, dass die Lösungen der Probleme mit Zirkel und Lineal konstruierbar sein
sollen. Ob dies möglich ist, kann mit der algebraischen Theorie der Körpererweiterung beantwortet werden. Bezogen auf die Probleme bedeutet dies, dass gewisse den Problemen zugeordnete
Polynome Nullstellen in Körpern besitzen, die aus dem Körper Q der rationalen Zahlen problembezogen in durchsichtiger Weise abgeleitet werden.
Die Quadratur des Kreises kann nicht gelingen, da man nun weiß, dass die Kreiszahl π
transzendet ist, also keine Nullstelle eines Polynoms mit rationalen Koeffizienten sein kann.
Ebenso besitzt das Delische Problem keine Lösung mit Zirkel und Lineal. Auch das Problem der
Winkeldreiteilung mit Zirkel und Lineal besitzt im allgemeinen keine Lösung. Etwa ist dies der
Fall für die Dreiteilung von π .
7.3
Nullstellensuche nach Newton
Sir Isaac Newton beschreibt4 ein Rechenverfahren zum Lösen einer polynomialen Gleichung und
begründet damit ein Verfahren, das heutzutage als Newton-Verfahren bezeichnet wird.
Er tut dies am Beispiel des Polynoms p(x) := x3 − 2x − 5 = 0 . Eine leicht zu erratende
Näherung 0-ter Ordnung“ ist x0 = 2, denn p(2) = −1 ist klein“. Newton machte den Ansatz
”
”
x = 2 + u mit einem als klein“ angenommenen u und setzte diesen Ansatz in die Gleichung ein.
”
Es gilt:
x3 = (2 + u)3 = 8 + 12u + 6u2 + u3 , 2x = 2(2 + u) = 4 + 2u .
Also folgt
!
x3 − 2x − 5 = −1 + 10u + 6u2 + u3 = 0 .
Da u als klein“ angenommen wurde, können die Terme höherer Ordnung gegen den linearen
”
und konstanten Anteil vernachlässigt werden, womit 10u − 1 = 0 bzw. u = 0.1 übrig bleibt. Als
Näherung x1 1-ter Ordnung resultiert x1 = 2.1 .
Wir können nun dieses Vorgehen wiederholen: wir setzen u = 0.1 + v an, betrachten die
Gleichung p(2 + 0.1 + v) = 0, berücksichtigen wiederum nur den linearen Anteil und erhalten so
v = −0.061/11.23 = −0.0054 . . . . Als Näherung x2 2-ter Ordnung resultiert x2 = 2.0946 .
3
C.F. Gauß (1777 – 1855) publizierte 1799 den ersten strengen Beweis, später gab er einige weitere Beweise
dafür.
4
Isaac Newton, 1643–1727; Methodus fluxionum et serierum infinitarum“
”
101
Raphson5 beschrieb diesen Rechenprozess formal und illustrierte den Formalismus an der
allgemeinen Gleichung 3. Grades, die abstrakte Form des Verfahrens mit Benutzung von Ableitungen stammt von Thomas Simpson. Zur Simpsonschen Form kommen wir nun.
Sei f : R −→ R . Eine Nullstelle wird nach folgendem Vorgehen gesucht:
(1) Man rät eine Näherung x0 . O.E. f (x0 ) 6= 0 .
(2) Man berechnet/zeichnet die Tangente t0 an den Graphen von f im Punkt
(x0 , f (x0 )) .
(3) Man berechnet/konstruiert die Nullstelle x1 der Tangente.
(4) Man setzt x0 := x1 und wiederholt den Vorgang, beginnend bei (1).
Klar, um die Tangente bestimmen zu können, müssen wir voraussetzen, dass diese existiert, was
die Differenzierbarkeit von f voraussetzt. Dann lautet die Tangentengleichung
t0 : y = f (x0 ) + f ′ (x0 )(x − x0 )
(7.13)
und die Berechnung der Nullstelle von t0 führt zur Formel
x1 = x0 − f ′ (x0 )−1 f (x0 ) .
(7.14)
Hier tritt das Problem auf, dass f ′ (x0 ) 6= 0 gelten muss, d.h. dass f in (x0 , f (x0 )) keine waagrechte Tangente besitzt. Von der Anschauung her, keine überraschende Forderung, von der Analyse
des Verfahrens her eine Forderung, die sukzessive oder a-priori sichergestellt werden muss.
Schreiben wir das Verfahren nun kompakt auf:
xn+1 := xn − f ′ (xn )−1 f (xn ) , n = 0, . . . .
(7.15)
Dabei ist die Startnäherung x0 zu wählen. Wir nennen dieses Vorgehen nun Newton–Verfahren; siehe Abbildung 7.1.
Das Newton–Verfahren ist ein so genanntes lokal
konvergentes Verfahren. Konvergenz der in der
Newton–Iteration erzeugten Folge zu einer Nullstelle ist also nur garantiert, wenn der Startwert,
d.h. das 0-te Glied der Folge, schon ausreichend
”
nahe“ an der Nullstelle liegt. Ist der Startwert
nicht gut genug, so haben wir zu rechnen mit:
• Die Folge divergiert, der Abstand zur Nullstelle wächst über alle Grenzen.
• Die Folge divergiert, bleibt aber beschränkt. Sie kann z.B. periodisch werden,
d.h. endlich viele Punkte wechseln sich in
immer derselben Reihenfolge ab. Man sagt
auch, dass die Folge oszilliert (Bei f (x) :=
x3 − 2x + 2 ist dies machbar).
t
f(x)
t
x1
x0
x2
Abbildung 7.1: Newtonverfahren
• Die Folge konvergiert, falls die Funktion
mehrere Nullstellen hat, gegen eine andere
als die gewünschte Nullstelle konvergieren; in der Abbildung 7.1 kann man dies erahnen.
5
Joseph Raphson, 1648–1715; Arbeit Analysis Aequationum universalis“
”
102
Ist der Startwert x0 so gewählt, dass das Newton–Verfahren konvergiert, so ist die Konvergenz
allerdings quadratisch, also mit der Konvergenzordnung 2 (falls die Ableitung an der Nullstelle
nicht verschwindet).
Bemerkung 7.3.1 Wie ordnet sich das Newtonsche Vorgehen hier nun ein? Ausgehend von
der Startnäherung x0 = 2 wird ein Newtonschritt auf die Nullstellengleichung p(x + 2) = 0 mit
x = 0 als Startnäherung angewendet:
x1 := 0 −
1
p(2)
.
=
′
10
p (2)
Nun betrachtet man die Nullstellengleichung p(x + 2.1) = 0 mit x = 0 als Startnäherung und
wendet wieder einen Newtonschritt mit Ausgangsnäherung x = 0 an:
x2 := 0 −
0.061
p(2.1)
=
.
′
11.23
p (2.1)
Und so weiter!
Viele nichtlineare Gleichungen haben mehrere Lösungen, so hat ein Polynom n-ten Grades
bis zu n (reelle) Nullstellen. Will man alle Nullstellen in einem bestimmten Bereich D ⊂ R
ermitteln, so muss zu jeder Nullstelle ein passender Startwert in D gefunden werden, für den
das Newton–Verfahren konvergiert. Ein beliebtes Vorgehen dazu besteht in Einschachtelungsverfahren: zwischen zwei Punkten z 1 , z 2 , so dass f (z 1 ), f (z 2 ) unterschiedliche Vorzeichen besitzen,
liegt immer eine Nullstelle von f, da wir ja Differenzierbarkeit von f (und damit Stetigkeit)
voraussetzen. (Man erinnere sich an die Charakterisierung der Stetigkeit, einen Graph in einem
Zug hinzeichnen zu können. Man kommt dann bei einer Funktion, die Werte unterschiedlichen
Vorzeichens annimmt, unwillkürlich beim Wert Null vorbei“.)
”
Beispiel 7.3.2 Ein Spezialfall des Newtonschen Näherungsverfahrens ist das Babylonische Wurzelziehen, auch bekannt als Heronverfahren nach Heron von Alexandria: Wendet man das Verfahren zur Nullstellenbestimmung auf die Funktion f (x) := x2 − a (a > 0), so erhält man wegen
√
der Ableitungsfunktion f ′ (x) = 2x für die Lösung a das Näherungsverfahren
(xn )2 − a
a
1 n
xn+1 := xn −
x
+
=
.
2xn
2
xn
Dieses Verfahren konvergiert für jedes a ≥ 0 und für jeden beliebigen Anfangswert x0 > 0 . Beispiel 7.3.3 Die Quadratwurzel einer Zahl a > 0 sind die Nullstellen der Funktion f (x) :=
1− a/x2 . Diese Funktion hat die Ableitung f ′ (x) = 2a/x3 , die Newton-Iteration erfolgt also nach
der Vorschrift
xn
(xn )2
(xn )3 xn
n+1
n
+
=
3−
.
x
:= x −
2a
2
2
a
Der Vorteil dieser Vorschrift gegenüber dem Wurzelziehen nach Heron (siehe Beispiel 7.3.2)
ist, dass es divisionsfrei ist, sobald einmal der Kehrwert von a bestimmt wurde. Als Startwert
wurde in der Tabelle x0 := (1 + a)/2 gewählt. Die Iterierten wurden an der ersten ungenauen
Stelle abgeschnitten. Es ist zu erkennen, dass nach wenigen Schritten die Anzahl gültiger Stellen
schnell wächst.
n
0
1
2
3
4
5
xn bei a = 2
xn bei a = 3 xn bei a = 5
1, 5
2
3
1, 40
1, 6
1, 8
1, 4141
1, 72
2, 1
1, 41421355
1, 73203
2, 22
1, 41421356237309502
1, 7320508074
2, 23601
1, 414213562373095048801688724209697 1, 73205080756887729351 2, 236067975
103
Das Newton-Verfahren gilt als ein sehr effizientes Verfahren (in den Naturwissenschaften
und anderswo). Worin ist dies begründet, obwohl das Problem der guten Startnäherung und
die Tatsache, dass eine Ableitung ausgerechnet werden muss, schwer wiegen? Es liegt an vier
Beobachtungen, die in der Literatur ausreichend diskutiert wurden und immer noch werden:
(1) Das Verfahren hat eine naheliegende Erweiterung auf Aufgaben in mehreren Variablen.
(2) Das Verfahren konvergiert unter gut zu durchschaubaren Voraussetzung (siehe unten) quadratisch.
(3) Das Verfahren kann modifiziert werden, um die Berechnung der Ableitung in jedem Schritt
zu vermeiden. Etwa durch:
xn+1 := xn − f ′ (x0 )−1 f (xn ) , n = 0, . . . .
(7.16)
Allerdings ist dann die Konvergenzgeschwindigkeit schlechter.
(4) Das Verfahren kann globalisiert werden, d.h. man kann Vorkehrungen einbauen, die sicherstellen, dass das so abgeänderte Verfahren auch bei schlechten“ Startwerten konvergiert;
”
das Stichwort ist Schrittweitensteuerung:
xn+1 := xn − λn f ′ (xn )−1 f (xn ) , n = 0, . . . .
(7.17)
Sei f eine dreimal differenzierbare Funktion mit einer Nullstelle z , in der die erste Ableitung
nicht verschwindet, d.h. f ′ (z) 6= 0 . Diese Voraussetzung besagt, dass der Graph von f die
x-Achse transversal schneidet“. Wir wissen aus
”
1
0 = f (z) = f (x) + f ′ (x)(z − x) + f ′′ (ξ)(z − x)2
2
und daher
x−z =
f (x)
1 f ′′ (ξ)
+
(x − z)2 .
f ′ (x) 2 f ′ (x)
Nun stellen wir so um, dass wir eine Verbindung mit der Newtoniteration sehen:
x−
1 f ′′ (ξ)
f (x)
−
z
=
(x − z)2 .
2 f ′ (x)
f ′ (x)
Ist nun I ein Intervall um z, in dem die Ableitung von f nicht verschwindet – dies kann auf
Grund der Tatsache, dass f ′ (z) 6= 0 gilt, sichergestellt werden – dann folgt mit
m := inf |f ′ (x)| , M := max |f ′′ (x)| , K :=
x∈I
x∈I
|x −
f (x)
− z| ≤ K|x − z|2 , x ∈ I .
f ′ (x)
die Abschätzung
Dies hat zur Konsequenz, dass für die Newtoniterierten xn gilt
n
K|xn − z| ≤ (K|x0 − z|)2 , n ∈ N0 ,
104
M
2m
was man mittels vollständiger Induktion beweisen kann. Ist also K|x0 −z| < 1, dann wird |xn −z|
sehr schnell klein.
Bei der Bestimmung von Nullstellen von Polynomen ist folgender Hinweis wichtig: hat man
eine Nullstelle z 0 gefunden, so kann man diese Nullstelle aus dem Polynom entfernen durch
”
Polynomdivision durch den Linearfaktor x − z 0 ; man hat so den Grad des Polynoms um eins
verkleinert.
Beispiel 7.3.4 Betrachte das Polynom
p(x) := x3 − 3x2 − x + 3 .
Es hat die Nullstelle x = 1, was man etwa erraten kann. Polynomdivision ergibt
p(x) : (x − 1) = x2 − 2x − 3
und als weitere Nullstellen finden wir x = 1 und x = 3 .
Division mit Rest ist nicht nur mit Linearfaktoren möglich. Allgemeiner führt man die Rechnung
r(x)
p(x) : q(x) = s(x) +
q(x)
durch.
7.4
Anhang: Realisierung des Newtonverfahrens in den komplexen Zahlen
Die Tatsache, dass in R eine Anordnung existiert, zeigt, dass in R die Gleichung
x2 + 1 = 0
(7.18)
keine Lösung hat, da x2 nichtnegativ und 1 = 12 positiv ist. Wir erweitern nun die reellen Zahlen
zu einem Körper der komplexen Zahlen. In diesem Körper hat dann die Gleichung (7.18) eine
Lösung.
Definiere in R2 die folgenden Verknüpfungen:
+ : R2 × R2 ∋ ((a, b), (c, d)) 7−→ (a + c, b + d) ∈ R2 ,
· : R2 × R2 ∋ ((a, b), (c, d)) 7−→ (ac − bd, ad + bc) ∈ R2 .
(Addition)
(Multiplikation)
Dann sind
(R2 , +) , (R2 \{(0, 0)}, ·) abelsche Gruppen .
Das neutrale Element bzgl. der Addition ist (0, 0), das neutrale Element bzgl. der Multiplikation
ist (1, 0) . Das Inverse von (a, b) ∈ R2 bzgl. der Addition ist (−a, −b), das Inverse von (a, b) 6=
(0, 0) bzgl. der Multiplikation ist (a(a2 + b2 )−1 , −b(a2 + b2 )−1 ) . Mit diesen Verknüpfungen wird
R2 ein Körper. Diesen Körper wollen wir nun den
Körper der komplexen Zahlen
105
nennen. Eine vielleicht eher bekannte Notation der Elemente von C ergibt sich aus der Darstellung
(a, b) = (1, 0)a + (0, 1)b , (a, b) ∈ R2 .
(7.19)
Wir haben
(1, 0) · (1, 0) = (1, 0) und (0, 1) · (0, 1) = (−1, 0) = −(1, 0) .
Nun schreiben wir für das Einselement (1, 0) kurz 1 und für (0, 1) führen wir die imaginäre
Einheit i ein. Dies bedeutet nun, dass wir wegen (7.19) jedes Element (a, b) ∈ C so
(a, b) = a + ib ,
schreiben können, wobei wir nochmal abgekürzt haben: Statt 1a haben wir einfach a geschrieben.
Damit schreiben wir nun
C := {a + ib|a, b ∈ R}
und passen die Verknüpfungen an:
+ : C × C ∋ (a + ib, c + id) 7−→ (a + c) + i(b + d) ∈ C ,
(Addition)
· : C × C ∋ (a + ib, c + id) 7−→ (ac − bd) + i(ad + bc) ∈ C .
(Multiplikation)
Ist z = a + ib eine komplexe Zahl, so heißt a Realteil und b Imaginärteil von z ; wir schreiben
a = ℜz oder a = Rez , b = ℑz oder b = Imz .
Wir unterscheiden nun nicht zwischen a+i0 ∈ C und a ∈ R und schreiben für a+ib manchmal
auch a + bi . Beachte auch, dass in dieser Schreibweise nun aus a + ib = 0 stets a = b = 0 folgt.
Definition 7.4.1 Sei z = a +
√ ib eine komplexe Zahl. Die zu z konjugierte Zahl ist z := a − ib,
der Betrag von z ist |z| := a2 + b2 .
Offenbar gilt für jede komplexe Zahl die Identität |z|2 = zz . Ein Quotient z1 z2−1 , z2 6= 0, lässt
sich dann wegen
z1 z 2
z1 z 2
=
z1 z2−1 =
z2 z 2
|z2 |2
in ein Produkt komplexer Zahlen mit anschließender Division durch eine reelle Zahl überführen,
z.B.
1−i
1−i
1 1
1
=
=
= + i
1+i
(1 + i)(1 − i)
2
2 2
Da wir nun mit der Betragsfunktion eine Abstandsfunktion auf C haben, können wir die
Kreisscheiben
D̄r (z) := {z ′ ∈ C||z ′ − z| ≤ r} , D̄r := D̄r (0) ,
definieren. Ebenso ist die Konvergenz von Folgen definiert. Wir halten es nochmal fest:
Definition 7.4.2 Sei (zn )n∈N eine Folge komplexer Zahlen. Wir sagen, dass (zn )n∈N gegen
z ∈ C konvergiert, wenn
∀ ε > 0 ∃ N ∈ N ∀ n ≥ N (|zn − z| < ε)
gilt. z heißt dann Grenzwert und wir schreiben z = lim zn .
n∈N
106
Es ist leicht einzusehen, dass eine Folge komplexer Zahlen (zn )n∈N genau dann konvergiert,
wenn die Folgen (ℜzn )n∈N und (ℑzn )n∈N als reelle Zahlenfolgen konvergieren. Damit ist die Konvergenz komplexer Zahlenfolgen auf die reeller Zahlenfolgen zurückgeführt. Die über Grenzwerte
von reellen Zahlen angeführten Regeln behalten ihre Gültigkeit auch im Körper der komplexen
Zahlen; z.B.: der Grenzwert ist eindeutig bestimmt. Da R vollständig ist, ist auch C vollständig.
Die trigonometrische Schreibweise für eine komplexe Zahl z = a + ib ist
z = r(cos φ + i sin φ)
√
wobei r = |z| := a2 + b2 der Betrag und φ := arg z das Argument der Zahl z ist, d.h.
sin(φ) cos(φ)−1 = ab . Für z = r(cos φ+i sin φ) verwendet man auch die exponentielle Schreibweise
z = reiφ , d.h. eiφ = cos φ + i sin φ .
Die Menge
C− := C\{z ∈ C|ℑz = 0, ℜz ≤ 0}
nennt man die negativ geschlitzte Ebene. Für jedes z ∈ C− gibt es genau ein φ ∈ (−π, π)
und r > 0 mit
z = r(cos φ + i sin φ) .
Die Theorie der komplexen Funktionen, also der Funktionen f : C −→ C lässt sich prinzipiell
wie die der reellen Funktionen anpacken. Allerdings können gewisse komplexe Funktionen sehr
überraschende Eigenschaften haben, die im Zusammenhang mit der Differenzierbarkeit stehen.
Definition 7.4.3 f : C −→ C heißt differenzierbar in z0 ∈ C, falls gilt:
lim
z→z0
f (z) − f (z0 )
z − z0
existiert.
Beispiele differenzierbarer Funktionen sind die Polynome mit komplexen Koeffizienten.
Beispiel 7.4.4 Wie berechnet man eine Wurzel aus einer komplexen Zahl? Sei z = a + ib ∈ C .
Mit der trigonometrischen Darstellung von z als z = reiφ (r = |z|) gelingt die Berechnung von
w mit w2 = z ganz einfach:
w=
Beachte, dass auch w′ =
√
√
φ
rei 2 :=
√
φ
φ
r(cos( ) + i sin( )) .
2
2
φ
rei( 2 +π) eine solche Zahl ist.
Der Ausgangspunkt unserer Überlegung war die Lösbarkeit der Gleichung (7.18). Diese hat
nun in der Tat in C eine Lösung, nämlich das Element i und das Element −i . Die Lösbarkeit
dieser Gleichung haben wir durch Körpererweiterung erreicht.
In Analogie zum Newtonverfahren im Reellen formuliert man zur Gleichung z 3 = 1 im Komplexen die Iteration
2z 3 + 1
z3 − 1
zn+1 := zn − n 2 = n 2 , n ∈ N0 .
3zn
3zn
107
Wie sieht nun das Konvergenzverhalten der zugehörigen Orbits aus? Diese Frage erweist sich als
außerordentlich tiefliegend. Die Arbeiten von B.
Mandelbrot zu Fraktalen in den Jahren von 1975
bis 1985 machten diese lange schon diskutierte
Frage wieder populär. Die zunächst naheliegende Vermutung, dass die Einzugsgebiete der drei
Nullstellen
z1∗ = 1 , z2∗ = −
1
1
1√
1√
3 + i , z3∗ = −
3− i
2
2
2
2
an jeweils einer Halbgeraden zusammenstoßen
sollten, trifft nicht zu. Computerbilder zeigen eine ganz überraschende Unübersichtlichkeit des
Konvergenzverhaltens. Die Ränder der jeweiligen
Einzugsgebiete sind so ineinander verwoben, dass
immer dort, wo zwei Einzugsbereiche zusammenAbbildung 7.2: Fraktal im Komplexen
stoßen, der dritte Einzugsbereich bereits vorhanden ist. Die Ränder der Einzugsbereiche sind keine glatten Kurven, sondern sehr eigenwillig
gefranste Gebilde, sie stellen wieder eine so genante Julia–Menge dar, die die oben angeführten
Eigenschaften besitzt.
Das seltsame Verhalten der Newton–Iteration im Komplexen wurde untersucht für die Gleichungen
z 4 − 1 = 0 , z 5 − 1 = 0 , (z − 1)(z 2 + z + c) = 0 (c ∈ C) .
Immer wieder stößt man auf Einzugsgebiete, deren Ränder vom Typ Julia–Mengen sind. Überraschend ist, dass als geradezu universelle Menge wieder das Apfelmännchen ins Spiel kommt:
Färbt man die Parameter c im dritten Fall schwarz ein, wenn z0 = 0 kein guter Startwert (keine
Konvergenz!) ist, so entsteht wieder ein Apfelmännchen.
7.5
Übungen
1.)
108
Kapitel 8
Interpolation und Approximation
In diesem Abschnitt betrachten wir unterschiedliche Ansätze, Datenpunkte zu einem Funktionsgraph zu erweitern. Wir tun dies unter Nutzung von Polynomen.
8.1
Interpolation mit Polynomen
In der Praxis wissenschaftlichen Rechnens wird man häufig mit der Situation konfrontiert, dass
von einem funktionalen Zusammenhang nur diskrete Datenpunkte vorliegen, sei es weil nicht
mehr bekannt ist, sei es, weil die dem funktionalen Zusammenhang zu Grunde liegende Funktion nur sehr schwer zu handhaben ist. Um daraus wieder einen funktionalen Zusammenhang
zurückzugewinnen, ist nach einer Methode gesucht, die diskreten Datenpunkte irgendwie“ zu
”
verbinden. Grundsätzlich sind Polynome dazu sehr gut geeignet, denn sie haben eine Reihe sehr
guter Eigenschaften für eine effiziente Nutzung:
(1) Einfache Speicherung durch die Koeffizienten.
(2) Effiziente Evaluation; siehe oben.
(3) Einfache Manipulation (Addition, Differentiation, Integration, . . . ).
(4) Gute Approximationseigenschaften.
Für die zuletzt genannte Eigenschaft benötigt man einen Abstandsbegriff für Funktionen. Dazu
eignet sich, Funktionen punktweise zu vergleichen: Der Tschebycheff-Abstand zweier Funktionen f, g : [a, b] −→ R ist gegeben durch
kf − gk∞ := sup |f (x) − g(x)| .
x∈[a,b]
Hierin verbirgt sich ein Problem: ist das Supremum definiert, d.h. gibt es eine Schranke b mit
|f (x) − g(x)| ≤ b für alle x ∈ [a, b] ?
Für stetige Funktionen ist dies der Fall, wie wir aus der Analysis wissen. Für solche ist das
Supremum sogar ein Maximum, d.h. das Supremum wird durch einen Funktionswert von f − g
realisiert.
Die obige Fragestellung zur Darstellung eines funktionalen Zusammenhangs mittels Interpolation mit Polynomen lässt sich nun so formulieren:
Interpolationsaufgabe
109
Es seien n + 1 verschiedene Punkte (Stützstellen) x0 < x1 < . . . < xn auf der
reellen Zahlengerade gegeben. Ferner seien so genannte Stützwerte y0 , . . . , yn+1 ∈ R
gegeben. Finde ein Polynom p such that p(xi ) = yi for i = 0, . . . , n.
p wird eine Interpolierende genannt.
In der obigen Aufgabe haben wir noch den Grad des Polynoms offen gelassen. Klar sein sollte:
ist der Grad zu klein, ist nicht zu erwarten, dass alle Interpolationsforderungen p(xi ) = yi erfüllt
werden können, sind Polynoms mit großem Grad zugelassen, wird es in der Regel viele Polynome
geben, die die Interpolationsforderungen p(xi ) = yi erfüllen. Es lässt sich daraus schließen, dass
es wohl einen ausgezeichneten Grad gibt, der sicherstellt, dass die Aufgabe genau eine Lösung
besitzt. Ein solcher lässt sich auch aus der Aufgabe ableiten: es sind n+1 Forderung gestellt, also
benötigen wir n+1 Freiheiten, um diese Forderung zu erfüllen. Ein Polynom n-ten Grades hat n+
1 Freiheitsgrade, nämlich n + 1 frei wählbare Koeffizienten. Also sollte die Interpolationsaufgabe
mit dem Grad n gelöst werden können. Die Überraschung ist, dass wir dann eine Lösung explizit
hinschreiben können, und zwar so: Wir definieren Polynome L0,n , . . . , Ln,n vom Grade n mit
folgender Eigenschaft:
Lj,n (xi ) = δij , i, j = 0, . . . , n ,
(8.1)
wobei δi,j das so genannte Kronecker-Symbol ist.1 Solche Polynome existieren! Hier ist ihre
explizite Darstellung:
n
Y
x − xk
, x ∈ R.
Lj,n(x) =
xj − x k
k=0,k6=j
Da offenbar die Eigenschaft (8.1) erfüllt ist, können wir eine Lösung der Interpolationsaufgabe
so hinschreiben:
n
X
yj Lj,n (x) .
(8.2)
p(x) =
j=0
Beispiel 8.1.1 Sei f die Exponentialfunktion: f (x) := ex , x ∈ R . Betrachte die Datenpunkte
(xi , yi ), wobei yi = f (xi ), i = 1, 2, 3, und x1 = 0, x2 = 1, x3 = 2. Dann haben wir:
L0,2 (x) =
(x − x1 )(x − x2 )
(x − 1)(x − 2)
1
3
=
= x2 − x + 2
(x0 − x1 )(x0 − x2 )
(0 − 1)(0 − 2)
2
2
L1,2 (x) =
(x − 0)(x − 2)
(x − x0 )(x − x2 )
=
= −x2 + 2x
(x1 − x0 )(x1 − x2 )
(1 − 0)(1 − 2)
L2,2 (x) =
(x − x0 )(x − x1 )
(x − 0)(x − 1)
1
1
=
= x2 − x
(x2 − x0 )(x2 − x1 )
(2 − 0)(2 − 1)
2
2
Eine Lösung ist gegeben durch
p(x) =
2
X
j=0
=
f (xj )Lj,2 (x) = 1 · L0,2 (x) + e · L1,2 (x) + e2 · L2,2 (x)
1
1
(e − 1)2 x2 − (e − 1)(e − 3)x + 1
2
2
1
δi,j :=
(
1
0
falls i = j
falls i =
6 j
110
Damit ist das Existenzproblem gelöst. Bleibt, für eine mathematisch befriedigende Betrachtung, die Eindeutigkeitsfrage. Diese ist mit einem einfachen analytischem Resultat zu klären.
Hat man zwei Polynome p, q vom Grad n, die die Interpolationsaufgabe lösen, so gilt offenbar
für das Polynom f := p − q :
f (xi ) = 0 , i = 0, . . . , n .
Als Polynom ist f sicher differenzierbar. Dann gibt es jeweils zwischen xi und xi+1 ein ξ mit
f ′ (ξ) = 0 , i = 0, . . . , n .
Dies liefert die Tatsache, dass auf Grund der Differenzierbarkeit von f zwischen xi und xi+1 ein
Punkt ξ mit f (ξ) = maxt∈[xi ,xi+1] f (t) existiert.
Zählen wir nun ab: f hat n + 1 Nullstellen, f ′ hat nun mindestens n Nullstellen. Fährt man
so fort, erhält man, dass die n-te Ableitung f (n) immer noch eine Nullstelle hat. f (n) ist aber, da
bei jeder Differentiation der Grad von f um Eins verringert wird, eine konstante Funktion, also
notwendigerweise die Nullfunktion. Daraus schließt man, dass f (n−1) eine konstante Funktion
ist, welche aber 2 Nullstellen hat, was nicht möglich ist, es sei denn f (n−1) ist die Nullfunktion.
So fortfahrend erhält man, dass f = f (0) die Nullfunktion ist; p und q stimmen also überein.
Die Darstellung der Lösung des Interpolationsproblems in (8.2) ist für die Berechnung nicht
sehr gut geeignet. Es gibt numerisch stabilere und effizientere Berechnungverfahren; Stichwort
ist die Newton-Darstellung.
8.2
Newton-Polynome
Das Interpolationsproblem wird durch eine lineare Abbildung L : Rn+1 −→ Rn+1 folgendermaßen beschrieben:
L : Rn+1 ∋ (a0 , . . . , an ) 7−→ (p(a0 ,...,an ) (x0 ), . . . , p(a0 ,...,an ) (xn )) ∈ Rn+1
Daraus leitet sich ab, dass die Abbildung L nach Wahl einer geeigneten Basis im Urbildraum
und im Bildraum durch eine Matrix dargestellt wird. Auf Grund der Definition der Abbildung
L haben wir eine Basis im Raum der Polynome vom Grad ≤ n zu wählen.
Sei b0 , . . . , bn eine Basis im Raum der Polynome vom Grade höchstens n . Dann bedeutet die
Lösung des Interpolationsproblems gerade die Lösung des Gleichungssystems
Ba = y where B = (bj (xi ))0≤i,j≤n , a = (a0 , . . . , an ), y = (y0 , . . . , yn ) .
(8.3)
Dank der Injektivität der Abbildung L – das Interpolationsproblem ist ja eindeutig lösbar – ist
die Matrix B invertierbar.
Die Monome 1, x, . . . , xn und die Lagrange-Polynome Ln,j , j = 0, . . . , n, bilden eine Basis,
aber sie haben beide Nachteile: die Monome, da die zugehörige Matrix B schwer zu invertieren
ist, die Lagrange-Polynome, da die Matrix B zwar sehr leicht zu invertieren ist – sie ist eine
Diagonalmatrix, ja sogar die Einheitsmatrix – aber die Basis numerisch nicht sehr gut auszuwerten ist. Wir diskutieren nun eine spezielle Wahl einer Basis. die numerisch überzeugend ist,
die Basis der Newton-Polynome:
1, (x − x0 ), (x − x0 )(x − x1 ), . . . , (x − x0 ) · · · (x − xn−1 )
111
(8.4)
Es ist leicht einzusehen, dass sie eine Basis bilden. Damit sieht das zugehörige Gleichungssystem
so aus:

   
1
0
0
···
0
a0
y0
 1 x1 − x0
  a1   y1 
0
·
·
·
0

   
1 x2 − x0 (x2 − x0 )(x2 − x1 ) · · ·
  a2   y2 
0
(8.5)

  =  
 ..
  ..   .. 
..
..
.
.
.
.
.
 .   . 
.
.
.
.
1 xn − x0 (xn − x0 )(xn − x1 ) · · · (xn − x0 ) · · · (xn − xn−1 )
an
yn
Dieses System kann von der ersten Gleichung aus sukzessive durch Einsetzen gelöst werden
(Vorwärtssubstitutuion): berechne aus der ersten Gleichung a0 : a0 := y0 ; berechne aus der
zweiten Gleichung unter Verwendung des Resultats für a0 den Koeffizienten a1 aus a1 (x1 −
x0 ) = y1 − y0 ; . . . . . . . Die Rechnung kann in einem kompakten Schema organisiert werden unter
Verwendung dividierter Differenzen..
Definition 8.2.1 Seien τ : x0 < · · · < xn die Stützstellen und seien y0 , . . . , yn die Stützwerte
der Interpolationsaufgabe. Wir definieren rekursiv:
y[xi ] := yi , i = 0, . . . , n ,
y[xj0 , xj1 , . . . , xjk ] :=
y[xj1 , . . . , xjk ] − y[xj0 , . . . , xjk−1 ]
xj k − xj 0
wobei xj0 , xj1 , . . . , xjk eine Permutation von k + 1 Stützstellen ist.
Wir bezeichnen diese Größen dividierte Differenzen.
Dividierte Differenzen können systematisch in folgendem Schema berechnet werden:
x0
y0
x1
y1
x2
..
.
y2
..
.
xn−1
yn−1
xn
yn
y[x0 ]
ց
y[x1 ] −→
ց
y[x2 ] −→
..
.
y[xn−1 ] −→
ց
y[xn ] −→
y[x0 , x1 ]
y[x1 , x2 ]
..
.
ց
−→
y[x0 , x1 , x2 ]
..
.
y[xn−2 , xn−1 ] −→
ց
y[xn−1 , xn ] −→
..
···
.
· · · y[x0 , . . . , xn−1 ]
···
···
ց
y[x1 , . . . , xn ] −→
y[x0 , . . . , xn ]
Satz 8.2.2 Seien τ : x0 < · · · < xn die Stützstellen und seien y0 , . . . , yn die Stützwerte der Interpolationsaufgabe. Dann ist das Interpolationspolynom p mit Hilfe der Newtonbasis dargestellt
durch
p(x) = y[x0 ] + y[x0 , x1 ](x − x0 ) + · · · + y[x0 , . . . , xn ](x − x0 ) · · · (x − xn−1 ), x ∈ R .
(8.6)
Beweis:
Wir beweisen dies durch Induktion bezüglich n .
Klar, das Resultat gilt für n = 0 . Sei die Darstellung richtig im Falle von n + 1 Stützstellen.
Wir wollen die Darstellung nachrechnen für n + 2 Stützstellen.
Seien τ : x0 < · · · < xn+1 die Stützstellen und seien y0 , . . . , yn+1 die Stützwerte der Interpolationsaufgabe; sei p das interpolierende Polynom n + 1-ten Grades. Diese Polynom hat die
Darstellung durch die Newton–Polynome N0 , . . . , Nn+1 :
p(x) =
n
X
i=0
αi Ni (x) + αn+1 Nn+1 (x), x ∈ R .
112
Dann gilt
p − αn+1 Nn+1 =
n
X
y[x0 , . . . , xi ]Ni
n+1
X
y[x1 , . . . , xi ]Ni (x)(x − x0 )−1 , x ∈ R .
i=0
gemäß der Induktionsannahme, da das Polynom p−αn+1 Nn+1 die Daten in den n+1 Stützstellen
x0 , . . . , xn interpoliert. Seien p1 , p2 die Polynome, die die Daten (x0 , y0 ), . . . , (xn , yn ) bzw. (x1 , y1 ),
. . . , (xn+1 , yn+1 ) interpolieren. Dank der Induktionsannahme, kann man p1 , p2 darstellen durch
1
p (x) =
n
X
2
y[x0 , . . . , xi ]Ni (x) , p (x) =
i=1
i=0
Betrachte nun
1
det
q(x) :=
xn+1 − x0
p1 (x) x0 − x
p2 (x) xn+1 − x
, x ∈ R,
(8.7)
Klar, q ist ein Polynom vom Grade n + 1 und interpoliert die Daten (x0 , y0 ), . . . , (xn+1 , yn+1 ) .
Aus der Eindeutigkeit der Lösung der Interpolationsaufgabe folgt q = p . Dies zeigt
αn+1 = y[x0 , . . . , xn+1 ]
wegen der Gestalt der dividierten Differenzen.
Beispiel 8.2.3 Betrachte die Funktion f (x) := ex . Seien τ : 0 = x0 < x1 = 1 < x2 = 2
Stützstellen. Wir berechnen das folgende Tableau
0
1
1
e
1
e
2
e2
e2
e−1
e2 − e
1
2 (e
− 1)2
und schließen, dass das Interpolationspolynom p mit den Stützwerten, die sich an den Stützstellen
für die Funktion ergeben, gegeben ist durch
1
p(x) = 1 + (e − 1)x + (e − 1)2 x(x − 1) .
2
Ohne Beweis geben wir an:
Folgerung 8.2.4 (Fehlerabschätzung) Sei f : [a, b] −→ R eine (n + 1)-mal differenzierbare
Funktion und sei f (n+1) eine stetige Funktion. Seien τ : 0 = x0 < x1 = 1 < x2 = 2 Stützstellen
und seien yi := f (xi ), 0 ≤ i ≤ n . Sei pn das zugehörige Interpolationspolynom. Dann gilt:
|f (x) − pn (x)| ≤
kf − pn k∞ ≤
wobei wτ (x) :=
Qn
i=0 (x
kf (n+1) k∞
|wτ (x)| , x ∈ [a, b] ,
(n + 1)!
(8.8)
kf (n+1) k∞
kwτ k∞ ,
(n + 1)!
(8.9)
− xi ) , x ∈ R .
113
Will man das Interpolationspolynom nur an einer Stelle auswerten und nicht in Gänze kennen,
dann kommt man mit sehr viel weniger Arbeitsaufwand aus, nämlich mit
3
3
(n − 1) + (n − 1)(n − 2) Additionen und (n − 1)(n − 2) Multiplikationen,
2
2
oder kurz, die Auswertung des Interpolationspolynoms ist von der Komplexität
O(n2 ) flops.
Die Idee für das Vorgehen, das dieses realisiert, steckt schon im Beweis zu Satz 8.2.2. Es wird
Aitkens Methode genannt.
8.3
Approximation mit Polynomen
Approximation Problem
Es sei eine etwas schwierig zu handhabare Funktion“ f : [a, b] −→ R gegeben. Als
”
Aufgabe stellen wir uns, eine leicht zu handhabare Funktion “ g : [a, b] −→ R zu
”
finden, so dass e(f, g) := kf − gk∞ eine kleine“ Zahl ist.
”
Die Funktion g wird die Approximierende von f genannt. Das Beste, was wir tun können, ist
eine Menge G von einfach zu handhabaren“ stetigen Funktionen zu wählen und ein g∗ ∈ G zu
”
suchen mit
e(f, g∗ ) = inf e(f, g) .
g∈G
g∗
Solch ein
wird eine beste Approximation von f bezüglich der Menge G (und der Tschebyscheff-Distanz) genannt.2 Als eine Menge von einfach handhabaren Funktionen ist die Menge
von Polynomen; siehe oben.
Der folgende Approximationssatz von Weierstrass besagt, dass jede stetige Funktion auf einem
Interval [a, b] beliebig genau approximiert werden kann durch ein Polynom genügend großen
Grades. Ein konstruktiver Beweis des Satzes kann mit Hilfe der Bernstein-Polynome erbracht
werden.
Die Bernstein-Monome sind definiert durch
n i
Bi,n (t) :=
t (1 − t)n−i , t ∈ [0, 1] , i = 0, . . . , n , n ∈ N .
i
(8.10)
Die ersten Bernstein-Monome sind
B0,0 (t) = 1 , B0,1 (t) = 1 − t , B1,1 (t) = t , B0,2 (t) = (1 − t)2 , B1,2 (t) = 2(1 − t)t .
Satz 8.3.1 Sei f : [a, b] −→ R eine stetige Funktion. Dann gibt es zu jedem ǫ > 0 eine Zahl
n ∈ N und ein Polynom p n–ten Grades mit
kf − pk∞ = sup |f (x) − p(x)| < ǫ .
x∈[a,b]
2
Wenn G ein endlichdimensionaler Vektorraum ist, dann existiert eine solche beste Approximierende.
114
Beweis:
Da jedes Intervall durch eine affin–lineare Abbildung auf das Intervall [0, 1] transformiert werden
kann, können wir o.E. annehmen, dass das Intervall [a, b] das intervall [0, 1] ist.
Seien
n
X
i n i
f( )
x (1 − x)n−i , x ∈ [0, 1] , (n ∈ N)
(8.11)
bn f (x) :=
n i
i=0
die so genannten Bernstein-Polynome. Diese Polynome nutzen wir nun, das Ergebnis zu
beweisen.
Eine erste Beobachtung ist:
bn f (0) = f (0) , bn f (1) = f (1) für jedes n ∈ N .
Mit
n
n
1 = 1 = (x + (1 − x)) =
erhalten wir
n X
n
i
i=0
i
n−i
x (1 − x)
=:
n
X
Bi,n (x) ,
i=0
n
X
i
(f (x) − f ( ))Bi,n (x) ,
f (x) − bn f (x) =
n
i=0
|f (x) − bn f (x)| ≤
n
X
i=0
i
|f (x) − f ( )|Bi,n (x) .
n
Sei ǫ > 0 . Da f stetig ist, ist sie sogar gleichmäßig stetig. Also erhalten wir ein δ > 0 mit
ǫ
i
i
|f (x) − f ( )| < , falls |x − | < δ .
n
2
n
Wi setzen für jedes x ∈ [0, 1]
Nx := {i ∈ {0, . . . , n}||x −
Dann
X
i∈Nx
i
i
| < δ} , Mx := {i ∈ {0, . . . , n}||x − | ≥ δ} .
n
n
n
ǫX
ǫ X
ǫ
i
Bi,n (x) ≤
Bi,n (x) = ,
|f (x) − f ( )|Bi,n (x) ≤
n
2
2
2
i∈Nx
i=0
und mit m := maxx∈[0,1] |f (x)|
X
i∈Mx
i
|f (x) − f ( )|Bi,n (x) ≤
n
≤
X
i∈Mx
i
i
|f (x) − f ( )|Bi,n (x)(x − )2 δ−2
n
n
n
2m X
i
Bi,n (x)(x − )2
2
n
δ i=0
n
=
i
2m X
i
Bi,n (x)(x2 − 2x + ( )2 ) .
2
n
n
δ i=0
115
Wir nutzen
n X
n
xi (1 − x)n−i = 1 ,
i
i=0
n n X
X
n − 1 i−1
n i
i
= x
x (1 − x)(n−1)−(i−1) = x ,
x (1 − x)n−i
n
i−1
i
i=1
i=0
n n
X
n i
n − 1 i−1
xX
x
n−i i 2
(i − 1)
x (1 − x) ( ) =
x (1 − x)n−i +
i
i−1
n
n
n
i=0
i=1
n
2
X
n − 2 i−2
x
x
(i − 1)
x (1 − x)n−i +
(n − 1)
=
i−2
n
n
i=2
1
x
x
= x2 (1 − ) +
= x2 + (1 − x) .
n
n
n
Dies impliziert für jedes x ∈ [0, 1]
X
i∈Mx
n
X
i=0
Bi,n (x)(x −
x(1 − x)
1
x 2
) = x2 − 2x2 + x2 +
≤
,
n
n
4n
i
|f (x) − f ( )|Bi,n (x) ≤
n
2m 1
ǫ
2 4n < 2
δ
wenn wir n mit nδ2 ǫ > m wählen. damit ist das Resultat gezeigt.
Die Bernstein-Polynome haben eine Reihe von intessanten Eigenschaften:
n
X
Bi,n (t) = Bn−i,n (1 − t) ( Symmetrie)
(8.12)
Bi,n (t) ≥ 0 ( Positivität)
(8.13)
Bi,n (t) = 1 ( Normalisierung)
(8.14)
Bi,n (·)
(8.15)
i=0
hat ein Maximum für t = i/n in [0, 1] .
Bi,n (t) = tBi−1,n−1 (t) + (1 − t)Bi,n−1 (t) , 1 ≤ i ≤ n. (ReKursion)
B0,n+1 (t) = (1 − t)B0,n (t)
(8.16)
(8.17)
Bn+1,n+1 (t) = tBn,n (t)
(8.18)
(8.19)
Die Einhüllende en (t) der Bernstein-Monome Bi,n (t), i = 0, . . . , n, ist gegeben durch
8.4
en (t) := p
1
2 π n t(1 − t)
, 0 ≤ t ≤ 1.
Bezier–Kurven
Eine Kurve Rd ist eine Abbildung
γ : [a, b] ∋ t 7−→ γ(t) := (γ1 (t), . . . , γd (t)) ∈ Rd ;
116
hier ist [a, b] das so genannte Parameterintervall. Wir nennen eine solche Kurve differenzierbar, falls für jedes t in [a, b] der Grenzwert
γ̇(t) = lim h−1 (γ(t + h) − γ(t))
h→0
existiert.3
Beispiel 8.4.1 Betrachte die Kurve
[0, 2π] ∋ t 7−→ (cos(t), sin(t)) ∈ R2 .
Offenbar ist die Kurve differenzierbar.
Eine polynomiale Kurve γ in Rd ist gegeben
durch
P : R ∋ t 7−→ a0 + a1 t + · · · + an tn ∈ Rd
1
wobei die Koeffizienten a0 , . . . , an ∈ Rd gegebene Vektoren in Rd sind. Eine solche Kurve kann
mit einer Horner-ähnlichen Methode ausgewertet werden. Aber es ist schwer, die Koeffizienten so zu manipulieren, dass die Kurve geometrische Eigenschaften besitzt. Dies ist bei den nun
zu besprechenden Bezier-Kurven anders. Bezier–
Kurven nutzen Bernstein-Polynome als Basisfunktionen.
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
1.2
Seien P0 , . . . , Pn gegebene Punkte in Rd . Die Abbildung 8.1: Approximation des Kreises
Kurve ist definiert durch
n
X
P (t) =
Pk Bk,n (t) , t ∈ [0, 1],
(8.20)
k=0
wobei B·,n die Bernstein-Monome der Ordnung n sind. Die Punkte P0 , . . . , Pn werden Kontrollpunkte oder Designpunkte genannt. Wir haben:
• P (0) = P0 , P (1) = Pn .
• Ṗ (0) = n(P1 − P0 ) , Ṗ (1) = n(Pn − Pn−1 ) .
• P (t) ∈ co({P0 , . . . , Pn }) :=
{y ∈ Rd |y = λ0 P0 + · · · + λn Pn , λ0 + · · · + λn = 1, λi ∈ [0, 1], i = 0, . . . , n} .
Die letzte Eigenschaft besagt, dass die Kurve in der konvexen Hülle der Kontrollpunkte liegt.
Der Beweis dieser Eigenschaft stützt sich auf die Eigenschaften (8.13), (8.14).
Die Rekursionseigenschaft (8.16) führt zu einer numerisch stabilen und effizienten Methode,
die Bezierkuve an einer festen Stelle t auszuwerten, nämlich zum Algoithmus von de Casteljau.
3
Im Kontext von Kurven benutzen wir die Bezeichnungsweise der Physiker: γ̇(t) anstatt γ ′ (t).
117
Die Basis der Methode ist die folgende Umfomulierung einer Bezier–Kurve (8.20):
P (t) =
n
X
Pk Bk,n (t) = P0 B0,n (t) +
k=0
n−1
X
Pk Bk,n (t) + Pn Bn,n (t)
k=1
= (1 − t)P0 B0,n−1 (t) + (1 − t)
+tPn Bn−1,n−1 (t) + t
n−1
X
n−1
X
Pk Bk,n−1 (t)
k=1
Pk Bk−1,n−1 (t)
k=1
Wir sehen also, dass die Bezier–Kurve der Ordnung n die Konvexkombination zweier Bezier–
Kurven der Odnung n − 1 ist. Hier ist ein Fragment des Algorithmus von de Casteljau.4
de Casteljau:
for j = 0, . . . , n
Q0j := Pj ;
for r = 1, . . . , n
für j = 0, . . . , n − r
r−1
+ t(Qr−1
Qrj := Qr−1
j
j+1 − Qj ) ;
P (t) := Qn0 .
Here P0 , . . . , Pn are the control points and t is the parameter where the value of the
Bezier–curve has to be found.
Beispiel 8.4.2 Wir wollen die Kreislinie mittels einer Bezier–Kurve P dritter ordnung approximieren. Wir führen dies im ersten Quadranten duch und fodern, dass die Tangenten in den
Endpunkten
P0 = (1, 0) , P3 = (0, 1)
mit den Tangenten am Einheitskreis übereinstimmen. Daher haben wir Kontrollpunkte P1 , P2 auf
den Tangenten an die Kreislinie zu wählen. Da wir die Symmetrie der Approximation bezüglich
der Winkelhalbierenden x = y in R2 erreichen wollen, sind die Punkte P1 , P2 mit den Koordinaten
P1 = (1, ξ) , P2 = (ξ, 1) wobei ξ ein freier Parameter ist,
zu wählen. Wir bestimmen den freien Paameter so, dass der Punkt P ( 21 ) ein Punkt auf der
Kreislinie ist: ξ ≈ 0.5519 . Mit diesen Kontrollpunkten P0 , P1 , P2 , P3 wird die zugeordnete Bezier–
Kurve eine ziemlich gute Approximation der Kreislinie: wir können kaum zwischen Approximation und Kreislinie unterscheiden. siehe Abbildung 8.1.
8.5
Übungen
8.1 Consider a polynomial p of degree 3 of the form
p(x) = a0 + a1 x + a2 x2 + a3 x3 , a0 , a1 , a2 , a3 ∈ R .
4
Bezier und de Casteljau waren Angestellte bei Renault bzw. Citroen. Der Algoithmus war verborgen in einem
technischen Report(1963).
118
(a)
Show that p has three distinct real roots when p′ has two distinct real roots u1 , u2 and
p(u1 )p(u2 ) < 0 .
(b) Is the converse in (a) true?
8.2 Consider a polynomial p of degree 3 with coefficients a0 , a1 , a2 , a3 ∈ [0, 1] .
(a)
What is an upper (u) and a lower bound (l) for the values of p in the interval [0, 1]?
(b) Construct polynomials p1 , . . . , p1 with random coefficient in [0, 1] and find for each polynomial the value in z = 21 .
(c)
Visualize the results by a plot.
8.3 Let f (x) := ex , x ∈ R and ε := 10−3 . Consider the equidistant partition 0 = x0 < x1 <
· · · < xn = 1 . Determine a number n ∈ N such that
kf − gn k∞ ≤ ε
when gn is chosen as the interpolating polynomial or the natural cubic spline.
8.4 For strictly monotone functions f one can use the inverse interpolation for finding zeros of
f.
Let x0 < · · · < xn a set of nodes and let yi = f (xi ), i = 0, . . . , n, given values. The method
consists in interpolating the data xi of f −1 in the nodes yi . The value q(0) of this interpolation
polynomial is an approximation of an zero of f . This value can be found by the Aitken-scheme.
Use this method to solve the equation f (x) := 2x − 3 = 0 using the nodes x0 = 0, x1 = 1, x2 =
1.5, x3 = 2 . Which additional node x4 should be used to improve the accuracy of the solution
of this equation.
8.5 Consider the statistical data of the population of the world in the table to right.
(a)
Compute with the Aitken-scheme the size of the population for the year 0 by using the data 1-4.
(b) Compute with the Aitken-scheme the size of the population for the year 2000 by using the data 5-8.
no.
1
2
3
4
5
6
7
8
year
−7000
−1000
900
1700
1800
1900
1950
1960
population
10
80
320
600
906
1608
2414
3003
8.6 Suppose the function g has an inverse f on [a, b] . If a = x0 < x1 < · · · < xn and
yi = g(xi ), i = 0, . . . , n. Then the polynomial that interpolates the data (yi , xi ) is an interpolate
of the inverse f (inverse interpolation).
(a)
Compute an approximate of g(x) = 2 by using inverse interpolation when we know the
data
0 = g(0), 1 = g(1), 4 = g(2), 9 = g(3) .
(b) Give an estimate for the period of life of adam and eve by using the data 1-4 in the table
of the last exercise.
8.7 Let us define for a continuous function g : [a, b] −→ R
En (g) := inf max |g(x) − p(x)| , n ∈ N .
p∈Pn x∈[a,b]
Here Pn := {p|p polynomial of degree ≤ n} . Let f (x) := x2 , x ∈ [0, 1] .
119
(a)
Determine p ∈ P1 whit E1 (f ) = maxx∈[0,1] |f (x) − p(x)| .
(b) The Bernstein-approximations of f are given by
bn (f ; x) :=
n
X
i=0
i n i
x (1 − x)n−i , n ∈ N .
f( )
n i
Represent b1 (f ; ·) and b2 (f ; ·) by a linear combination of the monomials.
(c)
Compute E2 (f ) and maxx∈[0,1] |f (x) − b2 (f ; x)| .
8.8
(a)
Realize the de Casteljau-algorithm in a Matlab-function y= YourCasteljau(PP,tt) where PP is the vector of control points and tt is the parameter for the evaluation.
(b) Use y= YourCasteljau(PP,tt) to find the Bezier–curve with control points
P0 = (1, 1) , P1 = (4, 7) , P2 = (9, 8) , P3 = (14, 3) .
8.9 Consider the polynomial p(x) := a0 + a1 x + · · · + an−1 xn−1 + xn ; a0 , . . . , an−1 ∈ R .
(a)
−1
Let k0 , . . . , kn−1 ∈ (0, ∞) with k0−1 + · · · + kn−1
= 1 . Show for each zero z of p
|z| ≤
p
n−i
max
0≤i≤n−1
|ai |ki .
(b) Try to find with (a) a reasonable bound for the zeros of the polynomial p(x) := x3 − x2 +
x − 1.
(c)
Find all zeros of p(x) := x3 − x2 + x − 1.
8.10 Associated to the nodes x0 < x1 < x2 < · · · < xn the Lagrangian polynomials are given
by
n
Y
x − xk
, j = 0, . . . , n .
Ln,j (x) =
xj − xk
k=0,k6=j
Q
Let w(x) := nk=0 (x − xk ) .
(a)
Show Ln,0 (x) + Ln,1 (x) + · · · + Ln,n (x) = 1, x ∈ R .
(b) Show Ln,j (x) =
(c)
w(x)
, j = 0, . . . , n .
(x − xj )w′ (xj )
Assume that the values y0 , . . . , yn are given. Using (b) the interpolating polynomial is given
by
n
X
βj
yj
p(x) = w(x)
with βj = ′
, j = 0, . . . , n .
(x − xj )
w
(x
)
j
j=0
What is the advantage of this presentation in comparison to the usual presentation
p(x) =
n
X
yj Ln,j (x) ,
j=0
when we want to evaluate the interpolating polynomial p for several points x = z1 , . . . , zm
?
8.11
120
(a)
Write a Matlab-code MyHorner(a,z) to evaluate a polynomial with the coefficients ai in
z.
(b) A polynomial of the form
p(x) = a0 + a2 x2 + · · · + am x2m
is said to be even, while a polynomial of the form
p(x) = a1 x + a3 x3 + · · · + am x2m+1
is said to be odd.
Generalize MyHorner(a,z) so that it has an optional third argument type that indicates
whether or not the underlying polynomial is even or odd: YourHorner(a,z,type)
(c)
Test YourHorner(a,z,type) with the polynomial p(x) := x4 − 2x2 + 1 and with z = 1 .
121
Kapitel 9
Fast Fourier Transform
The fast Fourier transform (FFT) is an important tool in signal analysis and image processing.
We sketch the main issues in implementing this transform.
9.1
Some comments concerning signal theory
A signal is a function of time“ which is used to carry information. Examples of sciences are:
”
• Audio signals (speech, music, videos)
• Radar signals
• Digital signals in imaging
• Cell signalling
(Digital) signal processing ist the study of signals in a (digital) representation and the
processing methods of these signals. Subfields of signal processing are: sampling of signals,
converting signals from an analog to a digital form, enhancement of signals, filtering of signals,
storing of signals, coding of signals.
Definition 9.1.1 A function s : R −→ R of the form
s(t) = a sin(ωt + ϕ) , t ∈ R,
is called a harmonic signal. a is called the amplitude, ω the circle frequency (measured in
sec−1 ), ν := ω/(2π) the frequency (measured in Hz (hertz)), T := 1/ν period and ϕ the phase
of the signal, respectively.
The hertz1 is a unit of frequency. One hertz means one cycle per second“. In computing, most
”
CPUs are labeled in terms of their clock speed expressed in megahertz (106 hertz) or gigahertz
(109 hertz). This signal is simply an electric voltage which changes from low to high and back
again at regular intervals.
A harmonic signal s is a special case of a harmonic signal in complex notation:
x : R −→ C , x(t) := a exp(i(ωt + ϕ)) , t ∈ R,
since s can be viewed as the imaginary part of x:
s(t) = ℑx(t) , t ∈ R .
1
H.R. Hertz, german physicists
122
Definition 9.1.2 A function f : R −→ R is called a periodic signal if there exists a time“
”
T̃ > 0 with f (t + T̃ ) = f (t) for all t ∈ R ; T̃ is called a period of f .
In the case that f is a periodic signal, T := inf {T̃ > 0 | T̃ a period of f } is called the period of
f.
It should be clear that for a periodic signal the number T is the smallest period of f when f is
a continuous function. Especially, each harmonic sgnal is periodic with period T = 1/ν .
Example 9.1.3 The superposition of periodic signals is not necessarily a periodic signal. This
shown by two examples of harmonic signals:
s1 (t) := a1 sin(ω1 t) , s2 (t) := a2 sin(ω2 t) , t ∈ R ,
where a21 + a22 6= 0 . Then s := s1 + s2 can be represented as s(t) = sm (t)str (t) where
1
sm (t) = (a21 + a22 + 2a1 a2 cos((ω1 − ω2 )t)) 2 , t ∈ R ,
1
a1 − a2
1
str (t) = sin( (ω1 + ω2 )t + ϕ(t)) , t ∈ R , with tan(ϕ(t)) =
tan( (ω1 + ω2 )t) .
2
a1 + a2
2
str and sm are called carrier signal and modulated signal, respectively. The frequency of
the carrier signal and the amplitude is timedependent. An interesting special case is when the
difference of the frequencies of the harmonic signals is small. This phenomenon is called beat
(in Deutsch: Schwebung).
It is a very important fact that it is possible to decompose periodic signals into a decomposition of a countable family of harmonic signals. This is considered in the theory of Fourier series
very extensively; we refer to the literature.
9.2
Trigonometric interpolation problem
Definition 9.2.1 A trigonometric polynomial is a function p : R −→ C of the following
form:
n
X
cj eijt , t ∈ R ;
p(t) :=
j=0
c0 , . . . , cn ∈ C are called the coefficients of p and n is called the degree of p (when cn 6= 0).
We set
Tn := {p : R −→ C | p trigonometric polynomial of degree ≤ n} .
It is immediately clear that each trigonometric polynom p is periodic function with period 2π :
p(t + 2π) = p(t) for all t ∈ R .
Trigonometric interpolation problem
Given n distinct points τ := 0 = t0 < t1 < . . . < tn−1 < 2π on the real line
and y0 , . . . , yn−1 ∈ C, find a trigonometric polynomial p of degree n − 1 such that
p(ti ) = yi for i = 0, . . . , n − 1.
(Again, the points t0 , . . . , tn−1 are called the nodes of the partition τ .)
123
Satz 9.2.2 (Existence) Given the data points (t0 , y0 ), . . . , (tn−1 , yn−1 ), then there exists a
uniquely determined polynomial p in Tn−1 with p(ti ) = yi for i = 0, . . . , n − 1.
Proof:
Consider the linear mapping
L : Cn −→ Cn , (c0 , . . . , cn−1 ) 7−→ (pc0 ,...,cn−1 (t0 ), . . . , pc0 ,...,cn−1 (tn−1 )) ∈ Cn
Pn−1
where pc0 ,...,cn−1 (t) := j=0
cj eijt , t ∈ [0, 2π] .
We prove the injectivity of L. Since L is a linear mapping it is enough to show that the preimage
of the null vector must be the nullvector.
Let L(c0 , . . . , cn−1 ) = (0, . . . , 0). Then
0=
n−1
X
j=0
cj eijtk , k = 0, . . . , n − 1 ,
and we conclude that the polynomial
q(z) :=
n−1
X
cj z j
j=0
has n different zeros, namely
z0 = 1 = eit0 , z1 = eit1 , . . . , zn−1 = eitn−1 .
This implies that q is the null polynomial by the fundamental theorem of algebra and therefore
pc0 ,...,cn−1 is the null polynonial. This proves uniqueness. Since L is a linear mapping, L is
surjective too for dimension reasons. Hence L is bijective and uniqueness and existence are
proved.
Lemma 9.2.3 We have
n−1
1 X l−k j
(ωn ) =
n
j=0
(
1
0
if l = k
, k, l = 0, . . . , n − 1 ,
if l =
6 k
(9.1)
where ωn := exp(− 2πi
n ) is the n-th root of unity.
Proof:
When k = l nothing has to be shown. Let k 6= l. Assume k > l. Then
n−1
X
(ωnl−k )j =
j=0
(l−k)
since ωn
1 − ωn(l−k)n
1 − ωn(l−k)
(l−k)n
6= 1 due to 0 < k − l < n and ωn
= 0,
= e2πi(k−l) = 1 .
Satz 9.2.4 Let 0 = t0 < · · · < tn−1 < 2π be an equidistant partition of [0, 2π] :
tj = 2π
j
, j = 0, . . . , n − 1 .
n
Then the solution p of the interpolation problem is given as follows:
p(t) =
n−1
X
j=0
n−1
cj eijt , t ∈ R, where cj =
124
1 X jl
(ωn ) yl
n
l=0
(9.2)
Proof:
Since ωnjk = e−ijtk we obtain by using Lemma 9.2.3


!
n−1
n−1
n−1
X
X
X
X 1 n−1
1
(ωnl−k )j  = yk , k = 0, . . . , n − 1 .
(ωnjl )yl ωn−jk =
yl 
p(tk ) =
n
n
j=0
9.3
l=0
j=0
l=0
Discrete Fourier transform
Definition 9.3.1 The mapping ˆ : Cn −→ Cn , Cn ∋ z 7−→ ẑ ∈ Cn , with
ẑj :=
n−1
X
k=0
ωnjk zk , j = 0, . . . , n − 1
is called the discrete Fourier transform (DFT); here again ωn := exp(− 2πi
n ).
(9.3)
Remark 9.3.2 According to Theorem 9.2.4, the discrete Fourier transform can be used to compute the coefficients c := (c0 , . . . , cn−1 ) of the interpolating polynomial in the case of equidistant
distributed nodes:
1
c = ŷ where y := (y0 , . . . , yn−1 ) .
(9.4)
n
Lemma 9.3.3 Let z = (z0 , . . . , zn−1 ) ∈ Cn . Then
n−1
zl =
1 X −jl
ωn ẑj , l = 0, . . . , n − 1 .
n
(9.5)
j=0
Proof:
We have with Lemma 9.2.3 for l = 0, . . . , n − 1
n−1
n−1 n−1
n−1
n−1
j=0
j=0 k=0
k=0
j=0
X 1X
1 X −jl
1 X X −jl kj
zk
ωn ωn zk =
ωn ẑj =
ωn(k−l)j = zl .
n
n
n
Definition 9.3.4 The mapping ˇ : Cn −→ Cn , Cn ∋ z 7−→ ž ∈ Cn , with
žj :=
n−1
X
k=0
ωn−jk zk , j = 0, . . . , n − 1
(9.6)
is called the inverse discrete Fourier transform (IDFT); here again ωn := exp(− 2πi
n ). Corollary 9.3.5
(a) ˆ, ˇ : Cn −→ Cn are linear and bijective mappings.
(b)
n−1
X
k=0
n−1
|zk |2 =
1X
|ẑj |2 , z = (z0 , . . . , zn−1 )
n
j=0
125
(9.7)
Proof:
The linearity is obvious. The bijectivity follows from Lemma 9.3.3. Let us prove the identity in
(9.7).



n−1
n−1
n−1
X 1 n−1
X
X
X

ωn−jk ẑj  
|zk |2 =
ωn−lk ẑl 
2
n
j=0
k=0
k=0
l=0
=
=
n−1 n−1
1 X X (l−j)k
ωn
ẑj ẑl
2
n
j=0 l=0
k=0
n−1
X
n−1
X
ẑj
j=0
=
n−1
X
n−1
X
l=0
ẑj ẑj
j=0
ẑl
n−1
1 X (l−j)k
ωn
n2 k=0
1
n
Remark 9.3.6 It is possible to compute the discrete Fourier transform and the inverse Fourier
transform by the operation of a certain matrix on the data. Let
1
Ŵ := √ (ωnkj )1≤j,k≤n ∈ Cn,n ,
n
1
W̌ := √ (ωn−kj )1≤j,k≤n ∈ Cn,n .
n
With these matrices we have for z = (z0 , . . . , zn−1 ) ∈ Cn
√
ẑj = n(Ŵ z)r if j = r mod n ,
1
žj = √ (W̌ z)r if j = r mod n .
n
Here a = r mod b means a = kb + r for some k ∈ Z .
Clearly, the evaluation of the discrete Fourier transform and of the inverse discrete Fourier
transform in a straight forward manner needs O(n2 ) flops.
9.4
Fast Fourier Transform
Here we illustrate the basic steps of the Fast Fourier Transform (FFT).2 This is a recursive
method which evaluates the discrete Fourier transform in O(n log2 (n)) flops when n is a power
of 2. A recursive algorithm to compute the DFT in this case is described in the following.
Let z := (z0 , . . . , zn−1 ). We want to compute Z := ẑ . Clearly, when we have a fast procedure
for the computation of the vector Z = (Z0 , . . . , Zn−1 ) then we have a fast procedure for the
inverse Fourier transform ž too. This follows from
žn−j
n−1
n−1
n−1
k=0
k=0
l=0
X1
X1
1 X −k(n−j)
=
zk ωn−kn+kj =
zl ω kj = ŵj , j = 0, . . . , n − 1 ,
ωn
zk =
n
n
n n
2
This transform was discovered in 1965 by Cooley and Tuckey. Actually, the FFT was discovered by Gauss
in 1805 - two years before Fourier completed his first big article – but Gauss never published his paper on this
subject.
126
1z ,..., 1z
where w = ( n
0
n n−1 ) .
Consider the following properties:
(n−k)j
Symmetry ωn
= ωnkj , k, j = 0, . . . , n − 1 .
k(j±n)
Periodicity ωnkj = ωn
= ωn±nj , k, j = 0, . . . , n − 1 .
These properties are basic in the cyclic group
Rn := {1, ωn , . . . , ωnn−1 } .
With the help of the symmetry property one can save certain operations. But the break
through is to introduce the periodicity property. This property makes it possible to divide the
problem into smaller problems of the same form.
Let n = 2s , s ≥ 2, and m := n/2 = 2s−1 . We want to solve the following problem:
Given z = (z0 , . . . , zn−1 ) ∈ C,
compute Z := ẑ = (ẑ0 , . . . , ẑn−1 ) .
We start from the following observation:
Zj =
n−1
X
ωnkj zk
=
m−1
X
ωn2lj z2l
l=0
l=0
+
m−1
X
ωn(2l+1)j z2l+1
=
m−1
X
(ωn2 )lj z2l
+
ωnj
l=0
l=0
m−1
X
(ωn2 )lj z2l+1
l=0
Since
ωn2 = ωm , ωnm = −1,
we obtain
Zj = Uj + ωnj Vj , Zj+m = Uj − ωnj Vj , j = 0, . . . , m , where
Uj =
m−1
X
lj
ωm
z2l , Vj =
l=0
m−1
X
l=0
lj
ωm
z2l+1 , j = 0, . . . , m − 1 .
(9.8)
(9.9)
From this identities we conclude that
the computation of the DFT of size
n can be carried out by applying two
n
2
16
256
1024
DFT of size m = n/2 . All what we
FT
4
256 65536 1048576
have to do is to divide the data vecFFT
2
64
2048
10240
tor z of size n into two data vectors
Einsparung 50 % 75 % 97 %
99 %
z e , z o of size m = n/2, where z e conAbbildung 9.1: Schnelligkeitsvergleich
tains the components with even and
o
z contains the components with odd subscripts respectively. Of course, the problems of size
m can now be treated in the same way. Since n = 2s with s = log2 (n) the recursive scheme
computes the result in log2 (n) stages; the problem with n = 1 is trivial solvable.
Such a procedure is called a method of
divide et impera“
”
spalte und herrsche“
”
127
divide and conquer“
”
The method to compute a discrete Fourier transform in this recursive manner (see (9.8),
(9.9)), is called the fast Fourier transform/FFT. It can be realized by the following fragment
of an algorithm:
MATLAB-illustration 9.1
The size n of the problem has to
be a power of 2.
a.∗b denotes the multiplication“
”
of the vectors
a = (a0 , . . . , an−1 ),
b = (b0 , . . . , bn−1 )
by building the vector
(a0 b0 , . . . , an−1 bn−1 ).
function Z = F F T (z)
n = length(z); m = n/2;
if n = 1
Z = z return
end
U = F F T (z0 , z2 , . . . , zn−2 ),
V = F F T (z1 , z3 , . . . , zn−1 )
for k = 0 : m − 1
wk = exp(−2 ∗ P i ∗ i ∗ k/n)
end
Z = (U + w. ∗ V, U − w. ∗ V )
Example 9.4.1 Consider the DFT Z of the vector z = (3, −2, 0, 1) . The recursion leads to the
following steps:
U := 3, V := 0, w := 1, Z := (3 + 1 · 0, 3 − 1 · 0) = (3, 3) .
U := −2, V := 1, w := 1, Z := (−2 + 1 · 1, −2 − 1 · 1) = (−1, −3) .
U := (3, 3), V := (−1, 3), w := (1, i); therefore
Z := ((3, 3) + (−1, −3i), (3, 3) − (−1, −3i)) = (2, 3 − 3i, 4, 3 + 3i) .
Remark 9.4.2 The FFT procedure can also be set up when n is not a power of 2. An effective
way to handle the general case is to consider the DFT as a problem of multiplying a matrix
C of size n to the data vector. Due to the properties of the principal roots this matrix can be
partionated into subblocks of smaller size.
The implementation of the method is illustrated by the so called
butterfly diagram; see Figure 9.2.
Let C(n) be the computational
cost for computing the DFT of size n where n is a power of 2 via
the fast Fourier transform. Then the
FFT solves the DFT of size n with
cost
C(n) = 2C(n/2) + c(n)
(9.10)
z0
Fouriertrans−
z2
formation der
z4
Ordnung 4
z6
z1
Fouriertrans−
z3
formation der
z5
Ordnung 4
z7
U0
U1
ω1
Ζ0
Ζ1
Ζ2
U3
Ζ3
V0
Ζ4
V1
V2
− ω2
−ω
Abbildung 9.2: Butterfly
128
0
U2
V3
where c(n) := 3(n/2) is the cost for
the computation scheme in (9.8); here we have omitted the computational cost for the evaluation of ωnj .
ω
3
Ζ5
Ζ6
Ζ7
Satz 9.4.3 Let n be a power of 2.
The cost for computing the discrete Fourier transform of z ∈ Cn by the fast Fourier transform
is
O(n log2 n) .
Proof:
We set C(s) := T (2s ) . Oviously C(1) = 2 . We show
C(s) = 1.5s2s , s ∈ N ,
inductively. Clearly, C(1) = 2 . Moreover
C(s + 1) = 2C(s) + 3 2s = 3 s2s + 3 2s = 1.5(s + 1)2s+1 .
Remark 9.4.4 We have proved the complexity of the fast Fourier method in Theorem 9.4.3 in
direct way without using the master theorem of complexity
In Section 9.4 we have already mentioned that the computation of the discrete Fourier transform may also considered as multiplication of a vector with a matrix W :
W := (wnjk )0≤j,k≤n−1
What is the relation with the fast Fourier transform? The answer is that W may decomposed
into s blocks of sparse matrices W 1 , . . . , W s ∈ Cn,n by using the periodicity of the powers of
ωn , i.e.
W = Ws ···W1 .
Then, the computation of the discrete Fourier transform ẑ is done in the following way:
Z 0 := z , Z k+1 := W k Z k , k = 0, . . . , s − 1 ; ẑ := Z s .
We sketch this procedure in the case n = 4 . We set ω := ω4 . Here W is given as follows:


1 1
1
1
1 ω 1 ω 2 ω 3 

W =
1 ω 2 1 ω 2  .
1 ω3 ω2 ω1
We want to compute Z := W z . We swap
  
1 1
Z0
Z2  1 ω 2
 =
Z1  1 ω 1
1 ω3
Z3
in the vector Z the components Z1 , Z2 and obtain:
 
z0
|1
1
2


|1
ω  z1 
 , Z̃ = W̃ z .
2
| ω ω 3  z2 
| ω2 ω1
z3
Then we see that the submatrices W11 , W12 , W21 , W22 of W̃ satisfy
W12 = W11 , W22 = ω 2 W21 .
129
This fact suggests a decomposition of W̃ into a
 

1 1
1
1
1 1
1 ω 2 1 ω 2  1 ω 2
 

1 ω 1 ω 2 ω 3  = 0 0
1 ω3 ω2 ω1
0 0
product in the following way:


0 0
1 0
1
0

0 0
0
1
.
 0 1
2
0
1 1  1 0 ω
0 ω1 0 ω3
1 ω2
Now, the computation may be carried out in two steps.
Step 1 (Notice that ω 2 = −1)
 1 
 
Z0
1 0
1
0
z0
Z11  0 1


0
1  z1 
 =
.
Z 1  1 0 −ω 0
0  z2 
2
Z31
0 ω1
0
−ω 1
z3
To realize this step we need 4 (complex) multiplications and 2 (complex) additions.
Step 2 (We ignore the fact ω 2 = −1)
 2 
  1
Z0
1 1 0 0
Z0
Z 2  1 ω 2 0 0  Z 1 
 1 = 
  1
Z22  0 0 1 1  Z21  .
Z32
0 0 1 ω2
Z31
Actually, this product corresponds to two discrete Fourier transforms of size 2, since ω 2 = ω2 .
For the realization of this step we need 2 (complex) multiplications and 4 (complex) additions.
For the realization of step 1 and step 2 we need 8 (complex) multiplications and 4 (complex)
additions. This corresponds to the result in Theorem 9.4.3.
Remark 9.4.5 Digital pictures/images are usually given by a matrix of real numbers representing the gray (or color) values. Such a matrix F = (fij )i,j=0,...,n−1 has a diskrete (2D–
)Fouriertransformation F̂ = DFT(F ):
F̂ (k, l) :=
n−1
X n−1
X
i=0 j=0
f (i, j)ωn(ki+lj) , k, l = 0, . . . , n − 1 .
Since this 2D-transform may be decomposed into two 1D-discrete Fourier transforms we may
use the fast Fourier transform for image analysis too.
9.5
Exercises
130
Kapitel 10
Verteilungen und Statistik
Statistik beschäftigt sich der Auswertung/Bewertung von Daten und dem Testen von Hypothesen. Das Wort Statistik stammt vom lateinischen statisticum (den Staat betreffend). Die Statistik
bezeichnete ursprünglich die Lehre von den Daten über den Staat, also Staatstheorie1 . Erst im
19. Jahrhundert erlangte es seine heutige Bedeutung als allgemeines Sammeln und Auswerten
von Daten. Heutzutage liegen sehr erfolgreiche Software-Pakete vor, die Aufgaben bei konkreten
Daten erledigen.
10.1
Merkmale, Stichproben und Simulation
Die Statistik kann in die folgenden drei Teilbereiche eingeteilt werden:
Deskriptive/empirische Statistik Damit werden vorliegende Daten in geeigneter Weise beschrieben und zusammengefasst. Mit ihren Methoden verdichtet man quantitative Daten
zu Tabellen, graphischen Darstellungen und Kennzahlen.
Mathematische Statistik In der mathematische Statistik, auch schließende Statistik genannt,
leitet man aus den Daten einer Stichprobe Eigenschaften einer Grundgesamtheit ab. Die
Wahrscheinlichkeitstheorie liefert die Grundlagen für die erforderlichen Schätz- und Testverfahren.
Explorative Statistik Diese Form der Statistik stellt methodisch eine Zwischenform dar: Mittels deskriptiver Verfahren und induktiver Testmethoden spürt sie systematisch mögliche
Zusammenhänge (oder Unterschiede) zwischen Daten in vorhandenen Datenbeständen
(Datenschürfung (data mining)) auf.
Im Alltag, in Wissenschaft und Technik, in Verwaltungen fallen große Datenmengen an oder
werden gezielt erhoben. Im Regelfall sind dies Daten über ein Merkmal X, das an den Elementen einer (umfangreichen) Beobachtungseinheit/Untersuchungseinheit einer Grundgesamtheit
von Individuen oder Objekten in unterschiedlichen Ausprägungen zu erkennen ist. Werte, die
von Merkmalen angenommen werden können, heißen Merkmalsausprägungen. Etwa:
Untersuchungseinheit
Erbsen
Laptops
Bürgertum
Merkmal
Oberfläche
Leistungsfähigkeit
Schulabschluss
Ausprägungen
glatt, runzelig,. . .
Taktfrequenz in Hertz, Operationen/Sekunde. . .
Hauptschule, Promotion,. . .
1
Die deutsche Statistik wurde eingeführt von Gottfried Achenwall (1749). Im Statistischen Bundesamt (mit
Sitz in Wiesbaden) mit seinem hoheitlichen Charakter spiegelt sich recht gut der historische Ursprung des Begriffs
Statistik wider.
131
Das Ziel von Datenanalyse ist dann, eine aufschlussreiche Beschreibung der Verteilung dieser
Ausprägung über die Beobachtungsmenge zu gewinnen. Unter einer statistischen Aussage über
ein Merkmal X verstehen wir dann eine Aussage über diese Verteilungen. Wahrscheinlichkeiten
kommen dann ins Spiel, wenn wir in X eine Zufallsgröße sehen (oder vermuten). Werden wir
etwas formaler.
Definition 10.1.1 Sei Ω eine endliche nichtleere Menge.
a) Sei M eine Menge. Jede Abbildung X : Ω −→ M heißt Merkmal auf der Grundgesamtheit/Beobachtungsmenge Ω ; das Bild X(ω) für ein Element ω ∈ Ω nennt man
seine Ausprägung.
(b) Ein Merkmal X mit Wertebereich M := R nennt man ein quantitatives Merkmal.
(c) Die Beobachtung von Ausprägungen x1 , . . . , xn ∈ M von n Elementen aus Ω nennt man
eine Meßreihe.
Beachte: Die Werte in einer Stichprobe müssen nicht notwendigerweise verschieden sein.
Bei quantitativen Merkmalen unterscheidet man noch zwischen quantitativen und kontinuierlichen Merkmalen. Etwa:
Diskrete Merkmale: Anzahl der Diplomabschlüsse pro Jahr, Zahl der Milchkühe in Bayern,
Alter in Jahren.
Kontinuierliche Mermale: Gewicht eines Affen in einer Affenpopulation; Entfernungen im
Planetensystem.
Beispiel 10.1.2 Der Fachbereich Mathematik der Universität startet eine Umfrage unter ehemaligen Studenten, die in den letzten fünf Jahren den Abschluß als Diplommathematiker erreicht
haben. Es wird eine Fragebogen erarbeitet und verschickt mit folgenden Fragen:
(1) Wieviele Monate dauerte es vom Erwerb des Diploms bis zur ersten Anstellung?
(2) Sind Sie selbständig erwerbstätig oder war ihre erste Anstellung an einer Universitätseinrichtung, in einer Großfirma (mehr als 200 Mitarbeiter), in einem mittelgroßen Betrieb
(30 bis 200 Mitarbeiter), in einer Kleinfirma (weniger als 30 Mitarbeiter) oder sind Sie
noch ohne Anstellung?
(3) Wie schätzen Sie Ihr Gehalt ein? Höher, etwa gleich oder niedriger als das Gehalt von
Diplominformatikern?
Die erste Frage bezieht sich auf ein quantitatives Merkmal, als Antwort kommt eine Zahl in
Frage, die zweite Frage bezieht sich auf ein qualitatives Merkmal, als Antwort ist ein Element
aus der Menge mit den Elementen
selbständig, Universitätseinrichtung, Großbetrieb, Mittelbetrieb, Kleinfirma, ohne Anstellung
zu entnehmen. Die dritte Frage bezieht sich auf ein Rangmerkmal, der Befragte soll sein Gehalt
in eine vorgegebene Liste einordnen. Die Beobachtungsmenge ist hier die Menge der erfolgreichen
Studienabgänger im Studiengang Diplommathematik“.
”
132
Als Stichprobe2 bezeichnet man eine Teilmenge einer Grundgesamtheit/Untersuchungseinheit, die unter bestimmten Gesichtspunkten ausgewählt wurde und über die hinsichtlich eines oder mehrerer interessierender Merkmale eine Aussage gemacht werden soll. Mit Stichproben wird in Anwendungen der Statistik (etwa in der Marktforschung, aber auch in der
Qualitätskontrolle und in der naturwissenschaftlichen, medizinischen und psychologischen Forschung) häufig gearbeitet, da es oft nicht möglich ist, die Grundgesamtheit, etwa die Gesamtbevölkerung oder alle hergestellten Exemplare eines Produkts, zu untersuchen. Grundgedanke
der Zuhilfenahme von Stichproben ist das Induktionsprinzip, bei dem von besonderen auf allgemeine Fälle geschlossen wird.
Um die einzelnen Elemente einer Stichprobe zu erhalten, stehen verschiedene Auswahlverfahren zur Verfügung. Die korrekte Wahl des Auswahlverfahrens ist wichtig, da die Stichprobe
repräsentativ sein muss, um auf die Grundgesamtheit schließen zu können (siehe dazu z.B.
Hochrechnung). Entscheidend ist eine vernünftige Probenahme, die über den Erfolg der Aussage entscheidet. Häufig sind mehrere Tests notwendig um sicherzustellen, dass tatsächlich rational
entschieden wurde.
Hat man dann schließlich die Stichprobe
gewählt, dann liegt das Problem der Datenbeschaffung an. Hier treten etwa bei BeProf. Ulmer: Der Wurm liegt im sogenannten refragungen folgende Probleme auf:
präsentativen Querschnitt. Den gibt es nämlich
• Ist es gut, Vorinformationen über
die Ziele einer Befragung zu geben?
• In welcher Weise kann die Anonymität der Befragung gewährleistet
werden?
• Kann die Befragung durch eine aktuelle Stimmungslage in der Grundgesamtheit beeinträchtigt werden?
• Wie wertet man eine geringe Rücklaufquote bei einer Befragung durch
verschickte Fragebögen?
gar nicht! Es ist unmöglich, aus allen Wahlberechtigten eine Gruppe von 500 bis 2000 Personen auszuwählen, die dann repräsentativ für alle
sind. Das geht auch nicht mit 10000.
Prof. Ulmer: Für eine handelsübliche Umfrage nehmen sie Telefonbücher und suchen darin
zufällig 1000 Nummern aus. Sie rufen an und fragen die Leute. Falls niemand zu Hause ist oder
die Person das Interview verweigert, dann wird
eine andere Nummer ausgelost bis 1000 Antworten vorliegen.
Prof. Ulmer ist Statistik-Professor
Abbildung 10.1: Stichprobenkontroverse
Was eine Grundgesamtheit ist, bedarf
einer genauen Festlegung. Nicht immer fällt dies leicht. Schwierige Fälle etwa sind: Population der arbeitsfähigen Personen, der Millionäre, der Einwohner in Frankfurt deutschen Blutes“.
”
Leichte Fälle: Firmen, die beim DAX berücksichtigt werden, Aktiengesellschaften im Bereich der
IHK Frankfurt, im Studiengang Diplommathematik“ in Frankfurt eingeschriebene StudentIn”
nen.
Simulation nennt man die Nachbildung eines realen Processes. Wir kennen die Begriffe
simulieren, Flugsimulator, Computersimulation. Hier interessiert die Nachbildung eines Zufallsversuches mit Hilfe eines Zufallsgeräts“. Dabei ist darauf zu achten, dass jedem Ausgang des
”
Zufallsversuchs genau ein Ausgang bei der Simulation entspricht. Natürlich müssen auch die
Wahrscheinlichkeiten der Ausgänge beim Zufallsversuch und der entsprechenden bei der Simulation übereinstimmen. Eine Simulation, welche für theoretische Überlegungen sehr wichtig ist,
2
Die Bezeichnung Stichprobe kommt von der Praxis, bei Hochöfen durch einen Anstich zu testen, ob der Stahl
eine gewünschte Eigenschaft hat.
133
bietet das Urnenmodell. Jeder Zufallsversuch mit rationalen Wahrscheinlichkeiten lässt sich
durch ein Urnenmodell simulieren. Ist nämlich Ω = {ω1 , . . . , ωn } die Menge der Elementarereignisse und
ai
mit ai ∈ N0 für i = 1, . . . , n, und a1 + · · · + an = b > 0 ,
P (ωi ) =
b
dann denke man sich eine Urne mit b Kugeln. Jeweils ai Stücke dieser Kugeln werden mit ωi
beschriftet. Eine Durchführung des Zufallsversuchs besteht dann drin, nachdem die Kugeln gut
gemischt wurden, blind“ eine Kugel aus der Urne zu ziehen, deren Aufschrift festzustellen. Bei
”
einer Ziehung mit Wiederholungen, wird die Kugel wieder zurückgelegt, bei einer Ziehung ohne
Wiederholung wird eventuell weitergezogen, ohne dass die Kugel wieder in die Urne zurückgelegt
wurde. Aus dieser Vorgehensweise leiten sich die 4 Grundaufgaben der Kombinatorik ab: Ziehen
mit und ohne Zurücklegen und mit und ohne Notierung der Reihenfolge der Ziehungsergebnisse;
siehe Abschnitt 5.5. Eines der bekanntesten Urnenexperimente stellt die Ziehung der Lottozahlen
dar.
Für praktische Fälle, in denen die experimentelle Durchführung eines Prozesses mühsam oder
schwierig ist, ist die Simulation mit Zufallszahlen besonders wichtig. Eine solche Simulation
wird auch als eine Monte Carlo-Simulation bezeichnet. Die Zufallszahlen werden dazu aus
Tabellen entnommen oder werden nach einer mathematischen Methode erzeugt; siehe Abschnitt
4.7.
10.2
Empirische Häufigkeitsverteilung
Sei X ein Merkmal in einer Untersuchungseinheit Ω und sei x1 , . . . , xn eine Stichprobe. Besitzt
das Merkmal X genau s verschiedene mögliche Ausprägungen a1 , . . . , as ∈ R, so gelangen wir
durch Bildung der absoluten Häufigkeiten
hj :=
n
X
i=1
χ{xi =aj } , j = 1, . . . , s ,
der Ausprägungen zur empirische Häufigkeitsverteilung des Merkmals X in der Stichprobe.
Die relativen Häufigkeiten sind gegeben durch
rj :=
Klar, wir haben
s
X
j=1
hj
, j = 1, . . . , s .
n
hj = n ,
s
X
rj = 1 .
j=1
Solche Häufigkeitsverteilungen dienen zur statistischen Beschreibung von Daten (Messwerten,
Merkmalswerten). Sie können in tabelarischer Form, als Stab/Balken- oder Kreisdiagramme dargestellt werden. Beim Stabdiagramm werden die absoluten bzw. relativen Häufigkeiten als Funktion der Merkmalsausprägungen, getrennt durch Zwischenräume, angezeigt, wobei hj bzw. rj
die Länge des Stäbchens über aj ist. Die Kreisdiagramme finden hauptsächlich bei qualitativen
Merkmalen Verwendung. Hier wird die Kreisfläche in Sektoren aufgeteilt, deren Flächen proportional zu den absoluten bzw. relativen Häufigkeiten der Ausprägungen sind. Beide Darstellungen
kennen wir von Wahlergebnissen: Stabdiagramme für die Prozentzahlen, Kreisdiagramme für die
Sitzverteilungen
Ein Histogramm ist die graphische Darstellung der Häufigkeitsverteilung von quantitativen
Messwerten. Man geht dabei von den nach Größe geordneten Daten aus und teilt den gesamten
134
Bereich der Stichprobe in k Klassen auf. Diese müssen nicht notwendig gleich breit sein. Allerdings vereinfachen zumindest im Mittelbereich gleichgroße Klassen die Interpretation. Über jeder
Klasse wird ein Rechteck errichtet, dessen Fläche proportional zur klassenspezifischen Häufigkeit
ist; es sieht aus, wie der Graph einer Treppenfunktion. Stab- bzw. Balkendiagramme sind als
Spezialfälle von Histogrammen anzusehen, allerdings wird dabei zwischen den Stäben/ Balken
kein Zwischenraum gelassen. Anwendung finden Histogramme auch in der Bildverarbeitung.
Ist X ein Merkmal auf der Grundgesamtheit Ω mit Merkmalsraum M, so liegen Begriffe
nahe, wie wir sie für Zufallsgrößen eingeführt haben.
Definition 10.2.1 Sei S = {x1 , . . . , xn } ⊂ M eine Stichprobe zum Merkmal X : Ω −→ M.
(a) Wir setzen
1
#{X = x} , x ∈ M,
n
und nennen die so definierte Funktion hS : M −→ R die Häufigkeitsfunktion oder
empirische Dichte des Merkmals X bei der Stichprobe S.
hS (x) :=
(b) Ist X ein quantitatives Merkmal, so setzen wir
HS (x) :=
1
#{X ≤ x} , x ∈ R ,
n
und nennen die so definierte Funktion HS : R −→ R die empirische Verteilungsfunktion.
Die Funktionen hS , HS erfüllen offenbar die folgenden Bedingungen:
• 0 ≤ hS (x) ≤ 1 , 0 ≤ HS (x) ≤ 1 , x ∈ R.
• HS ist monoton wachsend.
• lim HS (x) = 1, lim HS (x) = 0.
x→∞
x→−∞
Die Verwandschaft mit den Begriffen “Verteilung, Verteilungsfunktion“ wird deutlich, wenn
wir als Wahrscheinlichkeitsmaß das Zählmaß verwenden.
Beispiel 10.2.2 Zur Erhebung aus Beispiel 10.1.2. Ein Teil (98) der Befragten (107) antwortete. Die Auswertung der Antworten auf die 3. Frage ergab:
Wartezeit
x Monate
0
1
2
3
4
5
6
>6
Absolute Häufigkeit
#{X = x}
10
8
15
48
1
2
3
11
Aus der Tabelle in 10.2.2 lesen wir ab:
135
Relative Häufigkeit
hS (x)
0.10
0.08
0.15
0.48
0.01
0.02
0.03
0.11
(A) Zehn Prozent der befragten Mathematikabsolventen fanden ihre Arbeit bereits vor Ende
ihres Studiums (hS (0) = 0.10).
(B) Vier von fünf Befragten fanden ihre Arbeit bereits drei Monate nach Beendigung des Studiums (HS (3) = 0.81).
(C) Mehr als zehn Prozent der Befragten hatten nach einem halben Jahr noch keinen Job.
10.3
Statistische Parameter
Stichproben kann man durch die Angabe von sogenannten Kenngrößen“ kennzeichnen. Hier
”
besprechen wir die beiden Kenngrößen, die später als Approximation für den Erwartungswert
und die Varianz angesehen werden können.
Definition 10.3.1 Sei {x1 , . . . , xn } eine Stichprobe des quantitativen Merkmals X. Dann heißt
das arithmetische Mittel
1
x := (x1 + · · · + xn )
n
das Stichprobenmittel von S.
Das Stichprobenmittel besitzt eine Optimalitätseigenschaft.
Satz 10.3.2 Sei S = {x1 , . . . , xn } eine Stichprobe zum quantitativen Merkmal X. Dann gilt mit
dem Stichprobenmittel x :
n
n
X
X
2
(xi − x) = inf
(xi − x)2
i=1
x∈R
i=1
Beweis:
n
P
Betrachte f (x) :=
(xi − x)2 , x ∈ R. Es gilt für x̂ ∈ R :
i=1
f ′ (x̂) = −2
n
n
X
X
1 = 2n > 0.
(xi − x̂) , f ′′ (x̂) = 2
i=1
i=1
Also ist x̂ ein Minimum von f genau dann, wenn f ′ (x̂) = 0 gilt. Die Gleichung f ′ (x̂) = 0 führt
zu
n
n
X
1X
xi = x̄
xi = nx̂, d.h x̂ =
n
i=1
i=1
Eine weitere Kenngröße einer Stichprobe S = {x1 , . . . , xn } ist der Stichprobenmedian x̃ :
(
x n+1
, falls n ungerade
2
x̃ :=
1 (x n + x n+1 ) , falls n gerade
2 2
2
Der Median (Zentralwert) teilt die Stichprobe in zwei gleich große Teile, einen mit unterdurch”
schnittlichen“ Werten und einen mit überdurchschnittlichen“ Werten. Er ist unempfindlich
”
gegenüber sogenannten Ausreißern“, d.h. solchen Werten, die sehr stark von den durchschnitt”
”
lichen“ Werten abweichen; siehe Beispiel 10.3.3. Der negative Ausreißereffekt würde sich durch
136
ein gestutztes arithmetisches Mittel vermeiden lassen, man streiche etwa den kleinsten und
den größten Wert und bilde dann das arithmetische Mittel (vgl. mit der Wertung beim Ski– und
Wasserspringen).
Der Stichprobenmedian hat auch eine Optimalitätseigenschaft, nämlich
n
X
i=1
|xi − x̃| = inf
x∈R
n
X
i=1
|xi − x|
Die Schwierigkeit beim Nachweis dieser Eigenschaft liegt darin, dass die Funktion
g : R ∋ x 7−→
n
X
i=1
|xi − x| ∈ R
nicht überall differenzierbar ist. Aus der Darstellung
g(x) =
l
X
i=1
(x − xi ) +
n
X
(xi − x) = (2l − n)x +
i=l+1
n
X
I=l+1
xi −
l
X
xi ,
i=1
wobei o.E. x1 ≤ x2 ≤ · · · ≤ xn (Umnumerierung) gelte und l so gewählt sei, daß xl ≤ x ≤ xl+1
gilt, kann man durch Fallunterscheidung (n gerade/n ungerade) die angesprochene Optimalität
verifizieren.
Beispiel 10.3.3 In einem Bundesligakader von 20 Spielern ist folgende Gehaltsstruktur gegeben:
Verdienst pro Jahr:
6 Millionen Euro
3 Millionen Euro
500 000 Euro
Arithmetisches Mittel: 900 000 Euro
1 Spieler
1 Spieler
18 Spieler
Median: 500 000 Euro
Man sieht, der arithmetische Mittelwert sagt zwar etwas über die pro Jahr anfallende Lohnsumme
aus, sagt aber wenig über die durchschnittlichen Verdienstmöglichkeiten aus. Der Median ist hier
sicher ausagekräftiger.
Definition 10.3.4 Sei S = {x1 , . . . , xn } eine Stichprobe zum quantitativen Merkmal X mit
Mittelwert x . Die Zahl
v
u
n
u 1 X
t
sX :=
(xi − x)2
n−1
i=1
heißt Stichprobenstreuung oder Standardabweichung. Als Maß für die Abweichung von
Stichprobenmittel x dient die Stichprobenvarianz s2X .
Aus der Definition von s−X leitet man leicht die Aussage
√
√
xi ∈ [x − n − 1 sX , x + n − 1 sX ] , 1 ≤ i ≤ n,
ab. Sie zeigt deutlich, wie die Stichprobenstreuung die Ausdehnung der durch x1 , . . . , xn gegebenen Punktmenge auf der Zahlengeraden beschreibt. Die Standardabweichung gibt Auskunft, wie
sehr die Stichprobenwerte um ihr Zentrum streuen. Sie hat gegenüber der Stichprobenvarianz
137
den Vorteil, daß sie dieselbe Dimension wie das beobachtete Merkmal X hat.
Zur praktischen Berechnung von s2X ist oft die Gültigkeit der Identität
s2X
n
X
1
x2i − nx
=
n−1
i=1
nützlich (Nachweis!).
Bemerkung 10.3.5 In der Definition der Stichprobenvarianz würde man anstatt des Faktors
1
1
2
n−1 den Faktor n erwarten. Man beachte aber, dass sX bei festem Stichprobenmittel x eine
Funktion von n − 1 Variablen ist, da z.B. xn aus der Gleichung
xn +
n−1
X
xi = x
i=1
ermittelt und in s2X eingesetzt werden kann. Die Mittelung“ mit n−1 scheint also gerechtfertigt.
”
10.4
Testen und Schätzen
Eine Grundidee der Statistik ist es, Daten als Realisierungen von Zufallsvariablen aufzufassen
und an ihren Verteilungen etwas über die Daten zu lernen. Beim statistischen Testen trifft man
eine Hypothese über die Verteilung und fragt: Liegen die beobachteten Daten im Rahmen“,
”
oder ist hier ein Ereignis eingetreten, das unter der Hypothese so unwahrscheinlich ist, dass wir
begründeten Zweifel am Zutreffen der Hypothese haben sollten?
Wenn etwa aus einer Urne mit 100 weißen und 100 schwarzen Kugeln bei zufälligem Ziehen
ohne Zurücklegen von 120 Kugeln nur 40 weis̈e Kugeln gezogen werden, so kann man Zweifel
an der Hypothese hegen, dass die Urne mehr weiße als schwarze Kugeln enthält. Sei X die
Zufallgröße, die beim Ziehen von 120 Kugeln die Anzahl der weißen Kugeln beschreibt. Offenbar
ist der Erwartungswert E := E(X) von X gegeben durch
100
= 60 .
200
Die Wahrscheinlichkeit ein Ergebnis beim Ziehen zu bekommen, das mindestens so weit von E
entfernt ist wie der beobachtete Wert 40, ist
E = 120 ·
p := P (|X − 60| ≥ |40 − 60|) = P (X ≤ 40) + P (X ≥ 80) = 2P (X ≤ 40) = 2
Man kann nun zeigen, dass X hypergeoometrisch verteilt ist. Also gilt:
100
100
4
X
i
120 − i
0
p=2
≤ 10−6 .
200
i=0
120
4
X
0P (X = i) .
i=0
Also, angenommen die These trifft zu, dann trifft ein Ergebnis, das so extrem abweicht wie das
beobachtete, nicht öfter als 6 mal bei 1 Million Versuchen.
Das Ziel von Schätzverfahren ist es, aus Beobachtungen/Stichproben Schlüsse zu ziehen.
Man wird dabei nicht darauf bestehen dürfen, dass die Schlüsse stets richtig sind, man wird
dann mit dem Schlußverfahren zufrieden sein, wenn der Schaden, den der Schluß, basierend auf
zufälligen Beobachtungen, mit sich bringt, klein ist. Wahrscheinlichkeit kommt über die Auswahl
der Stichprobe ins Spiel.
138
Beispiel 10.4.1 Ein Teich enthält eine unbestimmte Zahl N von Fischen, die geschätzt werden
soll. Dazu werden M Fische gefangen, mit einem weißen Fleck markiert und wieder ausgesetzt.
Man wartet eine Weile, dann werden in einem zweiten Fischzug die Fische gefangen, und die
Zahl x der markierten Fische in diesem zweiten Fang ermittelt.
Eine plausible Schätzung N̂ von N ergibt sich aus folgender Überlegung: Wenn x nicht zu klein
ist, müßte der Anteil nx der markierten Fische am zweiten Fang ungefähr gleich dem Anteil M
N
der markierten Fische am Gesamtbestand sein. Wenn N̂ eine gute Schätzung von N ist, müßte
also
M
x
≈
n
N
gelten. Es liegt daher nahe, als Schätzwert N die zu M
N benachbarte ganze Zahl zu wählen.
Die Wahrscheinlichkeit, x markierte Fische im zweiten Fang zu haben ist
M N −M PN (x) =
X
x−x
N
n
(0 ≤ x ≤ n)
Der obige Schätzwert N̂ maximiert (Nachweis !) diese Wahrscheinlichkeit, d.h. PN̂ (x) = max PN (x).
N ∈N
Die Grundidee des Testens von Hypothesen ist einfach: man geht von einer Vermutung,
Behauptung, Annahme, allgemein von einer Hypothese aus. Ein Test ist dann ein Verfahren zur
Überprüfung von Hypothesen über eine Zufallsvariable. Ein Test ist also ein Prüfverfahren, das
man anwendet, wenn man wissen will, ob man die Hypothese ablehnen soll oder nicht. Beispiele
dafür sind etwa: Der Erwartungswert der Zufallsvariablen X ist 12 , der Erwartungswert E(X)
liegt in [−2, 2], die Erwartungswerte der Zufallsvariablen X, Y sind gleich, die Varianz V(X) hat
den Wert 1.5. In der Praxis handelt es sich bei der Formulierung von Hypothesen oft um einen
Vergleich, z.B. der Wirksamkeit zweier Medikamente oder der Arbeitsleistung bei verschiedenen
Arbeitsbedingungen.
Es sei uns die Form der Verteilung von X bekannt. Diese Verteilung hänge jedoch von einem
uns unbekannten Parameter ϑ ab. Die zu testende Hypothese sei eine Aussage über ϑ. Es sei Θ
die Menge aller in Frage kommender Werte für ϑ. Jede Hypothese über ϑ lässt sich genau dann
auf die Form
H 0 : ϑ ∈ Θ0
bringen, wobei Θ0 eine geeignete Teilmenge von Θ ist. Der Bereich Θ heißt Parameterraum.
Die Aussage H0 heißt Nullhypothese. Jede zu Θ0 disjunkte Teilmenge Θ1 ⊂ Θ kann zur
Formulierung einer Alternative
H 1 : ϑ ∈ Θ1
dienen.
Eine Hypothese der Form ϑ = ϑ0 (wobei also die zugehörige Teilmenge Θ0 oder Θ1 von Θ nur
aus einem Element besteht) heißt einfache Hypothese. Der kritische Bereich K eines Tests
ist der Ablehnungsbereich, also der Bereich von Stichproben, für den der Test abzulehnen ist.
(K hat in einem fundierten Rahmen ein Ereignis des Stichprobenraums zu sein).
Sei T ein Test für eine einfache Nullhypothese
H 0 : ϑ = ϑ0
mit kritischem Bereich K . Trifft die Nullhypothese zu, so ist die Wahrscheinlichkeit für das
Ereignis x := (x1 , . . . , xn ) ∈ K“ mit Hilfe des bekannten Parameterwertes ϑ0 zu ermitteln. Wir
”
schreiben dafür
Pϑ0 (x ∈ K)
139
Dies ist die Wahrscheinlichkeit dafür, dass man einen sogenannten Fehler erster Art begeht,
der darin besteht, dass man die Nullhypothese ablehnt, obwohl sie gilt. Diese Wahrscheinlichkeit soll natürlich gering sein. Das Problem der Konstruktion von Tests besteht also in der
Wahl eines kritischen Bereichs K, so dass der Fehler erster Art eine gegebene (meist kleine) Zahl
α ist.
Ist die Nullhypothese nicht einfach sondern von der Form
H 0 : ϑ ∈ Θ0
so möchte man K so wählen, dass die Wahrscheinlichkeit für einen Fehler erster Art durch α
beschränkt bleibt, d.h. dass also
sup Pϑ (x ∈ K) ≤ α
ϑ∈Θ0
gilt. Ein Test, der dieser Forderung genügt, heißt Test zum Niveau α. Die Zahl α heißt
Testniveau, die Zahl 1−α heißt Sicherheitswahrscheinlichkeit. Es ist üblich, als Testniveau
α eine der Zahlen 0.05, 0.01, 0.001 zu wählen.
Jemand bezweifelt, dass beim Werfen einer bestimmten Münze die beiden Ereignisse
W : Wappen liegt oben“
”
Z : Zahl liegt oben“
”
gleichwahrscheinlich sind. Um über eine solche Vermutung Aussagen machen zu können, ist es
naheliegend, die Münze möglichst oft zu werfen und dann eine Entscheidung auf Grund des
umfangreichen Datenmaterials der so gewonnenen Stichprobe zu treffen.
Wir bezeichnen mit p die (unbekannte ) Wahrscheinlichket dafür, dass nach dem Werfen der
Münze Wappen“ obenliegt. Handelt es sich um eine ideale“ Münze, so ist die
”
”
1
Hypothese : p =
2
richtig, anderenfalls ist sie falsch, d.h. p 6= 21 . Diese Hypothese können wir nun etwa dadurch testen, dass wir die Münze 200 mal werfen und die relativen Häufigkeiten hw , hz für Wappen“ und
”
Zahl“ notieren. Ist die obige Hypothese richtig, kann man auf Grund des Bernoullischen Ge”
setzes der großen Zahlen erwarten, dass diese relativen Häufigkeiten nahe bei 21 liegen. Nun wird
man aber subjekt werden müssen: Was heißt nahe bei 21 , nicht nahe bei 12 . Sicherlich wird man
die obige Vermutung/Hypothese verwerfen, wenn
hw ∼ 0.3, hz ∼ 0.7
ausfüllt. Große Abweichungen von hw von 21 hat also eine Ablehnung der Hypothese, eine kleine
Abweichung eine Annahme der Hypothese zur Folge. Wir leiten drei wichtige Fragen daraus ab:
1. Wann ist eine Abweichung groß, d.h. wir groß soll im allgemeinen die Konstante c gewählt
werden, um für
1
|hw − | > c
2
die Hypothese abzulehnen.
2. Wir oft wird bei solchen Entscheidungen die Hypothese abgelehnt, obwohl sie richtig ist,
d.h. zu Unrecht abgelehnt ?
3. Wie verhält man sich im Fall
1
|hw − | ≤ c
2
Soll hier die Hypothese angenommen werden ? Wenn ja, wie hüfig trifft man dabei eine
falsche Entscheidung ?
140
Fehler der ersten Art haben wir schon beschrieben. Es kann aber nun auch passieren, dass
man eine Hypothese nicht ablehnt, obwohl sie falsch ist. Einen derartigen Testfehler nennt man
Fehler 2. Art.
10.5
1.)
Übungen
Ein fairer Würfel wird n-mal geworfen. Die Zufallsgröße Xn sei die größte der geworfenen
Augenzahlen, also
Xn (a1 , . . . , an ) = max aj , (a1 , . . . , an ) ∈ Ω := {1, . . . , 6} × · · · × {1, . . . , 6} .
1≤j≤n
Zeige: limn E(xn ) = 6 .
2.)
Die Zufallsgröße X nehme die Werte 0, 1, 2 . . . , n an. Zeige:
E(X) =
n
X
j=0
p(X ≥ j) .
3.)
Ein fairer Würfel wird 2-mal geworfen. Der Erwartungswert für die größte der geworfenen
Augenzahlen ist 161
36 . Sei Y die Zufallsgröse, die die kleinste Augenzahl beim zweimaligen Würfeln beschreibt. Bestimme den Erwartungswert von Y mit der vorhergehenden
Aufgabe.
4.)
Beim Fussballtoto wird das Ergebnis eines ausgefallenen Spieles augelost. Steht in der
Totozeitung, dass die Tendenz etwa des Spiels TSG Hoffenheim – Bayern München 2:3:5
(S:U:N) betrage, dann soll dies bei der Auslosung berücksichtigt werden. Stelle ein Urnenmodell dafür her.
5.)
Aus einer Gruppe, bestehend aus 5 Frauen und 5 Männern werden 5 Personen zufällig
ausgewählt. Mit welcher Wahrscheinlichkeit besteht diese Stichprobe aus 2 Frauen? Kann
man das Ergebnis auch ohne Rechnung einsehen?
6.)
Eine Warenlieferung enthalte 40 intakte und 10 defekte Stücke. Wie gros̈ ist die Wahrscheinlichkeit, dass eine Stichprobe vom Umfang 10
(a)
genau 2 defekte Stücke enthält?
(b) mindestens 2 defekte Stücke enthält?
141
Kapitel 11
Markov-Ketten
Markov-Ketten sind ein hervorragendes Modellierungsinstrument für zeitliche Prozesse, die in
einfacher Weise den Zufall beinhalten. Die Basis der Theorie von Markov-Ketten ist im wesentlichen die Lineare Algebra. Sie liefert eine Fülle von praktisch anwendbaren Ergebnissen.
11.1
Mendelsche Gesetze
Eine der ersten systematischen Arbeiten zur Vererbungslehre wurde im 19. Jahrhundert von
Gregor Mendel1 geleistet. Unter anderem untersuchte Mendel die Vererbung einer Eigenschaft
von Erbsen, nämlich ob die Erbsen eine glatte oder runzelige Oberfläche besitzen. Wie bei allen
Pflanzen besitzt dabei jedes Individuum zwei Eltern.
Durch Kreuzung von Erbsen mit glatter Oberfläche und runzeliger Oberfläche erhält jede
Erbse in der Tochtergeneration das Genmaterial je eines Elternteils mit glatter und je eines
Elternteils mit runzeliger Oberfläche. Überraschenderweise gab es bei den Nachkommen der
Erbsen in der ersten Tochtergeneration nur noch glatte Erbsen. Noch überraschender waren die
Ergebnisse bei der nachfolgenden Tochtergeneration, bei der nun beide Elternteile aus der ersten
Tochtergeneration stammten. Hier kamen sowohl glatte als auch wieder runzelige Erbsen zum
Vorschein. Interessanterweise waren jedoch die glatten Erbsen im Übergewicht, und zwar im
Verhältnis 3 zu 1. Mendel suchte nach einer Erklärung und fand sie.
Bei diploiden“ Organismen, z. B. bei Menschen, Pflanzen,. . . , sind entlang der Chromo”
somen Gene wie in einer Kette nebeneinander aufgereiht. Ein Gen kann in zwei oder mehr
Zustandsformen auftreten, die man Allele nennt. Am Genort der Erbsen, der für die Oberfläche verantwortlich ist, gibt es zwei allele Gene, bezeichnet mit G (glatte Oberfläche) und g
(runzelige Oberfläche). Damit gibt es drei verschiedene Genotypen: GG, Gg, gg (Gg und gG
können wir identifizieren). Hier ist die Mendelsche Vererbung:
Elterngeneration:
Erste Tochtergeneration:
Zweite Tochtergeneration:
GG, gg
Gg, Gg
GG, Gg, gG, gg
Hier geht man also davon aus, dass in der Elterngeneration die Genotypen GG und gg vorliegen.
Wieso kommt es zu den Genotypen in der ersten und zweiten Tochtergeneration und was soll
nun Gg eigentlich sein? Wir wissen nur, dass GG glatt und gg runzelig bedeutet. Ein Organismus, der bezüglich einer Ausprägung dieselbe Erbinformation trägt, wird als reinerbig oder
homozygot bezeichnet.2 Wir haben nun mit Gg eine mischerbige oder heterozygote Erb1
Gregor Mendel, 1822 - 1884, Augustinermönch
Die Annahme, dass eine Situation vorliegt, in der die Elterngeneration reinerbig ist, läst sich durchaus rechtfertigen.
2
142
information vorliegen. Soll daher die Ausprägung ein wenig runzelig“ vorliegen oder soll eine
”
der beiden Allele zufällig die Ausprägung bestimmen? Bei anderen Pflanzen gibt es durchaus
die Beobachtung, dass Nachfahren eine gemischte Ausprägung“ haben: rote Blume + weisse
”
Blume = rosa Blume als Nachfahre. Dies ist aber hier, wie die Experimente gezeigt haben,
nicht der Fall: alle Erbsen der ersten Tochtergeneration werden als glatt beobachtet.
Die Interpretation dieses Sachverhalts ist, dass beide Allele gegeneinander konkurrieren und
in Abhängigkeit der Gene sich immer eines der beiden als dominant behauptet. Dies legt es
nahe, der Unterscheidung Genotyp (Zusammensetzung der Erbinformation) die Unterscheidung
Phänotyp (sichtbare Ausprägung) zur Seite zu stellen. Damit erklärt sich die Ausprägung der
ersten Tochtergeneration dadurch, dass Gg, gG und GG denselben Phänotyp besitzen.
Wie kann man nun die Erscheinung in der zweiten Tochtergeneration erklären? Nimmt
man an, dass Eltern des Genotyps Gg eines seiner Gene mit gleich großer Wahrscheinlichkeit
an seine Kinder weitergibt, dann gibt es für die Erbsen der zweiten Tochtergeneration vier
Möglichlichkeiten, wie sie in der obigen Tabelle aufgelistet ist. Davon sind drei der vier Kombinationen, die im Genotyp möglich sind, im Phänotyp gleich, nämlich glatt; nur der Genotyp gg
liefert eine runzelige Erbse. Dabei ist offenbar angenommen, dass eine nachfolgende Generation
durch zufällige Paarung gebildet wird, ohne Rücksicht auf den Genotyp der Eltern.
11.2
Hardy-Weinberg–Gesetz
Betrachten wir nun eine unendliche (in der Praxis sehr große) Population, deren Individuen an
einem Genort die allelen Gene A und a tragen. Damit haben wir die Genotypen AA, Aa, aa mit
den relativen Häufigkeiten
α, 2β, γ .
Klar, wir haben (α, β, γ) ∈ M mit
M := {(r, s, t) ∈ R3 |r, s, t ≥ 0, r + 2s + t = 1} .
Hieraus bestimmen sich die Häufigkeiten der Gene A und a zu
p=α+β, q =β+γ.
Wir nehmen an, dass die nächste Generation durch zufällige Paarung gebildet wird: die Vereinigung der Erbinformation erfolgt zufällig ohne Rücksicht auf den Genotyp der Eltern, jede
Paarung ergibt die gleiche Zahl von Nachkommen. Damit ergibt sich folgende Tabelle:
Paarungsmöglichkeiten
der Genotypen
Häufigkeit
Aufspaltung in der Tochtergeneration
AA
α2
2αβ
β2
0
0
0
Aa
0
2αβ
2β 2
2αγ
2βγ
0
aa
0
0
β2
0
2βγ
γ2
(α + β)2
2(α + β)(β + γ)
(β + γ)2
α2
AA × AA
AA × Aa
4αβ
Aa × Aa
4β 2
AA × aa
2αγ
Aa × aa
4βγ
aa × aa
γ2
Genotyphäufigkeiten
in der Tochtergeneration
Die Genotyphäufigkeiten sind also in der Tochtergeneration α̃, 2β̃, γ̃ ergeben sich mit
α̃ = (α + β)2 , β̃ = (α + β)(β + γ), γ̃ = (β + γ)2 .
143
Damit haben wir nun auch
α̃ = p2 , 2β̃ = 2pq , γ̃ = q 2 .
Die Genotyphäufigkeiten der Tochtergeneration hängen also nur von den Genhäufigkeiten der
Elterngeneration ab. In der Tochtergeneration sind die Genhäufigkeiten nun
α̃ + β̃ = p2 + pq = p , β̃ + γ̃ = pq + q 2 = q .
Bezeichnen wir die Genotyphäufigkeiten in aufeinanderfolgenden Generationen mit
αk , 2βk , γk , k ∈ N0 ,
so erhalten wir ein System von Differenzengleichungen:
αk+1 = (αk + βk )2
βk+1 = (αk + βk )(βk + γk )
γk+1 = (βk + γk )2
Insbesondere haben wir in dieser Bezeichnung
αk = p2 , βk = pq , γk = q 2 , k ∈ N .
(11.1)
Also sind die Genhäufigkeiten konstant und die Genotyphäufigkeiten hängen konstant von der
Tochtergeneration ab. Dies können wir auch so interpretieren:
Die Iteration, ausgehend von einem Startwert (α0 , β0 , γ0 ) ∈ M, erreicht bereits
nach einem Schritt den Gleichgewichtszustand (p2 , pq, q 2 ) . Dieser Zustand wird
Hardy-Weinberg–Gleichgewichtspunkt genannt.
Der obige Sachverhalt wird auch als Hardy-Weinberg–Gesetz bekannt. Es besagt grob, dass
ohne Mutation, Selektion, Ein- und Auswandern von Individuen nichts passiert. Dies ist auch
plaussibel, den anschaulich werden die Genotypen in Allelel zerlegt und letztere dann wieder in
irgendeiner Weise zu neuen Genotypen zusammengesetzt.
Bemerkung 11.2.1 Liegen an einem Genort die Allele a1 , . . . , an , dann gibt es n2 Genotypen
mit Genotyphäufigkeiten
X
αjk = αkj ≥ 0 , j, k = 1, . . . , n ,
αjk = 1 .
j,k
Auch hier wird in einem Schritt ein Gleichgewichtszustand erreicht.
11.3
Modellierung als Markovkette
Wir wollen die Aufeinanderfolge von einer Vererbungslinie durch eine Markovkette – im nächsten
Abschnitt gehen wir mehr grundsätzlich auf Markovketten ein – modellieren. Beschreibt Xk den
genotyp eines Individuums der Vererbungslinie, so ist Xk+1 der eines seiner Nachkommen. Also
ist
Xk , Xk+1 ∈ X := {AA, Aa, aa}
und wir haben uns zu überlegen, wie wir von Xk nach Xk+1 kommen. Dazu arbeitet man mit
Übergangswahrscheinlichkeiten.
Sei p die Wahrscheinlichkeit“, dass ein Partner das Allel A liefert. Dann können wir – in
”
leicht verständlicher Schreibweise – folgende Tabelle aufstellen:
144
Ws(Xk+1 = AA|Xk = AA) = p
Ws(Xk+1 = Aa|Xk = AA) = 1 − p
Ws(Xk+1 = AA|Xk = Aa) =
1
p
2
Ws(Xk+1 = aa|Xk = AA) = 0
Ws(Xk+1 = aa|Xk = Aa) =
1
(1 − p)
2
Ws(Xk+1 = AA|Xk = aa) = 0
1
1
1
Ws(Xk+1 = Aa|Xk = Aa) = 1 − p − (1 − p) =
2
2
2
Ws(Xk+1 = Aa|Xk = aa) = p
Ws(Xk+1 = aa|Xk = aa) = 1 − p
Hier ist etwa Ws(Xk+1 = Aa|Xk = AA) als Wahrscheinlichkeit, dass in der Generation k + 1
”
der Genotyp AA beobachtet wird, wenn in der Generation k der Genotyp AA vorliegt“, zu lesen.
Wenn wir nun die Zustände AA, Aa, aa mit 1, 2, 3 bezeichnen, dann können wir die obige
Tabelle für den Übergang von Xk zu Xk+1 als Matrixmultiplikation interpretieren. Wir setzen
dazu


1
0
p
2p


1
P := 1 − p
p ,
2
1
0
2 (1 − p) 1 − p
wobei der Eintrag pij die Wahrscheinlichkeit für den Übergang vom Zustand j in den Zustand
i bedeutet. Wir können etwa den Übergang von
 
1
xk := 0 ,
0
was Xk = AA entspricht, zu xk+1 , was Xk+1 entspricht, so beschreiben:


p
xk+1 = 1 − p = P xk .
0
Die Matrix P hat als Spaltensumme jeweils 1, ist also spaltenstochastisch. Daraus folgt sofort,
dass die transponierte Matrix P t zeilenstochastisch ist. Daher hat P t den Eigenwert λ1 = 1
zum Eigenvektor e := e1 + e2 + e3 , wobei ei der i-te (Spalten-)Einheitsvektor ist. Dann hat aber
auch P den Eigenwert λ1 = 1 zu einem Eigenvektor w , welcher dann sicher fix bleibt unter
der Multipliktion mit P . Die beiden anderen Eigenwerte λ2 , λ3 sind die weiteren interessanten
Parameter, die die multiplikative Wirkung von P beschreibt. Man errechnet sie aus der Tatsache,
dass
det(P ) = λ1 · λ2 · λ3 , spur(P ) = λ1 + λ2 + λ3
gelten muss. Wir wollen dies hier nicht weiterverfolgen.
145
11.4
Langzeitverhalten bei Markov–Ketten
Satz 11.4.1 Sei P = (pij )1≤i,j≤k ∈ Rk,k eine spaltenstochastische Matrix. Dann gilt:
(a) λ = 1 ist ein Eigenwert von P .
(b)
(c)
|λ| ≤ 1 für alle Eigenwerte λ von P und P t .
λ = 1 ist einziger Eigenwert von P und P t mit λ = 1, falls min1≤i≤k pii > 0 .
Beweis:
Zu (a).
Da P eine spaltenstochastische Matrix ist, ist A := P t zeilenstochastisch und hat daher den
Eigenwert λ = 1 zum Eigenwert e, wobei e der Vektor ist, der als Einträge lauter Einsen hat.
Dann hat auch P den Eigenwert λ = 1 .
Zu (b).
Betrachte die l1 -Norm | · |1 in Rk , d.h.
|x|1 :=
k
X
i=1
|xi | , x = (x1 , . . . , xk ) ∈ Rk .
Dazu wählen wir die passende“ Norm für die Matrizen, nämlich die Spaltensummennorm; für
”
P :
!
k
X
|pij |
kP k1 := max
1≤j≤k
i=1
Offenbar kP k1 = 1 . Daraus folgt für jeden Eigenwert λ von P mit Eigenvektor z ∈ Rk
|λ||z|1 = |λz|1 = |P z|1 ≤ kP k1 |z|1 , d.h. |λ| ≤ kP k1 = 1 .
(Argumentiere etwas vollständiger!)
Um das Resultat für P t zu beweisen, betrachte man Maximumnorm | · |∞ in Rk , d.h.
|x|∞ := max |xi | , x = (x1 , . . . , xk ) ∈ Rk ,
i=1,...,k
und die Zeilensummennorm für P :

kP k∞ := max 
1≤i≤k
k
X
j=1

|pij | .
Zu (c).
Nach dem Satz von Gerschgorin – siehe Anhang 11.5 – gibt es zu jedem Eigenwert λ von P t ein
i mit
k
X
|λ − pii | ≤
|pij | = 1 − pii .
j=1,j6=i
Also liegt λ in dem Kreis mit Mittelpunkt pii und Radius 1 − pii . Er berührt den Einheitskreis
von innen im Punkt (1, 0) . Aus |λ| = 1 folgt somit λ = 1 .
Die Bedeutung des Eigenwertes λ = 1 liegt darin begründet, dass damit das Langzeitverhalten der Markovkette zusammenhängt, denn offenbar ist der Zustand u ein Fixpunkt unter der
(Generationen-)Iteration
uk+1 := P uk = · · · = u,
falls u0 = u und u der Eigenwert zu λ = 1 ist.
146
Satz 11.4.2 Sei P ∈ Rk,k eine spaltenstochastische Matrix. Dann sind äquivalent:
(a) limn P n existiert.
(b)
λ = 1 ist der einzige Eigenwert von P mit Betrag 1.
Beweis:
Zu (a) =⇒ (b).
Sei λ ein Eigenwert von P vom Betrage 1 und sei u ein Eigenvektor von P zu λ . Es folgt
P u = λu, P n u = λn u, n ∈ N0 .
Daraus lesen wir ab, dass aus der Existenz von limn P n die Konvergenz von limn λn folgt. Dann
existiert auch µ := limn λn+1 und wir erhalten
µ = lim λn+1 = λ lim λn = λµ .
n
n
Wegen |λ| = 1 ist auch |λn | = 1 und somit |µ| = 1 6= 0 . Aus µ = λµ folgt dann λ = 1 .
Zu (b) =⇒ (a).
Diesen Beweis übergehen wir.
Beispiel 11.4.3 Betrachte die Matrix


0 1 0
P := 0 0 1 .
1 0 0
Die Eigenwerte sind die dritten Einheitswurzeln:
√
√
1
1
λ1 = 1, λ2 = (−1 + i 3), λ3 = (−1 − i 3) .
2
2
Offenbar haben alle Eigenwerte den Betrag 1, aber es liegt keine Konvergenz der Potenzen von
A vor:
A0 = I, A1 = A, A2 = . . . , A3 = I, A4 = A, . . . .
Beispiel 11.4.4 Jedes Jahr ziehen 5 % der Bevölkerung in den alten Bundesländern in die
neuen Bundesländer und 15 % der Bevölkerung in den neuen Bundesländern ziehen in die alten
Bundesländer.
Wir haben zwei Zustände für eine Person:
Zustand 1: die Person lebt in den neuen Bundesländern
Zustand 2: die Person lebt in den alten Bundesländern
Damit erhalten wir dann die spaltenstochastische Matrix
0.85 0.05
P =
0.15 0.95
für den Übergang von einer Jahrgangsgeneration zur nächsten. Die Eigenwerte von P sind
λ1 = 1 , λ2 =
147
4
.
5
Dazu gehören die linear unabhängigen Eigenvektoren
!
1
u :=
1
4
3
4
2
, u :=
1
.
−1
Als Zustand in der 0-ten Generation kommt ein Vektor u in Frage, der folgende Darstellung hat
u = u1 + αu2 ,
da ja u einen Verteilung der Population auf die alten und neuen Bundesländer darstellen soll.
Nun ist einfach zu sehen, dass
lim P n u = u1
n
gilt; wir haben das Gleichgewicht gefunden:
Über lange Zeit stellt sich folgende Verteilung der Bevölkerung ein:
25 % in den neuen Bundesländern, 75 % in den alten Bundesländern.
Ohne Breweis fügen wir ein etwas tiefer liegendes Resultat an:
Satz 11.4.5 Sei P ∈ Rk,k eine spaltenstochastische Matrix, zu der es ein l ∈ N gibt, so dass
alle Einträge von P l positiv sind. Dann gelten die folgenden Aussagen:
(a) Es gibt einen stochastischen Vektor z mit P z = z; dabei heißt z stochastisch, wenn gilt:
z = (z1 , . . . , zk ) , zi ≥ 0 für alle i = 1, . . . , k ,
(b)
k
X
zj = 1 .
j=1
Die Matrixfolge (P n )n∈N konvergiert gegen die spaltenstochastische Grenzmatrix P ∞ , deren
Spaltenvektoren alle identisch z sind.
Die Voraussetzung, dass die Einträge einer Potenz P l alle positiv sind, kann man so interpretieren: in l Generationen ist der Übergang von einem Zustand j zu einem Zustand i positiv
für alle i, j .
Beispiel 11.4.6 In der Mendelschen Vererbung haben wir die Genotypen D: GG, H: Gg, R: gg .
Wir gehen nun so vor: Wir nehmen irgendein Individuum, kreuzen es mit einem Individuum
des gewählten Typs, wählen zufällig einen Abkömmling aus, kreuzen diesen wieder mit einem
Individuum des gewählten Typs, und so weiter. Beobachtet man die Genotypen der so erzeugten Abkömmlinge durch die Generationen, so erhält man eine Markovkette. Dazu gehören die
Übergangsmatrizen




1 1

0
0
0
0
1 21 0
2
4






PD := 0 21 1 , PH :=  12 21 12  , PR := 1 21 0 .
0 0 0
0 21 1
0 41 12
Wende nun die obigen Resultate an, um das Langzeitverhalten der Generationen zu studieren.
11.5
Anhang: Gerschgorin–Kreise
148
Herunterladen