Mathematik II SoSe 2009

Mathematik II
SoSe 2009
J. Baumeister1
20. Juli 2009
1
Dies sind Aufzeichnungen, die kritisch zu lesen sind, da sie noch nicht endgültig korrigiert sind.
Hinweise auf Fehler und Verbesserungsvorschläge an [email protected]
Vorwort
Die Vorlesung Mathematik II “ ist eine Lehrveranstaltung des Moduls B-M2“ des Bachelor”
”
studiengangs Informatik“und des Bachelorstudiengangs Bioinformatik“.
”
”
Die Lehrveranstaltung schließt an an die Vorlesung Analysis und Lineare Algebra für Infor”
matiker“ aus dem ersten Studienjahr, entwickelt die Inhalte aber weitgehend eigenständig. Sie
beinhaltet einfache Sachverhalte algebraischen und analytischen Rechnens, elementare Grundlagen in der Stochastik, der diskreten Mathematik und der Numerik. Ein Ziel der Vorlesung ist
auch, jeweils die Verbindung zu einer algorithmischen Umsetzung der Inhalte aufzuzeigen.
Wie oben angedeutet, ist algorithmisches Handeln ein Teil der Betrachtungen. Algorithmen
sind sequentielle Handlungsanweisungen“ zur Lösung eines (in mathematischer Sprache formu”
lierten) Problems. Die Abarbeitung der Handlungsanweisungen erfolgt meist mit dem Computer
unter Nutzung von Programmiersprachen und Programmpaketen. Der angehende Informatiker
sollte daher in der Lage sein, die angebotenen Algorithmen schnell umzusetzen. Im allgemeinen
könnte dies schon mit Hilfe von Maple angegangen werden.
Eine Einzelliteratur zur Vorlesung, die alles abdeckt, was angeboten wird, ist wohl nicht
vorhanden. Im Literaturverzeichnis sind einige hilfreiche Bücher angegeben ([1, 2, 3, 4, 5, 6,
7, 8, 9, 10, 11, 12]). Die Kapitel 10 und 11, die im Skriptum aufgeführt sind, wurden (aus
Zeitgründen) nicht vorgetragen. Ihre Überarbeitung ist noch drindend erforderlich.
Frankfurt, im Juli 2009
Johann Baumeister
i
Inhaltsverzeichnis
Vorwort
i
1 Aussagen und Mengen
1.1 Aussagen und Logik . . . .
1.2 Verknüpfung von Aussagen
1.3 Beweise . . . . . . . . . . .
1.4 Mengen . . . . . . . . . . .
1.5 Quantoren . . . . . . . . . .
1.6 Übungen . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
2 Operieren mit und auf Mengen
2.1 Alphabete . . . . . . . . . . . .
2.2 Relationen . . . . . . . . . . . .
2.3 Ordnung . . . . . . . . . . . . .
2.4 Algorithmen . . . . . . . . . . .
2.5 Abbildungen . . . . . . . . . .
2.6 Übungen . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
4
6
7
12
12
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
. . . . 14
. . . . 16
. . . . 18
. . . . 19
. . . . 21
. . . . 25
3 Zählen
3.1 Natürliche Zahlen . . . . . . . . .
3.2 Induktion . . . . . . . . . . . . .
3.3 Abzählen . . . . . . . . . . . . .
3.4 Rekursion . . . . . . . . . . . . .
3.5 Landausymbole . . . . . . . . . .
3.6 Mastertheorem der Komplexität
3.7 Übungen . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
26
26
29
31
34
35
38
41
4 Elementare Arithmetik
4.1 Ganze Zahlen . . . . . . .
4.2 Teilbarkeit . . . . . . . . .
4.3 Primzahlen . . . . . . . .
4.4 Euklidischer Algorithmus
4.5 Modulare Arithmetik . . .
4.6 Zum Gruppenbegriff . . .
4.7 Pseudozufallszahlen . . .
4.8 Übungen . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
43
43
45
47
50
54
56
59
61
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ii
5 (Diskreter) Zufall
5.1 Laplace–Häufigkeiten . . . . . .
5.2 Zufallsbäume . . . . . . . . . .
5.3 Bedingte Wahrscheinlichkeiten
5.4 Das Ziegenproblem . . . . . . .
5.5 Kombinatorische Überlegungen
5.6 Übungen . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6 Zufallsgrößen
6.1 Erwartungswerte . . . . . . . . . . . . . .
6.2 Unabhängigkeit . . . . . . . . . . . . . . .
6.3 Varianz . . . . . . . . . . . . . . . . . . .
6.4 Das schwache Gesetz der großen Zahl oder
6.5 Spezielle Verteilungen . . . . . . . . . . .
6.6 Die Gauß– und Poisson–Verteilung . . . .
6.7 Übungen . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9 Fast Fourier Transform
9.1 Some comments concerning signal theory
9.2 Trigonometric interpolation problem . . .
9.3 Discrete Fourier transform . . . . . . . . .
9.4 Fast Fourier Transform . . . . . . . . . . .
9.5 Exercises . . . . . . . . . . . . . . . . . .
10 Verteilungen und Statistik
10.1 Merkmale, Stichproben und Simulation
10.2 Empirische Häufigkeitsverteilung . . . .
10.3 Statistische Parameter . . . . . . . . . .
10.4 Testen und Schätzen . . . . . . . . . . .
10.5 Übungen . . . . . . . . . . . . . . . . . .
11 Markov-Ketten
11.1 Mendelsche Gesetze . . . . . . . . . .
11.2 Hardy-Weinberg–Gesetz . . . . . . . .
11.3 Modellierung als Markovkette . . . . .
11.4 Langzeitverhalten bei Markov–Ketten
11.5 Anhang: Gerschgorin–Kreise . . . . . .
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
die Intelligenz der Masse
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
7 Nullstellen nach Newton
7.1 Polynome . . . . . . . . . . . . . . . . . . .
7.2 Das Nullstellenproblem . . . . . . . . . . . .
7.3 Nullstellensuche nach Newton . . . . . . . .
7.4 Anhang: Realisierung des Newtonverfahrens
7.5 Übungen . . . . . . . . . . . . . . . . . . . .
8 Interpolation und Approximation
8.1 Interpolation mit Polynomen . .
8.2 Newton-Polynome . . . . . . . .
8.3 Approximation mit Polynomen .
8.4 Bezier–Kurven . . . . . . . . . .
8.5 Übungen . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
68
72
75
77
80
82
82
88
89
90
91
95
96
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
in den komplexen Zahlen
. . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
97
. 97
. 98
. 101
. 105
. 108
.
.
.
.
.
.
.
.
.
.
109
109
111
114
116
118
.
.
.
.
.
122
122
123
125
126
130
.
.
.
.
.
131
131
134
136
138
141
.
.
.
.
.
142
142
143
144
146
148
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Literaturverzeichnis
[1] M. Aigner. Diskrete Mathematik. Vieweg, 1996.
[2] M. Brill. Mathematik für Informatiker. Hanser, 2001.
[3] O. Forster. Algorithmische Zahlentheorie. Vieweg, 1996.
[4] M. Greiner and G. Tinhofer. Stochastik für Studienanfänger der Informatik. Hanser, 1996.
[5] D. Hachenberger. Mathematik für Informatiker. Pearson Studium, 2005.
[6] P. Hartmann. Mathematik für Informatiker. Vieweg, 2004.
[7] N. Henze. Stochastik für Einsteiger. Vieweg, 1997.
[8] G. Kersting and A. Wakolbinger. Elementare Stochastik. Birkhäuser, 2008.
[9] A. Quateroni, R. Sacco and F. Saleri. Numerische Mathematik 1. Springer, 2001.
[10] B. Schuppar. Elementare Numerische Mathematik. Vieweg, 1999.
[11] J. Wolfart. Einführung in die Zahlentheorie und Algebra. Vieweg, 1996.
[12] M. Wolff, P. Hauck, W. Küchlin. Mathematik für Informatik und Bioinformatik. Springer,
2004.
1
Kapitel 1
Aussagen und Mengen
Für die Formulierung von Aussagen von mathematischem Gehalt benötigen wir Verabredungen,
Sprechweisen, Symbole und eine griffige Notation. Dabei wollen wir aber nicht in die Tiefen der
mathematischen Grundlagen (Mengenlehre, Logik) eintauchen, sondern geben uns mit einem
naiven“ Standpunkt zufrieden. Er führt zu keinerlei Konflikten, solange wir uns mit konkret
”
definierten Objekten beschäftigen.
1.1
Aussagen und Logik
Argumentationen in der Mathematik beruhen darauf, dass ein Zusammenhang zwischen Aussagen hergestellt wird, dass Aussagen verknüpft werden. Was eine Aussage sein soll, halten wir in
einer Definition fest, die umgangssprachlich formuliert ist.
Definition 1.1.1 Eine Aussage ist eine sprachliche Feststellung, die entweder wahr oder falsch
ist. Falsch bzw. wahr charakterisiert man dabei durch einen Wahrheitswert: (w) steht für wahr,
(f ) steht für falsch.
In der obigen Definition“ spiegelt sich das aristotelische1 Prinzip des tertium non datur
”
wieder: eine Aussage ist entweder wahr oder falsch, eine dritte Möglichkeit gibt es nicht. Beispiele:
1.
2.
3.
4.
5.
6.
2 ist eine gerade Zahl
1004 ist durch 3 teilbar
Brasilien ist ein Entwicklungsland
Die Straße X ist nass
Das Dreieck ABC ist gleichschenklig
2999999991 − 1 ist eine Primzahl
Die erste Aussage ist wahr, die zweite Aussage ist falsch, wenn wir eine Definition von Teilbarkeit
unterstellen; der Wahrheitsgehalt der dritten Aussage hängt von einer Definition eines Entwicklungslandes ab; die vierte Aussage kann auf ihren Wahrheitsgehalt mit physikalischen“ Mitteln
”
geprüft werden; ob die fünfte Aussage wahr ist, ist offen, solange keine exakte Definition und
Beschreibung des konkreten Dreiecks vorliegt; der Wahrheitsgehalt der letzten Aussage ist offen:
2999999991 − 1 ist eine Primzahl oder sie ist keine, die Instanz“, die dies (schnell) entscheiden
”
kann, ist wohl noch zu finden.
Der Umgang“ mit Aussagen mit dem Ziel, sie auf ihren Wahrheitsgehalt zu untersuchen,
”
sie mit anderen Aussagen zu verknüpfen, sie als Argumente in eine (wissenschaftliche) Diskussion einzubringen, wird im Kontext von Logik studiert. Während die griechische Logik der
1
Aristoteles von Stagira (384-322 v. Chr.)
2
Antike großen Wert auf Argumentationsformen legte, kann die heutige mathematische Logik als
kombinatorisches Studium von Inhalten bezeichnet werden.
Syntaktische Ebene: Untersuchung von formalen Zeichenketten, in denen Aussagen
kodiert sind.
Semantische Ebene: Belegung von Zeichenketten mit Bedeutung.
Unter den verschiedenen Logiken ist das System der Prädikatenlogik (der ersten Stufe) das
bekannteste. Als Teilgebiete der Logik, wobei die Grenzen aber unscharf sind, werden angesehen:
• Mengenlehre Auf elementare Überlegungen dazu gehen wir unten ein.
• Beweistheorie Wir skizzieren einfache Beweistechniken in einem nicht formalen Rahmen
exemplarisch auf unsere Zwecke zugeschnitten.
• Modelltheorie Der Informatiker wird Konzepte dazu etwa im Zusammenhang mit Quan”
toreneliminationsverfahren“ kennenlernen.
• Rekursions-/Berechnungstheorie In der Informatik spielt Berechenbarkeit eine überragende Rolle. Wir skizzieren diese Fragestellung an einfachen Beispielen. In diesem Zusammenhang wird der Begriff des Algorithmus“ seine Bedeutung finden.
”
Was meinen wir, wenn wir von logischen Schlüssen reden? Wir halten uns an eine umgangssprachliche Definition.
Logik: Die Lehre von folgerichtigen Denkweisen.
Logisches Schließen: Folgerichtiges, natürlich“ klares Argumentieren.
”
Meist handeln wir nach dem Muster“ des Deduktiven Schließens: Aus vorgegebenen Regeln
”
(Prämissen) ziehen wir einen eindeutigen Schluss (Konklusion).
Beispiel 1.1.2 Aus einem Kartendeck, auf dem auf einer Seite Zahlen und auf der anderen
Seite Buchstaben aufgebracht sind, sind vier Karten aufgedeckt. Sie zeigen 6,3,A,F.
Regel: Wenn auf der einen Seite einer Karte ein Vokal sich befindet, dann befindet sich auf der
anderen Seite eine gerade Zahl.
Frage: Welche der vier Karten muss man umdrehen, um die Regel zu überprüfen?2
Induktives Schließen ist das Ableiten allgemein gültiger Regeln aus Beobachtungen, Experimenten und Erfahrungen. Im nichtmathematischen Kontext geschieht dies meist unter Einbeziehung von (umgangssprachlichen) Wahrscheinlichkeiten, die ihrerseits mathematisch hinterfragt
werden können. Wir kommen im Zusammenhang mit natürlichen Zahlen auf induktives Schließen zurück.
Beispiel 1.1.3 Apfel-Kerngehäuse-Hypothese:
• Jeder Apfel, den ich bisher in meinem Leben gegessen habe, hatte ein Kernghäuse.
• Dies ist ein Apfel.
• Induktiver Schluss: Dieser Apfel hat ein Kerngehäuse.
Aber: Die Apfel-Kerngehäuse-Hypothese Jeder Apfel hat ein Kerngehäuse“ kann niemals be”
wiesen werden.
2
Die Lösung ist: Die Karten mit 3 und A.
3
Beispiel 1.1.4 Ein etwas unsinniges Beispiel induktiven Schließens ist in folgender Aufgabe
enthalten:
Betrachte das Zahlentripel 2 – 4 – 6
Setze das Zahlentripel zu einer Zahlenreihe fort.
Beispielsweise ließe sich für jede der Fortsetzungen
2 – 4 – 6 – 8 – 10 – · · ·
eine offensichtliche Regel finden.
1.2
oder
2 – 4 – 6 – 4 – 2 – 4 – 6 – 4 – ···
Verknüpfung von Aussagen
Als erstes Aussagenkonstrukt betrachten wir die Verneinung/Negation einer Aussage. Konkret: Ist P eine Aussage, so bezeichnen wir mit ¬P die Negation der Aussage P ; es ist also
P wahr genau dann, wenn ¬P falsch ist. Man bezeichnet die Negation als einstellige Ver”
knüpfung“, benötigen wir doch dabei nur eine Aussage. Logische Verknüpfungen, bei denen
zwei Aussagen beteiligt sind, nennen wir zweistellige oder binäre Aussageverknüpfungen.
Die Aussageverknüpfungen werden – in streng mathematischen Sinne – in der boolschen3 Algebra zusammengefasst. In der folgenden Tabelle fügen wir logische Operatoren, wie sie etwa in
Maple nutzbar sind, ein.
Durch logische VerOperation
Sprechweise
Symbol
Maple
knüpfung zweier Aussagen P,Q ensteht eiNegation
nicht . . .
¬
&not
ne dritte Aussage R,
Konjunktion
. . . und . . .
∧
&and
eine sogenannte verbundene Aussage.
Alternative
. . . oder . . .
∨
&or
Um den WahrheitsgeImplikation
wenn . . ., dann . . .
=⇒
&implies
halt dieser verbundenen Aussage geht es
. . . genau dann, wenn . . .
⇐⇒
&iff
Äquivalenz
dann. Bestimmt wird
die Aussage R dadurch, welcher Wahrheitswert ihr für die verschiedenen Belegungen mit (w) und (f) der Aussagen
P und Q zukommt. Die folgende Wahrheitstafel zeigt, wie die oben angeführten Aussageverknüpfungen definiert sind:
P
Q
P ∧ Q
P ∨ Q
P =⇒ Q
P ⇐⇒ Q
(w)
(w)
(w)
(w)
(w)
(w)
P
¬P
(w)
(f)
(f)
(w)
(f)
(f)
(w)
(f)
(f)
(w)
(f)
(w)
(w)
(f)
(f)
(w)
(f)
(f)
(f)
(f)
(w)
(w)
Man beachte insbesondere die Wahrheitstafel zu P =⇒ Q: Ist P falsch, so ist die Implikation
P =⇒ Q wahr, unabhängig vom Wahrheitsgehalt von Q. Die Wahrheitstafel der Negation ist
angefügt.
Mit den nun eingeführten Verknüpfungen stehen uns schon eine große Anzahl von Aussagenkonstrukten zur Verfügung. Halten wir einige logische Gesetze fest:
3
George Boole, 1815-1864, Mathematiker
4
Regel 1.2.1 Seien P, Q Aussagen.
(P =⇒ Q)
¬(P ∧ Q)
¬(P ∨ Q)
(P =⇒ Q)
⇐⇒
(¬Q =⇒ ¬P )
⇐⇒
¬P ∧ ¬Q
⇐⇒
(1.1)
¬P ∨ ¬Q
⇐⇒
(1.2)
(1.3)
(¬P ∨ Q)
(1.4)
Von der Richtigkeit dieser Aussagen überzeugen wir uns, indem wir die Wahrheitstafeln erstellen.
Etwa zu (1.1):
P =⇒ Q ¬ Q ¬ P ¬ Q =⇒ ¬ P
(P =⇒ Q) ⇐⇒ (¬ Q =⇒ ¬ P)
P
Q
(w)
(w)
(w)
(f)
(f)
(w)
(w)
(w)
(f)
(f)
(w)
(f)
(f)
(w)
(f)
(w)
(w)
(f)
(w)
(w)
(w)
(f)
(f)
(w)
(w)
(w)
(w)
(w)
Die Wahrheitstafel zu P =⇒ Q ist identisch mit der Wahrheitstafel zu ¬ P ∨ Q, wie man
leicht verifiziert. Die Aussage ¬ P ∨ Q vermeidet also das der Umgangssprache nahestehende
“folgt“ in P =⇒ Q.
Regel 1.2.2 Seien P,Q,R Aussagen.
P ∧ Q
P ∨ Q
⇐⇒
Q ∧ P
⇐⇒
(1.5)
Q ∨ P
(1.6)
(P ∧ Q) ∧ R
⇐⇒
P ∧ (Q ∧ R)
(1.7)
P ∧ (P ∨ Q)
⇐⇒
P
(1.9)
P
(1.10)
(P ∧ Q) ∨ (P ∧ R)
(1.11)
(P ∨ Q) ∨ R
P ∨ (P ∧ Q)
P ∧ (Q ∨ R)
P ∨ (Q ∧ R)
⇐⇒
P ∨ (Q ∨ R)
⇐⇒
⇐⇒
⇐⇒
(1.8)
(P ∨ Q) ∧ (P ∨ R)
(1.12)
Die Gültigkeit von (1.5) , . . . , (1.12) belegt man wieder mit Hilfe von Wahrheitstafeln. Etwa zu
(1.11) in nicht vollständiger Aufzählung:
P
Q
R
Q ∨ R
P ∧ (Q ∨ R)
P ∧ Q
P ∧ R
(P ∧ Q) ∨ (P ∧ R)
(w)
(w)
(f)
(w)
(w)
(w)
(f)
(w)
(w)
(f)
(w)
(w)
(w)
(f)
(w)
(w)
(f)
(w)
(w)
(w)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
(f)
Sprechweisen:
(1.5), (1.6)
(1.7), (1.8)
(1.9), (1.10)
(1.11), (1.12)
Kommutativgesetze
Assoziativgesetze
Verschmelzungsgesetze
Distributivgesetze
5
In Definitionen weisen wir mathematischen Objekten manchmal Eigenschaften mit einem
definierenden Äquivalenzzeichen “ : ⇐⇒ ,“ zu, etwa:
Objekt O hat Eigenschaft E : ⇐⇒
Eine Aussage A über das Objekt O , die äquivalent
mit dem Eintreten der Eigenschaft E ist, ist wahr (gilt).
Beispiel 1.2.3 Die Schwierigkeit beim Umgang mit Aussagen und ihrer logischen Verwendung
zeigt uns die Antinomie von Epimenides:
Epimenides sagt, alle Kreter lügen
Epimenides ist Kreter
Epimenides lügt
1.3
Beweise
Ein Satz, Lemma, eine Folgerung, . . . ist die Ausformulierung einer mathematischer Aussage,
die wahr ist. Meist stellt sich diese Ausformulierung so dar, dass aus einer Voraussetzung V
eine Behauptung B gefolgert werden soll; V, B sind selbst mathematische Aussagen.
Ein Beweis eines Satzes mit Voraussetzung V und Behauptung B ist also eine Kette
von Implikationen, ausgehend von der Aussage V bis zur Aussage B:
V
=⇒ . . . =⇒ B
Die Regel (1.1) sagt uns, dass wir den Beweis auch führen können, indem wir die Gültigkeit von
V =⇒ B dadurch zeigen, dass wir ¬B =⇒ ¬V nachweisen; Beweis durch Kontraposition).
Der Widerspruchsbeweis basiert auf der Regel (1.4) zusammen mit (1.3). Er stellt sich so
dar:
V ∧ ¬B =⇒ . . . =⇒ Q
Hierbei ist mit Q dann eine Aussage erreicht, die nicht wahr ist.
Ein Beweis durch Fallunterscheidung kann angewendet werden, wenn sich die Voraussetzung V als V1 oder V2 formulieren läßt. Dann reicht es die Fälle V1 =⇒ B und V2 =⇒ B zu
zeigen, wie eine Wahrheitstafel sofort zeigt.
√
Dem Nachweis von Euklid4 , dass 2 nicht rational ist, liegt die Beweistechnik des Widerspruchbeweises zugrunde:
V : a ist eine Zahl mit a2 = 2
B: a ist eine Zahl, die nicht rational ist
√
Aus der Annahme V ∧ ¬B, also der Annahme, dass 2 eine rationale Zahl ist, leiten wir durch
logisches Schließen (gültige Aussageverknüpfungen) eine Aussage ab, die nicht wahr ist. Also
kann die Annahme V ∧ ¬B nicht wahr sein; V =⇒ B ist also wahr. Wir kommen auf diesen
Beweis zurück, wenn wir etwas mehr über rationale und irrationale Zahlen Bescheid wissen.
Bemerkung 1.3.1 Beweise führt man, u. a. dazu,
(-) sich selbst zu überzeugen, dass man richtig überlegt hat;
(-) andere Mathematiker zu überzeugen, dass die Aussage eines Satzes, Lemmas, . . . zutrifft;
4
Euklid, 365(?) – 300(?), Mathematiker“
”
6
(-) den inneren Aufbau eines mathematischen Gebäudes zu erläutern.
Einen Beweis zu finden, erfordert oft ein großes Maß an Intuition, Kreativität und Vorstellungsvermögens.
Bemerkung 1.3.2 Axiome sind Sätze/Aussagen, deren Gültigkeit ohne Argumente angenommen wird, an deren Wahrheit also nicht gezweifelt wird; wir bezeichnen sie als evidente Grundsätze.
Eines der bekanntesten Axiomensysteme ist das von Euklid zur Begründung der Geometrie. Es
beinhaltet das so genannte Parallelenaxiom, das sich etwa 2000 Jahre nach Euklid in seiner
Evidenz als zweifelhaft gezeigt hat.
In den empirischen Wissenschaften kann man keine Axiome festlegen, weil die erfahrbare
Welt erst in der Beobachtung zu Tage tritt.
1.4
Mengen
Den Begriff der Menge wollen und können wir hier ebenso wie die obigen Darlegungen zur
Aussagenlogik“ nicht im strengen Sinne der mathematischen Grundlagen einführen. Er dient
”
uns nur als Hilfsmittel für eine möglichst kurze Notation von konkreten Mengen. Von G. Cantor,5
dem Begründer der Mengenlehre, haben wir folgende Definition:
Eine Menge ist eine Zusammenfassung bestimmter wohlunterschiedener Objekte unserer Anschauung oder unseres Denkens – welche Elemente der Menge genannt werden – zu einem
Ganzen.
Diese Begriffsbildung hat die Mathematik tief beeinflusst.
Eine Menge besteht also aus Elementen, kennt man alle Elemente der Menge, so kennt man
die Menge. Beispiele, die wir noch genauer studieren werden, sind:
N := Menge der natürlichen Zahlen Z := Menge der ganzen Zahlen
Q := Menge der rationalen Zahlen R := Menge der reellen Zahlen .
Mit den natürlichen Zahlen 1, 2, 3, . . . sind wir schon (aus der Schule) wohlvertraut. Später gehen
wir etwas struktureller darauf ein.
Man kann eine Menge dadurch bezeichnen, dass man ihre Elemente zwischen zwei geschweifte
Klammern (Mengenklammern) schreibt. Die Zuordnung eines Elements zu einer Menge erfolgt
mit dem Zeichen “ ∈ “. Gehört ein Objekt x nicht zu einer Menge M, so schreiben wir x ∈
/ M.
Es hat sich als zweckmäßig erwiesen, den Mengenbegriff so aufzufassen, dass eine Menge aus
gar keinem Element bestehen kann. Dies ist dann die leere Menge, das Zeichen dafür ist ∅ .
Beispielsweise ist die Menge der rationalen Zahlen, deren
Quadrat gleich 2 ist, leer. Dies wissen
√
wir aus der Anmerkung über die Irrationalität von 2 .
Das Hinschreiben der Elemente einer Menge kann auf zweierlei Weisen geschehen.
Hat die Menge nur ganz wenige Elemente, so kann man sie einfach alle hinschreiben, durch
Kommata getrennt, auf die Reihenfolge kommt es dabei nicht an und eine Mehrfachnennung ist
nicht von Bedeutung, etwa:
{1, 2, 3} = {2, 3, 1} = {3, 3, 1, 2} .
Abgekürzt verfährt man oft auch so: Elemente, die man nicht nennt aber gut kennt, werden
durch Punkte angedeutet, etwa:
{1, 2, 3, 4, 5, 6, 7, 8} = {1, 2, . . . , 8} = {1, . . . , 8} .
5
Georg Cantor, 1845-1918, Mathematiker
7
Man nennt diese Art, Mengen hinzuschreiben, zu definieren, die Umfangsdefinition.
Die zweite Möglichkeit besteht darin, Objekte einer Menge als Elemente dadurch zuzuordnen,
dass man ihnen eine charakterisierende Eigenschaft zuweist. Ist E eine Eigenschaft, die jedes
Objekt x einer Menge M hat oder nicht hat, so bezeichne
{x ∈ M |x hat die Eigenschaft E}
die Menge aller Elemente von M , die die Eigenschaft E haben; etwa
KO := {x ∈ Obst|x Kernobst}
UNO := {x ∈ Länder|x Mitglied der UNO}
Man nennt diese Art, Mengen hinzuschreiben, zu definieren, die Inhaltsdefinition.. Die Schreibweise P (x) für ein Element x einer Menge M interpretieren wir, dass x die Eigenschaft/das
Prädikat P zukommt.
Wichtig beim Hinschreiben von Mengen ist, dass stets nachgeprüft werden kann, ob ein
spezielles Objekt einer in Frage stehenden Menge angehört oder nicht; in der Definition von
Cantor ist dies festgehalten. Dies korrespondiert mit dem ausgeschlossenen Dritten bei Aussagen.
Bei J.A. Poulos6 lesen wir:
... Ähnlich ist es mit der Notation der Mengenlehre. Sie ist so einfach, dass sie schon an
der Grundschule gelehrt werden kann. Was manchmal seitenlang in einem Vorwort zu einem
Lehrbuch steht, passt schon in ganz wenige Sätze: Mit p ∈ F wird ausgedrückt, dass p ein
Element der Menge F ist, und mit F ⊂ G, dass jedes Element von F ebenso ein Element
von G ist. Haben wir zwei Mengen A und B, dann ist A ∩ B die Menge, die jene Elemente
enthält, die sowohl zu A als auch zur Menge B gehören; mit A ∪ B ist die Menge gemeint,
die jene Elemente enthält, die zur Menge A, B oder zu beiden gehören; und A′ ist die Menge
jener Elemente, die nicht zu A gehören. Eine Menge, die keine Elemente enthält, ist eine
leere Menge und wird mit ∅, manchmal auch mit {} angegeben, geschweifte Klammern ohne
Inhalt. Ende des Mini-Kurses.
Was uns von den Begriffen aus dem obigen Minikurs noch nicht begegnet ist, bringen wir
noch in eine anständige“ Form:
”
Definition 1.4.1 Seien A, B Mengen und sei z irgendein Objekt.
(a) A ⊂ B : ⇐⇒ (x ∈ A =⇒ x ∈ B)
Damit ist die Teilmengeneigenschaft/Inklusion ⊂ definiert.
(b) A = B : ⇐⇒ (A ⊂ B und B ⊂ A)
(c) z ∈ A ∩ B : ⇐⇒ (z ∈ A und z ∈ B) .
Damit ist der Durchschnitt A ∩ B definiert: A ∩ B := {x|x ∈ A und x ∈ B}
(d) z ∈ A ∪ B : ⇐⇒ (z ∈ A oder z ∈ B) .
Damit ist die Vereinigung A ∪ B definiert: A ∪ B := {x|x ∈ A oder x ∈ B}
Das Symbol “ := “ haben wir als definierendes Gleichsetzen von Mengen eingeführt. Es korrespondiert mit dem Symbol “: ⇐⇒ “.
6
Poulos, J.A.: Von Algebra bis Zufall, Campus, Frankfurt, 1992
8
Definition 1.4.2 Sei A eine Menge. Die Potenzmenge von A ist die Menge der Teilmengen
von A einschließlich der leeren Menge:
P OT (A) := {B|B ⊂ A} .
Beispiel 1.4.3 Sei A := {p, q, r}. Wie sieht die Potenzmenge P OT (A) aus? Wir haben
P OT (A) = {∅, {p}, {q}, {r}, {p, q}, {q, r}{p, r}, {p, q, r}}
Wir stellen fest, dass die Menge A drei und die Menge P OT (A) 8 = 23 Elemente enthält. Dies
hat dazugeführt, dass man P OT (A) auch als 2A schreibt, und die Bezeichung Potenzmenge“
”
leitet sich daraus ab.
Mitunter wollen wir eine Bezeichnung für diejenigen Elemente haben, die eine gewisse Eigenschaft nicht haben. Dies ist Inhalt von
Definition 1.4.4 Seien A, B Teilmengen von U .
(a) A\B := {x ∈ A|x ∈
/ B} heißt das relative Komplement von B in A .
(b) ∁A := U \A heißt das Komplement von A (in U ).
(In der Definition (b) steht U für die (universelle) Grundmenge, auf die wir uns bei der Komplementbildung beziehen.)
Ein bequemes Hilfsmittel beim Nachdenken über Mengen sind die Venn–Diagramme, bei
denen in der Zeichenblattebene Gebiete zur Darstellung von Mengen benutzt werden: Durch
Kurven umschlossene Gebiete stellen Mengen A, B, . . . dar. Solche Darstellungen sind gut geeignet, formale Argumente für einen zu beweisenden Sachverhalt zu finden.
A
B
(a) Teilmenge
A
B
(b) Vereinigung
A
B
(c) Durchschnitt
Abbildung 1.1: Venn–Diagramme
Die Nützlichkeit der leeren Menge ∅ wird deutlich bei der Definition des Durchschnitts. Hier
ist ja der Fall, dass A ∩ B kein Element enthält, sicherlich nicht auszuschließen, wie uns ein
geeignetes Venn–Diagramm sofort lehrt. Zwei Mengen, deren Durchschnitt leer ist, heissen disjunkt.
9
Regel 1.4.5 Seien A, B, C Mengen.
A ⊂ B, B ⊂ C
A ∪ (B ∪ C)
=⇒
=
A ∩ (B ∩ C)
=
A∩B
=
A∪B
=
A ∩ (B ∪ C)
=
A ∪ (B ∩ C)
=
A⊂C
(A ∪ B) ∪ C
(1.13)
(1.14)
(A ∩ B) ∩ C
(1.15)
B∩A
(1.17)
B∪A
(1.16)
(A ∩ B) ∪ (A ∩ C)
(1.18)
(A ∪ B) ∩ (A ∪ C)
(1.19)
Beweis von (1.18):
Wir haben zu zeigen: A ∩ (B ∪ C) ⊂ (A ∩ B) ∪ (A ∩ C), (A ∩ B) ∪ (A ∩ C) ⊂ A ∩ (B ∪ C) .
Sei x ∈ A ∩ (B ∪ C). Dann gilt: x ∈ A, x ∈ B ∪ C . Daraus folgt: x ∈ A ∩ B oder x ∈ A ∩ C,
je nachdem, ob x ∈ B und/oder x ∈ C. Daraus schließen wir: x ∈ (A ∩ B) ∪ (A ∩ C). Für den
Beweis der anderen Inklusion lese man die eben vorgeführten Beweisschritte rückwärts.
Sprechweisen:
(1.13)
(1.14), (1.15)
(1.16), (1.17)
(1.18), (1.19)
Transitivität
Assoziativgesetze
Kommutativgesetze
Distributivgesetze.
Definition 1.4.6 Seien A, B Mengen.
(a) Sind a ∈ A, b ∈ B, so heißt (a, b) das damit gebildete geordnete Paar (bezogen auf die
Reihenfolge “zuerst A, dann B“).
(b) Zwei Paare (a, b), (a′ , b′ ) mit a, a′ ∈ A, b, b′ ∈ B, heißen gleich genau dann, wenn a =
a′ , b = b′ gilt.
(c) Die Menge A × B := {(a, b)|a ∈ A, b ∈ B} heißt das kartesische Produkt der Faktoren
A, B .
Mit geordneten Paaren notieren wir etwa die kartesischen Koordinaten (Vielfache der Einheitsstrecke) eines Punktes in der Ebene: wir kommen darauf zurück.7
Beispiel 1.4.7 Z2 := {(x, y)|x, y ∈ Z} ist die Menge aller Punkte der Ebene mit ganzzahligen
Koordinaten. Solche Punkte heißen auch Gitterpunkte“ der Ebene. Analog ist Z n die Menge
”
aller Gitterpunkte des Rn .
Regel 1.4.8 Seien A, B, C Mengen:
A × (B ∪ C) = (A × B) ∪ (A × C) .
A × (B ∩ C) = (A × B) ∩ (A × C) .
7
(1.20)
(1.21)
Da René Descartes, 1596-1650, sehr erfolgreich die Koordinatisierung algebraischer Probleme betrieben hat,
ist die Bezeichnung kartesisch“ wohl angebracht.
”
10
Diese Regeln bestätigt man ganz leicht. Nehmen wir uns die Regel (1.20) vor und beweisen eine
der Inklusionen, die es zu beweisen gilt: A × (B ∪ C) ⊂ (A × B) ∪ (A × C) .
Sei x ∈ A × (B ∪ C) . Dann gibt es a ∈ A, d ∈ B ∪ C mit x = (a, d) . Nach Definition von B ∪ C
bedeutet dies
x = (a, d) mit a ∈ A, d ∈ B, oder x = (a, d) mit a ∈ A, d ∈ C .
Also x ∈ A × B oder x ∈ A × C .
Es ist klar, dass wir das kartesische Produkt auf mehr als zwei Faktoren“ ausdehnen können.
”
Etwa korrespondiert ein (gültiger) Lottoschein mit den Elementen der Menge
{x = (x1 , x2 , x3 , x4 , x5 , x6 ) ∈ Z × · · · × Z|x1 , . . . , x6 sind paarweise verschieden};
dabei ist Z = {1, 2, 3, . . . , 49}. Ein Element (x1 , . . . , x6 ) der Menge nennt man ein 6-Tupel.
Das mehrfache kartesische Produkt einer Menge A erhält eine Kurzschreibweise, nämlich
An := A
· · × A} := {x = (x1 , . . . , xn )| alle xi ∈ A} .
| × ·{z
n−mal
Ein Element x = (x1 , . . . , xn ) der Menge An nennt man ein n-Tupel.
Eine Menge kann endlich viele Elemente haben oder unendlich viele. Hier begnügen wir uns
mit einer Definition der Endlichkeit“, die aus unserer Erfahrung heraus sehr wohl geeignet ist;
”
später, wenn wir uns mit Abbildungen beschäftigt haben, bessern wir nach:
Eine Menge heißt endlich, wenn jedem Element der Menge der Reihe nach die Zahlen
1, 2, . . . , N zugeordnet werden kann, wobei mit N dann allen Elementen eine Zahl
zugeordnet ist. Eine Menge heißt unendlich, wenn sie nicht endlich ist.
Eine endliche Menge {x1 , . . . , xn } hat somit n Elemente, wenn alle xi paaarweise verschieden
sind.
Die Anzahl der Elemente einer Menge M bezeichnen wir so: #M .
Man beachte, dass es unserer Verabredung nicht widerspricht, dass Elemente von Mengen
selbst wieder Mengen sein können. Man hüte sich aber vor Konstruktionen wie Menge aller
”
Mengen“, Teilmengen aller Mengen“ usw.. Damit sind wir in einer naiven Auffasung von Men”
gen überfordert. Mit den Schwierigkeiten, die bei solchen Konstruktionen auftreten, hat sich
Bertrand Russel erfolgreich auseinandergesetzt.
Auf das Zählen der Elemente einer Menge werden wir nach einer Betrachtung der natürlichen
Zahlen eingehen.
In der Wahrscheinlichkeitstheorie benutzt man Mengen, um
unsichere Ereignisse, also Ereignisse, deren Eintreffen vom
Zufall mitbestimmt ist, darzustellen. Die Theorie, die dafür
zuständig“ ist, ist die Stocha”
stik, in der die Wahrscheinlichkeitstheorie und die Statistik
zusammengefaßt sind. Wir kommen darauf zurück.
Notation
Sprechweise
∀a ∈ A
“für alle Elemente a in A“
∃a ∈ A
“es existiert a in A“
∃1 a ∈ A
“es existiert genau ein a in A“
∀a ∈ A (P (a))
“für alle Elemente a in A ist P (a) wahr“
∀a ∈ A (P (a))
“für alle Elemente a in A gilt P (a)“
∃a ∈ A (P (a))
“es existiert a in A mit P (a)“
Abbildung 1.2: Quantoren
11
1.5
Quantoren
Wir führen noch Quantoren ein; siehe Abbildung 1.2. Damit können wir dann viele Resultate
und Definitionen noch kompakter hinschreiben. Wir werden viele Beispiele für die Nützlichkeit
dieser Quantoren kennenlernen. Wir erinnern zum Beispiel an die Definition der Konvergenz
einer reellen Zahlenfolge (an )n∈N :
a = lim an : ⇐⇒ ∀ ε > 0 ∃ N ∈ N ∀ n ≥ N (|an − a| < ε) .
n
Man beachte stets, dass Quantoren in der Reihenfolge nicht vertauschbar sind. Wichtig ist
es auch, zu verstehen, wie die Negation einer Aussage aussieht, die mit Hilfe von Quantoren
beschrieben wird, etwa:
¬(∀ a ∈ A (P (a))) ist gleichbedeutend mit ∃ a ∈ A (¬P (a)) .
1.6
1.)
Übungen
Verneine folgende Aussagen:
(a) Wenn es regnet, ist die Straße nass.
(b) Es gibt kein Tier, das genau ein Ohr und genau zwei Augen hat.
(c) Alle Quadrate von ganzen Zahlen sind gerade.
Was lässt sich über den Wahrheitsgehalt der Aussagen in (a), (b), (c) sagen?
2.)
A, B, C, D sind vier Tatverdächtige. Genau einer unter ihnen ist der Täter. Beim Verhör
machen sie folgende Aussagen:
A: B ist der Täter
B: D ist der Täter
C,D: Ich bin nicht der Täter
Wer ist der Täter, wenn
(a) genau einer lügt,
(b) genau einer die Wahrheit sagt ?
3.)
Seien P, Q Aussagen. Stelle die Wahrheitstafel zu
(a) ¬(P ∨ Q) ⇐⇒ ¬P ∧ ¬Q
(b) P ∧ (P ∨ Q) ⇐⇒ P
auf.
4.)
(a)
Fülle die folgende Wahrheitstabelle aus:
P
(w)
(w)
(f)
(f)
Q
(w)
(f)
(w)
(f)
¬P
¬Q
(¬ P ∨ Q)
¬ (¬ P ∨ Q)
Was schließt man aus den beiden letzten Spalten?
(b) Fülle die folgende Wahrheitstabelle aus:
P
(w)
(w)
(f)
(f)
Q
(w)
(f)
(w)
(f)
P =⇒ Q
12
(P =⇒ Q) ∨ P
P ∧ ¬Q
Was schließt man aus der letzten Spalte?
5.)
Verneine folgende Aussagen:
(a)
Zu jedem Vorschlag gibt es jemand, der den Vorschlag kritisiert.
(b) Keine Regel ohne Ausnahme.
(c)
6.)
In manchen Häusern haben nicht alle Wohnungen fließendes Wasser.
Betrachte die Sequenz
Marylin Monroe ist ein Star/Stare sind Höhlenbrüter/Marylin Monroe ist ein Höhlenbrüter
Kommentiere sie hinsichtlich
(a)
Logisch richtig?
(b) Prämisse richtig?
(c)
7.)
Wo ist ein/das Problem?
Seien A, B Mengen. Zeige:
(a)
Zeige: P OT (A ∩ B) = P OT (A) ∩ P OT (B)
(b) Zeige: P OT (A) ∪ P OT (B) ⊂ P OT (A ∪ B)
(c)
Ist sogar P OT (A ∪ B) = P OT (A) ∪ P OT (B) richtig ?
8.)
Seien A, B Mengen. Welche Beziehung besteht zwischen A und
B, falls A ∩ B = A oder A ∪ B = B gilt?
9.)
Seien G, M Mengen und sei I ⊂ G × M . Zu A ⊂ G setze
Aˆ:= {m ∈ M |(a, m) ∈ I für alle a ∈ A} .
Zeige:
(a)
Bˆ⊂ Aˆ falls A ⊂ B .
(b) A ⊂ Aˆˆ, Aˆ= Aˆˆˆ.
(In der Literatur heisst ein solches Tripel (G, M, I) auch Kontext mit Gegenstandsmenge
G, Merkmalen M und Inzidenz I .)
10.) Beweise für Mengen A, B, C : A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) .
11.) Die symmetrische Differenz von Mengen A und B ist definiert durch
A △ B := {x ∈ A|x ∈
/ B} ∪ {x ∈ B|x ∈
/ A}
Beweise für Mengen A, B, C : A △ (B △ C) = (A △ B) △ C.
12.) Seien A, B Mengen und definiere
((a, b)) := {{a}, {a, b}} , a ∈ A, b ∈ B .
Zeige für a, p ∈ A, b, q ∈ B: ((a, b)) = ((p, q)) ⇐⇒ a = p, b = q .
(Damit haben wir geordnete Paare neu definiert.)
13.) Zeige für Mengen A, B die Äquivalenz der folgenden beiden Aussagen:
(a)
A=B.
(b) A ∪ B = A ∩ B .
13
Kapitel 2
Operieren mit und auf Mengen
Hier stellen wir einige nützliche Dinge zur Operation mit und auf Mengen vor. Das Objekt
Alphabet“ ist für die Belange der Informatik von großem Interesse, ebenso wie Relationen und
”
Ordnungen. Daran schließt sich die Definition der Abbildungen an.
2.1
Alphabete
Alphabete sind ein zentraler Begriff der theoretischen Informatik im Zusammenhang mit Grammatiken und Verschlüsselungsverfahren.
Definition 2.1.1 Sei A eine nichtleere Menge. A∗ bezeichne die Menge der endlichen Tupel
von Elementen von A, also x ∈ A∗ genau dann, wenn x = () oder x ∈ An für ein n ∈ N, .
Die Elemente von A∗ werden A–Wörter – in der Informatik A–Strings – genannt, das Symbol
() bezeichnet das so genannte leere Wort (leeres Tupel). (Wörter sind Bausteine von Sprachen.)
Die Menge A wird in diesem Zusammenhang ein Alphabet genannt; die Elemente von A sind
der Zeichenvorrat für die Wörter.
Einem Element w ∈ A∗ mit w ∈ An wird die Länge n zugesprochen; wir nennen es ein n–Wort;
das leere Wort () hat die Länge 0.
Im Spezialfall A = {0, 1} spricht man bei A∗ von binären Worten.
In der obigen Definition haben wir Wörter als Tupel definiert. Im Kontext von Alphabeten
und deren Wörter läßt man in der Tupel-Schreibweise begrenzende runde Klammern und trennende Kommata weg: x = x1 x2 . . . xn ist ein Wort der Länge n . Damit ist die Bezeichnung
String“ in der Informatik auch erklärt.
”
Beispiel 2.1.2
BAUM
1234
01001
− − •−
MMIX
:
:
:
:
:
Deutsches Alphabet {A,B,C, . . . , X,Y,Z,Ä,Ü,Ö}
Dezimalziffern-Alphabet {0,1,2,3,4,5,6,7,8,9}
Binäres Alphabet {0, 1}
Morsealphabet {−, •, ⊔} (− − •− steht für “q“)
{I,V,X,L,C,D,M} ist das Alphabet zur Darstellung
römischer Zahlen
Bemerkung 2.1.3 Sei X = {x1 , . . . , xn } eine Menge mit n Elementen. Jeder Teilmenge A
von X, d.h. jedem Element der Potenzmenge von X, entspricht eindeutig ein n−Wort aus dem
Alphabet {0, 1} :
1 , falls xi ∈ A
A ←→ b1 b2 . . . bn , wobei bi =
0 , falls xi 6∈ A
14
Also ist die Anzahl der Elemente von P OT (X) gleich der Anzahl der möglichen binären n−Worte.
Diese können wir so abzählen:
Es gibt wn n−Wörter und wn+1 (n + 1)−Wörter. Wir sortieren“ die (n + 1)−Wörter nach dem
”
1. Buchstaben: genau wn Wörter beginnen mit 0, genau wn Wörter beginnen mit 1. Daher gilt:
wn+1 = 2 · wn , w1 = 2 . Daraus folgt die Formel wn = 2n , n ∈ N, .
(Wir haben hier eine Art Induktionsbeweis“ aufgeschrieben; dazu später.)
”
Bemerkung 2.1.4 Es gilt heute als gesicherte Tatsache, dass die Erbanlagen von Pflanzen und
Tieren durch die DNS (Desoxyribonukleinsäure) in den Chromosomen übertragen werden. Man
konnte zeigen, dass die DNS aus einer langen Kette besteht, die aus 4 Bausteinen, die durch die
Buchstaben A,T,G,C dargestellt werden, aufgebaut ist. Hier ist ein Ausschnitt:
ATGGCAAGTTACA. . .
Vererbung besteht daher aus langen Nachrichten, die in Worten (Strängen) aus einem Vierbuchstabenalphabet geschrieben werden können; das Ergebnis einer Genom–Analyse ist also so
hinschreibbar.
Die Übertragung von Nachrichten geschieht mittels durch Hardware realisierter mechanischer
oder elektronischer Impulse. Telefon, Morseapparat, Telegraph, Funkgerät sind Instrumente der
Nachrichtenübermittlung. Die Strecke (physikalische Verbindung), auf der die Übermittlung vor
sich geht, bezeichnet man als Kanal. Zur Übertragung werden die Nachrichten in besonderer
Weise vorbereitet. Eine erste Vorbereitung ist die sogenannte Quellencodierung, bei der eine
Nachricht (einer natürlichen Sprache), die ein Sender an einen Empfänger übermitteln will, in
einem vorgegebenen System, Code genannt, dargestellt wird. Quellencodierung bedeutet in der
Regel, einer Nachricht x einer Gesamtheit X von Nachrichten ein Wort w, geschrieben in einem
Alphabet A zuzuordnen.
Ein eventuell so codiertes Wort des Senders geht
nun über den Kanal an den Empfänger. Hier ergeben sich zwei wesentliche Probleme. Zum einen kann
ASCII–Zeichen
Codewort
der Kanal Störungen ausgesetzt sein (atmosphäri⊔ (Zwischenraum) 00100000
sche Störungen bei Satelliten, . . . ), zum anderen
können beabsichtigte Eingriffe (Lauschen, Stören,
0
00110000
gezieltes Abändern, . . . ) von Unbefugten vorgenom1
00110001
men werden. Der erste Aspekt erfordert eine Tech2
00110010
nik, die Fehler erkennt und korrigiert, der zweite
Aspekt eine Technik, die die Nachrichten für Un!
00100001
befugte unlesbar macht. Die Methode für Abhilfe
A
01000001
ist bei beiden Aspekten die gleiche: die Nachricht
B
01000010
im Quellencode wird vor der Sendung über den Kanal einer Sicherheitsmaßnahme unterzogen; sie wird
C
01000011
nochmals codiert. Diesen zweiten Schritt fasst man
Abbildung 2.1: Ascii–Code
unter dem Stichwort Kanalcodierung zusammen.
Auf der Empfängerseite hat man dann entsprechend
zwei Decodierungsmaßnahmen zu treffen, die Kanaldecodierung und die Quellendecodierung.
Beispiel 2.1.5 Beispiele für in der Praxis verwendete Codes sind:
15
• ASCII–Code (American Standard Code for Information Interchange)
Damit wird ein Alphabet, das aus Buchstaben, Ziffern und Sonderzeichen besteht, über dem
Alphabet {0, 1} mit Wortlänge 8 codiert. Ein Ausschnitt ist in Abbildung 2.1 zu sehen.
• Lochstreifencode
Damit wird ein Alphabet aus Buchstaben und Sonderzeichen über dem Alphabet {0, 1} mit
Wortlänge 5 dargestellt, physikalisch realisiert als Fünferkombination von gestanzten Löchern
und ungestanzten Leerstellen im Lochstreifen.
• Zeichensatzcode etwa bei LATE X.
Damit wird ein Alphabet aus Buchstaben, Ziffern und Sonderzeichen über dem Alphabet der
Ziffern {0, 1, . . . , 7} (oktal) mit Wortlänge 3 dargestellt. Ein Beispiel: 046 steht für & im Zeichensatz cmr10. Dabei ist cmr10 selbst wieder ein Codewort, dessen Bauart sich so erklärt:
“cm“ steht für “Computer Modern“, “r“ steht für die Schriftart “Roman“, “10“ steht für die
Entwurfsgröße.
• ISBN (International Standard Book Number)
Beispiel: 3 – 127 – 01901 – 7
(Die Zahl 3 steht für den deutschsprachigen Raum, 127 steht für den Verlag, 01901 steht für die
Nummer des Buches in der internen Zählung des Verlages, 7 ist eine Prüfziffer, die so zustande
kommt:
1 · 3 + 2 · 1 + 3 · 2 + 4 · 7 + 5 · 0 + 6 · 1 + 7 · 9 + 8 · 0 + 9 · 1 hat Rest 7 bei Teilung durch 11
Eine Prüfziffer 10 wird als X (römische 10) geschrieben.)
• E A N (European Article Number/Strichcode)
Beispiel: | ||| | || || |
2.2
Relationen
Definition 2.2.1 Sei X, Y Mengen. Eine Teilmenge R ⊂ X × Y heißt Relation auf X × Y .
Hinter einer Relation verbirgt sich noch nicht viel, denn Teilmengen in einem Kreuzprodukt
X × Y gibt es viele. Interessante Beispiele entstehen erst, wenn man weitere Eigenschaften
hinzunimmt, wie dies etwa unten bei der Äquivalenzrelation und bei der Relation, die eine
Abbildung definieren soll, der Fall ist.
Beispiel 2.2.2 Betrachte auf der Menge M := Menge aller lebenden Menschen die Relation R
des Verheiratetseins:
(a, b) ∈ R : ⇐⇒ a, b sind miteinaner verheiratet.
Klar, hier gilt sicher nicht (a, a) ∈ R .
Das Gleichheitszeichen “ = “ verwenden wir in einer Menge unter der stillschweigenden Annahme der folgenden Regeln:
x = x ; (x = y =⇒ y = x) ; (x = y, y = z =⇒ x = z) .
Dies nehmen wir zum Anlass für
Definition 2.2.3 Sei X eine Menge. Eine Teilmenge R ⊂ X × X heißt Äquivalenzrelation
auf X, falls gilt:
16
(i) (x, x) ∈ R für alle x ∈ X
(Reflexivität)
(ii) (x, y) ∈ R =⇒ (y, x) ∈ R
(Symmetrie)
(iii) (x, y), (y, z) ∈ R =⇒ (x, z) ∈ R
(Transitivität)
R
Liegt mit R auf X eine Äquivalenzrelation vor, so schreiben wir für (x, y) ∈ R x ∼ y oder
kurz x ∼ y , wenn R uns aus dem Zusammenhang klar ist.
Die Bedeutung einer Äquivalenzrelation R auf X liegt darin, dass man damit die Menge
X in Teilmengen (Klassen, Bündel) einteilen kann, eine Einteilung, die eventuell gröber ist,
als die Aufteilung in einelementige Mengen, und die bezüglich eines Merkmales“ doch noch
”
aussagekräftig ist. Die Einteilung geschieht durch
R
[x] := {y ∈ X|y ∼ x} , x ∈ X , und X/ R := {[x] | x ∈ X} .
Die Objekte [x] heißen Äquivalenzklassen, x heißt Repräsentant der Klasse [x] . Man beR
achte, dass jedes y ∈ X mit y ∼ x als Repräsentant für [x] Verwendung finden kann.
Beispiel 2.2.4 Blutgruppen werden grob eingeteilt in A, AB, B, 0. Sei K eine Gruppe von
Kindern. Wir erklären darauf eine Relation durch
x ∼ y : ⇐⇒ x, y haben dieselbe Blutgruppe
In der Tat liegt eine Äquivalenzrelation vor. Dadurch wird die Gruppe der Kinder in 4 Klassen
eingeteilt.
Beispiel 2.2.5 Man überlege sich, in welcher Weise, die Geraden in der Ebene durch eine
Äquivalenzrelation in Klassen eingeteilt werden können.
Lemma 2.2.6 Sei X eine Menge und sei R eine Äquivalenzrelation auf X. Dann sind mit
x, y ∈ X folgende Bedingungen äquivalent:
R
(a) y ∼ x .
(b)
(c)
y ∈ [x] .
[y] ∩ [x] 6= ∅ .
(d) [y] = [x] .
(e)
x ∈ [y] .
(f )
x ∼ y.
R
Beweis:
Wollten wir alle Äquivalenzen einzeln zeigen, müssten wir 10 Implikationen beweisen. Dies
können wir wesentlich abkürzen durch einen Ringschluss: es genügt zu zeigen:
(a) =⇒ (b) =⇒ (c) =⇒ (d) =⇒ (e) =⇒ (f ) =⇒ (a) .
Dies tun wir nun. Beachte dabei, dass wegen der Reflexivität stets z ∈ [z] .
(a) =⇒ (b)
Dies folgt aus der Definition der Klasse [x] .
17
(b) =⇒ (c)
Klar, y ∈ [y] ∩ [x] .
(c) =⇒ (d)
Sei z ∈ [y] ∩ [x] , d.h. z ∼ x, z ∼ y . Wir zeigen [z] = [x] = [y] . Es genügt dazu [z] = [y] zu zeigen,
der Beweis der anderen Aussage verläuft völlig analog.
Sei u ∈ [z] . Dann gilt u ∼ z, z ∼ y und daher mit der Transitivität u ∈ [y] .
Sei v ∈ [y] . Dann gilt v ∼ y, z ∼ y und daher mit der Symmetrie und Transitivität u ∈ [z] .
(d) =⇒ (e)
Klar, denn x ∈ [x] .
(e) =⇒ (f )
Dies folgt aus der Definition der Klasse [y] .
(f ) =⇒ (a)
Symmetrie von ∼ .
Folgerung 2.2.7 Sei X eine Menge und sei R eine Äquivalenzrelation auf X. Dann gilt:
(a) Für jedes x ∈ X gibt es [y] ∈ X/ R mit x ∈ [y] .
(c) Zwei Äquivalenzklassen besitzen genau dann nichtleeren Durchschnitt, wenn sie gleich sind.
Beweis:
Zu (a). Klar: x ∈ [x] für alle x ∈ X wegen der Reflexivität von “∼“.
Zu (b). Siehe Lemma 2.2.6.
2.3
Ordnung
Bei den natürlichen Zahlen 1,2,3,. . . – und nicht nur dort – verwenden wir das Ungleichungszeichen “≤“. Es hat die Eigenschaften (x, y, z ∈ N)
x ≤ x;
x ≤ y und y ≤ x =⇒ y = x ;
x ≤ y und y ≤ z =⇒ x ≤ z ;
x ≤ y oder y ≤ x .
Wir nehmen dies zum Anlass für
Definition 2.3.1 Sei X eine Menge. Eine Teilmenge O ⊂ X × X heißt Halbordnung von X,
falls gilt:
(i) Für alle x ∈ X gilt (x, x) ∈ O.
(Reflexivität)
(ii) (x, y) ∈ O , (y, x) ∈ O =⇒ y = x .
(Antisymmetrie)
(iii) (x, y), (y, z) ∈ O =⇒ (x, z) ∈ O .
(Transitivität)
Ist zusätzlich noch
(iv) Für alle x, y ∈ X gilt (x, y) ∈ O oder (y, x) ∈ O
erfüllt, dann heißt O eine Ordnung von X.
O
Meist schreibt man bei Vorliegen einer Halbordnung O statt (x, y) ∈ O auch x ≤ y oder kurz
x ≤ y , wenn der Zusammenhang klar ist.
18
Beispiel 2.3.2 Ist X eine Menge, dann ist in P OT (X) eine Halbordnung O definiert durch
(A, B) ∈ O : ⇐⇒ A ≤ B : ⇐⇒ A ⊂ B .
Beachte, dass nur in trivialen Fällen eine Ordnung vorliegt.
Beispiel 2.3.3 Sei A ein (endliches) Alphabet und seien An die Wörter der Länge n über dem
Alphabet A . Sei in A eine Ordnung ≤ gegeben.
Wir setzen für a = a1 . . . an , b = b1 . . . bn ∈ An :
a ≤ b : ⇐⇒ a = b oder ak ≤ bk für das kleinste k mit ak 6= bk .
lex
Dann ist ≤ eine Ordnung in An . Man nennt sie die lexikographische Ordnung. Als Anwenlex
dung ordne man
0002, 0008, 0013, 0029, 0132, 1324
als Worte über dem in natürlicher Weise angeordneten Alphabet A := {0, 1, 2, . . . , 9} .
Eine Liste besteht aus einer Sammlung von wohlbestimmten und wohlunterscheidbaren Objekten und ihrer Anordnung nach einem Prinzip; die leere Liste ist zugelassen.
Die Anordnung kann nach dem chronologischen Prinzip, nach einem alphabetischen Prinzip oder
allgemein mit einer Ordnung erfolgen. Kennt man alle Objekte der Liste, so kennt man die Liste;
Hat die Liste nur ganz wenige Elemente, so kann man sie einfach alle innerhalb einer eckigen
Klammer – damit machen wir den Unterschied zu Mengen klar – hinschreiben, durch Kommata
getrennt, auf die Reihenfolge kommt es hierbei offenbar an.
2.4
Algorithmen
Ein Computer ist ein Werkzeug zur Verarbeitung und Speicherung von Information. Um ihn zu
nutzen, ist er mit Verarbeitungsvorschriften zu füttern“. Wir formulieren solche Vorschriften in
”
der Regel unter dem Stichwort Algorithmus. Hier skizzieren wir, worauf es bei Algorithmen ankommt, und geben erste Beispiele. Für die Analyse von Algorithmen ist der Begriff Abbildung“
”
hilfreich, wenn es darum geht die Laufzeit aufzuschreiben.
Ein Algorithmus1 für eine vorgegebene bestimmte Art von Aufgaben ist eine endliche
Abfolge von wohldefinierten, ausführbaren Vorschriften, die bei Abarbeitung, ausgehend von einem Eingangszustand (Input) nach einer endlichen Anzahl von Verarbeitungsschritten einen Ausgangszustand (Output) bestimmen, der als Lösung der durch
den Eingangszustand charakterisierten Aufgabe angesehen werden kann.
Algorithmen sind unabhängig von einer konkreten Programmiersprache und einem konkreten
Computertyp, auf denen sie ausgeführt werden.
Beispiel 2.4.1 Betrachte folgende Liste von Anweisungen:
EIN: Natürliche Zahl n .
1
Die Bezeichnung leitet sich aus dem Namen Al–Khwarizmi (Al–Khwarizmi,780? — 850?), einem der bedeutensten Mathematiker des anfangenden Mittelalters, ab.
19
step 1 a := n, k := 1 .
step 2 Ist a (
= 1, dann gehe zu AUS.
3a + 1 falls a ungerade
step 3 a :=
a/2
falls a gerade
step 4 k := k + 1, gehe zu step 2.
AUS: Mit k die Länge der erzeugten Zahlenfolge.
Die Rechenschritte erklären sich selbst: ausgehend von n wird eine Folge von natürlichen
Zahlen erzeugt, eine so genannte Collatz/Uhlam/Warring-Folge.
Ist dies ein Algorithmus? NEIN, denn es ist nicht sichergestellt, dass die Abfrage
Ist a = 1, dann gehe zu AUS“
”
irgendwann zur Beendigung führt.
ABER: Bisher hat man keine natürliche Zahl gefunden, bei der die obige Liste von Anweisungen
nicht endet.
Unterschiedliche Algorithmen können entworfen werden zur Lösung ein und derselben Aufgabe. Leistungsunterschiede lassen sich herausarbeiten, wenn man ihren Aufbau und ihre Wirkungsweise analysiert. Fragestellungen dafür sind:
• Entwurf von Algorithmen: Wie soll ein Algorithmus zur Lösung einer bestimmten
Aufgabe aussehen?
• Berechenbarkeit: Gibt es Aufgaben, für die kein Algorithmus existiert?
• Korrektheit: Wie läßt sich nachweisen, ob ein vorliegender Algorithmus die Aufgabe
korrekt löst?
• Komplexität: Wie läßt sich der Aufwand, der betrieben werden muss, um eine Problemklasse von Aufgaben zu lösen, bestimmen/abschätzen?
• Robustheit/Zuverlässigkeit: Wie groß ist die Problemklasse von Aufgaben, die der
Algorithmus löst?
• Genauigkeit: Was ist die Qualität der Lösung, wenn numerisches Rechnen nötig ist?
Hauptziel der Analyse ist die Effizienzuntersuchung und die Entwicklung effizienterer Algorithmen. Diese Analyse sollte aber rechnerunabhängig durchgeführt werden. Dazu benötigt
man ein geeignetes Rechnermodell. Solche Modelle stehen zur Verfügung! Wir wollen hier nicht
darauf eingehen, unsere Analyseuntersuchungen stützen wir auf die Ermittlung des Rechenaufwands, ausgedrückt durch die Anzahl von elementaren Operationen. Hierbei kann man drei
Ansätze unterscheiden:
– Worst-case-Komplexität: Dies ist eine obere Schranke für den Aufwand in Abhängigkeit
vom Input.
– Mittlere Komplexität: Dies ist eine obere Schranke für den Aufwand in Abhängigkeit
vom Input bei gewissen Annahmen über das Auftreten des Inputs in der Problemklasse.
– Untere Komplexität: Hierunter versteht man die Ermittlung unterer Schranken für den
zu betreibenden Aufwand.
20
Diese Ansätze können rechnerunabhängig und a-priori erfolgen, d.h. ohne den Algorithmus zu
testen. Unter einer a-posteriori–Analyse versteht man das Testen des Algorithmus an Aufgaben
mit (hinreichend) großem Input.
Die konkrete Ausführung eines Algorithmus nennt man einen Prozess. Die Einheit, die den
Prozess ausführt, ist ein Prozessor. Beim Kuchenbacken ist der Algorithmus das Rezept, der
Prozess die Abarbeitung des Rezepts, der Prozessor der Koch. Hier denken wir natürlich an
den Prozessor Computer“. Um eine Analyse des Ablaufs eines Algorithmus auf diesem Pro”
zessor vornehmen zu können, ist ein geeignetes Modell für den Computer (Maschinenmodell)
bereitzuhalten. Die Informatik studiert u.a. die Turing-Maschine und die Random-AccessMaschine (RAM), welche in gewissem Sinne sogar äquivalent sind. Die Analyse von Algorithmen auf einem abstrakten Niveau ist eine Disziplin der Informatik und/oder mathematischen
Informatik.
Sei M eine endliche Menge mit n Elementen und versehen mit einer Ordnung ≤ . Sortieren heißt, die Elemente von M so anzuordnen, daß sie bzgl. der Ordnung ≤ eine aufsteigende
Elementfolge bilden. Sortierverfahren werden benötigt etwa bei: Einordnen von Schlüsseln im
Werkzeugkasten, Ordnen der erhaltenen Karten beim Skatspiel, Sortieren von Dateien der Größe
nach. Gesichtspunkte für die Leistungsfähigkeit eines Sortierverfahrens sind:
Schnelligkeit. Wieviele Rechenoperationen (Vergleiche, Umstellen in einer Liste) in Abhängigkeit von n sind nötig? Dieser Aufwand wird Laufzeitkomplexität des Verfahrens genannt.
Speicherplatz. Im allgemeinen kann man sich die Elemente der Menge abgelegt in Fächern
vorstellen. Beim Sortieren kann es sinnvoll sein, Zusatzfächer zu benutzen. Der Bedarf an
Fächern in Abhängigkeit von n ist die Speicherplatzkomplexität des Verfahrens.
2.5
Abbildungen
Mit Abbildungen drücken wir den mathematischen Sachverhalt aus, dass es zwischen zwei Objekten eine klar definierte Abbhängigkeit gibt. Wiederum behandeln wir den Begriff auf der
Ebene einer naiven Auffassung.
Definition 2.5.1 Seien A, B, C, D Mengen.
(a) Eine Abbildung f von A nach B ist eine Vorschrift, durch die jedem a ∈ A genau ein
Bild f (a) ∈ B zugeordnet wird; A heißt Definitionsbereich, B heißt Wertebereich
von f. Wir schreiben f : A −→ B .
(b) Zwei Abbildungen f : A −→ B, g : C −→ D heißen gleich, wenn gilt:
A = C, B = D, f (x) = g(x) für alle x ∈ A .
Teil (a) der Definition ist nicht ganz zufriedenstellend, denn wir verwenden das umgangssprachliche Vorschrift“. Hier ist eine Definition, die dies vermeidet:
”
Definition 2.5.2 Seien A, B Mengen. Eine Abbildung von A nach B ist eine Relation R auf
A × B mit folgender Eigenschaft:
∀ a ∈ A ∃1 b ∈ B ((a, b) ∈ R)
21
Wir werden später auch von Funktionen sprechen. In unserem Verständnis ist eine Funktion
ein Spezialfall einer Abbildung: wir sprechen dann von einer Funktion, wenn wir eine Abbildung
zwischen Zahlbereichen haben, d.h. wenn Definitions– und Wertebereich der Abbildung Mengen
von Zahlen sind.2
Beispiel 2.5.3 Sei A eine Menge. Dann nennt man die Abbildung
idA : A ∋ x 7−→ x ∈ A
die Identität auf A. (Manchmal lassen wir den Index A weg und schreiben einfach id, wenn
klar ist, um welches A es sich handelt.)
Beispiel 2.5.4 Seien A, B Mengen. Dann heißt die Abbildung
π1 : A × B ∋ (a, b) 7−→ a ∈ A
die Projektion auf den ersten Faktor.3 Es sollte klar sein, dass entsprechend auch die
Projektionen auf beliebige Faktoren in einem kartesischen Produkt erklärt sind.
Beispiel 2.5.5 Sei A eine Menge.
Jede Abbildung
N ∋ n 7−→ xn ∈ A
nennt man eine Folge mit Folgengliedern aus A . Meist schreiben wir dafür kurz (xn )n∈N .
Jede Abbildung
{1, . . . , m} × {1, . . . , n} ∋ (i, j) 7−→ aij ∈ A
nennen wir eine Matrix mit m Zeilen und n Spalten mit Einträgen aus A . Meist schreiben wir
dafür kurz (aij )1≤i≤n,1≤j≤m .
Wenn wir A := {0, 1, . . . , 255} wählen, können wir eine solche Matrix als Pixelbild mit m · n
Pixeln und 28 = 256 Grauwertstufen interpretieren.
Definition 2.5.6 Sei f : A −→ B eine Abbildung. Die Menge
graph(f ) := {(a, b) ∈ A × B|a ∈ A, b = f (a)}
heißt der Graph von f .
Definition 2.5.7 Sei f : X −→ Y eine Abbildung und seien A ⊂ X, B ⊂ Y . Dann heißt die
Menge
f (A) := {f (x)|x ∈ A}
die Bildmenge von A oder das Bild von A, und die Menge
−1
f (B) := {x ∈ X|f (x) ∈ B}
heißt die Urbildmenge von B oder einfach das Urbild von B.
Beispiel 2.5.8 Sei f : N ∋ n 7−→ 2n + 1 ∈ N . Dann ist das Bild von f die Menge aller
ungeraden natürlichen Zahlen mit Ausnahme von 1 .
2
Der Abbildungsbegriff, wie wir ihn hier eingeführt haben, konnte erst nach G. Cantor in Mode“ kommen,
”
da nun Mengen handhabare Objekte waren.
3
Die Wortwahl wird verständlich, wenn wir uns A × A als Koordinatensystem realisiert denken. Dann wird
von einem Punkt durch Beleuchtung parallel zur zweiten Koordinatenachse auf der ersten Achse der projezierte
Punkt sichtbar; man spricht von einer orthogonalen Projektion.
22
Definition 2.5.9 Seien f : X −→ Y , g : Y −→ Z Abbildungen. Die Hintereinanderausführung oder Komposition g ◦ f der Abbildungen f, g ist erklärt durch
g ◦ f : X ∋ x 7−→ g(f (x)) ∈ Z .
Regel 2.5.10 Seien f : X −→ Y, g : Y −→ Z, h : Z −→ W Abbildungen.
idY ◦ f
= f ◦ idX
h ◦ (g ◦ f ) = (h ◦ g) ◦ f
(2.1)
(2.2)
Die Identität in (2.2) nennt man das Assoziativgesetz. Man beachte, dass für die Hintereinanderausführung von Abbildungen ein Kommutativgesetz ( f ◦ g = g ◦ f ) im allgemeinen nicht
gilt.
Definition 2.5.11 Sei f : X −→ Y eine Abbildung.
(i) f injektiv genau dann, wenn für alle x, x′ ∈ X x 6= x′ =⇒ f (x) 6= f (x′ ) gilt.
(ii) f surjektiv genau dann, wenn für alle y ∈ Y ein x ∈ X existiert mit y = f (x) .
(iii) f bijektiv : ⇐⇒ f injektiv und surjektiv
Ist f : X −→ Y eine bijektive Abbildung, dann gibt es eine Abbildung g : Y −→ X mit
f ◦ g = idY , g ◦ f = idX .
Dies folgt aus der Tatsache, dass jedes y ∈ Y ein eindeutig bestimmtes Urbild“ xy ∈ X besitzt:
”
y = f (xy ) . Damit wird eine Abbildung
g : Y −→ X , y 7−→ xy
definiert.
Definition 2.5.12 Sei f : X −→ Y bijektiv. Die nach obiger Anmerkung eindeutig bestimmte
Abbildung4 g mit g ◦ f = f ◦ g = id heißt die (zu f ) inverse Abbildung. Wir schreiben dafür
f −1 .
Beispiel 2.5.13 Sei f : R\{0} ∋ x 7−→ x1 ∈ R\{0} . Dann ist sicherlich f −1 = f . Ein weiteres
Beispiel dieser Art ist f : Z2 ∋ (x, y) 7−→ (y, x) ∈ Z2 . Auch hier gilt f −1 = f .
Sei M eine Menge. Wir setzen:
G := {f ∈ Abb (M )|f bijektiv } , • := ◦ .
Wir bezeichnen diese Menge G mit S(M ) . Diese Menge ist mit der Hintereinanderausführung
von Abbildungen eine Gruppe; dazu später.
4
In der Literatur spricht man bei bijektiven Abbildungen oft auch von umkehrbar eineindeutigen Abbildungen.
In Satz ?? zusammen mit Definition 2.5.11 liegt die Berechtigung für eine solche Sprechweise.
23
Definition 2.5.14 Ist M eine nichtleere Menge, so nennen wir die Gruppe S(M ) die symmetrische Gruppe von M. Ist M = {1, . . . , m}, dann nennen wir S(M ) Permutationsgruppe
und jedes Element in S(M ) eine Permutation. In diesem Spezialfall schreiben wir kurz Sm .
Die Wortwahl Permutationsgruppe wird verständlich, wenn wir beobachten, dass bei der
Menge M = {1, . . . , m} einer Abbildung f in Sm die Umstellung der Elemente in M gemäß
1
2
...
m
f (1) f (2) . . . f (m)
entspricht.5
Die Anzahl der Elemente in Sm ist offensichtlich n · (n − 1) · · · · · 2 · 1 = n! .
Beispiel 2.5.15 Wir betrachten S3 . Die sechs Elemente der Gruppe sind dann in obiger Schreibweise
123
123
123
123
123
123
τ0 =
τ1 =
τ2 =
τ3 =
τ4 =
τ5 =
.
123
132
213
231
312
321
Klar, τ0 ist die Identität. Beispielsweise bedeutet τ4 in Spalte 3, Zeile 4 τ1 ◦ τ2 = τ4 und τ2 in
Spalte 7, Zeile 5 τ5 ◦ τ3 = τ2 .
Ein τ ∈ Sm heißt Nachbarvertauschung, wenn
∃i ∈ {1, . . . , m} mit τ (i) = i + 1 , τ (i + 1) = i ; τ (j) = j , j 6= i, i + 1,
gilt. Ein τ = τkl ∈ Sm , k 6= l , heißt Transposition, wenn gilt:
τ (k) = l , τ (l) = k ; τ (j) = j , j 6= k, l ,
gilt. Nachbarvertauschungen sind also spezielle Transpositionen. Man überzeugt sich leicht, dass
für eine Transposition τ ∈ Sm gilt: τ −1 = τ .
Satz 2.5.16 Jedes σ ∈ Sm läßt sich als Hintereinanderausführung von höchstens m Transpositionen schreiben, d.h. zu jedem σ ∈ Sm gibt es s ≤ m Transpositionen τ1 , . . . , τs mit
σ = τ1 ◦ · · · ◦ τs .
Beweis:
Sei σ ∈ Sm . Für σ = id gilt σ = τ21 ◦ τ12 . Sei σ 6= id . Dann gibt es ein kleinstes i1 mit
σ(i1 ) = j1 6= i1 . Setze σ1 := σ ◦ τi1 j1 . Es ist σ1 (i) = i für 1 ≤ i ≤ i1 . Falls σ1 = id gilt, sind
wir fertig. Anderenfalls gibt es ein i2 > i1 mit σ1 (i2 ) = j2 6= i2 . Setze σ2 := σ1 ◦ τi2 j2 . Dann
gilt σ2 (i) = i für 1 ≤ i ≤ i2 . So fortfahrend erreichen wir ein σs , s ≤ m, mit σs = id . Dann ist
σ = τis js ◦ · · · ◦ τi1 j1 .
5
Die Wortwahl symmetrische Gruppe rührt daher, dass die Funktionen der Variablen x1 , . . . , xm , die bei
allen Permutationen der Variablen invariant bleiben, die symmetrischen Funktionen sind.
24
2.6
1.)
Übungen
S
Sei A ein (endliches) Alphabet, sei A∗ := {()} ∪ n∈N An die Menge der Wörter (beliebiger Länge) über dem Alphabet A .
Für zwei Worte u = (u1 , . . . , uk ) ∈ Ak , v = (v1 , . . . , vl ) ∈ Al setzen wir: uv := (u1 , . . . , uk , v1 , . . . , vl ) ∈
Ak+l .
Wir definieren für u, v ∈ A∗ :
u ≤ v : ⇐⇒ Es gibt z ∈ A∗ mit uz = v .
(a)
Zeige: ≤ ist eine Halbordnung in A∗ .
(b) Ist ≤ stets eine Ordnung in A∗ ?
(c)
Gibt es in A∗ ein Wort w, so dass gilt:
w ≤ u für alle u ∈ A∗ .
2.)
Überprüfe, ob die folgende Relation R in N × N reflexiv, symmetrisch, transitiv bzw.
antisymmetrisch ist:
R := {(m, n) ∈ N × N||m − n| ≤ 100} .
3.)
Gegeben seien die Permutationen
1 2 3 4 5 6 7 8 9
1 2 3 4 5 6 7 8 9
φ :=
, π :=
.
9 1 8 2 7 3 6 4 5
2 1 4 3 6 9 7 8 5
(a)
Berechne φ ◦ π, π ◦ φ und φ−1 .
(b) Schreibe π als Hintereinanderausführung von Transpositionen.
25
Kapitel 3
Zählen
Wir verschaffen uns die Hilfsmittel, um die Kunst des Zählens“ zu skizzieren. Es sind dies
”
die natürlichen Zahlen und Operationen auf ihnen; im nächsten Kapitel erwächst daraus das
Rechnen in den ganzen Zahlen. Für die Einschätzung der Güte von Algorithmen ist deren
Analyse hinsichtlich der Laufzeit wichtig: das Master-Theorem der Komplexität erledigt dies
in den meisten Fällen.
3.1
Natürliche Zahlen
Die erste mathematische Erfindung“ dürfte wohl das Zählen von Gegenständen gewesen sein: je”
dem Gegenstand einer Familie von Gegenständen wird der Reihe nach ein Strich auf einem Auf”
zeichnungsbrett“ zugeordnet, einer bestimmten Anzahl von Strichen wird ein Zahlwert (Eins,
Zwei,. . . ) bzw. eine Zahl (1,2,. . . ) zugeordnet. Diese Zahlen stehen für die Kardinalzahlen im
Gegensatz zu den sogenannten Ordinalzahlen Erster (erster Strich), Zweiter (zweiter Strich),
. . . . Die Zahlen 1, 2, 3, . . . bezeichnen wir als natürliche Zahlen. Als Fundament für die Mathematik sind die natürlichen Zahlen ausreichend, alle“ anderen konkreten Objekte der Mathematik
”
lassen sich dann mit Definition durch Abstraktion erfinden. Also kommt es darauf an, die natürlichen Zahlen als existierende Menge N sicher zu definieren und zu akzeptieren. Von L. Kronecker1
ist überliefert:
Die natürlichen Zahlen hat der liebe Gott gemacht, alles andere ist Menschenwerk.
Was sind aber nun die strukturellen Eigenschaften der natürlichen Zahlen, auf die es ankommt?
Wir gehen zurück zur Tätigkeit des Zählens. Stets beginnen wir mit einem ersten Gegenstand,
wir ordnen ihm die Nummer 1 zu. Haben wir nun eine Reihe von Gegenständen gezählt und ist n
die Anzahl dieser gezählten Gegenstände, dann entscheiden wir, ob noch ein weiterer Gegenstand
zu zählen ist; wenn ja, ordnen wir ihm die Nummer n′ zu. n′ ist also Nachfolgezahl von n : zur
Strichliste haben wir einen Strich hinzugefügt. Diese Beobachtung führt uns zur Definition der
natürlichen Zahlen, wie G. Peano2 sie gegeben hat:
Definition 3.1.1 (Axiome von Peano) Es gibt eine Menge N und ein Element 1 ∈ N mit
folgenden Eigenschaften:
(P1) Zu jedem n ∈ N gibt es ein n′ ∈ N , genannt Nachfolger von n .
(P2) 1 ist kein Nachfolger, d.h. 1 6= n′ für alle n ∈ N .
(P3) Ist n′ = m′ , so ist n = m .
1
2
Leopold Kronecker, 1823 - 1891
Giuseppe Peano, 1858 - 1932
26
(P4) Ist M eine Teilmenge von N mit 1 ∈ M und gilt (n ∈ M =⇒ n′ ∈ M ), dann gilt M = N.
Diese Menge N heißt Menge der natürlichen Zahlen.
Das Axiom (P 1) könnten wir auch so ausdrücken:
∀ x ∈ N ∃ y ∈ N (y = x′ ) .
Ist m = n′ (im Sinne der Definition 3.1.1), so heißt n Vorgänger von m. (P2) besagt, dass
das Element 1 keinen Vorgänger hat. Man beachte, dass wir die Definition der natürlichen Zahlen
mit Existenz verknüpft haben und nicht das Zählen zur Definition herangezogen haben.
Lemma 3.1.2 Es gilt N = {1} ∪ {n′ |n ∈ N} .
Beweis:
Sei M := {1} ∪ {n′ |n ∈ N}. Es gilt M ⊂ N, 1 ∈ M , und ist n ∈ M, so ist n′ ∈ M . Also ist nach
(P4) M = N.
Das Axiom (P4) lässt sich bestens verwenden, neue Objekte zu definieren. Man nennt das
resultierende Prinzip induktive Definition. Wir führen dies am Beispiel der Definition des
kartesischen Produktes vor. Sei A eine Menge. Wir gehen so vor:
A1 := A , Ak := A × An falls k = n′ ∈ N .
Offenbar ist nun nach Lemma 3.1.2 An definiert für jedes n ∈ N .
Ist x ∈ An , n ∈ N, so gibt es x1 , . . . , xn ∈ A mit x = (x1 , . . . , xn ). Dies ist die Schreibweise als
n-Tupel der Elemente in An . Dabei haben wir die Schreibweise schon naheliegend verkürzt; wir
haben ja früher nur zweistellige Paarklammern (·, ·) definiert. Wir haben diese Definition schon
vorweggenommen bei der Definition von Wörtern über einem Alphabet.
Wir wollen nun die arithmetischen Operationen Addition, Subtraktion, Multiplikation,
Vergleich in den natürlichen Zahlen entdecken. Bei der Einführung bedienen wir uns wieder
der induktiven Definition.
Addition:
(
n′
n + m :=
(n + k)′
, falls m = 1
, n, m ∈ N .
, falls m = k′
Beachte, dass nun wirklich die Definition für alle m, m ∈ N gelungen ist, denn nach Lemma 3.1.2
ist ja für m ∈ N entweder m = 1 oder m = k′ für ein k ∈ N .
Nun ist es an der Zeit, zur üblichen Notation 1, 2, 3, . . . zurückzukehren. Dies geschieht durch
1, 2 := 1′ = 1 + 1, 3 := 2′ = 2 + 1, . . . .
n′ schreiben wir also nun immer als n + 1 .
Wir haben nun also eine (binäre) Verknüpfung “+“, die die Eigenschaften der Addition haben
sollte. Die folgenden Rechenregeln belegen, dass die uns geläufigen Eigenschaften der Addition
in der Tat vorliegen.
Regel 3.1.3 Seien m, n, k ∈ N . Es gilt:
(m + n) + k = m + (n + k) ;
(3.1)
m + n = n + m;
(3.2)
m + n = m + k =⇒ n = k .
(3.3)
27
Wir beweisen exemplarisch (3.1). Dabei verwenden wir ein letztes Mal die Notation n′ für den
Nachfolger von n .
Sei M := {k ∈ N|(m + n) + k = m + (n + k) für alle m, n ∈ N}. Mit der Definition der Addition
gilt
(m + n) + 1 = (m + n)′ = m + n′ = m + (n + 1) .
Also ist 1 ∈ M . Sei k ∈ M. Dann ist mit der Definition der Addition
(m + n) + k′ = ((m + n) + k)′ = (m + (n + k))′ = m + (n + k)′ = m + (n + k′ ), .
Also ist auch k′ ∈ M . Nach (P4) gilt nun M = N .
Gilt m = k′ , so ist k Vorgänger von m. Also schreiben wir dann k = m − 1 . Damit haben
wir die Subtraktion mit 1 zur Verfügung. Wir wissen ja, dass allgemein in N keine Subtraktion
möglich ist.
Wir sollten nun auch die Multiplikation in den natürlichen Zahlen definieren können. Dies
gelingt mit Hilfe der Addition so:
m · 1 := m ; m · (n + 1) := m · n + m , n ∈ N .
Damit ist die Verknüpfung m · n für m, n ∈ N, die wir Multiplikation nennen, wohldefiniert.
Den Multiplikationspunkt · lassen wir mitunter weg, die Schreibweise m × n für m · n vermeiden
wir vollständig.
Die Potenzschreibweise im Bereich der natürlichen Zahlen können wir nun auch einführen.
Wir setzen für alle a ∈ N
a1 := a , an+1 := a · an .
Es gilt dann
an+m = an · am , (an )m = an·m für alle a, n, m ∈ N .
Die Rechenarten “+, ·“ vertragen sich dann mit der neuen Schreibweise; etwa:
1 + 7 = 8, 15 · 3 = 45, 33 = 11 · 3 = (7 + 4) · 3 = 7 · 3 + 4 · 3 = 21 + 12 = 33, . . . .
Dies ist Inhalt der folgenden Regel, die das Distributivgesetz festhält; der Beweis erfolgt auf
dem üblichen Weg über (P4).
Regel 3.1.4 Seien m, n, k ∈ N . Es gilt:
m(n + k) = mn + mk .
(3.4)
(3.5)
Auch die Kleiner–Beziehung finden wir in N wieder. Dabei lassen wir uns von der Anschauung
leiten, dass einer kürzeren Strichliste einige Striche hinzuzufügen sind, um sie einer gegebenen
längeren Strichliste gleichzumachen.
Definition 3.1.5 Seien m, n ∈ N.
(a) m < n : ⇐⇒ ∃ x ∈ N (m + x = n) ;
(b) m ≤ n : ⇐⇒ m < n oder m = n ;
28
(c) m > n : ⇐⇒ n < m ;
(d) m ≥ n : ⇐⇒ n ≤ m .
Klar, ist n ∈ N und n 6= 1, dann ist n > 1 , denn dann ist n ein Nachfolger nach Lemma 3.1.2,
also etwa n = k′ = k + 1 mit k ∈ N , und daher n > 1 . Ohne Beweis führen wir an:
Regel 3.1.6
3.2
k ≤ m, m < n
=⇒
k < n.
(3.6)
m<n
=⇒
(3.7)
k<m
=⇒
m + k < n + k für alle k ∈ N .
k + 1 ≤ m.
(3.8)
Induktion
Nun wollen wir das Axiom (P4) einsetzen als Beweismethode. Dieses Prinzip der Induktion
stellt sich so dar:
Sei A(n) für jedes n ∈ N eine Aussage. Diese Aussage gilt für alle n ∈ N, falls
Induktionsbeginn: A(1) ist wahr.
Induktionsschluss: Ist A(n) wahr, dann ist auch A(n + 1) wahr.
verifiziert werden kann. Klar, man hat ja nur die Menge M := {n ∈ N|A(n) ist wahr} einzuführen und darauf (P4) anzuwenden.
Häufig wird Sei A(n) wahr“ als Zwischenschritt Induktionsverankerung oder Induktions”
annahme formuliert; wir verzichten darauf. Damit wird ja nur die Voraussetzung im Induktionsschluss extra herausgestellt.
Beispiel 3.2.1 Über C.F. Gauss3 wird berichtet, dass er die Beschäftigungstherapie seines Lehrers “Addiert mal die ersten 20 Zahlen“ durch folgenden Trick zunichte gemacht hat: Er addiert
die erste und die letzte Zahl: Ergebnis 21; er addiert die zweite und die vorletzte Zahl: Ergebnis
21; er . . . . Also kann man das verlangte Resultat durch
1 + 2 + · · · + 20 = 10 · 21 = 210
erhalten. Man beachte, dass die Lösungsmethode von Gauß auch tiefere“ Einsichten mitliefert:
”
Wann ist das Ergebnis gerade, warum ist die letzte Ziffer im Ergebnis oben eine Null.
Löst man sich von den konkreten Zahlen, ist also zu beweisen:
2
n
X
i = n(n + 1)
i=1
Der Beweis mittels vollständiger Induktion sieht so aus:
Induktionsbeginn: Die Formel ist offenbar richtig für n = 1.
Induktionsschluss: Die Formel sei richtig für n. Wir zeigen damit die Richtigkeit der Formel für
n + 1 so:
n
n+1
X
X
i + 2(n + 1) = n(n + 1) + 2(n + 1) = (n + 1)(n + 2) .
i=2
2
i=1
i=1
3
Gauss, Carl Friedrich (1777 — 1855)
29
Beispiel 3.2.2 Den Pythagoreern war bekannt, dass die Quadratzahlen die Summe ungerader
Zahlen sind, d.h. dass
n
X
(2i + 1) = (n + 1)2 , n ∈ N ,
1+
i=1
gilt. Sie hatten dafür einen geometrischen Beweis“; lese ihn aus der Figurensequenz in Abbil”
dung 3.1 ab! Der Beweis mittels vollständiger Induktion sieht (in abgekürzter Notation) so aus:
n = 1 : Klar.
n+1 :
1+
n+1
X
(2i + 1) = 1 +
n
X
(2i + 1) + (2(n + 1) + 1) = n2 + 4n + 4 = (n + 2)2
i=1
i=1
Die Aufspaltung 1 +
n
P
(2i + 1) ist der Tatsache geschuldet, dass wir hier noch keine Null (als
i=1
Summationsindex) zur Verfügung haben.
Beispiel 3.2.3 Beweise, dass für jede natürliche Zahl n
(n + 3)2 > 3(n + 3) + n
gilt. Wir betrachten dazu die Aussage
A(n) : (n + 3)2 > 3(n + 3) + n
und beweisen die Gültigkeit der Aussage für jedes n ∈ N nach dem Induktionsprinzip.
Induktionsbeginn: A(1) ist wahr, da (1 + 3)2 = 42 = 16 > 12 + 1 = 3(1 + 3) + 1 ist.
Induktionsschluss: Sei A(n) wahr.
((n + 1) + 3)2 = ((n + 3) + 1)2 = (n + 3)2 + 2(n + 3) + 1
> 3(n + 3) + n + 2(n + 3) + 1 > 3(n + 3) + n + 1 + 3 = 3(n + 4) + n + 1
Also folgt aus der Gültigkeit der Aussage A(n) die Gültigkeit der Aussage A(n + 1).
Die Aussage A(n) ist nach dem Induktionsprinzip nun für alle n ∈ N bewiesen. Die Ungleichung
(n + 3)2 > 3(n + 3) + n , n ∈ N,
kann aber auch ohne den Rückgriff auf das Induktionsprinzip bewiesen werden, da n2 + 2n ≥ 1
ist. Stelle die Verbindung her!
Beispiel 3.2.4 Bei einem Tennisturnier ist die Teilnehmerzahl üblicherweise eine Zweierpotenz
2n (n = 7 bei einem Grand-Slam-Turnier). Die Anzahl der Spiele bei einem K.O.-System beträgt
2n − 1. Dies lässt sich mit Induktion zeigen:
n = 1: Bei zwei Teilnehmern gibt es offenbar 1 = 21 − 1 Spiele.
n + 1: Die 2n+1 Teilnehmer lassen sich in zwei Gruppen zu je 2n Teilnehmern einteilen. Nach
Induktionsvoraussetzung gibt es in jeder Gruppe 2n − 1 Paarungen, also insgesamt 2(2n − 1)
Paarungen. Die Sieger der beiden Gruppen treffen dann in einer letzten Paarung aufeinander,
so dass es
2(2n − 1) + 1 = 2n+1 − 1
Paarungen gibt.
Man kann die Lösung mit einem anderen Argument schneller finden. Wegen des K.O.Systems verliert bis auf den Gewinner jeder Teilnehmer genau einmal. Jedes Spiel hat genau
30
einen Verlierer. Also gibt es ein Spiel weniger als die Teilnehmerzahl. Dieser Alternativbeweis
lässt sich auf Teilnehmerfelder beliebiger Größe anwenden (z.B. wenn es Freilose gibt). Also gibt
es bei m Teilnehmern m − 1 Spiele.
Diese Gegenüberstellung der beiden Beweise zeigt, dass Induktion nicht immer die kürzeste
Beweismethode ist.
Die vollständige Induktion lässt sich
sehr gut auch zur Aufklärung der inneren
”
Struktur“ der natürlichen Zahlen verwenden. Wir skizzieren dies in folgendem Satz.
Satz 3.2.5 Für m, n ∈ N gilt genau eine
der folgenden Aussagen:
•
•
◦
•
•
• •
◦ ◦
◦ ◦
•
•
•
•
◦
◦
◦
•
◦
◦
◦
•
◦
◦
◦
•
•
•
•
Abbildung 3.1: Quadratzahlen
m < n , m = n , m > n.
Beweis:
Sei n ∈ N . Zu m ∈ N setzen wir Mm := {x ∈ N|n + x = m}. Wir untersuchen die beiden Fälle
Mm 6= ∅ und Mm = ∅ .
Ist Mm 6= ∅, dann gibt es x ∈ N mit n + x = m , also n < m .
Wir beweisen mit vollständiger Induktion (bezüglich m) die folgende Behauptung:
Ist Mm = ∅, dann trifft genau eine der folgenden Aussagen zu: n > m, n = m .
m = 1 : Ist n = m, dann sind wir fertig. Ist n 6= m = 1, dann ist sicher n > 1 = m .
m + 1 : Sei also Mm+1 = ∅. Dann ist auch Mm := {y ∈ N|n + y = m} = ∅, da sonst für y ∈ Mm
sofort x := y + 1 ∈ Mm+1 folgt. Also gilt nach Induktionsvoraussetzung genau eine der Aussagen
n > m, n = m . n = m ist nicht möglich, da sonst 1 ∈ Mm+1 wäre. Also wissen wir nun n > m,
und es gibt daher z ∈ N mit m + z = n. Ist z = 1, dann ist m + 1 = n, ist z > 1, dann ist
1 + u = z mit einem u ∈ N und wir haben (m + 1) + u = m + (1 + u) = n, d. h. n > m + 1 .
Damit ist nun gezeigt, dass eine der Aussagen
m<n, m=n, m>n
jedenfalls eintritt. Bleibt die Unverträglichkeit von zweien der Aussagen zu zeigen, etwa von
m = n und m > n . Wenn m = n und m > n gilt, dann gibt es x ∈ N mit m + x = m. Mit
vollständiger Induktion folgt sofort, dass diese Gleichheit für kein m ∈ N gelten kann.
Satz 3.2.6 (Wohlordnungssatz) Jede nichtleere Teilmenge M von N enthält ein kleinstes
Element (bezüglich ≤).
Beweis:
Sei m ∈ M . Wähle in 1, . . . , m das kleinste Element m∗ aus M (bezüglich ≤ ) aus. Diese Auswahl
ist möglich, da nach Satz 3.2.5 die Elemente 1, . . . , m bezüglich ihrer Größe nach verglichen
werden können. Da die natürlichen Zahlen n ≥ m nicht als kleinste Elemente von M in Frage
kommen, ist m∗ das kleinste Element von M .
3.3
Abzählen
Kombinatorik bedeutet Kunst des Zählens“. Sie beschäftigt sich mit Möglichkeiten, die Anzahl
”
der Elemente bei endlichen Mengen zu bestimmen. Die Resultate sind interessant und hilfreich
31
etwa beim Einstieg in die Wahrscheinlichkeitstheorie und bei Anwendungen in der Informatik.
Hier erläutern wir nur, wie wir die Elemente einer Menge zählen wollen.
Als Prototyp“ einer Menge mit n Elementen steht uns Nn := {1, . . . , n} zur Verfügung.
”
Damit wollen wir erklären, wann eine beliebige Menge n Elemente besitzt. Wenn wir zählen/abzählen, ordnen wir den Elementen einer Menge von Objekten sukzessive eine natürliche Zahl,
beginnend bei 1, zu. Wesentlich beim Zählen ist, dass wir zwei verschiedenen Objekten nicht
dieselbe Zahl zuordnen. Dies führt uns dazu, das Zählen mit einer Abbildung, der Zuordnung,
mit Werten in N zu beschreiben, die zusätzlich die eben formulierte Forderung respektiert. Als
Vorbereitung für das Abzählen von Mengen beweisen wir
Satz 3.3.1 Sei A eine Menge, seien m, n ∈ N, und seien φ : A −→ Nn , ψ : A −→ Nm
bijektiv. Dann gilt n = m .
Beweis:
Wir beweisen mit vollständiger Induktion die Aussage
Zu n ∈ N gibt es für 1 ≤ m < n keine injektive Abbildung g : Nn −→ Nm .
n = 1 : Klar, da Nn = {1}, Nm = ∅ für m < n .
n + 1 : Annahme: Es gibt eine injektive Abbildung g : Nn+1 −→ Nm , 1 ≤ m < n + 1 .
Da g injektiv ist und Nn+1 mindestens die Elemente 1,2 enthält, ist 1 < m . Sei k := g(n + 1) .
Offenbar gibt es eine Bijektion f : Nm −→ Nm mit f (i) = i für i 6= k, m und f (k) = m, f (m) =
k . Nun ist (f ◦ g)|Nn : Nn −→ Nm−1 injektiv, wobei also 1 ≤ m − 1 < n gilt. Dies ist im
Widerspruch zur Induktionsannahme.
Nachdem nun die obige Aussage bewiesen ist, ist die Behauptung des Satzes schnell gezeigt.
Annahme: Es gibt bijektive Abbildungen φ : A −→ Nn , ψ : A −→ Nm , n 6= m . O.E. sei etwa
n > m . Da ψ ◦ φ−1 : Nn −→ Nm bijektiv ist nach Lemma ??, haben wir einen Widerspruch
zur obigen Aussage.
Definition 3.3.2 Sei M eine Menge, M 6= ∅ .
(a) M heißt endlich, wenn es ein N ∈ N und eine bijektive Abbildung ϕ : M −→ {1, . . . , N }
gibt; wir setzen dann #M := N . (Da nach Satz 3.3.1 die Zahl N eindeutig bestimmt ist,
ist die Schreibweise #M := N wohldefiniert.)
(b) M heißt abzählbar unendlich, wenn es eine bijektive Abbildung ϕ : M −→ N gibt. Wir
schreiben dann #M = ∞ .
(c) M heißt abzählbar, wenn M endlich oder abzählbar unendlich ist.
Die obige Definition sagt also, dass wir die Elemente einer (endlichen) Menge M gezählt
haben, wenn wir eine Bijektion φ : M −→ {1, . . . , N } gefunden haben; das Zählergebnis ist
#M := N .
Endliche Mengen haben wir schon viele kennengelernt. Als ganz einfache Beispiele für abzählbare unendliche Mengen führen wir an: A := {10n |n ∈ N} , N×N . Mit der Definition 3.3.2 (a),(b)
verträglich ist, dass wir Nn die Elementanzahl n zuordnen und dass N abzählbar unendlich ist;
die Identität ist ja jeweils die passende Bijektion. Klar, der leeren Menge ordnen wir die Elementanzahl 0 zu, d. h. #∅ := 0 , und bezeichnen sie ebenfalls als endliche Menge.4 Man beachte, dass
4
Die Definition 3.3.2 ist nicht die von G. Cantor 1895 erstmals gegebene Definition der Unendlichkeit einer
Menge: eine Menge ist unendlich, wenn zwischen ihr und einer ihrer echten Teilmengen eine umkehrbar eindeutige
Zuordnung möglich ist.
32
es Mengen gibt, die nicht abzählbar sind. Ein wichtiges Beispiel ist M := R . Das Cantorsche
Diagonalisierungsverfahren, das üblicherweise im Rahmen der Analysis im Zusammenhang
mit der Dezimalbruchentwicklung vorgestellt wird, belegt dies; wir kommen darauf zurück.
Sind A, B endliche Mengen, dann gilt für
das kartesische Produkt die Formel
#(A × B) = #A · #B
a1
a2
..
.
(3.9)
b1
(a1 , b1 )
(a2 , b1 )
..
.
b2
(a1 , b2 )
(a2 , b2 )
..
.
···
···
···
a
b
bn
(a1 , bn )
(a2 , bn )
..
.
Dies liest man etwa am Rechteckschema in
Abbildung 3.2 ab (#A = m, #B = n).
am (am , b1 ) (am , b2 ) · · · (am , bn )
Wir können die Situation des kartesischen
Produkts in drei Veranschaulichungen festhalAbbildung 3.2: Abzählschema
ten; siehe Abbildung 3.3 für m = 3 und n = 4 .
Die Baumdarstellung“ hat den Vorteil, dass
”
man sie mühelos auf mehr als zwei Faktoren
ausdehnen kann; man hat ja nur in die Tiefe weiterzubauen.
x
a
y
c
b
c
u
z
b
x
(a) Abbildungsmodell
c
a
y
u
(b) Gittermodell
z
x
y
u z x
y u
z
x y
u
z
(c) Baumdarstellung
Abbildung 3.3: Veranschaulichung des kartesischen Produkts
Wir halten der besseren Zitierbarkeit wegen die elementaren Zählprinzipien nochmal
kompakt fest:
Gleichheitsregel Existiert eine Bijektion zwischen zwei Mengen M und N , so gilt #M = #N .
Summenregel Sei M = ∪ki=1 Mi eine disjunkte Vereinigung endlicher Mengen. Dann gilt:
P
#M = ki=1 #Mi .
Produktregel Sei M = M1 × · · · × Mk ein kartesisches Produkt. Dann gilt #M =
Alle Regeln ergeben sich aus den obigen Ableitungen in offensichtlicher Weise.
k
Q
#Mi .
i=1
Ein einfaches, aber sehr anwendungsreiches Prinzip, in einer Anzahl von Objekten die Existenz eines Objekts mit einem bestimmten Merkmal behaupten zu können, ist das
Schubfachprinzip 5 Verteilt man n Objekte auf r < n Schubfächer, so existiert ein Fach, das
mindestens zwei Objekte enthält.
Dieses Prinzip ist völlig klar, nichts ist zu beweisen. Es ist daher überraschend, dass dieses
Prinzip zu nichttrivialen Ergebnissen führt. Hier ist noch eine Verallgemeinerung:
5
Es wird im Englischen “pigeonhole principle“, also Taubenschlagprinzip genannt.
33
Schubfachprinzip/allgemein Verteilt man n = r·k+1 Objekte auf r Schubfächer, so existiert
ein Fach, das mindestens k + 1 Objekte enthält.
Formulieren wir das allgemeine Schubfachprinzip mengentheoretisch:
Schubfachprinzip für Mengen Ist eine Menge M mit Elementanzahl n = r · k + 1 in r
disjunkte Teilmengen zerlegt, so gibt es eine Teilmenge, die mindestens k + 1 Elemente
besitzt.
3.4
Rekursion
Ein Objekt wird als rekursiv bezeichnet, wenn es sich selbst als Teil enthält oder mit Hilfe
von sich selbst definiert ist. Rekursion kommt nicht nur in der Mathematik vor, sondern auch
im täglichen Leben (ein Bild im Spiegel im Spiegel . . . ). Rekursion kommt speziell in mathematischen Definitionen vor. Ein Beispiel haben wir schon kennengelernt: in der Definition der
natürlichen Zahlen kommt die zur Definition anstehende Menge N selbst vor. Ein anderes Beispiel ist die Fakultät einer natürlichen Zahl. Ihre rekursive Definition sieht so aus:
(
1
falls n = 1
n! :=
n · (n − 1)! falls n 6= 1
Es ist nicht überraschend, dass Rekursion sehr oft im Zusammenhang mit Objekten greift, die
mit natürlichen Zahlen im Zusammenhang stehen, da ja die natürlichen Zahlen selbst rekursiv
”
definiert sind“.
Das Wesentliche an der Rekursion ist die Möglichkeit, eine unendliche Menge von Objekten
durch eine endliche Aussage zu definieren oder eine unendliche Anzahl von Berechnungsschritten
durch ein endliches Programm zu beschreiben. Allerdings ist Vorsicht geboten, denn rekursive
Anweisungen bergen die Gefahr nicht abbrechender Ausführung; der Terminierung ist also besonderes Augenmerk zu schenken.
Hier führen wir zwei Beispiele an, die keine Hintergrundtheorie benötigen. Später kommen
wir zu einem weiteren Beispiel, nämlich zur rekursiven Behandlung des Problems des größten
gemeinsamen Teilers.
Die Türme von Hanoi
Wir betrachten drei Pfeiler i, j, k, auf die runde Scheiben mit unterschiedlichem Durchmesser
aufgesteckt werden können. Das Problem lautet: Es sind n Scheiben, die auf dem Pfeiler i mit
nach oben abnehmendem Durchmesser aufgesteckt sind unter Zuhilfenahme des Pfeilers k durch
sukzessive Bewegung jeweils einer Scheibe auf den Pfeiler j umzuschichten. Dabei ist darauf
zu achten, dass niemals eine Scheibe mit größerem Durchmesser auf einer mit einem kleinerem
Durchmesser zu liegen kommt.
Man kann dieses Problem folgendermaßen lösen:
Man schichtet die obersten n − 1 Scheiben vom Pfeiler i auf den Pfeiler j unter
Zuhilfenahme von Pfeiler k den Regeln entsprechend; dann bringt man die auf dem
Pfeiler i verbliebene einzige (anfangs unterste) Scheibe auf den Pfeiler k . Nun ist
der Pfeiler i frei und man kann die n − 1 Scheiben vom Pfeiler j auf den Pfeiler k
mit Hilfe des Pfeilers i umschichten.
Es ist klar das rekursive Vorgehen zu erkennen: zur Lösung des Problems der Größe n bedienen
wir uns der Lösung der Größe n − 1 .
34
Wir benötigen die Bewegungsarten
bewege(m,von,über,nach), bringe(von,nach) .
Hierbei bedeutet bewege(l,a,b,c), dass die l obersten Scheiben vom Pfeiler a nach Pfeiler c den Regeln entsprechend unter Nutzung von b als Hilfspfeiler umzuschichten sind. Mit
bringe(a,b) wird die oberste Scheibe vom Pfeiler a auf den Pfeiler b gelegt. Die rekursive
Lösung für bewege(n,i,j,k) lautet damit:
Solange n > 0
bewege(n-1,i,k,j), bringe(i,k), bewege(n-1,j,i,k).
Beim Lösen der Aufgabe für n Scheiben, wird
Z(n) := 2n − 1 mal eine Scheibe umgelegt
Dies zeigt man induktiv. Der Induktionsbeginn ist trivial, der Induktionsschluss sieht so aus:
Z(n) = 1 + 2Z(n − 1) = 1 + 2(2n−1 − 1) = 2n − 1
Der Aufwand ist enorm: für n = 64 müssen 264 − 1 ∼ 1021 Scheiben umgelegt werden. Allerdings
sind wir ja nicht sicher, ob es nicht einen schnelleren Algorithmus gibt. Dies ist aber nicht der
Fall! (Man kann genauer hinsehen: Die kleinste Scheibe S1 wird bei jedem zweiten Zug bewegt,
die größte Scheibe Sn wird nur einmal bewegt, die Scheibe Sm wird genau 2n−m mal bewegt.)
Beispiel 3.4.1 Als Beispiel für eine rekursive Funktionsdefinition komplexerer Art betrachten
wir das Beispiel der so genannten Ackermann-Funktion A(m, n) . Die Definition lautet:


falls m = 0
n + 1
A(m, n) := A(m − 1, 1)
falls m 6= 0, n = 0 , m, n ∈ N0 .


A(m − 1, A(m, n − 1)) falls m 6= 0, n 6= 0
Die Ackermann-Funktion wächst sehr stark:
2
A(0, n) > n , A(1, n) > n + 1 , A(2, n) > 2n , A(3, n) > 2n , A(4, 3) > 22 , A(5, 4) > 1010000
Der Aufwand, um A(m, n) auszurechnen, wächst auch entsprechend. Beispielsweise erfordert die
Berechnung von A(1, 3) bereits folgende Rechenschritte:
A(1, 3) = A(0, A(1, 2)) = A(0, A(0, A(1, 1))) = A(0, A(0, A(0, A(1, 0))))
= A(0, A(0, A(0, A(0, 1)))) = A(0, A(0, A(0, 2))) = A(0, A(0, 3)) = A(0, 4) = 5
Es ist nicht sehr einfach einzusehen, dass die Rekursion terminiert; es ist so!
3.5
Landausymbole
Die Komplexitätstheorie beschäftigt sich mit der Analyse von Algorithmen hinsichtlich Laufzeit
und Speicherplatzbedarf. Normalerweise ist es sehr aufwändig oder ganz unmöglich, für ein
Problem L eine Funktion fL : w → fL (w) anzugeben, die allgemein jeder beliebigen Eingabe
w für ein Problem die zugehörige Anzahl der Rechenschritte (bzw. der Speicherzellen) fL (w)
zuordnet. Daher begnügt man sich in der Regel damit, statt jede Eingabe einzeln zu erfassen,
sich lediglich auf die Eingabelänge“ n eines Beispiels mit Größe“ g(w) zu beschränken.
”
”
35
Es ist aber meist ebenfalls zu aufwändig, eine Funktion fL : n 7−→ fL (n), n = g(w) anzugeben. Daher setzt man die Landau-Notation6 ein, die sich auf das asymptotische Verhalten der
Funktion fL beschränkt. Man betrachtet also, in welchen Schranken sich der Rechenaufwand
(der Bedarf an Speicher und Rechenzeit) hält, wenn man die Eingabe vergrößert. Das wichtigste Landau-Symbol ist O (großer lateinischer Buchstabe O“), mit dem man obere Schran”
ken angeben kann; untere Schranken sind im allgemeinen viel schwieriger zu finden. Bei dieser
Notation werden, wie die Definitionen der Landau-Symbole zeigen wird, konstante Faktoren
vernachlässigt. Dies ist gerechtfertigt, da die Konstanten zu großen Teilen vom verwendeten
Maschinenmodell bzw. bei implementierten Algorithmen von der Qualität des Compilers und
diversen Eigenschaften der Hardware des ausführenden Computer abhängig sind. Damit können
sie nicht direkt mit der Laufzeit des Algorithmus in Verbindung gebracht werden.
In der nachfolgenden Tabelle ist f die Funktion, über die eine Aussage getroffen werden soll,
und g der einfachste“ Repräsentant einer Klasse gleich schnell wachsender Funktionen, die als
”
Vergleich dienen.
Notation
Anschauliche Bedeutung
f ∈ O(g)
f wächst nicht wesentlich schneller als g
f ∈ Ω(g)
f wächst mindestens so schnell wie g
f ∈ o(g)
f wächst langsamer als g
f ∈ ω(g)
f wächst schneller als g
f ∈ Θ(g)
f wächst genauso schnell wie g
Diese Tabelle bringen wir nun in eine saubere Definition ein.
Definition 3.5.1 Seien f, g : D −→ R Abbildungen, wobei D eine Teilmenge in R sei. Ferner
sei a ∈ R ∪ {∞} .
(a) f ∈ O(g) : ⇐⇒ ∃ c > 0 ∃ ε > 0 ∀ x ∈ Uε (a)(|f (x)| ≤ c · |g(x)|)
(b)
(c)
f ∈ o(g) : ⇐⇒ ∀ c > 0 ∃ ε > 0 ∀ x ∈ Uε (a)(|f (x)| ≤ c · |g(x)|)
f ∈ Ω(g) : ⇐⇒ ∃ c > 0 ∃ ε > 0 ∀ x ∈ Uε (a)(|f (x)| ≥ c · |g(x)|)
(d) f ∈ ω(g) : ⇐⇒ ∀ c > 0 ∃ ε > 0 ∀ x ∈ Uε (a)(|f (x)| ≥ c · |g(x)|)
(e)
f ∈ Θ(g) : ⇐⇒ ∃ c0 > 0 ∃ c1 > 0 ∃ ε > 0 ∀ x ∈ Uε (a)(c0 · |g(x)| ≤ |f (x)| ≤ c1 · |g(x)|)
Dabei ist
(
{x ∈ D\{a}||x − a| < ε}
Uε (a) =
{x ∈ D|x > ε}
falls a 6= ∞
falls a = ∞
Die Eigenschaften in der obigen Definition beschreiben das Verhalten in der Nähe von a . Wir
schreiben daher meist f ∈ O(g), f ∈ Ω(g), . . . für x → a . Im Hinblick auf den nächsten Abschnitt
haben wir als Definitionsbereich D eine Teilmenge der natürlichen Zahlen und a = ∞ im Auge.
Wenn wir sagen, dass ein Algorithmus etwa einen Aufwand von O(g(n)) hat, dann meinen
wir damit Folgendes: Wenn der Algorithmus auf unterschiedlichen Computern mit den gleichen
6
Der Großbuchstabe O (damals eigentlich ein großes Omikron) als Symbol für Ordnung von wurde erstmals
vom deutschen Zahlentheoretiker Paul Bachmann 1894 verwendet. Bekannt gemacht wurde diese Notation durch
den ebenfalls deutschen Zahlentheoretiker Edmund Landau, mit dessen Namen sie insbesondere im deutschen
Sprachraum heute in Verbindung gebracht wird.
36
Datensätzen läuft, und diese die Größe n haben, dann werden die resultierenden Laufzeiten (für
große n) immer kleiner sein als eine Konstante mal g(n) .
Beim Vergleich von Funktionen mittels der Landau-Symbole im Zusammenhang von Laufzeitproblemen sind Logarithmen (und deren Umkehrfunktionen) sehr wichtig, denn sie kommen ins
Spiel bei dem wichtigen Prinzip Teile und Herrsche (Divide et Impera/Divide and Conquer)“;
”
Beispiele dazu sehen wir unten.
Was sind die wesentlichen Eigenschaften der Logarithmen in unserem Zusammenhang? Seien
a, b, c > 1 (a, b, c dienen als Basis).
P∞ 1 k
Exponentialfunktion
exp : R ∋ x 7−→
i=0 k! x ∈ R
Beachte: exp(x) = limn (1 + nx )n
exp(x + y) = exp(x) exp(y), x, y ∈ R
Funktionalgleichung
Beachte: exp′ (x) = exp(x), x ∈ R
Impliziert strenge Monotonie
Beachte: exp : R −→ (0, ∞) bijektiv
Impliziert Umkehrabbildung
ln : (0, ∞ −→ R , ln(exp(x)) = x, x ∈ R
Beachte:
Umkehrabbildung
b· : R ∋ x 7−→ bx := exp(x ln(b)) ∈ R
b·
Potenzfunktion zur Basis b
: R −→ (0, ∞) bijektiv
Impliziert Umkehrabbildung
logb : (0, ∞) −→ R , logb (bx ) = x, x ∈ R
Umkehrabbildung
logb (x · y) = logb (x) + logn (y) , x, y ∈ (0, ∞)
Funktionalgleichung
Beachte: loga (x) = loga (b) logb (x), x ∈ (0, ∞)
Umrechnen von Logarithmen
Beachte: alogb (c) = clogb (a)
Umrechnen von Logarithmen
Beachte: ln = loge mit e := limn (1 +
1 n
n)
e ist die eulersche Zahl
Beachte: limx→∞ xk exp(−x) = 0, limx→∞ x−k ln(x) = 0
Wachstum
Beispiel 3.5.2 Es gilt beispielsweise nach der Stirling-Formel für das asymptotische Verhalten
der Fakultät
n n √
1
1+Θ
für n → ∞
n! = 2πn
e
n
und
n! = O
√
n·
n n e
für n → ∞. .
√
Der Faktor 2π ist dabei nur eine Konstante und kann für die Abschätzung der Größenordnung
vernachlässigt werden.
Die Landau-Notation kann auch benutzt werden, um den Fehlerterm einer Approximation zu
beschreiben. Beispielsweise besagt
ex = 1 + x + x2 /2 + O(x3 )
für x → 0,
dass der Absolutbetrag des Approximationsfehlers kleiner als eine Konstante mal x3 ist für x
hinreichend nahe bei Null. Das kleine o wird verwendet, um zu sagen, dass ein Ausdruck vernachlässigbar klein gegenüber dem angegebenen Ausdruck ist. Für differenzierbare Funktionen
gilt beispielsweise
f (x + h) = f (x) + hf ′ (x) + o(h)
für h → 0,
der Fehler bei Approximation durch die Tangente geht also schneller als linear gegen 0 .
37
Folgende Beziehungen zwischen diesen Funktionenmengen lassen sich aus der Definition ableiten:
Θ(f ) = O(f ) ∩ Θ(f )
(3.10)
Θ(f ) ⊂ O(f ) ∪ Ω(f )
(3.12)
Θ(f ) = O(f ) ∩ Ω(f )
Ø = ω(f ) ∩ o(f )
(3.11)
(3.13)
Beispiel 3.5.3
n3 = O(n3 ) für n → ∞ .
Pn
Pn
1
2
i=1 i = O(n ) für n → ∞ , da
i=1 i = 2 n(n + 1) .
3.6
Mastertheorem der Komplexität
Der Begriff Hauptsatz der Laufzeitfunktionen oder Master-Theorem der Komplexitätstheorie bietet eine schnelle Lösung für die Frage, in welcher Laufzeitklasse eine gegebene
rekursiv definierte Funktion liegt.
Sei T : N → N eine Laufzeitfunktion eines Problems/Algorithmus. Wir nehmen an, dass das
Problem durch ein rekursives Vorgehen gelöst wird. Dann spiegelt sich dieses rekursive Vorgehen
in einer rekursiven Darstellung der Funktion T wider.
Eine allgemeine Form einer solchen Rekursion sieht wie folgt aus:
T (n) =
m
X
T (αi n) + f (n),
(3.14)
i=1
wobei αi ∈ R : 0 < αi < 1, m ∈ N, und f (n) ∈ Θ(nk ) mit k ∈ N ∪ {0} . Die Interpretation dieser
Rekurrenz ist folgende:
n = Größe des Problems
m = Anzahl der Unterprobleme in der Rekursion, in die das Problem zerlegt wird
αi = Anteil des Originalproblems, welches wiederum durch alle Unterprobleme
repräsentiert wird
f (n) = Kosten (Aufwand) die durch die Aufteilung des Problems und der
Kombination der Teillösungen entstehen
Dabei ist der Anteil αi n ganzzahlig zu interpretieren durch die Verwendung der Gauss-Klammern:
⌈x⌉ := min{z ∈ Z|z ≥ x} (Obere Gauss-Klammer/ceiling)
⌊x⌋ := max{z ∈ Z|z ≤ x} (Untere Gauss-Klammer/floor)
Ein Spezialfall von (3.14)ist die Rekursion
n
T (1) = 1 , T (n) = a · T ( ) + nc , n = bk , k ∈ N .
b
wenn a die Anzahl der Teilprobleme ist und αi = 1/b ist.
38
(3.15)
Bemerkung 3.6.1 T können wir uns immer durch T (x) := T (⌊x⌋) oder T (⌈x⌉) für x ∈ (0, ∞)
auf die reellen Zahlen fortgesetzt denken. In diesem Sinne wird dann der Rekursion (3.14) die
reelle“ Rekursion
(
”
d
0<x<b
t(x) =
c
at(x/b) + x b ≤ x
zugeordnet.
Satz 3.6.2 Sei T : N → N die zu untersuchende
dass T monoton nicht fallend sei. Dann gilt:

c

Θ(n )
T (n) ∈ Θ(nc logb n)


Θ(nlogb a )
Abbildung der Form (3.15). Wir nehmen an,
falls logb a < c
falls logb a = c .
falls logb a > c
Beweis:
Wegen der Monotonie genügt es zu zeigen, dass wir die Laufzeit nur für die b-Potenzen kennen.
Wir stellen uns die Rekursion als einen (Tannen-)Baum vor mit dem Problem T (n) an der
Spitze und m := logb a Verzweigungsebenen darunter. Auf jeder Verzweigungsebene i haben wir
es mit der Lösung von ai Teilproblemen der Größe n/bi zu tun. Ein Teilproblem der Größe n/bi
erfordert (n/bi )c Zusatzaufwand und daher ergibt sich als Aufwand auf der i-ten Ebene
i
i
a
c a
i
i c
c
=
n
a (n/b ) = n
.
bc
bci
Auf der Ebene i = m hat man am Teilprobleme der Größe n/bm = 1 zu lösen, was einen Aufwand
von
a m
am · 1 = nc c
b
ergibt. (Hier können wir sehen, dass die Voraussetzung T (1) = 1 hilfreich ist. Wir lesen aber
auch ab, dass T (1) = d, d ∈ N, d 6= 1, keine wesentlichen Schwierigkeiten bereitet.)
Wir sehen, dass der Aufwand von Ebene zu Ebene abnimmt, konstant ist, zunimmt, je nachdem,
ob q := ac < 1, ac = 1 oder ac > 1 . Dies korrespondiert mit der Fallunterscheidung in der
b
b
b
Formulierung unseres Resultats. Wir haben also nach unseren Vorbetrachtungen
T (n) =
m
X
nc
i=0
a i
bc
,
was in der Analyse zur geometrischen Reihe mit q := ac führt.
b
Fall logb a < c
Wir haben hier
1 − q m+1
= Θ(nc ) ,
T (n) = nc
1−q
da limm q m+1 = 0 ist.
Fall logb a = c
Damit folgt T (n) = (m + 1)nc und daher
T (n) = Θ(nc logb n) .
Fall logb a > c
Wir haben
T (n) = Θ(nc
a logb n
39
bc
),
da in der Summe der geometrischen Summe der letzte Term der größte ist. Wegen
nc
a logb n
b
c
= nc
logb a
logb a
alogb n
c n
c n
=
n
=
n
= nlogb a
c
nc
(bc )logb n
nlogb b
Beispiel 3.6.3 Wir stellen uns Dualzahlen der Länge n vor, wobei n eine Zweierpotenz sei:
n = 2m . Zwei solche Zahlen A, B können wir so aufschreiben:
A = A1 2n/2 + A0 , B = B1 2n/2 + B0 ,
wobei A1 , A0 , B1 , B0 nun Dualzahlen der Länge n/2 sind. Die Multiplikation von A, B sieht dann
so aus:
AB = A1 B1 2n + (A1 B0 + A0 B1 )2n/2 + A0 B0 .
Also stellt sich der Aufwand, zwei solche Zahlen zu multiplizieren, so dar:
T (1) = 1 , T (n) = 4T (n/2) + cn ,
wobei cn den Aufwand beschreibt, mit Zweierpotenzen zu multiplizieren und die Additionen auszuführen; wir nehmen der Einfachheit halber c = 1 an. Dann erhalten wir mit Satz 3.6.2, da
log2 (4) = 2 > 1 ,
T (n) = Θ(n2 ) .
Es ist also nichts gewonnen durch die Aufspaltung der Zahlen, denn jedes herkömmliche Multiplikationsverfahren ist von der Ordnung Θ(n2 ) .
Aber wir können eine Multiplikation einsparen7 !
AB = A1 B1 2n + ((A1 + A0 )(B1 + B0 ) − A1 B1 − A0 B0 )2n/2 + A0 B0 .
Also stellt sich der Aufwand, zwei solche Zahlen zu multiplizieren, nun so dar:
T (1) = 1 , T (n) = 3T (n/2) + n ,
Dann erhalten wir mit Satz 3.6.2, da log2 (3) = 1.585 > 1 ,
T (n) = Θ(nlog2 (3) ) ,
was eine enorme Verbesserung für großes n darstellt.
Satz 3.6.4 Sei T : N → N die zu untersuchende Abbildung der Form
T (n) =
m
X
T (αi n) + f (n),
i=1
wobei αi ∈ R : 0 < αi < 1, m ∈ N : m ≥ 1 und f (n) ∈ Θ(nk ) mit k ∈ N ∪ {0} .
Dann gilt:

Pm
k
k

falls
i=1 (αi ) < 1
Θ(n )
P
m
k
T (n) ∈ Θ(nk logb n)
falls
i=1 (αi ) = 1

P
P

m
m
c
k
Θ(nc ) mit
i=1 (αi ) = 1 falls
i=1 (αi ) > 1
7
Karatsuba, 1962
40
Beweis:
Für den Beweis verweisen wir auf die Literatur.
Beispiel 3.6.5 Betrachte die Rekursionsgleichung
T (n) = 9T (n/3) + n2 .
Wir haben hier m = 9, αi =
1
3
und f (n) = n2 . Da f (n) ∈ Θ(n2 ) und
9
X
1
( )2 = 1
3
i=1
ist, haben wir T (n) ∈ O(n2 log2 (n)) .
Bemerkung 3.6.6 Wir machen einige Anmerkungen zur Form der Rekurrenzgleichungen.
• Angenommen es ist folgende Rekurrenz gegeben, die sich mit der zusätzlichen Konstante c
von einer allgemeinen Form unterscheidet:
T (n) = aT (
n
+ c) + f (n)
b
Wenn n hinreichend groß gewählt wird, fällt die Konstante c nicht ins Gewicht. Aus diesem
Grund kann man solche Rekurrenzen so behandeln, als wäre c = 0 .
• Ob man nun T (n) ∈ Θ(ln(n)) (Logarithmus naturalis) schreibt, oder T (n) ∈ Θ(lg(n))
(dekadischer Logarithmus) ist egal, da nach den Logarithmengesetzen gilt:
ln(n) = logb (n) =
loga (n)
= c · loga n ∈ Θ(loga n) = Θ(lg n)
loga (b)
3.7
1.)
Übungen
Sei g : N ∋ n 7−→ n(n2 + 11) ∈ N . Zeige:
(a)
g ist injektiv, aber nicht surjektiv.
(b) 6 ist ein Teiler von 3n2 + 3n + 12 für alle n ∈ N .
(c)
6 ist ein Teiler von g(n) für alle n ∈ N .
2.)
Ein deutsches Autokennzeichen besteht aus einer Kombination von ≤ 3 Buchstaben für
den Landkreis oder die Stadt, ≤ 2 weiteren Buchstaben und bis zu einer vierstelligen
Zahl. Bestimme die Anzahl der möglichen Kennzeichen (wenn man von einer Assoziation
mit dem Namen des Landkreises absieht).
3.)
Die Fibonacci-Zahlen Fn sind definiert durch
F0 := F1 := 1 , F n + 1 := Fn + Fn−1 , n ≥ 1 .
(a)
Schreibe ein rekursives Berechnungsschema und mache das rekursive Rechenschema
durch einen binären Baum klar.
(b) Welche überflüssige Rechenschritte lassen sich finden ?
4.)
Finde einen Algorithmus, der die n-te Fibonacci-Zahl rekursiv berechnet.
41
5.)
Die Collatz/Kakutani/Klam/Ulam-Folge ist ausgehend vom Startwert c0 ∈ N folgendermaßen definiert:
(
1
cn
falls n gerade
,
cn+1 := 2
3cn + 1 sonst
wobei die Berechnung abgebrochen wird, wenn cn = 1 eintritt. Es ist bisher nicht gezeigt,
dass die Berechnung für jedes c0 abbricht.
Finde eine rekursive Funktion C : N −→ N , die die Länge der Collatz/Kakutani/Klam/UlamFolge in Abhängigkeit von c0 berechnet.
6.)
Seien x, y ∈ R . zeige:
(a)
⌈x⌉ + ⌈y⌉ − 1 ≤ ⌈x + y⌉ ≤ ⌈x⌉ + ⌈y⌉ .
(b) ⌊x⌋ + ⌊y⌋ ≤ ⌊x + y⌋ ≤ ⌊x⌋ + ⌊y⌋ + 1 .
(c)
7.)
n = ⌊ n2 ⌋ + ⌈ n2 ⌉ , n ∈ N .
Betrachte f : N −→ N, f (n) := 9 log n + 5(log n)3 + 3n2 + 2n3 .
(a)
Zeige: f ∈ O(n3 ) .
(b) Macht es einen Unterschied, wenn man log durch ln ersetzt?
8.)
9.)
Zeige (die Notation ist etwas hemdsärmelig“):
”
(a) 2x ∈ o(x2 ) .
(b) x2 ∈
/ o(x2 ) .
1 ∈ o(1) .
(c) x
Sei stets T (1) = 1 . Zeige:
(a)
T (n) = T (2n/3) + 1 =⇒ T (n) = Θ(log n) .
(b) T (n) = 9T (n/3) + n =⇒ T (n) = Θ(n2 ) .
(c)
T (n) = 2T (n/2) + n log n =⇒ T (n) = O(n log2 n) .
42
Kapitel 4
Elementare Arithmetik
Arithmetik ist das Teilgebiet der Mathematik, welches auch als Synonym zum Begriff Zahlentheorie verstanden werden kann. Elementare Arithmetik bezeichnet allgemein das Rechnen mit
natürlichen Zahlen und ganzen Zahlen und die Untersuchung der Konsequenzen, die sich daraus
ergeben, dass die Division in den ganzen Zahlen nur eingeschränkt möglich ist. Als Beiprodukt
lernen wir den euklidischen Algorithmus und den wichtigen Gruppenbegriff kennen.
4.1
Ganze Zahlen
In Abschnitt 3.1 haben wir die natürlichen Zahlen geschaffen“. Skizzieren wollen wir nun den
”
Konstruktionsweg von den natürlichen Zahlen zu den ganzen Zahlen. Wir sehen dabei die Nützlichkeit des Begriffs der Äquivalenzrelation“ ein. Auf N × N läßt sich nämlich eine Äquivalenzrelation durch
R := {((m, n), (k, l)) ∈ N2 × N2 |m + l = n + k} , d.h. (m, n) ∼ (k, l) : ⇐⇒ m + l = n + k ,
einführen. Man bestätigt leicht, dass in der Tat eine Äquivalenzrelation vorliegt. Etwa folgt die
Symmetrie allein schon aus der Kommutativität der Addition in den natürlichen Zahlen; siehe
Rechenregel 3.2.
Die Zuordnung eines Paares (m, n) zu einer Klasse [(k, l)] geschieht unter dem Gesichtspunkt,
dass die Differenz m − n gleich der Differenz k − l ist und dies liefert den Zusammenhang zur
Menge der ganzen Zahlen Z, wenn wir sie schon als bekannt voraussetzten. Also sollte etwa
[(n, n)] für 0 ,
[(n + 1, n)] für 1 , [(n, n + 1)] für − 1 ,
[(n + n, n)] für n , [(n, n + n)] für − n ,
stehen. Der Weg, ausgehend von der Kenntnis der natürlichen Zahlen, die ganzen Zahlen zu
konstruieren, ist also vorgezeichnet:
Man führe Z als Menge der Äquivalenzklassen (N × N)/ R ein.
Vervollständigt wird dieser Schritt durch die Beobachtung, dass durch
[(m, n)] ⊕ [(k, l)] := [(m + k, n + l)]
eine Addition und durch
[(m, n)] ⊙ [(k, l)] := [(m · k + n · l, m · l + n · k)]
43
eine Multiplikation eingeführt wird. Die Anordnung der ganzen Zahlen spiegelt sich in
[(m, n)] ⊳ [(k, l)] : ⇐⇒ m + l < n + k bzw. [(m, n)] [(k, l)] : ⇐⇒ m + l ≤ n + k
wieder. Hierbei ist ja “ < , ≤ “ schon von den natürlichen Zahlen her bekannt. Beachte bei diesen
Definitionen stets, dass [(m, n)] für m−n stehen sollte. Ergänzend sei nun noch die Subtraktion
[(m, n)] ⊖ [(k, l)] := [(m, n)] ⊕ [(l, k)] .
eingeführt.
Bemerkung 4.1.1 Wenn man mit Äquivalenzklassen neue Objekte unter Verwendung von Repräsentanten für die Klassen definiert, hat man sich zu vergewissern, dass die Definition vom
Repräsentanten für die Klasse unabhängig ist. Dies ist oben bei der Definition der Addition,
Multiplikation und Kleiner–Beziehung der Fall. Bei der Addition etwa bedeutet dies, nachzuweisen, dass [(m, n)] ⊕ [(k, l)] = [(m′ , n′ )] ⊕ [(k′ , l′ )] ist, falls [(m, n)] = [(m′ , n′ )] , [(k, l)] = [(k′ , l′ )]
gilt. Dies sieht man mit Hilfe der Identitäten m + n′ = m′ + n , k + l′ = k′ + l sofort ein.
Entsprechend unserer Hinführung finden wir die natürlichen Zahlen wieder als Teilmenge
e := {[(n + n, n)]|n ∈ N} . Auch diese Menge erfüllt nun die Peano–Axiome:
N
e;
• 1̃ := [(n + 1, n)] ∈ N
• n]
+ 1 := [(n + n + 1, n)] Nachfolger von n
e;
• 1̃ ist kein Nachfolger, denn aus 1̃ = [(n+n+1, n)] folgt sofort die widersprüchliche Aussage
1 = n + 1;
e so dass 1̃ ∈ M
e.
f ⊂ N,
f und (ñ ∈ M
f =⇒ n]
f), dann ist offenbar M
f=N
• Ist M
+1∈M
e , n ∈ N und die Null 0̃ := [(n, n)] .
Zusätzlich haben wir die negativen Zahlen [(n, n + n)] ∈ N
Die aufwendige Schreibweise wollen wir nun aber wieder vermeiden. Wir tun dies, indem wir,
statt die Existenz der natürlichen Zahlen axiomatisch zu fordern, die ganzen Zahlen axioma”
tisch“ einführen.
Es gibt Mengen N, Z , ein Element 0 ∈ Z, Abbildungen
Z × Z ∋ (a, b) 7−→ a + b ∈ Z,
Z × Z ∋ (a, b) 7−→ a · b ∈ Z,
und eine Vergleichsoperation ≤ mit folgenden Eigenschaften:
1. (a + b) + c = a + (b + c) für alle a, b, c ∈ Z .
2. a + 0 = 0 + a für alle a ∈ Z .
3. Zu a ∈ Z gibt es genau ein (−a) ∈ Z mit
(a + (−a)) = 0 = ((−a) + a) .
4. a + b = b + a für alle a, b ∈ Z .
5. (a · b) · c = a · (b · c) für alle a, b, c ∈ Z .
6. a · b = b · a für alle a, b ∈ Z .
7. a · (b + c) = a · b + a · c für alle a, b, c ∈ Z .
8. N ⊂ Z , 1 6= 0 , Z = N ∪ {0} ∪ −N .
9. 1 · a = a , 0 · a = 0 für alle a ∈ Z .
10. a ≤ b ⇐⇒ b + (−a) ∈ N ∪ {0} .
44
(Addition)
(Multiplikation)
(Assoziativgesetz)
(0 ist neutrales Element)
((−a) ist Negatives von a)
(Kommutativgesetz)
(Assoziativgesetz)
(Kommutativgesetz)
(Distributivgesetz)
(1 ist neutrales Element)
Man beachte aber, dass nur die Existenz der natürlichen Zahlen eine wesentliche Forderung ist.
Wir tun dies durch Anführung von Eigenschaften, die das übliche Rechnen in den ganzen Zahlen
möglich machen. (Wir legen dabei nicht Wert auf ein minimales Gerüst von Axiomen.)
Zur Abkürzung führen wir noch die Subtraktion durch
Z × Z ∋ (a, b) 7−→ a − b := a + (−b) ∈ Z
ein, schreiben meist kurz
ab für a · b
und vereinbaren die Schreibweise
a < b für a ≤ b, a 6= b .
Damit können wir nun in Z und N genauso rechnen, wie wir es gewohnt sind.
4.2
Teilbarkeit
Definition 4.2.1 Seien a, b ∈ Z. Wir sagen, dass a die Zahl b teilt, wenn es k ∈ Z gibt mit
b = ka. Wir schreiben dafür a|b .
Ist b nicht durch a teilbar, so schreiben wir a 6 | b.
Srechweisen:
Für a|b: a teilt b, a ist Teiler von b, b ist durch a teilbar.
Für a 6 | b: a teilt b nicht, a ist kein Teiler von b, b ist nicht durch a teilbar.
Folgerung 4.2.2 Seien a, b, c, d ∈ Z. Dann gilt:
(1) a|a; a|b und b|a =⇒ a = ±b; a|b und b|c =⇒ a|c.
(2) d|a und d|b =⇒ d|(ax + by) für alle x, y ∈ Z.
(3) a|b und a|(b + c) =⇒ a|c.
Beweis:
Zu 1. a|a, da a = 1 · a.
Es gibt k, l ∈ Z mit b = ka, a = lb. Ist b = 0, dann ist a = 0 und nichts ist mehr zu zeigen. Sei
nun b 6= 0; o.E. b > 0. Dann folgt aus b = klb offenbar kl ∈ N, kl = 1 und damit k = ±1, l = ±1.
Wir haben b = ka, c = lb mit k, l ∈ Z. Daraus folgt c = lb = lka, also a|c.
Zu 2. Wir haben a = kd, b = ld. Seien x, y ∈ Z. Dann gilt ax + by = kdx + ldy = (kx + ly)d;
also d|(ax + by) .
Zu 3. Wir haben b = ka, b + c = la mit k, l ∈ Z. Daraus folgt c = la − b = la − ka = (l − k)a,
also a|c.
Bei Teilbarkeitsfragen in Z können wir uns in der Regel immer auf positive Teiler, d.h. auf
Teiler in N, zurückziehen, da von den zwei Zahlen a, −a stets eine in N liegt, falls a 6= 0; der Fall
a = 0 ist uninteressant, da dann auch b = 0 .
In diesem Abschnitt kommen wir ausschließlich mit den Eigenschaften der ganzen Zahlen
aus, wie sie sich aus der axiomatischen Einführung der natürlichen Zahlen mittels der Peano–
Axiome ergaben; insbesondere haben wir die Rechenarten“ +, −, ·, ≤, < uneingeschränkt zur
”
45
Verfügung. Nicht zur Verfügung steht die Division ÷, eine Tatsache, die die Reichhaltigkeit der
Resultate bzgl. Teilbarkeit beschert.
Fragt man nach gemeinsamen Teilern zweier ganzer Zahlen a, b, so interessiert insbesondere der größte dieser gemeinsamen Teiler. Dabei können wir uns dann auf positive Teiler beschränken, denn 1 ist stets ein gemeinsamer Teiler von a und b.
Definition 4.2.3 Seien a, b ∈ Z . Eine Zahl d ∈ N heißt größter gemeinsamer Teiler von
a, b genau dann, wenn
(1) d|a , d|b
(2) Ist d′ ∈ N ein Teiler von a und b, so teilt d′ auch d
gilt. Wir schreiben d = ggT(a, b) = a ⊓ b .
Für a = b = 0 folgt, dass 0 der eindeutig bestimmte größte gemeinsamer Teiler ist. Anderenfalls it jeder größte gemeinsamer Teiler von 0 verschieden. Sind d1 und d2 zwei größte
gemeinsamer Teiler von a, b, so gilt nach Definition 4.2.3 d1 |d2 und d2 |d1 , d.h. d1 = ±d2 . Dank
der Tatsache, dass wir d ∈ N gefordert haben, ist also der größte gemeinsamer Teiler eindeutig
bestimmt.
Es sollte klar sein, wie nun der größte gemeinsame Teiler von endlich vielen ganzen Zahlen
erklärt ist. Beispiel:
6 ⊓ 10 = 2, 6 ⊓ 10 ⊓ 30 = 2, 6 ⊓ 10 ⊓ 15 = (6 ⊓ 10) ⊓ 15 = 6 ⊓ (10 ⊓ 15) = 1 .
Definition 4.2.4 Seien a, b ∈ Z. Gilt ggT(a, b) = 1 , so nennen wir a, b teilerfremd.
Lemma 4.2.5 Seien a, b ∈ Z nicht beide Null. Dann gilt a ⊓ b = (−a) ⊓ b = (−a) ⊓ (−b) =
a ⊓ (−b) .
Beweis:
Wir beweisen etwa die erste Gleichheit. Diese folgt aber aus der einfachen Beobachtung, dass d
ein Teiler von a und b genau dann ist, wenn d ein Teiler von −a und b ist.
Wir suchen den größten gemeinsamen Teiler von Zahlen a, b ∈ Z . Beachte, dass es wegen
Lemma 4.2.5 ausreicht, den größten gemeinsamen Teiler für Zahlen in N zu berechnen.
Satz 4.2.6 (Division mit Rest) Für alle a ∈ Z, b ∈ N gibt es eindeutig bestimmte Zahlen
q, r ∈ Z mit
a = bq + r und 0 ≤ r < b.
(4.1)
Beweis:
Wir beweisen zunächst die Existenz von q, r für a ≥ 0 durch vollständige Induktion. Dazu
formulieren wir die Aussage:
A(n) : Die Darstellung (4.1) ist richtig für 0 ≤ a ≤ n
n = 0 : Sei a = 0 . Setze q := r := 0 .
n + 1 : Sei a = n + 1 . Ist a < b, so gilt a = 0b + a und wir haben die Darstellung (4.1) für a
gezeigt. Ist a ≥ b, so folgt aus der Induktionsvoraussetzung a − b = qb + r mit q ∈ Z, 0 ≤ r < b.
46
Also a = (q + 1)b + r. Aufgrund der Induktionsvoraussetzung, dass A(n), gilt sind wir fertig.
Die Existenz folgt für a < 0 aus der Anwendung der eben bewiesenen Aussage auf −a gemäß
−a = q ′ b + r ′ , 0 ≤ r ′ < b
durch
a=
(−q ′ − 1)b + (b − r ′ ) , falls r ′ 6= 0
(−q ′ )b
, falls r ′ = 0
Um die Eindeutigkeit zu beweisen, nehmen wir ein zweites Zahlenpaar q ′ , r ′ mit
a = q′b + r′, 0 ≤ r′ < b ,
wobei o. E. r ≥ r ′ sei. Dann ist 0 ≤ r − r ′ < b, r − r ′ = (q − q ′ )b, q − q ′ ≥ 0, und dies ist nur mit
q ′ = q, r = r ′ verträglich.
Lemma 4.2.7 Sei a ∈ Z und b ∈ N. Dann folgt aus der Darstellung a = qb + r , q ∈ Z, die
Aussage ggT(a, b) = ggT(b, r).
Beweis:
Ist d ein Teiler von a, b, dann ist d ein Teiler von b und r und umgekehrt (siehe Folgerung 4.2.2).
4.3
Primzahlen
Die Bausteine der natürlichen Zahlen sind die Primzahlen. Dies wollen wir nun belegen.
Definition 4.3.1 Eine Zahl p ∈ N, p 6= 1, heißt Primzahl, falls aus p = kl mit k, l ∈ N folgt:
k = 1 oder l = 1 . (Später nennen wir k, l Teiler.)
Über die Existenz unendlich vieler Primzahlen war sich schon Euklid im Klaren. Die größte
Zahl, von der man zur Zeit L. Eulers wusste, dass sie eine Primzahl ist, war 231 − 1, eine Zahl
mit 10 Stellen. Zur Vorbereitung Euklids Beweises von der Existenz unendlich vieler Primzahlen
geben wir an:
Lemma 4.3.2 Sei n ∈ N, n ≥ 2. Sei
T := {m ∈ N|m ≥ 2, n = km mit k ∈ N} .
Dann besitzt T ein (bezüglich ≤) kleinstes Element p und p ist eine Primzahl.
Beweis:
Sicherlich ist n ∈ T . Klar, nach dem Wohlordnungssatz 3.2.6 besitzt T ein kleinstes Element
p ∈ N, p ≥ 2; also p ≤ m für alle m ∈ T und n = kp mit k ∈ N .
Annahme: p ist keine Primzahl.
Dann gibt es l, j ∈ N, 2 ≤ l < p, mit p = lj . Dann gilt n = pk = l(jk), also l ∈ T, was im
Widerspruch zur Minimalität von p in T ist.
Satz 4.3.3 (Unendlichkeit der Primzahlen/Euklid) Es gibt unendlich viele Primzahlen.
47
Beweis:
Annahme: Es gibt nur endlich viele Primzahlen.
Seien p1 , . . . , pr diese Primzahlen. Setze N := p1 · · · pr + 1. Dann ist N ∈ N und N ≥ 2. Da
N > pi für jedes i = 1, . . . , r ist, ist N keine Primzahl. Also gibt es nach Lemma 4.3.2 eine
Primzahl p ∈ N mit N = kp, k ∈ N . Also kommt p unter p1 , . . . , pr vor; o.E. p = p1 . Dann folgt:
1 = p(k − p2 . . . pr ) .
Daraus liest man nun p = 1 ab, was ein Widerspruch ist.
Die einzige gerade Primzahl ist 2. Alle anderen Primzahlen sind ungerade. Daraus folgt sofort,
dass diese Primzahlen von der Form 4m + 1 bzw. 4m + 3 mit m ∈ N sind. Also haben wir drei
Schubladen“ von Primzahlen:
”
P2 = {2} , P1 = {p|p Primzahl , p = 4m + 1} , P3 = {p|p Primzahl , p = 4m + 3} .
Nun bleibt die Frage, ob P1 und P3 unendlich viele Zahlen enthält. Dies ist so!
Bemerkung 4.3.4 J. Bertrand stellte die Vermutung auf, dass zwischen n und 2n stets eine
Primzahl liegt; er selbst verifizierte die Vermutung für n < 3000000 . Ein erster Beweis für die
vermutete Tatsache wurde 1850 von P. Tschebyscheff vorgelegt.
Wir geben hier nicht den Beweis
2n
wieder, der durch eine sorgfältige Abschätzung von n erbracht werden kann, sondern verifizieren die Vermutung nur für n < 4000 (Landau’s Trick): Hier ist eine Folge von Primzahlen,
von denen jeweils die Verdopplung größer als die folgende Zahl ist:
2, 3, 5, 7, 13, 23, 43, 83, 163, 317, 631, 1259, 2503, 4001
Beispiel 4.3.5 Lange Zeit glaubte man, dass die so genannten Fermatsche Zahlen
n
Fn := 22 + 1, n ∈ N ,
stets Primzahlen sind. Für n = 0, 1, 2, 3, 4 trifft dies zu:
F0 = 3, F1 = 5, F2 = 17, F3 = 257, F4 = 65537 .
Im Jahre 1733 widerlegte L. Euler mit dem Beispiel F5 = 4294967297 = 641 · 6700417 die
Vermutung. Bisher hat man keine weitere Zahl Fn als Primzahl erkannt, im Gegenteil, die
Vermutung ist nun, dass keine Fermatzahl Fn , n ≥ 5, eine Primzahl ist. Die kleinste Fermatzahl,
von der man derzeit noch nicht weiß, ob sie eine Primzahl ist oder nicht, ist die Zahl F24 .
Beispielsweise ist F18 = 13631489 · k , wobei k eine Zahl mit 78906 Stellen ist.
Wie kann man bei gegebener Zahl n entscheiden, ob es sich um eine Primzahl handelt oder
nicht? Liegt eine große Zahl vor, so ist die Aufgabe schwierig. Die Probiermethode, n sukzessive
auf Teiler zu untersuchen, kann man sehr schnell als sehr zeitraubend“ erkennen. Aktualität
”
erhielt die Frage bei der Suche nach Primzahltests in der Kryptologie. In der Kryptologie
beschäftigt man sich mit der Verschlüsselung von Nachrichten zum Zwecke der Geheimhaltung
und mit der Entschlüsselung zum Zwecke der Aufdeckung von Nachrichten.
Ein Primzahltest leitet sich aus der Äquivalenz
n Primzahl ⇐⇒ n|((n − 1)! + 1)
48
ab. Diese Äquivalenz wird als Satz von Wilson bezeichnet.1
Die Probiermethode – man probiere alle Primzahlen p ≤ n als mögliche Teiler durch – kann
dahin verbessert werden, dass man nur solche p mit p2 ≤ n durchzuprobieren hat, da bei einer
Zerlegung n = pq, p, q Primzahlen, für einen der beiden Faktoren sicherlich gilt, dass er dem
Quadrate nach nicht größer als n ist. Aber hier hat man das Problem, dass man von allen
Zahlen z mit z 2 ≤ n wissen sollte, ob sie Primzahlen sind. Da aber jede Primzahl p von der
Form p = 6k±1, k ∈ N, ist (Beweis!) können wir dieses Problem umgehen, indem wir mit solchen
6k ± 1 testen. Man hat dann aber immer noch mit einer Anzahl von Zahlen zu testen, die etwa
bei einer 100–stelligen Zahl einen nicht zu bewältigender Aufwand darstellt.
Folgerung 4.3.6 (Lemma von Euklid) Teilt eine Primzahl ein Produkt a1 · · · ar natürlicher
Zahlen, so teilt p wenigstens einen der Faktoren a1 , . . . , ar .
Beweis:
O. E. sei r = 2. Also haben wir a1 a2 = kp mit k ∈ N . Teilt p die Zahl a1 nicht, dann ist
p ⊓ a1 = 1, da p eine Primzahl ist, und es gibt nach Satz 4.4.4 s, t ∈ Z mit 1 = sp + ta1 . Daraus
folgt a2 = spa2 + ta1 a2 = p(sa2 + tk). Also teilt p die Zahl a2 .
Bevor wir den Hauptsatz der elementaren Zahlentheorie, die Primfaktorzerlegung, beweisen,
formulieren noch eine Schreibweise/Vereinbarung: Das Produkt von Zahlen a1 , . . . , an+1
definieren wir induktiv
0
Y
i=1
ai := 1 (leeres Produkt) ,
1
Y
ai := a1
(einfaches Produkt) ,
n+1
Y
i=1
i=1
ai := an+1 ·
n
Y
ai .
i=1
Satz 4.3.7 (Primfaktorzerlegung) Jede natürliche Zahl n ≥ 2 läßt sich bis auf die Reihenfolge der Faktoren eindeutig als Produkt von Primzahlen darstellen.
Beweis:
Die Existenz einer Darstellung für n ∈ N beweisen wir induktiv:
Für n = 2 ist dies nach der obigen Vereinbarung über das einfache Produkt klar.
n + 1 : Ist n + 1 eine Primzahl, dann ist nach Vereinbarung über das einfache Produkt nichts
mehr zu zeigen. Anderenfalls gilt n + 1 = pm mit 1 < p, m < n + 1. O.E. können wir nun annehmen nach Lemma 4.3.2, dass m einen Teiler p besitzt, der eine Primzahl ist; also n + 1 = pm
mit 1 < p, m < n + 1 . Nach Induktionsvoraussetzung gilt m = p2 · · · pr , p2 , . . . , pr Primzahlen.
Dann liegt in n + 1 = pp2 · · · pr eine Zerlegung von n + 1 in Primfaktoren vor.
Zur Eindeutigkeit: Sei n = p1 · · · pr = q1 · · · qs mit Primzahlen p1 , . . . , pr , q1 , . . . , qs . Durch Induktion über n zeigen wird, dass r = s und nach Umnumerierung p1 = q1 , . . . , pr = qr gilt.
p1 teilt das Produkt q1 · · · qs und damit einen der Faktoren q1 , . . . , qs . Also etwa nach Umnumerierung p1 |q1 . Da q1 Primzahl ist, ist p1 = q1 . Also (Kürzungsregel) p2 · · · pr = q2 · · · qs =: m .
Da m < n gilt, sagt die Induktionsannahme r = s, p2 = q2 , . . . , pr = qs nach eventueller Umnumerierung und wir sind fertig.
Die Herstellung der Primfaktorzerlegung einer (großen) Zahl ist kein leichtes Unterfangen.
Die Schwierigkeit wird dadurch beleuchtet, dass nahezu gleiche Zahlen eine sehr verschiedene
Primfaktorzerlegung besitzen können:
370273 = 43 · 79 · 109 , 370277 = 17 · 23 · 947 , 370279 = 7 · 13 · 13 · 313 .
1
Schon G.W. Leibniz hat diesen Satz vermutet, der erste vollständige Beweis stammt von J.L. Lagrange2 , etwa
100 Jahre später hat ihn J. Wilson nachentdeckt. Man sieht schnell, dass, was den Rechenaufwand betrifft, nicht
viel gewonnen ist, denn (n − 1)! auszurechnen, ist eine aufwendige Angelegenheit.
49
Definition 4.3.8 Seien a, b ∈ Z, die nicht beide 0 sind. Eine Zahl k ∈ N heißt kleinstes
gemeinsames Vielfaches von a, b genau dann, wenn gilt:
(1) a|k , b|k .
(2) Sind a, b Teiler von k′ ∈ N, so ist k ein Teiler von k′ .
Wir schreiben k = kgV (a, b) = a ⊔ b .
Bemerkung 4.3.9 Das kleinste gemeinsame Vielfache von Zahlen a, b ∈ N ist die kleinste
Zahl m ∈ N, für die a|m , b|m gilt. Kennt man die Primfaktorzerlegung von a und b, so kann
man es sehr einfach ablesen(, wie übrigens auch den größten gemeinsamen Teiler).
4.4
Euklidischer Algorithmus
Der euklidische Algorithmus baut die Aussage von Lemma ?? aus zu einer effizienten Berechnungsmethode für den größten gemeinsamen Teiler.
Algorithm 1 Der euklidische Algorithmus
EIN a, b ∈ Z ; o.E. a ≥ b > 0 .
Schritt 0 a′ := a, b′ := b .
Schritt 1 (a′ , b′ ) := (b′ , r), wobei a′ = qb′ + r mit 0 ≤ r < b′ ist.
Schritt 2 Ist r = 0, gehe zu AUS. Ist r 6= 0, setze a′ := b′ , b′ := r, gehe zu Schritt 1.
AUS d := b′ = ggT(a, b) .
Die Aussage, dass d der größte gemeinsame Teiler von a, b ist, falls die Situation r = 0
erreicht wird, folgt aus dem Lemma 4.2.7. Bleibt noch zu klären, dass die Situation r = 0 in
endlich vielen Schritten wirklich erreicht wird. Dies folgt aber aus der Tatsache, dass für zwei
aufeinanderfolgende Durchläufe von Schritt 1 (a′ , b′ ) , (a′′ , b′′ ) sicherlich 0 ≤ b′′ < b′ , b′ , b′′ ∈ N0
gilt. Also muss schließlich das Verfahren bei r = 0 abbrechen.
Der euklidische Algorithmus gilt als ein recht schneller Algorithmus. Dies wollen wir nun
erläutern. Dazu benötigen wir die Fibonacci-Zahlen. Sie sind rekursiv definiert durch:
f1 := f2 := 1 , fn+1 := fn + fn−1 , n ∈ N, n ≥ 2 .
Die Folge (fn )n∈N gilt (historisch) als ein erstes Modell für die zeitliche Entwicklung einer
(Kaninchen-)Population. Man kann (durch vollständige Induktion) zeigen:
√
√
1
1
1
fn = √ (gn − g n ) , n ∈ N , wobei g := (1 + 5), g := (1 − 5) .
2
2
5
(4.2)
Der euklidische Algorithmus habe die Eingabewerte a, b, für die wir o.E. annehmen dürfen:
a > b > 0 . Sei n die Anzahl der Divisionen mit Rest, die nötig sind, bis der größte gemeinsamer
Teiler d = ggT(a, b) gefunden ist. Um die Anzahl der Schritte n abzuschätzen, wählen wir als
spezielle Eingabewerte zwei aufeinanderfolgende Fibonacci-Zahlen, nämlich a = fn+1 , b = fn .
50
In diesem Fall sind auf Grund der Rekursionsformel fk+1 = fk + fk−1 die Divisionen mit Rest
besonders einfach:
fn+1 = 1 · fn + fn−1
fn = 1 · fn−1 + fn−2
..
.
f3 = 1 · f2 + f1
f2 = 1 · f1 + 0
Durch Vergleich mit dem allgemeinen Fall sieht man, dass für den euklidischen Algorithmus der
ungünstigste Fall für die Eingabe zwei aufeianderfolgende Fibonacci-Zahlen sind. Da offenbar
nach (4.2)
√
1
fn+1 = Θ(gn ) mit g = (1 + 5)
2
gilt, ergibt sich hier n = O(ln(a)) mit a = fn+1 . Die Anzahl der beim euklidischen Algorithmus
nötigen Divisionen mit Rest wächst also höchstens linear mit der Stellenzahl der Eingabewerte.
Wir geben dem Euklidischen Algorithmus, wohlwissend, dass der Schritt 1 nur endlich oft
durchlaufen wird, eine explizite Fassung:
Euklidischer Algorithmus
Kettenbruchentwicklung
a
b
r0
r1
r1
r2
r0 := a , r1 := b,
r0
=
q1 r1 + r2 , 0 < r2 < r1 ,
r1
=
q2 r2 + r3 , 0 < r3 < r2 ,
..
.
..
.
=
= q1 + rr2
1
r
= q 2 + r3
2
..
.
..
.
rk−1
=
qk rk + rk+1 , 0 < rk+1 < rk ,
rk
=
qk+1 rk+1 ,
rk−1
rk
rk
rk+1
r0
r1
r
= qk + k+1
rk
= qk+1
In dieser Darstellung ist rk+1 = rk−1 ⊓ rk = · · · = r0 ⊓ r1 = a ⊓ b nach Lemma 4.2.7.
Beachte: Bei der Spalte Kettenbruchentwicklung“ haben wir Brüche vorweggenommen. Für
”
ein Verständnis der Kettenbruchentwicklung reicht ein elementares Wissen über rationale Zahlen
aus.
Beispiel 4.4.1 a = 104629 , b = 432000 .
104629 = 0 · 432000 + 104629
432000 = 4 · 104629 + 13484
104629 = 7 · 13484 + 10241
13484 = 1 · 10241 + 3243
10241 = 3 · 3243 + 512
3243 = 6 · 512 + 171
512 = 2 · 171 + 170
171 = 1 · 170 + 1
170 = 170 · 1
51
Also gilt: 104629 ⊓ 432000 = 1 .
Aus der obigen Darstellung des euklidischen Algorithmus lesen wir
a
r0
r2
1
1
1
= ...
(4.3)
=
= q1 +
= q1 + r1 = q1 +
= q1 +
r
3
1
b
r1
r1
q 2 + r2
q2 +
r2
r4
q3 +
r3
rk+1
ab; wir wissen dabei, dass stets 0 < r < 1 gilt und dass das Schema nach k Schritten abk
bricht, denn in formaler Interpretation haben wir rk+2 = 0 . Die berechneten Größen q1 , . . . , qk+1
schreiben als
a
[q1 , . . . , qk+1 ] oder = [q1 , . . . , qk+1 ]
b
auf und bezeichnen dies als Kettenbruch. Der Kettenbruch kann mitunter auch sehr lang“
”
sein. In vielen Fällen ist man schon mit einer Näherung [q1 , . . . , ql ] , 1 ≤ l < k + 1 , zufrieden,
d.h. mit der Näherung, die entsteht, wenn man
rl
=0
rl+1
setzt.
Beispiel 4.4.2 Die Zahlen
a = 71755875
b = 61735500
kommen in Berechnungen des Astronomen Aristarchus von Samos vor. Für a verwendet er die
b
43
Näherung 37 . Sie ergibt sich, wenn man den Kettenbruch geeignet abbricht:
a
1
.
∼1+
b
6 + 61
Beispiel 4.4.3 Die Umlaufzeit der Erde um die Sonne beträgt ziemlich genau
365 +
104629
Tage .
432000
Aus der Kettenbruchentwicklung
432000
= [0, 4, 7, 1, 3, 6, 2, 1, 170]
104629
ergeben sich Ansätze für Kalender:
[0] = 0
[0, 4] =
Keine Schaltjahre
(Anpassung von Zeit zur Zeit durch Hinzufügen eines Tages)
1
4
[0, 4, 7, 3, 6] =
Alle vier Jahre ein Schalttag
194
801
In 800 Jahren lässt man sechs Schaltjahre ausfallen
(und zwar in den Jahren, deren Jahreszahlen nicht durch 400 teilbar ist.)
Beachte: Da a1 ⊓ a2 ⊓ · · · ⊓ an = a1 ⊓ (a2 ⊓ · · · ⊓ an ) gilt, ist klar, dass wir nun auch ein
Verfahren haben, das den größten gemeinsamen Teiler von a1 , . . . , an bereitstellt: Man hat es
nur mehrmals anzuwenden.
Eine wichtige Konsequenz aus dem Euklidischen Algorithmus ist
52
Satz 4.4.4 (Lemma von Bezout) Seien a, b ∈ Z. Dann gibt es Zahlen s, t ∈ Z mit ggT(a, b) =
sa + tb .
Beweis:
O.E. a ≥ b > 0 .
Die Aussage folgt dadurch, dass wir den euklidischen Algorithmus in der expliziten Fassung
rückwärts lesen. Wir strukturieren dies, indem wir nachrechnen, dass für 0 ≤ i ≤ k + 1 gilt
ri = si a + ti b , mit si , ti ∈ Z.
(4.4)
Dies ergibt sich so: Für i = 0 setze s0 := 1, t0 := 0 und für i = 1 setzte s1 := 0, t1 := 1 . Nun
setzen wir
si+1 := si−1 − qi si , ti+1 := ti−1 − qi ti , 1 ≤ i ≤ k.
(4.5)
Dann gilt offenbar die obige Aussage.
Beispiel 4.4.5 Wir betrachten wieder Beispiel 4.4.1. Für das Tupel (ri , qi , si , ti ) haben wir dann
nach (4.4) und (4.5) die folgende Sequenz (× bedeutet uninteressant oder nicht definiert):
(36667, ×, 1, 0), (12247, 2, 0, 1), (12173, 1, 1, −2), (74, 164, −1, 3), (37, ×, 165, −494).
Also haben wir
37 = 36667 ⊓ 12247 = 165 · 36667 − 494 · 12247
Folgerung 4.4.6 Seien a, m ∈ Z, die nicht beide Null sind, mit ggT(a, m) = 1 . Dann gibt es
b ∈ Z mit m|(ab − 1) .
Beweis:
Wir wissen aus dem Lemma von Bezout 1 = ax + my mit x, y ∈ Z . Setze b := x . Dann ist
ab − 1 = −my = m(−y) .
Die obige Folgerung können wir so lesen, dass bei Teilerfremdheit von a und m zu a eine Zahl
b existiert, die die Gleichung
a·b=1
bis auf ein Vielfaches von m löst.
Bemerkung 4.4.7 Ein Polynom vom Grade n mit ganzzahligen Koeffizienten ist ein Term“
”
der folgenden Form:
p(x) := an xn + an−1 xn−1 + · · · + a1 x + a0 ;
dabei sind a0 , . . . , an−1 ∈ Z die Koeffizienten des Polynoms und n der Grad, wenn n 6= 0 . Dieses
Polynom kann einerseits selbständiges Objekt im Ring Z[X] aller dieser Terme von beliebigem
Grad oder als Abbildung von Z nach Z betrachtet werden. Wir nehmen zunächst den ersten
Standpunkt ein. Ring“ meint, dass man solche Terme (koeffizientenweise) addieren und mit
”
ganzen Zahlen multiplizieren kann. Umgekehrt, kann man nun versuchen, zwei Terme dieser
Art zu dividieren“; man wird zur Division mit Rest bei Polynomen geführt. Auf unserer
”
ganzzahligen Basis können wir diese nicht vorstellen, denn dazu brauchen wir die rationalen
Zahlen; wir kommen im nächsten Kapitel darauf zurück.
53
4.5
Modulare Arithmetik
Die modulare Arithmetik beschreibt das Rechnen im Ring Zm , wobei m ∈ N, m ≥ 2, der gewählte
Modul ist. Der Ring Zm kommt als Menge der Äquivalenzklassen/Restklassen bezüglich der
Äquivalenzrelation Division mit Rest“ bezüglich des Moduls m zustande:
”
Zm := {[0], [1], . . . , [m − 1]} wobei [i] := {n ∈ N|n = qm + i für ein q ∈ Z} .
Beachte, dass etwa die Klasse [1] auch als die Klasse [m + 1] beschrieben werden kann; wir haben
in der Definition von Zm ein naheliegendes Representantensystem gewählt.
Klar, für m = 2 erhalten wir gerade die Einteilung der natürlichen Zahlen in die Klassen gerade Zahlen und ungerade Zahlen. Für diese Klassen hat man in natürlicher Weise eine Addition
und eine Multiplikation:
gerade + gerade = gerade , ungerade + gerade = ungerade
gerade · gerade = gerade , ungerade · gerade = gerade
Diese Beobachtung schreiben wir nun fort auf Zm :
Addition: [i] + [j] := [i + j] , i, j ∈ {0, 1, . . . , m − 1} ;
Multiplikation: [i] · [j] := [ij] , i, j ∈ {0, 1, . . . , m − 1} .
Damit dies wohldefiniert ist, muss noch gezeigt werden: aus [i] = [j], [i′ ] = [j ′ ] folgt [i+j] = [i′ +j ′ ]
und [ij] = [i′ j ′ ] . Wir beweisen dies am Beispiel der Multiplikation. [i] = [j], [i′ ] = [j ′ ] bedeutet
i′ = pm + i, j ′ = qm + j für p, q ∈ Z . Daraus folgt
i′ j ′ = (pm + i)(qm + j) = (iqm + jpm + pqm)m + ij also [ij] = [i′ j ′ ] .
[0] ist das neutrale Element für die Addition, [1] ist das neutrale Element für die Multiplikation:
[i] + [0] := [i] , [i] · [1] = [i] , i, j ∈ {0, 1, . . . , m − 1} .
Weiterhin ist leicht zu sehen, dass [m − i] das Inverse von [i] bezüglich der Addition ist. Nun
können wir so zusammenfassen: Zm ist bezüglich der Addition eine kommutative Gruppe; was
die Bezeichnung Gruppe“ beinhaltet, siehe nachfolgenden Abschnitt 4.6. Dieses Ergebnis gilt
”
unabhängig von m.
Für die Multiplikation ist die Situation nicht so einfach, denn es gibt die Situation, dass
Nullteiler auftreten; etwa
[2] · [2] = [2 · 2] = [0] in Zm für m = 4 .
Also kann hier [2] kein Inverses bezüglich der Multiplikation haben. Ist nun m eine Primzahl,
dann ist, wie wir wissen, die Klasse [1] ein neutrales Element und aus dem Lemma von Bezout
4.4.4 folgern wir, dass es zu jeder Zahl k = 1, . . . , m − 1 ein l ∈ N gibt mit m teilt kl − 1;
d.h. [k] · [l] = [1] . Somit hat man für jedes Element in Zm \{[0]} ein Inverses. Nun fassen wir
zusammen: Zm \{[0]} ist bezüglich der Multiplikation eine kommutative Gruppe, falls m eine
Primzahl ist.
Die Gruppentafeln – so bezeichnen wir eine vollständige Auflistung der Verknüpfungen der
Gruppenelemente – zu m = 5 sehen wie in 4.3 aufgeführt aus.
Man beachte, dass sowohl in der Gruppentafel zur Addition als auch in der Gruppentafel zur
Multiplikation in jeder Zeile und Spalte jede Klasse genau einmal vertreten ist. Beachte ferner,
dass die Potenzen des Elements [2] alle Elemente von Z∗5 := Z5 \{[0]} durchlaufen:
[2]0 = [1] , [2]1 = [2] , [2]2 = [4] , [2]3 = [3] , [2]4 = [1] .
Man nennt eine Gruppe, die ein solches zyklisches Element besitzt, eine zyklische Gruppe.
54
+
[0] [1] [2] [3] [4]
[0]
[0] [1] [2] [3] [4]
·
[1] [2] [3] [4]
[1]
[1] [2] [3] [4] [0]
[1]
[1] [2] [3] [4]
[2]
[2] [3] [4] [0] [1]
[2]
[2] [4] [1] [3]
[3]
[3] [4] [0] [1] [2]
[3]
[3] [1] [4] [2]
[4]
[4] [0] [1] [2] [3]
[4]
[4] [3] [2] [1]
(b)
(a)
Abbildung 4.1: Gruppentafeln zu Z5
+
0 1 a b
·
0 1 a b
0
0 1 a b
0
0 0 0 0
1
1 0
b
a
1
0 1 a b
a
a b
0 1
a
0 a b
b
b a 1 0
b
0 b
(a)
1
1 a
(b)
Abbildung 4.2: Gruppentafeln zu einem Körper mit 4 Elementen
Bemerkung 4.5.1 Für beliebiges m ∈ N, m ≥ 2, ist (Zm , +, ·) ein Ring mit Einselement. Ist
p ∈ N eine Primzahl, so ist (Zm , +, ·) sogar ein Körper, ein endlicher, denn Zp hat ja (nur)
p Elemente. Damit kennen wir zu jeder Primzahl p einen Körper mit p Elementen. Wie sieht
es aber mit den Lücken m = 4, m = 6, m = 8, . . . aus? Es gibt das diese Frage abschließende
Resultat, dass es einen Körper mit m Elementen genau dann gibt, wenn m eine Primzahlpotenz
ist. In 4.2 findet man einen Körper mit 4 Elementen in abstrakter, d.h. nicht in einer schon
durch bekannte Objekte beschriebene Form.
Wo werden endliche Körper benötigt? Allgemein in der Diskreten Mathematik, der Mathematischen Informatik und speziell in der Verschlüsselung von Daten.
Hier ist noch ein wichtiges Resultat für das Rechnen in Kongruenzen, das man oft zur Vereinfachung von Argumentationen verwenden kann.
Satz 4.5.2 (Chinesischer Restsatz) Ist m = pk11 · · · · · pkr r die Primfaktorzerlegung von m,
so ist Zm isomorph zu Zpk1 × · · · × Zpkr r , d.h. es gibt eine bijektive Abbildung g : Zm −→
1
Zpk1 × · · · × Zpkr r , für die gilt:
1
g([u] + [v]) = g([u]) + g([v]) , g([u] · [v]) = g([u]) · g([v]) , u, v ∈ Z .
(4.6)
Dabei wird sowohl Addition als auch Multiplikation in Zpk1 ×· · ·×Zpkr r komponentenweise erklärt.
1
Beweis:
Offenbar haben Zm und Zpk1 × · · · × Zpkr r gleich viele Elemente. Also genügt es zeigen, dass g
1
injektiv ist. Dazu reicht nun zu zeigen, dass aus g([u]) = ([0], . . . , [0]) folgt: [u] = [0] .
Aus g([u]) = ([0], . . . , [0]) folgt pki i |u, i = 1, . . . , r . Dann folgt aber m = pk11 · · · pkr r |u . Also
[u] = [0] .
55
4.6
Zum Gruppenbegriff
Die Gruppenstruktur ist von überrragender Bedeutung. Ihre Nutzung hinterließ eine Erfolgsspur
in der Mathematik.3
Definition 4.6.1 Eine Menge G zusammen mit einer Verknüpfung • : G × G ∋ (a, b) 7−→
a • b ∈ G heißt eine Gruppe genau dann, wenn gilt:
a) Es gibt ein Element e ∈ G mit
a • e = e • a = a für alle a ∈ G .
b) Zu jedem a ∈ G gibt es ein Element ā ∈ G mit
c) Für alle a, b, c ∈ G gilt
a • ā = ā • a = e .
a • (b • c) = (a • b) • c .
Ist zusätzlich noch
d) Für alle a, b ∈ G gilt
a • b = b • a.
erfüllt, so heißt die Gruppe kommutativ.
Sei G eine Gruppe. Die Bedingung a) besagt, dass es ein bezüglich der Verknüpfung “•“
neutrales Element e in G gibt. Ist e′ ein weiteres neutrales Element in G, so lesen wir aus
e′ = e′ • e = e
– wir haben dabei a) zweimal verwendet – ab, dass das neutrale Element in einer Gruppe
eindeutig bestimmt ist.
Das in der Bedingung b) eingeführte Element ā heißt das zu a inverse Element. Es ist ebenfalls
eindeutig bestimmt, denn aus
a • ā = ā • a = e , a • ā′ = ā′ • a = e ,
folgt
ā′ = ā′ • e = ā′ • (a • ā) = (ā′ • a) • ā = e • ā = ā .
Die Bedingung c), die wir eben verwendet haben, nennt man das Assoziativgesetz. Es besagt,
dass Klammern bei der Reihenfolge der Verknüpfungen beliebig gesetzt werden dürfen und
deshalb, soweit sie nicht für die Lesbarkeit benötigt werden, weggelassen werden dürfen.
Wegen der Eindeutigkeit des inversen Elements (siehe oben) können wir nun ein inverses
Element in der Bezeichnung auszeichnen.
Bezeichnung: Wir schreiben für das inverse Element ā von a im abstrakten Rahmen meist a−1 ,
in speziellen Fällen weichen wir davon ab.
Wir führen nun eine Reihe von Beispielen an und zeigen damit, dass der Gruppenbegriff in der
Tat geeignet ist, viele Objekte unter einem gemeinsamen Gesichtspunkt zu betrachten. Dabei
schreiben wir dann Verknüpfung, Einselement, Inverses immer mit dem Symbol, das wir in der
speziellen Situation bereits kennen bzw. wie es dort Verwendung findet. Auf die Verifikation der
Eigenschaften verzichten wir, sie sit meist auch offensichtlich.
Beispiel 4.6.2 (G := Z, • := +) ist eine kommutative Gruppe mit neutralem Element 0 und
Inversem −z für z ∈ Z .
3
Von H. Poincaré ist die Aussage überliefert, Gruppen seien die ganze Mathematik“. Seit dem 17. Jahrhundert
”
ist der Gruppenbegriff implizit bei Mathematikern zu finden.
56
Wenn die Verknüpfung eine Addition ist wie etwa in Beispiel 4.6.2, nennt man das Inverse
eines Elements meist das Negative. Ist die Verknüpfung • in einer Gruppe einer Addition
verwandt“, so nennt man sie, wenn sie kommutativ ist, auch abelsch. 4
”
Beispiel 4.6.3 (G := Q, • := +) , (G := R, • := +) sind abelsche Gruppen. Das neutrale
Element ist jeweils 0, das Inverse (Negative) eines Elementes r ist −r.
In einer Gruppe (G, •) mit Einselement e können wir nun die Potenzschreibweise einführen:
a0 := e , ak+1 := ak • a , k ∈ N0 ; a−k := (a−1 )k , k ∈ N .
Lemma 4.6.4 Sei m ∈ N\{1} . Es gilt:
a) (Zm , ⊕) ist eine abelsche Gruppe.
b) (Z∗m , ⊙) ist eine abelsche Gruppe, wobei
Z∗m := {[x] ∈ Zm |∃[x′ ] ∈ Zm ([x] ⊙ [x′ ] = [1]}
die sogenannte Einheitengruppe ist.
c) Es ist Z∗m = Zm \{[0]} genau dann, wenn m eine Primzahl ist.
Beweis:
Nur noch b) ist zu beweisen. Doch dies sehr einfach nachzurechnen.
Gruppentafeln stellen eine vollständige Auflistung der Verknüpfungen der Gruppenelemente dar. Hat man eine endliche Gruppe (G, •), so tritt in jeder Spalte und jeder Zeile ihrer
Gruppentafel jedes Element der Gruppe genau einmal auf. Dies folgt aus der Bijektivität der
Abbildungen
g : G ∋ h 7−→ h • g ∈ G , g : G ∋ h 7−→ g • h ∈ G
für jedes g ∈ G . Die Verifikation dieser Tatsache sei dem Leser überlassen.
Definition 4.6.5 Seien (G, •), (G′ , •′ ) Gruppen und φ : G −→ G′ eine Abbildung. φ heißt
Isomorphismus und G isomorph G′ vermöge φ, wenn φ bijektiv ist und φ(g •h) = φ(g)•′ φ(h)
für alle g, h ∈ G gilt.
Die Klassifikation von Gruppen bedeutet dann, die Klassen von Gruppen zu bestimmen,
die sich höchstens um einen Isomorphismus unterscheiden. (Sind etwa G, G′ isomorph, so ist G
kommutativ genau dann, wenn G′ kommutativ ist.) speziell“, wie oben verwendet, erklärt sich
”
hiermit.
Alle einelementigen Gruppen sind isomorph. Eine Realisierung der einelementigen Gruppen
ist die Symmetriegruppe des Buchstabens F als Figur der Ebene.
Realisierungen der zweielementigen Gruppen sind:
• Die additive Gruppe Z2 .
4
• Die Symmetriegruppe des Buchstabens A als Figur der Ebene (Spiegelung an der y-Achse).
Der Begriff abelsch“ ist vom Namen des norwegischen Mathematikers N.H. Abel abgeleitet. Seine Ideen hierzu
”
sind eng mit denen des französischen Mathematikers E. Galois, dessen Theorie in der Algebra eine überragende
Rolle spielt, verwandt. Mit ihm teilt er auch das Schicksal, sehr jung zu sterben, Abel starb an Schwindsucht,
Galois in einem Duell.
57
c
•
e a b
c
e
e a b
c
e
e a b
c
b
e a b
e
e a b
a
a b
c
e
a
a e
c
a b
e
b
b
c
e a
b
b
c
e a
e a
c
c
e a b
c
c
b
a e
e a
e
e a
a
a e
b
(a)
e a b
•
•
a
•
b
(b)
(c) Zyklische Gruppe
(d) Kleinsche Vierergruppe
Abbildung 4.3: Gruppentafeln
• Die Symmetriegruppe des Buchstabens Z als Figur der Ebene (Drehung um den Ursprung
um 180◦ ).
Diese genannten zweielementigen Gruppen sind alle isomorph. Dies gilt aber allgemein, denn jede
zweielementige Gruppe {e, a} hat notwendigerweise eine Gruppentafel, wie sie in Abbildung 4.3
(a) zu sehen ist.
Die einzige Gruppentafel einer Gruppe {e, a, b}, also mit drei Elementen, hat das Aussehen,
wie sie in Abbildung 4.3 (b) aufgeführt ist. Also sind alle Gruppen mit drei Elementen isomorph.
Bei Gruppen mit den 4 Elementen e, a, b, c trifft dies
nicht zu. Es gibt zwei Typen von Gruppen, die nicht
isomorph sind. Der eine Typ wird repräsentiert durch
die zyklische Gruppe; hier ist b = a2 , c = a3 , e = a4 .
Der andere Typ wird repräsentiert durch die Kleinsche Vierergruppe; hier ist e2 = a2 = b2 = c2 = e .
In Abbildung 4.3 (c), (d) sind sie zu sehen. Die Nichtisomorphie folgt schon aus der Tatsache, daß die eine
Gruppe zyklisch, die andere es nicht ist. Eine Realisierung der zyklischen Gruppe ist (Z4 , +) . Eine Realisierung der Kleinschen Vierergruppe ist die Symmetriegruppe eines Rechtecks, das kein Quadrat ist:
Abbildung 4.4: Ornamente
e := id;
a := Spiegelung an der senkrechten Achse durch den Diagonalenschnittpunkt;
b := Spiegelung an der waagrechten Achse durch den Diagonalenschnittpunkt;
c := Drehung um 180o .
Es fällt auf, dass sich die Drehung c durch die Spiegelungen a, b ausdrücken lassen.
Beispiel 4.6.6 Ebene regelmäßige Ornamente (auch Parkettierungen der Ebene genannt) lassen
sich klassifizieren, je nachdem, welche Bewegungen (Drehungen, Spiegelungen, Translationen)
das jeweilige Ornament invariant lassen; siehe Abbildung 4.4. Die Symmetriegruppen, die dabei
auftreten, nennt man Alhambragruppen. Wenn man auf diese Weise einen Überblick über die
Reichhaltigkeit aller regelmäßigen Ornamente gewinnen will, so stellt sich heraus (V. Fedorov),
daß es genau siebzehn strukturell verschiedene Alhambragruppen gibt, und dass zu diesen siebzehn
Gruppen entsprechende Ornamente in der Alhambra zu finden sind.
Definition 4.6.7 Sei (G, •) eine Gruppe. Die Anzahl der Elemente von G heißt Ordnung von
G. Wir schreiben |G| für die Ordnung von G .
58
Wir verabreden, dass die Ordnung unendlich sei, falls G keine endliche Menge ist. Also |G| =
∞, falls #G = ∞ .
4.7
Pseudozufallszahlen
Um die umständliche Verwendung von Tabellen zu vermeiden, werden Folgen von Zufallszahlen
verwendet, die im Allgemeinen durch Iterationen hergestellt werden; wir sprechen von Pseudozufallszahlen. Darunter versteht man mathematisch wohldefinierte Zahlenfolgen, die als Folgen
von Zufallszahlen angesehen werden sollen. Diese Zufallszahlen haben den Vorteil, dass sie reproduzierbar sind, und haben den Nachteil, dass sie deterministischen Charakter besitzen. Alles,
was wir hier zur Sprechweise Zufallszahl“ sagen können, ist, dass jedenfalls kein Muster, keine
”
Struktur in der Folge erkennbar sein soll. Die Wahrscheinlichkeitstheorie und Statistik stellt
Hilfsmittel bereit, solche Folgen auf ihre Zufälligkeit zu testen.
Zunächst einige allgemeine Bemerkungen. Sei M eine endliche Menge. Pseudozufallszahlen,
deren Konstruktionsmethode wir hier besprechen wollen, ergeben sich als Iterierte einer Funktion
f : M −→ M
in folgender Weise:
xn+1 := f (xn ) , n ∈ N0 .
(4.7)
Der Startwert x0 heißt Samen der Pseudozufallsfolge (xn )n∈N die Folge selbst heißt auch Orbit
und die Funktion f heißt der Generator.
Die Folge ist durch die Wahl von f und x0 vollständig bestimmt; es handelt sich also um keine
echte Zufallsfolge. Durch geschickte Wahl von f – gewünscht wird eine gute Durchmischung von
M – kann man jedoch erreichen, dass sich die Folge für viele Anwendungen wie eine Zufallsfolge
verhält.
Da die Menge M endlich ist, können nicht alle Folgenglieder xn verschieden sein. Es gibt
also Indizes k, l mit xk = xl ; o. E. k > l . Seien k, l die ersten Indizes, für die dies eintritt.
Sei damit r := k − l . Da xk = xl gilt, folgt xn+r = xn für alle n ≥ l . Also wird der Orbit
(xn )n∈N periodisch mit Periode r ; wir haben einen Zyklus der Länge r . Verlangt man, dass
jedes Element der Menge M die Chance hat im Orbit aufzutauchen, muss der Zyklus ganz M
umfassen. Daraus folgt, dass die Abbildung f surjektiv sein muss. Da M endlich ist, hat f also
sogar bijektiv zu sein. Wir werden unten sehen, dass die Bijektivität keineswegs dafür schon
ausreicht, ein guter Generator zu sein.
Die Pseudozufallszahlengeneratoren, die wir hier besprechen wollen, sind ausschließlich affine
Generatoren; also
M := Zm ; f : Zm ∋ [x] 7−→ ([ax] + [b]) ∈ Zm ,
(4.8)
mit einem Modul m . Hier sind a.b ∈ Z .
Wir bezeichnen (4.8) auch als Kongruenz–Generator, denn Rechnen in Kongruenzen ist
nichts anderes als das Rechnen in Restklassen. Wir führen die zugehörige Schreibweise ein.
Mit u, v ∈ Z schreiben wir:
u=v
mod m : ⇐⇒ [u] = [v] ⇐⇒ m|(u − v) .
Damit lautet die Rechenvorschrift für den Kongruenz–Generator
M := {0, . . . , m − 1} ; f : M ∋ x 7−→ ax + b
59
mod m ∈ M .
(4.9)
Bemerkung 4.7.1 Durch die Generatoren in (4.8) werden Zufallszahlen in M := {0, 1, . . . , m−
1} erzeugt. Aus einer Zufallszahl y ∈ {0, . . . , m − 1} ergibt sich eine Zufallszahl z in [0, 1] ganz
y
einfach so: z := m .
Damit die Abbildung f aus (4.8) bijektiv wird, muss a ein invertierbares Element in Zm sein,
d.h. a muss zu m teilerfremd sein. Für die Klärung der Frage, unter welchen Bedingungen dieser
Typ von Generatoren einen Zyklus maximaler Länge erzeugt, schauen wir uns Beispiele an.
Beispiel 4.7.2 Betrachte die spezielle Wahl m = 10, a = b = 7 . Hier ist der erzeugte Zyklus
7, 6, 9, 0, 7, 6, 9, 0, . . .
ziemlich kurz, obwohl natürlich a = 7 ein invertierbares Element in Z10 ist.
Beispiel 4.7.3 Betrachte die spezielle Wahl m = 231 , a = 65539, b = 0 . Dies ist der Zufallsgenerator RANDU, wie er von IBM in den Computern in den 60er Jahren verwendet wurde.
Die maximal erreichbare Zykluslänge r ist hier nicht ganz maximal, aber mit r = 229 nahezu
maximal. Wir kommen später auf die Güte dieses Generators noch zu sprechen.
Hier ist das Hauptergebnis über affine Kongruenzgeneratoren.
Satz 4.7.4 Mit m, a, b ∈ Z, m ≥ 2 betrachte die Abbildung
f : {0, . . . , m − 1} ∋ x 7−→ ax + b
mod m ∈ {0, . . . , m − 1} .
(4.10)
Für beliebiges x0 ∈ {0, . . . , m − 1} sei die Folge (xn )n∈N definiert durch
xn+1 := f (xn ) , n ∈ N 0 .
Genau dann ist diese Folge periodisch mit der maximalen Periodenlänge m, wenn folgende Bedingungen erfüllt sind:
a) p|(a − 1) für alle Primteiler p von m ;
b) 4|(a − 1) falls 4|m ;
c) b und m sind teilerfremd.
Beweis:
Ohne Beweis; siehe [1].
Satz 4.7.4 nennt uns die Bedingungen für einen affinen Kongruenz–Generator, damit er der
Minimalforderung, einen Zyklus maximaler Länge zu erzeugen, genügt. Jedoch garantieren diese
Bedingungen noch lange keinen guten Zufallsgenerator, wie nachfolgendes Beispiel zeigt.
Beispiel 4.7.5 Betrachte für einen beliebigen Modul m den Generator f (x) := x + 1 mod m .
Kein Zweifel, die Zykluslänge ist maximal, nämlich m, aber die erzeugte Folge 0, 1, 2, . . . , m −
1, 0, 1 . . . kann sicherlich nicht den Anspruch einer Zufallsfolge erheben.
In der Praxis wird häufig ein Modul der Form m = 2k verwendet (und dazu in der Regel der
√
√
Multiplikator a im Bereich m < a < m − m). In diesem Fall bedeuten die Bedingungen des
Satzes 4.7.4 einfach
a = 1 mod 4 und b ungerade .
(4.11)
Im Beispiel 4.7.3 sind diese Bedingungen offenbar verletzt (a = 216 + 3 und b = 0) und Konsequenz ist ein verkürzter maximaler Zyklus.
60
Beispiel 4.7.6 In der Programmiersprache C++ gibt es einen Generator namens drand48:
Modul = 248 , a = 25214903917 , b = 11 .
Die Zykluslänge ist maximal, da die Bedingungen (4.11) erfült sind.
Beispiel 4.7.7 Von D. Knuth wurde der Generator
Modul = 216 , a = 137 , b = 187
vorgeschlagen. Die Zykluslänge ist maximal, da die Bedingungen (4.11) erfüllt sind.
Beispiel 4.7.8 Ein weiterer Generator:
Modul = 216 , a = 193 , b = 73 .
Die Zykluslänge ist maximal, da die Bedingungen (4.11) erfüllt sind.
Wie soll man nun gute und weniger gute Generatoren auseinanderhalten? Es liegt nahe, Paare,
Trippel,. . . von Zufallszahlen zu betrachten und deren geometrische Verteilung zu untersuchen.
Wir skalieren“ dazu die Zufallszahlen mit Modul m gemäß
”
X i :=
xi
∈ [0, 1] , i ∈ N0 .
m
Vergleichen wir die geometrische Verteilung der Paare (X i+1 , X i ) in [0, 1]×[0, 1] für die Generatoren aus Beispiel 4.7.7 und Beispiel 4.7.8. Man kann Geraden entdecken, worauf alle Zufallszahlen
liegen, 21 im ersten Fall, 8 im zweiten Fall; die Streifen dazwischen sind frei von den erzeugten
Zufallspaaren. Der maximale Abstand von solchen Streifen ist bei beiden Generatoren dement1
bei Beispiel 4.7.7, √132 bei Beispiel 4.7.8. Dies bedeutet,
sprechend ziemlich verschieden: √274
dass der Generator 4.7.7 größeres Vertrauen genießen sollte.
Betrachtet man für den Generator 4.7.3 Tripel (X i+2 , X i+1 , X i ) in [0, 1] × [0, 1] × [0, 1], so stellt
1
haben.
man fest, dass diese Tripel auf genau 15 Ebenen liegen, die jeweils einen Abstand √118
Neben der mangelnden Maximalität der Zykluslänge ein weiterer Nachteil dieses Generators.
4.8
Übungen
1.)
Bestimme ganze Zahlen x, y, z mit 252x + 420y + 315z = 42 .
2.)
Betrachte die Zahlen
H := {3j + 1|j ∈ N} .
Bestimme in dieser Menge nichtzerlegbare Elemente. Bestimme in dieser Menge eine Art
Primfaktorzerlegung von 100. Ist diese eindeutig bestimmt?
3.)
Was lässt sich über die Güte eines affinen Zufallsgenerators mit m = 231 , a = 75 , b = 0
sagen?
4.)
Seien x, y ∈ Z . Zeige: x mod y = x − y⌊ xy ⌋ .
5.)
Betrachte die Fibonacci-Zahlen (fn )n∈N , die induktiv so definiert sind:
f1 := 1, f2 := 1, fn+1 := fn + fn−1 , n ∈ N, n ≥ 2 .
(a)
Zeige: fm |fmk , k ∈ N, für alle m ∈ N (durch vollständige Induktion).
61
(b) Folgere aus (a): m|n =⇒ fm |fn .
Betrachte die Fibonacci-Zahlen (fn )n∈N , die induktiv so definiert sind:
f1 := 1, f2 := 1, fn+1 := fn + fn−1 , n ∈ N, n ≥ 2 .
(a)
Zeige für n ≥ 2 : Ist d ein Teiler von fn+1 und fn so ist d ein Teiler von fn−1 .
(b) Folgere mit (a): ggT(fn+1 , fn ) = 1 für jedes n ∈ N .
6.)
Seien x, y ∈ Z\{0}, d := ggT(x, y), und seien u0 , v0 ∈ Z mit u0 x + v0 y = d .
Zeige: Ist (u, v) ∈ Z × Z und gilt ux + vy = d , dann gibt es w ∈ Z mit
u = u0 + wy/d , v = v0 − wx/d .
62
Kapitel 5
(Diskreter) Zufall
Stochastik beschäftigt sich mit der mathematischen Beschreibung und Analyse zufälliger Vorgänge. Den Sammelbegriff Stochastik hat Platon verwendet, um damit die Fähigkeit des geschickten
Vermutens zu beschreiben. Vermutungen“ beziehen sich auf versteckte Gesetzmäßigkeiten in
”
Beobachtungen. Davon ist Stochastik als Sammelbegriff für Wahrscheinlichkeitstheorie und (mathematische) Statistik übernommen. In diesem einführenden Kapitel über den Zufall stellen
wir elementare Fragestellungen vor und erläutern sie an Hand von interessanten Problemstellungen. Im Blickpunkt stehen die Begriffe (Laplace-)Wahrscheinlichkeit, Zufallsbäume, bedingte
Wahrscheinlichkeiten.
5.1
Laplace–Häufigkeiten
Wie reden wir über den Zufall? Wir wollen uns nicht lange dabei aufhalten. Mögliche Defini”
tionsschnipsel“:
Zufall ist das Eintreten unvorhergesehener und unbeabsichtigter Ereignisse.
Das, wobei unsere Rechnungen versagen, nennen wir Zufall (Albert Einstein).
Jemandem fällt etwas (unverdientermaßen) zu.
Die Spannung bei der Verwendung des Zufalls resultiert wesentlich aus der naturwissenschaftlichen Sicht vom Eintreten von Ereignissen: das Kausalitätsprinzip lässt Nicht–Determiniertes“
”
nicht zu. Ein Ausweg ist, dass wir unterstellen, die Umstände (Anfangsbedingungen) des Greifens von naturwissenschaftlichen Gesetzen nicht vollständig kennen zu können.
Beispiele für das Wirken von Zufall“:
”
• Ergebnis beim Münzwurf
• Eintreten von Augenzahlen beim Würfeln
• Radioaktiver Zerfall
• Gesund trifft auf krank in der U-Bahn
• Männlicher oder weiblicher Nachwuchs
Nun gehen wir daran, das Nichtwissenkönnen des Ausgangs eines Zufallsexperiments zu quantifizieren: Jedem Ereignis soll eine Zahl aus [0, 1] zugeordnet werden, die uns gestattet, die Unsicherheit über den Ausgang anzugeben: 1 sollte für Sicherheit, 0 für vollständige Unsicherheit
stehen. Wir tun dies nun in einer einfachen Situation, nämlich in einer Situation, in der alle Elementarereignisse, was die Unsicherheit über ihr Eintreten betrifft, gleichberechtigt sind.
Dazu führen wir die Begriffe Laplace–Experiment und Laplace–Wahrscheinlichkeit ein.
63
Der Begriff der Laplace–Wahrscheinlichkeit hat den Vorteil, dass ihm die Vorstellung eines konstruktiven Vorgehens zugrunde liegt, nämlich die Vorstellung von der rein zufälligen Wahl“. Wir
”
stellen uns hierunter vor, dass es gelingt, aus einer endlichen Menge von möglichen Elementarereignissen ein Element so auszuwählen, dass jedes Element diesselbe Chance hat, ausgewählt
zu werden. Einen Mechanismus, der eine solche Zufallswahl bewerkstelligt, nennen wir einen
Laplace–Mechanismus. Ein beliebtes Bild von einem Laplace–Mechanismus ist das Urnenmodell (ein Gefäß, in dem Gegenstände versteckt“ werden, die man dann herausholen kann)
”
eine weitere Vorstellung von einem Laplace–Mechanismus ist der Würfelwurf.
Definition 5.1.1 Sei Ω eine endliche Menge. Für jede Teilmenge A von Ω ist die Laplace–
Wahrscheinlichkeit definiert durch
P (A) :=
#A
.
#Ω
Man nennt P (A) die Wahrscheinlichkeit, dass ein (rein zufällig ausgewähltes) Element ω ∈ Ω
in A liegt. Die Abbildung
P : P OT (Ω) ∋ A 7−→ P (A) ∈ R
heißt (auch) Laplace–Wahrscheinlichkeit.
Das Tripel (Ω, P OT (Ω), P ) nennen wir (in Anlehnung an den allgemeinen Fall in der Wahrscheinlichkeitstheorie) einen (Laplace-)Wahrscheinlichkeitsraum.
Bemerkung 5.1.2 Die Konzepte einer Wahrscheinlichkeitstheorie mit einem unendlichen Ereignisraum Ω wurden abschließend ausformuliert von Kolmogorov1 . Sie passen zu unserem Herangehen für einen endlichen Ereignisraum. Im folgenden lassen wir das Vorwort Laplace“ meist
”
weg.
Die Wahrscheinlichkeitstheorie für unendliche Ereignisräume ist ein ganzes Stück schwieriger.2 Ein prominentes Beispiel für die Wahrscheinlichkeitstheorie unendlicher Ereignisräume ist
die Modellierung von Finanzinstrumenten, basierenden auf dem Aktienkurs.
In unserer Bezeichnung eines Wahrscheinlichkeitsraumes durch (Ω, P OT (Ω), P ) ist nicht einzusehen, warum wir P OT (Ω) mitaufgeschrieben haben. Dies geschieht, um anzudeuten, dass
im Fall eines unendlichen Ereignisraumes im Allgemeinen eine ausgezeichnete Teilmenge (σAlgebra) von P OT (Ω) einzutragen ist.
Es ist nun offensichtlich, dass bei der Berechnung von Laplace–Wahrscheinlichkeiten das
Einmaleins der Kombinatorik“ äußerst hilfreich ist; siehe Abschnitt 5.5.
”
Beispiel 5.1.3 Den Münzwurf (mit einer fairen Münze) betrachten wir als Laplace–Mechanismus.
Hier ist
1
Ω = {K, Z} ; P ({K}) = P ({Z}) = .
2
Beim Würfelexperiment (mit einem fairen Würfel), betrachtet als Laplace–Mechanismus, haben
wir
1
Ω = {1, . . . , 6} ; P ({i}) = , 1 ≤ i ≤ 6.
6
1
A.N. Kolmogorov, 1903-1987
Man macht sich dies etwa klar an der Frage, wie man die zufällige Situation beim Dartspiel handhaben soll.
Es kommt hier die geometrische Anschauung von Wahrscheinlichkeit ins Spiel, nämlich das Verhältnis der Fläche
von Ringsektoren zur Fläche der Dartsscheibe. Mit der Einteilung von Sektoren ist man der Unendlichkeit von
möglichen unterschiedlichen Treffpunkten aus dem Weg gegangen.
2
64
Für das zusammengesetzte“ Ereignis A := {1, 2, 3} errechnen wir P (A) = 21 .
”
Beim Würfeln mit zwei (fairen) Würfeln, betrachtet als Laplace–Experiment, haben wir:
Ω = {(i, j) ∈ N × N|1 ≤ i, j ≤ 6} ; P ((i, j)) =
1
, 1 ≤ i, j ≤ 6 .
36
Daraus errechnet sich:
P (A) =
P (A) =
6
1
=
für A := {(i, j) ∈ Ω|i + j ≥ 10},
36
6
5
15
=
für A := {(i, j) ∈ Ω|i > j}.
36
12
Für das zusammengesetzte Ereignis
A := {(i, j) ∈ N × N|i = 1 oder (i ≥ 4 und j = 1) oder (i ≥ 4 und j ≥ 4)}
ist die Laplace–Wahrscheinlichkeit schon etwas mühsam auszurechnen. Sie ist
13
36 .
Bemerkung 5.1.4 Beachte, dass ein Laplace–Experiment ein Modell für eine konkrete reale
Situation ist. Unsere Definition der Laplace–Wahrscheinlichkeit ist innerhalb dieses Modells
gegeben und nicht für die reale Situation. Der Übergang von der Wirklichkeit zum Modell ist in
den hier exemplarisch betrachteten Fällen meist naheliegend, in allgemeineren Situationen ( Wie
”
wahrscheinlich ist ein Supergau in einem russischen Kernkraftwerk“/ Wie wahrscheinlich ist es,
”
dass auf einem Stern der Milchstraße Leben existiert“) ist dieser sicher sehr viel schwieriger zu
vollziehen.
In der Bemerkung 5.1.4 haben wir den Begriff Modell erwähnt. Nehmen wir hier die Gelegenheit wahr, den Begriff schon mal zu beleuchten.
. . . Deshalb vertrete ich die Auffassung, die man als schlicht oder naiv bezeichnet hat, dass
eine physikalische Theorie nur ein mathematisches Modell ist, mit dessen Hilfe wir die Ergebnisse unserer Beobachtungen beschreiben. Eine Theorie ist eine gute Theorie, wenn sie
ein elegantes Modell ist, wenn sie eine umfassende Klasse von Beobachtungen beschreibt und
wenn sie die Ergebnisse weiterer Beobachtungen vorhersagt. Darüber hinaus hat es keinen
Sinn zu fragen, ob sie mit der Wirklichkeit übereinstimmt, weil wir nicht wissen, welche
Wirklichkeit gemeint ist.
. . . Es hat keinen Zweck, sich auf die Wirklichkeit zu berufen, weil wir kein modellunabhängiges Konzept der Wirklichkeit besitzen.3
Legen wir uns nun einige einfache Aussagen zurecht.
Folgerung 5.1.5 Sei Ω eine endliche Menge. Wir haben zur Laplace–Wahrscheinlichkeit
P : P OT (Ω) ∋ A 7−→
#A
∈R
#Ω
die folgenden Aussagen:
(a) P (A) ∈ [0, 1] ∩ Q für alle A ⊂ Ω.
(b) P ({x}) = 1 für alle x ∈ Ω.
#Ω
(c) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) für alle A, B ∈ P OT (Ω).
3
Aus: St. W. Hawkin, Einsteins Traum, Rowohlt, 1993
65
(d) P (Ω\A) = 1 − P (A) für alle A ⊂ Ω.
(e) P (∅) = 0.
Beweis:
(a) und (b) sind trivial. Die Aussage (c) ist einfach einzusehen. Damit sind nun auch (d) und
(e) klar.
In einer Urne liegen drei schwarze Kugeln und eine weiße Kugel. Auf gut Glück werden
zwei Kugeln der Urne entnommen. Welche Wahrscheinlichkeit ist größer, zwei schwarze Kugeln
oder eine weiße und eine schwarze Kugel herauszunehmen? Man ist auf Grund der Tatsache,
dass dreimal soviele schwarze wie weiße Kugeln in der Urne liegen zu vermuten, dass die erste
Möglichkeit wahrscheinlicher ist. Dem ist aber nicht so, denn es gibt drei Möglichkeiten, zwei
schwarze Kugeln herauszunehmen und drei Möglichkeiten eine schwarze und eine weiße Kugel
herauszunehmen. Es lässt sich das auch rechnerisch begründen:
Wahrscheinlichkeit für das Ziehen zweier schwarzer Kugeln
Wahrscheinlichkeit für das Ziehen einer weißen und einer schwarzer Kugel
3
4
1
4
2
1
=
3
2
3 1
1
·1+ · = .
4 3
2
·
Betrachten wir ein Würfelexperiment und nennen wir es das Augensummenparadoxon.
G.W. Leibniz soll sich bei der Analyse dieses Experimentes einen kleinen Schnitzer erlaubt
haben:
Es sei ihm unbegreiflich, wie ihm erfahrene Würfelspieler versicherten, warum bei zwei
”
Würfeln die Augensumme 9 wahrscheinlicher sei als die Augensumme 10, aber bei drei
Würfeln die Augensumme 10 wahrscheinlicher als die Augensumme 9. Denn schließlich könne
die Summe 9 wie die Summe 10 in beiden Fällen auf gleich viele Arten anfallen, also müßten
die Augensummen in beiden Fällen gleich wahrscheinlich sein.“.
Wir betrachten dieses Würfeln mit zwei Würfeln als Laplace–Experiment. Wir unterstellen damit, dass die Würfel unterscheidbar sind und es einen ersten und einen zweiten Würfel gibt. Wir
haben
Ω = {(i, j) ∈ N × N|1 ≤ i, j ≤ 6},
und interessieren uns also für die Laplace–Wahrscheinlichkeiten der Ereignisse
A9 := {(i, j) ∈ Ω|i + j = 9} , A10 := {(i, j) ∈ Ω|i + j = 10} .
Wir haben dazu A9 , A10 abzuzählen. Es gilt
A9 = {(3, 6), (6, 3), (4, 5), (5, 4)} , A10 = {(4, 6), (6, 4), (5, 5)} .
und daher
1
3
1
4
= , P (A10 ) =
=
36
9
36
12
Bei drei Würfeln zeigt eine einfache Aufzählung (bei entsprechender Bezeichnung)
P (A9 ) =
24
19
, P (A10 ) =
.
216
216
Leibniz hat übersehen, dass die Reihenfolge der Summanden hier wichtig ist. Modelliert man
das Experiment mit zwei ununterscheidbaren Würfeln, dann hat man statt 36 Möglichkeiten
nur noch 21 mögliche Ausgänge, aber kein Laplace–Experiment mehr, da etwa die Ausgänge
1–1 und 1–2 verschiedene Wahrscheinlichkeiten haben.
P (A9 ) =
Der Fehler, der hier Leibniz unterlaufen ist, ist Basis für einen Jahrmarkttrick, der nach J.
Bertrand Bertrandsches Schachtelparadoxon genannt wird:
66
Drei nicht unterscheidbare Schachteln enthalten zwei Goldmünzen (1. Schachtel),
zwei Silbermünzen (2. Schachtel) und eine je eine Gold- und eine Silbermünze (3.
Schachtel). Jetzt entnimmt man einer Schachtel eine Münze. Der Veranstalter des
Spiels bietet nun eine Wette an: Die zweite Münze in der Schachtel ist aus demselben
Metall!
Man ist versucht, zu vermuten, dass die Wette fair ist, da man geneigt ist, zu vermuten, dass die
Beschaffenheit der zweiten Münze gleichwahrscheinlich ist. Dies ist nicht der Fall. Analysieren wir
die Situation, dass G(old) gezogen wurde. Wir vermuten richtig, dass nicht aus der Schachtel mit
den zwei Silbermünzen gezogen wurde und schließen daraus irrig, dass mit Wahrscheinlichkeit
1
2 beide Münzen in der Schachtel, aus der gezogen wurde, aus Gold sind. In Wahrheit sind mit
einer Wahrscheinlichkeit von 32 beide Münzen aus Gold, weil in zwei von 3 Fällen die beiden
Münzen in der Schachtel aus Gold sind.
Betrachten wir nun das Geburtstags–Pardoxon. Für eine Gruppe von n Personen ist die
Wahrscheinlichkeit“ zu ermitteln, dass mindestens ein Paar unter diesen Personen existiert, das
”
am gleichen Jahrestag Geburtstag hat. Wir nehmen an:
• Das Jahr wird mit 365 Tagen angesetzt, wir sehen also vom Auftreten von Schaltjahren ab.
• Geburtstage sind über die Jahrestage gleichverteilt.
Damit liegt ein Laplace–Experiment vor und jede Person hat mit
einem bestimmten Jahrestag Geburtstag. Wir setzen
1
365
Wahrscheinlichkeit an
Ω := {(ω1 , . . . , ωn ) ∈ Nn |1 ≤ ωi ≤ 365, 1 ≤ i ≤ n}.
Das zu betrachtende Ereignis ist
A := {(ω1 , . . . , ωn ) ∈ Ω|ωi = ωj für mindestens ein Paar (i, j), i 6= j}
und die gesuchte Wahrscheinlichkeit ist
Pn∗ :=
#A
365n
Betrachten wir zunächst einige Spezialfälle.
n ≥ 365
n=2
Pn∗ = 1 .
Die erste Person hat freie Auswahl, für die zweite Person ist die Wahrscheinlichkeit, am gleichen Tag wie die erste Person Geburtstag zu ha1
. Also
ben, 365
1
Pn∗ =
365
n=3
Die erste Person hat freie Auswahl, die zweite Person hat einen ver364
, die dritte Person
schiedenen Geburtstag mit Wahrscheinlichkeit 365
wiederum einen von den beiden Tagen verschiedenen Geburtstag mit
Wahrscheinlichkeit 363
365 . Also gilt
Pn∗ = 1 −
365 364 363
·
·
≈ 0, 009
365 365 365
Am Beispiel n = 3 sehen wir zweierlei. Erstens wird das günstige Vorgehen deutlich: Statt
Pn∗ haben wir zunächst die Wahrscheinlichkeit ausgerechnet, dass das Ereignis nicht eintritt.
67
Zweitens sehen wir einen multiplikativen Ansatz für zusammengesetzte Ereignisse. Wir kommen
darauf zurück.
Für den allgemeinen Fall erhalten wir
Pn∗ = 1 −
365!
(365 − n)!365n
und damit die Ergebnisse aus Tabelle 5.1. Wir sehen also, dass bei einer Gruppengrößen von
23 Personen die Wahrscheinlichkeit, dass darunter ein Paar mit gleichem Geburtstag ist, bereits
größer als 12 ist.
Die Annahme über das Schaltjahr beeinflußt die obigen Ergebnisse nur unwesentlich, etwa
bleibt es bei der Aussage bezüglich der Gruppengröße n = 23. Die Annahme über die Gleichverteilung der Geburtstage ist auch kein Einwand zur Qualität der obigen Ergebnisse, denn
die Wahrscheinlichkeiten werden eher größer; man mache sich dies etwa daran klar, dass alle
Personen an einem bestimmten Tag Geburtstag haben.
Die Überraschung ist: ein Ereignis, dessen Eintreten für uns als Individuum
höchst unwahrscheinlich ist, ist für ein
20
22
23
30
40
50
ne Gruppe bei weitem nicht mehr un∗
Pn 0,411 0,476 0,507 0,706 0,891 0,970
wahrscheinlich. Der Grund ist der, dass
wir nicht auf einen bestimmten Ge”
Abbildung 5.1: Zum Geburtstagsproblem
burtstagszwilling“ warten, sondern auf
irgendeinen.
Nun wollen wir uns von der Einschränkung lösen, dass jedes Elementarereignis die gleiche
Wahrscheinlichkeit für sein Eintreten besitzt.
Definition 5.1.6 Sei Ω eine endliche Menge. Eine Abbildung
P : POT(Ω) ∋ A 7−→ P (A) ∈ [0, 1]
heißt Wahrscheinlichkeitsmaß auf Ω, falls gilt:
(a) P (Ω) = 1 , P (∅) = 0
(b)
P (A ∪ B) = P (A) + P (B) falls A ∩ B = ∅ .
Ist P ein Wahrscheinlichkeitsmaß auf Ω, dann heißt (Ω, POT(Ω), P ) ein Wahrscheinlichkeitsraum.
Es ist offensichtlich, dass Laplace-Wahrscheinlichkeiten einen Wahrscheinlichkeitsraum implizieren.
5.2
Zufallsbäume
Häufig ist es zweckmäßig, mehrere Zufallsversuche zu einem einzigen, einem mehrstufigen
Zufallsversuch, zusammenzufassen Als Ausgang eines Experiments betrachtet man bei einem
n-stufigen Zufallsversuch dann das n-Tupel (x1 , . . . , xn ), wobei xi der Ausgang des i-ten Versuchs
ist. Veranschaulichen kann man sich einen solchen Zufallsversuch durch einen Wurzelbaum. Wurzelbäume – und damit auch Zufallsbäume – sind Spezialfälle von Graphen, nämlich solchen, die
in den Verzweigungen einem realen Baum ähneln: ein realer Baum hat eine Wurzel, er verzweigt
von unten nach oben in Äste und Zweige, endet in Blättern, Äste und Zweige verwachsen aber
nicht miteinander. Man sagt, auf Graphen übertragen, es entsteht kein Kreis, wie dies etwa beim
68
Haus vom Nikolaus zutrifft, das 5 Ecken (◦) und 8 Kanten (—) besitzt;4 siehe Abbildung 5.2.
Damit sind schon die Grundbausteine der Graphentheorie angesprochen, die wir nun skizzieren
wollen.5
Definition 5.2.1 Ein Graph G = G(E, K) besteht aus einem Paar (E, K), wobei E eine
endliche, nichtleere Menge von Ecken und K eine endliche Menge von Kanten ist, und einer Vorschrift, die jeder Kante k ∈ K genau zwei (verschiedene oder gleiche) Ecken a, b ∈ E
zuordnet, die wir Endecken von k nennen; ist a = b, so nennen wir k eine Schlinge bei a. Im englischen Sprachgebrauch spricht man bei Kanten von vertices oder nodes und bei Kanten
von edges. Daher ist in der Literatur auch G = G(V, E) zu finden.
Ist G = G(E, K) ein Graph, so sagen wir, dass
k ∈ K die Ecken a und b verbindet, wenn a, b Endecken von k sind; oft schreiben wir dafür k = {a, b}
oder kurz k = ab . Ecken, die durch eine Kante verbunden sind, nennen wir benachbart. Eine Ecke, die zu
keiner Kante Endecke ist, nennen wir isoliert. Sind
zwei Ecken durch Kanten k1 , k2 , . . . , kn , n ≥ 2, verbunden, so heißen die Kanten k1 , . . . , kn Mehrfachkanten. Im Allgemeinen werden nur einfache Graphen betrachtet, also solche, die weder Schlingen, also
Kanten , die eine Ecke mit sich selbst verbinden, noch
Mehrfachkanten besitzten.
Einen Graph veranschaulicht man sich am besten Abbildung 5.2: Das Haus vom Nikolaus
durch ein Diagramm, indem man die Ecken als Punkte
der (Zeichen–)Ebene und die Kanten als Kurven zwischen den Endpunkten zeichnet; hier wird die zweistellige Relation, die abstraktes Kernstück
eines Graphen ist, deutlich. Dadurch ist auch die Bezeichnung Graph“ erklärt: das Ecken–
”
Kanten–System erinnert an graphische Darstellungen
Definition 5.2.2 Sei G(E, K) ein Graph. Eine Ecke e hat Grad d = d(e), wenn die Anzahl der
Kanten, die e als Endecke haben, d ist. Eine Ecke e mit d(e) = 1 heißt Blatt.
Lemma 5.2.3 (Handschlaglemma) Sei G = G(E, K) ein Graph. Dann gilt:
X
2 #K =
d(v) .
v∈E
Beweis:
Wir zählen die Paare (v, k), v ∈ E, k ∈ K, ab, für die v Endecke von k ist. Da jede Kante genau
2 Endecken hat, ist die Anzahl einerseits 2k, andererseits trägt jede Ecke v ∈ E mit d(v) zu
dieser Anzahl bei.
In einem Graphen kann man Wege entlang von Kanten, ausgehend von einer Anfangsecke zu
einer Endecke betrachten.
Definition 5.2.4 Sei G(E, K) ein Graph.
4
Es kann im Rythmus von Dies ist das Haus vom Ni–ko–laus in einem Zug auf das Papier gezaubert werden,
ohne zweimal eine Kante nachziehen zu müssen.
5
Als Geburtsstunde der Graphentheorie kann die Lösung des Königsberger Brückenproblems durch L. Euler
angesehen werden.
69
(a) Sind v0 , v1 , . . . , vl ∈ E, so dass vi mit vi+1 für jedes i = 0, . . . , l − 1 verbunden ist, so
nennen wir W := [v0 , . . . , vl ] einen Kantenzug von v0 nach vl .
(b) Ein Kantenzug W = [v0 , . . . , vl ] heißt Weg der Länge l, falls alle zugehörigen Kanten
vi vi+1 paarweise verschieden sind.
(c) Ein Weg W = [v0 , . . . , vl ] heißt Kreis, falls v0 = vl gilt.
Definition 5.2.5 Ein Graph G(E, K) heißt zusammenhängend, wenn je zwei Ecken durch
einen Kantenzug verbindbar sind.
Definition 5.2.6 Ein Graph heißt Baum, wenn er zusammenhängend ist und keine Kreise
enthält.
In der Informatik werden Bäume häufig als Datenstruktur eingesetzt, in der Modellierung
von Alltagsproblemen findet man sie als Entscheidungshilfen. Bäume lassen sich ziemlich einfach
charakterisieren.
Satz 5.2.7 Sei G ein Graph mit n Ecken. Es sind äquivalent:
(a) G ist ein Baum.
(b)
Je zwei Ecken des Graphen sind durch genau einen Weg verbunden.
(c)
G ist zusammenhängend, aber für jede Kante k von G ist der Graph G′ := G(E, K\{k})
nicht zusammenhängend.
(d) G ist zusammenhängend und besitzt genau n − 1 Kanten.
(e)
G besitzt keinen Kreis und besitzt genau n − 1 Kanten.
Beweis:
Wir beweisen nicht alle Implikationen.
a) =⇒ b).
Da ein Baum zusammenhängend ist, gibt es stets einen Weg, der zwei beliebige Ecken verbindet. Annahme, es gibt mindestens zwei Wege, die ein gegebenes Paar e, e′ von Ecken verbindet.
Wenn beide Wege keine Kante gemeinsam haben, bilden sie einen Kreis: wir laufen den einen
Weg von e nach e′ und laufen nun den zweiten Weg von e′ nach e . Enthalten die beiden Wege
eine gemeinsame Kante, dann finden wir wieder einen Kreis, denn die beiden Wege treffen sich
nun in einer Ecke e′′ , die beide Wege gemeinsam haben. In jedem Falle haben wir, dass der
Graph einen Kreis enthält. Widerspruch!
b) =⇒ c).
Es ist klar, dass G zusammenhängend ist. Sei k = uv eine Kante mit Endecken u, v . Dann ist
[u, v] der einzige Weg, der u, v verbindet; in G′ := G(E, K\{k}) können also u, v nicht durch
einen Weg verbunden sein. Also kann G′ nicht zusammenhängend sein.
c) =⇒ d).
Auf Graphen kennen wir die Äquivalenzklassen der Zusammenhangskomponenten; siehe oben.
Der zusammenhängende Graph G hat eine Zusammenhangskomponente. Nimmt man eine Kante {k} weg, entsteht ein Graph G′ := G(E, K\{k}), der zwei Zusammenhangskomponenten hat.
Nach Wegnahme aller Kanten hat der entstandene Graph keine Kante mehr und daher n Zusammenhangskomponenten. Also muss es n − 1 Kanten im Graphen geben.
70
Ein Wurzelbaum B = B(E, K, w) ist ein Baum
im üblichen Sinn zusammen mit einer ausgezeichneten
Ecke w ∈ E , der Wurzel von B . Da wir wissen, dass
I
in einem Baum genau ein Weg W = W (u, v) von einer Ecke u ∈ E nach v ∈ E existiert, können wir die
II
folgende Sprechweise einführen: x ∈ E ist Vorgänger
von v ∈ E bzw. Nachfolger von u ∈ E, falls x Ecke
III
im Weg W (u, v) ist. Die Ecken ohne Nachfolger, also
die Ecken vom Grad 1, heißen Endecken des Baumes oder Blätter, die übrigen Ecken innere Ecken.
Abbildung 5.3: Würfelexperiment
x ∈ E ist unmittelbarer Vorgänger von v ∈ E, falls
x Vorgänger von v und Nachbarecke von v ist; analog ist unmittelbarer Nachfolger von u ∈ E
erklärt. Die Länge l(y) einer Ecke y im Wurzelbaum B ist die Länge des (eindeutig bestimmten)
Weges W (w, y) von der Wurzel w zu y . Damit ist auch die Länge L = L(B) eines Wurzelbaums
B erklärt:
L(B) := max l(y) .
y∈E
Die Wurzel ist also die einzige Ecke, die keinen Vorgänger hat und die die Länge Null hat.
Binäre Bäume sind Wurzelbäume, in denen jede Ecke höchstens zwei unmittelbare Nachfolger
hat; man kann dann von linken und rechten Nachbarn sprechen.
Kehren wir zur Modellierung“ von Zufallssi1. Zug Ereignis Wahrscheinlichkeit
”
tuationen mittels Wurzelbäumen zurück.
1
rot
4
Jeder Versuch wird mit einer Ecke gleichge2. Zug Ereignis Wahrscheinlichkeit
setzt und so aufgezeichnet. Eine Kante von ei2
ner Ecke zu einer anderen wird als Fortschreirot
5
3
ten von einem Versuch zum nächsten notiert.
schwarz
5
Jedem Ausgang (x1 , . . . , xn ) eines mehrstufigen
1. Zug Ereignis Wahrscheinlichkeit
Versuchs entspricht dann ein Weg der Länge n
3
in einem zugehörigen Baum – wir sprechen von
schwarz
4
einem Zufallsbaum – ausgehend von einer Wur2. Zug Ereignis Wahrscheinlichkeit
zel, an der die Wege angehängt“ sind; Jede Kan1
”
rot
te trägt dann auch noch ein Kantengewicht“,
5
4
”
schwarz
nämlich die Wahrscheinlichkeit, mit der von ei5
ner Stufe zur nächsten entlang dieser Kante fortgeschritten wird. Im Beispiel 5.3 sollten wir jeAbbildung 5.4: Urnenexperiment
de Kante mit der Wahrscheinlichkeit 12 versehen,
wenn die Münze als fair angesehen werden soll,
jeder Ausgang des Experiments hat also die Wahrscheinlichkeit 18 und da wir 8 Blätter haben,
summieren sie sich zu 1 auf. Die nebenstehende Abbildung 5.3 beschreibt das dreimalige Werfen
einer Münze. .
Machen wir ein nicht auf Anhieb zu durchschauendes Urnenexperiment.
Eine Urne enthalte eine rote und drei schwarze Kugeln. Es werden zufällig eine
Kugel gezogen, ihre Farbe notiert und anschließend diese sowie eine weitere Kugel
der gleichen Farbe in die Urne zurückgelegt. Nach gutem Mischen“ wird wiederum
”
eine Kugel gezogen. Mit welcher Wahrscheinlichkeit ist diese Kugel rot?
Symbolisieren wir das Ziehen einer roten (schwarzen) Kugel mit 1“ (bzw. 0“), so ist Ω :=
”
”
Ω1 × Ω2 mit Ω1 := Ω2 := {0, 1} ein geeigneter Grundraum für dieses zweistufiges Experiment,
71
wobei sich das interessierende Ereignis die beim zweiten Mal gezogene Kugel ist “ formal als
”
B := {(1, 1), (0, 1)}
darstellt. Die Wahrscheinlichkeit p eines Ereignisses (a1 , a2 ) ∈ Ω können wir uns aus dem Konzept der Laplace-Wahrscheinlichkeit entnehmen. Wir können also auf Grund der Tabelle 5.4
erwarten:
p((1, 1)) =
p((0, 1)) =
p((1, 0)) =
p((0, 0)) =
1
4
3
4
1
4
3
4
2
,
5
1
· ,
5
3
· ,
5
4
· .
5
·
(5.1)
(5.2)
(5.3)
(5.4)
Offenbar ist der Faktor 41 in (5.1) die Wahrscheinlichkeit dafür, dass das erste Teilexperiment
den Ausgang rot“ besitzt. Der zweite Faktor 25 in (5.1) ist die Wahrscheinlichkeit, welche wir
”
auf Grund der Kenntnis des Ausgangs des ersten Teilexperiments festlegen konnten. Da diese
Wahrscheinlichkeit etwas mit dem Übergang vom ersten zum zweiten Teilexperiment“ zu tun
”
hat, nennt man sie eine Übergangswahrscheinlichkeit; analog sind die anderen Fälle zu
betrachten. Im nächsten Abschnitt werden wir uns etwas systematischer damit befassen; das
Stichwort ist Bedingte Wahrscheinlichkeit“.
”
Das beigefügte Baumdiagramm 5.5 veranschaulicht die Situation. Die Wahrscheinlichkeit p∗ für
das Eintreten des gewünschten Ereignisses B ist:
p∗ := p((1, 1)) + p((0, 1)) =
1 2 3 1
1
· + · = .
4 5 4 5
4
1/4
2/5
3/5
3/4
1/5
4/5
Dieses Ergebnis ist auf folgendem Wege auch ein2/20
3/20
3/20
12/20
zusehen:
Nach dem ersten Zug sind in der Urne 1 rote und
4 schwarze Kugeln ( normale Kugeln“) und eiAbbildung 5.5: Urnenexperiment
”
ne Zauberkugel“, von der wir – in Unkenntnis
”
der ersten Ziehung – nicht wissen, ob sie rot oder
schwarz ist; sie ist rot mit Wahrscheinlichkeit 41 . Wenn wir nun den zweiten Zug ausführen,
ziehen wir mit Wahrscheinlichkeit 41 eine rote Kugel, wenn wir nur unter den normalen Kugeln
ziehen, mit 41 eine rote Zauberkugel; also in jedem Falle mit Wahrscheinlichkeit 14 eine rote
Kugel.
5.3
Bedingte Wahrscheinlichkeiten
Häufig steht, bevor der Ausgang eines Zufalls–Experiments bekannt ist, schon die Information
zur Verfügung, dass der Ausgang zu einer bestimmten (möglicherweise eingeforderten) Teilmenge
des Ereignisraumes gehört. Was lässt sich dann über Wahrscheinlichkeiten sagen? Diese Fragestellung wollen wir nun untersuchen.
Zur Motivation des Folgenden greifen wir auf den Begriff der relativen Häufigkeiten zurück.
Sei V ein Zufallsexperiment mit zugehörigem Wahrscheinlichkeitsraum (Ω, POT(Ω), P ). Seien
A, B Ereignisse in (Ω, POT(Ω), P ) . Der Versuch V werde nun n–mal (unabhängig) wiederholt,
72
d.h.: in jedem Versuch werden stets die gleichen physikalischen Voraussetzungen“ für den Ver”
suchsablauf geschaffen/bereitgestellt. Die relativen Häufigkeiten von A unter der Bedingung B
sind dann definiert durch
hn (A|B) :=
n#{ Es tritt A ∩ B ein }
hn (A ∩ B)
#{ Es tritt A ∩ B ein }
=
=
, n ∈ N.
#{ Es tritt B ein }
n#{ Es tritt B ein }
hn (B)
Dabei haben wir hn (B) > 0, n ∈ N, unterstellt. Analog zu dieser Formel kommen wir nun zu
einer entsprechenden Begriffsbildung im Wahrscheinlichkeitsraum (Ω, POT(Ω), P ) .
Definition 5.3.1 Sei (Ω, POT(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Seien A, B ⊂ Ω
mit P (B) > 0. Dann heißt
P (A ∩ B)
P (A|B) :=
P (B)
die bedingte Wahrscheinlichkeit des Ereignisses A unter der Bedingung B.
Folgerung 5.3.2 Sei (Ω, POT(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Sei B ⊂ Ω mit
P (B) > 0. Dann ist (Ω, P OT (Ω), PB ) mit
PB (A) := P (A|B) , A ⊂ Ω,
ein Wahrscheinlichkeitsraum.
Beweis:
Verifiziert man unmittelbar.
Satz 5.3.3 (Satz von der totalen Wahrscheinlichkeit) Sei (Ω, POT(Ω), P ) ein endlicher
Wahrscheinlichkeitsraum. Seien B1 , . . . , Bk ⊂ Ω mit
Ω = B1 ∪ · · · ∪ Bk , Bi ∩ Bj = ∅, 1 ≤ i, j ≤ k, i 6= j , P (Bi ) > 0 , 1 ≤ i ≤ k .
Dann ist
P (A) =
k
X
i=1
P (A|Bi )P (Bi ) , A ⊂ Ω .
(5.5)
Beweis:
Ergibt sich aus der Additivität von P und der Tatsache, dass A disjunkte Vereinigung von
A ∩ B1 , . . . , A ∩ Bk ist.
Daraus leitet sich der Satz von Bayes ab6 .
Satz 5.3.4 (Satz von Bayes) Sei (Ω, POT(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Seien B1 , . . . , Bk ⊂ Ω mit
Ω = B1 ∪ · · · ∪ Bk , Bi ∩ Bj = ∅, 1 ≤ i, j ≤ k, i 6= j , P (Bi ) > 0 , 1 ≤ i ≤ k .
Ist P (A) > 0, so gilt für j = 1, . . . , k :
k
X
P (A|Bi )P (Bi ))−1
P (Bj |A) = P (Bj )P (A|Bj )(
i=1
6
Bayes,Thomas (1701 — 1761)
73
(5.6)
Beweis:
Folgt aus Satz 5.3.3 zusammen mit P (Bj ∩ A) = P (Bj )P (A|Bj ), 1 ≤ j ≤ k .
In beiden Fällen ist man mit der Forderung nicht verschwindender Wahrscheinlichkeiten
(P (Bi ) > 0, 1 ≤ i ≤ n) konfrontiert. In der Formel in (a) kann man dies aber überspielen, da
das Nennerproblem nun in der Definition bedingter Wahrscheinlichkeit angelegt ist.
Beispiel 5.3.5 Bedingte Wahrscheinlichkeiten sind hilfreich, um die Güte von Vorsorgeuntersuchungen für Krankheiten zu bewerten. Sei t eine Testperson. Es bezeichne
Epo := t wird positiv getestet , Ekr := t ist krank , Ege := t ist gesund .
Es seien
p := P (Ekr ) , p′ := P (Epo |Ekr ) , p′′ := P (Epo |Ege )
bekannt. Für die Testperson ist
p∗ := P (Ekr |Epo )
interessant. Dazu gehört der in Abbildung 5.6 dargestellte Wurzelbaum. Hierbei ist q := 1 −
p, q ′ := 1 − p′ , q ′′ := 1 − p′′ . Ausgehend von der Wurzel gehen wir mit Wahrscheinlichkeit p nach
links unten und mit der Gegenwahrscheinlichkeit q nach rechts unten. Im zweiten Schritt gehen
wir mit Wahrscheinlichkeit p′ bzw. p′′ wieder nach links unten und mit der Gegenwahrscheinlichkeit q ′ bzw. q ′′ nach rechts unten. Die Wahrscheinlichkeiten, in den vier Blättern zu landen,
ergeben sich durch Multiplikation der Kantengewichte als
pp′ , pq ′ , qp′′ , qq ′′ .
Daraus errechnet sich die Wahrscheinlichkeit p∗ := P (Ekr |Epo ) gemäß
p∗ = pp′ + qp′′ = pp′ + (1 − p)p′′ .
Aus der bedingten Wahrscheinlichkeit leitet sich
der Begriff der Unabhängigkeit ab, der für die Bewertung von Beobachtungen von Zufallsexperimenten
von überragender Bedeutung ist. Wir lassen uns dabei
davon leiten, dass in einem Wahrscheinlichkeitsraum
(Ω, POT(Ω), P ) zwei Ereignisse A, B (nach Wahrscheinlichkeit) als unabhängig voneinander zu betrachten sind, wenn P (A) mit der bedingten Wahrscheinlichkeit P (A|B) übereinstimmt. Dass P (A|B) nur für
P (B) > 0 erklärt ist, hat dabei keinen Einfluss mehr.
p
p’
q’
q
p’’
q’’
Abbildung 5.6: Reihenuntersuchung
Definition 5.3.6 Sei (Ω, POT(Ω), P ) ein endlicher
Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ⊂ Ω heißen unabhängig, wenn P (A ∩ B) =
P (A)P (B) gilt, anderenfalls abhängig.
Zahlreiche Fehlvorstellungen zur Wahrscheinlichkeitsrechnung beruhen auf der Nichtberücksichtigung der Abhängigkeit bzw. Unabhängigkeit von Ereignissen. Machen wir uns die Fehlerquellen z.B. beim Skatspiel“ klar.
”
74
In einem Skatblatt gibt es 4 Farben mit den Werten Ass, König, Dame, Bube, zehn, neun,
acht sieben, von denen jeder der drei Spieler 10 Karten nach gutem Mischen in den Tranchen
drei, vier, drei erhält; zwei Karten kommen in den Skat.
Ein Skatspieler berechnet die Wahrscheinlichkeit, in seinem Blatt von 10 Karten 4 Asse zu
haben als
28
10 · 9 · 8 · 7
6
32 = 32 · 31 · 30 · 29 ≈ 0.00584 .
10
Die Wahrscheinlichkeit, alle 4 Buben zu bekommen, ist ebenso groß. Daraus schließt er, dass die
Wahrscheinlichkeit, alle 4 Asse und alle 4 Buben zu bekommen etwa
0.005842 ≈ 0.000034
beträgt. Die Überlegung ist natürlich falsch, da sie die Abhängigkeit der Ereignisse
A : 4 Asse , B : 4 Buben
nicht berücksichtigt. Die Wahrscheinlichkeit, alle 4 Buben zu bekommen, wenn man schon 4
Asse hat, ist kleiner als die Wahrscheinlichkeit, ohne die Bedingung alle 4 Buben zu bekommen:
24
P (A ∩ B) = P (B|A) · P (A) =
2
32
10
= 0.0000042 .
Unabhängigkeit ist ein in A, B symmetrischer Begriff. Sind A, B ⊂ Ω unabhängig, dann sind
es auch A, Ω\B und Ω\A, B und Ω\A, Ω\B. Die Verallgemeinerung der Unabhängigkeit auf
mehr als zwei Ereignisse liegt auf der Hand.
Definition 5.3.7 Sei (Ω, POT(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Seien A1 , . . . , Ak
Ereignisse. Diese Ereignisse heißen unabhängig, wenn für jede Wahl 1 ≤ i1 < · · · < il ≤ k
gilt:
P (Ai1 ∩ · · · ∩ Ail ) = P (Ail ) · · · P (Ail ).
5.4
Das Ziegenproblem
Betrachten wir nun das sogenannte Ziegenproblem.7 In einer Spielshow wird ein Kandidat
vom Moderator vor drei geschlossene Türen geführt. Hinter diesen Türen sind ein Auto (Preis)
und jeweils eine Ziege (Niete) versteckt. Der Kandidat darf nun eine Tür bestimmen, die geöffnet
werden soll. Um die Spannung zu erhöhen, öffnet der Moderator aber vor der Öffnung dieser
Tür — zufällig, aber mit der Vorgabe, dass dahinter kein Auto ist — eine andere Tür; hinter
dieser Tür ist eine Ziege. Nun erlaubt der Moderator dem Kandidaten seine ursprügliche Wahl
zu überdenken und gegebenenfalls seine Entscheidung zu ändern. Wie soll er sich entscheiden?
Gibt es aus stochastischer Sicht berechtigte Gründe, die Tür zu wechseln?
Ja, er soll wechseln!
Dies wollen wir mit bedingten Wahrscheinlichkeiten erklären. Bevor wir dies tun, spielen wir die
Situation mit 100 Türen, einem Auto und 99 Ziegen durch; sie vermeidet die 1 : 1 : 1 Situation
7
G.v. Randow: Das Ziegenproblem, Reinbek, 1992, und I. Stewart: Mathematische Unterhaltungen, Spektrum
11/91, 12 – 16 . Dieses Problem hat beträchtlichen Wirbel verursacht, da selbst gestandene“ Mathematiker
”
falsche Schlüsse zogen. Das Problem ist auch als Monty-Hall-Dilemma“ bekannt (nach dem Moderator der US”
amerikanischen Spielshow Let’s make a deal.
75
1
haben wir die Tür mit dem Auto gewählt und mit
bei drei Türen. Mit Wahrscheinlichkeit 100
99
Wahrscheinlichkeit 100 ist das Auto hinter den verbleibenden Türen. Jetzt öffnet der Moderator
98 der verbleibenden Türen, hinter jeder eine Ziege. Natürlich würde jeder wechseln, denn mit
99
Wahrscheinlichkeit 100
ist das Auto hinter der noch verschlossenen Tür.
Bevor wir ein mathematisches Modell betrachten, noch eine andere Argumentation, die den
Wechsel stützen kann. Der Standhafte gewinnt das Auto genau dann, wenn sich dieses hinter
der ursprünglich gewählten Tür befindet; die Wahrscheinlichkeit dafür ist 13 . Ein Wechselnder
gewinnt das Auto genau dann, wenn er zuerst auf eine der beiden Ziegentüren zeigt, die Wahrscheinlichkeit dafür ist 32 , denn nach dem Öffnen der anderen Ziegentür durch den Moderator
führt die Wechselstrategie in diesem Fall automatisch zur Autotür.
Hier geben wir nun eine Erklärung für den Ratschlag Wechseln“ unter Nutzung elementarer
”
Wahrscheinlichkeiten.
Wir nehmen an, dass das Auto hinter Tür 1 steht. Wir können dies tun ohne Beschränkung
der Allgemeinheit: es ist ja nur ein Nummerierungsproblem. Der Kandidat hat drei Möglichkeiten
der Wahl, die er zufällig trifft, denn er hat ja keine zusätzliche Information. Der Moderator trifft
seine Wahl der Tür ebenfalls zufällig, sofern ihm auf Grund seiner Informationslage eine Wahl
bleibt. Dies führt zu folgender Tabelle für die Wahrscheinlichkeit der 4 möglichen Ereignisse vor
der Wechselmöglichkeit:
Wahl/Kandidat
Tür 1
Tür 1
Tür 2
Tür 3
Wahl/Moderator
Tür 2
Tür 3
Tür 3
Tür 2
p (Wahrscheinlichkeit)
1 1
1
6 = 3 · 2
1
1 1
6 = 3 · 2
1
1
3 = 3 ·1
1
1
3 = 3 ·1
Die folgende Tabelle listet nun die Gewinn/Verlust–Wahrscheinlichkeiten auf:
Wahl/Kandidat
Tür 1
Ohne Wechsel
Wahl/Moderator Wahl/Kandidat
Tür 2
Tür 1
Gewinn
JA
Tür 1
Tür 3
Tür 1
JA
Tür 2
Tür 3
Tür 2
NEIN
Tür 3
Tür 2
Tür 3
NEIN
Wahl/Kandidat
Tür 1
Mit Wechsel
Wahl/Moderator Wahl/Kandidat
Tür 2
Tür 3
Gewinn
NEIN
Tür 1
Tür 3
Tür 2
NEIN
Tür 2
Tür 3
Tür 1
JA
Tür 3
Tür 2
Tür 1
JA
p
1
6
1
6
1
3
1
3
p
1
6
1
6
1
3
1
3
Es ist nun klar, dass der Wechsel zu einer Gewinnwahrscheinlichkeit von 2/3 führt, während
kein Wechsel nur eine Gewinnwahrscheinlichkeit von 1/3 realisiert.
Nun zu einer Darstellung des Dreitüren–Problems, die mit bedingten Wahrscheinlichkeiten
arbeitet. O.E. öffne der Kandidat die erste Tür. Sei
Ω := {(azz, 2), (azz, 3), (zaz, 3), (zza, 2)}.
76
Hierbei steht etwa (azz, 2) für: Auto hinter der 1. Tür, Ziegen hinter Tür 2 und Tür 3; 2
bezeichnet die Türwahl des Moderators.
Setze
A1 := {(azz, 2), (azz, 3)}, A2 := {(zaz, 3)}, A3 := {(zza, 2)}.
Wir haben als Wahrscheinlichkeiten
P (A1 ) = P (A2 ) = P (A3 ) =
1
,
3
und ferner
1
1
, P ({(azz, 3)}) = .
6
6
Wir analysieren etwa den Fall, dass der Moderator Tür 3 öffnet. Setze
P ({(azz, 2)}) =
B := {(azz, 3), (zaz, 3)}.
Wir haben dann
1
1
1
P (B) = , P (A1 ∩ B) = , P (A2 ∩ B) = , P (A3 ∩ B) = 0
2
6
3
und daher
1
P (B|A1 ) = , P (B|A2 ) = 1, P (B|A3 ) = 0.
2
Damit erhalten wir:
P (A1 |B) =
1
P (A1 )P (B|A1 )
= ,
P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + P (B|A3 )P (A3 )
3
P (A2 |B) =
P (A2 )P (B|A2 )
2
=
P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) + P (B|A3 )P (A3 )
3
Nun liegt der Beleg für den Ratschlag Wechsel“ vor !
”
5.5
Kombinatorische Überlegungen
Sei M eine Menge mit n Elementen. Wir wollen für den Sachverhalt
Wähle Elemente von M unter den Gesichtspunkten Anzahl und/oder Reihenfolge“
”
aus
die damit verbundenen Anzahlprobleme – auf wieviele Arten ist dies möglich? – studieren.
Definition 5.5.1 Eine r–Permutation (ohne Wiederholung) der Elemente einer n–elementigen Menge M ist eine injektive Abbildung von {1, . . . , r} nach M. Ist r = n, so sprechen
wir kurz von einer Permutation.
Sei M = {x1 , . . . , xn } mit #M = n. Aus der Definition 5.5.1 folgt sofort, dass r ≤ #M sein
muss, wenn es r−Permutationen geben soll, weil das Bild von {1, . . . , r} unter einer injektiven
Abbildung sicher r Elemente besitzt.
Ist σ eine r–Permutation, so entspricht dieser Abbildung σ das geordnete Tupel (xσ(1) , . . . , xσ(r) ) .
Umgekehrt, hat man eine Menge B := {xi1 , . . . , xir } mit #B = r, so gehört dazu die r–
Permutation σ : {1, . . . , r} ∋ j 7−→ xij ∈ M . Damit ist wohl klar, dass die Definition 5.5.1
unserer Anschauung von der Auswahl von r Elementen unter Berücksichtigung der Reihenfolge
entspricht.
77
Satz 5.5.2 Sei M eine Menge mit n Elementen. Die Anzahl P (n, r) der r–Permutationen ist
P (n, r) = n(n − 1) · · · (n − r + 1) =
n!
, 0 ≤ r ≤ n.
(n − r)!
Beweis:
Sei M := {x1 , . . . , xn } . Wie können wir eine r–Permutation σ hinschreiben? Für das Bild σ(1)
stehen n Elemente zur Verfügung. Sind die Bilder σ(1), . . . , σ(r − 1) festgelegt, so stehen für σ(r)
wegen der geforderten Injektivität nur die Elemente in M \{xσ(1) , . . . , xσ(r−1) } zur Verfügung,
also n − (r − 1) Elemente. Dies bedeutet nun:
P (n, 1) = n ; P (n, r) = P (n, r − 1) · (n − r + 1) .
Daraus folgt durch sukzessives Ausmultiplizieren oder induktiv P (n, r) = n(n − 1) · · · (n − r + 1) .
Das schnelle Anwachsen der Ziffernstellen bei den Fakultäten8 ist Grund für die große Komplexität für Aufgaben, bei denen etwa eine große Anzahl von Objekten nach einem bestimmten
Merkmal in eine Ordnung gebracht werden sollen; siehe Abschnitt 2.3.
Im Spezialfall M = {1, . . . , n} kennen wir schon folgende Bezeichnung:
Sn := {σ : M −→ M |σ Permutation}
Eine Permutation σ ∈ Sn können wir dann schlicht durch die Abfolge (σ(1) . . . σ(n)) hinschreiben. Etwa bedeutet σ = (231) ∈ S3 , dass σ(1) = 2, σ(2) = 3, σ(3) = 1 gilt.
Beispiel 5.5.3 Man bestimme die Anzahl m der vierziffrigen Zahlen, deren Ziffern alle verschieden sind; 0 darf als erste Ziffer nicht vorkommen.
Für die erste Ziffer gibt es 9 Möglichkeiten: 1, 2, . . . , 9 . Für die Besetzung der verbleibenden
drei Ziffern gibt es dann jeweils noch P (9, 3) Möglichkeiten. Also m = 9 · P (9, 3) = 4536 .
Für das eben diskutierte Objekt Permutation“ gibt es die Interpretation durch ein Urnenex”
periment:
In einer Urne befinden sich n Objekte, nämlich die n Elemente von M . Man nimmt
der Reihe nach jeweils ein Element aus der Urne, ohne es wieder zurückzulegen.
Dann bilden r gezogene Elemente in der Reihenfolge, in der sie gezogen wurden, eine
r−Permutation der Menge M .
Eine duale Interpretation als Schachtelexperiment ist:
Jedem Element von M entspricht eine Schachtel; wir haben also n Schachteln. Es
werden nun der Reihenfolge nach r Objekte auf die n Schachteln verteilt und zwar so,
dass eine Schachtel höchstens ein Objekt enthält; die Schachtelnummer wird notiert.
Definition 5.5.4 Eine r−Permutation mit Wiederholung einer Menge M ist eine Abbildung τ : {1, . . . , r} −→ M.
8
G.W. Leibniz liebte es, zahlenmäßige Zusammenhänge in Form von Tabellen und Tafeln darzustellen. Beispielsweise fügte er seiner Arbeit Dissertatio de Arte Combinatoria“aus dem Jahre 1666, in der mit seinem Titel
”
auch die Bezeichnung Kombinatorik vorprägte, eine Tabelle der Fakultäten 1! bis 24! = 620448401733239439360000
an.
78
Die Anzahl W (n, r) der r−Permutationen mit Wiederholungen ist
W (n, r) = nr .
Der Beweis dafür ist leicht zu erbringen.
Die Interpretation der r−Permutationen mit Wiederholung als Urnenexperiment ist folgende:
Man nimmt der Reihe nach — die Reihenfolge spielt daher eine Rolle – jeweils ein Element aus
der Urne, insgesamt r Elemente, legt sie aber jeweils nach dem Ziehen wieder in die Urne
zurück. Die duale Interpretation als Schachtelexperiment ist die Verteilung von r Objekten auf
n Schachteln, wobei jede Schachtel beliebig viele Elemente aufnehmen kann.
Bisher haben wir Auswahlen betrachtet, so dass die Reihenfolge der Elemente von Relevanz
war und verschiedene Reihenfolgen verschieden zu zählen waren. Wenn wir nun keine Rücksicht
auf die Anordnung nehmen, kommen wir zum Begriff der Kombination (der Elemente).
Definition 5.5.5 Eine r–Kombination von M ist die Auswahl einer Teilmenge von M, bestehend aus r Elementen.
Die Anzahl C(n, r) der r–Kombinationen einer Menge M mit n Elementen ist
C(n, r) =
n!
.
r!(n − r)!
Die Interpretation als Urnenexperiment kann man etwa so sehen: Man ziehe r Elemente ohne Zurücklegen und vergesse die Reihenfolge der gezogenen Elemente. Die Interpretation als
Schachtelexperiment ist so: Man verteile r Objekte auf n Schachteln, so dass in jeder Schachtel
höchstens ein Objekt liegt. Einordnungen heißen äquivalent (oder werden nicht unterschieden),
wenn sie durch eine Permutation der Objekte ineinander übergeführt werden können.
Wir nennen
n
n!
(n, r ∈ N, r ≤ n)
:=
r!(n − r)!
r
Binominalkoeffizienten. n
r kann interpretiert werden als die Anzahl der binären Wörter mit
r Einsen und n − r Nullen. Aus dieser Interpretation oder aus der Definition folgt sofort
n
n
n
n
n
n
=
=1,
=
=n,
=
(5.7)
0
n
1
n−1
r
n−r
Sortiert man die Teilmengen der n–elementigen
Menge M nach der Anzahl ihrer Elemente, so
liefert die Summenregel
n
n
n
+
+ ··· +
= 2n ,
(5.8)
0
1
n
1
1
1
1
1
1
3
4
1
3
6
10
1
4
10
1
1
da links und rechts der Identität die Anzahl
...
...
...
aller Teilmengen von
M steht.
Sortieren wir die nr Wörter der Länge n mit
r Einsen und n − r Nullen nach der 1. Ziffer:
Abbildung 5.7: Pascalsches Dreieck
Mit 1 beginnen n−1
Wörter
der
Länge
n,
mit
r−1
0 beginnen n−1
n−Wörter. Also
r
n
n−1
n−1
=
+
.
(5.9)
r
r−1
r
79
5
1
2
5
n
n
9
Zusammen mit der Randbedingung“
0 = n = 1, stellt man dies im Pascalschen Dreieck
”
n
dar. Die Bezeichnung von r als Binomialkoeffizient hängt zusammen mit dem folgenden Satz.
Satz 5.5.6 (Binomialformel) Für a, b ∈ R und n ∈ N gilt:
n
(a + b) =
n X
n
j=0
j
aj bn−j .
Beweis:
Die Multiplikation der n Faktoren (a + b), . . . , (a + b) kann so erfolgen, dass man für
jedes
n
j, 0 ≤ j ≤ n, aus j Klammern a und aus n − j Klammern b auswählt; dies kann auf j Arten
geschehen. Daher ist der Koeffizient von aj bn−j im ausgerechneten Produkt n
j .
Der Beweis mittels vollständiger Induktion sieht so aus:
n = 1 : Klar.
n n+1 :
X
n j n−j
ab
(a + b)n+1 = (a + b)(a + b)n = (a + b)
j
j=0
n n X
X
n j+1 n−j
n j n−j+1
=
a b
+
ab
j
j
j=0
=
=
=
=
n+1
X
j=0
n X
n
n j n−j+1
k n−(k−1)
a b
+
ab
k−1
j
j=0
k=1
n n n+1 X
n
n
n n+1
k n+1−k
b
+
+
a b
+
a
0
k−1
k
n
k=1
n n + 1 n+1 X n + 1 k n+1−k
n + 1 n+1
b
+
a b
+
a
0
k
n+1
k=1
n+1
X n + 1
ak bn+1−k
k
k=0
Beispiel 5.5.7 Beim Bridge–Spiel
erhält ein Spieler 13 Karten aus einem Spiel aus 52 Karten.
12 Kartenzusammenstellungen möglich. Die Chance“ eine
≈
10
Für einen Spieler sind also 52
13
”
ganz bestimmte Hand“ zu erhalten, ist für einen Spieler also etwa 1 : 1012 .
”
Beispiel 5.5.8 Beim Lotto wird bei einer Ziehung aus der Menge {1, . . . , 49} eine 6–elementige
Teilmenge ausgewählt. Daher ist die Anzahl der möglichen Ziehungen
49
= 13 983 816 .
6
5.6
1.)
9
Übungen
Wie viele Möglichkeiten gibt es, mn Gegenstände so auf m Fächer zu verteilen, dass in
jedem Fach n Gegenstände sind?
Diese Anordnung der Binomialkoeffizienten findet sich wohl erstmals bei B. Pascal.
80
2.)
Wir werfen achtmal einen (fairen) Würfel.
(a)
Wie groß ist die Wahrscheinlichkeit, dass jede Augenzahl 1,2,3,4,5,6 mindestens
einmal erscheint?
(b) Wie groß ist die Wahrscheinlichkeit, dass man genau zweimal eine sechs würfelt?
3.)
Eine Urne enthalte zwei rote, zwei schwarze und zwei blaue Kugeln. Es werden zufällig
zwei Kugel mit einem Griff entnommen. Danach wird zufällig aus den restlichen Kugeln
eine Kugel gezogen. Mit welcher Wahrscheinlichkeit ist diese Kugel rot?
4.)
Eine Urne enthalte zwei rote und drei schwarze Kugeln. Eine Kugel wird zufällig entnommen und durch eine Kugel der anderen Farbe ersetzt. Dieser Vorgang wird noch einmal
wiederholt. Mit welcher Wahrscheinlichkeit ist eine danach entnommene Kugel rot?
81
Kapitel 6
Zufallsgrößen
Zufallsgrößen und deren zugordnete Maßzahlen Erwartungswert und Varianz sind zentrale Größen
von Zufallsversuchen. Sie sind auch fundamental in der Statistik, die die zweite Säule der Stochastik ist. Das schwache Gesetz der großen Zahl erklärt die angeratene Mittelwertbildung bei
Messreihen.
6.1
Erwartungswerte
Zunächst zur Motivation des Begriffs Erwartungswert“, den wir nun einführen wollen.
”
Beispiel 6.1.1 Stellen wir uns ein Glücksrad mit den s Sektoren Ω := {w1 , . . . , ωs } vor; jedem
Sektor werde als Wahrscheinlichkeit dafür, dass der Zeiger beim Drehen im Sektor j stehen
bleibt die Zahl p(ωj ) zugeordnet. Ein Spieler gewinnt X(ωj ) Euro, wenn der Zeiger im Sektor
j stehen bleibt. Wieviel sollte man pro Spiel einsetzen, wenn man das Spiel wiederholt, etwa
n–mal spielen müßte. Offenbar erhält man dann
s
X
X(ωj )hj
j=1
Euro ausbezahlt, wenn der Zeiger im Sektor j hj –mal stehen geblieben ist. Also ergibt sich als
durchschnittliche Auszahlung
s
1X
X(ωj )hj
n
j=1
h
Euro. Da man empirisch erwartet, dass nj gegen die Wahrscheinlichkeit p(ωj ) strebt, müßte
E :=
s
X
X(ωj )p(ωj )
j=1
Euro auf lange Sicht die erwartete Auszahlung sein. Ein Einsatz pro Spiel, der kleiner als E ist,
sollte also auf lange Sicht zu einem Gewinn führen.
Definition 6.1.2 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum.
Jede Abbildung X : Ω −→ R heißt eine Zufallsgröße1 . Sind x1 , . . . , xr die Werte, die X
annimmt, dann heißt
P ({X = xj }) , j = 1, . . . , r,
1
In der Literatur ist für eine Zufallsgröße auch der ältere Ausdruck Zufallsvariable“ gebräuchlich. Diese
”
Begriffsbildung verträgt sich nicht mehr gut mit der heutigen Auffassung von Abbildungen und Variablen.
82
die Verteilung der Zufallsgröße.
Die Abbildung
FX : R ∋ x 7−→ P ({X ≤ x}) ∈ [0, 1]
heißt die Verteilungsfunktion von X .
Beachte, dass wir voraussetzen durften, dass nur endlich viele Werte angenommen werden, da
wir ja Ω als endliche Menge angenommen haben.
Beispiel 6.1.3 Sei Ω := {K(opf ), Z(ahl)}, X(ω) := 1, falls ω = K, := 0, falls ω = Z . Also ist
FX eine Treppenfunktion“ mit 2 Stufen:
”
x
FX (x)
x<0
0≤x<1
x≥1
0
1
2
1
Definition 6.1.4 Sei (Ω, P OT (Ω), P ) ein (endlicher) Wahrscheinlichkeitsraum und X : Ω −→
R eine Zufallsgröße. Die Zahl
X
E(X) :=
X(ω)P ({ω})
ω∈Ω
heißt Erwartungswert von X .
Interpretieren wir die Zufallsgröße als Auszahlung eines Spiels, so können wir offenbar E(X) als
durchschnittliche Auszahlung pro Spiel auf lange Sicht ansehen (negative Werte sind als Einzahlungen zu interpretieren). Hierbei haben wir die Häufigkeitsinterpretation der Wahrscheinlichkeit
zu Grunde gelegt; siehe Beispiel 6.1.1.
Eine physikalische Interpretation des Erwartungswertes erhält man, wenn die möglichen Werte x1 , . . . , xr einer Zufallsgrößen X als Massepunkte“ mit den Massen P (X = xj ), j = 1, . . . , r,
”
auf der gewichtslosen Zahlengeraden“ gedeutet werden. Der Schwerpunkt (Massenmittelpunkt)
”
s des so entstehenden Körpers ergibt sich nämlich aus der Gleichgewichtsbedingung
r
X
(xj − s)P (X = xj ) = 0
j=1
zu
s=
r
X
xj P (X = xj ) = E(X) .
j=1
Laplace2 schreibt über den Erwartungswert:
Die Wahrscheinlichkeit der Ereignisse dient dazu, die Hoffnung oder Furcht der an ihrer
Existenz interessierten Personen zu bestimmen. Das Wort Hoffnung hat verschiedene Bedeutungen: es drückt allgemein den Vorteil desjenigen aus, der irgend ein Gut in Folge von
Voraussetzungen erwartet, die nur wahrscheinlich sind. Dieser Vorteil ist in der Theorie des
Zufalls das Produkt der erwarteten Summe mit der Wahrscheinlichkeit sie zu erlangen. . . .
Wir werden diesen Vorteil die mathematische Hoffnung“(esperánce (franz.) = Hoffnung)
”
nennen. . . . Man soll es im gewöhnlichen Leben immer so einrichten, dass das Produkt aus
dem Gute, das man erwartet, mit seiner Wahrscheinlichkeit dem gleichen Produkte bzgl. des
Verlustes mindestens gleichkommt. Aber um das zu erreichen, ist es notwendig, die Vorteile
2
Laplace, Pierre Simon de, (1749 – 1827)
83
und Verluste und ihre gegenseitigen Wahrscheinlichkeiten genau abzuschätzen. Dazu bedarf
es einer großen Exaktheit des Geistes, eines feinen Takts und einer bedeutenden sachlichen
Erfahrung; man muss sich vor Vorurteilen, vor den Täuschungen der Furcht und der Hoffnung, sowie vor den falschen Begriffen von Glücksgunst und wirklichem Glück, mit denen
die meisten Menschen ihre Eigenliebe einwiegen, in Acht nehmen.
Beispiel 6.1.5 Der Ereignisraum für einen fairen Würfelwurf ist Ω := {1, . . . , 6} und die Zufallsgröße, die die Augenzahl ausgibt, ist X : Ω ∋ i 7−→ i . Das passende Wahrscheinlichkeitmaß
ist die Gleichverteilung, d.h. P (X = j) = 16 , j = 1, . . . , 6 . Als Erwartungswert ergibt sich
E(X) =
6
X
1
7
j = .
6
2
j=1
Dies zeigt uns, dass bei fortgesetztem Werfen eines (fairen) Würfels der Wert 3.5 eine gute Prognose für den auf lange Sicht erhaltenen Durchschnitt (arithmetisches Mittel) aller geworfenen
Augenzahl sein sollte.
Beachte: Die Zufallsgröße realisiert den Wert E(X) nicht!
Seien X, Y Zufallsgrößen auf dem Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) und sei a ∈ R .
Dann sind
aX : Ω ∋ ω 7−→ aX(ω) ∈ R ,
X +Y
X ·Y
: Ω ∋ ω 7−→ X(ω) + Y (ω) ∈ R ,
: Ω ∋ ω 7−→ X(ω) · Y (ω) ∈ R ,
|X| : Ω ∋ ω 7−→ |X(ω)| ∈ R
auch Zufallsgrößen auf (Ω, P OT (Ω), P ) . Für X · X schreiben wir auch oft kurz X 2 .
Besondere Bedeutung besitzen die Zufallsgrößen, die das Eintreten oder Nichteintreten von
Ereignissen beschreiben. Dies leistet die Indikatorfunktion eines Ereignisses: Ist A ⊂ Ω ein
Ereignis, so heißt die durch
(
1 ,ω ∈ A
χA (ω) :=
0 ,ω ∈
/A
definierte Zufallsgröße die Indikatorfunktion von A . Die einfachen Operationen mit Ereignissen spiegeln sich in der Indikatorfunktion folgendermaßen:
χA∩B = χA · χB , χ∁A = 1 − χA , χA = χA2 .
Will man wissen, wie viele Ereignisse A1 , . . . , An eingetreten sind, so hat man nur die Indikatorsumme
χ := χA1 + · · · + χAn
zu bilden. Sie dient also als Zählgröße.
Beispiel 6.1.6 Betrachte folgendes Spiel: Beim Werfen zweier idealer Würfel erhält der Spieler
Euro 10, wenn beide Würfel eine 6 zeigen, Euro 2, wenn genau ein Würfel eine 6 zeigt, Euro
0 sonst. Die Ereignismenge Ω sind die Paare (i, j) mit 1 ≤ i, j ≤ 6 , die Wahrscheinlichkeit für
1 . Damit ist angedeutet, dass die beiden Würfel unabhängig
jedes Elementarereignis (i, j) ist 36
84
voneinander geworfen werden. Wir bezeichnen mit X die Zufallsgröße, die den Gewinn eines
Spielers beschreibt. Von Interesse sind die Ereignisse
A2 := {(6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (5, 6), (4, 6), (3, 6), (2, 6), (1, 6)},
A10 := {(6, 6)} , A0 := Ω\(A10 ∪ A2 ) .
Die Werte von X erhalten wir durch folgende Zuordnung:

 2 , falls ω ∈ A2
Ω ∋ ω 7−→
10 , falls ω ∈ A10

0 , sonst
Daraus leiten wir
1
25
10
, P ({X = 10}) =
, P ({X = 0}) =
36
36
36
P ({X = 2}) =
ab. Als Erwartungswert ergibt sich
E(X) = 2 ·
1
25
5
10
+ 10 ·
+0·
=
36
36
36
6
Dieses Ergebnis lässt erwarten – siehe unten– , dass der Spieler im Mittel 65 Euro pro Spiel
gewinnt. Ein Einsatz des Spielers pro Spiel in Höhe von 1 Euro wäre also nicht vorteilhaft. Halten wir einige Rechenregeln für Erwartungswerte fest:
Regel 6.1.7 Seien X, Y : Ω −→ R Zufallsgrößen, a ∈ R, A ⊂ Ω, und g : R −→ R . Es gelten:
E(X + Y )
=
E(X) + E(Y )
(6.1)
E(aX)
=
aE(X)
(6.2)
E(χA )
=
(6.3)
E(g ◦ X)
=
X≤Y
=⇒
P (A)
X
g(xj )P (X = xj )
x1 ,...,xr ∈X(Ω)
E(X) ≤ E(Y )
(6.4)
(6.5)
Die Regeln sind sehr einfach zu beweisen.3 Wir beweisen nur (6.4).
Seien x1 , . . . , xr die Werte der Zufallsgrößen X, also {x1 , . . . , xr } = X(Ω) . Wir setzen Aj :=
{ω ∈ Ω|X(ω) = xj }, j = 1, . . . , r . Dann gilt Ω = A1 ∪ · · · ∪ Ar und somit
E(g ◦ X) =
=
X
ω∈Ω
(g ◦ X)(ω)P ({ω}) =
r X
X
g(xj )P ({ω}) =
r
X
j=1 ω∈Aj
r
X
j=1
j=1 ω∈Aj
=
r X
X
(g ◦ X)(ω)P ({ω})
g(xj )
X
P ({ω})
ω∈Aj
g(xj )P (X = xj )
j=1
3
Der Mathematiker fasst die Eigenschaften (6.1), (6.2) zusammen durch: Erwartungswertbildung ist eine Linearform auf dem Vektorraum der Zufallsvariablen.
85
j
i
1
2
3
4
5
6
Σ
1
1
36
2
0
1
36
2
36
3
0
0
1
36
1
36
3
36
4
0
0
0
1
36
1
36
1
36
4
36
5
0
0
0
0
1
36
1
36
1
36
1
36
5
36
6
0
0
0
0
0
1
36
1
36
1
36
1
36
1
36
6
36
1
6
1
6
1
6
1
6
1
6
1
6
Σ
1
36
3
36
5
36
7
36
9
36
11
36
1
p(X = i)
p(Y = j)
Abbildung 6.1: Eine gemeinsame Verteilung
Definition 6.1.8 Sind X, Y : Ω
y1 , . . . , ys , so heißt das System
−→
R zwei Zufallsgrößen mit Werten x1 , . . . , xr bzw.
P (X = xj , Y = yj ) := P ({X = xi } ∩ {Y = yj }) , i = 1, . . . , r, j = 1, . . . , s,
(6.6)
die gemeinsame Verteilung von X, Y .
Fasst man das Paar Z := (X, Y ) als Abbildung
(X, Y ) : Ω ∋ ω 7−→ (X(ω), Y (ω)) ∈ R2
auf, so nennt man Z eine zweidimensionale Zufallsgröße; (6.6) ist ihre Verteilung (analog zu
Definition 6.1.2).
Beispiel 6.1.9 Betrachte wieder einen zweifachen Würfelwurf mit einem fairen Würfel (LaplaceExperiment). Sei Xi der Ausgang des i-ten Wurfes und sei Y := max(X1 , X2 ) die Zufallsgröße,
die die maximale Augensumme bei den beiden Würfen beschreibt. Die beigefügte Tabelle gibt die
gemeinsame Verteilung von X := X1 und Y an.
Folgerung 6.1.10 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und sei X eine Zufallsgröße. Sei FX die zugehörige Verteilungsfunktion. Es gilt:
(a) P ({a < X ≤ b}) = FX (b) − FX (a) für a ≤ b .
(b) FX ist monoton nicht fallend.
(c) P ({X > a}) = 1 − FX (a) , P ({X < a}) = FX (a−) , a ∈ R, wobei FX (a−) der linkseitige
Grenzwert von FX an der Stelle a ist.
(d) P ({a ≤ X ≤ b}) = FX (b) − FX (a−) für a ≤ b .
(e)
lim FX (x) = 0 , lim FX (x) = 1 .
x→−∞
x→∞
86
Beweis:
Zu (a). FX (b) = P ({X ≤ a}) + P ({a < X ≤ b}) = FX (a) + P ({a < X ≤ b}) .
Zu (b). Folgt aus (a).
Zu (c). P ({X > a}) = 1 − FX (a) folgt aus den Definitionen von P und FX .
Die Existenz des angegebenen Grenzwerts folgt aus der Tatsache, dass die Funktion FX monoton
wachsend ist und ihr Bildbereich in [0, 1] enthalten ist, so: Zunächst existiert sicher eine Folge
(xn )n∈N mit xn < a für alle n ∈ N, lim xn = a und z := lim FX (xn ) existiert. Aus der Monotonie
n
n
folgt, dass z für jede solche Folge identisch ist. Also gilt z = lim FX (xn ) für jede Folge (xn )n∈N
n
mit xn < a für alle n ∈ N und lim xn = a , da (FX (xn ))n∈N eine konvergente Teilfolge enthält.
n
∞
X
P ({X < a}) = P ({X ≤ a − 1}) +
= FX (a − 1) + lim
n
= FX (a − 1) + lim
n
k=1
n
X
k=1
n
X
k=1
P ({a −
1
1
<X ≤a−
})
k
k+1
P ({a −
1
1
<X ≤a−
})
k
k+1
(FX (a −
1
1
) − FX (a − ))
k+1
k
= FX (a − 1) + lim FX (a −
n
1
) − FX (a − 1)
n+1
1
) = FX (a−)
= lim FX (a −
n
n+1
Zu (d).
P ({a ≤ X ≤ b}) = P ({a < X ≤ b}) + P ({X = a})
= (FX (b) − FX (a)) + (FX (a) − FX (a−))
= FX (b) − FX (a−) .
Zu (e).
Die Existenz der angegebenen Grenzwerte folgt aus der Tatsache, dass die Funktion FX monoton wachsend ist und ihr Bildbereich in [0, 1] enthalten ist; siehe oben. Ferner haben wir
0 ≤ lim FX (x) ≤ lim FX (x) ≤ 1 . Es genügt also zu zeigen, dass
x→−∞
x→∞
lim FX (−n) = 0 , lim FX (n) = 1
n∈N
n∈N
gilt. Betrachte die Ereignisfolge (Ak )k∈Z mit Ak := {k − 1 < X ≤ k}, k ∈ Z . Damit haben wir
P (Ω) = P (∪k∈Z Ak ) und daher
1 = P (∪k∈Z Ak ) =
X
P (Ak ) = lim
n∈N
k∈Z
k=n
X
P (Ak ) = lim
n∈N
k=−n
k=n
X
k=−n
(FX (k) − FX (k − 1))
= lim (FX (n) − FX (−n)) = lim FX (n) − lim FX (−n)
n∈N
n∈N
n∈N
Daraus liest man die Tatsache lim FX (−n) = 0 und lim FX (n) = 1 ab.
n∈N
n∈N
Bemerkung 6.1.11 Man mag sich wundern über den obigen Beweis: er ist so aufgeschrieben,
als würde die Zufallsgröße unendlich viele Werte annehmen, wir haben dies aber ausgeschlossen. Damit verbunden ist aber der Hinweis, dass auch Zufallsgrößen behandelt werden können,
die abzählbar viele Werte annehmen können. Der wirklich große Schritt besteht darin, Zufallsgrößen zuzulassen, die überabzählbar viele Werte annehmen. Dann benötigt man zur Definition
eines Erwartungswertes einen passenden Integralbegriff. Daran schließt sich dann das Gebiet der
stochastischen Prozesse an, die in vielen Anwendungen eine überragende Rolle spielen.
87
6.2
Unabhängigkeit
Definition 6.2.1 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X, Y
Zufallsgrößen. Diese Zufallsgrößen heißen unabhängig, falls
P ({X = x, Y = y}) = P ({X = x})P ({Y = y})
für alle x, y ∈ R gilt.
Folgerung 6.2.2 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X, Y
Zufallsgrößen. Sind X, Y unabhängig, so existiert E(X · Y ) und es gilt E(X · Y ) = E(X)E(Y ).
Beweis:
Seien {xi |i = 1, . . . , r}, {yj |j = 1, . . . , s} die Werte von X bzw. Y . Dann sind {xi yj |i =
1, . . . , r, j = 1, . . . , s} die Werte von X · Y und wir haben
r X
s
X
i=1 j=1
xi yj P ({X · Y = xi yj }) =
=
=
r X
s
X
i=1 j=1
s
r X
X
i=1 j=1
r
X
i=1
xi yj P ({X = xi , Y = yj })
xi yj P ({X = xi })P ({Y = yj })
xi P ({X = xi })
s
X
j=1
yj P ({Y = yj })
Definition 6.2.3 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X1 , . . . , Xn
Zufallsgrößen. Diese Zufallsgrößen heißen unabhängig, falls
P ({X1 = x1 , . . . , Xn = xn }) = P ({X1 = x1 }) · · · P ({Xn = xn })
für alle x1 , . . . , xn ∈ R gilt.
Durch vollständige Induktion beweist man
Folgerung 6.2.4 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien X1 , . . . , Xn
diskrete Zufallsgrößen. Sind X1 , . . . , Xn unabhängig, so gilt
E(X1 · · · Xn ) = E(X1 ) · · · E(Xn ).
Beispiel 6.2.5 Betrachten wir die folgenden Spiele:
Spiel 1: Würfeln mit drei idealen Würfeln. Das Produkt der Augenzahlen wird in Cents ausgezahlt.
Spiel 2: Würfeln mit drei idealen Würfeln. Das Fünffache der Augensumme wird in Cents
ausgezahlt.
Welches Spiel kann man bei einem Einsatz von 50 Cents pro Spiel spielen? Wir numerieren die
Würfel und bezeichnen mit X1 , X2 , X3 die Zufallsgrößen der jeweils geworfenen Augenzahlen.
88
Es gibt 63 = 216 verschiedene Elementarereignisse. Da wir ein Laplace–Experiment unterstellen,
gelten die Identitäten
1
P ({X1 = i, X2 = j, X3 = k}) =
, 1 ≤ i, j, k ≤ 6 ,
216
und
1
, 1 ≤ i, j, k ≤ 6 .
P ({X1 = i})P ({X2 = j})P ({X3 = k}) =
216
Die Zufallgrößen sind also unabhängig. Damit gilt nach Folgerung 6.2.4 für die Gewinnerwartung:
Spiel 1: E(X1 · X2 · X3 ) = E(X1 )E(X2 )E(X3 ) = ( 72 )3 .
Spiel 2: E(5(X1 + X2 + X3 )) = 5(E(X1 ) + E(X2 ) + E(X3 )) = 5 · 3 · 72 .
Die Gewinnerwartung liegt bei Spiel 1 unter, bei Spiel 2 über dem Einsatz. Daher kann man das
zweite Spiel mitmachen, das erste dagegen aber nicht.
6.3
Varianz
Wie wir wissen, ist der Erwartungswert einer Zufallsgröße eine Maßzahl für den Schwerpunkt.
Die nun einzuführende Varianz ist eine Maßzahl für die Streuung um diesen Schwerpunkt.
Definition 6.3.1 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und sei X eine Zufallsgröße auf Ω mit Erwartungswert E(X) . Dann ist (X − E(X))2 eine Zufallsgröße mit Erwartungswert
V(X) := E((X − E(X))2 )
p
V(X) heißt die Varianz von X und σX := V(X) die Streuung oder Standardabweichung
von X .
Bemerkung 6.3.2 Die Streuung σX einer Zufallsgröße ändert sich – dank der Wurzel, die wir
über die Varianz gestülpt haben – proportional, d.h. σλX = λσX (λ > 0). Dies würde auch für die
alternative Maßzahl σ̃X := E(|X − E(X)|) gelten. Vorteile von σX gegenüber σ̃X sind leichtere
Berechenbarkeit und stärkere Bewertung großer Abweichungen vom Erwartungswert.
In der Mathematik der Finanzinstrumente (Derivate, Optionen) ist mit dem Begriff der Volatilität der Aktienkurse die Streuung/Schwankung der Aktienkurse gemeint, wobei unterstellt
wird, dass sich Aktienkurse wie ein Zufallsgröße verhalten. Hier wird der Erwartungswert meist
mit µ (Drift) und mit σ (Volatilität) die Varianz bezeichnet.
Lemma 6.3.3 Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und seien X, Y Zufallsgrößen
auf Ω mit Erwartungswerten E(X), E(Y ) und Varianzen V(X), V(Y ) . Dann gilt:
(a) V(X) = E(X 2 ) − E(X)2
(b) V(X + Y ) = V(X) + V(Y ), falls X, Y unabhängig sind.
Beweis:
Es gilt
E((X − E(X))(Y − E(Y ))) = E(XY ) − E(XE(Y )) − E(Y E(X)) + E(E(X)E(Y ))
= E(XY ) − E(X)E(Y ) − E(Y )E(X) + E(X)E(Y )
= E(XY ) − E(X)E(Y )
Nun folgt (a) durch Anwendung auf Y := X, (b) folgt ebenfalls daraus unter Zuhilfenahme von
Folgerung 6.2.2.
89
6.4
Das schwache Gesetz der großen Zahl oder die Intelligenz
der Masse
Wenn viele Leute gemeinsam auf das richtige Ergebnis kommen, dann nennen die Wissenschaftler
dies die Intelligenz der Masse. Auf dieses Phänomen gestoßen ist vor 100 Jahren der englische
Gelehrte Francis Galton und zwar als er eigentlich das Gegenteil beweisen wollte – nämlich,
dass die Masse dumm ist.4 Dem oben beschriebenem Sachverhalt wollen wir nun etwas auf den
Grund gehen.
Aus den Eigenschaften der Varianz einer unabhängigen Zufallsgröße, die einen Zufallsversuch
√
beschreiben möge, folgt das so genannte n-Gesetz. Dies soll nun skizziert werden.
Sei X eine Zufallsgröße. Bei n-maliger unabhängiger Wiederholung des X zugrundeliegenden
Zufallsversuchs beschreibe Xi den i-ten Versuch. Für die Mittelwertgröße
n
X :=
1X
Xi
n
i=1
gilt dann
1
σX = √ σ(X) ,
n
denn für die zugehörige Varianz gilt nämlich
σX =
n
X
n
1
1
1 X
V( Xi ) = 2
V(Xi ) = 2 nV(X) .
n
n i=1
n
i=1
√
Das n-Gesetz ist in mehrfacher Hinsicht wichtig für die Theorie des Messens. Bei einer
Meßreihe x1 , . . . , xn von unter denselben Bedingungen (Unabhängigkeit!) bestimmten Werten
geht man davon aus, dass die Fehler nur zufällig zustande kommen. Als besten Wert für die nun
zu messende Größe X nimmt man das arithmetische Mittel
n
x=
1X
xi
n
i=1
und als mittleren Fehler m die Standardabweichung
v
u n
X
1 u
m = √ t (xi − x)2 .
n i=1
Eine Genauigkeitsaussage x = x ± m besagt in diesem Sinne also nicht, dass x mit Sicherheit im Intervall [x − m, x + m] liegt, sondern nur mit einer gewissen Wahrscheinlichkeit. Wir
quantifizieren dies nun.
Satz 6.4.1 (Tschebyscheffsche Ungleichung) Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum und sei X eine Zufallsgröße mit Erwartungswert E(X) und Varianz V(X) . Dann
gilt für jedes ǫ > 0 :
P ({|X − E(X)| ≥ ǫ}) ≤ V(X)ǫ−2
(6.7)
4
1906 besuchte Galton die westenglische Nutztiermesse in der Nähe von Plymouth. Dort gab es einen
Schätzwettbewerb: Für sechs Pence durfte man auf das Gewicht eines Ochsen wetten. Wer am nächsten dran
lag, konnte gewinnen. Nachdem Galton die Schätzungen ausgewertet hatte, muss er ziemlich verblüfft gewesen
sein: Der Mittelwert der 787 Einzelschätzungen wich nur um ein Pfund vom tatsächlichen Gewicht des Ochsen
ab. Und – was noch erstaunlicher war – kein Einzel-Tipp (auch nicht der eines Experten) war genauer als der
Mittelwert der großen Masse.
90
Beweis:
Sei ǫ > 0. Setze Z := X − E(X) und
Y (ω) :=
0,
ǫ2 ,
falls |Z(ω)| < ǫ
falls |Z(ω)| ≥ ǫ
(6.8)
Dann ist 0 ≤ Y ≤ Z 2 und daher
V(X) = E(Z 2 ) ≥ E(Y ) = ǫ2 P ({Y = ǫ2 }) = ǫ2 P ({|X − E(X)| ≥ ǫ}) .
Der Wert der Tschebyscheffschen Ungleichung liegt in ihrer Allgemeinheit, die Abschätzung
darin ist ziemlich grob.5
Satz 6.4.2 (Schwaches Gesetz der großen Zahl) Seien X, X1 , . . . , Xn unabhängige Zufallsgrößen auf dem Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) . Es gelte
E(X) = E(Xi ) , V(X) = V(Xi ) ≤ M < ∞ , 1 ≤ i ≤ n .
Dann gilt für alle ǫ > 0 :
M
1
P ({| (X1 + · · · + Xn ) − E(X)| ≥ ǫ}) ≤ 2
n
ǫ n
(6.9)
Beweis:
1 (X + · · · + X ). Dann ist E(Z) = E(X) und
Sei Z := n
1
n
V(Z) = n−2 V(X1 + · · · + Xn ) = n−2 (V(X1 ) + · · · + V(Xn )) ≤
Nun wende man die Tschebyscheffsche Ungleichung an.
M
.
n
Durch das schwache Gesetz der großen Zahl6 können wir nun verstehen, weshalb die relative
Häufigkeit unter Umständen eine gute Approximation für Wahrscheinlichkeiten ist.
6.5
Spezielle Verteilungen
Sei (Ω, P OT (Ω), P ) ein Wahrscheinlichkeitsraum und sei X : Ω −→ R eine diskrete Zufallsgröße
mit Wertebereich WX . Wir unterscheiden:
Diskrete Verteilung
Bildbereich:
Parameter der Verteilung:
WX = {w1 , . . . , wn }
n = #WX
1 χ (x) , x ∈ R .
PX,x = P ({X = x}) = n
WX
Für den Spezialfall WX = {1, . . . , n} erhalten wir:
1
Erwartungswert:
E(X) = n +
2
2
−1
Varianz:
V(X) = n 12
Verteilung:
5
Sie wurde erstmals von Bienaymé 1853 aufgestellt, unabhängig davon fand sie P. Tschebyscheff 1867 und
verwendete sie erstmals zum Beweis des Gesetzes der großen Zahl.
6
Eine erste Version dieses zentralen Grenzwertsatzes hat A. de Moivre bewiesen.
91
Der Beweis zu den Formeln für E(X) und V(X) ist einfach:7
n
E(X) =
1 n(n + 1)
n+1
1X
i=
=
n
n
2
2
i=1
V(X) =
n
n
1X
n+1 2
1X 2
n + 1 2 n2 − 1
(i −
) =
i −(
) =
n
2
n
2
12
i=1
i=1
Zu diesem Typ von Verteilung haben wir schon Beispiele kennengelernt.
Bernoulli–Verteilung
Bildbereich:
Parameter der Verteilung:
WX = {0, 1}
p ∈ [0, 1] (“Erfolgswahrscheinlichkeit“)
PX,x = P ({X = x}) = px (1 − p)1−x χWX (x) , x ∈ R .
Verteilung:
E(X) = p
Erwartungswert:
V(X) = p(1 − p)
Varianz:
Der Beweis zu den Formeln für E(X) und V(X) ist einfach:
E(X) = 1p + 0(1 − p) = p , V(X) = 12 p + 02 (1 − p) − p2 = p(1 − p) .
Jedes Bernoulli–Experiment beinhaltet die Bernoulli–Verteilung; der Münzwurf (p = 21 ) kann
als Beispiel dafür dienen.
Beispiel 6.5.1 Wir betrachten ein Bernoulli–Experiment mit Erfolgswahrscheinlichkeit p ∈
[0, 1]. Wir wiederholen dieses Experiment n−mal unabhängig und setzen für ein Ereignis A ⊂ Ω
1 , falls ω ∈ A
,1 ≤ i ≤ n.
Xi (ω) :=
0 , sonst
Dann ist
1
E(Xi ) = p , V(Xi ) = p(1 − p) ≤ , 1 ≤ i ≤ n,
4
1 (X + · · · + X ) ist die relative Häufigkeit der Erfolge. Also ist
und hn := n
1
n
P ({|hn − p| ≥ ǫ} ≤
1
4ǫ2 n
Für großes n ist also die Wahrscheinlichkeit dafür, dass die relative Häufigkeit der Erfolge sich
mehr als ǫ von der Erfolgswahrscheinlichkeit p unterscheidet, sehr klein. Dies ist der Schlüssel
dafür, abwägen zu können, ob ein Glückspiel mit Einsatz und Auszahlung vorteilhaft ist.
Binomial–Verteilung
Bildbereich:
Parameter der Verteilung:
Verteilung:
Erwartungswert:
Varianz:
7
WX = {0, 1, . . . , n}
n, p
x
n−x
PX,x = n
χWX (x) , x ∈ R .
x p (1 − p)
E(X) = np
V(X) = np(1 − p)
Wir benutzen die bekannte Identität
Pn
i=1
i2 =
n(n+1)(2n+1)
6
92
.
Der Beweis zu den Formeln für E(X) und V(X) ist nun schon etwas trickreich“:
”
n
n
X n
X n
i
pi (1 − p)n−i
i
pi (1 − p)n−i =
E(X) =
i
i
i=1
i=0
n n
X
X
n−1 i
n − 1 i−1
n−i
n
p (1 − p)
= np
=
p (1 − p)(n−1)−(i−1)
i−1
i−1
i=1
i=1
n−1
X n−1
= np
pj (1 − p)(n−1)−j = np(p + (1 − p))n−1 = np
j
j=0
Der Nachweis für die Formel für V(X) gelingt mit vergleichbaren Rechenschritten.
Beispiel 6.5.2 Ein Versuch bestehe aus der n–maligen Durchführung eines Bernoulli–Experimentes mit Erfolgswahrscheinlichkeit p ∈ [0, 1] . Die Menge der Elementarereignisse wird dann
adäquat beschrieben durch Ω := {0, 1}n . Die Bernoulli–Experimente sollen unabhängig voneinander durchgeführt werden, das Wahrscheinlichkeitsmaß auf Ω ist also das Produktmaß. Die
erfolgreichen Ausgänge unter den n Experimenten werden gezählt durch die Zufallsgröße
X : Ω ∋ (ω1 , . . . , ωn ) 7−→ ω1 + · · · + ωn ∈ R .
Damit haben wir
n x
P ({X = x}) =
p (1 − p)n−x , x ∈ {0, . . . , n} ,
x
und X ist also binomialverteilt.
Nach diesem Beispiel sehen wir auch einen anderen Weg, die Varianz einer Binomial–Verteilung
zu berechnen: Wir fassen die Zufallsgröße X als Summe von Zufallsgrößen X1 , . . . , Xn auf, die
unabhängig und einzeln nach Bernoulli verteilt sind. Also
V(X) = V(X1 ) + · · · + V(Xn ) = np(1 − p) .
Geometrische Verteilung
Bildbereich:
WX = N0
Parameter der Verteilung:
p ∈ (0, 1]
PX,x = P ({X = x}) = p(1 − p)x χWX (x) , x ∈ R .
1−p
E(X) = p
1−p
V(X) =
p2
Verteilung:
Erwartungswert:
Varianz:
Der Nachweis für die Formeln für E(X) und V(X) gelingt bei Verwendung der Formeln
∞
X
j=0
∞
X
q + q2
q
2 j
j
q
=
,
,
jq =
(1 − q)2
(1 − q)3
j
j=0
welche für q ∈ [0, 1) gültig sind, sehr leicht. Wir beweisen die erste der beiden Formeln: Für
N ∈ N gilt
N
X
jq j ) · (1 − q)2 = q − 2N q N +1 + N q N +2
(
j=0
93
und Grenzübergang liefert die Aussage, wenn wir noch beachten, daß die Folge (nq n )n∈N gegen
0 konvergiert,
wenn |q| < 1 ist. Dies sieht man nun so:
p
√
Es ist |q| < 1 . Wegen lim n n = 1 (siehe Lemma ??) gibt es N ∈ N mit
n∈N
1≤
√
n
Also gilt für alle n ≥ N
1
n ≤ p für alle n ≥ N .
|q|
p
√
1
|nq n | = | n nq|n ≤ ( p |q|)n = ( |q|)n .
|q|
p n
Die Aussage folgt nun aus der Tatsache, daß lim |q| = 0 gilt.
n∈N
Interessiert man sich für die Anzahl der Versuche, bis bei einer mehrfachen Wiederholung
eines Bernoulli–Experiments mit Erfolgswahrscheinlichkeit p ∈ (0, 1] zum ersten Mal ein Erfolg
eintritt, dann beschreibt die Zufallsgröße X mit der Verteilung
PX,x = P ({X = x}) = p(1 − p)x χN0 (x) , x ∈ R ,
die Anzahl der Abbrüche bis zur ersten erfolgreichen Durchführung.
Hypergeometrische Verteilung
Bildbereich:
Parameter der Verteilung:
Verteilung:
Erwartungswert:
Varianz:
WX = {0, 1, . . . , n}
n<N.
n, M, N, p := M
N mit M< N,
M
N −M
x n− x
PX,x = P ({X = x}) =
χWX (x) , x ∈ R .
N
n
(Konvention ji = 0 für j < 0 oder j > i )
E(X) = np
−n
V(X) = np(1 − p) N
N −1
Zur Berechnung von E(X) eine Vorbemerkung. Man beweist für (zulässige) p, q, r ∈ N die Formel
r X
p
q
p+q
=
(6.10)
k
r−k
r
k=0
Damit gelingt nun die Berechnung des Erwartungswertes wie folgt:
−1 X
−1 X
n
n
M
N
N −M
N
M
N −M
x
E(X) =
=
k
x
n
n−x
n
k
n−k
x=0
k=1
−1 X
−1 X
n
n−1 N
M −1 N −M
N
M −1
N −M
=
M
=M
n
k−1
n−k
n
j
n−1−j
j=0
k=1
−1 N
M −1+N −M
M
n.
= M
=
N
n
n−1
Die Berechnung der Formel für V(X) erfolgt auf ähnlichem Wege.
94
Beispiel 6.5.3 Zur Herleitung einer Zufallsgröße, die hypergeometrisch verteilt ist, gehen wir
von einer für diese Verteilung typischen Situation (Qualitätskontrolle) aus:
Ein Warenposten umfasst N Teile, unter denen sich M Ausschussteile befinden. Wir
entnehmen diesem Warenposten nacheinander und ohne Zurücklegen – es möge etwa
eine Beschädigung“ durch die Entnahme nicht auszuschließen sein – n Teile und
”
interessieren uns für die Wahrscheinlichkeitsverteilung derjenigen Zufallsgröße X,
die die Anzahl der Ausschussteile in einer solchen Stichprobe angibt.
Es sei X die Anzahl der defekten Teile, die beim Versuch gezogen werden. Ein Elementarereignis dieses Versuches besteht aus einer n–Teilmenge aller Teile des Warenpostens.
Jedes Ele
mentarereignis ist gleichwahrscheinlich und hat daher die Wahrscheinlichkeit N
.
Das
Ereignis
n
{X = x} tritt ein, wenn man x–mal eindefektes Teil und (N − x)–mal ein fehlerfreies Teil
N −M
entnimmt. Für die erste Wahl gibt es M
Möglichkeiten.
x , für die zweite Wahl gibt es
n−x
Damit wird
M
N −M
x
n−x
,
P ({X = x}) =
N
n
falls x zum Wertebereich der Zufallsgröße gehört. Die Zufallsgröße hat also eine hypergeometrische Verteilung.
6.6
Die Gauß– und Poisson–Verteilung
Nun folgen zwei Verteilungen, die nicht in unseren gesetzten Rahmen passen: ihr zugrundeliegender Wahrscheinlichkeitsraum und ihr Wertebereich ist nicht endlich. Wir skizzieren sie ohne
genauer auf eine Anpassung der Begriffe einzugehen.
Poisson–Verteilung
Bildbereich:
WX = N0
Parameter der Verteilung:
λ
Verteilung:
PX,x = P ({X = x}) =
Erwartungswert:
E(X) = λ
Varianz:
V(X) = λ
exp(−λ)λx
χWX (x) , x ∈ R .
x!
Der Nachweis der Formel für den Erwartungswert ist einfach:
E(X) =
∞
X
k exp(−λ)
k=1
k=0
= λ exp(−λ)
∞
X λk
λk
= exp(−λ)
k!
(k − 1)!
∞
X
k=0
λk
k!
= λ exp(−λ) exp(λ) = λ .
Der Nachweis der Formel für die Varianz erfolgt mit ähnlichen Rechenschritten.
Die Verteilung geht auf S.D. Poisson8 zurück. Stichworte können sein: Anzahl der Telefonanrufe pro Zeiteinheit in der Telefonzentrale einer Firma, Anzahl der von einer radioaktiven
Probe ausgestrahlten Partikel pro Zeiteinheit, Anzahl von Jobs, die pro Zeiteinheit an einem
Rechnerserver eintreffen, . . . .
8
Poisson, Simeon D. (1781 — 1840)
95
Wir haben die Binominalverteilung kennengelernt. Ihre Verteilung enthält die Parameter p
und n. Macht man nun den Grenzübergang n → ∞ bei festem p, so erhält man als Näherung
für die Binominalverteilung die Normalverteilung in folgendem Sinne:
P ({X = k}) ≈ p
1
2πnp(1 − p)
exp(−
(k − np2 )
)
2np(1 − p)
Diese Näherung ist schlecht, wenn p nahe 0 oder 1 liegt oder wenn n klein ist. In der Praxis
betrachtet man die Näherung als brauchbar, wenn etwa np(1 − p) ≥ 10 gilt.
Normalverteilung
Bildbereich:
WX = R
Parameter der Verteilung:
µ, σ ∈ R, σ > 0
Verteilung:
PX∈B = P ({X ∈ B}) =
Erwartungswert:
E(X) = µ
Varianz:
V(X) = σ
6.7
1.)
R
B
µ 2
√1 exp − 21 x −
dx , B ⊂ R .
σ
σ 2π
Übungen
Ein fairer Würfel wird n-mal geworfen. Die Zufallsgröße Xn sei die größte der geworfenen
Augenzahlen, also
Xn (a1 , . . . , an ) = max aj , (a1 , . . . , an ) ∈ Ω := {1, . . . , 6} × · · · × {1, . . . , 6} .
1≤j≤n
Zeige: limn E(xn ) = 6 .
2.)
Die Zufallsgröße X nehme die Werte 0, 1, 2 . . . , n an. Zeige:
E(X) =
n
X
j=0
p(X ≥ j) .
3.)
Ein fairer Würfel wird 2-mal geworfen. Der Erwartungswert für die größte der geworfenen
Augenzahlen ist 161
36 .
4.)
Sei Y die Zufallsgröße, die die kleinste Augenzahl beim zweimaligen Würfeln beschreibt.
Bestimme den Erwartungswert von Y mit der vorhergehenden Aufgabe.
5.)
Beim Fussballtoto wird das Ergebnis eines ausgefallenen Spieles augelost. Steht in der
Totozeitung, dass die Tendenz etwa des Spiels TSG Hoffenheim – Bayern München 2:3:5
(S:U:N) betrage, dann soll dies bei der Auslosung berücksichtigt werden. Stelle ein Urnenmodell dafür her.
96
Kapitel 7
Nullstellen nach Newton
Das Newtonsche Näherungsverfahren, auch Newton-Raphsonsche Methode1 , ist in der Mathematik ein Standardverfahren zur numerischen Lösung von nichtlinearen Gleichungen und Gleichungssystemen. Die grundlegende Idee dieses Verfahrens ist, die Funktion in einem Ausgangspunkt zu linearisieren, was z.B. bei Polynomen einfach ist. Ein Charakteristikum dieses Verfahrens ist, dass es im allgemeinen sehr schnell gute Näherungswerte liefert.
7.1
Polynome
Sei K := R der Körper der reellen Zahlen. Mit Körper meinen wir nicht nur die Menge der Zahlen, die R enthält, sondern auch die uns vertrauten Rechenarten einschließlich der Rechenregeln.
Ein Auszug davon ist:
Addition a + b = b + a .
Subtraktion a − b = b − a mit a − a = 0 . (0 ist die Null)
Multiplikation ab = ba mit 1a = a . (1 ist die Eins)
Division ab−1 = a/b mit bb−1 = 1 . (Achtung: b 6= 0!)
Anordnung a > 0 oder a = 0 oder a < 0 .
√ n
Wurzel n a = a . (Achtung: a ≥ 0, d.h. a > 0 oder a = 0)
Distributionelles Rechnen a(b + c) = ab + ac
Betrag |a| = a, falls a ≥ 0, −a, sonst.
Unten werden wir noch kurz auf den Körper K := C der komplexen Zahlen zu sprechen kommen.
In diesem Zahlbereich ist Vorsicht bei der Wurzelberechnung geboten, eine Anordnung komplexer
Zahlen existiert nicht!
Betrachte
p(x) := p(a0 ,...,an ) (x) = a0 + a1 x + · · · + an−1 xn−1 + an xn =
n
X
ak xk ,
(7.1)
k=0
Ein Ausdruck dieser Art heisst ein Polynom mit Koeffizienten a0 , . . . , an in R . Ist an 6= 0 und
n ≥ 1, so sagen wir, dass das Polynom den Grad n hat, anderenfalls den Grad 0 . Wir fassen die
Polynome zusammen in R[x]:
R[x] := {p|p Polynom} .
(7.2)
1
Sir Isaac Newton, 1669 und Joseph Raphson, 1690
97
Eine Teilmenge davon bilden die Polynome vom Grad höchstens n:
Rn [x] := {p|p Polynom vom Grad ≤ n} .
(7.3)
Ein solches Polynom p ∈ R[x] kann man auch als Abbildung interpretieren:
R ∋ x 7−→ p(x) ∈ R .
Aus der Schulmathematik ist man vertraut mit Polynomen kleinen Grades:
• Grad 0: Konstanten
• Grad 1: Lineare Funktionen.
• Grad 2: Parabeln (Graphen von quadratischen Polynomen)
• Grad 3: Kubische Polynome
Die Auswertung von p in einem Punkt x ∈ R kann durch Auswertung der Monome und
Aufsummierung der Terme erfolgen. Man muss folgenden Aufwand betreiben:
n Additionen und 1 + 2 + · · · + n = 21 n(n + 1) Multiplikationen.
Ein effizientere Methode basiert auf der Beobachtung, dass jedes Polynom p = p(a0 ,...,an ) (siehe
(7.1)) als
(7.4)
p(x) = a0 + x(a1 + x(a2 + · · · + x(an−1 + an x) · · · )).
geschrieben werden kann. Diese Schreibweise eines Polynoms führt zur Horner–Methode zur
Auswertung von Polynomen. Wir lesen ab, dass die Auswertung von p in x auf diese Weise mit
Hilfe von
n Additionen und n Multiplikationen
erfolgen kann. Dieses Beobachtung kann als Geburtsstunde der Komplexitätstheorie für Algorithmen angesehen werden. Hier ist ein algorithmisches Fragment der Horner Methode:
Horner–Methode:
bn−1 := an ;
for j = n − 2, n − 3, . . . , 0 do
bj := aj+1 + xbj+1 ;
p(x) = a0 + xb0
7.2
Das Nullstellenproblem
Wir betrachten nun das Problem der Auflösbarkeit von polynomialen Gleichungen mit Koeffizienten im Körper R . Eine Gleichung der Form
x−c=0
(7.5)
heißt eine lineare Gleichung. Der einzige Lösung ist x = c .
Gegeben sei die quadratische Gleichung
ax2 + bx + c = 0
98
(7.6)
b , denn für y ergibt sich die
für a 6= 0. Sie wird vereinfacht durch die Substitution y = x + 2a
Gleichung
b2 − 4ac
,
(7.7)
y2 =
4a2
deren Lösungskandidaten auf der Hand liegen:
y=±
1p 2
b − 4ac .
2a
Die Lösungskandidaten von (7.6) werden damit mit
x=−
b
1p 2
b − 4ac
±
2a 2a
(7.8)
beschrieben. Aus der Gleichung (7.8) liest man auch die Methode der quadratischen Ergänzung ab:
b
b2
c
b2
b
(x + )2 = x2 + x + 2 = − + 2 .
2a
a
4a
a 4a
2
Lösbarkeit der Gleichung (in R) liegt also vor, wenn b − 4ac ≥ 0 ist. Die Tatsache, dass keine
Lösbarkeit vorliegt, wenn dies nicht der Fall ist, hat das Interesse für eine Erweiterung der reellen
Zahlen zum Körper C der komplexen Zahlen geweckt (Hier liegt dann Lösbarkeit universell vor.
Insbesondere hat die Gleichung x2 + 1 = 0 die Lösungen (Wurzeln) x = ±i.)
Bemerkung 7.2.1 Aus der Formel (7.8) lesen wir ab, dass das Produkt der Lösungen der
quadratischen Gleichung (7.6) für a = 1 gleich dem Koeffizienten c ist. Diese Tatsache bezeichnet
man als Vietaschen Wurzelsatz.
Betrachte die kubische Gleichung
ax3 + bx2 + cx + d = 0
(7.9)
b , denn für y ergibt sich die
für a 6= 0. Sie wird vereinfacht durch die Substitution y = x + 3a
Gleichung
y 3 = py + q,
wobei p, q gewisse rationale Ausdrücke in a, b, c, d sind. Diese Gleichung ist immer noch nicht
einfach, aber folgende Substitution y = u + v 2 Diese Idee hilft weiter, denn es entsteht
3uv(u + v) + u3 + v 3 = p(u + v) + q.
Wir spalten auf in
3uv = p , u3 + v 3 = q,
p
setzen v := 3u , und lösen
u3 + (
p
p 3
) = q , d.h. (u3 )2 − qu3 + ( )3 = 0 .
3u
3
Dies ist eine quadratische Gleichung in u3 und wir haben mit (7.8)
r
q
p
q
3
u = ± ( )2 − ( )3 .
2
2
3
2
Die Idee mit den Hilfsgrößen u, v hatte wohl Scipione del Ferro (1465? – 1526), ausgearbeitet wurde sie dann
von Niccolo Tartaglia (1500? – 1557) und Geronimo Cardano (1501 – 1576).
99
Die Symmetrie der Formeln in u und v hat zur Folge, dass sich für v nichts wesentlich Neues
ergibt. Wir erhalten
r
r
p 3 3
q
p
q
q 2
q
3
u = + ( ) − ( ) , v = − ( )2 − ( )3 ,
2
2
3
2
2
3
und daher
x=
s
3
q
+
2
r
q
p
( )2 − ( )3 +
2
3
s
3
q
( −
2
r
q
p
b
( )2 − ( )3 −
.
2
3
3a
(7.10)
b gefunFür die ursprüngliche Gleichung (7.9) haben wir so einen Lösungskandidaten x = y − 3a
den. Durch Division mit Rest reduzieren wir dann die Gleichung 3. Grades auf eine Gleichung 2.
Grades und behandeln diese nach dem schon vorgestellten Verfahren für Gleichungen 2. Grades
weiter.
Betrachte die quartische Gleichung
ax4 + bx3 + cx2 + dx + e = 0
(7.11)
b vereinfacht zu
für a 6= 0. Diese Gleichung wird durch die Substitution y = x + 4a
y 4 + py 2 + qy + r = 0,
wobei p, q, r gewisse rationale Ausdrücke in a, b, c, d, e sind. Wir schreiben sie um zu
(y 2 + p)2 = py 2 − qy + p2 − r
– dieser Reduktionsschritt geht wohl auf R. Descartes zurück – und erweitern
(y 2 + p + u)2 = (py 2 − qy + p2 − r) + 2u(y 2 + p) + u2
mit beliebigem u ∈ K. Wähle nun u so, dass
py 2 − qy + p2 − r + 2u(y 2 + p) + u2 = Ay 2 + By + C
ein Quadrat wird; hierbei ist A := p + 2u, B := −q, C := p2 − r + 2up + u2 . Dies gelingt dann,
wenn
B 2 − 4AC = 0
gilt. Dies ist eine kubische Gleichung für u, die nach dem obigen Verfahren behandelt werden
kann. Nach Wahl von u ziehen wir nun die Wurzel und lösen die resultierende quadratische
b ergibt Lösungen für die Gleichung
Gleichung für y. Einsetzen in die Substitution x = y − 4a
(7.11).
Betrachte das Polynom
p(x) := p(a0 ,...,an ) (x) = a0 + a1 x + · · · + an−1 x
n−1
n
+ an x =
n
X
ak xk
(7.12)
k=0
mit den reellen Koeffizienten a0 , . . . , an . Wenn wir alle Nullstellen kennen, dann können wir das
Polynom hinschreiben als Produkt der Linearfaktoren:
m1
p(x) = an (x − z1 )
mk
· · · (x − zk )
100
,
k
X
l=1
ml = n
wobei zl bzw. ml die l-te Nullstelle von p bzw. ihre Mehrfachheit bezeichnet.
Die Aussage, dass jedes nicht konstante Polynom mit Koeffizienten in R eine Nullstelle im
Körper der komplexen Zahlen besitzt, wird der Fundamentalsatz der Algebra genannt. Alle
bekannten Beweise dieses Satzes3 benützen offen oder versteckt auch das Konzept Stetigkeit“
”
aus der Analysis.
Hier sind drei Probleme, die schon im Altertum formuliert wurden und die alle mit polynomialen Gleichungen zu tun haben.
1. Dreiteilung des Winkels (Teilung eines Winkels in drei gleiche Teile.)
2. Verdoppelung des Würfels (Konstruktion der Seite eines Würfels, dessen Volumen
zweimal so groß ist wie das des gegebenen Würfels.) Es wird das Delische Problem genannt.
3. Quadratur des Kreises (Konstruktion eines Quadrates mit einer Fläche, die der Fläche
eines gegebenen Kreises gleich ist.)
Die Herausforderung bei der Beschäftigung mit den Problemen besteht darin, dass als Handi”
cap“ verlangt wird, dass die Lösungen der Probleme mit Zirkel und Lineal konstruierbar sein
sollen. Ob dies möglich ist, kann mit der algebraischen Theorie der Körpererweiterung beantwortet werden. Bezogen auf die Probleme bedeutet dies, dass gewisse den Problemen zugeordnete
Polynome Nullstellen in Körpern besitzen, die aus dem Körper Q der rationalen Zahlen problembezogen in durchsichtiger Weise abgeleitet werden.
Die Quadratur des Kreises kann nicht gelingen, da man nun weiß, dass die Kreiszahl π
transzendet ist, also keine Nullstelle eines Polynoms mit rationalen Koeffizienten sein kann.
Ebenso besitzt das Delische Problem keine Lösung mit Zirkel und Lineal. Auch das Problem der
Winkeldreiteilung mit Zirkel und Lineal besitzt im allgemeinen keine Lösung. Etwa ist dies der
Fall für die Dreiteilung von π .
7.3
Nullstellensuche nach Newton
Sir Isaac Newton beschreibt4 ein Rechenverfahren zum Lösen einer polynomialen Gleichung und
begründet damit ein Verfahren, das heutzutage als Newton-Verfahren bezeichnet wird.
Er tut dies am Beispiel des Polynoms p(x) := x3 − 2x − 5 = 0 . Eine leicht zu erratende
Näherung 0-ter Ordnung“ ist x0 = 2, denn p(2) = −1 ist klein“. Newton machte den Ansatz
”
”
x = 2 + u mit einem als klein“ angenommenen u und setzte diesen Ansatz in die Gleichung ein.
”
Es gilt:
x3 = (2 + u)3 = 8 + 12u + 6u2 + u3 , 2x = 2(2 + u) = 4 + 2u .
Also folgt
!
x3 − 2x − 5 = −1 + 10u + 6u2 + u3 = 0 .
Da u als klein“ angenommen wurde, können die Terme höherer Ordnung gegen den linearen
”
und konstanten Anteil vernachlässigt werden, womit 10u − 1 = 0 bzw. u = 0.1 übrig bleibt. Als
Näherung x1 1-ter Ordnung resultiert x1 = 2.1 .
Wir können nun dieses Vorgehen wiederholen: wir setzen u = 0.1 + v an, betrachten die
Gleichung p(2 + 0.1 + v) = 0, berücksichtigen wiederum nur den linearen Anteil und erhalten so
v = −0.061/11.23 = −0.0054 . . . . Als Näherung x2 2-ter Ordnung resultiert x2 = 2.0946 .
3
C.F. Gauß (1777 – 1855) publizierte 1799 den ersten strengen Beweis, später gab er einige weitere Beweise
dafür.
4
Isaac Newton, 1643–1727; Methodus fluxionum et serierum infinitarum“
”
101
Raphson5 beschrieb diesen Rechenprozess formal und illustrierte den Formalismus an der
allgemeinen Gleichung 3. Grades, die abstrakte Form des Verfahrens mit Benutzung von Ableitungen stammt von Thomas Simpson. Zur Simpsonschen Form kommen wir nun.
Sei f : R −→ R . Eine Nullstelle wird nach folgendem Vorgehen gesucht:
(1) Man rät eine Näherung x0 . O.E. f (x0 ) 6= 0 .
(2) Man berechnet/zeichnet die Tangente t0 an den Graphen von f im Punkt
(x0 , f (x0 )) .
(3) Man berechnet/konstruiert die Nullstelle x1 der Tangente.
(4) Man setzt x0 := x1 und wiederholt den Vorgang, beginnend bei (1).
Klar, um die Tangente bestimmen zu können, müssen wir voraussetzen, dass diese existiert, was
die Differenzierbarkeit von f voraussetzt. Dann lautet die Tangentengleichung
t0 : y = f (x0 ) + f ′ (x0 )(x − x0 )
(7.13)
und die Berechnung der Nullstelle von t0 führt zur Formel
x1 = x0 − f ′ (x0 )−1 f (x0 ) .
(7.14)
Hier tritt das Problem auf, dass f ′ (x0 ) 6= 0 gelten muss, d.h. dass f in (x0 , f (x0 )) keine waagrechte Tangente besitzt. Von der Anschauung her, keine überraschende Forderung, von der Analyse
des Verfahrens her eine Forderung, die sukzessive oder a-priori sichergestellt werden muss.
Schreiben wir das Verfahren nun kompakt auf:
xn+1 := xn − f ′ (xn )−1 f (xn ) , n = 0, . . . .
(7.15)
Dabei ist die Startnäherung x0 zu wählen. Wir nennen dieses Vorgehen nun Newton–Verfahren; siehe Abbildung 7.1.
Das Newton–Verfahren ist ein so genanntes lokal
konvergentes Verfahren. Konvergenz der in der
Newton–Iteration erzeugten Folge zu einer Nullstelle ist also nur garantiert, wenn der Startwert,
d.h. das 0-te Glied der Folge, schon ausreichend
”
nahe“ an der Nullstelle liegt. Ist der Startwert
nicht gut genug, so haben wir zu rechnen mit:
• Die Folge divergiert, der Abstand zur Nullstelle wächst über alle Grenzen.
• Die Folge divergiert, bleibt aber beschränkt. Sie kann z.B. periodisch werden,
d.h. endlich viele Punkte wechseln sich in
immer derselben Reihenfolge ab. Man sagt
auch, dass die Folge oszilliert (Bei f (x) :=
x3 − 2x + 2 ist dies machbar).
t
f(x)
t
x1
x0
x2
Abbildung 7.1: Newtonverfahren
• Die Folge konvergiert, falls die Funktion
mehrere Nullstellen hat, gegen eine andere
als die gewünschte Nullstelle konvergieren; in der Abbildung 7.1 kann man dies erahnen.
5
Joseph Raphson, 1648–1715; Arbeit Analysis Aequationum universalis“
”
102
Ist der Startwert x0 so gewählt, dass das Newton–Verfahren konvergiert, so ist die Konvergenz
allerdings quadratisch, also mit der Konvergenzordnung 2 (falls die Ableitung an der Nullstelle
nicht verschwindet).
Bemerkung 7.3.1 Wie ordnet sich das Newtonsche Vorgehen hier nun ein? Ausgehend von
der Startnäherung x0 = 2 wird ein Newtonschritt auf die Nullstellengleichung p(x + 2) = 0 mit
x = 0 als Startnäherung angewendet:
x1 := 0 −
1
p(2)
.
=
′
10
p (2)
Nun betrachtet man die Nullstellengleichung p(x + 2.1) = 0 mit x = 0 als Startnäherung und
wendet wieder einen Newtonschritt mit Ausgangsnäherung x = 0 an:
x2 := 0 −
0.061
p(2.1)
=
.
′
11.23
p (2.1)
Und so weiter!
Viele nichtlineare Gleichungen haben mehrere Lösungen, so hat ein Polynom n-ten Grades
bis zu n (reelle) Nullstellen. Will man alle Nullstellen in einem bestimmten Bereich D ⊂ R
ermitteln, so muss zu jeder Nullstelle ein passender Startwert in D gefunden werden, für den
das Newton–Verfahren konvergiert. Ein beliebtes Vorgehen dazu besteht in Einschachtelungsverfahren: zwischen zwei Punkten z 1 , z 2 , so dass f (z 1 ), f (z 2 ) unterschiedliche Vorzeichen besitzen,
liegt immer eine Nullstelle von f, da wir ja Differenzierbarkeit von f (und damit Stetigkeit)
voraussetzen. (Man erinnere sich an die Charakterisierung der Stetigkeit, einen Graph in einem
Zug hinzeichnen zu können. Man kommt dann bei einer Funktion, die Werte unterschiedlichen
Vorzeichens annimmt, unwillkürlich beim Wert Null vorbei“.)
”
Beispiel 7.3.2 Ein Spezialfall des Newtonschen Näherungsverfahrens ist das Babylonische Wurzelziehen, auch bekannt als Heronverfahren nach Heron von Alexandria: Wendet man das Verfahren zur Nullstellenbestimmung auf die Funktion f (x) := x2 − a (a > 0), so erhält man wegen
√
der Ableitungsfunktion f ′ (x) = 2x für die Lösung a das Näherungsverfahren
(xn )2 − a
a
1 n
xn+1 := xn −
x
+
=
.
2xn
2
xn
Dieses Verfahren konvergiert für jedes a ≥ 0 und für jeden beliebigen Anfangswert x0 > 0 . Beispiel 7.3.3 Die Quadratwurzel einer Zahl a > 0 sind die Nullstellen der Funktion f (x) :=
1− a/x2 . Diese Funktion hat die Ableitung f ′ (x) = 2a/x3 , die Newton-Iteration erfolgt also nach
der Vorschrift
xn
(xn )2
(xn )3 xn
n+1
n
+
=
3−
.
x
:= x −
2a
2
2
a
Der Vorteil dieser Vorschrift gegenüber dem Wurzelziehen nach Heron (siehe Beispiel 7.3.2)
ist, dass es divisionsfrei ist, sobald einmal der Kehrwert von a bestimmt wurde. Als Startwert
wurde in der Tabelle x0 := (1 + a)/2 gewählt. Die Iterierten wurden an der ersten ungenauen
Stelle abgeschnitten. Es ist zu erkennen, dass nach wenigen Schritten die Anzahl gültiger Stellen
schnell wächst.
n
0
1
2
3
4
5
xn bei a = 2
xn bei a = 3 xn bei a = 5
1, 5
2
3
1, 40
1, 6
1, 8
1, 4141
1, 72
2, 1
1, 41421355
1, 73203
2, 22
1, 41421356237309502
1, 7320508074
2, 23601
1, 414213562373095048801688724209697 1, 73205080756887729351 2, 236067975
103
Das Newton-Verfahren gilt als ein sehr effizientes Verfahren (in den Naturwissenschaften
und anderswo). Worin ist dies begründet, obwohl das Problem der guten Startnäherung und
die Tatsache, dass eine Ableitung ausgerechnet werden muss, schwer wiegen? Es liegt an vier
Beobachtungen, die in der Literatur ausreichend diskutiert wurden und immer noch werden:
(1) Das Verfahren hat eine naheliegende Erweiterung auf Aufgaben in mehreren Variablen.
(2) Das Verfahren konvergiert unter gut zu durchschaubaren Voraussetzung (siehe unten) quadratisch.
(3) Das Verfahren kann modifiziert werden, um die Berechnung der Ableitung in jedem Schritt
zu vermeiden. Etwa durch:
xn+1 := xn − f ′ (x0 )−1 f (xn ) , n = 0, . . . .
(7.16)
Allerdings ist dann die Konvergenzgeschwindigkeit schlechter.
(4) Das Verfahren kann globalisiert werden, d.h. man kann Vorkehrungen einbauen, die sicherstellen, dass das so abgeänderte Verfahren auch bei schlechten“ Startwerten konvergiert;
”
das Stichwort ist Schrittweitensteuerung:
xn+1 := xn − λn f ′ (xn )−1 f (xn ) , n = 0, . . . .
(7.17)
Sei f eine dreimal differenzierbare Funktion mit einer Nullstelle z , in der die erste Ableitung
nicht verschwindet, d.h. f ′ (z) 6= 0 . Diese Voraussetzung besagt, dass der Graph von f die
x-Achse transversal schneidet“. Wir wissen aus
”
1
0 = f (z) = f (x) + f ′ (x)(z − x) + f ′′ (ξ)(z − x)2
2
und daher
x−z =
f (x)
1 f ′′ (ξ)
+
(x − z)2 .
f ′ (x) 2 f ′ (x)
Nun stellen wir so um, dass wir eine Verbindung mit der Newtoniteration sehen:
x−
1 f ′′ (ξ)
f (x)
−
z
=
(x − z)2 .
2 f ′ (x)
f ′ (x)
Ist nun I ein Intervall um z, in dem die Ableitung von f nicht verschwindet – dies kann auf
Grund der Tatsache, dass f ′ (z) 6= 0 gilt, sichergestellt werden – dann folgt mit
m := inf |f ′ (x)| , M := max |f ′′ (x)| , K :=
x∈I
x∈I
|x −
f (x)
− z| ≤ K|x − z|2 , x ∈ I .
f ′ (x)
die Abschätzung
Dies hat zur Konsequenz, dass für die Newtoniterierten xn gilt
n
K|xn − z| ≤ (K|x0 − z|)2 , n ∈ N0 ,
104
M
2m
was man mittels vollständiger Induktion beweisen kann. Ist also K|x0 −z| < 1, dann wird |xn −z|
sehr schnell klein.
Bei der Bestimmung von Nullstellen von Polynomen ist folgender Hinweis wichtig: hat man
eine Nullstelle z 0 gefunden, so kann man diese Nullstelle aus dem Polynom entfernen durch
”
Polynomdivision durch den Linearfaktor x − z 0 ; man hat so den Grad des Polynoms um eins
verkleinert.
Beispiel 7.3.4 Betrachte das Polynom
p(x) := x3 − 3x2 − x + 3 .
Es hat die Nullstelle x = 1, was man etwa erraten kann. Polynomdivision ergibt
p(x) : (x − 1) = x2 − 2x − 3
und als weitere Nullstellen finden wir x = 1 und x = 3 .
Division mit Rest ist nicht nur mit Linearfaktoren möglich. Allgemeiner führt man die Rechnung
r(x)
p(x) : q(x) = s(x) +
q(x)
durch.
7.4
Anhang: Realisierung des Newtonverfahrens in den komplexen Zahlen
Die Tatsache, dass in R eine Anordnung existiert, zeigt, dass in R die Gleichung
x2 + 1 = 0
(7.18)
keine Lösung hat, da x2 nichtnegativ und 1 = 12 positiv ist. Wir erweitern nun die reellen Zahlen
zu einem Körper der komplexen Zahlen. In diesem Körper hat dann die Gleichung (7.18) eine
Lösung.
Definiere in R2 die folgenden Verknüpfungen:
+ : R2 × R2 ∋ ((a, b), (c, d)) 7−→ (a + c, b + d) ∈ R2 ,
· : R2 × R2 ∋ ((a, b), (c, d)) 7−→ (ac − bd, ad + bc) ∈ R2 .
(Addition)
(Multiplikation)
Dann sind
(R2 , +) , (R2 \{(0, 0)}, ·) abelsche Gruppen .
Das neutrale Element bzgl. der Addition ist (0, 0), das neutrale Element bzgl. der Multiplikation
ist (1, 0) . Das Inverse von (a, b) ∈ R2 bzgl. der Addition ist (−a, −b), das Inverse von (a, b) 6=
(0, 0) bzgl. der Multiplikation ist (a(a2 + b2 )−1 , −b(a2 + b2 )−1 ) . Mit diesen Verknüpfungen wird
R2 ein Körper. Diesen Körper wollen wir nun den
Körper der komplexen Zahlen
105
nennen. Eine vielleicht eher bekannte Notation der Elemente von C ergibt sich aus der Darstellung
(a, b) = (1, 0)a + (0, 1)b , (a, b) ∈ R2 .
(7.19)
Wir haben
(1, 0) · (1, 0) = (1, 0) und (0, 1) · (0, 1) = (−1, 0) = −(1, 0) .
Nun schreiben wir für das Einselement (1, 0) kurz 1 und für (0, 1) führen wir die imaginäre
Einheit i ein. Dies bedeutet nun, dass wir wegen (7.19) jedes Element (a, b) ∈ C so
(a, b) = a + ib ,
schreiben können, wobei wir nochmal abgekürzt haben: Statt 1a haben wir einfach a geschrieben.
Damit schreiben wir nun
C := {a + ib|a, b ∈ R}
und passen die Verknüpfungen an:
+ : C × C ∋ (a + ib, c + id) 7−→ (a + c) + i(b + d) ∈ C ,
(Addition)
· : C × C ∋ (a + ib, c + id) 7−→ (ac − bd) + i(ad + bc) ∈ C .
(Multiplikation)
Ist z = a + ib eine komplexe Zahl, so heißt a Realteil und b Imaginärteil von z ; wir schreiben
a = ℜz oder a = Rez , b = ℑz oder b = Imz .
Wir unterscheiden nun nicht zwischen a+i0 ∈ C und a ∈ R und schreiben für a+ib manchmal
auch a + bi . Beachte auch, dass in dieser Schreibweise nun aus a + ib = 0 stets a = b = 0 folgt.
Definition 7.4.1 Sei z = a +
√ ib eine komplexe Zahl. Die zu z konjugierte Zahl ist z := a − ib,
der Betrag von z ist |z| := a2 + b2 .
Offenbar gilt für jede komplexe Zahl die Identität |z|2 = zz . Ein Quotient z1 z2−1 , z2 6= 0, lässt
sich dann wegen
z1 z 2
z1 z 2
=
z1 z2−1 =
z2 z 2
|z2 |2
in ein Produkt komplexer Zahlen mit anschließender Division durch eine reelle Zahl überführen,
z.B.
1−i
1−i
1 1
1
=
=
= + i
1+i
(1 + i)(1 − i)
2
2 2
Da wir nun mit der Betragsfunktion eine Abstandsfunktion auf C haben, können wir die
Kreisscheiben
D̄r (z) := {z ′ ∈ C||z ′ − z| ≤ r} , D̄r := D̄r (0) ,
definieren. Ebenso ist die Konvergenz von Folgen definiert. Wir halten es nochmal fest:
Definition 7.4.2 Sei (zn )n∈N eine Folge komplexer Zahlen. Wir sagen, dass (zn )n∈N gegen
z ∈ C konvergiert, wenn
∀ ε > 0 ∃ N ∈ N ∀ n ≥ N (|zn − z| < ε)
gilt. z heißt dann Grenzwert und wir schreiben z = lim zn .
n∈N
106
Es ist leicht einzusehen, dass eine Folge komplexer Zahlen (zn )n∈N genau dann konvergiert,
wenn die Folgen (ℜzn )n∈N und (ℑzn )n∈N als reelle Zahlenfolgen konvergieren. Damit ist die Konvergenz komplexer Zahlenfolgen auf die reeller Zahlenfolgen zurückgeführt. Die über Grenzwerte
von reellen Zahlen angeführten Regeln behalten ihre Gültigkeit auch im Körper der komplexen
Zahlen; z.B.: der Grenzwert ist eindeutig bestimmt. Da R vollständig ist, ist auch C vollständig.
Die trigonometrische Schreibweise für eine komplexe Zahl z = a + ib ist
z = r(cos φ + i sin φ)
√
wobei r = |z| := a2 + b2 der Betrag und φ := arg z das Argument der Zahl z ist, d.h.
sin(φ) cos(φ)−1 = ab . Für z = r(cos φ+i sin φ) verwendet man auch die exponentielle Schreibweise
z = reiφ , d.h. eiφ = cos φ + i sin φ .
Die Menge
C− := C\{z ∈ C|ℑz = 0, ℜz ≤ 0}
nennt man die negativ geschlitzte Ebene. Für jedes z ∈ C− gibt es genau ein φ ∈ (−π, π)
und r > 0 mit
z = r(cos φ + i sin φ) .
Die Theorie der komplexen Funktionen, also der Funktionen f : C −→ C lässt sich prinzipiell
wie die der reellen Funktionen anpacken. Allerdings können gewisse komplexe Funktionen sehr
überraschende Eigenschaften haben, die im Zusammenhang mit der Differenzierbarkeit stehen.
Definition 7.4.3 f : C −→ C heißt differenzierbar in z0 ∈ C, falls gilt:
lim
z→z0
f (z) − f (z0 )
z − z0
existiert.
Beispiele differenzierbarer Funktionen sind die Polynome mit komplexen Koeffizienten.
Beispiel 7.4.4 Wie berechnet man eine Wurzel aus einer komplexen Zahl? Sei z = a + ib ∈ C .
Mit der trigonometrischen Darstellung von z als z = reiφ (r = |z|) gelingt die Berechnung von
w mit w2 = z ganz einfach:
w=
Beachte, dass auch w′ =
√
√
φ
rei 2 :=
√
φ
φ
r(cos( ) + i sin( )) .
2
2
φ
rei( 2 +π) eine solche Zahl ist.
Der Ausgangspunkt unserer Überlegung war die Lösbarkeit der Gleichung (7.18). Diese hat
nun in der Tat in C eine Lösung, nämlich das Element i und das Element −i . Die Lösbarkeit
dieser Gleichung haben wir durch Körpererweiterung erreicht.
In Analogie zum Newtonverfahren im Reellen formuliert man zur Gleichung z 3 = 1 im Komplexen die Iteration
2z 3 + 1
z3 − 1
zn+1 := zn − n 2 = n 2 , n ∈ N0 .
3zn
3zn
107
Wie sieht nun das Konvergenzverhalten der zugehörigen Orbits aus? Diese Frage erweist sich als
außerordentlich tiefliegend. Die Arbeiten von B.
Mandelbrot zu Fraktalen in den Jahren von 1975
bis 1985 machten diese lange schon diskutierte
Frage wieder populär. Die zunächst naheliegende Vermutung, dass die Einzugsgebiete der drei
Nullstellen
z1∗ = 1 , z2∗ = −
1
1
1√
1√
3 + i , z3∗ = −
3− i
2
2
2
2
an jeweils einer Halbgeraden zusammenstoßen
sollten, trifft nicht zu. Computerbilder zeigen eine ganz überraschende Unübersichtlichkeit des
Konvergenzverhaltens. Die Ränder der jeweiligen
Einzugsgebiete sind so ineinander verwoben, dass
immer dort, wo zwei Einzugsbereiche zusammenAbbildung 7.2: Fraktal im Komplexen
stoßen, der dritte Einzugsbereich bereits vorhanden ist. Die Ränder der Einzugsbereiche sind keine glatten Kurven, sondern sehr eigenwillig
gefranste Gebilde, sie stellen wieder eine so genante Julia–Menge dar, die die oben angeführten
Eigenschaften besitzt.
Das seltsame Verhalten der Newton–Iteration im Komplexen wurde untersucht für die Gleichungen
z 4 − 1 = 0 , z 5 − 1 = 0 , (z − 1)(z 2 + z + c) = 0 (c ∈ C) .
Immer wieder stößt man auf Einzugsgebiete, deren Ränder vom Typ Julia–Mengen sind. Überraschend ist, dass als geradezu universelle Menge wieder das Apfelmännchen ins Spiel kommt:
Färbt man die Parameter c im dritten Fall schwarz ein, wenn z0 = 0 kein guter Startwert (keine
Konvergenz!) ist, so entsteht wieder ein Apfelmännchen.
7.5
Übungen
1.)
108
Kapitel 8
Interpolation und Approximation
In diesem Abschnitt betrachten wir unterschiedliche Ansätze, Datenpunkte zu einem Funktionsgraph zu erweitern. Wir tun dies unter Nutzung von Polynomen.
8.1
Interpolation mit Polynomen
In der Praxis wissenschaftlichen Rechnens wird man häufig mit der Situation konfrontiert, dass
von einem funktionalen Zusammenhang nur diskrete Datenpunkte vorliegen, sei es weil nicht
mehr bekannt ist, sei es, weil die dem funktionalen Zusammenhang zu Grunde liegende Funktion nur sehr schwer zu handhaben ist. Um daraus wieder einen funktionalen Zusammenhang
zurückzugewinnen, ist nach einer Methode gesucht, die diskreten Datenpunkte irgendwie“ zu
”
verbinden. Grundsätzlich sind Polynome dazu sehr gut geeignet, denn sie haben eine Reihe sehr
guter Eigenschaften für eine effiziente Nutzung:
(1) Einfache Speicherung durch die Koeffizienten.
(2) Effiziente Evaluation; siehe oben.
(3) Einfache Manipulation (Addition, Differentiation, Integration, . . . ).
(4) Gute Approximationseigenschaften.
Für die zuletzt genannte Eigenschaft benötigt man einen Abstandsbegriff für Funktionen. Dazu
eignet sich, Funktionen punktweise zu vergleichen: Der Tschebycheff-Abstand zweier Funktionen f, g : [a, b] −→ R ist gegeben durch
kf − gk∞ := sup |f (x) − g(x)| .
x∈[a,b]
Hierin verbirgt sich ein Problem: ist das Supremum definiert, d.h. gibt es eine Schranke b mit
|f (x) − g(x)| ≤ b für alle x ∈ [a, b] ?
Für stetige Funktionen ist dies der Fall, wie wir aus der Analysis wissen. Für solche ist das
Supremum sogar ein Maximum, d.h. das Supremum wird durch einen Funktionswert von f − g
realisiert.
Die obige Fragestellung zur Darstellung eines funktionalen Zusammenhangs mittels Interpolation mit Polynomen lässt sich nun so formulieren:
Interpolationsaufgabe
109
Es seien n + 1 verschiedene Punkte (Stützstellen) x0 < x1 < . . . < xn auf der
reellen Zahlengerade gegeben. Ferner seien so genannte Stützwerte y0 , . . . , yn+1 ∈ R
gegeben. Finde ein Polynom p such that p(xi ) = yi for i = 0, . . . , n.
p wird eine Interpolierende genannt.
In der obigen Aufgabe haben wir noch den Grad des Polynoms offen gelassen. Klar sein sollte:
ist der Grad zu klein, ist nicht zu erwarten, dass alle Interpolationsforderungen p(xi ) = yi erfüllt
werden können, sind Polynoms mit großem Grad zugelassen, wird es in der Regel viele Polynome
geben, die die Interpolationsforderungen p(xi ) = yi erfüllen. Es lässt sich daraus schließen, dass
es wohl einen ausgezeichneten Grad gibt, der sicherstellt, dass die Aufgabe genau eine Lösung
besitzt. Ein solcher lässt sich auch aus der Aufgabe ableiten: es sind n+1 Forderung gestellt, also
benötigen wir n+1 Freiheiten, um diese Forderung zu erfüllen. Ein Polynom n-ten Grades hat n+
1 Freiheitsgrade, nämlich n + 1 frei wählbare Koeffizienten. Also sollte die Interpolationsaufgabe
mit dem Grad n gelöst werden können. Die Überraschung ist, dass wir dann eine Lösung explizit
hinschreiben können, und zwar so: Wir definieren Polynome L0,n , . . . , Ln,n vom Grade n mit
folgender Eigenschaft:
Lj,n (xi ) = δij , i, j = 0, . . . , n ,
(8.1)
wobei δi,j das so genannte Kronecker-Symbol ist.1 Solche Polynome existieren! Hier ist ihre
explizite Darstellung:
n
Y
x − xk
, x ∈ R.
Lj,n(x) =
xj − x k
k=0,k6=j
Da offenbar die Eigenschaft (8.1) erfüllt ist, können wir eine Lösung der Interpolationsaufgabe
so hinschreiben:
n
X
yj Lj,n (x) .
(8.2)
p(x) =
j=0
Beispiel 8.1.1 Sei f die Exponentialfunktion: f (x) := ex , x ∈ R . Betrachte die Datenpunkte
(xi , yi ), wobei yi = f (xi ), i = 1, 2, 3, und x1 = 0, x2 = 1, x3 = 2. Dann haben wir:
L0,2 (x) =
(x − x1 )(x − x2 )
(x − 1)(x − 2)
1
3
=
= x2 − x + 2
(x0 − x1 )(x0 − x2 )
(0 − 1)(0 − 2)
2
2
L1,2 (x) =
(x − 0)(x − 2)
(x − x0 )(x − x2 )
=
= −x2 + 2x
(x1 − x0 )(x1 − x2 )
(1 − 0)(1 − 2)
L2,2 (x) =
(x − x0 )(x − x1 )
(x − 0)(x − 1)
1
1
=
= x2 − x
(x2 − x0 )(x2 − x1 )
(2 − 0)(2 − 1)
2
2
Eine Lösung ist gegeben durch
p(x) =
2
X
j=0
=
f (xj )Lj,2 (x) = 1 · L0,2 (x) + e · L1,2 (x) + e2 · L2,2 (x)
1
1
(e − 1)2 x2 − (e − 1)(e − 3)x + 1
2
2
1
δi,j :=
(
1
0
falls i = j
falls i =
6 j
110
Damit ist das Existenzproblem gelöst. Bleibt, für eine mathematisch befriedigende Betrachtung, die Eindeutigkeitsfrage. Diese ist mit einem einfachen analytischem Resultat zu klären.
Hat man zwei Polynome p, q vom Grad n, die die Interpolationsaufgabe lösen, so gilt offenbar
für das Polynom f := p − q :
f (xi ) = 0 , i = 0, . . . , n .
Als Polynom ist f sicher differenzierbar. Dann gibt es jeweils zwischen xi und xi+1 ein ξ mit
f ′ (ξ) = 0 , i = 0, . . . , n .
Dies liefert die Tatsache, dass auf Grund der Differenzierbarkeit von f zwischen xi und xi+1 ein
Punkt ξ mit f (ξ) = maxt∈[xi ,xi+1] f (t) existiert.
Zählen wir nun ab: f hat n + 1 Nullstellen, f ′ hat nun mindestens n Nullstellen. Fährt man
so fort, erhält man, dass die n-te Ableitung f (n) immer noch eine Nullstelle hat. f (n) ist aber, da
bei jeder Differentiation der Grad von f um Eins verringert wird, eine konstante Funktion, also
notwendigerweise die Nullfunktion. Daraus schließt man, dass f (n−1) eine konstante Funktion
ist, welche aber 2 Nullstellen hat, was nicht möglich ist, es sei denn f (n−1) ist die Nullfunktion.
So fortfahrend erhält man, dass f = f (0) die Nullfunktion ist; p und q stimmen also überein.
Die Darstellung der Lösung des Interpolationsproblems in (8.2) ist für die Berechnung nicht
sehr gut geeignet. Es gibt numerisch stabilere und effizientere Berechnungverfahren; Stichwort
ist die Newton-Darstellung.
8.2
Newton-Polynome
Das Interpolationsproblem wird durch eine lineare Abbildung L : Rn+1 −→ Rn+1 folgendermaßen beschrieben:
L : Rn+1 ∋ (a0 , . . . , an ) 7−→ (p(a0 ,...,an ) (x0 ), . . . , p(a0 ,...,an ) (xn )) ∈ Rn+1
Daraus leitet sich ab, dass die Abbildung L nach Wahl einer geeigneten Basis im Urbildraum
und im Bildraum durch eine Matrix dargestellt wird. Auf Grund der Definition der Abbildung
L haben wir eine Basis im Raum der Polynome vom Grad ≤ n zu wählen.
Sei b0 , . . . , bn eine Basis im Raum der Polynome vom Grade höchstens n . Dann bedeutet die
Lösung des Interpolationsproblems gerade die Lösung des Gleichungssystems
Ba = y where B = (bj (xi ))0≤i,j≤n , a = (a0 , . . . , an ), y = (y0 , . . . , yn ) .
(8.3)
Dank der Injektivität der Abbildung L – das Interpolationsproblem ist ja eindeutig lösbar – ist
die Matrix B invertierbar.
Die Monome 1, x, . . . , xn und die Lagrange-Polynome Ln,j , j = 0, . . . , n, bilden eine Basis,
aber sie haben beide Nachteile: die Monome, da die zugehörige Matrix B schwer zu invertieren
ist, die Lagrange-Polynome, da die Matrix B zwar sehr leicht zu invertieren ist – sie ist eine
Diagonalmatrix, ja sogar die Einheitsmatrix – aber die Basis numerisch nicht sehr gut auszuwerten ist. Wir diskutieren nun eine spezielle Wahl einer Basis. die numerisch überzeugend ist,
die Basis der Newton-Polynome:
1, (x − x0 ), (x − x0 )(x − x1 ), . . . , (x − x0 ) · · · (x − xn−1 )
111
(8.4)
Es ist leicht einzusehen, dass sie eine Basis bilden. Damit sieht das zugehörige Gleichungssystem
so aus:

   
1
0
0
···
0
a0
y0
 1 x1 − x0
  a1   y1 
0
·
·
·
0

   
1 x2 − x0 (x2 − x0 )(x2 − x1 ) · · ·
  a2   y2 
0
(8.5)

  =  
 ..
  ..   .. 
..
..
.
.
.
.
.
 .   . 
.
.
.
.
1 xn − x0 (xn − x0 )(xn − x1 ) · · · (xn − x0 ) · · · (xn − xn−1 )
an
yn
Dieses System kann von der ersten Gleichung aus sukzessive durch Einsetzen gelöst werden
(Vorwärtssubstitutuion): berechne aus der ersten Gleichung a0 : a0 := y0 ; berechne aus der
zweiten Gleichung unter Verwendung des Resultats für a0 den Koeffizienten a1 aus a1 (x1 −
x0 ) = y1 − y0 ; . . . . . . . Die Rechnung kann in einem kompakten Schema organisiert werden unter
Verwendung dividierter Differenzen..
Definition 8.2.1 Seien τ : x0 < · · · < xn die Stützstellen und seien y0 , . . . , yn die Stützwerte
der Interpolationsaufgabe. Wir definieren rekursiv:
y[xi ] := yi , i = 0, . . . , n ,
y[xj0 , xj1 , . . . , xjk ] :=
y[xj1 , . . . , xjk ] − y[xj0 , . . . , xjk−1 ]
xj k − xj 0
wobei xj0 , xj1 , . . . , xjk eine Permutation von k + 1 Stützstellen ist.
Wir bezeichnen diese Größen dividierte Differenzen.
Dividierte Differenzen können systematisch in folgendem Schema berechnet werden:
x0
y0
x1
y1
x2
..
.
y2
..
.
xn−1
yn−1
xn
yn
y[x0 ]
ց
y[x1 ] −→
ց
y[x2 ] −→
..
.
y[xn−1 ] −→
ց
y[xn ] −→
y[x0 , x1 ]
y[x1 , x2 ]
..
.
ց
−→
y[x0 , x1 , x2 ]
..
.
y[xn−2 , xn−1 ] −→
ց
y[xn−1 , xn ] −→
..
···
.
· · · y[x0 , . . . , xn−1 ]
···
···
ց
y[x1 , . . . , xn ] −→
y[x0 , . . . , xn ]
Satz 8.2.2 Seien τ : x0 < · · · < xn die Stützstellen und seien y0 , . . . , yn die Stützwerte der Interpolationsaufgabe. Dann ist das Interpolationspolynom p mit Hilfe der Newtonbasis dargestellt
durch
p(x) = y[x0 ] + y[x0 , x1 ](x − x0 ) + · · · + y[x0 , . . . , xn ](x − x0 ) · · · (x − xn−1 ), x ∈ R .
(8.6)
Beweis:
Wir beweisen dies durch Induktion bezüglich n .
Klar, das Resultat gilt für n = 0 . Sei die Darstellung richtig im Falle von n + 1 Stützstellen.
Wir wollen die Darstellung nachrechnen für n + 2 Stützstellen.
Seien τ : x0 < · · · < xn+1 die Stützstellen und seien y0 , . . . , yn+1 die Stützwerte der Interpolationsaufgabe; sei p das interpolierende Polynom n + 1-ten Grades. Diese Polynom hat die
Darstellung durch die Newton–Polynome N0 , . . . , Nn+1 :
p(x) =
n
X
i=0
αi Ni (x) + αn+1 Nn+1 (x), x ∈ R .
112
Dann gilt
p − αn+1 Nn+1 =
n
X
y[x0 , . . . , xi ]Ni
n+1
X
y[x1 , . . . , xi ]Ni (x)(x − x0 )−1 , x ∈ R .
i=0
gemäß der Induktionsannahme, da das Polynom p−αn+1 Nn+1 die Daten in den n+1 Stützstellen
x0 , . . . , xn interpoliert. Seien p1 , p2 die Polynome, die die Daten (x0 , y0 ), . . . , (xn , yn ) bzw. (x1 , y1 ),
. . . , (xn+1 , yn+1 ) interpolieren. Dank der Induktionsannahme, kann man p1 , p2 darstellen durch
1
p (x) =
n
X
2
y[x0 , . . . , xi ]Ni (x) , p (x) =
i=1
i=0
Betrachte nun
1
det
q(x) :=
xn+1 − x0
p1 (x) x0 − x
p2 (x) xn+1 − x
, x ∈ R,
(8.7)
Klar, q ist ein Polynom vom Grade n + 1 und interpoliert die Daten (x0 , y0 ), . . . , (xn+1 , yn+1 ) .
Aus der Eindeutigkeit der Lösung der Interpolationsaufgabe folgt q = p . Dies zeigt
αn+1 = y[x0 , . . . , xn+1 ]
wegen der Gestalt der dividierten Differenzen.
Beispiel 8.2.3 Betrachte die Funktion f (x) := ex . Seien τ : 0 = x0 < x1 = 1 < x2 = 2
Stützstellen. Wir berechnen das folgende Tableau
0
1
1
e
1
e
2
e2
e2
e−1
e2 − e
1
2 (e
− 1)2
und schließen, dass das Interpolationspolynom p mit den Stützwerten, die sich an den Stützstellen
für die Funktion ergeben, gegeben ist durch
1
p(x) = 1 + (e − 1)x + (e − 1)2 x(x − 1) .
2
Ohne Beweis geben wir an:
Folgerung 8.2.4 (Fehlerabschätzung) Sei f : [a, b] −→ R eine (n + 1)-mal differenzierbare
Funktion und sei f (n+1) eine stetige Funktion. Seien τ : 0 = x0 < x1 = 1 < x2 = 2 Stützstellen
und seien yi := f (xi ), 0 ≤ i ≤ n . Sei pn das zugehörige Interpolationspolynom. Dann gilt:
|f (x) − pn (x)| ≤
kf − pn k∞ ≤
wobei wτ (x) :=
Qn
i=0 (x
kf (n+1) k∞
|wτ (x)| , x ∈ [a, b] ,
(n + 1)!
(8.8)
kf (n+1) k∞
kwτ k∞ ,
(n + 1)!
(8.9)
− xi ) , x ∈ R .
113
Will man das Interpolationspolynom nur an einer Stelle auswerten und nicht in Gänze kennen,
dann kommt man mit sehr viel weniger Arbeitsaufwand aus, nämlich mit
3
3
(n − 1) + (n − 1)(n − 2) Additionen und (n − 1)(n − 2) Multiplikationen,
2
2
oder kurz, die Auswertung des Interpolationspolynoms ist von der Komplexität
O(n2 ) flops.
Die Idee für das Vorgehen, das dieses realisiert, steckt schon im Beweis zu Satz 8.2.2. Es wird
Aitkens Methode genannt.
8.3
Approximation mit Polynomen
Approximation Problem
Es sei eine etwas schwierig zu handhabare Funktion“ f : [a, b] −→ R gegeben. Als
”
Aufgabe stellen wir uns, eine leicht zu handhabare Funktion “ g : [a, b] −→ R zu
”
finden, so dass e(f, g) := kf − gk∞ eine kleine“ Zahl ist.
”
Die Funktion g wird die Approximierende von f genannt. Das Beste, was wir tun können, ist
eine Menge G von einfach zu handhabaren“ stetigen Funktionen zu wählen und ein g∗ ∈ G zu
”
suchen mit
e(f, g∗ ) = inf e(f, g) .
g∈G
g∗
Solch ein
wird eine beste Approximation von f bezüglich der Menge G (und der Tschebyscheff-Distanz) genannt.2 Als eine Menge von einfach handhabaren Funktionen ist die Menge
von Polynomen; siehe oben.
Der folgende Approximationssatz von Weierstrass besagt, dass jede stetige Funktion auf einem
Interval [a, b] beliebig genau approximiert werden kann durch ein Polynom genügend großen
Grades. Ein konstruktiver Beweis des Satzes kann mit Hilfe der Bernstein-Polynome erbracht
werden.
Die Bernstein-Monome sind definiert durch
n i
Bi,n (t) :=
t (1 − t)n−i , t ∈ [0, 1] , i = 0, . . . , n , n ∈ N .
i
(8.10)
Die ersten Bernstein-Monome sind
B0,0 (t) = 1 , B0,1 (t) = 1 − t , B1,1 (t) = t , B0,2 (t) = (1 − t)2 , B1,2 (t) = 2(1 − t)t .
Satz 8.3.1 Sei f : [a, b] −→ R eine stetige Funktion. Dann gibt es zu jedem ǫ > 0 eine Zahl
n ∈ N und ein Polynom p n–ten Grades mit
kf − pk∞ = sup |f (x) − p(x)| < ǫ .
x∈[a,b]
2
Wenn G ein endlichdimensionaler Vektorraum ist, dann existiert eine solche beste Approximierende.
114
Beweis:
Da jedes Intervall durch eine affin–lineare Abbildung auf das Intervall [0, 1] transformiert werden
kann, können wir o.E. annehmen, dass das Intervall [a, b] das intervall [0, 1] ist.
Seien
n
X
i n i
f( )
x (1 − x)n−i , x ∈ [0, 1] , (n ∈ N)
(8.11)
bn f (x) :=
n i
i=0
die so genannten Bernstein-Polynome. Diese Polynome nutzen wir nun, das Ergebnis zu
beweisen.
Eine erste Beobachtung ist:
bn f (0) = f (0) , bn f (1) = f (1) für jedes n ∈ N .
Mit
n
n
1 = 1 = (x + (1 − x)) =
erhalten wir
n X
n
i
i=0
i
n−i
x (1 − x)
=:
n
X
Bi,n (x) ,
i=0
n
X
i
(f (x) − f ( ))Bi,n (x) ,
f (x) − bn f (x) =
n
i=0
|f (x) − bn f (x)| ≤
n
X
i=0
i
|f (x) − f ( )|Bi,n (x) .
n
Sei ǫ > 0 . Da f stetig ist, ist sie sogar gleichmäßig stetig. Also erhalten wir ein δ > 0 mit
ǫ
i
i
|f (x) − f ( )| < , falls |x − | < δ .
n
2
n
Wi setzen für jedes x ∈ [0, 1]
Nx := {i ∈ {0, . . . , n}||x −
Dann
X
i∈Nx
i
i
| < δ} , Mx := {i ∈ {0, . . . , n}||x − | ≥ δ} .
n
n
n
ǫX
ǫ X
ǫ
i
Bi,n (x) ≤
Bi,n (x) = ,
|f (x) − f ( )|Bi,n (x) ≤
n
2
2
2
i∈Nx
i=0
und mit m := maxx∈[0,1] |f (x)|
X
i∈Mx
i
|f (x) − f ( )|Bi,n (x) ≤
n
≤
X
i∈Mx
i
i
|f (x) − f ( )|Bi,n (x)(x − )2 δ−2
n
n
n
2m X
i
Bi,n (x)(x − )2
2
n
δ i=0
n
=
i
2m X
i
Bi,n (x)(x2 − 2x + ( )2 ) .
2
n
n
δ i=0
115
Wir nutzen
n X
n
xi (1 − x)n−i = 1 ,
i
i=0
n n X
X
n − 1 i−1
n i
i
= x
x (1 − x)(n−1)−(i−1) = x ,
x (1 − x)n−i
n
i−1
i
i=1
i=0
n n
X
n i
n − 1 i−1
xX
x
n−i i 2
(i − 1)
x (1 − x) ( ) =
x (1 − x)n−i +
i
i−1
n
n
n
i=0
i=1
n
2
X
n − 2 i−2
x
x
(i − 1)
x (1 − x)n−i +
(n − 1)
=
i−2
n
n
i=2
1
x
x
= x2 (1 − ) +
= x2 + (1 − x) .
n
n
n
Dies impliziert für jedes x ∈ [0, 1]
X
i∈Mx
n
X
i=0
Bi,n (x)(x −
x(1 − x)
1
x 2
) = x2 − 2x2 + x2 +
≤
,
n
n
4n
i
|f (x) − f ( )|Bi,n (x) ≤
n
2m 1
ǫ
2 4n < 2
δ
wenn wir n mit nδ2 ǫ > m wählen. damit ist das Resultat gezeigt.
Die Bernstein-Polynome haben eine Reihe von intessanten Eigenschaften:
n
X
Bi,n (t) = Bn−i,n (1 − t) ( Symmetrie)
(8.12)
Bi,n (t) ≥ 0 ( Positivität)
(8.13)
Bi,n (t) = 1 ( Normalisierung)
(8.14)
Bi,n (·)
(8.15)
i=0
hat ein Maximum für t = i/n in [0, 1] .
Bi,n (t) = tBi−1,n−1 (t) + (1 − t)Bi,n−1 (t) , 1 ≤ i ≤ n. (ReKursion)
B0,n+1 (t) = (1 − t)B0,n (t)
(8.16)
(8.17)
Bn+1,n+1 (t) = tBn,n (t)
(8.18)
(8.19)
Die Einhüllende en (t) der Bernstein-Monome Bi,n (t), i = 0, . . . , n, ist gegeben durch
8.4
en (t) := p
1
2 π n t(1 − t)
, 0 ≤ t ≤ 1.
Bezier–Kurven
Eine Kurve Rd ist eine Abbildung
γ : [a, b] ∋ t 7−→ γ(t) := (γ1 (t), . . . , γd (t)) ∈ Rd ;
116
hier ist [a, b] das so genannte Parameterintervall. Wir nennen eine solche Kurve differenzierbar, falls für jedes t in [a, b] der Grenzwert
γ̇(t) = lim h−1 (γ(t + h) − γ(t))
h→0
existiert.3
Beispiel 8.4.1 Betrachte die Kurve
[0, 2π] ∋ t 7−→ (cos(t), sin(t)) ∈ R2 .
Offenbar ist die Kurve differenzierbar.
Eine polynomiale Kurve γ in Rd ist gegeben
durch
P : R ∋ t 7−→ a0 + a1 t + · · · + an tn ∈ Rd
1
wobei die Koeffizienten a0 , . . . , an ∈ Rd gegebene Vektoren in Rd sind. Eine solche Kurve kann
mit einer Horner-ähnlichen Methode ausgewertet werden. Aber es ist schwer, die Koeffizienten so zu manipulieren, dass die Kurve geometrische Eigenschaften besitzt. Dies ist bei den nun
zu besprechenden Bezier-Kurven anders. Bezier–
Kurven nutzen Bernstein-Polynome als Basisfunktionen.
0.8
0.6
0.4
0.2
0
0
0.2
0.4
0.6
0.8
1
1.2
Seien P0 , . . . , Pn gegebene Punkte in Rd . Die Abbildung 8.1: Approximation des Kreises
Kurve ist definiert durch
n
X
P (t) =
Pk Bk,n (t) , t ∈ [0, 1],
(8.20)
k=0
wobei B·,n die Bernstein-Monome der Ordnung n sind. Die Punkte P0 , . . . , Pn werden Kontrollpunkte oder Designpunkte genannt. Wir haben:
• P (0) = P0 , P (1) = Pn .
• Ṗ (0) = n(P1 − P0 ) , Ṗ (1) = n(Pn − Pn−1 ) .
• P (t) ∈ co({P0 , . . . , Pn }) :=
{y ∈ Rd |y = λ0 P0 + · · · + λn Pn , λ0 + · · · + λn = 1, λi ∈ [0, 1], i = 0, . . . , n} .
Die letzte Eigenschaft besagt, dass die Kurve in der konvexen Hülle der Kontrollpunkte liegt.
Der Beweis dieser Eigenschaft stützt sich auf die Eigenschaften (8.13), (8.14).
Die Rekursionseigenschaft (8.16) führt zu einer numerisch stabilen und effizienten Methode,
die Bezierkuve an einer festen Stelle t auszuwerten, nämlich zum Algoithmus von de Casteljau.
3
Im Kontext von Kurven benutzen wir die Bezeichnungsweise der Physiker: γ̇(t) anstatt γ ′ (t).
117
Die Basis der Methode ist die folgende Umfomulierung einer Bezier–Kurve (8.20):
P (t) =
n
X
Pk Bk,n (t) = P0 B0,n (t) +
k=0
n−1
X
Pk Bk,n (t) + Pn Bn,n (t)
k=1
= (1 − t)P0 B0,n−1 (t) + (1 − t)
+tPn Bn−1,n−1 (t) + t
n−1
X
n−1
X
Pk Bk,n−1 (t)
k=1
Pk Bk−1,n−1 (t)
k=1
Wir sehen also, dass die Bezier–Kurve der Ordnung n die Konvexkombination zweier Bezier–
Kurven der Odnung n − 1 ist. Hier ist ein Fragment des Algorithmus von de Casteljau.4
de Casteljau:
for j = 0, . . . , n
Q0j := Pj ;
for r = 1, . . . , n
für j = 0, . . . , n − r
r−1
+ t(Qr−1
Qrj := Qr−1
j
j+1 − Qj ) ;
P (t) := Qn0 .
Here P0 , . . . , Pn are the control points and t is the parameter where the value of the
Bezier–curve has to be found.
Beispiel 8.4.2 Wir wollen die Kreislinie mittels einer Bezier–Kurve P dritter ordnung approximieren. Wir führen dies im ersten Quadranten duch und fodern, dass die Tangenten in den
Endpunkten
P0 = (1, 0) , P3 = (0, 1)
mit den Tangenten am Einheitskreis übereinstimmen. Daher haben wir Kontrollpunkte P1 , P2 auf
den Tangenten an die Kreislinie zu wählen. Da wir die Symmetrie der Approximation bezüglich
der Winkelhalbierenden x = y in R2 erreichen wollen, sind die Punkte P1 , P2 mit den Koordinaten
P1 = (1, ξ) , P2 = (ξ, 1) wobei ξ ein freier Parameter ist,
zu wählen. Wir bestimmen den freien Paameter so, dass der Punkt P ( 21 ) ein Punkt auf der
Kreislinie ist: ξ ≈ 0.5519 . Mit diesen Kontrollpunkten P0 , P1 , P2 , P3 wird die zugeordnete Bezier–
Kurve eine ziemlich gute Approximation der Kreislinie: wir können kaum zwischen Approximation und Kreislinie unterscheiden. siehe Abbildung 8.1.
8.5
Übungen
8.1 Consider a polynomial p of degree 3 of the form
p(x) = a0 + a1 x + a2 x2 + a3 x3 , a0 , a1 , a2 , a3 ∈ R .
4
Bezier und de Casteljau waren Angestellte bei Renault bzw. Citroen. Der Algoithmus war verborgen in einem
technischen Report(1963).
118
(a)
Show that p has three distinct real roots when p′ has two distinct real roots u1 , u2 and
p(u1 )p(u2 ) < 0 .
(b) Is the converse in (a) true?
8.2 Consider a polynomial p of degree 3 with coefficients a0 , a1 , a2 , a3 ∈ [0, 1] .
(a)
What is an upper (u) and a lower bound (l) for the values of p in the interval [0, 1]?
(b) Construct polynomials p1 , . . . , p1 with random coefficient in [0, 1] and find for each polynomial the value in z = 21 .
(c)
Visualize the results by a plot.
8.3 Let f (x) := ex , x ∈ R and ε := 10−3 . Consider the equidistant partition 0 = x0 < x1 <
· · · < xn = 1 . Determine a number n ∈ N such that
kf − gn k∞ ≤ ε
when gn is chosen as the interpolating polynomial or the natural cubic spline.
8.4 For strictly monotone functions f one can use the inverse interpolation for finding zeros of
f.
Let x0 < · · · < xn a set of nodes and let yi = f (xi ), i = 0, . . . , n, given values. The method
consists in interpolating the data xi of f −1 in the nodes yi . The value q(0) of this interpolation
polynomial is an approximation of an zero of f . This value can be found by the Aitken-scheme.
Use this method to solve the equation f (x) := 2x − 3 = 0 using the nodes x0 = 0, x1 = 1, x2 =
1.5, x3 = 2 . Which additional node x4 should be used to improve the accuracy of the solution
of this equation.
8.5 Consider the statistical data of the population of the world in the table to right.
(a)
Compute with the Aitken-scheme the size of the population for the year 0 by using the data 1-4.
(b) Compute with the Aitken-scheme the size of the population for the year 2000 by using the data 5-8.
no.
1
2
3
4
5
6
7
8
year
−7000
−1000
900
1700
1800
1900
1950
1960
population
10
80
320
600
906
1608
2414
3003
8.6 Suppose the function g has an inverse f on [a, b] . If a = x0 < x1 < · · · < xn and
yi = g(xi ), i = 0, . . . , n. Then the polynomial that interpolates the data (yi , xi ) is an interpolate
of the inverse f (inverse interpolation).
(a)
Compute an approximate of g(x) = 2 by using inverse interpolation when we know the
data
0 = g(0), 1 = g(1), 4 = g(2), 9 = g(3) .
(b) Give an estimate for the period of life of adam and eve by using the data 1-4 in the table
of the last exercise.
8.7 Let us define for a continuous function g : [a, b] −→ R
En (g) := inf max |g(x) − p(x)| , n ∈ N .
p∈Pn x∈[a,b]
Here Pn := {p|p polynomial of degree ≤ n} . Let f (x) := x2 , x ∈ [0, 1] .
119
(a)
Determine p ∈ P1 whit E1 (f ) = maxx∈[0,1] |f (x) − p(x)| .
(b) The Bernstein-approximations of f are given by
bn (f ; x) :=
n
X
i=0
i n i
x (1 − x)n−i , n ∈ N .
f( )
n i
Represent b1 (f ; ·) and b2 (f ; ·) by a linear combination of the monomials.
(c)
Compute E2 (f ) and maxx∈[0,1] |f (x) − b2 (f ; x)| .
8.8
(a)
Realize the de Casteljau-algorithm in a Matlab-function y= YourCasteljau(PP,tt) where PP is the vector of control points and tt is the parameter for the evaluation.
(b) Use y= YourCasteljau(PP,tt) to find the Bezier–curve with control points
P0 = (1, 1) , P1 = (4, 7) , P2 = (9, 8) , P3 = (14, 3) .
8.9 Consider the polynomial p(x) := a0 + a1 x + · · · + an−1 xn−1 + xn ; a0 , . . . , an−1 ∈ R .
(a)
−1
Let k0 , . . . , kn−1 ∈ (0, ∞) with k0−1 + · · · + kn−1
= 1 . Show for each zero z of p
|z| ≤
p
n−i
max
0≤i≤n−1
|ai |ki .
(b) Try to find with (a) a reasonable bound for the zeros of the polynomial p(x) := x3 − x2 +
x − 1.
(c)
Find all zeros of p(x) := x3 − x2 + x − 1.
8.10 Associated to the nodes x0 < x1 < x2 < · · · < xn the Lagrangian polynomials are given
by
n
Y
x − xk
, j = 0, . . . , n .
Ln,j (x) =
xj − xk
k=0,k6=j
Q
Let w(x) := nk=0 (x − xk ) .
(a)
Show Ln,0 (x) + Ln,1 (x) + · · · + Ln,n (x) = 1, x ∈ R .
(b) Show Ln,j (x) =
(c)
w(x)
, j = 0, . . . , n .
(x − xj )w′ (xj )
Assume that the values y0 , . . . , yn are given. Using (b) the interpolating polynomial is given
by
n
X
βj
yj
p(x) = w(x)
with βj = ′
, j = 0, . . . , n .
(x − xj )
w
(x
)
j
j=0
What is the advantage of this presentation in comparison to the usual presentation
p(x) =
n
X
yj Ln,j (x) ,
j=0
when we want to evaluate the interpolating polynomial p for several points x = z1 , . . . , zm
?
8.11
120
(a)
Write a Matlab-code MyHorner(a,z) to evaluate a polynomial with the coefficients ai in
z.
(b) A polynomial of the form
p(x) = a0 + a2 x2 + · · · + am x2m
is said to be even, while a polynomial of the form
p(x) = a1 x + a3 x3 + · · · + am x2m+1
is said to be odd.
Generalize MyHorner(a,z) so that it has an optional third argument type that indicates
whether or not the underlying polynomial is even or odd: YourHorner(a,z,type)
(c)
Test YourHorner(a,z,type) with the polynomial p(x) := x4 − 2x2 + 1 and with z = 1 .
121
Kapitel 9
Fast Fourier Transform
The fast Fourier transform (FFT) is an important tool in signal analysis and image processing.
We sketch the main issues in implementing this transform.
9.1
Some comments concerning signal theory
A signal is a function of time“ which is used to carry information. Examples of sciences are:
”
• Audio signals (speech, music, videos)
• Radar signals
• Digital signals in imaging
• Cell signalling
(Digital) signal processing ist the study of signals in a (digital) representation and the
processing methods of these signals. Subfields of signal processing are: sampling of signals,
converting signals from an analog to a digital form, enhancement of signals, filtering of signals,
storing of signals, coding of signals.
Definition 9.1.1 A function s : R −→ R of the form
s(t) = a sin(ωt + ϕ) , t ∈ R,
is called a harmonic signal. a is called the amplitude, ω the circle frequency (measured in
sec−1 ), ν := ω/(2π) the frequency (measured in Hz (hertz)), T := 1/ν period and ϕ the phase
of the signal, respectively.
The hertz1 is a unit of frequency. One hertz means one cycle per second“. In computing, most
”
CPUs are labeled in terms of their clock speed expressed in megahertz (106 hertz) or gigahertz
(109 hertz). This signal is simply an electric voltage which changes from low to high and back
again at regular intervals.
A harmonic signal s is a special case of a harmonic signal in complex notation:
x : R −→ C , x(t) := a exp(i(ωt + ϕ)) , t ∈ R,
since s can be viewed as the imaginary part of x:
s(t) = ℑx(t) , t ∈ R .
1
H.R. Hertz, german physicists
122
Definition 9.1.2 A function f : R −→ R is called a periodic signal if there exists a time“
”
T̃ > 0 with f (t + T̃ ) = f (t) for all t ∈ R ; T̃ is called a period of f .
In the case that f is a periodic signal, T := inf {T̃ > 0 | T̃ a period of f } is called the period of
f.
It should be clear that for a periodic signal the number T is the smallest period of f when f is
a continuous function. Especially, each harmonic sgnal is periodic with period T = 1/ν .
Example 9.1.3 The superposition of periodic signals is not necessarily a periodic signal. This
shown by two examples of harmonic signals:
s1 (t) := a1 sin(ω1 t) , s2 (t) := a2 sin(ω2 t) , t ∈ R ,
where a21 + a22 6= 0 . Then s := s1 + s2 can be represented as s(t) = sm (t)str (t) where
1
sm (t) = (a21 + a22 + 2a1 a2 cos((ω1 − ω2 )t)) 2 , t ∈ R ,
1
a1 − a2
1
str (t) = sin( (ω1 + ω2 )t + ϕ(t)) , t ∈ R , with tan(ϕ(t)) =
tan( (ω1 + ω2 )t) .
2
a1 + a2
2
str and sm are called carrier signal and modulated signal, respectively. The frequency of
the carrier signal and the amplitude is timedependent. An interesting special case is when the
difference of the frequencies of the harmonic signals is small. This phenomenon is called beat
(in Deutsch: Schwebung).
It is a very important fact that it is possible to decompose periodic signals into a decomposition of a countable family of harmonic signals. This is considered in the theory of Fourier series
very extensively; we refer to the literature.
9.2
Trigonometric interpolation problem
Definition 9.2.1 A trigonometric polynomial is a function p : R −→ C of the following
form:
n
X
cj eijt , t ∈ R ;
p(t) :=
j=0
c0 , . . . , cn ∈ C are called the coefficients of p and n is called the degree of p (when cn 6= 0).
We set
Tn := {p : R −→ C | p trigonometric polynomial of degree ≤ n} .
It is immediately clear that each trigonometric polynom p is periodic function with period 2π :
p(t + 2π) = p(t) for all t ∈ R .
Trigonometric interpolation problem
Given n distinct points τ := 0 = t0 < t1 < . . . < tn−1 < 2π on the real line
and y0 , . . . , yn−1 ∈ C, find a trigonometric polynomial p of degree n − 1 such that
p(ti ) = yi for i = 0, . . . , n − 1.
(Again, the points t0 , . . . , tn−1 are called the nodes of the partition τ .)
123
Satz 9.2.2 (Existence) Given the data points (t0 , y0 ), . . . , (tn−1 , yn−1 ), then there exists a
uniquely determined polynomial p in Tn−1 with p(ti ) = yi for i = 0, . . . , n − 1.
Proof:
Consider the linear mapping
L : Cn −→ Cn , (c0 , . . . , cn−1 ) 7−→ (pc0 ,...,cn−1 (t0 ), . . . , pc0 ,...,cn−1 (tn−1 )) ∈ Cn
Pn−1
where pc0 ,...,cn−1 (t) := j=0
cj eijt , t ∈ [0, 2π] .
We prove the injectivity of L. Since L is a linear mapping it is enough to show that the preimage
of the null vector must be the nullvector.
Let L(c0 , . . . , cn−1 ) = (0, . . . , 0). Then
0=
n−1
X
j=0
cj eijtk , k = 0, . . . , n − 1 ,
and we conclude that the polynomial
q(z) :=
n−1
X
cj z j
j=0
has n different zeros, namely
z0 = 1 = eit0 , z1 = eit1 , . . . , zn−1 = eitn−1 .
This implies that q is the null polynomial by the fundamental theorem of algebra and therefore
pc0 ,...,cn−1 is the null polynonial. This proves uniqueness. Since L is a linear mapping, L is
surjective too for dimension reasons. Hence L is bijective and uniqueness and existence are
proved.
Lemma 9.2.3 We have
n−1
1 X l−k j
(ωn ) =
n
j=0
(
1
0
if l = k
, k, l = 0, . . . , n − 1 ,
if l =
6 k
(9.1)
where ωn := exp(− 2πi
n ) is the n-th root of unity.
Proof:
When k = l nothing has to be shown. Let k 6= l. Assume k > l. Then
n−1
X
(ωnl−k )j =
j=0
(l−k)
since ωn
1 − ωn(l−k)n
1 − ωn(l−k)
(l−k)n
6= 1 due to 0 < k − l < n and ωn
= 0,
= e2πi(k−l) = 1 .
Satz 9.2.4 Let 0 = t0 < · · · < tn−1 < 2π be an equidistant partition of [0, 2π] :
tj = 2π
j
, j = 0, . . . , n − 1 .
n
Then the solution p of the interpolation problem is given as follows:
p(t) =
n−1
X
j=0
n−1
cj eijt , t ∈ R, where cj =
124
1 X jl
(ωn ) yl
n
l=0
(9.2)
Proof:
Since ωnjk = e−ijtk we obtain by using Lemma 9.2.3


!
n−1
n−1
n−1
X
X
X
X 1 n−1
1
(ωnl−k )j  = yk , k = 0, . . . , n − 1 .
(ωnjl )yl ωn−jk =
yl 
p(tk ) =
n
n
j=0
9.3
l=0
j=0
l=0
Discrete Fourier transform
Definition 9.3.1 The mapping ˆ : Cn −→ Cn , Cn ∋ z 7−→ ẑ ∈ Cn , with
ẑj :=
n−1
X
k=0
ωnjk zk , j = 0, . . . , n − 1
is called the discrete Fourier transform (DFT); here again ωn := exp(− 2πi
n ).
(9.3)
Remark 9.3.2 According to Theorem 9.2.4, the discrete Fourier transform can be used to compute the coefficients c := (c0 , . . . , cn−1 ) of the interpolating polynomial in the case of equidistant
distributed nodes:
1
c = ŷ where y := (y0 , . . . , yn−1 ) .
(9.4)
n
Lemma 9.3.3 Let z = (z0 , . . . , zn−1 ) ∈ Cn . Then
n−1
zl =
1 X −jl
ωn ẑj , l = 0, . . . , n − 1 .
n
(9.5)
j=0
Proof:
We have with Lemma 9.2.3 for l = 0, . . . , n − 1
n−1
n−1 n−1
n−1
n−1
j=0
j=0 k=0
k=0
j=0
X 1X
1 X −jl
1 X X −jl kj
zk
ωn ωn zk =
ωn ẑj =
ωn(k−l)j = zl .
n
n
n
Definition 9.3.4 The mapping ˇ : Cn −→ Cn , Cn ∋ z 7−→ ž ∈ Cn , with
žj :=
n−1
X
k=0
ωn−jk zk , j = 0, . . . , n − 1
(9.6)
is called the inverse discrete Fourier transform (IDFT); here again ωn := exp(− 2πi
n ). Corollary 9.3.5
(a) ˆ, ˇ : Cn −→ Cn are linear and bijective mappings.
(b)
n−1
X
k=0
n−1
|zk |2 =
1X
|ẑj |2 , z = (z0 , . . . , zn−1 )
n
j=0
125
(9.7)
Proof:
The linearity is obvious. The bijectivity follows from Lemma 9.3.3. Let us prove the identity in
(9.7).



n−1
n−1
n−1
X 1 n−1
X
X
X

ωn−jk ẑj  
|zk |2 =
ωn−lk ẑl 
2
n
j=0
k=0
k=0
l=0
=
=
n−1 n−1
1 X X (l−j)k
ωn
ẑj ẑl
2
n
j=0 l=0
k=0
n−1
X
n−1
X
ẑj
j=0
=
n−1
X
n−1
X
l=0
ẑj ẑj
j=0
ẑl
n−1
1 X (l−j)k
ωn
n2 k=0
1
n
Remark 9.3.6 It is possible to compute the discrete Fourier transform and the inverse Fourier
transform by the operation of a certain matrix on the data. Let
1
Ŵ := √ (ωnkj )1≤j,k≤n ∈ Cn,n ,
n
1
W̌ := √ (ωn−kj )1≤j,k≤n ∈ Cn,n .
n
With these matrices we have for z = (z0 , . . . , zn−1 ) ∈ Cn
√
ẑj = n(Ŵ z)r if j = r mod n ,
1
žj = √ (W̌ z)r if j = r mod n .
n
Here a = r mod b means a = kb + r for some k ∈ Z .
Clearly, the evaluation of the discrete Fourier transform and of the inverse discrete Fourier
transform in a straight forward manner needs O(n2 ) flops.
9.4
Fast Fourier Transform
Here we illustrate the basic steps of the Fast Fourier Transform (FFT).2 This is a recursive
method which evaluates the discrete Fourier transform in O(n log2 (n)) flops when n is a power
of 2. A recursive algorithm to compute the DFT in this case is described in the following.
Let z := (z0 , . . . , zn−1 ). We want to compute Z := ẑ . Clearly, when we have a fast procedure
for the computation of the vector Z = (Z0 , . . . , Zn−1 ) then we have a fast procedure for the
inverse Fourier transform ž too. This follows from
žn−j
n−1
n−1
n−1
k=0
k=0
l=0
X1
X1
1 X −k(n−j)
=
zk ωn−kn+kj =
zl ω kj = ŵj , j = 0, . . . , n − 1 ,
ωn
zk =
n
n
n n
2
This transform was discovered in 1965 by Cooley and Tuckey. Actually, the FFT was discovered by Gauss
in 1805 - two years before Fourier completed his first big article – but Gauss never published his paper on this
subject.
126
1z ,..., 1z
where w = ( n
0
n n−1 ) .
Consider the following properties:
(n−k)j
Symmetry ωn
= ωnkj , k, j = 0, . . . , n − 1 .
k(j±n)
Periodicity ωnkj = ωn
= ωn±nj , k, j = 0, . . . , n − 1 .
These properties are basic in the cyclic group
Rn := {1, ωn , . . . , ωnn−1 } .
With the help of the symmetry property one can save certain operations. But the break
through is to introduce the periodicity property. This property makes it possible to divide the
problem into smaller problems of the same form.
Let n = 2s , s ≥ 2, and m := n/2 = 2s−1 . We want to solve the following problem:
Given z = (z0 , . . . , zn−1 ) ∈ C,
compute Z := ẑ = (ẑ0 , . . . , ẑn−1 ) .
We start from the following observation:
Zj =
n−1
X
ωnkj zk
=
m−1
X
ωn2lj z2l
l=0
l=0
+
m−1
X
ωn(2l+1)j z2l+1
=
m−1
X
(ωn2 )lj z2l
+
ωnj
l=0
l=0
m−1
X
(ωn2 )lj z2l+1
l=0
Since
ωn2 = ωm , ωnm = −1,
we obtain
Zj = Uj + ωnj Vj , Zj+m = Uj − ωnj Vj , j = 0, . . . , m , where
Uj =
m−1
X
lj
ωm
z2l , Vj =
l=0
m−1
X
l=0
lj
ωm
z2l+1 , j = 0, . . . , m − 1 .
(9.8)
(9.9)
From this identities we conclude that
the computation of the DFT of size
n can be carried out by applying two
n
2
16
256
1024
DFT of size m = n/2 . All what we
FT
4
256 65536 1048576
have to do is to divide the data vecFFT
2
64
2048
10240
tor z of size n into two data vectors
Einsparung 50 % 75 % 97 %
99 %
z e , z o of size m = n/2, where z e conAbbildung 9.1: Schnelligkeitsvergleich
tains the components with even and
o
z contains the components with odd subscripts respectively. Of course, the problems of size
m can now be treated in the same way. Since n = 2s with s = log2 (n) the recursive scheme
computes the result in log2 (n) stages; the problem with n = 1 is trivial solvable.
Such a procedure is called a method of
divide et impera“
”
spalte und herrsche“
”
127
divide and conquer“
”
The method to compute a discrete Fourier transform in this recursive manner (see (9.8),
(9.9)), is called the fast Fourier transform/FFT. It can be realized by the following fragment
of an algorithm:
MATLAB-illustration 9.1
The size n of the problem has to
be a power of 2.
a.∗b denotes the multiplication“
”
of the vectors
a = (a0 , . . . , an−1 ),
b = (b0 , . . . , bn−1 )
by building the vector
(a0 b0 , . . . , an−1 bn−1 ).
function Z = F F T (z)
n = length(z); m = n/2;
if n = 1
Z = z return
end
U = F F T (z0 , z2 , . . . , zn−2 ),
V = F F T (z1 , z3 , . . . , zn−1 )
for k = 0 : m − 1
wk = exp(−2 ∗ P i ∗ i ∗ k/n)
end
Z = (U + w. ∗ V, U − w. ∗ V )
Example 9.4.1 Consider the DFT Z of the vector z = (3, −2, 0, 1) . The recursion leads to the
following steps:
U := 3, V := 0, w := 1, Z := (3 + 1 · 0, 3 − 1 · 0) = (3, 3) .
U := −2, V := 1, w := 1, Z := (−2 + 1 · 1, −2 − 1 · 1) = (−1, −3) .
U := (3, 3), V := (−1, 3), w := (1, i); therefore
Z := ((3, 3) + (−1, −3i), (3, 3) − (−1, −3i)) = (2, 3 − 3i, 4, 3 + 3i) .
Remark 9.4.2 The FFT procedure can also be set up when n is not a power of 2. An effective
way to handle the general case is to consider the DFT as a problem of multiplying a matrix
C of size n to the data vector. Due to the properties of the principal roots this matrix can be
partionated into subblocks of smaller size.
The implementation of the method is illustrated by the so called
butterfly diagram; see Figure 9.2.
Let C(n) be the computational
cost for computing the DFT of size n where n is a power of 2 via
the fast Fourier transform. Then the
FFT solves the DFT of size n with
cost
C(n) = 2C(n/2) + c(n)
(9.10)
z0
Fouriertrans−
z2
formation der
z4
Ordnung 4
z6
z1
Fouriertrans−
z3
formation der
z5
Ordnung 4
z7
U0
U1
ω1
Ζ0
Ζ1
Ζ2
U3
Ζ3
V0
Ζ4
V1
V2
− ω2
−ω
Abbildung 9.2: Butterfly
128
0
U2
V3
where c(n) := 3(n/2) is the cost for
the computation scheme in (9.8); here we have omitted the computational cost for the evaluation of ωnj .
ω
3
Ζ5
Ζ6
Ζ7
Satz 9.4.3 Let n be a power of 2.
The cost for computing the discrete Fourier transform of z ∈ Cn by the fast Fourier transform
is
O(n log2 n) .
Proof:
We set C(s) := T (2s ) . Oviously C(1) = 2 . We show
C(s) = 1.5s2s , s ∈ N ,
inductively. Clearly, C(1) = 2 . Moreover
C(s + 1) = 2C(s) + 3 2s = 3 s2s + 3 2s = 1.5(s + 1)2s+1 .
Remark 9.4.4 We have proved the complexity of the fast Fourier method in Theorem 9.4.3 in
direct way without using the master theorem of complexity
In Section 9.4 we have already mentioned that the computation of the discrete Fourier transform may also considered as multiplication of a vector with a matrix W :
W := (wnjk )0≤j,k≤n−1
What is the relation with the fast Fourier transform? The answer is that W may decomposed
into s blocks of sparse matrices W 1 , . . . , W s ∈ Cn,n by using the periodicity of the powers of
ωn , i.e.
W = Ws ···W1 .
Then, the computation of the discrete Fourier transform ẑ is done in the following way:
Z 0 := z , Z k+1 := W k Z k , k = 0, . . . , s − 1 ; ẑ := Z s .
We sketch this procedure in the case n = 4 . We set ω := ω4 . Here W is given as follows:


1 1
1
1
1 ω 1 ω 2 ω 3 

W =
1 ω 2 1 ω 2  .
1 ω3 ω2 ω1
We want to compute Z := W z . We swap
  
1 1
Z0
Z2  1 ω 2
 =
Z1  1 ω 1
1 ω3
Z3
in the vector Z the components Z1 , Z2 and obtain:
 
z0
|1
1
2


|1
ω  z1 
 , Z̃ = W̃ z .
2
| ω ω 3  z2 
| ω2 ω1
z3
Then we see that the submatrices W11 , W12 , W21 , W22 of W̃ satisfy
W12 = W11 , W22 = ω 2 W21 .
129
This fact suggests a decomposition of W̃ into a
 

1 1
1
1
1 1
1 ω 2 1 ω 2  1 ω 2
 

1 ω 1 ω 2 ω 3  = 0 0
1 ω3 ω2 ω1
0 0
product in the following way:


0 0
1 0
1
0

0 0
0
1
.
 0 1
2
0
1 1  1 0 ω
0 ω1 0 ω3
1 ω2
Now, the computation may be carried out in two steps.
Step 1 (Notice that ω 2 = −1)
 1 
 
Z0
1 0
1
0
z0
Z11  0 1


0
1  z1 
 =
.
Z 1  1 0 −ω 0
0  z2 
2
Z31
0 ω1
0
−ω 1
z3
To realize this step we need 4 (complex) multiplications and 2 (complex) additions.
Step 2 (We ignore the fact ω 2 = −1)
 2 
  1
Z0
1 1 0 0
Z0
Z 2  1 ω 2 0 0  Z 1 
 1 = 
  1
Z22  0 0 1 1  Z21  .
Z32
0 0 1 ω2
Z31
Actually, this product corresponds to two discrete Fourier transforms of size 2, since ω 2 = ω2 .
For the realization of this step we need 2 (complex) multiplications and 4 (complex) additions.
For the realization of step 1 and step 2 we need 8 (complex) multiplications and 4 (complex)
additions. This corresponds to the result in Theorem 9.4.3.
Remark 9.4.5 Digital pictures/images are usually given by a matrix of real numbers representing the gray (or color) values. Such a matrix F = (fij )i,j=0,...,n−1 has a diskrete (2D–
)Fouriertransformation F̂ = DFT(F ):
F̂ (k, l) :=
n−1
X n−1
X
i=0 j=0
f (i, j)ωn(ki+lj) , k, l = 0, . . . , n − 1 .
Since this 2D-transform may be decomposed into two 1D-discrete Fourier transforms we may
use the fast Fourier transform for image analysis too.
9.5
Exercises
130
Kapitel 10
Verteilungen und Statistik
Statistik beschäftigt sich der Auswertung/Bewertung von Daten und dem Testen von Hypothesen. Das Wort Statistik stammt vom lateinischen statisticum (den Staat betreffend). Die Statistik
bezeichnete ursprünglich die Lehre von den Daten über den Staat, also Staatstheorie1 . Erst im
19. Jahrhundert erlangte es seine heutige Bedeutung als allgemeines Sammeln und Auswerten
von Daten. Heutzutage liegen sehr erfolgreiche Software-Pakete vor, die Aufgaben bei konkreten
Daten erledigen.
10.1
Merkmale, Stichproben und Simulation
Die Statistik kann in die folgenden drei Teilbereiche eingeteilt werden:
Deskriptive/empirische Statistik Damit werden vorliegende Daten in geeigneter Weise beschrieben und zusammengefasst. Mit ihren Methoden verdichtet man quantitative Daten
zu Tabellen, graphischen Darstellungen und Kennzahlen.
Mathematische Statistik In der mathematische Statistik, auch schließende Statistik genannt,
leitet man aus den Daten einer Stichprobe Eigenschaften einer Grundgesamtheit ab. Die
Wahrscheinlichkeitstheorie liefert die Grundlagen für die erforderlichen Schätz- und Testverfahren.
Explorative Statistik Diese Form der Statistik stellt methodisch eine Zwischenform dar: Mittels deskriptiver Verfahren und induktiver Testmethoden spürt sie systematisch mögliche
Zusammenhänge (oder Unterschiede) zwischen Daten in vorhandenen Datenbeständen
(Datenschürfung (data mining)) auf.
Im Alltag, in Wissenschaft und Technik, in Verwaltungen fallen große Datenmengen an oder
werden gezielt erhoben. Im Regelfall sind dies Daten über ein Merkmal X, das an den Elementen einer (umfangreichen) Beobachtungseinheit/Untersuchungseinheit einer Grundgesamtheit
von Individuen oder Objekten in unterschiedlichen Ausprägungen zu erkennen ist. Werte, die
von Merkmalen angenommen werden können, heißen Merkmalsausprägungen. Etwa:
Untersuchungseinheit
Erbsen
Laptops
Bürgertum
Merkmal
Oberfläche
Leistungsfähigkeit
Schulabschluss
Ausprägungen
glatt, runzelig,. . .
Taktfrequenz in Hertz, Operationen/Sekunde. . .
Hauptschule, Promotion,. . .
1
Die deutsche Statistik wurde eingeführt von Gottfried Achenwall (1749). Im Statistischen Bundesamt (mit
Sitz in Wiesbaden) mit seinem hoheitlichen Charakter spiegelt sich recht gut der historische Ursprung des Begriffs
Statistik wider.
131
Das Ziel von Datenanalyse ist dann, eine aufschlussreiche Beschreibung der Verteilung dieser
Ausprägung über die Beobachtungsmenge zu gewinnen. Unter einer statistischen Aussage über
ein Merkmal X verstehen wir dann eine Aussage über diese Verteilungen. Wahrscheinlichkeiten
kommen dann ins Spiel, wenn wir in X eine Zufallsgröße sehen (oder vermuten). Werden wir
etwas formaler.
Definition 10.1.1 Sei Ω eine endliche nichtleere Menge.
a) Sei M eine Menge. Jede Abbildung X : Ω −→ M heißt Merkmal auf der Grundgesamtheit/Beobachtungsmenge Ω ; das Bild X(ω) für ein Element ω ∈ Ω nennt man
seine Ausprägung.
(b) Ein Merkmal X mit Wertebereich M := R nennt man ein quantitatives Merkmal.
(c) Die Beobachtung von Ausprägungen x1 , . . . , xn ∈ M von n Elementen aus Ω nennt man
eine Meßreihe.
Beachte: Die Werte in einer Stichprobe müssen nicht notwendigerweise verschieden sein.
Bei quantitativen Merkmalen unterscheidet man noch zwischen quantitativen und kontinuierlichen Merkmalen. Etwa:
Diskrete Merkmale: Anzahl der Diplomabschlüsse pro Jahr, Zahl der Milchkühe in Bayern,
Alter in Jahren.
Kontinuierliche Mermale: Gewicht eines Affen in einer Affenpopulation; Entfernungen im
Planetensystem.
Beispiel 10.1.2 Der Fachbereich Mathematik der Universität startet eine Umfrage unter ehemaligen Studenten, die in den letzten fünf Jahren den Abschluß als Diplommathematiker erreicht
haben. Es wird eine Fragebogen erarbeitet und verschickt mit folgenden Fragen:
(1) Wieviele Monate dauerte es vom Erwerb des Diploms bis zur ersten Anstellung?
(2) Sind Sie selbständig erwerbstätig oder war ihre erste Anstellung an einer Universitätseinrichtung, in einer Großfirma (mehr als 200 Mitarbeiter), in einem mittelgroßen Betrieb
(30 bis 200 Mitarbeiter), in einer Kleinfirma (weniger als 30 Mitarbeiter) oder sind Sie
noch ohne Anstellung?
(3) Wie schätzen Sie Ihr Gehalt ein? Höher, etwa gleich oder niedriger als das Gehalt von
Diplominformatikern?
Die erste Frage bezieht sich auf ein quantitatives Merkmal, als Antwort kommt eine Zahl in
Frage, die zweite Frage bezieht sich auf ein qualitatives Merkmal, als Antwort ist ein Element
aus der Menge mit den Elementen
selbständig, Universitätseinrichtung, Großbetrieb, Mittelbetrieb, Kleinfirma, ohne Anstellung
zu entnehmen. Die dritte Frage bezieht sich auf ein Rangmerkmal, der Befragte soll sein Gehalt
in eine vorgegebene Liste einordnen. Die Beobachtungsmenge ist hier die Menge der erfolgreichen
Studienabgänger im Studiengang Diplommathematik“.
”
132
Als Stichprobe2 bezeichnet man eine Teilmenge einer Grundgesamtheit/Untersuchungseinheit, die unter bestimmten Gesichtspunkten ausgewählt wurde und über die hinsichtlich eines oder mehrerer interessierender Merkmale eine Aussage gemacht werden soll. Mit Stichproben wird in Anwendungen der Statistik (etwa in der Marktforschung, aber auch in der
Qualitätskontrolle und in der naturwissenschaftlichen, medizinischen und psychologischen Forschung) häufig gearbeitet, da es oft nicht möglich ist, die Grundgesamtheit, etwa die Gesamtbevölkerung oder alle hergestellten Exemplare eines Produkts, zu untersuchen. Grundgedanke
der Zuhilfenahme von Stichproben ist das Induktionsprinzip, bei dem von besonderen auf allgemeine Fälle geschlossen wird.
Um die einzelnen Elemente einer Stichprobe zu erhalten, stehen verschiedene Auswahlverfahren zur Verfügung. Die korrekte Wahl des Auswahlverfahrens ist wichtig, da die Stichprobe
repräsentativ sein muss, um auf die Grundgesamtheit schließen zu können (siehe dazu z.B.
Hochrechnung). Entscheidend ist eine vernünftige Probenahme, die über den Erfolg der Aussage entscheidet. Häufig sind mehrere Tests notwendig um sicherzustellen, dass tatsächlich rational
entschieden wurde.
Hat man dann schließlich die Stichprobe
gewählt, dann liegt das Problem der Datenbeschaffung an. Hier treten etwa bei BeProf. Ulmer: Der Wurm liegt im sogenannten refragungen folgende Probleme auf:
präsentativen Querschnitt. Den gibt es nämlich
• Ist es gut, Vorinformationen über
die Ziele einer Befragung zu geben?
• In welcher Weise kann die Anonymität der Befragung gewährleistet
werden?
• Kann die Befragung durch eine aktuelle Stimmungslage in der Grundgesamtheit beeinträchtigt werden?
• Wie wertet man eine geringe Rücklaufquote bei einer Befragung durch
verschickte Fragebögen?
gar nicht! Es ist unmöglich, aus allen Wahlberechtigten eine Gruppe von 500 bis 2000 Personen auszuwählen, die dann repräsentativ für alle
sind. Das geht auch nicht mit 10000.
Prof. Ulmer: Für eine handelsübliche Umfrage nehmen sie Telefonbücher und suchen darin
zufällig 1000 Nummern aus. Sie rufen an und fragen die Leute. Falls niemand zu Hause ist oder
die Person das Interview verweigert, dann wird
eine andere Nummer ausgelost bis 1000 Antworten vorliegen.
Prof. Ulmer ist Statistik-Professor
Abbildung 10.1: Stichprobenkontroverse
Was eine Grundgesamtheit ist, bedarf
einer genauen Festlegung. Nicht immer fällt dies leicht. Schwierige Fälle etwa sind: Population der arbeitsfähigen Personen, der Millionäre, der Einwohner in Frankfurt deutschen Blutes“.
”
Leichte Fälle: Firmen, die beim DAX berücksichtigt werden, Aktiengesellschaften im Bereich der
IHK Frankfurt, im Studiengang Diplommathematik“ in Frankfurt eingeschriebene StudentIn”
nen.
Simulation nennt man die Nachbildung eines realen Processes. Wir kennen die Begriffe
simulieren, Flugsimulator, Computersimulation. Hier interessiert die Nachbildung eines Zufallsversuches mit Hilfe eines Zufallsgeräts“. Dabei ist darauf zu achten, dass jedem Ausgang des
”
Zufallsversuchs genau ein Ausgang bei der Simulation entspricht. Natürlich müssen auch die
Wahrscheinlichkeiten der Ausgänge beim Zufallsversuch und der entsprechenden bei der Simulation übereinstimmen. Eine Simulation, welche für theoretische Überlegungen sehr wichtig ist,
2
Die Bezeichnung Stichprobe kommt von der Praxis, bei Hochöfen durch einen Anstich zu testen, ob der Stahl
eine gewünschte Eigenschaft hat.
133
bietet das Urnenmodell. Jeder Zufallsversuch mit rationalen Wahrscheinlichkeiten lässt sich
durch ein Urnenmodell simulieren. Ist nämlich Ω = {ω1 , . . . , ωn } die Menge der Elementarereignisse und
ai
mit ai ∈ N0 für i = 1, . . . , n, und a1 + · · · + an = b > 0 ,
P (ωi ) =
b
dann denke man sich eine Urne mit b Kugeln. Jeweils ai Stücke dieser Kugeln werden mit ωi
beschriftet. Eine Durchführung des Zufallsversuchs besteht dann drin, nachdem die Kugeln gut
gemischt wurden, blind“ eine Kugel aus der Urne zu ziehen, deren Aufschrift festzustellen. Bei
”
einer Ziehung mit Wiederholungen, wird die Kugel wieder zurückgelegt, bei einer Ziehung ohne
Wiederholung wird eventuell weitergezogen, ohne dass die Kugel wieder in die Urne zurückgelegt
wurde. Aus dieser Vorgehensweise leiten sich die 4 Grundaufgaben der Kombinatorik ab: Ziehen
mit und ohne Zurücklegen und mit und ohne Notierung der Reihenfolge der Ziehungsergebnisse;
siehe Abschnitt 5.5. Eines der bekanntesten Urnenexperimente stellt die Ziehung der Lottozahlen
dar.
Für praktische Fälle, in denen die experimentelle Durchführung eines Prozesses mühsam oder
schwierig ist, ist die Simulation mit Zufallszahlen besonders wichtig. Eine solche Simulation
wird auch als eine Monte Carlo-Simulation bezeichnet. Die Zufallszahlen werden dazu aus
Tabellen entnommen oder werden nach einer mathematischen Methode erzeugt; siehe Abschnitt
4.7.
10.2
Empirische Häufigkeitsverteilung
Sei X ein Merkmal in einer Untersuchungseinheit Ω und sei x1 , . . . , xn eine Stichprobe. Besitzt
das Merkmal X genau s verschiedene mögliche Ausprägungen a1 , . . . , as ∈ R, so gelangen wir
durch Bildung der absoluten Häufigkeiten
hj :=
n
X
i=1
χ{xi =aj } , j = 1, . . . , s ,
der Ausprägungen zur empirische Häufigkeitsverteilung des Merkmals X in der Stichprobe.
Die relativen Häufigkeiten sind gegeben durch
rj :=
Klar, wir haben
s
X
j=1
hj
, j = 1, . . . , s .
n
hj = n ,
s
X
rj = 1 .
j=1
Solche Häufigkeitsverteilungen dienen zur statistischen Beschreibung von Daten (Messwerten,
Merkmalswerten). Sie können in tabelarischer Form, als Stab/Balken- oder Kreisdiagramme dargestellt werden. Beim Stabdiagramm werden die absoluten bzw. relativen Häufigkeiten als Funktion der Merkmalsausprägungen, getrennt durch Zwischenräume, angezeigt, wobei hj bzw. rj
die Länge des Stäbchens über aj ist. Die Kreisdiagramme finden hauptsächlich bei qualitativen
Merkmalen Verwendung. Hier wird die Kreisfläche in Sektoren aufgeteilt, deren Flächen proportional zu den absoluten bzw. relativen Häufigkeiten der Ausprägungen sind. Beide Darstellungen
kennen wir von Wahlergebnissen: Stabdiagramme für die Prozentzahlen, Kreisdiagramme für die
Sitzverteilungen
Ein Histogramm ist die graphische Darstellung der Häufigkeitsverteilung von quantitativen
Messwerten. Man geht dabei von den nach Größe geordneten Daten aus und teilt den gesamten
134
Bereich der Stichprobe in k Klassen auf. Diese müssen nicht notwendig gleich breit sein. Allerdings vereinfachen zumindest im Mittelbereich gleichgroße Klassen die Interpretation. Über jeder
Klasse wird ein Rechteck errichtet, dessen Fläche proportional zur klassenspezifischen Häufigkeit
ist; es sieht aus, wie der Graph einer Treppenfunktion. Stab- bzw. Balkendiagramme sind als
Spezialfälle von Histogrammen anzusehen, allerdings wird dabei zwischen den Stäben/ Balken
kein Zwischenraum gelassen. Anwendung finden Histogramme auch in der Bildverarbeitung.
Ist X ein Merkmal auf der Grundgesamtheit Ω mit Merkmalsraum M, so liegen Begriffe
nahe, wie wir sie für Zufallsgrößen eingeführt haben.
Definition 10.2.1 Sei S = {x1 , . . . , xn } ⊂ M eine Stichprobe zum Merkmal X : Ω −→ M.
(a) Wir setzen
1
#{X = x} , x ∈ M,
n
und nennen die so definierte Funktion hS : M −→ R die Häufigkeitsfunktion oder
empirische Dichte des Merkmals X bei der Stichprobe S.
hS (x) :=
(b) Ist X ein quantitatives Merkmal, so setzen wir
HS (x) :=
1
#{X ≤ x} , x ∈ R ,
n
und nennen die so definierte Funktion HS : R −→ R die empirische Verteilungsfunktion.
Die Funktionen hS , HS erfüllen offenbar die folgenden Bedingungen:
• 0 ≤ hS (x) ≤ 1 , 0 ≤ HS (x) ≤ 1 , x ∈ R.
• HS ist monoton wachsend.
• lim HS (x) = 1, lim HS (x) = 0.
x→∞
x→−∞
Die Verwandschaft mit den Begriffen “Verteilung, Verteilungsfunktion“ wird deutlich, wenn
wir als Wahrscheinlichkeitsmaß das Zählmaß verwenden.
Beispiel 10.2.2 Zur Erhebung aus Beispiel 10.1.2. Ein Teil (98) der Befragten (107) antwortete. Die Auswertung der Antworten auf die 3. Frage ergab:
Wartezeit
x Monate
0
1
2
3
4
5
6
>6
Absolute Häufigkeit
#{X = x}
10
8
15
48
1
2
3
11
Aus der Tabelle in 10.2.2 lesen wir ab:
135
Relative Häufigkeit
hS (x)
0.10
0.08
0.15
0.48
0.01
0.02
0.03
0.11
(A) Zehn Prozent der befragten Mathematikabsolventen fanden ihre Arbeit bereits vor Ende
ihres Studiums (hS (0) = 0.10).
(B) Vier von fünf Befragten fanden ihre Arbeit bereits drei Monate nach Beendigung des Studiums (HS (3) = 0.81).
(C) Mehr als zehn Prozent der Befragten hatten nach einem halben Jahr noch keinen Job.
10.3
Statistische Parameter
Stichproben kann man durch die Angabe von sogenannten Kenngrößen“ kennzeichnen. Hier
”
besprechen wir die beiden Kenngrößen, die später als Approximation für den Erwartungswert
und die Varianz angesehen werden können.
Definition 10.3.1 Sei {x1 , . . . , xn } eine Stichprobe des quantitativen Merkmals X. Dann heißt
das arithmetische Mittel
1
x := (x1 + · · · + xn )
n
das Stichprobenmittel von S.
Das Stichprobenmittel besitzt eine Optimalitätseigenschaft.
Satz 10.3.2 Sei S = {x1 , . . . , xn } eine Stichprobe zum quantitativen Merkmal X. Dann gilt mit
dem Stichprobenmittel x :
n
n
X
X
2
(xi − x) = inf
(xi − x)2
i=1
x∈R
i=1
Beweis:
n
P
Betrachte f (x) :=
(xi − x)2 , x ∈ R. Es gilt für x̂ ∈ R :
i=1
f ′ (x̂) = −2
n
n
X
X
1 = 2n > 0.
(xi − x̂) , f ′′ (x̂) = 2
i=1
i=1
Also ist x̂ ein Minimum von f genau dann, wenn f ′ (x̂) = 0 gilt. Die Gleichung f ′ (x̂) = 0 führt
zu
n
n
X
1X
xi = x̄
xi = nx̂, d.h x̂ =
n
i=1
i=1
Eine weitere Kenngröße einer Stichprobe S = {x1 , . . . , xn } ist der Stichprobenmedian x̃ :
(
x n+1
, falls n ungerade
2
x̃ :=
1 (x n + x n+1 ) , falls n gerade
2 2
2
Der Median (Zentralwert) teilt die Stichprobe in zwei gleich große Teile, einen mit unterdurch”
schnittlichen“ Werten und einen mit überdurchschnittlichen“ Werten. Er ist unempfindlich
”
gegenüber sogenannten Ausreißern“, d.h. solchen Werten, die sehr stark von den durchschnitt”
”
lichen“ Werten abweichen; siehe Beispiel 10.3.3. Der negative Ausreißereffekt würde sich durch
136
ein gestutztes arithmetisches Mittel vermeiden lassen, man streiche etwa den kleinsten und
den größten Wert und bilde dann das arithmetische Mittel (vgl. mit der Wertung beim Ski– und
Wasserspringen).
Der Stichprobenmedian hat auch eine Optimalitätseigenschaft, nämlich
n
X
i=1
|xi − x̃| = inf
x∈R
n
X
i=1
|xi − x|
Die Schwierigkeit beim Nachweis dieser Eigenschaft liegt darin, dass die Funktion
g : R ∋ x 7−→
n
X
i=1
|xi − x| ∈ R
nicht überall differenzierbar ist. Aus der Darstellung
g(x) =
l
X
i=1
(x − xi ) +
n
X
(xi − x) = (2l − n)x +
i=l+1
n
X
I=l+1
xi −
l
X
xi ,
i=1
wobei o.E. x1 ≤ x2 ≤ · · · ≤ xn (Umnumerierung) gelte und l so gewählt sei, daß xl ≤ x ≤ xl+1
gilt, kann man durch Fallunterscheidung (n gerade/n ungerade) die angesprochene Optimalität
verifizieren.
Beispiel 10.3.3 In einem Bundesligakader von 20 Spielern ist folgende Gehaltsstruktur gegeben:
Verdienst pro Jahr:
6 Millionen Euro
3 Millionen Euro
500 000 Euro
Arithmetisches Mittel: 900 000 Euro
1 Spieler
1 Spieler
18 Spieler
Median: 500 000 Euro
Man sieht, der arithmetische Mittelwert sagt zwar etwas über die pro Jahr anfallende Lohnsumme
aus, sagt aber wenig über die durchschnittlichen Verdienstmöglichkeiten aus. Der Median ist hier
sicher ausagekräftiger.
Definition 10.3.4 Sei S = {x1 , . . . , xn } eine Stichprobe zum quantitativen Merkmal X mit
Mittelwert x . Die Zahl
v
u
n
u 1 X
t
sX :=
(xi − x)2
n−1
i=1
heißt Stichprobenstreuung oder Standardabweichung. Als Maß für die Abweichung von
Stichprobenmittel x dient die Stichprobenvarianz s2X .
Aus der Definition von s−X leitet man leicht die Aussage
√
√
xi ∈ [x − n − 1 sX , x + n − 1 sX ] , 1 ≤ i ≤ n,
ab. Sie zeigt deutlich, wie die Stichprobenstreuung die Ausdehnung der durch x1 , . . . , xn gegebenen Punktmenge auf der Zahlengeraden beschreibt. Die Standardabweichung gibt Auskunft, wie
sehr die Stichprobenwerte um ihr Zentrum streuen. Sie hat gegenüber der Stichprobenvarianz
137
den Vorteil, daß sie dieselbe Dimension wie das beobachtete Merkmal X hat.
Zur praktischen Berechnung von s2X ist oft die Gültigkeit der Identität
s2X
n
X
1
x2i − nx
=
n−1
i=1
nützlich (Nachweis!).
Bemerkung 10.3.5 In der Definition der Stichprobenvarianz würde man anstatt des Faktors
1
1
2
n−1 den Faktor n erwarten. Man beachte aber, dass sX bei festem Stichprobenmittel x eine
Funktion von n − 1 Variablen ist, da z.B. xn aus der Gleichung
xn +
n−1
X
xi = x
i=1
ermittelt und in s2X eingesetzt werden kann. Die Mittelung“ mit n−1 scheint also gerechtfertigt.
”
10.4
Testen und Schätzen
Eine Grundidee der Statistik ist es, Daten als Realisierungen von Zufallsvariablen aufzufassen
und an ihren Verteilungen etwas über die Daten zu lernen. Beim statistischen Testen trifft man
eine Hypothese über die Verteilung und fragt: Liegen die beobachteten Daten im Rahmen“,
”
oder ist hier ein Ereignis eingetreten, das unter der Hypothese so unwahrscheinlich ist, dass wir
begründeten Zweifel am Zutreffen der Hypothese haben sollten?
Wenn etwa aus einer Urne mit 100 weißen und 100 schwarzen Kugeln bei zufälligem Ziehen
ohne Zurücklegen von 120 Kugeln nur 40 weis̈e Kugeln gezogen werden, so kann man Zweifel
an der Hypothese hegen, dass die Urne mehr weiße als schwarze Kugeln enthält. Sei X die
Zufallgröße, die beim Ziehen von 120 Kugeln die Anzahl der weißen Kugeln beschreibt. Offenbar
ist der Erwartungswert E := E(X) von X gegeben durch
100
= 60 .
200
Die Wahrscheinlichkeit ein Ergebnis beim Ziehen zu bekommen, das mindestens so weit von E
entfernt ist wie der beobachtete Wert 40, ist
E = 120 ·
p := P (|X − 60| ≥ |40 − 60|) = P (X ≤ 40) + P (X ≥ 80) = 2P (X ≤ 40) = 2
Man kann nun zeigen, dass X hypergeoometrisch verteilt ist. Also gilt:
100
100
4
X
i
120 − i
0
p=2
≤ 10−6 .
200
i=0
120
4
X
0P (X = i) .
i=0
Also, angenommen die These trifft zu, dann trifft ein Ergebnis, das so extrem abweicht wie das
beobachtete, nicht öfter als 6 mal bei 1 Million Versuchen.
Das Ziel von Schätzverfahren ist es, aus Beobachtungen/Stichproben Schlüsse zu ziehen.
Man wird dabei nicht darauf bestehen dürfen, dass die Schlüsse stets richtig sind, man wird
dann mit dem Schlußverfahren zufrieden sein, wenn der Schaden, den der Schluß, basierend auf
zufälligen Beobachtungen, mit sich bringt, klein ist. Wahrscheinlichkeit kommt über die Auswahl
der Stichprobe ins Spiel.
138
Beispiel 10.4.1 Ein Teich enthält eine unbestimmte Zahl N von Fischen, die geschätzt werden
soll. Dazu werden M Fische gefangen, mit einem weißen Fleck markiert und wieder ausgesetzt.
Man wartet eine Weile, dann werden in einem zweiten Fischzug die Fische gefangen, und die
Zahl x der markierten Fische in diesem zweiten Fang ermittelt.
Eine plausible Schätzung N̂ von N ergibt sich aus folgender Überlegung: Wenn x nicht zu klein
ist, müßte der Anteil nx der markierten Fische am zweiten Fang ungefähr gleich dem Anteil M
N
der markierten Fische am Gesamtbestand sein. Wenn N̂ eine gute Schätzung von N ist, müßte
also
M
x
≈
n
N
gelten. Es liegt daher nahe, als Schätzwert N die zu M
N benachbarte ganze Zahl zu wählen.
Die Wahrscheinlichkeit, x markierte Fische im zweiten Fang zu haben ist
M N −M PN (x) =
X
x−x
N
n
(0 ≤ x ≤ n)
Der obige Schätzwert N̂ maximiert (Nachweis !) diese Wahrscheinlichkeit, d.h. PN̂ (x) = max PN (x).
N ∈N
Die Grundidee des Testens von Hypothesen ist einfach: man geht von einer Vermutung,
Behauptung, Annahme, allgemein von einer Hypothese aus. Ein Test ist dann ein Verfahren zur
Überprüfung von Hypothesen über eine Zufallsvariable. Ein Test ist also ein Prüfverfahren, das
man anwendet, wenn man wissen will, ob man die Hypothese ablehnen soll oder nicht. Beispiele
dafür sind etwa: Der Erwartungswert der Zufallsvariablen X ist 12 , der Erwartungswert E(X)
liegt in [−2, 2], die Erwartungswerte der Zufallsvariablen X, Y sind gleich, die Varianz V(X) hat
den Wert 1.5. In der Praxis handelt es sich bei der Formulierung von Hypothesen oft um einen
Vergleich, z.B. der Wirksamkeit zweier Medikamente oder der Arbeitsleistung bei verschiedenen
Arbeitsbedingungen.
Es sei uns die Form der Verteilung von X bekannt. Diese Verteilung hänge jedoch von einem
uns unbekannten Parameter ϑ ab. Die zu testende Hypothese sei eine Aussage über ϑ. Es sei Θ
die Menge aller in Frage kommender Werte für ϑ. Jede Hypothese über ϑ lässt sich genau dann
auf die Form
H 0 : ϑ ∈ Θ0
bringen, wobei Θ0 eine geeignete Teilmenge von Θ ist. Der Bereich Θ heißt Parameterraum.
Die Aussage H0 heißt Nullhypothese. Jede zu Θ0 disjunkte Teilmenge Θ1 ⊂ Θ kann zur
Formulierung einer Alternative
H 1 : ϑ ∈ Θ1
dienen.
Eine Hypothese der Form ϑ = ϑ0 (wobei also die zugehörige Teilmenge Θ0 oder Θ1 von Θ nur
aus einem Element besteht) heißt einfache Hypothese. Der kritische Bereich K eines Tests
ist der Ablehnungsbereich, also der Bereich von Stichproben, für den der Test abzulehnen ist.
(K hat in einem fundierten Rahmen ein Ereignis des Stichprobenraums zu sein).
Sei T ein Test für eine einfache Nullhypothese
H 0 : ϑ = ϑ0
mit kritischem Bereich K . Trifft die Nullhypothese zu, so ist die Wahrscheinlichkeit für das
Ereignis x := (x1 , . . . , xn ) ∈ K“ mit Hilfe des bekannten Parameterwertes ϑ0 zu ermitteln. Wir
”
schreiben dafür
Pϑ0 (x ∈ K)
139
Dies ist die Wahrscheinlichkeit dafür, dass man einen sogenannten Fehler erster Art begeht,
der darin besteht, dass man die Nullhypothese ablehnt, obwohl sie gilt. Diese Wahrscheinlichkeit soll natürlich gering sein. Das Problem der Konstruktion von Tests besteht also in der
Wahl eines kritischen Bereichs K, so dass der Fehler erster Art eine gegebene (meist kleine) Zahl
α ist.
Ist die Nullhypothese nicht einfach sondern von der Form
H 0 : ϑ ∈ Θ0
so möchte man K so wählen, dass die Wahrscheinlichkeit für einen Fehler erster Art durch α
beschränkt bleibt, d.h. dass also
sup Pϑ (x ∈ K) ≤ α
ϑ∈Θ0
gilt. Ein Test, der dieser Forderung genügt, heißt Test zum Niveau α. Die Zahl α heißt
Testniveau, die Zahl 1−α heißt Sicherheitswahrscheinlichkeit. Es ist üblich, als Testniveau
α eine der Zahlen 0.05, 0.01, 0.001 zu wählen.
Jemand bezweifelt, dass beim Werfen einer bestimmten Münze die beiden Ereignisse
W : Wappen liegt oben“
”
Z : Zahl liegt oben“
”
gleichwahrscheinlich sind. Um über eine solche Vermutung Aussagen machen zu können, ist es
naheliegend, die Münze möglichst oft zu werfen und dann eine Entscheidung auf Grund des
umfangreichen Datenmaterials der so gewonnenen Stichprobe zu treffen.
Wir bezeichnen mit p die (unbekannte ) Wahrscheinlichket dafür, dass nach dem Werfen der
Münze Wappen“ obenliegt. Handelt es sich um eine ideale“ Münze, so ist die
”
”
1
Hypothese : p =
2
richtig, anderenfalls ist sie falsch, d.h. p 6= 21 . Diese Hypothese können wir nun etwa dadurch testen, dass wir die Münze 200 mal werfen und die relativen Häufigkeiten hw , hz für Wappen“ und
”
Zahl“ notieren. Ist die obige Hypothese richtig, kann man auf Grund des Bernoullischen Ge”
setzes der großen Zahlen erwarten, dass diese relativen Häufigkeiten nahe bei 21 liegen. Nun wird
man aber subjekt werden müssen: Was heißt nahe bei 21 , nicht nahe bei 12 . Sicherlich wird man
die obige Vermutung/Hypothese verwerfen, wenn
hw ∼ 0.3, hz ∼ 0.7
ausfüllt. Große Abweichungen von hw von 21 hat also eine Ablehnung der Hypothese, eine kleine
Abweichung eine Annahme der Hypothese zur Folge. Wir leiten drei wichtige Fragen daraus ab:
1. Wann ist eine Abweichung groß, d.h. wir groß soll im allgemeinen die Konstante c gewählt
werden, um für
1
|hw − | > c
2
die Hypothese abzulehnen.
2. Wir oft wird bei solchen Entscheidungen die Hypothese abgelehnt, obwohl sie richtig ist,
d.h. zu Unrecht abgelehnt ?
3. Wie verhält man sich im Fall
1
|hw − | ≤ c
2
Soll hier die Hypothese angenommen werden ? Wenn ja, wie hüfig trifft man dabei eine
falsche Entscheidung ?
140
Fehler der ersten Art haben wir schon beschrieben. Es kann aber nun auch passieren, dass
man eine Hypothese nicht ablehnt, obwohl sie falsch ist. Einen derartigen Testfehler nennt man
Fehler 2. Art.
10.5
1.)
Übungen
Ein fairer Würfel wird n-mal geworfen. Die Zufallsgröße Xn sei die größte der geworfenen
Augenzahlen, also
Xn (a1 , . . . , an ) = max aj , (a1 , . . . , an ) ∈ Ω := {1, . . . , 6} × · · · × {1, . . . , 6} .
1≤j≤n
Zeige: limn E(xn ) = 6 .
2.)
Die Zufallsgröße X nehme die Werte 0, 1, 2 . . . , n an. Zeige:
E(X) =
n
X
j=0
p(X ≥ j) .
3.)
Ein fairer Würfel wird 2-mal geworfen. Der Erwartungswert für die größte der geworfenen
Augenzahlen ist 161
36 . Sei Y die Zufallsgröse, die die kleinste Augenzahl beim zweimaligen Würfeln beschreibt. Bestimme den Erwartungswert von Y mit der vorhergehenden
Aufgabe.
4.)
Beim Fussballtoto wird das Ergebnis eines ausgefallenen Spieles augelost. Steht in der
Totozeitung, dass die Tendenz etwa des Spiels TSG Hoffenheim – Bayern München 2:3:5
(S:U:N) betrage, dann soll dies bei der Auslosung berücksichtigt werden. Stelle ein Urnenmodell dafür her.
5.)
Aus einer Gruppe, bestehend aus 5 Frauen und 5 Männern werden 5 Personen zufällig
ausgewählt. Mit welcher Wahrscheinlichkeit besteht diese Stichprobe aus 2 Frauen? Kann
man das Ergebnis auch ohne Rechnung einsehen?
6.)
Eine Warenlieferung enthalte 40 intakte und 10 defekte Stücke. Wie gros̈ ist die Wahrscheinlichkeit, dass eine Stichprobe vom Umfang 10
(a)
genau 2 defekte Stücke enthält?
(b) mindestens 2 defekte Stücke enthält?
141
Kapitel 11
Markov-Ketten
Markov-Ketten sind ein hervorragendes Modellierungsinstrument für zeitliche Prozesse, die in
einfacher Weise den Zufall beinhalten. Die Basis der Theorie von Markov-Ketten ist im wesentlichen die Lineare Algebra. Sie liefert eine Fülle von praktisch anwendbaren Ergebnissen.
11.1
Mendelsche Gesetze
Eine der ersten systematischen Arbeiten zur Vererbungslehre wurde im 19. Jahrhundert von
Gregor Mendel1 geleistet. Unter anderem untersuchte Mendel die Vererbung einer Eigenschaft
von Erbsen, nämlich ob die Erbsen eine glatte oder runzelige Oberfläche besitzen. Wie bei allen
Pflanzen besitzt dabei jedes Individuum zwei Eltern.
Durch Kreuzung von Erbsen mit glatter Oberfläche und runzeliger Oberfläche erhält jede
Erbse in der Tochtergeneration das Genmaterial je eines Elternteils mit glatter und je eines
Elternteils mit runzeliger Oberfläche. Überraschenderweise gab es bei den Nachkommen der
Erbsen in der ersten Tochtergeneration nur noch glatte Erbsen. Noch überraschender waren die
Ergebnisse bei der nachfolgenden Tochtergeneration, bei der nun beide Elternteile aus der ersten
Tochtergeneration stammten. Hier kamen sowohl glatte als auch wieder runzelige Erbsen zum
Vorschein. Interessanterweise waren jedoch die glatten Erbsen im Übergewicht, und zwar im
Verhältnis 3 zu 1. Mendel suchte nach einer Erklärung und fand sie.
Bei diploiden“ Organismen, z. B. bei Menschen, Pflanzen,. . . , sind entlang der Chromo”
somen Gene wie in einer Kette nebeneinander aufgereiht. Ein Gen kann in zwei oder mehr
Zustandsformen auftreten, die man Allele nennt. Am Genort der Erbsen, der für die Oberfläche verantwortlich ist, gibt es zwei allele Gene, bezeichnet mit G (glatte Oberfläche) und g
(runzelige Oberfläche). Damit gibt es drei verschiedene Genotypen: GG, Gg, gg (Gg und gG
können wir identifizieren). Hier ist die Mendelsche Vererbung:
Elterngeneration:
Erste Tochtergeneration:
Zweite Tochtergeneration:
GG, gg
Gg, Gg
GG, Gg, gG, gg
Hier geht man also davon aus, dass in der Elterngeneration die Genotypen GG und gg vorliegen.
Wieso kommt es zu den Genotypen in der ersten und zweiten Tochtergeneration und was soll
nun Gg eigentlich sein? Wir wissen nur, dass GG glatt und gg runzelig bedeutet. Ein Organismus, der bezüglich einer Ausprägung dieselbe Erbinformation trägt, wird als reinerbig oder
homozygot bezeichnet.2 Wir haben nun mit Gg eine mischerbige oder heterozygote Erb1
Gregor Mendel, 1822 - 1884, Augustinermönch
Die Annahme, dass eine Situation vorliegt, in der die Elterngeneration reinerbig ist, läst sich durchaus rechtfertigen.
2
142
information vorliegen. Soll daher die Ausprägung ein wenig runzelig“ vorliegen oder soll eine
”
der beiden Allele zufällig die Ausprägung bestimmen? Bei anderen Pflanzen gibt es durchaus
die Beobachtung, dass Nachfahren eine gemischte Ausprägung“ haben: rote Blume + weisse
”
Blume = rosa Blume als Nachfahre. Dies ist aber hier, wie die Experimente gezeigt haben,
nicht der Fall: alle Erbsen der ersten Tochtergeneration werden als glatt beobachtet.
Die Interpretation dieses Sachverhalts ist, dass beide Allele gegeneinander konkurrieren und
in Abhängigkeit der Gene sich immer eines der beiden als dominant behauptet. Dies legt es
nahe, der Unterscheidung Genotyp (Zusammensetzung der Erbinformation) die Unterscheidung
Phänotyp (sichtbare Ausprägung) zur Seite zu stellen. Damit erklärt sich die Ausprägung der
ersten Tochtergeneration dadurch, dass Gg, gG und GG denselben Phänotyp besitzen.
Wie kann man nun die Erscheinung in der zweiten Tochtergeneration erklären? Nimmt
man an, dass Eltern des Genotyps Gg eines seiner Gene mit gleich großer Wahrscheinlichkeit
an seine Kinder weitergibt, dann gibt es für die Erbsen der zweiten Tochtergeneration vier
Möglichlichkeiten, wie sie in der obigen Tabelle aufgelistet ist. Davon sind drei der vier Kombinationen, die im Genotyp möglich sind, im Phänotyp gleich, nämlich glatt; nur der Genotyp gg
liefert eine runzelige Erbse. Dabei ist offenbar angenommen, dass eine nachfolgende Generation
durch zufällige Paarung gebildet wird, ohne Rücksicht auf den Genotyp der Eltern.
11.2
Hardy-Weinberg–Gesetz
Betrachten wir nun eine unendliche (in der Praxis sehr große) Population, deren Individuen an
einem Genort die allelen Gene A und a tragen. Damit haben wir die Genotypen AA, Aa, aa mit
den relativen Häufigkeiten
α, 2β, γ .
Klar, wir haben (α, β, γ) ∈ M mit
M := {(r, s, t) ∈ R3 |r, s, t ≥ 0, r + 2s + t = 1} .
Hieraus bestimmen sich die Häufigkeiten der Gene A und a zu
p=α+β, q =β+γ.
Wir nehmen an, dass die nächste Generation durch zufällige Paarung gebildet wird: die Vereinigung der Erbinformation erfolgt zufällig ohne Rücksicht auf den Genotyp der Eltern, jede
Paarung ergibt die gleiche Zahl von Nachkommen. Damit ergibt sich folgende Tabelle:
Paarungsmöglichkeiten
der Genotypen
Häufigkeit
Aufspaltung in der Tochtergeneration
AA
α2
2αβ
β2
0
0
0
Aa
0
2αβ
2β 2
2αγ
2βγ
0
aa
0
0
β2
0
2βγ
γ2
(α + β)2
2(α + β)(β + γ)
(β + γ)2
α2
AA × AA
AA × Aa
4αβ
Aa × Aa
4β 2
AA × aa
2αγ
Aa × aa
4βγ
aa × aa
γ2
Genotyphäufigkeiten
in der Tochtergeneration
Die Genotyphäufigkeiten sind also in der Tochtergeneration α̃, 2β̃, γ̃ ergeben sich mit
α̃ = (α + β)2 , β̃ = (α + β)(β + γ), γ̃ = (β + γ)2 .
143
Damit haben wir nun auch
α̃ = p2 , 2β̃ = 2pq , γ̃ = q 2 .
Die Genotyphäufigkeiten der Tochtergeneration hängen also nur von den Genhäufigkeiten der
Elterngeneration ab. In der Tochtergeneration sind die Genhäufigkeiten nun
α̃ + β̃ = p2 + pq = p , β̃ + γ̃ = pq + q 2 = q .
Bezeichnen wir die Genotyphäufigkeiten in aufeinanderfolgenden Generationen mit
αk , 2βk , γk , k ∈ N0 ,
so erhalten wir ein System von Differenzengleichungen:
αk+1 = (αk + βk )2
βk+1 = (αk + βk )(βk + γk )
γk+1 = (βk + γk )2
Insbesondere haben wir in dieser Bezeichnung
αk = p2 , βk = pq , γk = q 2 , k ∈ N .
(11.1)
Also sind die Genhäufigkeiten konstant und die Genotyphäufigkeiten hängen konstant von der
Tochtergeneration ab. Dies können wir auch so interpretieren:
Die Iteration, ausgehend von einem Startwert (α0 , β0 , γ0 ) ∈ M, erreicht bereits
nach einem Schritt den Gleichgewichtszustand (p2 , pq, q 2 ) . Dieser Zustand wird
Hardy-Weinberg–Gleichgewichtspunkt genannt.
Der obige Sachverhalt wird auch als Hardy-Weinberg–Gesetz bekannt. Es besagt grob, dass
ohne Mutation, Selektion, Ein- und Auswandern von Individuen nichts passiert. Dies ist auch
plaussibel, den anschaulich werden die Genotypen in Allelel zerlegt und letztere dann wieder in
irgendeiner Weise zu neuen Genotypen zusammengesetzt.
Bemerkung 11.2.1 Liegen an einem Genort die Allele a1 , . . . , an , dann gibt es n2 Genotypen
mit Genotyphäufigkeiten
X
αjk = αkj ≥ 0 , j, k = 1, . . . , n ,
αjk = 1 .
j,k
Auch hier wird in einem Schritt ein Gleichgewichtszustand erreicht.
11.3
Modellierung als Markovkette
Wir wollen die Aufeinanderfolge von einer Vererbungslinie durch eine Markovkette – im nächsten
Abschnitt gehen wir mehr grundsätzlich auf Markovketten ein – modellieren. Beschreibt Xk den
genotyp eines Individuums der Vererbungslinie, so ist Xk+1 der eines seiner Nachkommen. Also
ist
Xk , Xk+1 ∈ X := {AA, Aa, aa}
und wir haben uns zu überlegen, wie wir von Xk nach Xk+1 kommen. Dazu arbeitet man mit
Übergangswahrscheinlichkeiten.
Sei p die Wahrscheinlichkeit“, dass ein Partner das Allel A liefert. Dann können wir – in
”
leicht verständlicher Schreibweise – folgende Tabelle aufstellen:
144
Ws(Xk+1 = AA|Xk = AA) = p
Ws(Xk+1 = Aa|Xk = AA) = 1 − p
Ws(Xk+1 = AA|Xk = Aa) =
1
p
2
Ws(Xk+1 = aa|Xk = AA) = 0
Ws(Xk+1 = aa|Xk = Aa) =
1
(1 − p)
2
Ws(Xk+1 = AA|Xk = aa) = 0
1
1
1
Ws(Xk+1 = Aa|Xk = Aa) = 1 − p − (1 − p) =
2
2
2
Ws(Xk+1 = Aa|Xk = aa) = p
Ws(Xk+1 = aa|Xk = aa) = 1 − p
Hier ist etwa Ws(Xk+1 = Aa|Xk = AA) als Wahrscheinlichkeit, dass in der Generation k + 1
”
der Genotyp AA beobachtet wird, wenn in der Generation k der Genotyp AA vorliegt“, zu lesen.
Wenn wir nun die Zustände AA, Aa, aa mit 1, 2, 3 bezeichnen, dann können wir die obige
Tabelle für den Übergang von Xk zu Xk+1 als Matrixmultiplikation interpretieren. Wir setzen
dazu


1
0
p
2p


1
P := 1 − p
p ,
2
1
0
2 (1 − p) 1 − p
wobei der Eintrag pij die Wahrscheinlichkeit für den Übergang vom Zustand j in den Zustand
i bedeutet. Wir können etwa den Übergang von
 
1
xk := 0 ,
0
was Xk = AA entspricht, zu xk+1 , was Xk+1 entspricht, so beschreiben:


p
xk+1 = 1 − p = P xk .
0
Die Matrix P hat als Spaltensumme jeweils 1, ist also spaltenstochastisch. Daraus folgt sofort,
dass die transponierte Matrix P t zeilenstochastisch ist. Daher hat P t den Eigenwert λ1 = 1
zum Eigenvektor e := e1 + e2 + e3 , wobei ei der i-te (Spalten-)Einheitsvektor ist. Dann hat aber
auch P den Eigenwert λ1 = 1 zu einem Eigenvektor w , welcher dann sicher fix bleibt unter
der Multipliktion mit P . Die beiden anderen Eigenwerte λ2 , λ3 sind die weiteren interessanten
Parameter, die die multiplikative Wirkung von P beschreibt. Man errechnet sie aus der Tatsache,
dass
det(P ) = λ1 · λ2 · λ3 , spur(P ) = λ1 + λ2 + λ3
gelten muss. Wir wollen dies hier nicht weiterverfolgen.
145
11.4
Langzeitverhalten bei Markov–Ketten
Satz 11.4.1 Sei P = (pij )1≤i,j≤k ∈ Rk,k eine spaltenstochastische Matrix. Dann gilt:
(a) λ = 1 ist ein Eigenwert von P .
(b)
(c)
|λ| ≤ 1 für alle Eigenwerte λ von P und P t .
λ = 1 ist einziger Eigenwert von P und P t mit λ = 1, falls min1≤i≤k pii > 0 .
Beweis:
Zu (a).
Da P eine spaltenstochastische Matrix ist, ist A := P t zeilenstochastisch und hat daher den
Eigenwert λ = 1 zum Eigenwert e, wobei e der Vektor ist, der als Einträge lauter Einsen hat.
Dann hat auch P den Eigenwert λ = 1 .
Zu (b).
Betrachte die l1 -Norm | · |1 in Rk , d.h.
|x|1 :=
k
X
i=1
|xi | , x = (x1 , . . . , xk ) ∈ Rk .
Dazu wählen wir die passende“ Norm für die Matrizen, nämlich die Spaltensummennorm; für
”
P :
!
k
X
|pij |
kP k1 := max
1≤j≤k
i=1
Offenbar kP k1 = 1 . Daraus folgt für jeden Eigenwert λ von P mit Eigenvektor z ∈ Rk
|λ||z|1 = |λz|1 = |P z|1 ≤ kP k1 |z|1 , d.h. |λ| ≤ kP k1 = 1 .
(Argumentiere etwas vollständiger!)
Um das Resultat für P t zu beweisen, betrachte man Maximumnorm | · |∞ in Rk , d.h.
|x|∞ := max |xi | , x = (x1 , . . . , xk ) ∈ Rk ,
i=1,...,k
und die Zeilensummennorm für P :

kP k∞ := max 
1≤i≤k
k
X
j=1

|pij | .
Zu (c).
Nach dem Satz von Gerschgorin – siehe Anhang 11.5 – gibt es zu jedem Eigenwert λ von P t ein
i mit
k
X
|λ − pii | ≤
|pij | = 1 − pii .
j=1,j6=i
Also liegt λ in dem Kreis mit Mittelpunkt pii und Radius 1 − pii . Er berührt den Einheitskreis
von innen im Punkt (1, 0) . Aus |λ| = 1 folgt somit λ = 1 .
Die Bedeutung des Eigenwertes λ = 1 liegt darin begründet, dass damit das Langzeitverhalten der Markovkette zusammenhängt, denn offenbar ist der Zustand u ein Fixpunkt unter der
(Generationen-)Iteration
uk+1 := P uk = · · · = u,
falls u0 = u und u der Eigenwert zu λ = 1 ist.
146
Satz 11.4.2 Sei P ∈ Rk,k eine spaltenstochastische Matrix. Dann sind äquivalent:
(a) limn P n existiert.
(b)
λ = 1 ist der einzige Eigenwert von P mit Betrag 1.
Beweis:
Zu (a) =⇒ (b).
Sei λ ein Eigenwert von P vom Betrage 1 und sei u ein Eigenvektor von P zu λ . Es folgt
P u = λu, P n u = λn u, n ∈ N0 .
Daraus lesen wir ab, dass aus der Existenz von limn P n die Konvergenz von limn λn folgt. Dann
existiert auch µ := limn λn+1 und wir erhalten
µ = lim λn+1 = λ lim λn = λµ .
n
n
Wegen |λ| = 1 ist auch |λn | = 1 und somit |µ| = 1 6= 0 . Aus µ = λµ folgt dann λ = 1 .
Zu (b) =⇒ (a).
Diesen Beweis übergehen wir.
Beispiel 11.4.3 Betrachte die Matrix


0 1 0
P := 0 0 1 .
1 0 0
Die Eigenwerte sind die dritten Einheitswurzeln:
√
√
1
1
λ1 = 1, λ2 = (−1 + i 3), λ3 = (−1 − i 3) .
2
2
Offenbar haben alle Eigenwerte den Betrag 1, aber es liegt keine Konvergenz der Potenzen von
A vor:
A0 = I, A1 = A, A2 = . . . , A3 = I, A4 = A, . . . .
Beispiel 11.4.4 Jedes Jahr ziehen 5 % der Bevölkerung in den alten Bundesländern in die
neuen Bundesländer und 15 % der Bevölkerung in den neuen Bundesländern ziehen in die alten
Bundesländer.
Wir haben zwei Zustände für eine Person:
Zustand 1: die Person lebt in den neuen Bundesländern
Zustand 2: die Person lebt in den alten Bundesländern
Damit erhalten wir dann die spaltenstochastische Matrix
0.85 0.05
P =
0.15 0.95
für den Übergang von einer Jahrgangsgeneration zur nächsten. Die Eigenwerte von P sind
λ1 = 1 , λ2 =
147
4
.
5
Dazu gehören die linear unabhängigen Eigenvektoren
!
1
u :=
1
4
3
4
2
, u :=
1
.
−1
Als Zustand in der 0-ten Generation kommt ein Vektor u in Frage, der folgende Darstellung hat
u = u1 + αu2 ,
da ja u einen Verteilung der Population auf die alten und neuen Bundesländer darstellen soll.
Nun ist einfach zu sehen, dass
lim P n u = u1
n
gilt; wir haben das Gleichgewicht gefunden:
Über lange Zeit stellt sich folgende Verteilung der Bevölkerung ein:
25 % in den neuen Bundesländern, 75 % in den alten Bundesländern.
Ohne Breweis fügen wir ein etwas tiefer liegendes Resultat an:
Satz 11.4.5 Sei P ∈ Rk,k eine spaltenstochastische Matrix, zu der es ein l ∈ N gibt, so dass
alle Einträge von P l positiv sind. Dann gelten die folgenden Aussagen:
(a) Es gibt einen stochastischen Vektor z mit P z = z; dabei heißt z stochastisch, wenn gilt:
z = (z1 , . . . , zk ) , zi ≥ 0 für alle i = 1, . . . , k ,
(b)
k
X
zj = 1 .
j=1
Die Matrixfolge (P n )n∈N konvergiert gegen die spaltenstochastische Grenzmatrix P ∞ , deren
Spaltenvektoren alle identisch z sind.
Die Voraussetzung, dass die Einträge einer Potenz P l alle positiv sind, kann man so interpretieren: in l Generationen ist der Übergang von einem Zustand j zu einem Zustand i positiv
für alle i, j .
Beispiel 11.4.6 In der Mendelschen Vererbung haben wir die Genotypen D: GG, H: Gg, R: gg .
Wir gehen nun so vor: Wir nehmen irgendein Individuum, kreuzen es mit einem Individuum
des gewählten Typs, wählen zufällig einen Abkömmling aus, kreuzen diesen wieder mit einem
Individuum des gewählten Typs, und so weiter. Beobachtet man die Genotypen der so erzeugten Abkömmlinge durch die Generationen, so erhält man eine Markovkette. Dazu gehören die
Übergangsmatrizen




1 1

0
0
0
0
1 21 0
2
4






PD := 0 21 1 , PH :=  12 21 12  , PR := 1 21 0 .
0 0 0
0 21 1
0 41 12
Wende nun die obigen Resultate an, um das Langzeitverhalten der Generationen zu studieren.
11.5
Anhang: Gerschgorin–Kreise
148

Zugehörige Unterlagen

Diskrete Mathematik für Informatiker, WS11/12

Mathematik II SoSe 2009

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können