Skript - Universität zu Köln

Werbung
Ausgewählte Anwendungen der Mathematik
Vorlesung im Rahmen der
Mathematisch-Naturwissenschaftlichen Grundlegung
im
Wintersemester 2014/2015
von
Dr. Markus Schulz
Inhaltsverzeichnis
1 Grundlagen
1.1 Mengen und Zahlbereiche . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Aussagenlogik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Mathematische Beweisverfahren . . . . . . . . . . . . . . . . . . . . .
2 Die
2.1
2.2
2.3
2.4
Vermessung der Welt
Rechte Winkel . . . . . . . . . . . . . .
Der Tunnel des Eupalinos . . . . . . .
Erde, Sonne und Mond . . . . . . . . .
Die Bestimmung des Erddurchmessers
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
3
6
8
. 8
. 9
. 10
. 12
3 Primzahlen und Kryptologie
13
3.1 Einfache Verschlüsselungsverfahren . . . . . . . . . . . . . . . . . . . 13
3.2 Primzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 Das RSA-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4 Codierung
4.1 Die Europäische Artikelnummer (EAN)
4.2 Die ISBN-10-Nummer . . . . . . . . .
4.3 IBAN - Die neue Kontonummer . . . .
4.4 Der Hamming-Code . . . . . . . . . . .
4.5 Der Reed-Solomon-Code . . . . . . . .
.
.
.
.
.
21
22
23
24
25
27
5 Differentialgleichungen und ihre Anwendungen
5.1 Die Ableitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
32
35
38
6 Stochastik im Alltag
6.1 Kombinatorik . . . . . . . . .
6.2 Einfache Wahrscheinlichkeiten
6.3 Statistische Fragestellungen .
6.3.1 Schätztheorie . . . . .
6.3.2 Testtheorie . . . . . .
43
43
47
53
55
57
.
.
.
.
.
.
.
.
.
.
ii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
Grundlagen
Ein berühmtes Zitat von Galileo Galilei besagt sinngemäß, dass das Buch der Natur in der Sprache der Mathematik geschrieben ist. Um die Vorgänge in der Natur
und die hier geschilderten Anwendungen zu verstehen, müssen wir uns also mit der
Sprache der Mathematik vertraut machen. Natürlich wird – zumindest in deutschen
Sprachraum – auch in der Mathematik die deutsche Sprache verwendet. Mathematische Texte weisen jedoch eine spezielle Struktur auf und verwenden besondere
Formulierungen und Symbole. Dies ließ schon Johann Wolfgang von Goethe sagen
„Die Mathematiker sind eine Art Franzosen: redet man zu ihnen, so übersetzen sie
es in ihre Sprache, und dann ist es alsobald ganz etwas anderes.“ Bevor wir uns also
mit der Mathematik und ihren Anwendungen beschäftigen können, müssen wir zunächst ein wenig Vokabular lernen. Als Basis unserer Betrachtungen führen wir im
ersten Abschnitt dieses Kapitels verschiedene Mengen ein. Neu eingeführte Begriffe
werden dabei fett gedruckt.
1.1
Mengen und Zahlbereiche
Definition 1.1. Unter einer Menge verstehen wir die Zusammenfassung von wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens zu einem Ganzen. Ein in einer Menge enthaltenes Objekt heißt auch ein Element der Menge. Ist
x ein Element einer Menge M , so schreiben wir x ∈ M , ist x keine Element der
Menge M , so drücken wir dies durch x ∈
/ M aus. Besitzt eine Menge keine Elemente, so nennen wir sie die leere Menge und schreiben ∅ oder {}.
Eine Menge A ist Teilmenge einer anderen Menge B, geschrieben A ⊂ B, genau
dann, wenn jedes Element x von A auch ein Element von B ist.
Zwei Mengen können wir auf verschiedene Weisen verknüpfen.
Definition 1.2. Der Durchschnitt zweier Mengen A und B, geschrieben als A∩B,
besteht aus allen Elementen, die sowohl zu A als auch zu B gehören. Man drückt
dies mathematisch so aus:
A ∩ B = {x : x ∈ A und x ∈ B}.
Die Vereinigung A ∪ B zweier Mengen A und B besteht aus allen Elementen, die
zu A oder zu B (oder zu beiden) gehören, also
A ∪ B = {x : x ∈ A oder x ∈ B}.
Die Differenz A\B zweier Mengen A und B bezeichnet die Menge aller Elemente
von A, die nicht gleichzeitig zu B gehören. Es gilt also
A\B = {x : x ∈ A und x ∈
/ B}.
Im nächsten Abschnitt werden wir die mathematischen Symbole für die Verknüpfungen „und“ und „oder“ kennenlernen.
Besondere Mengen, die mit eigenen Symbolen bezeichnet sind, sind die verschiedenen
Zahlbereiche. Höchstwahrscheinlich sind Sie schon als Kind mit den natürlichen
2
1 GRUNDLAGEN
Zahlen in Kontakt gekommen. Diese Menge wird immer dann benutzt, wenn Dinge
zu zählen sind. Wir bezeichnen die natürlichen Zahlen mit
N = {1, 2, 3, 4, . . .}.
Oft nimmt man auch die 0 dazu. Die so entstehende Menge bezeichnen wir mit N0 .
Wir können zwei natürliche Zahlen addieren und multiplizieren, ohne aus der Menge
„herauszufallen“. So gilt z.B.
3 + 4 = 7 ∈ N und 3 · 4 = 12 ∈ N.
Doch schon die Subtraktion zweier natürlicher Zahlen führt manchmal zu Problemen. Beispielsweise gilt 9 − 5 = 4 ∈ N, aber 5 − 9 ∈
/ N. Um beliebig subtrahieren
zu können, benötigen wir die ganzen Zahlen
Z = {. . . , −4, −3, −2, −1, 0, 1, 2, 3, 4, . . .}.
Die eben problematische Aufgabe ist nun lösbar: 5 − 9 = −4 ∈ Z. Wenn zusätzlich
auch die Division möglich sein soll, reichen die ganzen Zahlen nicht mehr aus. Dazu
müssen wir unseren Zahlbereich auf die rationalen Zahlen
np
o
Q=
: p ∈ Z und q ∈ Z\{0}
q
erweitern. Die Zahl 0 ist als Nenner nicht zulässig. Neben der Bruchdarstellung ist
auch die Dezimalschreibweise gebräuchlich, also z.B. 54 = 1, 25 oder 13 = 0, 33333 . . ..
Jedoch kommt man selbst mit dieser relativ umfangreichen Menge nicht immer aus.
2
Beispielsweise gibt es keine rationale
√ Zahl a mit a = 2. Dennoch gibt es eine (nicht
endende) Dezimaldarstellung a = 2 = 1, 4142135 . . ..
Alle Zahlen der Zahlengerade zusammengenommen ergeben die reellen Zahlen R.
Gegenüber den rationalen Zahlen sind alle nichtendenden und nicht-periodischen
Dezimalzahlen hinzugekommen, beispielsweise ist auch π = 3, 14159 . . . eine reelle
Zahl. Anzumerken ist, dass je zwei reelle Zahlen nach ihrer Größe sortiert werden
können, d.h. für zwei reelle Zahlen a und b gilt a ≤ b oder a ≥ b (oder beides, dann
ist a = b). Manchmal beschränken wir uns auch auf folgende Teilmengen der rellen
Zahlen:
[a, b] ={x ∈ R : a ≤ x ≤ b}
[a, b) ={x ∈ R : a ≤ x < b}
(−∞, b] ={x ∈ R : x ≤ b}
[a, ∞) ={x ∈ R : a ≤ x}
(a, b] ={x ∈ R : a < x ≤ b}
(a, b) ={x ∈ R : a < x < b}
(−∞, b) ={x ∈ R : x < b}
(a, ∞) ={x ∈ R : a < x}.
Alle derartigen Mengen werden unter dem Oberbegriff „Intervalle“ zusammengefasst. Die reellen Zahlen sind in der Praxis häufig völlig ausreichend, gelegentlich,
z.B. wenn man die Gleichung x2 = −2 lösen will, benötigt man die komplexen
Zahlen
C = {a + ib : a, b ∈ R}.
Der Buchstabe i wird auch imaginäre Einheit genannt und ist definiert durch
√
i = −1 bzw. i2 = −1.
Für eine komplexe Zahl mit der Darstellung a + ib bezeichnet man a als Realteil
und b als Imaginärteil. Jede reelle Zahl x kann man durch a = x und b = 0 auch
als komplexe Zahl auffassen. Insgesamt gelten also die Beziehungen
N ⊂ N0 ⊂ Z ⊂ Q ⊂ R ⊂ C.
1.2 Aussagenlogik
1.2
3
Aussagenlogik
Wie in der Sprache bringt es auch in der Mathematik wenig, die einzelnen Wörter
zu kennen, ohne zu wissen, wie man sie zu Aussagen zusammenfügt. Deshalb wollen
wir nun definieren, was wir unter einer mathematischen Aussage verstehen. Danach
werden wir verschiedene Möglichkeiten betrachten, Aussagen logisch zu verknüpfen.
Einige der entwickelten Regeln werden im nächsten Abschnitt die Grundlage für
verschiedene Beweismethoden bilden.
Definition 1.3. Aussagen sind sprachliche Gebilde, von denen objektiv feststeht,
dass sie entweder wahr oder falsch sind, die also von zwei möglichen Wahrheitswerten
genau einen annehmen.
„Objektiv festehender Wahrheitswert“ bedeutet, dass eine Aussage entweder wahr
oder falsch ist, unabhängig von der Person, die diese Aussage macht, unabhängig von
Ort und Zeitpunkt, an dem bzw. zu dem die Aussage gemacht wird und unabhängig
von einer Person, die diese Aussage beurteilt. Beispielsweise ist der gemäß historischer Anekdote überlieferte Satz „Alle Kreter lügen“ keine Aussage, denn spricht
ein Kreter diesen Satz aus, so würde er demzufolge die Wahrheit sagen, also nicht
lügen, was dem Satz widerspricht. Auch der berühmte Ausspruch des Babiers von
Sevilla „Ich rasiere alle Männer meiner Heimatstadt, die sich nicht selbst rasieren.“
gehört in diese Kategorie, denn wer rasiert den Barbier? Lassen Sie uns noch einige
weitere Beispiele behandeln:
Beispiel 1.1.
1. Dem Satz „Heute ist ein wunderschöner Herbsttag.“ ist kein objektiver Wahrheitsgehalt zuzuordnen, es ist also keine Aussage im mathematischen Sinn.
2. Der Satz „Die Bauarbeiten am Kölner Dom begannen im Jahr 1248.“ ist dagegen eine wahre Aussage.
3. Die Frage „Gefällt es Ihnen an der Universität zu Köln?“ ist wiederum keine
Aussage, da man ihr keinen Wahrheitswert zuordnen kann.
4. Der Satz „Der Kölner Hauptbahnhof liegt auf der rechten Rheinseite.“ ist eine
falsche Aussage.
5. Der Satz „Karl der Große hatte 24 Kinder.“ ist eine Aussage, obwohl es hier
kaum möglich sein dürfte, den Wahrheitswert festzustellen. Es genügt, dass
ein eindeutiger Wahrheitswert existiert.
Jede Aussage kann auch verneint werden. Formal definieren wir
Definition 1.4. Unter der Negation einer Aussage A verstehen wir die verneinte
Aussage ¬A, die zu A den gegensätzlichen Wahrheitswert hat: Ist A wahr, so ist ¬A
falsch, und ist A falsch, so ist ¬A wahr.
Beispiel 1.2. Die Negation der Aussage aus 2. des vorangegangenen Beispiels lautet
„Die Bauarbeiten am Kölner Dom begannen nicht im Jahr 1248.“ Da „nicht rechts“
gleichbedeutend mit „links“ ist, kann man die Negation von 4. auch formulieren als
„Der Kölner Hauptbahnhof liegt auf der linken Rheinseite.“
4
1 GRUNDLAGEN
Zwei Aussagen lassen sich außerdem auf verschiedene Weisen verknüpfen. Bei zwei
Aussagen wird eine solche Verknüpfung beispielsweise dadurch definiert, dass man
für alle vier möglichen Kombinationen von Wahrheitswerten der Verknüpfung einen
Wahrheitswert zuordnet. Dies kann durch Angabe einer sog. Wahrheitstafel geschehen.
Definition 1.5. Die Konjunktion ∧ zweier Aussagen A und B ist definiert durch
A
w
w
f
f
B
w
f
w
f
A∧B
w
f
f
f
Die Aussage A ∧ B ist also nur wahr, wenn sowohl A als auch B wahr sind. Die
Verknüpfung entspricht dem sprachlichen ’und’.
Definition 1.6. Die Disjunktion ∨ zweier Aussagen A und B ist definiert durch
A
w
w
f
f
B
w
f
w
f
A∨B
w
w
w
f
Die Aussage A ∨ B ist also wahr, wenn mindestens eine der beiden Aussagen A oder
B wahr ist. Die Verknüpfung entspricht dem sprachlichen ’oder’ im nichtausschließlichen Sinn.
Definition 1.7. Dem sprachlichen ’Wenn ..., dann ...’ entspricht die Implikation
⇒, deren Wahrheitstafel wie folgt definiert ist:
A B
w w
w f
f w
f f
A⇒B
w
f
w
w
Definition 1.8. Die Äquivalenz ⇔ zweier Aussagen A und B ist definiert durch
A B
w w
w f
f w
f f
A⇔B
w
f
f
w
Sprachlich drücken wir eine Äquivalenz häufig durch ’genau dann, wenn’ aus. Die
Aussage A ⇔ B ist also genau dann wahr, wenn die Aussagen A und B die gleichen
Wahrheitswerte besitzen.
1.2 Aussagenlogik
5
Gerade in der Mathematik kommen häufig Aussagen vor, die von einem Platzhalter
x abhängen. Auch Zusammenfassungen solcher Aussagen der Form „Für alle x ∈
M gilt...“ oder „Es existiert ein x ∈ M , so dass gilt ...“ sind allgegenwärtig. Zur
Abkürzung definieren wir
Definition 1.9. Es sei M eine Menge und A(x) eine Aussage, die von einer Variable
x ∈ M abhänge.
(a) Ist A(x) für alle x ∈ M eine wahre Aussage, dann sagt man „Für alle x ∈ M
gilt A(x)“ oder „Für jedes x ∈ M gilt A(x)“ und schreibt kurz
∀x ∈ M : A(x).
(b) Ist A(x) für mindestens ein x ∈ M eine wahre Aussage, dann sagt man „Für
ein x ∈ M gilt A(x)“ oder „Es gibt ein x ∈ M mit A(x)“ und schreibt kurz
∃x ∈ M : A(x).
(c) Ist A(x) für genau ein x ∈ M eine wahre Aussage, dann sagt man „Für genau
ein x ∈ M gilt A(x)“ oder „Es gibt genau ein x ∈ M mit A(x)“ und schreibt
∃!x ∈ M : A(x).
(d) Ist A(x) für kein x ∈ M eine wahre Aussage, dann sagt man „Für kein x ∈ M
gilt A(x)“ oder „Es gibt kein x ∈ M mit A(x)“ und schreibt
@x ∈ M : A(x).
Die hier eingeführen Symbole heißen Quantoren. Es können auch mehrere Quantoren miteinander verschachtelt werden. Als Faustregel kann man sich merken, dass
bei der Negation aus einem ∀ ein ∃ wird und umgekehrt.
Beispiel 1.3. Ist (xn )n∈N eine reelle Zahlenfolge, dann wird durch die Aussage
∀ε > 0∃n0 ∈ N∀n ≥ n0 : |xn | < ε
definiert, dass die Folge gegen Null konvergiert. Formulieren würde man die Aussage z.B. als „Für jedes ε > 0 gibt es einen Index n0 ∈ N, so dass alle weiteren
Folgenglieder betraglich kleiner als ε sind.“ Die Negation der Aussage ist
∃ε > 0∀n0 ∈ N∃n ≥ n0 : |xn | ≥ ε.
Anwendung findet die mathematische Aussagenlogik v.a. zur Begründung mathematischer Beweisprinzipien und in der Mengenlehre. Die Logik ist also eine wesentliche
Grundlage der Mathematik – man spricht ja auch immer von der Mathematik als
logische Wissenschaft. Darüber hinaus ist die Logik aber auch Grundlage der Computerwissenschaft und künstlichen Intelligenzforschung. Es gibt ganze Programmiersprachen, die auf Fragmnenten der Logik beruhen, z.B. PROLOG (Programming in
Logic). Weitere Stichworte sind Logikprogrammierung, maschinelles deduktives Beweisen, regelbasierte Expertensysteme und nichtmonotone Logik. Außerdem wird
die Logik in der Philosophie angewandt, um Argumente und Folgerungen zu formalisieren und Argumente auf ihre Gültigkeit zu untersuchen.
6
1.3
1 GRUNDLAGEN
Mathematische Beweisverfahren
Mathematische Beweismethoden basieren auf aussagenlogischen Gesetzen. Im Folgenden werden wir nun diejenigen Gesetze kennenlernen, die vielen Beweisen zugrunde liegen und somit häufig angewandte Beweismethoden darstellen. Das erste
grundlegende Prinzip erlaubt es uns, den Beweis einer Äquivalenz A ⇔ B durch den
Nachweis der Folgerungen A ⇒ B und B ⇒ A zu führen. Formal gilt
Proposition 1.1. Für zwei mathematische Aussagen A und B gilt
(A ⇔ B) ⇔ ((A ⇒ B) ∧ (B ⇒ A)).
Beweis. Die Behauptung beweisen wir mittels folgender Wahrheitstafel:
A
w
w
f
f
B
w
f
w
f
A⇔B
w
f
f
w
A⇒B
w
f
w
w
B⇒A
w
w
f
w
(A ⇒ B) ∧ (B ⇒ A)
w
f
f
w
Ebenfalls sehr wichtig ist der Beweis durch Kontraposition. Statt eine Folgerung
A ⇒ B direkt zu beweisen, beweist man, dass aus ¬B die Aussage ¬A folgt.
Proposition 1.2. Für zwei mathematische Aussagen A und B gilt
(A ⇒ B) ⇔ (¬B ⇒ ¬A).
A
w
Beweis. w
f
f
B
w
f
w
f
A⇒B
w
f
w
w
¬B
f
w
f
w
¬A ¬B ⇒ ¬A
f
w
f
f
w
w
w
w
Oft werden Aussagen auch durch die Herleitung von einer anderen bereits verifizierten Aussage bewiesen.
Proposition 1.3. Für zwei mathematische Aussagen A und B gilt
(A ∧ (A ⇒ B)) ⇒ B.
A
w
Beweis. w
f
f
B
w
f
w
f
A⇒B
w
f
w
w
A ∧ (A ⇒ B) A ∧ (A ⇒ B) ⇒ B
w
w
f
w
f
w
f
w
Manchmal ist es nicht so einfach, eine Aussage direkt zu beweisen. Häufig hilft
es in solchen Fällen, einen indirekten Beweis (oder auch Widerspruchsbeweis
genannt) zu führen. Wollen wir beispielsweise A beweisen, dann können wir dies
tun, indem wir die Annahme, dass A falsch ist bzw. ¬A wahr ist, zum Widerspruch
(B ∧ ¬B) führen.
1.3 Mathematische Beweisverfahren
7
Proposition 1.4. Für eine mathematische Aussage A gilt
(¬A ⇒ (B ∧ ¬B)) ⇔ A,
wobei B eine weitere mathematische Aussage bezeichnet.
Beweis. Die Aussage B ∧ ¬B ist immer falsch. Wir erhalten also die Wahrheitstafel
A
w
f
¬A
f
w
B ∧ ¬B
f
f
¬A ⇒ (B ∧ ¬B)
w
f
Eine besondere Stellung nimmt das Beweisverfahren der vollständigen Induktion
ein. Mit ihm ist es möglich, Aussagen der Form „Für alle n ∈ N gilt ...“ zu beweisen.
Das Beweisprinzip basiert auf gewissen sog. Axiomen, also mathematischen Aussagen, die die Grundlage der Mathematik bilden und als wahr angenommen werden.
Proposition 1.5. Für n ∈ N sei A(n) eine Aussage. Es gelte
(1) A(1) ist wahr.
(2) Für alle n ∈ N gilt: Ist A(n) wahr, so ist auch A(n + 1) wahr.
Dann gilt A(n) für alle n ∈ N.
Beweis. Der Proposition 1.4 folgend nehmen wir an, dass A(n) nicht für alle n ∈ N
wahr ist. Dann gibt es darunter eine kleinste natürliche Zahl n1 , die wegen (1) größer
als 1 sein muss. Daher gilt A(n) für alle n = 1, . . . , n1 − 1. Da A(n1 − 1) also wahr
ist, ist nach (2) auch A(n1 ) wahr, was der Definition von n1 widerspricht. Unsere
Annahme war also falsch und demzufolge die Behauptung richtig.
Das Beweisprinzip funktioniert auch, wenn A(n) für alle n ≥ k, k ∈ N0 , wahr sein
soll. Es erinnert an Proposition 1.3. Ausgehend von der wahren Aussage A(1) wird
mittels (2) darauf geschlossen, dass auch A(2) wahr ist. Wendet man (2) nun hierauf
an, so folgt, dass auch A(3) wahr ist usw. Ein Beweis mittels vollständiger Induktion
besteht immer aus zwei Teilen: dem Induktionsanfang (1) und dem Induktionsschritt
(2). Wir wollen uns das Beweisprinzip an einem Beispiel anschauen:
Beispiel 1.4. Für n ∈ N beweisen wir die Summenformel
1 + 2 + 3 + ··· + n =
n
X
k=1
k=
n(n + 1)
.
2
P
Für n = 1 steht auf der linken Seite 1k=1 k = 1, auf der rechten Seite 1·2
= 1. Also
2
Pn
n(n+1)
ist A(1) richtig. Sei nun A(n) richtig, also gelte k=1 k = 2 . Zu zeigen ist, dass
P
(n+1)(n+2)
auch A(n + 1) richtig ist, nämlich n+1
. Es gilt
k=1 k =
2
n+1
X
k=1
k=
n
X
k=1
I.V.
k +(n+1) =
n(n + 1)
n(n + 1) + 2(n + 1)
(n + 2)(n + 1)
+n+1 =
=
.
2
2
2
Damit ist A(n + 1) hergeleitet und somit die Aussage bewiesen.
8
2 DIE VERMESSUNG DER WELT
2
Die Vermessung der Welt
Für viele Aufgaben im Bauwesen spielt Geometrie eine Rolle. Der Begriff „Geometrie“ geht auf das griechische Wort „geometria“ zurück und bedeutet Erd- bzw.
Landvermessung. Aufbauend auf der mehr anwendungsorientierten Geometrie der
Babylonier und Ägypter haben die griechischen Mathematiker vor 2500 Jahren die
Geometrie zu einer abstrakten Wissenschaft entwickelt. Ein Meilenstein in dieser
Entwicklung war das 13-bändige Werk Elemente von Euklid (325-270 v. Chr.)
Um Referenzpunkte zu bestimmen oder über größere Distanzen messen zu können,
sind Dreiecke von besonderer Bedeutung. Drei Eigenschaften sind dabei wichtig:
• (Winkelsumme) Die Summe der drei Winkel im Dreieck ist π (180◦ ).
• (Strahlensätze) Sind die drei Winkel in den Dreiecken ABC und A0 B 0 C 0 gleich,
so gilt für die Seitenverhältnisse
kACk
kBCk
kABk
=
=
.
0
0
0
0
kA B k
kA C k
kB 0 C 0 k
Dabei bezeichnet AB die Strecke von A nach B und kABk deren Länge.
• (Satz des Pythagoras) In einem rechtwinkligen Dreieck gilt a2 + b2 = c2 , wenn
c die Länge der Hypothenuse bezeichnet.
2.1
Rechte Winkel
Der Satz des Pythagoras (ca. 570-510 v. Chr.) war schon bei den Babyloniern bekannt. Auf einer Keilschrifttafel aus der Zeit der Hammurabi-Dynastie (ca. 18301530 v. Chr.) findet man eine Aufgabe mit Lösung, bei der der Satz von Pythagoras
angewendet wird. Auch in Indien und China kannte man den Satz. Ob die Babylonier den Satz aber schon bewiesen haben, ist unbekannt.
Ein einfacher Beweis geht folgendermaßen: Man teilt ein Quadrat der Seitenlänge
a + b gemäß der folgenden Skizzen auf.
a
b
b
a
b
a
c
c
a
c
a
a
a
b
a
c
b
c
b
b
a
c
b
b
b
a
Die vier Dreiecke kommen dabei in beiden Konstruktionen vor. In der ersten Zeichnung teilt sich die Gesamtfläche (a+b)2 auf die Fläche der vier Dreiecke (4· 12 ab = 2ab)
und das innere Quadrat der Fläche c2 auf, d.h. es gilt
(a + b)2 = 2ab + c2 .
2.2 Der Tunnel des Eupalinos
9
In der zweiten Zeichnung setzt sich die Gesamtfläche (a + b)2 dagegen auf der Fläche
der vier Dreiecke und den Flächen a2 und b2 der beiden Quadrate zusammen, also
(a + b)2 = 2ab + a2 + b2 .
Gleichsetzen liefert die gewünschte Formel.
Das einfachste Dreieck, das a2 +b2 = c2 erfüllt, ist a = 3, b = 4, c = 5. Da ein Dreieck
durch die Seitenlängen eindeutig bestimmt ist, kann dieses Dreieck zur Konstruktion eines rechten Winkels verwendet werden. Man nimmt ein Seil mit 13 Knoten
in gleichen Abständen und bildet dann ein Dreieck mit Seitenlängen 3,4,5. Dann
befindet sich gegenüber der längsten Seite ein rechter Winkel. Auf diese Weise kann
man einen rechten Winkel in einem Gebäude bilden oder einen Pfahl senkrecht auf
den Boden stellen.
2.2
Der Tunnel des Eupalinos
Herodot (482-424 v. Chr.) berichtet, dass der Architekt Eupalinos auf der Insel
Samos einen Tunnel durch einen Berg bauen ließ, um Wasser von der AgiadesQuelle zur Stadt Samos (heute Pythagorion) zu leiten. Der Tunnel ist 1036 m lang
und wurde im Gegenvortrieb gebaut. Man vermutet, dass der Tunnel zwischen 550
und 530 in einer Bauzeit von 8-15 Jahren gebaut wurde. Der Tunnel hat praktisch
kein Gefälle.
Um so einen Tunnel zu bauen, stellen sich zwei Probleme:
• Wie bestimmt man auf zwei Seiten eines Berges zwei Punkte, die auf gleicher
Höhe liegen?
• Wie bestimmt man die Richtung, in die man den Tunnel graben muss?
Eupalinos hat das Problem (ob Pythagoras mitgeholfen hat, wurde spekuliert, man
hat aber keine Indizien gefunden) hervorragend gelöst. Am Verbindungspunkt war
der Höhenunterschied 60 cm.
Es gibt grundsätzlich zwei Möglichkeiten, die Vermessung vorzunehmen:
• Messung um den Berg herum.
• Messung über den Berg.
Die Messung um den Berg herum scheint einfacher. Es wird ein Chorobates (eine ca.
6 m lange Wasserwaage) zur horizontalen Peilung verwendet. Damit kann man einen
Punkt auf gleicher Höhe bestimmen. Auf diese Weise kann man um den Berg herum peilen. Bestimmt man einen zusätzlichen Punkt, dessen Entfernung man messen
kann, lassen sich über die Bestimmung der Winkel Dreiecke auf einer Karte zeichnen, so dass der genaue Punkt bestimmt werden kann, wo man den Tunnel beginnen
soll. Die Strahlensätze stellen sicher, dass die Längen auf der Karte und der Wirklichkeit immer das gleiche Verhältnis aufweisen. Durch die Karte kennt man auch
den Winkel zur Verbindungsgerade zum Punkt auf der anderen Seite des Berges.
Das Problem bei dieser Methode ist, dass man aufgrund der Topographie sehr viele
Messungen braucht, und dass infolgedessen durch kleinere Fehler eine Ungenauigkeit
erzeugt wird.
Bei der Messung über den Berg misst man die Winkel und Längen und bestimmt
10
2 DIE VERMESSUNG DER WELT
dadurch die Höhe eines Punktes. Stellt man an den Messpunkten Stangen senkrecht
auf, so kann man auch sicher gehen, dass die Messpunkte auf einer Geraden liegen.
Man hat auch die Möglichkeit, die Abstände zwischen den Messpunkten direkt zu
messen, oder auch über Dreiecke mittels Hilfspunkten, die vermessen werden. Da
man in einer „Gerade“ über den Berg misst, kennt man auch die Richtung, in die
man den Tunnel vorantreiben muss. Auch bei dieser Methode ist das Problem, dass
man zu viele Messungen braucht, wodurch das ganze Verfahren ungenau wird.
Eupalinos war sich möglicher Ungenauigkeiten bewusst. Kurz vor dem Aufeinandertreffen der beiden Stollen biegen beide Stollen nach Osten ab. Auf diese Weise
müssen sich die Stollen schneiden, wenn sie sich auf ungefähr gleicher Höhe befinden.
Die Vermessung wurde 1615 durch Willebrord van Roijen Snell verbessert. Er verwendete den Sinussatz
b
c
a
=
=
,
sin(α)
sin(β)
sin(γ)
wobei a (bzw. b bzw. c) die Länge der dem Winkel α (bzw. β bzw. γ) gegenüberliegenden Seite bezeichnet.
2.3
Erde, Sonne und Mond
Die Geschichte der astronomischen Entfernungsmessung begann mit Aristarchos von
Samos (310-230 v. Chr.), den man auch den „Kopernikus der Antike“ genannt hat.
Heute bezeichnet man Aristarchos meist als Astronomen, doch die Griechen nannten
ihn „Aristarchos der Mathematiker“.
Aristarchos wollte Beziehungen zwischen verschiedenen astronomischen Größen herleiten – der Entfernung Erde-Sonne, der Entfernung Erde-Mond, der Größe der Sonne, der Größe des Mondes und der Größe der Erde. Die Messung auch nur einer
dieser Größen hätte dann sofort die anderen bedingt. Er erhielt somit keine absoluten Werte für die Entfernungen oder die Durchmesser der drei Himmelskörper.
Dennoch sind seine Überlegungen und Schlussfolgerungen genial und heute noch
gültig.
Wesentlich sind folgende Annahmen Aristarchos’: Für ihn war die Sonne ein großes
Feuer, und der Mond strahlte nicht selber, sondern er wurde von der Sonne beschienen. Außerdem deutete er die Mondfinsternis richtig als die Bewegung des Mondes
in den Schatten der Erde. Zunächst bestimmte Aristarchos das Verhältnis zwischen
dem Abstand Erde-Mond REM und dem Abstand Erde-Sonne RES . Dazu betrachtete er die geometrische Situation zum Zeitpunkt des Halbmondes.
Sonne
Mond
RES
α
REM
Erde
Er deutete richtig, dass zu diesem Zeitpunkt der Winkel zwischen der Verbindungslinie von der Erde zum Mond und der Verbindungslinie vom Mond zur Sonne ein
rechter Winkel sein muss, also 90◦ beträgt. Das Verhältnis von REM und RES lässt
sich nun durch den Winkel α ausdrücken, unter dem zu diesem Zeitpunkt Sonne
und Mond von der Erde aus gesehen werden. Dieser Winkel lässt sich allerdings nur
2.3 Erde, Sonne und Mond
11
schwer messen, insbesondere weil der exakte Zeitpunkt des Halbmondes nur schwer
feststellbar ist. So kam Aristarchos auf α = 87◦ , der exakte Wert lautet α = 89◦ 510 .
Statt einer Abweichung von 9 Bogenminuten vom rechten Winkel verwendete Aristarchos somit den Wert 3 Grad bzw. 180 Bogenminuten und lag in seiner Schätzung
somit um einen Faktor 20 falsch. Für das Verhältnis der Abstände Erde-Mond zu
Erde-Sonne erhielt er
2π 1
REM
= cos 87
≈ 0, 05233596 ≈ .
RES
360
19
1
Die grundlegende Idee war richtig, der genaue Wert beträgt jedoch RREM
.
≈ 390
ES
Eine zweite Beziehung war nun nahe liegend. Jeder, der schon einmal eine Sonnenfinsternis gesehen hat, weiß, dass die Mondscheibe genau auf die Sonnenscheibe passt,
dass also Mond und Sonne von der Erde aus gesehen gleich groß erscheinen. Nach
dem Strahlensatz muss also das Verhältnis von Mondradius rM zu Sonnenradius rS
gleich dem Verhältnis des Abstandes Erde-Mond zum Abstand Erde-Sonne sein, d.h.
es gilt
REM
rM
≈
.
rS
RES
Für Aristarchos war die Sonne also ungefähr 19-mal so groß wie der Mond, in Wirklichkeit ist sie aber etwa 400-mal so groß.
Eine weitere Beziehung betraf den Radius des Mondes rM und den Abstand zwischen
Erde und Mond REM . Dazu muss man den Öffnungswinkel messen, unter dem die
Mondscheibe von der Erde aus gesehen wird. Aristarchos stellte fest, dass der Mond
etwa 1/15 eines Tierkreiszeichens verdeckt. Da es zwölf Tierkreiszeichen gibt, sieht
1
· 15
= 2 Grad. Aristarchos hatte
man den Mond also unter einem Winkel von 360
12
◦
sich aber verschätzt, es sind in Wirklichkeit nur 0,52 , sein Wert um den Faktor 4
2π
≈ 0, 0349.
zu groß. Auf dem Einheitskreis entsprechen 2 Grad einer Länge von 2 · 360
Somit beträgt der Durchmesser des Mondes 3,5% des Abstandes Erde-Mond, und
damit der Durchmesser der Sonne 66,5% des Abstandes Erde-Mond. Was noch fehlte, war eine Beziehung zwischen dem Radius der Erde und dem Radius des Mondes.
Diese fand Aristarch aus seinen Beobachtungen bei einer Mondfinsternis. Der Mond
tritt bei seinem Umlauf um die Erde durch den Erdschatten. Aristarchos verglich
nun zwei Zeiten: 1. die Zeit zwischen dem ersten Erscheinen des Erdschattens am
Mondrand und dem Zeitpunkt des völligen Verschwindens des Mondes und 2. die
Zeit, die der Mond in völliger Dunkelheit hinter der Erde wandert. Er fand, dass
diese Zeiten bei einer zentralen Mondfinsternis (bei der der Mond durch das Zentrum des Erdschattens tritt) ungefähr gleich sind. Daraus schloss Aristarchos, dass
der Mond zweimal im Erdschatten Platz hat. Da nach seinen Messungen die Sonne
19 Mal so weit entfernt ist wie der Mond und die Sonne 19 Mal so groß ist wie der
Mond, konnte Aristarchos aus einer Zeichnung den Mondradius bestimmen.
19rM
rE
2rM
REM
19REM
12
2 DIE VERMESSUNG DER WELT
Unter der Annahme, dass die betrachteten Dreiecke rechtwinklig sind, erhalten wir
aus dem Strahlensatz die Verhältnisse
rE − 2rM
19rM − 2rM
=
.
REM
20REM
Daraus berechnen wir
20rE
≈ 0, 3509rE .
57
Das Verhältnis von Mondradius zu Erdradius hat also nach Aristarchos’ Messungen
den Wert 0,35 (der exakte Wert beträgt 0,2728).
Da Aristarchos nun wusste, dass die Sonne größer als die Erde ist, schloss er daraus, dass nicht die Erde, sondern die Sonne im Mittelpunkt des Universums stehen
müsste. Er war somit der erste bekannte Vertreter des heliozentrischen Weltbildes.
rM =
2.4
Die Bestimmung des Erddurchmessers
Dass die Erde eine Kugel ist, war den Griechen schon länger bekannt. Entfernten sich
Schiffe, verschwand zuerst der untere Teil. Daraus schloss man, dass die Erdoberfläche gekrümmt ist. Eine andere Beobachtung war, dass man in Ägypten andere
Sterne sah als in Griechenland. Aristoteles (384-322 v. Chr.) beobachtete, dass der
Erdschatten bei einer Mondfinsternis rund war. Da die Sonne bei verschiedenen
Mondfinsternissen von verschiedenen Seiten schien und der Schatten immer rund
war, war bewiesen, dass die Erde eine Kugel ist.
Aristoteles war der erste, der die Frage nach dem Umfang der Erde stellte. Der erste, der wissenschaftlich den Umfang bestimmte, war Eratosthenes von Kyrene (ca.
275-194 v. Chr.). Er war Leiter der Bibliothek von Alexandria. Der Legende nach
wurde Eratosthenes darauf aufmerksam, dass es in Syene (Assuan) einen Brunnen
gab, wo die Sonne am 21. Juni die ganze Wasseroberfläche im Schacht beschien. Eratosthenes schloss daraus, dass die Sonne am 21. Juni senkrecht auf Syene scheint.
Außerdem war bekannt, dass Syene fast genau südlich von Alexandria liegt. Für seine Berechnungen nahm Eratosthenes nun ein sog. Gnomon zu Hilfe. Es handelt sich
dabei um einen vertikalen Stab, der auf einem nivellierten Untergrund errichtet ist.
Er erlaubt, den Sonnenschatten zu verfolgen, während die Sonne über den Himmel
wandert – ähnlich wie bei einer Sonnenuhr. U.a. konnte man ihn auch zur Bestimmung der Sonnenhöhe benutzen – also der Winkeldistanz der Sonne vom Horizont.
Man musste dazu nur die Länge des Schattens und die Länge des Stabes messen.
Wenn man nach diesen Vorgaben ein rechtwinkliges Dreieck maßstäblich zeichnet,
kann man den dem Schatten gegenüberliegenden Winkel messen. Auf diese Weise bestimmte Eratosthenes am Mittag der Sommersonnenwende in Alexandria den
Winkel zwischen der Sonnenrichtung und der Vertikalen. Da die Sonne zu dieser Zeit
in Syene genau im Zenit steht, kannte er damit den Winkel zwischen den Vertikalen
in Alexandira und Syene. Der Winkel belief sich auf ein Fünfzigstel eines Vollkreises. Das bedeutet, dass der Erdumfang das 50-fache der Distanz von Alexandria
und Syene beträgt. Erastothenes wusste, dass der Abstand zwischen beiden Städten
5000 Stadien betrug. Damit musste der Erdumfang 250 000 Stadien betragen. Es
wird darüber spekuliert, welches Stadion Eratosthenes verwendete. Das ägyptische
Stadion entsprach etwa 157,5 m, was einen Erdumfang von 39 375 km ergibt. Dieser
Wert ist schon ziemlich genau (in Wirklichkeit etwa 40 030 km). In dieser Rechnung
sind allerdings einige Fehler enthalten:
13
• Der tatsächliche Abstand der beiden Städte beträgt 835 km, was 5302 ägyptischen Stadien entspricht.
• Syene (24◦ 05’N 32◦ 54’E) befindet sich nicht genau südlich von Alexandria
(31◦ 12’N 29◦ 55’E), sondern liegt ungefähr 3◦ östlicher. Der Radius des Brei2π
≈ 5820 km, was einem Umfang
tenkreises in Syene beträgt 6371 · cos 24 360
◦
von 36 569 km entspricht. 3 entsprechen
√ somit 305 km. Das ergibt für den
Nord-Süd-Abstand der beiden Städte 8352 − 3052 ≈ 777, 303 km. Dies sind
4935 Stadien. Die ersten beiden Fehler heben sich also teilweise auf.
• Syene liegt etwa ein halbes Grad nördlich des Wendekreises (23◦ 26’). Der gemessene Winkel 7,2◦ ist leicht zu klein, er liegt aber nahe am tatsächlichen
Winkel 7,12◦ .
3
Primzahlen und Kryptologie
In diesem Kapitel beleuchten wir verschiedene einfache Verschlüsselungsmethoden.
Nach zwei kleinen Abschnitten über einfache Verschlüsselungsverfahren und die
Theorie der Primzahlen überlegen wir uns im darauffolgenden Abschnitt, wie wir
diese Theorie anwenden können, um Nachrichten zu verschlüsseln.
3.1
Einfache Verschlüsselungsverfahren
In diesem Abschnitt überlegen wir uns einfache Verfahren, mit denen man eine zu
übermittelnde Textbotschaft verschlüsseln kann. Der geheime Text, auch Klartext
genannt, wird jeweils mit Kleinbuchstaben geschrieben, der verschlüsselte mit Großbuchstaben.
Eines der ältesten Verfahren ist die Verschiebungschiffre. Bei diesem Verfahren
werden die 26 Buchstaben des Alphabets um eine vorher festgelegte Anzahl von
Buchstaben vorwärts verschoben. Damit auch im Alphabet weiter hinten stehende
Buchstaben auf diese Weise verschlüsselt werden können, beginnen wir nach z wieder
von vorne. Schon Julius Caesar hat dieses Verfahren benutzt, indem er statt eines
Buchstabens aus dem Klartext den drittnächsten aufschrieb. Deshalb heißt eine
Verschiebung um drei Buchstaben auch Caesar-Chiffre. Folgende Tabelle gibt an,
wie Caesar die einzelnen Buchstaben verschlüsselt hätte.
a
Klartext
verschlüsselt D
b
E
c d
F G
e
H
f g ···
I J ···
t
W
u
X
v
Y
w x
Z A
y z
B C
Beim Entschlüsseln wird wird die Tabelle in umgekehrter Weise benutzt.
Beispiel 3.1. Caesars berühmtem Worten „veni, vidi, vici“ werden durch das soeben
beschriebene Verfahren als „YHQL, YLGL, YLFL“ verschlüsselt.
Das Verfahren ist sehr simpel, das ist aber gleichzeitig auch seine Schwachstelle.
Durch den limitierten Zeichenvorrat gibt es nur 26 mögliche Verschiebungen, die
man alle ausprobieren kann. Man kann die Suche sogar noch verkürzen, indem man
im Geheimtext die häufigsten Buchstaben sucht und mit den in deutschen Texten
häufigsten Buchstaben vergleicht.
14
3 PRIMZAHLEN UND KRYPTOLOGIE
Das Problem der zu geringen Anzahl von möglichen Verschlüsselungen lässt sich
leicht lösen, indem man anstelle der 26 Verschiebungen jede beliebige Vertauschung
(Permutation) der Buchstaben erlaubt, z.B.
Klartext
a b
verschlüsselt L A
c
H
···
···
p q
M X
r
D
s
R
t
U
u
E
v w
J B
x y z
.
O I Z
Es gibt dann – wie wir in Kapitel 6 sehen werden – 26! = 1 · 2 · · · 25 · 26 ≈ 4 · 1026
Möglichkeiten, eine Nachricht zu verschlüsseln. Das sind bereits zu viele, um die
Nachricht durch bloßes Ausprobieren zu dechiffrieren. Dennoch kann man solche
Substitutionschiffren knacken, indem man die bekannte Häufigkeitsverteilung der
Buchstaben in einem durchschnittlichen deutschsprachigen Text zur Hilfe nimmt.
Buchstabe
a
b
c
d
e
f
g
h
i
Häufigkeit [%]
6,51
1,89
3,06
5,08
17,40
1,66
3,01
4,76
7,55
Buchstabe
j
k
l
m
n
o
p
q
r
Häufigkeit [%]
0,27
1,21
3,44
2,53
9,78
2,51
0,79
0,02
7,00
Buchstabe
s
t
u
v
w
x
y
z
Häufigkeit [%]
7,27
6,15
4,35
0,67
1,89
0,03
0,04
1,13
Durch Zählen der gleichen Buchstaben des Geheimtextes findet man die häufigsten
Buchstaben e und n und dann durch weiteres Kombinieren, etwa das Bestimmen
häufiger Buchstabenpaare wie ch, st usw., weitere Buchstaben und dann die restliche
Substitution. Solche Verschlüsselungsmethoden sind also nicht sehr sicher. Hinzu
kommt, dass man sich für alle 26 Buchstaben merken muss, wie sie verschlüsselt
werden.
Die Substitutionschiffre ist ein sog. monoalphabetisches Verschlüsselungsverfahren. Die Probleme dieser beiden Verschlüsselungen motivieren die folgende Chiffre,
die nach dem französischen Diplomaten Blaise de Vigenère (1523-1596) benannt
wurde. Zunächst wählt man sich ein Schlüsselwort, z.B. GEHEIM. Wenn man einen
Text verschlüsseln will, schreibt man das Schlüsselwort Buchstabe für Buchstabe
über den Klartext, so lange bis man die Länge des Klartextes erreicht hat, z.B.
GEHEIMGEHEIMGEHEIMGEHEIMGEHEIMGE
diesisteinesehrwichtigenachricht
Nun werden die Buchstaben des Klartextes wie bei einer Verschiebungschiffre verschlüsselt. Anstelle der immer gleichen Verschiebung gibt nun der zugehörige Buchstabe des Schlüsselworts die Weite der Verschiebung an. Im Beispiel muss an der
ersten Stelle das Alphabet um 6 Stellen nach hinten verschoben werden (a→G,. . .),
d.h. dem Klartextzeichen d entspricht das Geheimzeichen J. Entsprechend wird das
Alphabet an der zweiten Stelle um 4 Zeichen verschoben (a→E,. . .), so dass wir i
durch M verschlüsseln. Da wir mehrere Alphabete verwenden, bezeichnet man derartige Verfahren auch als polyalphabetisch. Das Ergebnis der Verschlüsselung ist
JMLWQEZIPRMEKLYAQONXPKMZGGOVQONX.
3.2 Primzahlen
15
Um die Arbeit etwas zu erleichtern, erzeugt man sich vor der Verschlüsselung die
Vignère-Tabelle, in der alle möglichen Verschiebungen erfasst sind. Mit Hilfe der Tabelle kann die Verschlüsselung dann ganz mechanisch und sehr schnell durchgeführt
werden.
Die Vignère-Verschlüsselung behebt viele Probleme der Verschiebungschiffre. Zum
einen gibt es, selbst wenn man nur kurze Schlüsselwörter zulässt, eine große Zahl
von Schlüsseln (z.B. gibt es 265 = 11881376 Schlüsselwörter mit fünf Buchstaben),
so dass ohne Computer ein Ausprobieren aller Schlüssel unmöglich ist. Zum anderen
kann je nach Position im Geheimtext das gleiche Geheimtextzeichen für verschiedene Klartextzeichen stehen (im Beispiel steht G einmal für a und einmal für c). Eine
einfache Analyse der Buchstabenverteilung wird uns daher nicht helfen. Trotzdem
genügt das Vignère-Verfahren nicht einmal annäherend modernen Sicherheitsstandards. Wenn wir die Länge des Codewortes, in unserem Beispiel 6, kennen, dann betrachten wir nur jeden sechsten Buchstaben des Geheimtextes. Da an diesen Stellen
immer das selbe Schlüsselzeichen verwendet wurde, ist der entsprechende Geheimtext wie bei der Verschiebungschiffre zu behandeln. Das Knacken einer VignèreVerschlüsselung haben wir auf diese Weise auf das Knacken von (im Beispiel sechs)
Verschiebungschiffren zurückgeführt.
Wir sehen, dass wir mehr mathematisches Wissen brauchen, um eine sicherere Verschlüsselungsmethode zu entwickeln. Ein bekanntes Verfahren ist das sog. RSAVerfahren. Dies nutzt Primzahlen und ihre Eigenschaften, die wir im folgenden Abschnitt einführen werden.
3.2
Primzahlen
Um zu verstehen, wie man Nachrichten mit Primzahlen verschlüsseln kann, führen
wir zunächst Primzahlen und den dafür essentiellen Begriff der Teilbarkeit ein.
Definition 3.1. Eine ganze Zahl a heißt durch eine natürliche Zahl b teilbar, wenn
es eine ganze Zahl n gibt, so dass a = n · b. Die Zahl b heißt in diesem Fall Teiler
von a. Man schreibt dafür auch b|a, gelesen „b teilt a“. Besitzen zwei Zahlen a, b ∈ Z
außer 1 keinen gemeinsamen Teiler, so nennt man sie teilerfremd.
Beispiel 3.2. Die Zahl 15 besitzt die Teiler 1,3,5 und 15. Die Zahl 8 ist durch 1,2,4
und 8 teilbar. Die Zahlen 15 und 8 sind teilerfremd.
Mit elementaren Mitteln kann man zeigen
Bemerkung 3.1. Für zwei Zahlen a, b ∈ N mit a|b ist a ≤ b.
Da Zahlen, die außer sich selbst und der 1 keine weiteren Teiler besitzen, besondere
Zahlen sind, erhalten sie einen eigenen Namen.
Definition 3.2. Eine natürliche Zahl p > 1, die nur durch sich selbst und durch 1
teilbar ist, heißt Primzahl.
Beispiel 3.3. Die Zahlen 2 und 3 sind Primzahlen. Die Zahl 4 ist hingegen keine
Primzahl, weil sie neben 1 und 4 auch den Teiler 2 hat.
Jetzt könnte man sich fragen, wie viele Primzahlen es denn überhaupt gibt. Diese
Frage beantwortet der folgende Satz.
16
3 PRIMZAHLEN UND KRYPTOLOGIE
Satz 3.1 (Euklid). Es gibt unendlich viele Primzahlen.
Beweis. Wir beweisen diesen Satz indirekt.
Qn Angenommen, es gäbe nur endlich viele
Primzahlen p1 , . . . , pn . Wir setzen P = i=1 pi + 1 = p1 · · · pn + 1. Nach Definition
ist P größer als jede Primzahl, kann also selber keine Primzahl sein. Daher wird
P von einer Zahl a mit 1 < a < P geteilt. Wir wählen das kleinste solche a und
behaupten, dass dieses a eine Primzahl sein muss. Wäre a nämlich keine Primzahl,
so hätte a einen Teiler b mit 1 < b < a. Dieser wäre dann auch ein Teiler von P , im
Widerspruch zur Minimalität von a. Also
Q stimmt der Teiler a von P mit einem der
pj überein. Nun teilt pj das Produkt ni=1 pi , aber nicht die 1, somit kann pj nicht
P teilen. Wir erhalten also einen Widerspruch.
Ein Resultat, das wir schon aus der Schule kennen, ist die Division mit Rest.
Satz 3.2 (Division mit Rest). Es seien a ∈ Z und b ∈ N. Dann gibt es eindeutig
bestimmte Zahlen q, r ∈ Z zu a, b, so dass gilt:
a = qb + r
mit 0 ≤ r < b.
Die Zahl q heißt Quotient, die Zahl r Rest. Im Falle a ≥ 0 gilt stets q ≥ 0.
Beweis. Existenz: Die Menge
A = {x ∈ N0 : x = a − zb, z ∈ Z} ⊂ N0
ist nicht leer: Falls a ≥ 0, so ist a ∈ A; falls a < 0, so gilt a − ab = a(1 − b) ∈ A, da
a < 0 und 1 − b ≤ 0 die Ungleichung a(1 − b) ≥ 0 zur Folge hat.
Sei nun r das kleinste Element von A. Dann gibt es ein q ∈ Z mit r = a − qb ≥ 0.
Es gilt r < b, da sonst die Zahl a − (q + 1)b = r − b ebenfalls nicht negativ, aber
kleiner als r wäre, was der Minimalität von r widerspräche. Für a ≥ 0 muss q ≥ 0
gelten, denn q ≤ −1 bzw. −q ≥ 1 führt zu r = a − qb ≥ b.
Eindeutigkeit: Für a sei neben a = qb + r eine weitere Gleichung a = q 0 b + r0
0
gegeben, wobei q 0 , r0 ∈ Z mit 0 ≤ r0 < b. Dann gilt r−r0 = (q 0 −q)b, also q 0 −q = r−r
.
b
r−r0
0
0
Wegen 0 ≤ r < b und 0 ≤ r < b gilt −b < r − r < b, also −1 < b < 1. Da aber
q 0 − q ∈ Z, ist q 0 − q = 0, d.h. q 0 = q und damit auch r0 = r.
Definition 3.3. Sind a, b ∈ Z zwei Zahlen, so nennen wir c = ggT(a, b) ∈ N den
größten gemeinsamen Teiler von a und b, wenn c ein Teiler sowohl von a als
auch von b ist, und für jeden gemeinsamen Teiler d ∈ N von a und b gilt d ≤ c.
Da ein Teiler d von a nach Bemerkung 3.1 die Ungleichung d ≤ a erfüllt, kann a nur
endlich viele Teiler besitzen. Darunter gibt es dann auch einen größten. Mit Hilfe
der Division mit Rest leiten wir folgenden Hilfssatz her:
Satz 3.3. Seien a, b ∈ Z, nicht beide = 0, und c = ggT(a, b). Dann gibt es Zahlen
x, y ∈ Z mit
c = xa + yb.
Beweis. Sei m die kleinste natürliche Zahl in der Menge
L = {xa + yb : x, y ∈ Z}
3.2 Primzahlen
17
der ganzzahligen Linearkombinationen von a und b. Wir werden zeigen, dass m mit
dem c übereinstimmt. Da c ein gemeinsamer Teiler von a und b ist, teilt c jede Zahl
in L, insbesondere also auch m. Andererseits gilt m|a, denn a ∈ L, qm ∈ L für alle
q ∈ Z und somit a − qm ∈ L. Division mit Rest von a durch m kann aber keinen
Rest 6= 0 ergeben, da m ∈ L ∩ N minimal gewählt war. Also muss m ein Teiler von
a sein. Mit dem gleichen Argument zeigt man m|b, also m ≤ c. Mit c|m folgt daraus
nach Bemerkung 3.1 c = m. Es existieren also x, y ∈ Z mit xa + yb = c.
Wir haben zwar den größten gemeinsamen Teiler eingeführt, doch für große Zahlen
wäre es sehr mühsam, ihn durch Primfaktorzerlegung (vgl. Satz 3.7) beider Zahlen
zu bestimmen. Stattdessen nutzt man den Euklidischen Algorithmus, den wir im
nächsten Satz kennenlernen.
Satz 3.4 (Euklidischer Algorithmus). Es seien a, b ∈ N mit a ≥ b. Man setze a0 = a
und a1 = b und bilde sukzessive folgende Kette von Divisionen mit Rest:
mit q1 , a2 ∈ Z, 0 ≤ a2 < a1 ,
mit q2 , a3 ∈ Z, 0 ≤ a3 < a2 ,
..
.
mit qn−1 , an ∈ Z, 0 ≤ an < an−1 .
a0 = q 1 a1 + a2
a1 = q 2 a2 + a3
..
.
an−2 = qn−1 an−1 + an
Dann gibt es einen ersten Index k, 1 ≤ k ≤ b, so dass gilt: ak > 0, ak+1 = 0.
Die Zahl ak ist dann der größte gemeinsame Teiler von a und b.
Beweis. Wegen b = a1 > a2 > a3 > . . . und a1 ≥ 1 gibt es einen ersten Index k mit 1 ≤ k ≤ b, so dass ak > 0 aber ak+1 = 0. Dann hat man also als
k-te Gleichung ak−1 = qk ak . Durchläuft man die Kette der Gleichungen für die ai
von unten nach oben, so erhält man nacheinander: ak |ak−1 , ak |ak−2 , . . . , ak |a1 , ak |a0 .
Durchläuft man hingegen die Gleichungskette von oben nach unten, so folgt für
jeden gemeinsamen Teiler c von a0 und a1 nacheinander: c|a0 , c|a1 , c|a2 , . . . , c|ak .
Somit hat ak die Eigenschaften eines größten gemeinsamen Teilers, d.h. es gilt
ak = ggT(a0 , a1 ) = ggT(a, b).
Beispiel 3.4. Zu bestimmen sei der größte gemeinsame Teiler von 531 und 93. Gemäß
Satz 3.4 rechnen wir
531
93
66
27
12
=
=
=
=
=
5 · 93 + 66
1 · 66 + 27
2 · 27 + 12
2 · 12 + 3
4·3
Aus der letzten Gleichung entnehmen wir ggT(531, 93) = 3 = a5 . Wegen
617 = 1 · 379 + 238
379 = 1 · 238 + 141
238 = 1 · 141 + 97
141 = 1 · 97 + 44
erhalten wir ggT(617, 379) = 1.
97 = 2 · 44 + 9
44 = 4 · 9 + 8
9=1·8+1
8=8·1
18
3 PRIMZAHLEN UND KRYPTOLOGIE
Ein Hilfsmittel für die folgenden Betrachtungen ist
Lemma 3.5 (Fundamentallemma). Teilt eine Primzahl p ein Produkt a · b zweier
Zahlen a, b ∈ N, so teilt p einen der Faktoren.
Beweis. Wenn p|a, dann gilt die Aussage. Nehmen wir also an, dass p die Zahl a
nicht teilt. Dann gilt ggT(a, p) = 1. Nach Satz 3.3 gibt es dann Zahlen x, y ∈ Z mit
xa + yp = 1. Durch Multiplikation mit b folgt daraus b = (ab)x + byp. Da p beide
Summanden teilt, muss p auch b teilen.
Die Aussage bleibt richtig, wenn wir sie für Zahlen a, b ∈ Z formulieren. Aus dem
Fundamentallemma folgt durch vollständige Induktion nach n
Korollar 3.6. Teilt eine Primzahl p ein Produkt a1 · · · an aus n Zahlen a1 , . . . , an ∈
N, so teilt p einen der Faktoren.
Lemma 3.5 bzw. Korollar 3.6 werden im Beweis des folgenden grundlegenden Satzes
der Zahlenthoerie über die Primfaktorzerlegung natürlicher Zahlen verwendet.
Satz 3.7. Jede natürliche Zahl m > 1 besitzt eine eindeutige Darstellung
m = p1 · p2 · · · pn
als Produkt von endlich vielen Primzahlen p1 ≤ p2 ≤ . . . ≤ pn .
Beweis. Der Satz besteht aus zwei Teilen: Der Existenz einer solchen Darstellung
und der Eindeutigkeit derselben.
Existenz: Angenommen, es gäbe natürliche Zahlen, die sich nicht als Produkt von
Primzahlen schreiben lassen. Sei m die kleinste dieser natürlichen Zahlen. Die Zahl
m kann keine Primzahl sein, da sie sonst eine Zerlegung in den einen Primfaktor m
besäße. Es gibt also a, b ∈ N mit a, b ≥ 2, so dass m = a · b. Da wegen a, b ≥ 2 nach
Bemerkung 3.1 a, b < m gilt, besitzen a und b nach Wahl von m Primfaktorzerlegungen a = p1 · · · pn und b = q1 · · · qk . Daraus folgt jedoch m = a · b = p1 · · · pn · q1 · · · qk ,
m besitzt also doch eine Primfaktorzerlegung im Widerspruch zur Annahme.
Eindeutigkeit: Angenommen, es gäbe natürliche Zahlen, für die die Darstellung
nicht eindeutig ist. Sei m die kleinste derartige Zahl. Sie besitze die Darstellungen m = p1 · · · pn = q1 · · · qk . Auf die Sortierung der Primfaktoren nach ihrer Größe
verzichten wir im Moment. Es genügt, nachzuweisen, dass die Anzahlen der Primfaktoren übereinstimmen und auf beiden Seiten die gleichen Primfaktoren vorkommen.
Da die Primzahl p1 das Produkt m = q1 · · · qk teilt, muss sie nach Korollar 3.6
einen der Faktoren q1 , . . . , qk teilen. Es gibt also einen Index j zwischen 1 und k,
so dass p1 |qj . Da qj eine Primzahl ist, muss gelten p1 = qj . Die natürliche Zahl
m
= p2 · · · pn = q1 · · · qj−1 · qj+1 · · · qk ist kleiner als m und ihre Primfaktorzerlegung
p1
ist deshalb eindeutig, wenn man die Primfaktoren der Größe nach sortiert. Insbesondere stimmen die Anzahlen der Primfaktoren n − 1 und k − 1 (und somit n und
k) überein. Zudem bestehen beide Darstellungen aus den gleichen Faktoren. Durch
Multiplikation mit p1 = qj folgt, dass auch die Darstellungen von m übereinstimmen,
was unserer Annahme widerspricht.
Beispiel 3.5. Die Zahl 165 ist eindeutig darstellbar als 165 = 3 · 5 · 11. Die Zahl
540 besitzt die Darstellung 540 = 2 · 2 · 3 · 3 · 3 · 5. Es können also durchaus einige
Primfaktoren mehrfach vorkommen.
Satz 3.7 kann auch dazu verwendet werden, den größten gemeinsamen Teiler oder
das kleinste gemeinsame Vielfache zweier Zahlen zu bestimmen.
3.3 Das RSA-Verfahren
3.3
19
Das RSA-Verfahren
Ausgehend von Satz 3.2 können wir bei festgehaltener Zahl d ∈ N die Zahlen a ∈ Z
anhand ihres nach der Division durch d verbleibenden Restes in Klassen zusammenfassen. Beispielsweise haben u.a. die Zahlen −18, −13, −8, −3, 2, 7, 12, 17 bei Division durch 5 alle den Rest 2. Haben zwei Zahlen a, b ∈ Z nach Division durch eine
Zahl d ∈ N den gleichen Rest, so sagt man auch, dass a und b kongruent modulo
d sind. Formal definiert man
Definition 3.4. Sei d ∈ N. Eine Zahl a ∈ Z heißt kongruent zu b modulo d,
wenn d|(a − b). Man schreibt dann a ≡ b mod d.
Zur Definition ist äquivalent: Es gibt ein q ∈ Z mit a = b + qd. Schon anhand
der Definition erkennt man, dass die Beziehung symmetrisch ist, d.h. a ≡ b mod d
bedeutet das Gleiche wie b ≡ a mod d. Dass zwei zueinander kongruente Zahlen
tatsächlich den gleichen Rest besitzen, sagt uns die nächjste Proposition.
Proposition 3.8. Zwei Zahlen a, b ∈ Z sind genau dann kongruent modulo d ∈ N,
wenn sie bei Division durch d den gleichen Rest besitzen.
Beweis. Wir teilen den Beweis gemäß Proposition 1.1 in zwei Richtungen auf.
⇐: Gelte a = q1 d + r und b = q2 d + r, beide Zahlen besitzen bei Division durch d
also den gleichen Rest r. Dann gilt a − b = q1 d + r − q2 d − r = (q1 − q2 )d. Dieser
Term ist aber durch d teilbar.
⇒: Sei a − b durch d teilbar, d.h. es gibt ein q ∈ Z mit a = b + qd. Hat b bei Division
durch d den Rest r, d.h. ist b darstellbar als b = pd + r mit p ∈ Z und r ∈ N0 , dann
folgt a = b + qd = (p + q)d + r. Daher hat a ebenfalls den Rest r.
Mit elementaren Rechnungen leitet man folgende Rechenregeln her:
Proposition 3.9. Sind a ≡ a0 mod d und b ≡ b0 mod d, dann gelten
(a) a + b ≡ a0 + b0 mod d;
(b) a − b ≡ a0 − b0 mod d;
(c) a · b ≡ a0 · b0 mod d.
Ist d eine Primzahl, so gilt außerdem
a·b≡0
mod d
⇔
(a ≡ 0
mod d ∨ b ≡ 0
mod d).
Beweis. zu (a): Wenn d|(a − a0 ) und d|(b − b0 ), dann ist auch a + b − (a0 + b0 ) =
(a − a0 ) + (b − b0 ) durch d teilbar.
zu (b): Mit a − a0 und b − b0 ist auch a − b − (a0 − b0 ) = (a − a0 ) − (b − b0 ) durch d
teilbar.
zu (c): Wenn d|(a − a0 ) und d|(b − b0 ), dann ist d auch ein Teiler von ab − a0 b0 =
ab − a0 b + a0 b − a0 b0 = (a − a0 )b + a0 (b − b0 ).
a · b ≡ 0 mod d ist nach Definition äquivalent zu d|ab. Ist d ein Teiler von a oder b,
so ist d auch ein Teiler von ab. Andererseits muss nach dem Fundamentallemma 3.5
d schon einen der Faktoren teilen, wenn es das Produkt beider teilt.
Dass der letzte Teil der Proposition 3.9 falsch ist, wenn d keine Primzahl ist, verdeutlicht das folgende Beispiel:
20
3 PRIMZAHLEN UND KRYPTOLOGIE
Beispiel 3.6. Weder 2 noch 3 ist durch 6 teilbar, es gilt jedoch 2 · 3 = 6 ≡ 0 mod 6.
Satz 3.10 (Kleiner Satz von Fermat). Sei p eine Primzahl und a ∈ Z. Dann gilt
ap ≡ a mod p.
Ist a kein Vielfaches von p, so ist insbesondere
ap−1 ≡ 1
mod p.
Beweis. Ist a Vielfaches von p, dann ist ap − a durch p teilbar, die Gleichung ist also
richtig. Ist a kein Vielfaches von p, so bilden wir die Produkte a, 2a, . . . , (p − 1)a.
Division mit Rest durch p gemäß Satz 3.2 liefert die Gleichungen
ka = qk p + rk ,
0 ≤ rk < p, k = 1, . . . , p − 1.
Da p weder k noch a teilt, kann nach dem Fundamentallemma 3.5 auch ka nicht
durch p teilbar sein. Daher sind auch alle rk , k = 1, . . . , p−1, nicht durch p teilbar, die
Reste sind also insbesondere ungleich 0. Wir behaupten, dass alle Reste r1 , . . . , rp−1
paarweise verschieden sind: Wäre dem nicht so, würde aus ri = rj nämlich folgen,
dass (i − j)a = (qi − qj )p durch p teilbar ist. Da p nicht a teilt, muss p nach dem
Fundamentallemma 3.5 i − j teilen. Wegen |i − j| < p müsste dann jedoch i = j
sein. Wir sehen somit
a ≡ r1
mod p
∧
2a ≡ r2
mod p
∧ ··· ∧
(p − 1)a ≡ rp−1
mod p.
(∗)
Da die p − 1 Reste aus {1, . . . , p − 1} stammen und paarweise verschieden sind, gilt
bereits {r1 , . . . , rp−1 } = {1, . . . , p − 1}. Setzen wir
c=
p−1
Y
rj =
j=1
p−1
Y
j = (p − 1)!,
j=1
so folgt aus Proposition 3.9(c) durch Multiplikation aller Gleichungen aus (∗)
cap−1 ≡ c mod p
bzw.
p|(ap−1 − 1)c.
Da c nicht durch p teilbar ist, muss gemäß dem Fundamentallemma ap−1 − 1 durch
p teilbar sein, es gilt also ap−1 ≡ 1 mod p. Durch Multiplikation mit a folgt nach
Proposition 3.9(c) ap ≡ a mod p.
Satz 3.11 (Euler). Sind p und q verschiedene Primzahlen und ist a ∈ Z weder durch
p noch durch q teilbar, dann gilt
a(p−1)(q−1) ≡ 1
mod pq.
Beweis. Aus dem kleinen Satz von Fermat 3.10 folgt mit Proposition 3.9
a(p−1)(q−1) = (ap−1 )q−1 ≡ 1q−1
mod p ≡ 1
mod p
a(p−1)(q−1) = (aq−1 )p−1 ≡ 1p−1
mod q ≡ 1
mod q.
und
Nach Definition ist also a(p−1)(q−1) −1 sowohl durch p als auch durch q teilbar. Folglich
ist a(p−1)(q−1) − 1 auch durch p · q teilbar, d.h. es gilt a(p−1)(q−1) ≡ 1 mod pq.
21
Basierend auf den Sätzen von Euler und Fermat entwickelten Ronald Linn Rivest
(*1947), Adi Shamir (*1952) und Leonard Adleman (*1945) im Jahr 1977 ein Verschlüsselungsverfahren, das ihnen zu Ehren als RSA-Verfahren bezeichnet wird.
Machen wir die Vorgehensweise anhand eines kleinen Beispiels klar:
Bob wählt zwei große Primzahlen p 6= q („groß“ heißt hier oft p, q > 10100 ). Er
berechnet die Produkte n = pq und m = (p − 1)(q − 1) und wählt eine zu m teilerfremde Zahl e mit 1 < e < m. Er bestimmt weiterhin ein d ∈ N mit ed ≡ 1 mod m.
Dieses existiert wegen Satz 3.3. Bob macht die Zahlen n und e öffentlich bekannt,
hält aber d geheim. Alice kann nun an Bob eine Nachricht senden, die aus einer oder
mehreren Zahlen aus {1, 2, . . . , n − 1} besteht. Für eine Zahl t ∈ {1, 2, . . . , n − 1}
berechnet sie dazu s ≡ te mod n und sendet dies an Bob. Nach Wahl von d gibt es
eine Zahl k ∈ N, so dass de = km + 1. Bob berechnet nun
sd ≡ (te )d = ted = tkm+1 = (tm )k · t ≡ t mod n,
er erhält somit die zu sendende Nachricht.
Beispiel 3.7. Sei p = 5 und q = 11, also n = 55 und m = (p − 1)(q − 1) = 40.
Der Schlüssel e soll zu 40 teilerfremd sein, er darf also nicht durch 2 oder 5 teilbar
sein. Wir wählen e = 7. Der Wert d ist nun durch die Gleichung de ≡ 1 mod m
bestimmt. Wir suchen also einen Wert 40k + 1, der durch 7 teilbar ist. Dies ist 161
= 23. Die Zahlen n = 55 und e = 7 werden bekannt
(für k = 4), also d = 161
7
gegeben. Jemand, der die Nachricht 32 an uns übermitteln möchte, berechnet
327 = 34 359 738 368 ≡ 43
mod 55
und übermittelt 43. Um die Nachricht zu entschlüsseln, rechnen wir
4323 = 37 134 234 731 477 575 983 465 092 780 473 537 507 ≡ 32
mod 55.
Bei diesem Verfahren mit öffentlichem Schlüssel (e, n) kennt jeder den Schlüssel.
Ist das Verfahren dann überhaupt sicher, d.h. kann ein Fremder, der die Nachricht
s ebenfalls empfangen hat, diese nur mit dem Wissen von e und n entschlüsseln?
Wenn p und q sehr groß sind, dann kann man leicht n = pq und m = (p − 1)(q − 1)
berechnen, n bzw. m jedoch zu faktorisieren, ist in angemessener Zeit unmöglich.
Die Bestimmung von d ist vom gleichen Schwierigkeitsgrad wie die Faktorisierung
von n.
4
Codierung
Codierungstheorie ist ein Zweig der Mathematik, der uns in vielen Bereichen unseres Lebens begegnet. Beispielsweise ist in der Partitur eines musikalischen Werkes
codiert, welche Töne wie lange in welcher Ausführung und in welcher Lautstärke gespielt werden sollen. Ein geübter Musiker kann diese Informationen leicht mit einem
geeigneten Instrument decodieren. Auch im Bildmuster der Online-Bahnfahrkarte,
in Barcodes, Buchnummern oder Artikelnummern sind Informationen codiert. Weniger offensichtlich ist die Anwendung der Codierungstheorie beim Erstellen und
Abspielen von CDs und auf Kreditkarten. Codierungen sind in gewisser Weise mit
der Verschlüsselung verwandt, da in beiden Fällen das eigentlich Gemeinte in Zeichen
übersetzt wird. Im Gegensatz zur Kryptologie können die codierten Informationen
22
4 CODIERUNG
jedoch prinzipiell von jedermann wieder zurück übersetzt werden, manchmal unter Zuhilfenahme geeigneter Geräte. Ein Schlüssel ist dazu nicht erforderlich. Im
Folgenden wollen wir uns anhand einiger einfacher Beispiele ansehen, wie die Codierungstheorie funktioniert.
4.1
Die Europäische Artikelnummer (EAN)
Auf allen Dingen des täglichen Bedarfs finden wir sog. Barcodes. Der Name leitet
sich ab vom englischen Wort bar, was übersetzt Strich oder Balken bedeutet. In
ihm ist die Zahl codiert, die darunter steht. Die ersten beiden Ziffern stehen für
das Land, aus dem die Ware kommt. 40, 41, . . . stehen für Deutschland, 80, . . . für
Italien. Große Länder haben mehrere Nummern, kleine nur eine. Dann folgen i.a.
fünf Ziffern für die Herstellerfirma und fünf weitere Ziffern für die Ware. Die letzte
Ziffer ist eine Prüfziffer. Doch wie prüft eine Scannerkasse mit Hilfe der Prüfziffer
die Artikelnummer auf ihre Gültigkeit? Zur Prüfung multipliziert man die Ziffern
abwechselnd mit 1 und 3 und addiert die Ergebnisse. Auf diese Weise erhält man
die Prüfsumme S. Die Artikelnummer ist gültig, wenn
S≡0
mod 10,
d.h. wenn die Prüfsumme ohne Rest durch 10 teilbar ist. Andernfalls ist die Artikelnummer ungültig.
Beispiel 4.1. Durch Nachrechnen wollen wir prüfen, ob 4 007396 079005 eine gültige
Artikelnummer ist. Dazu berechnen wir die Prüfsumme
4 · 1 + 0 · 3 + 0 · 1 + 7 · 3 + 3 · 1 + 9 · 3 + 6 · 1 + 0 · 3 + 7 · 1 + 9 · 3 + 0 · 1 + 0 · 3 + 5 · 1 = 100.
Da die Prüfsumme durch 10 teilbar ist, ist sie gültig.
Bei der Erzeugung der EAN für einen neuen Artikel rechnet man zunächst die Prüfsumme nur mit zwölf Ziffern aus, in unserem Beispiel hätte sich 95 ergeben. Die
Prüfziffer wählt man dann so, dass die Prüfsumme zu einer durch 10 teilbaren Zahl
ergänzt wird.
Lese- oder Tippfehler führen in vielen Fällen zu einer falschen Prüfsumme. Wir betrachten zunächst den Fall, in dem eine Ziffer falsch getippt wurde. An den Plätzen,
die mit 1 multipliziert werden, entsteht die größte Änderung durch Vertauschung
von 0 und 9. Durch eine falsche Ziffer an einer 1er Stelle kann sich also die Prüfziffer
nicht um einen vollen Zehner ändern. Tippt man an einer Stelle, die mit 3 multipliziert wird, x statt y, dann ändert sich die Prüfsumme um 3 · (x − y). Da x − y
maximal 9 werden kann, ist diese Änderung nicht durch 10 teilbar und wir erhalten
bei Division der Prüfsumme durch 10 den nicht verschwindenden Rest 3·(x−y). Alle
Einzelfehler können also anhand einer falschen Prüfsumme erkannt werden. Treten
jedoch mehrere Einzelfehler auf, so kann es passieren, dass die falsche Prüfsumme
trotzdem durch 10 teilbar ist und die Fehler somit nicht erkannt werden.
Häufig geschehen beim Eintippen auch Zahlendreher. Betrachten wir also zwei Nachbarziffern x und y. In einer Stellung tragen Sie x + 3y zur Prüfsumme bei, in der
verdrehten Stellung ist ihr Beitrag 3x + y. Dieser Zahlendreher wird nicht bemerkt,
wenn der Unterschied der beiden Beträge durch 10 teilbar ist, wenn also eine ganze
Zahl z ∈ Z\{0} existiert mit
3x + y − (x + 3y) = 10 · z.
4.2 Die ISBN-10-Nummer
23
Dies ist äquivalent zu 2(x − y) = 10z bzw. x − y = 5z. Da die linke Seite höchstens
gleich 9 sein kann, kommen für z nur die Werte 1 und −1 infrage. Zifferndreher werden also nicht erkannt, wenn sich die verdrehten Ziffern um 5 unterscheiden. Dies
betrifft die Zahlenpaare (5, 0), (6, 1), (7, 2), (8, 3) und (9, 4). Alle anderen Zifferndreher führen zu einer falschen Prüfsumme und werden bemerkt. Mit kombinatorischen
Mitteln (vgl. Kapitel 6) kann man zeigen, dass es viel mehr Ziffernpaare gibt, bei
denen ein Zifferndreher auffällt. Vertauschungen von Stellen mit gleichen Gewichtsfaktoren führen zur gleichen Prüfsumme und fallen daher nie auf.
4.2
Die ISBN-10-Nummer
Bis zum Jahr 2006 wurde zur Codierung von Büchern die zehnstellige ISBN (International Standard Book Number) verwendet. In ihr sind die Sprache (z.B. „3“
für Deutsch, „0“ oder „1“ für Englisch), der Verlag und der Titel (zusammen 8 Stellen) codiert. Die Zahl endet mit einer Prüfziffer, für die neben den Ziffern 0, . . . , 9
auch die Ziffer X (entspricht der Zahl 10) möglich ist. Sei a1 a2 . . . a10 die ISBN. Zur
Prüfung berechnet man die Prüfsumme
10 · a1 + 9 · a2 + · · · + 2 · a9 + 1 · a10 .
Ist das Ergenis durch 11 teilbar, akzeptiert man die ISBN.
Beispiel 4.2. Das englischsprachige Buch „Harry Potter and the Order of the Phoenix“ besitzt die ISBN-10-Nummer 0-7475-5100-6. Als Prüfsumme erhält man
S = 10·0+9·7+8·4+7·7+6·5+5·5+4·1+3·0+2·0+1·6 = 63+32+49+30+25+4+6 = 209.
Das Ergebnis ist wegen 209 = 11 · 19 durch 11 teilbar und die ISBN daher gültig.
Zur Berechnung der Prüfziffer a10 bildet man z = 10 · a1 + 9 · a2 + · · · + 3 · a8 + 2 · a9 .
Wenn z ≡ r mod 11, dann wähle man die Prüfziffer a10 = 11 − r.
Beispiel 4.3. Wir wollen die Prüfziffer des Buches „Fräulein Smillas Gespür für
Schnee“ berechnen. Die ersten 9 Stellen lauten 3-499-13599. Es gilt
10·3 + 9·4+8·9+7·9+6·1+5·3+4·5+3·9+2·9 = 287 = 26·11+1 ≡ 1
mod 11.
Wegen 11 − 1 = 10 müssen wir als Prüfziffer also X wählen.
Ähnlich wie bei der EAN werden auch bei der ISBN alle Einzelfehler erkannt. Zum
Beweis betrachten wir eine ISBN a1 a2 . . . a10 . An der i-ten Stelle werde fälschlicherweise bi statt ai eingetippt. Wir erhalten also die Prüfsummen
10 · a1 + 9 · a2 + · · · + (11 − i) · ai + · · · + 1 · a10 = x · 11 (x ∈ Z)
und
10 · a1 + 9 · a2 + · · · + (11 − i) · bi + · · · + 1 · a10 .
Der Fehler fällt nur dann nicht auf, wenn auch die falsche Prüfsumme ein ganzzahliges Vielfaches y · 11 von 11 ist. Durch Subtraktion beider Gleichungen erhalten wir
(11 − i)(ai − bi ) = (x − y) · 11, wobei x − y eine ganze Zahl ist. Da 11 eine Primzahl
ist, müsste im Fall x − y 6= 0 einer der beiden Faktoren auf der linken Seite durch
11 teilbar sein. Wegen 0 ≤ |ai − bi | ≤ 10 und 1 ≤ 11 − i ≤ 10 ist dies unmöglich.
Daher folgt x − y = 0 bzw. x = y und somit ai = bi .
24
4 CODIERUNG
Im Gegensatz zur EAN erkennt die ISBN das Vertauschen zweier Ziffern auf jeden
Fall. Zum Beweis nehmen wir an, dass die i-te und k-te Stelle einer ISBN vertauscht
sind. Der Fehler wird nur dann nicht bemerkt, wenn die Prüfsumme der falschen
Zahl ebenfalls wieder ein ganzzahliges Vielfaches von 11 ist, d.h. wenn gilt
10 · a1 + 9 · a2 + · · · + (11 − i) · ai + · · · + (11 − k) · ak + · · · + a10 = x · 11
10 · a1 + 9 · a2 + · · · + (11 − i) · ak + · · · + (11 − k) · ai + · · · + a10 = y · 11
mit x, y ∈ Z. Durch Subtraktion erhalten wir (11 − i)(ai − ak ) + (11 − k)(ak − ai ) =
(x − y) · 11 bzw. (ai − ak ) · (k − i) = (x − y) · 11. Es gilt 0 ≤ |k − i| ≤ 9. Für k 6= i
und x 6= y kann die Gleichung nur dann richtig sein, wenn 11 ein Teiler von ai − ak
ist. Wegen 0 ≤ |ai − ak | ≤ 10 kann dies nie der Fall sein, so dass ai = ak folgt. Eine
Vertauschung verschiedener Ziffern wird also immer erkannt.
Da nicht mehr genug ISBN-10-Nummern zur Verfügung standen, wurde dieser Code
durch den ISBN-13-Code ersetzt. Er ist eine Variante der EAN. Auf die drei Ziffern
978 oder 979 (für Zeitschriften 977) folgt die alte ISBN-Nummer ohne Prüfziffer. An
der letzten Stelle wird die Nummer durch die wie bei der EAN berechneten Prüfziffer
ergänzt. Durch diese Umstellung werden nun nicht mehr alle Zahlendreher bemerkt.
Dies ist jedoch kein großer Nachteil, da die Buchnummer kaum noch per Hand
geschrieben oder getippt werden muss.
4.3
IBAN - Die neue Kontonummer
Wie Ihnen nicht entgangen sein dürfte, ersetzt künftig die IBAN (International Bank
Account Number) die alte Kontonummer und die Bankleitzahl. Analog zur soeben
behandelten Europäischen Artikelnummer und der ISBN-10-Nummer enthält auch
die IBAN eine zweistellige Prüfziffer. Am Beispiel einer Kontonummer der Ostsächsischen Sparkasse Dresden (vgl. http://www.sparkonto.org/manuelles-berechnen-deriban-pruefziffer-sepa/) wollen wir uns ansehen, wie die Prüfziffer berechnet wird
und wie man die IBAN auf Gültigkeit prüft. Dazu betrachten wir die Kontonummer
4000428549 und die Bankleitzahl 85050300. Die zugehörige IBAN lautet
DE25850503004000428549.
Auf das Länderkürzel – hier DE für Deutschland – folgt die zweistellige Prüfziffer –
in unserem Beispiel 25. Daran schließen sich die Bankleitzahl und die Kontonummer
an. Zur Berechnung ersetzen wir die unbekannte Prüfziffer durch „00“. Man beachte,
dass eine Kontonummer mit weniger als 10 Stellen mit führenden Nullen aufgefüllt
werden muss.
1. Schritt: Wir verschieben den Block aus Länderkennung und „Prüfziffer“ 00 an das
Ende der Zahl. Wir erhalten also 850503004000428549DE00.
2. Schritt: Die Buchstaben des Länderkürzels werden gemäß einer Tabelle (A wird
zu 10, B zu 11 usw.) in Zahlen umgewandelt. Aus DE wird also 1314. Daraus ergibt
sich die Zahl 850503004000428549131400.
3. Schritt: Die so konstruierte Zahl wird durch 97 dividiert. Je nach Rechenleistung
muss die Division in mehreren Teilschritten erfolgen. Uns interessiert v.a. der bei
der Division übrig bleibende Rest. In unserem Beispiel erhalten wir den Rest 73.
Die Differenz aus 98 und dem Rest liefert die Prüfziffer, hier also 98 − 73 = 25.
4.4 Der Hamming-Code
25
Zur Vervollständigung der IBAN setzt man die Prüfziffer an den für sie vorgesehenen Platz.
Will man eine IBAN auf Gültigkeit prüfen, so geht man wie folgt vor:
1. Schritt: Man verschiebt wieder Länderkürzel und Prüfziffer an das Ende der
IBAN. In unserem Beispiel erhalten wir also 850503004000428549DE25.
2. Schritt: Die Buchstaben des Länderkürzels werden wie oben in die Zahl 1314 umgewandelt. Das liefert die Zahl 850503004000428549131425.
3. Schritt: Die so konstruierte Zahl wird durch 97 dividiert. Ist die Prüfziffer korrekt,
so muss sich bei der Division der Rest 1 ergeben. Auch hier muss die Division ggf.
in mehreren Teilschritten erfolgen.
4.4
Der Hamming-Code
Nachdem wir in den beiden vorangegangenen Abschnitten Codierungen kennengelernt haben, die bestimmte Fehler entdecken können, wollen wir uns nun einen Code
näher ansehen, der gewisse Fehler nicht nur entdecken kann, sondern sogar die Korrektur derselben erlaubt. Der Code wurde von Richard Hamming (1915-1998) zu
Beginn des Computerzeitalters 1948 entwickelt. Computer arbeiten mit Strom und
können gut zwischen den beiden Zuständen „kein Strom“ und „Strom“ unterscheiden. Eine Unterscheidung nach der Menge des Stroms findet dagegen nicht statt.
Daher werden Daten in der digitalen Welt in Form von langen Ketten von Nullen
und Einsen (sog. Bitfolgen) dargestellt.
Definition 4.1. Die Parität einer Bitfolge ist 0, wenn die Anzahl der 1 in der
Folge gerade ist. Die Parität einer Bitfolge ist 1, wenn die Anzahl der 1 in der Folge
ungerade ist.
Beispiel 4.4. Die Parität von 11101011 ist 0, die Parität von 11101010 ist 1.
Zu je vier zu sendenden Bits werden drei Korrekturbits berechnet und angehängt.
Zur Berechnung wird die soeben definierte Parität herangezogen. Die folgende Abbildung illustriert das Vorgehen anhand der zu codierenden Nachricht 1011:
5
0
6
1
1
1
4
0 1 1
2
3
0
7
Die Nachricht schreibt man in die blauen Felder 1, 2, 3 und 4. In die grünen Felder
tragen wir die Paritäten der im zugehörigen Kreis enthaltenen Bitfolge ein. Der Kreis
5 enthält beispielsweise die Bits 1, 0 und 1, die Parität ist also 0. Die so erhaltenen
Korrekturbits aus 5, 6 und 7 hängen wir an die ursprüngliche Nachricht 1011 an,
übermittelt wird also die Nachricht 1011010. Der Empfänger trägt die sieben Bits
wieder in die sieben Felder ein und prüft, ob alles richtig ist. Die Nachricht kann
er dann aus den Feldern 1, 2, 3 und 4 ablesen. Bei der Übertragung können jedoch
einzelne Bits falsch (oder gar nicht) übertragen werden. Tritt nur an einer einzigen
Stelle ein Fehler auf, so gibt es drei Fehlertypen:
26
4 CODIERUNG
Typ 1: Eines der ersten drei Bits ist falsch übermittelt worden, wir haben also beispielsweise die Nachricht 0011010 empfangen. Dann zeigt aber Bit 5 etwas
Falsches an, denn die Felder 1, 2 und 4 enthalten nun nur eine 1, die Parität müsste also 1 sein. Ebenso passt der Eintrag in Feld 6 nicht mehr. In
Feld 7 steht dagegen weiterhin das Richtige. Da nur ein Fehler aufgetreten ist,
kann der Empfänger schließen, dass Feld 1 falsch sein muss. Der Empfänger
korrigiert den Fehler und nimmt 1011010 als Nachricht an. Ebenso können
Einzelfehler in Feld 2 oder 3 korrigiert werden.
Typ 2: Wurde das vierte Bit falsch übermittelt, so sind ebenfalls die Felder 5 und
6 falsch, aber auch Feld 7. Hieraus schließt der Empfänger, dass Bit 4 falsch
angekommen ist und korrigiert es.
Typ 3: Ist eines der drei Korrekturbits falsch übermittelt worden, so hat dies nur
Auswirkungen auf das zugehörige Feld, die anderen Felder bleiben davon unberührt. Wurde beispielsweise Bit 5 falsch gesendet, so ist nur der Wert in Feld
5 falsch. Der Empfänger schließt also, dass Bit 5 falsch ist, und korrigiert es.
Der Hamming-Code kann somit alle Einzelfehler korrigieren. Wenn also in einer sehr
langen Bitfolge in jedem Siebenerblock maximal ein Übertragungsfehler auftritt,
wird die Nachricht trotzdem richtig empfangen. Eine Verbesserung kann man z.B.
dadurch erreichen, dass man gar nicht alle 0-1-Folgen der betrachteten Länge als Codewörter zulässt. In diesem Zusammenhang ist der Begriff des Hamming-Abstandes
von Bedeutung:
Definition 4.2. Sei C die Menge aller Codewörter einer vorgegebenen Länge n.
Der Hamming-Abstand zweier Bitfolgen a = (a1 , . . . , an ) und b = (b1 , . . . , bn ) aus
{0, 1}n ist definiert durch
dH (a, b) = |{i ∈ {1, . . . , n} : ai 6= bi }|.
Der Wert
dC = min dH (a, b)
a,b∈C
a6=b
heißt Minimalabstand des Codes C.
Der Hamming-Abstand gibt also an, an wie vielen Stellen sich zwei Bitfolgen unterscheiden.
Beispiel 4.5. Die beiden Codewörter 1011010 und 1001001 unterscheiden sich an drei
Stellen, haben also Hamming-Abstand dH (1011010, 1001001) = 3. Durch Betrachten
aller 16 möglichen Codewörter findet man heraus, dass dC = 3.
Man definiert
Bk (a) = {b ∈ {0, 1}n : dH (a, b) ≤ k}.
Diese Menge enthält alle 0-1-Folgen der Länge n, die sich vom Codewort a an maximal k Stellen unterscheiden.
Definition 4.3. Ein Code C ⊂ {0, 1}n ist k-fehlererkennend, wenn für jedes
Codewort a ∈ C jedes Tupel b ∈ Bk (a)\{a} (das sich also von a an mindestens einer
und höchstens k Stellen unterscheidet) nicht in C liegt und damit als fehlerhaft
4.5 Der Reed-Solomon-Code
27
erkannt wird.
Der Code C ist k-fehlerkorrigierend, wenn für jedes Codewort a ∈ C und für jedes
Tupel b ∈ Bk (a) (das sich also von a an höchstens k Stellen unterscheidet) a das
eindeutig nächste Codewort zu b ist und damit die ≤ k Fehler in b durch Suche nach
dem nächsten Codewort korrigiert werden können.
Bemerkung 4.1. Dass ein Code C k-fehlererkennend ist, kann man formal auch ausdrücken durch
∀a ∈ C : Bk (a) ∩ C = {a}.
Der Code C ist genau dann k-fehlerkorrigierend, wenn
∀a, b ∈ C : a 6= b ⇒ Bk (a) ∩ Bk (b) = ∅ .
In der Informatik beweist man den Satz
Satz 4.1. Ein Code C ist genau dann k-fehlererkennend, wenn dC ≥ k + 1. Er ist
genau dann k-fehlerkorrigierend, wenn dC ≥ 2k + 1.
Beweis. Ist der Code k-fehlererkennend, so enthält jede Menge Bk (a) mit a ∈ C
kein von a verschiedenes Codewort. Der Hamming-Abstand zum nächsten Codewort
beträgt also mindestens k + 1. Sei andererseits a ∈ C und b ∈ Bk (a) beliebig. Dann
gilt nach Voraussetzung
dH (a, b) ≤ k ≤ dC − 1.
Da dC der minimale Abstand zweier Codewörter ist, gilt entweder b = a oder b kann
kein Codewort sein.
Sei a, b ∈ C mit a 6= b. Ist der Code k-fehlerkorrigierend, so gilt nach Bemerkung 4.1 Bk (a) ∩ Bk (b) = ∅. Der Abstand zweier Codewörter ist also größer als
2k. Da Hamming-Abstände immer ganzzahlig sind, folgt dC ≥ 2k + 1. Nehmen wir
andererseits an, dass es ein c ∈ Bk (a) ∩ Bk (b) gibt. Es gilt
dH (a, b) ≤ dH (a, c) + dH (c, b),
denn die Zahl der Änderungen, die man braucht, um a in b zu überführen (dH (a, b)),
ist offensichtlich kleiner oder gleich der Zahl der Änderungen, die wir benötigen, um
a zunächst in c umzuwandeln und anschließend c in b (dH (a, c) + dH (c, b)). Daraus
folgt
2k + 1 ≤ dC ≤ dH (a, b) ≤ dH (a, c) + dH (c, b) ≤ 2k.
Dies ist jedoch ein Widerspruch, so dass die Annahme falsch gewesen sein muss.
Beispiel 4.6 (Fortsetzung Beispiel 4.5). Nach Satz 4.1 kann der Hamming-Code
maximal dC − 1 = 2 Fehler erkennen und dC2−1 = 1 Fehler korrigieren.
4.5
Der Reed-Solomon-Code
Eine weitere Klasse fehlerkorrigierender Codes wurde um 1960 von Irving S. Reed
(1923-2012) und Gustave Solomon (1930-1996) entwickelt. Zu ihren Ehren werden
die Codes Reed-Solomon-Codes oder kurz RS-Codes genannt. Erste Anwendung
fanden die RS-Codes beim Voyager-Programm der NASA im Jahr 1977. Kommerziell wurden RS-Codes zum ersten Mal 1982 zur Fehlerkorrektur auf Compact Disks
28
4 CODIERUNG
verwendet. Heutig werden RS-Codes z.B. im DVB-Standard zur Aussendung von digitalen Fernsehsignalen, in verschiedenen Mobilfunkstandards und im Digital Audio
Broadcasting (DAB) angewendet. Auch bei den immer weiter verbreiteten QR-Codes
werden Reed-Solomon-Codes zur Korrektur von Lesefehlern eingesetzt. In neuerer
Zeit werden RS-Codes jedoch zunehmend durch leistungsfähigere Codes ersetzt, so
z.B. im neuen Fernsehstandard DVB-S2.
Für den Reed-Solomon-Code RS(q, m, n) benutzen wir die Menge Fq = {1, 2, . . . , q}.
Hierbei ist q = pk eine Primzahlpotenz. Auf Fq können wir eine Addition und Multiplikation wie folgt definieren: Für zwei Elemente u, v ∈ Fq seien u + v und u · v diejenigen Elemente aus Fq , die bei Division durch q den gleichen Rest besitzen wie die
Summe bzw. das Produkt in N. Wir wollen nun Nachrichten a = (a0 , . . . , am−1 ) ∈ Fm
q
zu Codeworten c = (c0 , . . . , cn−1 ) ∈ Fnq codieren. Dazu verlangen wir n ≤ q. Zur
Codierung wählen wir n paarweise verschiedene Elemente u1 , . . . , un aus Fq . Die
Nachricht a fassen wir dann als Polynom
a(x) =
m−1
X
ai xi = a0 + a1 x + a2 x2 + · · · + am−1 xm−1
i=0
auf. Die Codierung von a ist dann gegeben durch
a = a(x) 7→ (a(u1 ), a(u2 ), . . . , a(un )),
d.h. die Codierung von a besteht aus den Werten des Polynoms a(x) an den Stellen
u1 , . . . , un . Dabei erfolgen Addition und Multiplikation gemäß der obigen Definition.
Streng genommen gibt es also viele Reed-Solomon-Codes RS(q, m, n), einen für jede
mögliche Wahl der Stellen ui . All diese Codes haben aber die gleichen Eigenschaften.
Deshalb reden wir von dem Reed-Solomon-Code RS(q, m, n).
Beispiel 4.7. Betrachten wir RS(7, 3, 7). Als Stellen ui wählen wir ui = i − 1, i =
1, . . . , 7. Wir wollen die Nachricht a = (1, 2, 3) codieren. Dieser Nachricht wird das
Polynom a(x) = 3x2 + 2x + 1 zugeordnet. Es gilt
a(0) = 1 , a(1) = 6 , a(2) = 3 , a(3) = 6 , a(4) = 1 , a(5) = 2 , a(6) = 2.
Die Berechnung von a(2) wollen wir uns exemplarisch einmal genauer ansehen:
3 · 22 + 2 · 2 + 1 = 12 + 4 + 1 = 17 ≡ 3 mod 7, also a(2) = 3.
Die Codierung von (1, 2, 3) ist also gegeben durch (1, 6, 3, 6, 1, 2, 2).
Nun wollen wir uns überlegen, welchen Hamming-Abstand dieses Codierungsverfahren hat. Dazu beweisen wir zunächst das folgende Lemma.
Lemma 4.2. Ist a(x) 6= 0 ein Polynom vom Grad d mit Koeffizienten aus Fq , so
existieren höchstens d Elemente u1 , . . . , ud ∈ Fq mit a(ui ) = 0, i = 1, . . . , d. D.h.
a(x) hat höchstens d Nullstellen in Fq .
Beweis. Der Beweis erfolgt durch Induktion über den Grad d. Ist d = 0, so hat a(x)
keine Nullstellen. Die Aussage des Lemmas ist also richtig. Wir nehmen nun an,
dass die Behauptung für Polynome vom Grad d − 1 schon bewiesen ist. Sei u1 eine
4.5 Der Reed-Solomon-Code
29
Nullstelle von a(x). Nach dem Euklidischen Algorithmus (Satz 3.4) können wir a(x)
schreiben als
a(x) = (x − u1 ) · g(x),
wobei g ein Polynom vom Grad d − 1 ist. Auf g ist also die Induktionsvoraussetzung
anwendbar, so dass g nur höchstens d−1 Nullstellen hat. Eine Nullstelle von a(x) ist
entweder u1 oder eine Nullstelle von g. Damit hat a(x) höchstens d Nullstellen.
Hieraus folgt unmittelbar
Korollar 4.3. Sind a, b, a 6= b, zwei Polynome in Fq , beide vom Grad höchstens d,
so existieren höchstens d Stellen u1 , . . . , ud ∈ Fq mit a(ui ) = b(ui ), i = 1, . . . , d.
Beweis. a 6= b bedeutet, dass a − b 6= 0. Außerdem ist der Grad des Polynoms a − b
höchstens d. Ein u ∈ Fq mit a(u) = b(u) ist eine Nullstelle von a − b. Das Korollar
folgt also direkt aus dem vorangegangenen Lemma.
Wir erhalten, dass für n ≥ m zwei Polynome a, b vom Grad m−1 , die verschiedenen
Nachrichten entsprechen, höchstens an m − 1 Stellen die selben Werte annehmen
können. Die Codes unterscheiden sich also an n − m + 1 > 0 Stellen. Die Codierung unterschiedlicher Nachrichten ist also verschieden und der Hamming-Abstand
zwischen zwei Codeworten mindestens n − m + 1, d.h. es gilt dRS = n − m + 1.
Angenommen, wir haben eine nach dem RS-Code codierte Nachricht empfangen.
Wie decodieren wir diese? Und wie kann der Code genutzt werden, um Ausfälle zu
beseitigen und Fehler zu korrigieren? Wir beginnen zunächst mit dem einfacheren
Fall, dass Teile des Codewortes bei der Übermittlung verloren gehen. Wir werden zeigen, dass wir den Reed-Solomon-Code RS(q, m, n) noch richtig decodieren können,
wenn höchstens n−m Ausfälle aufgetreten sind. Dies schließt auch den Fall ein, dass
die Nachricht ohne Ausfälle übermittelt wurde. Betrachten wir also den Fall, dass wir
von den übermittelten Werten a(u1 ), . . . , a(un ) mindestens m erhalten. Um die Notation zu vereinfachen, nehmen wir an, dass wir die Werte a(u1 ), . . . , a(um ) empfangen.
Die Stellen ui seien bekannt. Aus den Paaren (u1 , a(u1 )), (u2 , a(u2 )), . . . , (um , a(um ))
lässt sich dann mittels der sog. Lagrange-Interpolation das Polynom a(x) bestimmen.
Dazu setzen wir
m
Y
gi (x) =
(x − uj ) , i = 1, . . . , m.
j=1
j6=i
Es gilt
gi (uj ) = 0 ∀j 6= i.
Dann ist
m
X
a(ui )
gi (x),
a(x) =
g (u )
i=1 i i
denn das Polynom auf der rechten Seite hat höchstens Grad m − 1 und stimmt mit
a(x) an den Stellen u1 , . . . , um überein. Da auch a(x) höchstens Grad m − 1 hat,
muss das Polynom auf der rechten Seite nach Korollar 4.3 mit a(x) übereinstimmen.
Beispiel 4.8. Als Beispiel betrachten wir den Code RS(5, 3, 5). Es sei ui = i − 1,
i = 1, . . . , 5, gewählt. Wir erhalten die Nachricht (1, 4, 4, ∗, ∗). Die letzten beiden
30
4 CODIERUNG
Werte sind also bei der Übertragung verloren gegangen. Zunächst berechnen wir die
Polynome gi . Es gilt
(x − 1)(x − 2) = x2 − 3x + 2 ≡ x2 + 2x + 2 mod 5, also g1 (x) = x2 + 2x + 2,
x(x − 2) = x2 − 2x ≡ x2 + 3x mod 5, also g2 (x) = x2 + 3x,
x(x − 1) = x2 − x ≡ x2 + 4x mod 5, also g3 (x) = x2 + 4x.
Jetzt berechnen wir gi (ui ), gi (ui )−1 und a(ui )gi (ui )−1 . Man beachte dabei, dass alle
Werte in F5 liegen müssen. In der dritten Spalte sind diejenigen Elemente eingetragen, die mit der zweiten Spalte multipliziert modulo 5 den Wert 1 ergeben.
gi (ui )
i = 1, u1 = 0
2
i = 2, u2 = 1
4
i = 3, u3 = 2
2
gi (ui )−1
3
4
3
a(ui )gi (ui )−1
3
1
2
Damit erhalten wir
3(x2 + 2x + 2) + (x2 + 3x) + 2(x2 + 4x) ≡ x2 + 2x + 1 mod 5 bzw. a(x) = x2 + 2x + 1.
Die Nachricht war also a = (1, 2, 1).
Wenn bei der Übermittlung Fehler auftreten, ist das Decodieren etwas komplizierter.
Fehler korrigieren
Da dRS
= n − m + 1, kann der Code nach Satz 4.1 bis zu n−m
2
n−m
).
Nehmen
wir
also
an,
wir empfangen
(bzw. 2 , d.h. die größte ganze Zahl ≤ n−m
2
n
(y1 , . . . , yn ) ∈ Fq . Es gibt nur ein Polynom a(x) mit Koeffizienten aus Fq , das Grad
höchstens m − 1 hat und für das yi = a(ui ) für mindestens n − n−m
Stellen ui gilt.
2
In Verallgemeinerung der bekannten Polynome mit einer Variable sind Polynome
p(x, y) in zwei Variablen x, y über Fq von der Form
p(x, y) =
r X
s
X
pij xi y j , pij ∈ Fq .
i=0 j=0
Satz 4.4. Sei k ∈ N beliebig. Sei p(x, y), p 6= 0, ein Polynom über Fq mit p(x, y) =
y · f (x) + g(x), wobei der Grad von f höchstens k ist und der Grad von g höchstens
k + d ist und p(ui , yi ) = 0 für i = 1, . . . , n. Weiter sei a(x) ein Polynom über Fq mit
Grad höchstens d und mit a(ui ) = yi für t > k + d Stellen ui . Dann gilt
a(x) = −
g(x)
.
f (x)
Beweis. Wir setzen h(x) = g(x) + f (x) · a(x) und schreiben p als
p(x, y) = y · f (x) + g(x) = f (x) · (y − a(x)) + h(x).
(∗)
Setzen wir in diese Gleichung y = a(x), so erhalten wir
p(x, a(x)) = a(x) · f (x) + g(x) = h(x).
Da der Grad von f (x) höchstens k, der Grad von a(x) höchstens d und der Grad von
g höchstens k + d ist, hat auch h(x) höchstens Grad k + d. In Gleichung (∗) setzen
wir nun alle t > k + d Paare (ui , yi ) mit yi = a(ui ) ein. Für jedes Paar erhalten wir
0 = p(ui , yi ) = f (ui )(yi − a(ui )) + h(ui ) = h(ui ).
4.5 Der Reed-Solomon-Code
31
Da h höchstens Grad k + d hat, folgt nach Lemma 4.2, dass h(x) = 0 für alle x. Also
gilt
p(x, y) = f (x) · (y − a(x)).
Insbesondere muss daher gelten f (x) · a(x) = −g(x), also folgt die Behauptung.
Wann die Voraussetzungen erfüllt sind, sagen uns die nächsten beiden Lemmas.
Lemma 4.5. Seien k, d mit
2(k + 1) + d > n.
Dann existieren Polynome f (x), g(x) über Fq vom Grad höchstens k und k + d, so
dass für das Polynom p(x, y) = y · f (x) + g(x) gilt p(ui , yi ) = 0 für i = 1, . . . , n.
Beweis. Polynome über Fq vom Grad höchstens m haben bis zu m+1 Koeffizienten.
Zusammen haben daher f und g bis zu k + 1 + k + d + 1 = 2(k + 1) + d Koeffizienten.
Die Bedingungen
p(ui , yi ) = 0 , i = 1, . . . , n
ergeben ein Gleichungssystem aus n Gleichungen, aus denen die bis zu 2(k + 1) + d
Koeffizienten bestimmt werden sollen. Nach der vorausgesetzten Ungleichung besitzt
dieses Gleichungssystem mehr Variablen als Gleichungen, daher hat es auch eine
Lösung, in der nicht alle Koeffizienten von f und g gleich Null sind.
Lemma 4.6. Mit
k=
(d.h. k ist die kleinste ganze Zahl ≥
n−
ln − d − 1m
2
n−d−1
)
2
gilt
jn − d − 1k
2
(4.1)
>k+d
(4.2)
und
2(k + 1) + d > n.
Beweis. Wegen
n−d−1 k<
2
≤
n−d−1
2
n−d+1
2
(4.3)
ist Gleichung (4.2) erfüllt, falls
bzw. k ≤
n−d+1
n−d−1
−1=
.
2
2
Gleichung (4.3) ist erfüllt, falls
k≥
n−d−1
.
2
Das in (4.1) gewählte k erfüllt beide Bedingungen.
Sei also d = m − 1 und k wie in (4.1). Nach (4.3) aus Lemma 4.6 und Lemma 4.5
gibt es ein Polynom p(x, y) = y · f (x) + g(x) mit p(ui , yi ) = 0 für i = 1, . . . , n. Nach
(4.2) aus Lemma 4.6 und Satz 4.4 gilt dann a(x) = −g(x)/f (x).
32
5
5 DIFFERENTIALGLEICHUNGEN UND IHRE ANWENDUNGEN
Differentialgleichungen und ihre Anwendungen
Differentialgleichungen sind ein wichtiges und vielfältig anwendbares Themengebiet
der Mathematik. Seit dem historischen Beginn der Theorie der Differentialgleichungen durch Galilei, Leibniz und Newton im 17. Jahrhundert gehören besonders Naturwissenschaften und Technik zu den Hauptanwendungsgebieten. Aber auch mancher
wirtschaftliche oder gesellschaftliche Prozess wird durch Differentialgleichungen modelliert. Bevor wir uns jedoch verschiedene Anwendungen näher ansehen können,
müssen wir zunächst den Begriff der Ableitung einer Funktion einführen, um dann
verschiedene Differentialgleichungen zu betrachten und zu lösen.
5.1
Die Ableitung
Um Differentialgleichungen zu behandeln, müssen wir zunächst klären, wann eine
Funktion differenzierbar ist. Dazu müssen wir aber erst weitere grundlegende Begriffe
einführen.
Definition 5.1. Eine Funktion ist eine Beziehung zwischen zwei Mengen D und
W , die jedem Element x aus dem Definitionsbereich D genau einen Wert f (x)
aus dem Wertebereich W zuordnet.
Neben der aus der Schule bekannten Notation ist in der Mathematik auch die Notation f : D → W, x 7→ f (x) gebräuchlich. Weiterhin benötigen wir den Begriff der
Konvergenz. Dabei kann man sich eine reelle Folge (xn )n∈N als unendlich lange Liste
(x1 , x2 , x3 , . . .) von reellen Zahlen vorstellen.
Definition 5.2. Eine reelle Folge (xn )n∈N heißt konvergent gegen x ∈ R, wenn
gilt
∀ε > 0∃n0 ∈ N∀n ≥ n0 : |xn − x| < ε.
In diesem Fall schreiben wir limn→∞ xn = x.
Anschaulich heißt das, dass es zu jedem ε > 0 einen Index n0 ∈ N gibt, ab dem
alle Folgenglieder xn von x um weniger als ε entfernt sind. Die Folgenglieder nähern
sich also beliebig nah dem Wert x an. Diese Definition ist uns bereits in Beispiel 1.3
begegnet.
Bemerkung 5.1. Ohne Beweis bemerken wir: Sind (xn )n∈N und (yn )n∈N konvergente
Zahlenfolgen mit limn→∞ xn = x und limn→∞ yn = y, dann gilt auch
lim (xn + yn ) = x + y ;
n→∞
lim (xn · yn ) = x · y ;
n→∞
x
xn
= , falls y 6= 0.
n→∞ yn
y
lim
Es gibt Funktionen, bei denen eine kleine Änderung im Definitionsbereich nur zu
einer geringfügigen Änderung des Funktionswert führt. Formal definiert man
Definition 5.3. Sei D ⊂ R. Eine Funktion f : D → R heißt stetig im Punkt
a ∈ D, wenn
∀ε > 0∃δ > 0∀x ∈ D : (|x − a| < δ ⇒ |f (x) − f (a)| < ε).
Eine Funktion f : D → R heißt stetig, wenn sie in jedem Punkt a ∈ D stetig ist.
5.1 Die Ableitung
33
Da wir uns hier ausschließlich im Reellen befinden, genügt es, sich statt der Definition
das folgende Kriterium zu merken:
Satz 5.1. Eine Funktion f : D → R ist in a ∈ D genau dann stetig, wenn für jede
Folge (xn )n∈N in D, die gegen a konvergiert, die Folge (f (xn ))n∈N der Funktionswerte
gegen f (a) konvergiert.
Nun zur Differenzierbarkeit. Anschaulich ist durch zwei Punkte (x0 , f (x0 )) und
(x, f (x)) des Graphen der Funktion f eine Gerade festgelegt, die durch diese Punk(x0 )
. Diesen Quotienten bezeichnet man
te geht. Die Steigung der Geraden ist f (x)−f
x−x0
auch als Differenzenquotient. Verschieben wir nun x immer näher an x0 , so wird
aus der Sekante im Grenzfall eine Tangente an den Punkt (x0 , f (x0 )), sofern diese
existiert. Das bekannteste Beispiel einer in 0 nicht differenzierbaren Funktion ist
die Betragsfunktion | · |. Die Steigung der entstehenden Tangente wollen wir als
Ableitung der Funktion im Punkt x0 definieren.
Definition 5.4. Sei [a, b] ⊂ R. Eine Funktion f : [a, b] → R heißt in x0 ∈ (a, b)
differenzierbar, wenn es eine reelle Zahl a gibt, so dass
lim
x→x0
f (x) − f (x0 )
= a.
x − x0
Der Wert a heißt dann Ableitung von f in x0 und wird mit f 0 (x0 ) bezeichnet. Die
Funktion f heißt differenzierbar, wenn sie in allen Punkten x0 differenzierbar ist.
Bemerkung 5.2. In der Situation von Definition 5.4 können wir für x ∈ (a, b), x 6= x0 ,
setzen:
f (x) − f (x0 )
− f 0 (x0 )
r(x) =
x − x0
und erhalten, dass r(x) für x → x0 gegen Null konvergiert. Auflösen der Gleichung
nach f (x) ergibt
f (x) = f (x0 ) + [f 0 (x0 ) + r(x)](x − x0 ) mit
lim r(x) = 0.
x→x0
Für x → x0 konvergiert also auch f (x) gegen f (x0 ). Nach Satz 5.1 muss also eine in
x0 differenzierbare Funktion insbesondere stetig in x0 sein.
Mit Hilfe der folgenden Sätze können wir schnell Ableitungen von Summen, Produkten und Quotienten von Funktionen mit bekannten Ableitungen berechnen.
Satz 5.2. Seien f, g : (a, b) → R differenzierbar in (a, b). Für α, β ∈ R ist dann
auch αf + βg differenzierbar mit
(αf + βg)0 (x) = αf 0 (x) + βg 0 (x).
Beweis. Es gilt
f (x) − f (x0 )
g(x) − g(x0 )
αf (x) + βg(x) − αf (x0 ) − βg(x0 )
=α
+β
.
x − x0
x − x0
x − x0
Nach Bemerkung 5.1 konvergiert dies gegen αf 0 (x0 ) + βg 0 (x0 ).
34
5 DIFFERENTIALGLEICHUNGEN UND IHRE ANWENDUNGEN
Satz 5.3 (Produktregel). Seien f, g : (a, b) → R differenzierbar in (a, b). Dann ist
auch f · g : (a, b) → R differenzierbar und es gilt die Produktregel
(f g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x).
Beweis. Es gilt
f (x)g(x) − f (x0 )g(x0 )
f (x) − f (x0 )
g(x) − g(x0 )
= g(x)
+ f (x0 )
.
x − x0
x − x0
x − x0
Die Behauptung folgt durch Grenzübergang x → x0 mit Bemerkung 5.1 und Bemerkung 5.2.
Satz 5.4 (Quotientenregel). Seien f, g : (a, b) → R differenzierbar in (a, b). Dann
ist fg : (a, b) → R in allen Punkten x ∈ (a, b) mit g(x) 6= 0 differenzierbar und es
gilt die Quotientenregel
f 0
f 0 (x)g(x) − f (x)g 0 (x)
.
(x) =
g
g 2 (x)
Beweis. Es gilt
f (x)
g(x)
−
f (x0 )
g(x0 )
x − x0
1
f (x) − f (x0 )
g(x) − g(x0 ) =
g(x0 )
− f (x0 )
.
g(x)g(x0 )
x − x0
x − x0
1
für x → x0 gegen
Nach Bemerkung 5.1 und Bemerkung 5.2 konvergiert g(x)g(x
0)
1
. Insgesamt erhalten wir mit Bemerkung 5.1 die behauptete Identität.
g 2 (x0 )
Ohne Beweis gebe ich noch die wichtige Kettenregel an, die uns sagt, wie man
miteinander verknüpfte bzw verkettete Funktionen ableitet.
Satz 5.5 (Kettenregel). Ist f : (a, b) → R differenzierbar in (a, b), J = f ((a, b)) =
{y ∈ R : ∃x ∈ (a, b) : y = f (x)} und ist g : J → R differenzierbar in J, so ist die
Hintereinanderausführung g ◦ f : (a, b) → R, x 7→ g(f (x)) differenzierbar in (a, b)
und es gilt die Kettenregel
(g ◦ f )0 (x) = g 0 (f (x)) · f 0 (x).
Nach den vielen theoretischen Resultaten nun einige Beispiele.
Beispiel 5.1. Eine konstante Funktion, d.h. eine Funktion mit f (x) = c für alle
x ∈ R und ein c ∈ R, ist differenzierbar mit Ableitung f 0 (x) = 0.
Man kann elementar nachrechnen, dass die Funktion f (x) = x differenzierbar ist mit
Ableitung f 0 (x) = 1. Durch Induktion nach n folgt daraus mit der Produktregel 5.3,
dass auch f (x) = xn für n ∈ N auf R differenzierbar
ist mit f 0 (x) = nxn−1 . Nach
Pn
Satz 5.2 ist dann auch jedes PolynomP
f (x) = k=0 ak xk = an xn + · · · + a1 x + a0
differenzierbar mit Ableitung f 0 (x) = nk=1 ak kxk−1 = an nxn−1 + · · · + a1 .
Ohne Beweis stellen wir weitere Ableitungen verschiedener Funktionen zusammen:
1
exp0 (x) = exp(x) , sin0 (x) = cos(x) , cos0 (x) = − sin(x) , ln0 (x) = .
x
Im nächsten Abschnitt werden wir gelegentlich auch Ableitungen höherer Ordnung
benötigen.
Definition 5.5. Eine Funktion f : (a, b) → R heißt zweimal differenzierbar,
wenn f und f 0 differenzierbar sind. Man schreibt f 00 = (f 0 )0 . Induktiv definiert man
die n-te Ableitung von f durch
f (n) = (f (n−1) )0 .
5.2 Differentialgleichungen
5.2
35
Differentialgleichungen
Eine gewöhnliche Differentialgleichung ist eine Aussage, die eine gesuchte Funktion in einer bestimmten Weise mit ihren Ableitungen (bis zu einer gewissen Ordnung) in Beziehung setzt. Aufgabe ist es, aus dem gegebenen Zusammenhang auf die
Funktion zu schließen, d.h. die Differentialgleichung (DGL) zu lösen. Wir behandeln
zuerst Differentialgleichungen der Form
y 0 (x) = f (x, y(x)).
Dabei bezeichnet f eine vorgegebene Funktion f : D → R mit D ⊂ R2 , x die
Variable und y die noch unbekannte Funktion. Oft lässt man auch die Variable in
der gesuchten Funktion weg und schreibt kurz y 0 = f (x, y). Eine solche DGL heißt
Differentialgleichung erster Ordnung, da nur die Funktion und ihre erste Ableitung eingehen. Ist zusätzlich zur DGL noch ein Wert y(x0 ) = y0 vorgegeben, so
bezeichnet man die DGL zusammen mit dem Anfangswert als Anfangswertproblem. Manchmal betrachtet man auch ein Gleichungssystem mehrerer DGLs dieses
Typs und nennt es System von Differentialgleichungen. Treten in einer DGL
auch höhere Ableitungen auf, etwa bis zur n-ten Ordnung, so spricht man von einer
Differentialgleichung n-ter Ordnung. Beginnen wir mit Differentialgleichungen
erster Ordnung. In manchen Situationen ist es recht einfach, die Lösung y einer
DGL erster Ordnung zu bestimmen. Die wichtigsten Lösungsmethoden wollen wir
uns hier kurz ansehen.
Trennung der Variablen Ist die Funktion f in der DGL y 0 = f (x, y) von der
Form f (x, y) = g(x)·h(y), so kann man die Variablen x und y „trennen“, falls h(y) 6=
dy
,
0 ist. Verwendet man für die Ableitung y 0 die ebenfalls gebräuchliche Notation dx
so lässt sich die DGL symbolisch umformen in
dy
= g(x) dx.
h(y)
Durch Integration folgt
Z
1
dy = g(x) dx.
h(y)
Ein Integral ohne Grenzen bezeichnet eine Stammfunktion, d.h. eine differenzierbare Funktion, deren Ableitung der Integrand ist. Man beachte, dass mit einer
Funktion H auch die um eine Konstante verschobene Funktion H + c eine Stammfunktion ist. Ist also H eine Stammfunktion von h1 und G eine Stammfunktion von
g, so ist die Gleichung äquivalent zu
Z
H(y) = G(x).
Kann man die linke Seite nach y auflösen, erhalten wir die Lösung y = H −1 (G(x)).
Beispiel 5.2. Für die Differentialgleichung
y
y 0 = , x > 0,
x
ergibt sich dy
= dx
. Wegen ln0 (x) = x1 (vgl. Beispiel 5.1) ist dies äquivalent zu
y
x
ln |y| = ln |x| + c bzw. zu y = ±ec · x. Die Lösungen der DGL sind also von der Form
y = cx mit c ∈ R. Durch einen Anfangswert y(x0 ) = y0 könnte man die Konstante
c geeignet bestimmen.
36
5 DIFFERENTIALGLEICHUNGEN UND IHRE ANWENDUNGEN
Variation der Konstanten Sind g, h : [a, b] → R stetige Funktionen, so heißt
eine DGL der Form
y 0 = g(x) · y + h(x)
eine (inhomogene) lineare Differentialgleichung. Die Differentialgleichung y 0 =
g(x) · y heißt zugehörige homogene Differentialgleichung. Die homogene Gleichung können wir mittels Trennung der Variablen lösen. Ist G eine Stammfunktion
von g, so gilt
Z
Z
1
dy
dy
0
y =
= g(x) · y ⇔
= g(x) dx ⇔
dy = g(x) dx
dx
y
y
⇔ ln |y| = G(x) + C ⇔ y = ±eC eG(x)
mit einer Konstanten C. Die Lösungen sind also von der Form y(x) = ceG(x) mit
c ∈ R. Um eine Lösung der inhomogenen Gleichung zu finden, macht man den
Ansatz y(x) = c(x)eG(x) , man lässt die Konstante nun also ebenfalls variieren –
daher der Name der Methode. Differenzieren liefert nach den Sätzen 5.3 und 5.5
und Beispiel 5.1
y 0 (x)
Prod. regel
c0 (x)eG(x) + c(x)(eG(x) )0
Kettenregel
c0 (x)eG(x) + c(x)eG(x) g(x) = c0 (x)eG(x) + g(x)y(x).
=
=
Wenn gleichzeitig die inhomogene Gleichung y 0 = g(x)y + h(x) erfüllt sein soll, muss
h(x) = c0 (x)eG(x) bzw. c0 (x) = h(x)e−G(x) sein. Die Funktion c erhält man dann als
Stammfunktion von h(x)e−G(x) . Ist ỹ eine spezielle Lösung der inhomogenen DGL,
so sind alle Lösungen von der Form y(x) = ỹ(x) + ceG(x) . Dass dies Lösungen der
DGL sind, rechnen wir noch einmal kurz nach:
y 0 (x)
Satz 5.2, Bsp 5.1
=
ỹ 0 (x) + ceG(x) g(x) = g(x) · ỹ(x) + h(x) + ceG(x) g(x) = y(x) + h(x).
Es genügt also, eine einzige Lösung der inhomogenen Gleichung zu finden und zu
dieser dann die Lösungen der homogenen DGL hinzuzuaddieren, um alle möglichen
Lösungen zu erhalten.
Beispiel 5.3. Wir betrachten die DGL
y 0 = y + x.
Die homogene Gleichung y 0 = y hat die Lösungen y = cex , denn die Funktion
G(x) = x ist Stammfunktion der konstanten Funktion g(x) = 1. Die Konstante
lassen wir nun gemäß der soeben beschriebenen Methode variieren, wir setzen also
an y(x) = c(x)ex . Mit der zu erfüllenden Gleichung folgt dann
y(x) + x = y 0 (x) = c0 (x)ex + c(x)ex = c0 (x)ex + y(x)
also x = c0 (x)ex bzw. c0 (x) = xe−x . Die Funktion −(x+1)e−x ist eine Stammfunktion
von xe−x ist, denn
(−(x + 1)e−x )0
Prod. regel
=
−e−x − (x + 1)e−x · (−1) = xe−x .
Eine spezielle Lösung der inhomogenen Gleichung ist also ỹ(x) = (−(x + 1)e−x )ex =
−(x + 1). Alle Lösungen von y 0 = y + x sind gegeben durch
cex − x − 1 ,
c ∈ R.
5.2 Differentialgleichungen
37
Von einzelnen DGLs kommen wir nun zu ganzen Gleichungssystemen. Wir behandeln hier Systeme der Form
y10 = f1 (x, y1 , . . . , yn )
..
.
yn0 = fn (x, y1 , . . . , yn ).
Es handelt sich also nicht bloß um eine Sammlung mehrerer DGLs, vielmehr können
die Ableitungen yi0 auch von den anderen Funktionen abhängen. Von besonderer
Bedeutung sind lineare Differentialgleichungssysteme der Form
y10 = a11 (x)y1 + a12 (x)y2 + · · · + a1n (x)yn + b1 (x)
y20 = a21 (x)y1 + a22 (x)y2 + · · · + a2n (x)yn + b2 (x)
..
.
0
yn = an1 (x)y1 + an2 (x)y2 + · · · + ann (x)yn + bn (x).
Wir betrachten hier den Fall konstanter Koeffizienten genauer. Durch
y1 = c11 z1 + · · · + c1n zn
..
.
yn = cn1 z1 + · · · + cnn zn
definieren wir neue Funktionen z1 , . . . , zn . Durch geeignete Wahl der Koeffizienten
cij können wir in vielen Fällen erreichen, dass das homogene Gleichungssystem für
die yi in ein System der Form
z10 = λ1 z1 ∧ z20 = λ2 z2 ∧ . . . ∧ zn0 = λn zn
überführt wird. Diese Gleichungen werden bekanntlich gelöst durch zi = Ci eλi x . Allgemeinere Lösungsmethoden wollen wir hier nicht betrachten, da uns das mathematische Hintergrundwissen fehlt. In vielen Fällen ist das Differentialgleichungssystem
von einer solchen Form, dass die einzelnen Gleichungen hintereinander gelöst und
in die anderen eingesetz werden können. In anderen Fällen führt es häufig zum Ziel,
wie oben neue Funktionen zu definieren, für die die einzelnen Differentialgleichungen
getrennt lösbar sind.
Schließlich befassen wir uns mit Differentialgleichungen n-ter Ordnung, n ≥ 2, von
der Form
y (n) = f (x, y, y 0 , . . . , y (n−1) ).
Diese lassen sich zurückführen auf ein System von n Differentialgleichungen erster
Ordnung. Definiert man nämlich die neuen Variablen
y1 = y,
y2 = y 0 ,
...,
yn = y (n−1) ,
so ist die ursprüngliche DGL äquivalent zum System
y10 = y2 ,
..
.
0
yn−1 = yn ,
yn0 = f (x, y1 , y2 , . . . , yn ).
38
5 DIFFERENTIALGLEICHUNGEN UND IHRE ANWENDUNGEN
Ist y eine Lösung der DGL n-ter Ordnung, so ist (y, y 0 , . . . , y (n−1) )> eine Lösung
des Systems. Ist umgekehrt (y1 , y2 , . . . , yn )> eine Lösung des Systems, so löst y1
die zugehörige DGL n-ter Ordnung. Von besonderem Interesse sind lineare Differentialgleichungen n-ter Ordnung mit konstanten Koeffizienten, also auf DGLs der
Form
y (n) + an−1 y (n−1) + · · · + a0 y = 0,
Um derartige DGLs zu lösen, können wir einen Exponentialansatz y = eλx machen.
Dieser liefert die Gleichung
(λn + an−1 λn−1 + · · · + an λ + a0 )eλx = 0.
Da die Exponentialfunktion immer positiv ist, müssen wir λ so bestimmen, dass der
Term in Klammern gleich Null ist. Das Lösen der DGL kann also im Wesentlichen auf
das Bestimmen von Nullstellen eines Polynoms zurückgeführt werden. Problematisch
ist der Fall mehrfacher Nullstellen, den wir hier ausklammern.
5.3
Anwendungen
Differentialgleichungen werde in vielen Gebieten angewendet, um einen Zusammenhang zwischen der Änderung einer unbekannten Größe und der Größe selbst zu modellieren. In diesem Abschnitt werden wir einige Situationen betrachten, in denen
man Differentialgleichungen zur Modellierung und Lösung heranziehen kann.
Differentialgleichungen der Form y 0 = ay + b
Wir untersuchen zunächst die homogene lineare DGL y 0 = ay. Sie hat vielfältige
Anwendungen – je nach Vorzeichen der Konstante a. Ist a positiv, so beschreibt
die DGL ein Wachstum, für negatives a das Verhalten einer schrumpfenden Größe.
Die Variable ist dabei häufig die Zeit t. Der Fall eines negativen a tritt z.B. beim
radioaktiven Zerfall auf. Wenn mehr radioaktive Atome (y) vorhanden sind, dann
werden pro Zeiteinheit auch mehr Atome zerfallen (y 0 ). Die Annahme einer Proportionalität zwischen der Anzahl der pro Zeiteinheit zerfallenen Atome und der Anzahl
der Atome ist also plausibel. Die Konstante |a| hat in dem Fall die Funktion einer
Zerfallsrate.
Beispiele für Situationen, in denen die DGL y 0 = ay mit positivem a vorkommt,
sind die anfängliche Entwicklung einer Bakterienkultur, das Wachstum von Zellen
bis zu einer gewissen Größe – ab einer gewissen Größe ist das Modell nicht mehr
anwendbar, da sich die Zelle dann teilt – oder ein ungehindertes Wachstum einer
Population. Aus der Finanzmathematik ist die stetige Verzinsung von Kapital zu
nennen. Die gesuchte Funktion y steht in diesen Fällen für die Anzahl der Bakterien
oder die Größe der Zelle, der Population bzw. des Kapitals.
Nach dem ersten Teil des Vorgehens im Absatz über die Variation der Konstanten
wird die DGL durch Funktionen der Form y(t) = ceat gelöst. Ohne limitierende
Faktoren würde eine Bakterienkultur, eine Zelle, eine Population oder unser Kapital also exponentiell wachsen. Lässt man neben einem Geburtsprozess auch einen
Sterbeprozess zu, so hat die DGL die Form
y 0 = ay − by = (a − b)y.
a ist hier die Geburtenrate, b die Sterberate. Dies wird gelöst durch y(t) = ce(a−b)t .
5.3 Anwendungen
39
Nun betrachten wir die inhomogene lineare DGL y 0 = ay + b. Wenn a = 0, dann
wird die Gleichung durch y(t) = bt gelöst. Sei also a 6= 0. Wegen
b
0
y = ay + b = a y +
a
können wir die DGL mittels Trennung der Variablen lösen. Wir erhalten
R dy
R
dy
b =
a
dt
⇒
=
a
dt
⇔
ln
y
+
= at + C
b
y+ a
a
y + ab
b
⇔ y + ab = ±eC eat ⇔ y = ceat − mit c = ±eC .
a
Beispiel 5.4. Dieses Modell können wir beispielsweise anwenden, wenn das soeben
behandelte Wachstum einer Population durch eine feste Grenze B beschränkt ist.
Gründe für eine derartige Begrenzung des Wachstums sind z.B. Futterknappheit,
Raumnot, fehlende Unterschlupfmöglichkeiten, schlechte physische Bedingungen oder
ein Kontrollmechanismus. Es ist logisch, anzunehmen, dass bei Annäherung an die
Grenze B, d.h. für B − y → 0, das Wachstum auch geringer wird. Daher setzen wir
an
y 0 = k(B − y) = kB − ky.
Diese DGL wird gelöst durch y = ce−kt + B. Damit y < B, muss c negativ sein.
Beispiel 5.5. Ein weiteres Beispiel, in dem eine lineare inhomogene DGL vorkommt,
ergibt sich durch Modifikation eines Geburtsprozesses um einen Imigrationsprozess.
Dies wird modelliert durch die DGL
y 0 = λy + γ,
wobei γ für eine Einwanderung mit konstanter Rate steht. Als Lösung erhalten wir
y = ceλt − λγ .
Systeme erster Ordnung
Wir betrachten eine chemische Reaktion, bei der ein Stoff A in den Stoff B und dieser
wiederum in den Stoff C umgewandelt wird. Die Funktion y1 gebe die vorhandene
Menge des Stoffes A, y2 die Menge des Stoffes B und y3 die Menge des Stoffes C an.
Wir setzen an
y10 = −k1 y1 ∧ y20 = k1 y1 − k2 y2 ∧ y30 = k2 y2
mit positiven Konstanten k1 und k2 . Dabei sind die Konstanten eine Art Reaktionsgeschwindigkeit. Die erste Gleichung besagt, dass die Abnahme der Stoffmenge von
A proportional zur noch vorhandenen Menge von A ist. Die zweite Gleichung sagt
aus, dass sich die Zunahme der Menge von B durch die Abnahme der Menge von
A abzüglich der sich in C umwandelnden Stoffmenge von B, die proportional zu y2
ist, zusammensetzt. Dass die Zunahme der Stoffmenge von C durch Abnahme der
Stoffmenge von B resultiert, modelliert die dritte Gleichung. Wir lösen das Gleichungssystem sukzessive beginnend mit der ersten Gleichung. Wir wissen bereits,
dass die erste DGL durch
y1 = C1 e−k1 t
gelöst wird. Einsetzen in die zweite DGL liefert die inhomogene DGL y20 = k1 C1 e−k1 t −
k2 y2 . Die Lösungen der homogenen DGL y20 + k2 y2 = 0 haben wieder die Form
40
5 DIFFERENTIALGLEICHUNGEN UND IHRE ANWENDUNGEN
C2 e−k2 t . Eine spezielle Lösung der inhomogenen DGL erhalten wir durch Variation der Konstanten, d.h. durch den Ansatz y2 = u(t)e−k2 t . Hierfür folgt u0 (t) =
C1 (k2 −k1 )t
k1 C1 e(k2 −k1 )t bzw. durch Integrieren u(t) = kk21−k
e
+ C2 . Damit ergibt sich
1
k1 C1 −k1 t
e
+ C2 e−k2 t .
k2 − k1
Setzen wir dies in die dritte Gleichung ein, so können wir schließlich y3 bestimmen.
2 C1
e−k1 t +k2 C2 e−k2 t . Durch Integration erhalten
Die dritte Gleichung wird zu y30 = kk12k−k
1
wir die Lösung
k2 C1 −k1 t
y3 = −
e
− C2 e−k2 t + C3 .
k2 − k1
Mit einem ähnlichen Gleichungssystem kann man auch den Futterdurchgang durch
einen Wiederkäuermagen modellieren.
y2 =
Ein weiteres wichtiges Beispiel, in dem ein System von Differentialgleichungen zu
lösen ist, ist das sog. Räuber-Beute-Modell. Mit ihm werden die Wechselwirkungen
zwischen zwei Populationen R (Räuber) und B (Beute) beschrieben. Sei x(t) die
Größe der Beute-Population und y(t) die Größe der Räuber-Population. In dem auf
den amerikanischen Biophysiker Alfred Lotka und den italienischen Mathematiker
Vito Volterra zurückgehenden Gleichungssystem
x0 = x(a − by) ∧ y 0 = y(−α + βx)
sind a, b, α und β positive Konstanten. Es wird angenommen, dass die BeutePopulation ausreichend (pflanzliche) Nahrung hat. Bei Abwesenheit von Räubern
(y = 0) vermehrt sie sich exponentiell nach der Gleichung x0 = ax. Je nach Größe
der Räuber-Population sinkt die Wachstumsrate von a auf a − by, sie kann sogar
negativ werden. Anders die Räuber-Population. Ohne Beute (x = 0) nimmt sie gemäß y 0 = −αy ab, je nach Größe der Beute-Population nimmt der Nahrungsvorrat
zu, die Wachstumsrate wächst auf −α + βx. Die Terme mit x · y haben diesmal
sogar zwei verschiedene Interpretationen: Zum einen beschreibt es die Anzahl der
möglichen Begegnungen zwischen Raub- und Beutetieren. Es ist plausibel, dass die
Abnahme der Beutetiere bzw. die Zunahme der Räuber davon abhängt, hier sogar
proportional. Zum anderen könnte man den Ausdruck −bxy auch so interpretieren,
dass jedes Raubtier in einem Zeitschritt einen gewissen Teil der Beute erlegt, sagen
wir bx. Insgesamt werden dann in diesem Zeitschritt bxy Beutetiere erlegt. Umgekehrt erhöht sich durch jedes erlegte Beutetier die Fitness der Räuber und fördert
somit die Reproduktion neuer Raubtiere. Durch die Interaktion der beiden Spezies
ergeben sich Schwankungen in den Größen der Populationen. Gibt es zu einem Zeitpunkt gerade viele Beutetiere, so haben die Raubtiere genug zu fressen und können
sich vermehren. Steigt dann aber die Zahl der Raubtiere, werden sehr viele Beutetiere erlegt, was zu einem Rückgang in der Beutepopulation führt. Die Raubtiere
haben in der Folge nicht mehr genug Nahrung, was eine Dezimierung ihrer Anzahl
zur Folge hat. Gibt es nur noch wenige Raubtiere, kann sich die Beutepopulation
wieder erholen und das Spiel beginnt von vorne.
Lineare Differentialgleichungen zweiter Ordnung
Wichtige Beispiele, in denen Differentialgleichungen zweiter Ordnung vorkommen,
sind Schwingungen aller Art. Betrachten wir zuerst ein Federpendel, d.h. eine waagerecht angebrachte Feder, an der ein Gewicht befestigt ist, das sich reibungsfrei
5.3 Anwendungen
41
bewegen kann. Dehnt man die Feder über ihre Ruhelage hinaus, so übt die Feder auf
die Masse eine rückstellende Kraft F = −Dx aus, die proportional zur Auslenkung
x ist. In der Physik lernt man das Newtonsche Gesetz Kraft=Masse·Beschleunigung.
Wir erhalten also die DGL
x00 = −
Wir setzen zur Abkürzung ω =
q
D
x mit D > 0.
m
D
.
m
Der Exponentialansatz x(t) = ceλt liefert die
Gleichung (λ2 + ω 2 )ceλt = 0. Für λ erhalten wir die beiden Lösungen λ1/2 = ±iω.
Die allgemeine Lösung ist also
x(t) = c1 eiωt + c2 e−iωt .
Für k1 = 12 (c1 + c2 ) und k2 = 2i1 (c1 − c2 ) können wir dies auch schreiben als x(t) =
k1 cos(ωt) + k2 sin(ωt). Anhand des Kosinus- und des Sinusanteils erkennen wir, dass
die Masse um die Ruhelage schwingt. Erlauben wir zusätzlich einen Reibungsterm,
der proportional zur Geschwindigkeit x0 ist, dann ist die Gleichung
x00 = −
b 0 D
x − x mit b, D > 0
m
m
zu lösen. Wieder mit dem Exponentialansatz x(t) = ceλt ergibt sich die Gleichung
b
D λt
λ2 + λ +
ce = 0.
m
m
Nach der p-q-Formel hat sie die Lösungen
r
√
D
b
b
b2
b2 − 4Dm
±
−
=
−
±
λ1/2 = −
2m
4m2 m
2m
2m
(∗).
Für b2 > 4Dm, d.h. für große Reibung, sind beide Werte reell und negativ. Als
Lösung erhalten wir in diesem Fall
x(t) = c1 eλ1 t + c2 eλ2 t ,
c1 , c2 ∈ R.
Es kommt also nicht zur Schwingung. Für t → ∞ konvergiert x(t) gegen Null.
Für b2 = 4Dm gibt es nur eine reelle und negative Lösung λ der Gleichung (∗). Man
kann jedoch verifizieren, dass cteλt ebenfalls eine Lösung der DGL ist. Die allgemeine
Lösung lautet also
x(t) = (c1 + c2 t)eλt , c1 , c2 ∈ R.
Auch hier kommt es nicht zur Schwingung und die Auslenkung konvergiert mit
voranschreitender Zeit gegen Null.
Ist schließlich b2 < 4Dm (kleine Reibung), so√sind beide Lösungen von (∗) imaginär.
2
b
und ω = 4Dm−b
können wir sie schreiben als
Mit den Abkürzungen a = 2m
2m
λ1 = −a + iω und λ2 = −a − iω. Wir erhalten also die Lösungen
x(t) = c1 e(−a+iω)t + c2 e(−a−iω)t = e−at (c1 eiωt + c2 e−iωt ) ,
c1 , c2 ∈ C
bzw. in reeller Form x(t) = e−at (k1 cos(ωt) + k2 sin(ωt)), k1 , k2 ∈ R. Die Lösung
beschreibt eine Schwingung, deren Amplitude exponentiell mit dem Faktor e−at abklingt.
42
5 DIFFERENTIALGLEICHUNGEN UND IHRE ANWENDUNGEN
Als nächstes untersuchen wir das Schwingungsverhalten eines Fadenpendels. Eine an
einem Faden der Länge l senkrecht aufgehängte Masse m werde so um den Winkel
ϕ aus ihrer Ruhelage ausgelenkt, dass der Faden immer straff gespannt ist. Die
Bewegung beschreiben wir durch den Auslenkungswinkel ϕ(t) in Abhängigkeit von
der Zeit. Auf die Masse wirkt die Schwerkraft m · g mit der Erdanziehung g =
9, 81 sm2 , die in eine Komponente entlang des Fadens und in eine dazu senkrechte
Komponente entlang der Bahntangente aufgeteilt werden kann. Letztere ist m · g ·
sin(ϕ) und bewirkt eine Bewegung in Richtung Ruhelage. Der durch die Auslenkung
zurückgelegte Weg ist lϕ, wir können also ansetzen
g
mlϕ00 (t) = −mg sin(ϕ(t)) ⇔ ϕ00 (t) = − sin(ϕ(t)).
l
Sie werden jetzt sagen: „Diese Gleichung ist aber nicht linear.“ Damit haben sie auch
recht. Für kleine Auslenkungen kann man aber sin(ϕ) durch ϕ approximieren und
ist dann wieder in der schon durchgerechneten Situation.
Weitere Beispiele
In Anwendungen ist manchmal eine DGL der Form
y 0 = a(A − y)(B − y) = ay 2 − a(A + B)y + aAB
mit reellen Konstanten A 6= B zu lösen. Diese Gleichung ist nicht linear. Zur Lösung
benutzen wir erneut die Methode der Trennung der Variablen und erhalten
Z
Z
dy
= a dt.
(A − y)(B − y)
Aufgrund der leicht nachzuprüfenden Identität
1
1 1
1 =
−
(A − y)(B − y)
B−A y−B y−A
ist dies äquivalent zu
Z
Z 1
1 −
dy = a(B − A) dt ⇔ ln |y − B| − ln |y − A| = a(B − A)t + C.
y−B y−A
Mit den Logarithmengesetzen können wir dies weiter umformen in
y − B y − B y−B
ln
= cea(B−A)t .
= a(B − A)t + C ⇔ = eC · ea(B−A)t ⇔
y−A
y−A
y−A
Auflösen nach y liefert schließlich
y =A+
B−A
.
1 − cea(B−A)t
Beispiel 5.6. Wir betrachten noch einmal das Wachstum einer Population. Statt
der oben untersuchten Gleichungen y 0 = ay (für kleine y) und y 0 = a(B − y) (nahe
einer Wachstumsschranke) wollen wir beide Ansätze kombinieren. Dies wird durch
y 0 = λy(B − y) erreicht. Nach dem soeben Gesagten lautet die Lösung y = 1−ceB−λBt .
43
Beispiel 5.7. Als nächstes untersuchen wir die Verbreitung einer Infektionskrankheit. Wir definieren x(t) als die Anzahl der ansteckbaren Individuen zur Zeit t und
y(t) als die Anzahl der Infizierten. Dabei gehen wir davon aus, dass die Anzahl
der Individuen unverändert bleibt, es handelt sich also insbesondere nicht um eine
tötliche Krankheit. Wir drücken diesen Sachverhalt aus durch x + y = n. Weiterhin berücksichtigen wir nicht, dass sich eine natürliche Immunität ausbilden könnte.
Dann ist es plausibel, anzunehmen, dass die Ansteckungsrate proportional von der
Zahl der Infizierten und derjenigen der ansteckbaren Individuen abhängt, da die Ansteckungsgefahr bei einer größeren Zahl Infizierter größer ist und mehr Individuen
ansteckbar sind. Wir setzen also an
y 0 = βyx = βy(n − y).
Die Lösung lautet y =
n
.
1−ce−βnt
Beispiel 5.8. Bei einer chemischen Reaktion zweier Stoffe im Verhältnis 1:1 mit
verschiedenen Ausgangskonzentrationen A und B ist ein ähnlicher Ansatz gerechtfertigt. Bezeichne x den Betrag, um den die Konzentration abnimmt. Dann können
wir ansetzen x0 = r(A − x)(B − x).
6
Stochastik im Alltag
Die Stochastik (vom griechischen „στ óχoζ“ – sprich: stóchos – das Ziel, die Mutmaßung) umfasst u.a. die beiden Teilgebiete Wahrscheinlichkeitstheorie und Statistik
und kann kurz und prägnant als Mathematik des Zufalls bezeichnet werden. Als
Gebiet der Mathematik ist die Stochastik relativ jung.
6.1
Kombinatorik
Ziel der Wahrscheinlichkeitstheorie ist die Analyse der Gesetzmäßigkeiten, die bei
der Beschreibung sog. „Zufallsexperimente“ eine Rolle spielen. Darunter verstehen
wir Experimente, deren Ausgänge nicht vorherbestimmt (bzw. deterministisch) sind.
Die Experimente sollten unter den gleichen Bedingungen wiederholbar sein, und
zwar so, dass der Versuchsausgang bei unabhängig angestellten Wiederholungen
nicht unbedingt der gleiche sein muss. Beispiele sind Würfelexperimente, das Ziehen von Losen oder das Austeilen von Spielkarten, aber auch Geburten (Junge oder
Mädchen), Unfallstatistiken oder die Anzahl der Ausschläge eines Geigerzählers gehören dazu. Dagegen ist die Frage, wie „wahrscheinlich“ es ist, dass einmal Leben
auf dem Mars existiert hat, von ganz anderer Art, da die Antwort deterministisch
fest steht, obwohl wir sie nicht kennen.
Wir führen zunächst einige Begriffe und Notationen ein.
Definition 6.1. Die möglichen Versuchsausgänge ω eines Zufallsexperiments werden Ergebnisse genannt. Die Menge aller Ergebnisse eines Zufallsexperiments heißt
Ergebnismenge und wird mit Ω bezeichnet. Eine Teilmenge A ⊂ Ω der Ergebnismenge heißt Ereignis.
In der Kombinatorik zählt man nun ab, wie viele Ergebnisse ein Ereignis enthält. Oft
können wir solche Abzählprobleme auf Formeln zurückführen, die wir am Beispiel
44
6 STOCHASTIK IM ALLTAG
von mehrfachen Ziehungen aus einer Urne kennenlernen wollen. In einer Urne seien
N Kugeln, die wir uns mit 1, 2, . . . , N durchnummeriert vorstellen. Es werden n
Kugeln gezogen. Es gibt nun vier verschiedene Ergebnismengen – je nachdem, ob
man die gezogenen Kugeln wieder zurücklegt, und je nachdem, ob die Reihenfolge
der Ziehungen berücksichtigt wird.
I. Stichprobe in Reihenfolge mit Zurücklegen: Als Ergebnisraum kann
ΩI = {ω = (ω1 , . . . , ωn ) : wi ∈ {1, . . . , N } für i = 1, . . . , n} = {1, . . . , N }n
gewählt werden. Die Menge enthält offenbar N n Elemente.
II. Stichprobe in Reihenfolge ohne Zurücklegen: Hier ist zu beachten, dass
man nicht mehr Kugeln ziehen kann als in der Urne enthalten sind. Es muss also
n ≤ N gelten. Als Ergebnisraum dient
ΩII = {ω = (ω1 , . . . , ωn ) : ωi ∈ {1, . . . , N }, i = 1, . . . , n, ωi 6= ωj für i 6= j}.
Beim ersten Zug enthält die Urne N Kugeln, danach nur noch N − 1 usw. Vor dem
n-ten Zug sind nur noch N − n + 1 Kugeln in der Urne. Mit vollständiger Induktion
kann man zeigen, dass ΩII folglich aus N ·(N −1) · · · (N −n+1) Ergebnissen besteht.
Oft kürzt man dies auch ab durch
(N )n = N · (N − 1) · · · (N − n + 1).
Ist speziell n = N , dann sind am Schluss alle Kugeln gezogen und ΩII ist gerade
die Menge aller Permutationen (Vertauschungen) von {1, . . . , N }. Durch unsere Überlegungen haben wir herausgefunden, dass es (N )N = N · (N − 1) · · · 2 · 1
Permutationen der Menge {1, . . . , N } gibt. Man schreibt auch kurz N ! = 1 · 2 · · · N .
III. Stichprobe ohne Reihenfolge ohne Zurücklegen: Jede solche Stichprobe
kann durch Angabe der Kugelnummern beschrieben werden. Der zugehörige Ergebnisraum ΩIII ist demnach gerade die Menge aller Teilmengen aus {1, . . . , N } mit n
Elementen, also
ΩIII = {{ω1 , . . . , ωn } : ωi ∈ {1, . . . , N }, ωi 6= ωj für i 6= j}.
Manchmal verwendet man auch die Darstellung
ΩIII = {(ω1 , . . . , ωn ) ∈ {1, . . . , N }n : ω1 < ω2 < . . . < ωn }.
Für ein durch Ziehen ohne Zurücklegen gemäß II. erhaltenes n-Tupel gibt es n!
Permutationen, die hier aber alle das gleiche Ergebnis beschreiben. Die Anzahl der
Ergebnisse in ΩIII ist also
N!
(N )n
=
.
n!
n!(N − n)!
Hierfür schreiben wir Nn , gelesen „N über n“, und nennen einen derartigen Ausdruck
Binomialkoeffizient.
IV. Stichprobe ohne Reihenfolge mit Zurücklegen: Wenn wir bei einer Ziehung mit Zurücklegen die erhaltenen Kugelnummern der Größe nach ordnen, wird
6.1 Kombinatorik
45
die Reihenfolge der Ziehung irrelevant. Wir sehen also, dass der Ergebnisraum beschreiben lässt durch
ΩIV = {(ω1 , . . . , ωn ) ∈ {1, . . . , N }n : ω1 ≤ ω2 ≤ . . . ≤ ωn }.
Um die Anzahl der Elemente zu bestimmen, definieren wir eine Funktion, die einem
Tupel ω = (ω1 , . . . , ωn ) ∈ ΩIV das Tupel ω 0 = (ω10 , . . . , ωn0 ) mit ωi0 = ωi + i − 1
zuordnet. Da nun die Komponenten ωi0 ∈ {1, 2, . . . , N + n − 1} verschieden sind, ist
ω 0 ∈ Ω0III = {(ω10 , . . . , ωn0 ) ∈ {1, 2, . . . , N + n − 1}n : ω10 < . . . < ωn }.
Zwei verschiedenen Tupeln ω und τ werden verschiedene Tupel ω 0 und τ 0 zugeordnet.
Zudem gibt es zu jedem τ 0 ∈ Ω0III ein τ ∈ ΩIV , das auf τ 0 abgebildet wird. Die Menge
ΩIV enthält also genauso viele Elemente wie Ω0III . Nach III. besitzt letztere Menge
jedoch
N +n−1
n
Elemente.
Durch eine alternative Interpretation zeigt sich, dass wir vier weitere Abzählprobleme mitgelöst haben. Wenn wir n Murmeln auf N Fächer verteilen wollen, hängt die
Anzahl der möglichen Ergebnisse davon ab, ob die Murmeln unterscheidbar sind und
ob in ein Fach auch mehrere Murmeln gelegt werden dürfen. Indem wir die Nummer
der Murmel als Nummer der Ziehung einer Kugel aus einer Urne und die Nummer
des Faches als Nummer der Kugel, die gezogen wird, interpretieren, haben wir das
Problem auf die soeben behandelten Urnenmodelle zurückgeführt. Durch Angabe
der Anzahl der günstigen Ergebnisse wird auch das folgende Problem gelöst.
Beispiel 6.1. Der Fürst der Toskana schrieb damals an Galileo Galilei, warum beim
Wurf dreier Würfel die Augensumme 10 häufiger als die Augensumme 9 auftritt,
obwohl beide Summen auf genau 5 Arten gewürfelt werden können, nämlich
9 = 1+2+6=1+3+5=1+4+4=2+2+5=2+3+4=3+3+3
10 = 1 + 3 + 6 = 1 + 4 + 5 = 2 + 2 + 6 = 2 + 3 + 5 = 2 + 4 + 4 = 3 + 3 + 4
Wir überlegen jeweils, wie viele mögliche Realisationen es gibt. Dazu nehmen wir
an, dass die drei Würfel unterscheidbar sind (z.B. durch unterschiedliche Färbung).
Das Wurfergebnis 1 + 2 + 6 kann dann auf 3! mögliche Arten realisiert werden:
(1, 2, 6), (1, 6, 2), (2, 1, 6), (6, 1, 2), (2, 6, 1), (6, 2, 1). Dies entspricht dem Problem, drei
Murmeln mit den Nummern 1, 2 und 3 auf die drei möglichen Fächer 1, 2 und 6
zu verteilen bzw. Kugeln mit den Wurfergebnissen ohne Zurücklegen unter Beachtung der Reihenfolge aus einer Urne zu ziehen. Das gleiche Ergebnis erhält man für
alle anderen Wurfergebnisse mit drei verschiedenen Augen. Zeigen zwei Würfel den
gleichen Wert, so gibt es nur drei mögliche Realisationen, für 1 + 4 + 4 sind das
beispielsweise (1, 4, 4), (4, 1, 4), (4, 4, 1). Dies entspricht dem Problem, drei Murmeln
mit den Nummern 1, 2 und 3 auf die Fächer 1 und 4 zu verteilen, wobei zwei Murmeln in das Fach 4 gelegt werden müssen. Für das Ergebnis 3+3+3 gibt es hingegen
nur eine einzige Realisation (3, 3, 3). Insgesamt kann die Augensumme 9 also auf 25
Arten und die Augensumme 10 auf 27 Arten erzielt werden. Die Augensumme 10
kommt also in der Tat häufiger vor als die Augensumme 9.
46
6 STOCHASTIK IM ALLTAG
Auch kann die Kombinatorik zum Beweis gewisser Aussagen herangezogen werden.
Wir wollen hier exemplarisch den Binomischen Satz beweisen:
Satz 6.1. Für x, y ∈ R und n ∈ N gilt
n X
n k n−k
(x + y) =
x y .
k
k=0
n
Beweis. Schreibt man (x + y)n = (x1 + y1 )(x2 + y2 ) · · · (xn + yn ) mit xi = x und
yi = y, so tritt das Glied xk y n−k beim Ausmultiplizieren immer dann auf, wenn in
k Klammern
der Faktor xi und in n − k Klammern der Faktor yi gewählt wird, also
n
in k Fällen.
Eine weitere mögliche Anwendung der Urnenmodelle aus der statistischen Physik
zeigt das folgende Beispiel auf.
Beispiel 6.2. In der statistischen Physik sieht man von der Beschreibung der Bewegung von Teilchen nach den Gesetzen der newtonschen Mechanik ab. Die Teilchenzahlen sind einfach zu groß, als dass man die zugehörigen Gleichungen lösen
könnte. Stattdessen macht man einen stochastischen Ansatz. Für jedes Teilchen
wird der Zustand in jedem Zeitpunkt durch die drei Ortskoordinaten und die drei
Geschwindigkeitskoordinaten beschrieben. Für ein abgeschlossenes System können
wir annehmen, dass die Menge der möglichen Zustände, der Phasenraum, eine beschränkte Teilmenge des R6 ist. Man teilt ihn in Zellen genannte gleich große 6dimensionale Quader, die so klein sind, dass die interessierenden Größen, etwa die
Energie, innerhalb jeder Zelle als konstant angesehen werden können. Es gebe insgesamt N Zellen. Sind n Teilchen vorhanden, so sei der Mikrozustand des Systems
das n-Tupel ω = (ω1 , . . . , ωn ), in dem ωi die Nummer der Zelle angibt, in der sich
das i-te Teilchen gerade aufhält. Nun gibt es drei verschiedene Herangehensweisen:
Maxwell-Boltzmann-Statistik: Können beliebig viele der Teilchen in jeder Zelle auftreten und sind die Teilchen unterscheidbar, so ist ΩI = {1, . . . , N }n die Menge
der möglichen Mikrozustände. Betrachtet man jedes Element aus ΩI als gleichwahrscheinlich, so spricht man von der Maxwell-Boltzmann-Statistik (zum Begriff der
Wahrscheinlichkeit vgl. auch den folgenden Abschnitt).
Fermi-Dirac-Statistik: Für Elementarteilchen stimmen die Resultate, die man aus
der Annahme der Gleichverteilung auf ΩI ableiten kann, nicht mit den Beobachtungen überein. Für Elementarteilchen mit halbzahligem Spin, sog. Fermionen, zu
denen die Elektronen, Protonen und Neutronen gehören, kommt man aber mit einer
Gleichverteilung auf ΩII = {ω ∈ ΩI : ωi 6= ωj ∀i 6= j} zu guten Übereinstimmungen.
Diese Annahme lässt sich dann so interpretieren, dass für Fermionen das so genannte Pauli-Verbot gilt: Es ist verboten, dass sich in einer Zelle zugleich zwei Teilchen
aufhalten.
Statt ΩII können wir ebenso gut ΩIII benutzen, denn jedes ω ∈ ΩIII lässt sich auf
n! Arten permutieren, ohne dass sich etwas an den Besetzungszahlen ändert. Benutzt man ΩIII als Ergebnisraum, so ist ein „Mikrozustand“ ω ∈ ΩIII beschreibbar,
indem man angibt, welche der N Zellen eines der Teilchen enthalten. Die übliche
Sprechweise ist dann „Zustand“ statt Zelle und „besetzter Zustand“ für eine Zelle,
die ein Teilchen enthält. In dem Fall gibt es Nn Mikrozustände.
Bose-Einstein-Statistik: Für Bosonen, d.h. Elementarteilchen mit ganzzahligem Spin,
6.2 Einfache Wahrscheinlichkeiten
47
zu denen Photonen und Mesonen gehören, kommt man zu Ergebnissen in Übereinstimmung mit physikalischen Beobachtungen, wenn man die Gleichverteilung auf
ΩIV annimmt.
6.2
Einfache Wahrscheinlichkeiten
Definition 6.2. Sei Ω ein Ergebnisraum. Eine Funktion P , die jeder Menge A
einer geeigneten Familie A von Ereignissen einen Wert aus [0, 1] zuordnet und die
Eigenschaften
(N) P (Ω) = 1
(A) Für paarweise disjunkte Ereignisse A1 , A2 , . . . ∈ A gilt:
P
∞
[
Ai = P (A1 ∪ A2 ∪ . . .) = P (A1 ) + P (A2 ) + · · · =
i=1
∞
X
P (Ai ).
i=1
besitzt, heißt Verteilung. Dabei bedeutet paarweise disjunkt, dass Ai ∩ Aj = ∅ für
i 6= j. Der Wert P (A) heißt Wahrscheinlichkeit von A.
Die Formulierung „geeignet“ in Definition 6.2 ist etwas schwammig. Für diskrete
Ergebnisräume (wie wir sie hier betrachten) enthält A alle Teilmengen von Ω. In
anderen Fällen wäre diese Familie zu groß, genauer wollen wir darauf hier aber nicht
eingehen.
Eigenschaft (N) besagt, dass die Verteilung normiert ist. Eigenschaft (A) wird auch
als σ-Additivität bezeichnet. Die Eigenschaften (N) und (A) sowie die Nichtnegativität der Funktion P gehen auf Andrej Kolmogorov zurück und werden ihm zu
Ehren auch Kolmogorovsche Axiome genannt.
Bezeichne |Ω| die Anzahl der Elemente der endlichen Menge Ω. Sind die Ergebnisse
ω einer endlichen Ergebnismenge Ω alle gleich wahrscheinlich, so besitzen sie folglich
1
.
alle die Wahrscheinlichkeit |Ω|
Definition 6.3. Ein Zufallsexperiment mit endlich vielen, gleichwahrscheinlichen
Ergebnissen heißt Laplace-Experiment. Bezeichnet |Ω| die Anzahl der Elemente
von Ω, so ist in diesem Fall
1
P ({ω}) =
|Ω|
für alle ω ∈ Ω. Ein Ereignis A ⊂ Ω besitzt dann die Laplace-Wahrscheinlichkeit
P (A) =
|A|
.
|Ω|
Letztere Formel lässt sich gut merken in der Form
P (A) =
Anzahl der für A günstigen Ergebnisse
.
Anzahl aller möglichen Ergebnisse
Beispiel 6.3 (Fortsetzung von Beispiel 6.1). Bei einem Wurf dreier Würfeln erhalten
wir gemäß der gerade eingeführten Formel die Augensumme 9 mit Wahrscheinlich25
27
keit 25
= 216
und die Augensumme 10 mit Wahrscheinlichkeit 216
.
63
48
6 STOCHASTIK IM ALLTAG
Das Beispiel zeigt, dass man manchmal, obwohl die Würfel möglicherweise ununterscheidbar sind, sie zumindest gedanklich unterscheiden muss. Ein weiteres interessantes Beispiel ist das Problem der Geburtstagszwillinge.
Beispiel 6.4. Gesucht ist die Wahrscheinlichkeit p, dass mindestens zwei von n Personen am gleichen Tag Geburtstag haben. Wir berechnen p speziell für n = 25, also
z.B. die Schüler einer Klasse, und gehen von 365 Tagen (also ohne Schaltjahr) aus.
Als Ergebnisraum fungiert ΩI mit n = 25 und N = 365. Das Ergebnis (ω1 , . . . , ω25 )
bedeutet, dass Person 1 am ω1 -ten Tag des Jahres Geburtstag hat, Person 2 am
ω2 -ten Tag usw. ΩII gibt dann das Ereignis an, dass alle Personen an verschiedenen
Tagen Geburtstag haben. Gemäß Definition 6.3 berechnen wir
P (ΩII ) =
(N )n
n − 1
1
|ΩII |
=
·
·
·
1
−
.
=
1
·
1
−
|ΩI |
Nn
N
N
Wir begnügen uns mit einer Approximation. Ist k 3 viel kleiner als N 2 , so ist 1 − Nk ≈
e−k/N . Also gilt (mit Hilfe von Beispiel 1.4)
P (ΩII ) ≈ e−
Pn−1
k
k=1 N
= e−
n(n−1)
2N
600
= e− 730 ≈ 0, 44.
Wir sind jedoch an dem komplementären Ereignis interessiert. Hierfür gilt
p=
|ΩI \ΩII |
N n − (N )n
=
= 1 − P (ΩII ) ≈ 0, 56.
|ΩI |
Nn
Ohne die Approximation ergäbe sich p = 0, 568. Erstaunlicherweise ist es selbst bei
der recht geringen Gruppengröße von 25 schon ziemlich wahrscheinlich, mindestens
zwei Personen zu finden, die am gleichen Tag Geburtstag haben.
Mit den gleichen Methoden lässt sich auch folgende Zeitungsmeldung vom 29.06.1995
relativieren:
Stuttgart (dpa/lsw). Die Staatliche Toto-Lotto GmbH in Stuttgart hat
eine Lottosensation gemeldet: Zum ersten Mal in der 40jährigen Geschichte des deutschen Zahlenlottos wurden zwei identische Gewinnreihen festgestellt. Am 21. Juni dieses Jahres kam im Lotto am Mittwoch
in der Ziehung A die Gewinnreihe 15-25-27-30-42-48 heraus. Genau die
selben Zahlen wurden bei der 1628. Ausspielung im Samstagslotto schon
einmal gezogen, nämlich am 20. Dezember 1986. Welch ein Lottozufall:
Unter den 49 Zahlen sind fast 14 Millionen verschiedene Sechserreihen
möglich.
Zur wahrscheinlichkeitstheoretischen Bewertung dieser „Sensation“ setzen wir
49
n=
= 13 983 816
6
und denken uns alle Gewinnreihen durchnummeriert. In dieser Deutung können wir
uns die Ermittlung der Gewinnreihe als rein zufälliges Besetzen eines von insgesamt
n verschiedenen Fächern vorstellen. Wie gehabt berechnen wir mittels kombinatorischer Argumente die Wahrscheinlichkeit des komplementären Ereignisses. Als Ergebnis erhalten wir für den konkreten Fall eine Wahrscheinlichkeit von etwa 0,2775.
6.2 Einfache Wahrscheinlichkeiten
49
Dieses als „Sensation“ angepriesene Ereignis ist also fast so wahrscheinlich wie beim
Werfen zweier Würfel eine Augensumme von höchstens 5 zu erhalten (Wahrscheinlichkeit 10
≈ 0, 2777). Weitere Rechnungen zeigen, dass bereits bei 4500 Ziehungen
36
die Wahrscheinlichkeit für eine Wiederholung größer als 0,5 ist. Dies mag angesichts
der knapp 14 Millionen möglichen Tippreihen überraschend erscheinen, liegt aber
darin begründet, dass wir auf irgendeine (und nicht auf eine bestimmte) Wiederholung warten.
Wenn wir schon beim Lotto sind, interessieren wir uns natürlich auch für die verschiedenen Gewinnwahrscheinlichkeiten.
Beispiel 6.5. Es werden n = 6 Kugeln aus N = 49 Kugeln ohne Zurücklegen gezogen. Notieren wir die Kugeln in der Reihenfolge der Ziehungen, so ist ΩII die
Ergebnismenge; notiert man nur die Teilmenge der gezogenen Kugeln, so muss man
mit ΩIII arbeiten. Im Gegensatz zu Beispiel 6.3 führen nun beide Herangehensweisen
zum gleichen Ergebnis, wenn man die Ergebnisse als gleichwahrscheinlich annimmt.
Für Ereignisse der Form „die dritte gezogene Kugel ist eine 5“ muss man ΩII verwenden, da diese Ereignisse in ΩIII nicht definiert sind. Interessiert man sich jedoch
für Ereignisse „unter den 6 geratenen Zahlen {2, 11, 17, 32, 40, 48} sind mindestens
drei Richtige“, so hat man die freie Wahl zwischen ΩII und ΩIII . Wir wollen ΩIII
benutzen. Die Wahrscheinlichkeit jedes Ergebnisses ist dann
P ({ω}) =
1
=
49
6
1
≈ 7, 1511 · 10−8 .
13983816
Dies ist auch die Wahrscheinlichkeit p6 für „6 Richtige“. Wir wollen nun die Wahrscheinlichkeit p4 für „genau 4 Richtige“ bestimmen. Sei ω̄ = {ω̄1 , . . . , ω̄6 } die Menge
der geratenen Zahlen. Dann lässt sich das Ereignis „genau 4 Richtige“ in ΩIII beschreiben durch
A4 = {ω ∈ ΩIII : |ω̄ ∩ ω| = 4}.
Wir können eine zu A4 gehörige Menge ω von Kugeln dadurch beschreiben, dass
wir zuerst 4 Kugeln von ω̄ und dann 2 Kugeln von {1, 2, . . ., 49}\ω̄ festlegen. Da ω̄
aus 6 Kugelnummern
besteht, gibt es für die erste Wahl 64 Möglichkeiten, für die
zweite gibt es 43
Möglichkeiten. Jede Wahl der 4 Kugeln aus ω̄ lässt sich mit jeder
2
Wahl von 2 Kugeln
aus
{1, . . . , 49}\ω̄ zu einem Element ω ∈ A4 zusammensetzen.
6
43
Also ist |A4 | = 4 · 2 und
43
6
· 2
4
.
p4 = P (A4 ) =
49
6
Ebenso bestimmt man z.B. die Wahrscheinlichkeit p5 für 5 Richtige. Die Wahrscheinlichkeit für mindestens 4 Richtige wäre p6 + p5 + p4 .
Mit dem Lottospiel haben wir einen Spezialfall einer weiteren Verteilung kennen
gelernt, die auch in vielen anderen Situationen auftritt. Um eine allgemeine Formel abzuleiten, betrachten wir eine Urne, welche S schwarze und W weiße Kugeln
enthält, insgesamt also N = S + W Kugeln. Es werden n ≤ S + W Kugeln ohne Zurücklegen gezogen. Die Wahrscheinlichkeit dafür, dass die Stichprobe genau s
schwarze und n − s = w weiße Kugeln enthält, ist
S W
s
w
S+W
n
,
0 ≤ s ≤ n.
50
6 STOCHASTIK IM ALLTAG
Dies begründet man wie im vorangegangenen Beispiel. Die hier angegebene Verteilung heißt auch hypergeometrische Verteilung. Sie besitzt die Parameter n, S
und W .
In vielen Anwendungen sind Experimente von Bedeutung, die nur zwei mögliche
Ausgänge besitzen. Ein derartiges Experiment heißt Bernoulli-Experiment. Beispiele sind der Münzwurf (Ausgänge „Kopf“ oder „Zahl“), Glücksspiele (Ausgänge
„Erfolg“ oder „Misserfolg“) oder das Warten auf ein bestimmtes Ereignis (das Ereignis tritt ein oder nicht). Formal bezeichnen wir die beiden möglichen Ausgänge
mit 0 und 1, der Ergebnisraum ist also Ω = {0, 1}. Die beiden Ausgänge müssen
nicht gleichwahrscheinlich sein, vielmehr tritt 1 mit einer Wahrscheinlichkeit p ein
und 0 mit der komplementären Wahrscheinlichkeit 1 − p. Da traditionell 1 als „Erfolg“ interpretiert wird, bezeichnet man p auch als Erfolgswahrscheinlichkeit.
Ein derartiges Experiment kann man auch n-mal hintereinander durchführen. Als
Ergebnismenge dient dann
Ω = {0, 1}n = {(ω1 , . . . , ωn ) : ωi ∈ {0, 1}, 1 ≤ i ≤ n}.
Einem n-Tupel (ω1 , . . . , ωn ) mit k Einsen ordnet man die Wahrscheinlichkeit P ({ω}) =
pk (1 − p)n−k zu. Wenn man nun nach der Wahrscheinlichkeit
fragt, dass insgesamt
k Einsen auftreten, gibt es nach dem letzten Abschnitt nk Möglichkeiten, die Zeitpunkte {1, . . . , n} festzulegen, an denen eine 1 auftritt. Das Ereignis „Es treten k
Erfolge auf.“ hat also die Wahrscheinlichkeit
n k
P (genau k Erfolge) =
p (1 − p)n−k .
k
Dies definiert eine Verteilung auf {0, 1, . . . , n}, die sog. Binomial-Verteilung.
Beispiel 6.6. Wir werfen einen Würfel zehnmal hintereinander und fassen eine sechs
als Erfolg auf, die Erfolgswahrscheinlichkeit ist also 61 . Die Wahrscheinlichkeit, in
1 3 5 7
zehn Würfen drei Sechsen zu werfen, ist dann 10
.
3
6
6
Wir betrachten nun wieder n hintereinander ausgeführte Bernoulli-Experimente mit
Erfolgswahrscheinlichkeit p. Eine interessante Frage ist dann, wie groß die Wahrscheinlichkeit dafür ist, dass der erste Erfolg im k-ten Versuch (k ≤ n) eintritt. Das
Ereignis tritt genau dann ein, wenn dem Erfolg im k-ten Experiment k −1 Misserfolge vorausgehen. Die Wahrscheinlichkeit für ein solches Ereignis beträgt p(1 − p)k−1 .
Wenn das Experiment auch beliebig oft wiederholt werden darf, wird durch
p(1 − p)k−1 ,
k∈N
eine Verteilung auf N definiert. Diese Verteilung heißt geometrische Verteilung.
In den bisher betrachteten mehrstufigen Experimenten haben wir ein BernoulliExperiment n-mal wiederholt. Allgemeiner können auch verschiedene Experimente
hintereinander durchgeführt werden. Besteht das Experiment aus n Stufen, so lassen
sich seine Ergebnisse als ω = (ω1 , . . . , ωn ) darstellen, wobei ωj den Ausgang des j-ten
Teilexperiments angibt. Bezeichnet Ωj die Ergebnismenge des j-ten Teilexperiments,
so ist
Ω = Ω1 × · · · × Ωn = {(ω1 , . . . , ωn ) : ωj ∈ Ωj für j = 1, . . . , n}
6.2 Einfache Wahrscheinlichkeiten
51
eine geeignete Ergebnismenge des Gesamtexperiments. Wir nehmen an, dass die Ωj
nur jeweils endlich viele Ergebnisse enthalten. Dann können wir durch Angabe aller
Wahrscheinlichkeiten P ({ω}) eine Verteilung auf Ω definieren. Dazu geben wir zunächst
P für alle ω1 ∈ Ω1 eine Startverteilung in Form von Wahrscheinlichkeiten p1 (ω1 )
mit ω1 ∈Ω1 p1 (ω1 ) = 1 vor. Zu jedem Ausgang ω1 des ersten Teilexperiments geben
wir anschließend ein SystemPvon Übergangswahrscheinlichkeiten p2 (ω2 |ω1 ), ω2 ∈ Ω2 ,
vor. Für jedes ω1 ∈ Ω1 gilt ω2 ∈Ω2 p2 (ω2 |ω1 ) = 1.
Die Modellierung des Übergangs zum dritten Teilexperiment erfolgt dann mit Hilfe
eines von den Ergebnissen (ω1 , ω2 ) ∈ Ω1 × Ω2 der beiden ersten Teilexperimente
abhängenden
Systems p3 (ω3 |ω1 , ω2 ), ω3 ∈ Ω3 , von Übergangswahrscheinlichkeiten
P
mit
ω3 ∈Ω3 p3 (ω3 |ω1 , ω2 ) = 1 für jede Wahl von ω1 ∈ Ω1 und ω2 ∈ Ω2 . Allgemein benötigen wir zur Modellierung des Übergangs vom (j − 1)-ten zum j-ten
Teilexperiment (j = 2, 3, . . . , n) für jede Wahl von ω1 ∈ Ω1 , . . . , ωj−1 ∈ Ωj−1
ein
P System pj (ωj |ω1 , . . . , ωj−1 ), ωj ∈ Ωj , von Übergangswahrscheinlichkeiten mit
ωj ∈Ωj pj (ωj |ω1 , . . . , ωj−1 ) = 1. Für ein ω ∈ Ω1 × . . . × Ωn legen wir dann eine
Wahrscheinlichkeit p(ω) fest durch
p(ω) = p1 (ω1 ) · p2 (ω2 |ω1 ) · p3 (ω3 |ω1 , ω2 ) · · · pn (ωn |ω1 , . . . , ωn−1 ).
Proposition 6.2. Durch
P (A) =
X
p(ω) ,
A ⊂ Ω,
ω∈A
wird eine Verteilung auf Ω definiert.
Beweis. Die Eigenschaft P (A) ≥ 0 ist klar, da alle p(ω) nichtnegativ sind. Die
Normiertheit zeigen wir mittels sog. endlicher Induktion nach der Anzahl k der
betrachteten Teilexperimente:
k = 1: Dieser Fall ist klar nach Definition von p.
k → k + 1 ≤ n: Als Induktionsannahme setzen wir voraus, dass wir die Behauptung
für die auf Ω1 × . . . × Ωk definierten Wahrscheinlichkeiten
p(k) (ω1 , . . . , ωk ) = p1 (ω1 ) · p2 (ω2 |ω1 ) · · · pk (ωk |ω1 , . . . , ωk−1 )
bewiesen haben. Dann folgt
X
X
···
p(k+1) (ω1 , . . . , ωk+1 )
ω1 ∈Ω1
=
X
ωk+1 ∈Ωk+1
···
ω1 ∈Ω1
=
=
X
X
p(k) (ω1 , . . . , ωk ) · pk+1 (ωk+1 |ω1 , . . . , ωk )
ωk ∈Ωk ωk+1 ∈Ωk+1
···
X
ω1 ∈Ω1
ωk ∈Ωk
X
X
ω1 ∈Ω1
X
···
p(k) (ω1 , . . . , ωk )
X
pk+1 (ωk+1 |ω1 , . . . , ωk )
ωk+1 ∈Ωk+1
I.V.
p(k) (ω1 , . . . , ωk ) · 1 = 1.
ωk ∈Ωk
Durch
den Schritt n − 1 → n erhalten wir schließlich wie gewünscht P (Ω) =
P
ω∈Ω p(ω) = 1.
52
6 STOCHASTIK IM ALLTAG
Die σ-Additivität (A) ergibt sich direkt aus
S der Definition: Seien A1 , A2 , . . . paarweise disjunkte Ereignisse. Dann ist ω ∈ ∞
j=1 Aj genau dann, wenn es genau ein
j0 ∈ N gibt, so dass ω ∈ Aj0 . Daher gilt
P
∞
[
X
Aj =
j=1
ω∈
S∞
j=1
p(ω) =
∞ X
X
p(ω) =
j=1 ω∈Aj
Aj
∞
X
P (Aj ).
j=1
Die Situation können wir mittels eines Baumdiagramms veranschaulichen, der Übersichtlichkeit halber hier nur für n = 3 und Ω1 = Ω2 = Ω3 = {1, 2, 3}:
Start
p1 (2)
2
p1 (1)
p2 (1|1)
1
1
2
p2 (3|1)
3
1
2
1 2 3 1 2 3 1 2 3 1 2 3 1 2 3
p1 (3)
p2 (3|2)
p3 (1|2, 3)
3
p2 (1|3)
1
3
2
p2 (3|3)
3
1 2 3 1 2 3 1 2 3 1 2 3
In diesem Diagramm stehen an den von den vom Startpunkt ausgehenden Linien
die Wahrscheinlichkeiten für die mit dem Startpunkt durch die Linien verbundenen
Ergebnisse der ersten Stufe. Diese sind wiederum mit den möglichen Ergebnissen
der zweiten Stufe verbunden usw. Aus Platzgründen sind nicht alle Übergangswahrscheinlichkeiten aufgeführt. Man beachte, dass jedem Ergebnis des Gesamtexperiments ein vom Startpunkt ausgehender und entlang der Linien verlaufender Pfad im
Baumdiagramm entspricht. In obigem Diagramm ist ein solcher Pfad rot hervorgehoben. Deuten wir ω als einen Pfad im Baumdiagramm – für den rot hervorgehobenen
Pfad wäre ω beispielsweise gleich (2, 3, 1) – so besagt die Definition von p(ω), dass die
Wahrscheinlichkeit dieses Pfades gleich dem Produkt der an den Linien des Pfades
stehenden Übergangswahrscheinlichkeiten ist. Dem roten Pfad ordnen wir also die
Wahrscheinlichkeit p1 (2) · p2 (3|2) · p3 (1|2, 3) zu. Die Wahrscheinlichkeit eines Ereignisses A berechnet sich gemäß Proposition 6.2 als Summe der Wahrscheinlichkeiten
aller zu A gehörenden Pfade. Wir wollen uns dies an einem Beispiel verdeutlichen,
das zu intensiven Diskussionen geführt hat:
Beispiel 6.7 (Ziegenproblem). In der amerikanischen Spielshow „Let’s make a deal“
(im deutschen Fernsehen als „Geh aufs Ganze!“ adaptiert) ist als Hauptpreis ein Auto ausgesetzt. Hierzu sind auf der Bühne drei verschlossene Türen aufgebaut. Hinter
einer rein zufällig ausgewählten Tür befindet sich der Hauptpreis, hinter den beiden anderen jeweils eine Ziege. Der Kandidat wählt eine der Türen, beispielsweise
Tür 1, aus; diese bleibt aber vorerst verschlossen. Der Spielleiter, der weiß, hinter
welcher Tür das Auto steht, öffnet daraufhin eine der beiden anderen Türen, z.B.
Tür 3, und eine Ziege schaut ins Publikum. Der Kandidat hat nun die Möglichkeit,
bei seiner ursprünglichen Wahl zu bleiben oder die andere verschlossene Tür (in
unserem Beispiel Tür 2) zu wählen. Er erhält dann den Preis der von ihm zuletzt
gewählten Tür. Stochastisch gesehen, ist es vorteilhafter, sich umzuentscheiden, da
6.3 Statistische Fragestellungen
53
einer Gewinnwahrscheinlichkeit von 13 bei Beibehaltung seiner Wahl eine Gewinnwahrscheinlichkeit von 23 bei einem Wechsel gegenübersteht. Am einleuchtendsten
erklärt man dies wie folgt: Der Standhafte gewinnt nur dann den Hauptgewinn, wenn
sich dieser hinter der ursprünglich gewählten Tür befindet. Die Wahrscheinlichkeit
hierfür ist 13 . Ein Wechsler hingegen gewinnt das Auto genau dann, wenn er zuerst
auf eine der beiden „Ziegentüren“ zeigt (die Wahrscheinlichkeit hierfür ist 23 ), denn
nach dem Öffnen der anderen Ziegentür durch den Moderator führt die WechselStrategie in diesem Fall automatisch zum Auto. Bei all diesen Betrachtungen gehen
wir natürlich davon aus, dass der Moderator den Standort des Autos geheimhalten
muss, aber auch verpflichtet ist, eine Ziegentür zu öffnen.
Das Ziegenproblem können wir formal mit Hilfe der soeben eingeführten mehrstufigen Zufallsexperimente modellieren. Ein geeigneter Ergebnisraum ist z.B. Ω =
Ω1 × Ω2 × Ω3 mit Ωj = {1, 2, 3} (j = 1, 2, 3). In ω = (ω1 , ω2 , ω3 ) bezeichnet ω1 die
Nummer der „Autotür“, ω2 die Nummer der vom Kandidaten gewählten Tür und ω3
die Nummer der vom Moderator geöffneten Tür. Das dazugehörige Baumdiagramm
hat die Form
Start
1
3
1
3
1
2
2
1
1
1
3
1
2
3
3
1
1
1
3
2
1
3
1
3
2
2
1
3
1
3
1
3
1
3
1
3
1
2
1
2
1
2
3
3
1
3
2
1
3
1
1
1
1
2
1
1
3
1
3
1
2
1
3
1
2
2
Hat der Kandidat die Gewinnertür gewählt, kann der Moderator zufällig eine der
beiden verbliebenen Ziegentüren öffnen. Hat der Kandidat hingegen eine Ziegentür
gewählt, so hat der Moderator keine Wahl, welche Tür er öffnet, da er weder die vom
Kandidaten gewählte Tür noch die Gewinnertür öffnen darf. Das Ereignis A =„Der
Kandidat gewinnt ohne Wechsel“ besteht aus den Pfaden (1, 1, 2), (1, 1, 3), (2, 2, 1),
(2, 2, 3), (3, 3, 1) und (3, 3, 2) und hat daher die Wahrscheinlichkeit
P (A) = 6 ·
1
1 1 1
· · = .
3 3 2
3
Das Ereignis B =„Der Kandidat gewinnt nach einem Wechsel“ besteht aus den
Pfaden (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2) sowie (3, 2, 1) und besitzt die
Wahrscheinlichkeit
1 1
2
P (B) = 6 · · · 1 = .
3 3
3
6.3
Statistische Fragestellungen
Die zentrale Aufgabe der Statistik besteht in der Entwicklung von Methoden, mit
denen man aus zufallsgesteuerten Beobachtungen auf die zugrunde liegenden Gesetzmäßigkeiten schließen kann. Die infrage kommenden Gesetzmäßigkeiten werden
durch eine Familie (Pϑ )ϑ∈Θ geeigneter Wahrscheinlichkeitsmaße beschrieben. Die Parametermenge Θ kann eine beliebige abstrakte Menge sein, in der Praxis ist Θ meist
eine Teilmenge von R, Rd oder N. Die möglichen Ergebnisse der Beobachtungen
54
6 STOCHASTIK IM ALLTAG
bilden eine Menge X , den Stichprobenraum. Anhand eines Beispiels wollen wir die
verschiedenen Herangehensweisen der Statistik motivieren und diskutieren.
Beispiel 6.8 (Qualitätskontrolle). Ein Orangenimporteur erhält eine Lieferung von
N = 10 000 Orangen. Natürlich möchte er wissen, wie viele von diesen faul sind. Um
Anhaltspunkte dafür zu bekommen, nimmt er eine Stichprobe von n = 50 Orangen.
Von diesen ist eine zufällige Anzahl x faul. Welche Rückschlüsse auf die wahre Anzahl w der faulen Orangen kann der Importeur dann ziehen? Die folgenden drei
Vorgehensweisen bieten sich an:
1. Naive Schätzung: Über den Daumen gepeilt wird man vermuten, dass der Anteil
der faulen Orangen in der Stichprobe in etwa dem Gesamtanteil der faulen Oranw
. Demzufolge wird der Importeur
gen in der Lieferung entspricht, dass also nx ≈ N
x
darauf tippen, dass ungefähr W (x) = N n Orangen faul sind, d.h. W (x) (oder genauer gesagt, die nächstgelegene ganze Zahl) ist ein aus dem Beobachtungsergebnis
x resultierender Schätzwert für w. Eine solche Abbildung W , die dem Beobachtungsergebnis x einen Schätzwert W (x) zuordnet, heißt ein Schätzer.
Der Schätzwert ist offensichtlich vom Zufall abhängig. Wenn der Importeur eine
zweite Stichprobe zieht, bekommt er im Allgemeinen ein anderes Ergebnis x0 , und
damit verändert sich auch der Schätzwert W (x0 ). Welchem Schätzwert soll er nun
mehr vertrauen?
2. Schätzung mit Fehlerangabe: Beim Beobachtungsergebnis x tippt man nicht auf
einen genauen Wert W (x), sondern gibt nur ein von x abhängiges Intervall C(x)
an, in dem der wahre Wert w mit hinreichender Sicherheit liegt. Da x vom Zufall
bestimmt wird, ist natürlich auch C(x) zufallsabhängig. Man möchte, dass es mit
goßer Wahrscheinlichkeit den wahren Wert w enthält. Dies bedeutet
Pw (x : C(x) 3 w) ≈ 1
für das wahre w und das richtige Wahrscheinlichkeitsmaß Pw . Nun entspricht die
Stichprobe des Orangenimporteurs offenbar dem Ziehen ohne Zurücklegen von n
Kugeln aus einer Urne mit w weißen und N − w schwarzen Kugeln; die Anzahl der
faulen Orangen in der Stichprobe ist daher hypergeometrisch verteilt. Der wahre
Wert w allerdings ist unbekannt; er soll ja erst aus der Stichprobe x ermittelt werden!
Die Eigenschaften von C(x) dürfen daher nicht von w abhängen. Dies führt zu der
Forderung, dass
Pw (x : C(x) 3 w) ≥ 1 − α
für alle w ∈ {0, . . . , N } und ein (kleines) α > 0. Solch ein vom Beobachtungswert x
abhängiges Intervall heißt ein Konfidenzintervall zum Irrtumsniveau α.
3. Entscheidungsfindung durch Test: Dem Orangenimporteur kommt es nicht nur
auf die reine Kenntnis von w an, sondern auch aufs Geld. Er hat z.B. einen Vertrag
mit dem Lieferanten, welcher besagt: Der vereinbarte Preis muss nur gezahlt werden,
wenn höchstens 5% der Orangen faul sind. Aufgrund der Stichprobe x muss er sich
entscheiden: Stimmt die Qualität oder nicht? Er hat die Wahl zwischen der Hypothese H0 : w ∈ {0, . . . , 500} und der Alternative H1 : w ∈ {501, . . . , 10 000} und braucht
dazu ein Entscheidungsverfahren, etwa der Art: Wenn x einen kritischen Wert c nicht
überschreitet, entscheidet man sich für die Hypothese, wird c überschritten, für die
Alternative. Dabei soll c so bestimmt werden, dass Pw (x : x > c) für w ≤ 500 klein
ist, und für w > 500 möglichst groß ist. Die erste Forderung bedeutet, dass ein für
den Importeur peinlicher Irrtum sehr unwahrscheinlich sein soll, und die zweite, dass
6.3 Statistische Fragestellungen
55
der Importeur zu seinem Recht kommt – er möchte ja unbedingt erkennen, wenn
die Qualität der Orangen nicht ausreichend ist. Eine Entscheidungsregel dieser Art
heißt Test.
Die zweite Methode werden wir hier nicht weiter beleuchten. Mit der Schätztheorie
und der Testtheorie werden wir uns hingegen etwas ausführlicher befassen.
6.3.1
Schätztheorie
Definition 6.4. Sei X ein Stichprobenraum, (Pϑ )ϑ∈Θ eine parametrische Familie von
Wahrscheinlichkeitsmaßen auf X und g : Θ → Γ eine Abbildung. Eine Abbildung
t : X → Γ heißt Schätzer für g(ϑ). Eine Realisierung t(x) heißt Schätzwert oder
Schätzung.
Wenn wir x beobachten, können wir in den bisher betrachteten Modellen die Wahrscheinlichkeit Lϑ (x) = Pϑ ({x}) berechnen, mit der dieses Ergebnis eintritt, wenn ϑ
der richtige Parameter ist. Wir definieren
Definition 6.5. Ist X ein Stichprobenraum und (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen mit Parametermenge Θ, so heißt die Funktion
L : X × Θ → [0, ∞[, (x, ϑ) 7→ L(x, ϑ) = Lϑ (x) = Pϑ ({x})
die zugehörige Likelihood-Funktion, und die Abbildung L(x, .) : Θ → [0, ∞[,
ϑ 7→ L(x, ϑ) heißt Likelihood-Funktion zum Beobachtungswert x.
Wir können dann argumentieren, dass ein ϑ mit sehr kleinem Lϑ (x) nicht der wahre
Parameter sein kann, denn sonst wäre unser Beobachtungsergebnis ein Ausnahmefall
gewesen. Viel plausibler ist es, auf ein ϑ zu tippen, bei dem unser x mit großer
Wahrscheinlichkeit eintritt.
Definition 6.6. Ein Schätzer T : X → Θ für ϑ heißt ein Maximum-LikelihoodSchätzer, wenn
L(x, T (x)) = max L(x, ϑ)
ϑ∈Θ
für jedes x ∈ X , d.h. wenn der Schätzwert T (x) eine Maximalstelle der Funktion
L(x, ·) auf Θ ist.
Beispiel 6.9 (Fortsetzung zu Beispiel 6.8). Im Beispiel des Orangenimporteurs war
X = {0, . . . , n}, Θ = {0, . . . , N } und Pϑ die hypergeometrische Verteilung mit
Parametern n, ϑ und N − ϑ. Wir berechnen den Maximum-Likelihood-Schätzer
T (x) für ϑ. Es gilt
Lϑ (x) = Pϑ ({x}) =
ϑ
x
N −ϑ
n−x
N
n
.
Für welches ϑ wird dies maximal? Für ϑ ∈ N gilt
ϑ N −ϑ
Lϑ (x)
ϑ(N − ϑ + 1 − n + x)
x
n−x
= ϑ−1 N −ϑ+1 =
.
Lϑ−1 (x)
(ϑ − x)(N − ϑ + 1)
x
n−x
Dieser Quotient ist genau dann mindestens 1, wenn ϑn ≤ (N + 1)x,also wenn
ϑ ≤ Nn+1 x. Die Funktion Lx wächst somit auf der Menge 0, . . . , Nn+1 x und fällt
für größere Werte von ϑ. Die eckige Klammer steht
N +1dabei
für den ganzzahligen Anteil
N +1
der Zahl n x. Im Fall x < n ist also T (x) = n x .
56
6 STOCHASTIK IM ALLTAG
Anstatt einer Anzahl können wir auch eine Erfolgswahrscheinlichkeit schätzen.
Beispiel 6.10 (Schätzung der Erfolgswahrscheinlichkeit). Ein Reißnagel kann auf die
Spitze oder den Rücken fallen, und zwar falle er auf die Spitze mit Wahrscheinlichkeit ϑ. Gesucht ist ein Schätzer für ϑ bei Beobachtung von n Würfen. Das gleiche
Problem tritt immer dann auf, wenn in (unabhängigen) Beobachtungen eine unbekannte Wahrscheinlichkeit ϑ für das Eintreten eines „Erfolgs“ bestimmt werden soll,
wie etwa die Heilwirkung eines Medikaments oder die Favorisierung eines Wahlkandidaten. Wir wählen X = {0, . . . , n}, Θ = [0, 1] und Pϑ als die Binomialverteilung
mit
x
n
n−x
Parametern n und ϑ. Die Likelihood-Funktion lautet dann Lϑ (x) = x ϑ (1 − ϑ) .
Anstatt diese Funktion in ϑ zu maximieren, suchen wir die Maximalstelle der Funktion ln(Lϑ (x)). Da der Logarithmus streng monoton wachsen ist, stimmen beide
Maximalstellen überein. Es gilt
d
x n−x
d
ln(Lϑ (x)) =
[x ln ϑ + (n − x) ln(1 − ϑ)] = −
.
dϑ
dϑ
ϑ 1−ϑ
Der letzte Ausdruck ist fallend in ϑ und verschwindet genau für ϑ = nx . Also ist
T (x) = nx der (einzige) Maximum-Likelihood-Schätzer für ϑ. Dieser Schätzer leuchtet
auch intuitiv ein: Als Schätzwert für die Erfolgswahrscheinlichkeit wählen wir die
relative Häufigkeit des Erfolges.
In den beiden vorangegangenen Beispielen wird deutlich, dass man je nach Parametermenge Θ das Maximum auf verschiedene Weise bestimmen kann/muss: Ist Θ eine
Teilmenge von N oder Z oder Lϑ (x) als Funktion von ϑ nicht differenzierbar, muss
man das Maximum mit Monotonieüberlegungen bestimmen, ist ϑ 7→ Lϑ (x) differenzierbar, so erhält man die Maximalstelle auch mittels des aus der Schule bekannten
Verfahrens zur Berechnung eines Extremums einer Funktion.
Maximum-Likelihood-Schätzer sind zwar in den meisten Fällen „gute“ Schätzer, jedoch gibt es auch Situationen, in denen man mit ihnen einen systematischen Fehler
macht.
Beispiel 6.11 (Taxiproblem). In einer großen Stadt gibt es N Taxis, die die Nummern
1, . . . , N tragen. Ein Passant steht an einer viel befahrenen Straße und beobachtet
die Nummern der n Taxis x1 , . . . , xn . Wiederholungen werden ignoriert. Nehmen
wir an, dass noch alle Taxis in Betrieb sind, so ist, X die Menge der n-elementigen
Teilmengen x = {x1 , . . . , xn } von {1, 2, 3, . . .}. Die Beobachtungen seien der Größe
nach sortiert, d.h. es gelte x1 < x2 < . . . < xn . Aus diesen Beobachtungen soll nun
N geschätzt werden.
Natürlich ist N ≥ xn . Wenn es N Taxis gibt, dann sind alle n-elementigen Teilmengen von {1, . . . , N } gleichwahrscheinlich, jeder Teilmenge x lässt sich also die Wahr−1
scheinlichkeit PN (x) = Nn
zuordnen. Die Wahrscheinlichkeit ist umso größer, je
kleiner N ist. Also ist T (x) = xn = max1≤i≤n xi der Maximum-Likelihood-Schätzer.
Aber besonders realistisch scheint die Schätzung nicht zu sein.
Mit heuristischen Argumenten wollen wir versuchen, einen Schätzer zu finden, der
nicht systematisch N unterschätzt. Aus Symmetriegründen müsste „im Durchschnitt“
von vielen Stichproben die Zahl x1 − 1 der nicht beobachteten Taxis mit Nummern
< x1 etwa gleich der Zahl N − xn der nicht beobachteten Taxis mit Nummern > xn
sein. Also bietet sich N1 (x) = xn + x1 − 1 als Schätzer an.
Noch besser ist es, die Länge der nicht beobachteten Lücke {xn + 1, . . . , N } oberhalb von xn durch die mittlere Länge der vorangegangenen Lücken zu schätzen, also
6.3 Statistische Fragestellungen
57
durch
xn − n
1
(x1 − 1) + (x2 − x1 − 1) + · · · + (xn − xn−1 − 1) =
.
n
n
Dies führt zum Schätzer N2 (x) = xn + xnn−n . (In der Praxis würde man die nächstgelegene ganze Zahl als Schätzer wählen.)
Das Taxiproblem lässt sich leicht so variieren, dass {1, . . . , N } durch ein unbekanntes
Intervall {M, M + 1, . . . , N } ersetzt wird. Es heißt, dass Varianten davon im zweiten
Weltkrieg eine Rolle gespielt haben. Aus den Seriennummern der abgeschossenen
Panzer wurde die Zahl der Panzer der Wehrmacht von den Alliierten zuverlässiger
geschätzt als durch Geheimdienstmethoden.
6.3.2
Testtheorie
Während man in der Schätztheorie die Beobachtungen dazu nutzt, den zugrunde
liegenden Zufallsmechanismus möglichst treffend zu beurteilen, geht es in der Testtheorie um das rationale Verhalten in Entscheidungssituationen.
Wir erinnern uns an Beispiel 6.8. Dort hatten wir folgende Entscheidungsregel formuliert: Sind höchstens c Orangen faul, so akzeptieren wir die Lieferung, sind mehr
als c Orangen faul, fordern wir zumindest einen Preisnachlass.
Doch wie groß muss c nun gewählt werden?
Allgemein geht man in solchen Entscheidungssituationen folgendermaßen vor:
1. Schritt: Modellierung. Dieser Schritt beinhaltet die Angabe eines geeigneten Stichprobenraums X , eines Parameterraums Θ und einer parametrischen Familie (Pϑ )ϑ∈Θ
von Wahrscheinlichkeitsmaßen. Im in Beispiel 6.8 vorliegenden Fall wählt man X =
{0, . . . , n}, Θ = {0, . . . , N } und Pϑ als hypergeometrische Verteilung mit Parametern n, ϑ und N − ϑ, ϑ ∈ Θ.
2. Schritt: Formulierung der Nullhypothese und der Alternative. Die Parametermenge Θ wird in diesem Schritt gemäß dem folgenden Prinzip in zwei Teilmengen Θ0
und Θ1 zerlegt:
ϑ ∈ Θ0 ⇔ ϑ ist für mich akzeptabel.
ϑ ∈ Θ1 ⇔ ϑ ist für mich problematisch.
Man sagt dann, dass die Nullhypothese H0 : ϑ ∈ Θ0 gegen die Alternative H1 :
ϑ ∈ Θ1 getestet werden soll. In unserem Beispiel akzeptiert der Importeur die Lieferung, wenn ϑ ∈ Θ0 = {0, . . . , 500}, da in dem Fall die Qualität stimmt. Falls
ϑ ∈ Θ1 = {501, . . . , 10000}, so ist die Qualität zu schlecht.
3. Schritt: Wahl eines Irrtumsniveaus. Es gibt keinen Test, in dem man sich nie
irren kann. Wählt man Θ0 = Θ und Θ1 = ∅, dann lehnt man die Nullhypothese
zwar nicht fälschlicherweise ab, man verwirft sie aber auch nicht, wenn es angebracht wäre. Im anderen Extremfall Θ0 = ∅ und Θ1 = Θ verwirft man immer, auch
wenn die Nullhypothese vorliegt. Die beiden beschriebenen Fehler verhalten sich also konträr zueinander. Als Ausweg wählt man ein Irrtumsniveau α ∈ (0, 1), z.B.
α = 0, 05, und fordert, dass die Wahrscheinlichkeit eines „peinlichen Irrtums“, d.h.
einer Entscheidung für die Alternative, obwohl die Nullhypothese vorliegt („Fehler
erster Art“) höchstens α betragen soll. Bei der Festlegung der Entscheidungsregel
kann man diese dann so wählen, dass der andere Fehler (fälschliche Entscheidung
für die Hypothese) möglichst klein wird.
58
6 STOCHASTIK IM ALLTAG
4. Schritt: Wahl der Entscheidungsregel. Schließlich wählt man eine Funktion ϕ :
X → [0, 1] wie folgt: Wird x ∈ X beobachtet, so gibt ϕ(x) die Wahrscheinlichkeit
an, sich für die Alternative zu entscheiden. Im Klartext heißt das:
⇔ Ich halte an der Nullhypothese fest, d.h. mein Verdacht
auf Vorliegen der Alternative lässt sich durch das Beobachtungsergebnis x nicht rechtfertigen.
ϕ(x) = 1 ⇔ Ich verwerfe die Nullhypothese und nehme aufgrund von
x an, dass die Alternative vorliegt.
0 < ϕ(x) < 1 ⇔ Ich bin mir nicht ganz sicher über die richtige Entscheidung
und führe deshalb ein Zufallsexperiment durch, das mir mit
Wahrscheinlichkeit ϕ(x) sagt: Entscheide dich für die
Alternative.
ϕ(x) = 0
Im Beispiel kann der Importeur z.B. die Entscheidungsregel


1 , x > c
ϕ(x) = 12 , x = c


0 ,x < c
verwenden. Für x = c kann er dann seine Entscheidung beispielsweise von dem
Ergebnis eines Münzwurfes abhängig machen. Die Funktion ϕ wird als Test bezeichnet.
5. Schritt: Durchführung des Experiments. Erst nachdem der Test festgesetzt wurde, erfolgt die Durchführung des Experiments, da sonst die Gefahr besteht, dass der
Test so verändert wird, das das Ergebnis den eigenen Wünschen entspricht.
Wir wollen uns das Vorgehen an einem weiteren Beispiel veranschaulichen:
Beispiel 6.12 (Außersinnliche Wahrnehmung). Ein Medium behauptet, mittels seiner außersinnlichen Fähigkeiten verdeckt liegende Spielkarten identifizieren zu können. Um diese Behauptung zu überprüfen, werden dem Medium n = 20 Mal die
Herz-Dame und der Herz-König eines fabrikneuen Spiels in zufälliger Anordnung
verdeckt vorgelegt. Das Medium soll jeweils die Herz-Dame aufdecken. Der Versuchsleiter geht nun folgendermaßen vor:
• Ein geeigneter Stichprobenraum ist X = {0, . . . , n}. Als Wahrscheinlichkeiten
Pϑ eignen sich Binomialverteilungen mit Erfolgswahrscheinlichkeiten ϑ mit
ϑ ∈ Θ = 12 , 1 , denn das Medium kann durch bloßes Raten bereits die Erfolgswahrscheinlichkeit 21 erreichen.
• Getestet
muss die Nullhypothese Θ0 = 12 gegen die Alternative
1 werden
Θ1 = 2 , 1 . Peinlich wäre der Irrtum, einer Person übersinnliche Fähigkeiten
zu bescheinigen, obwohl diese in Wirklichkeit auf Raten angewiesen ist.
• Als Irrtumsniveau wählen wir α = 0, 05.
• Es bietet sich an, einen Test der Form
(
1 , x ∈ {c, . . . , n}
ϕ(x) =
0 , x ∈ {0, . . . , c − 1}
6.3 Statistische Fragestellungen
59
mit geeignetem c zu wählen. Ein Blick in Tabellen zur Binomialverteilung
lehrt den Versuchsleiter, dass er c = 15 wählen muss, wenn er das Niveau α
einhalten will. In dem Fall gilt allerdings sogar P 1 ({15, . . . , n}) ≈ 0, 0207.
2
• Der Test wird durchgeführt, und das Medium erzielt x = 14 Treffer. Es ist
also ϕ(x) = 0, die medialen Fähigkeiten konnten also durch den Versuch nicht
bestätigt werden.
Zum Schluss betrachten wir noch eine aktuelle Anwendung der Testtheorie: Wenn
man eine Liste mit Börsenkursen liest, eine Tabelle von Naturkonstanten ansieht
oder Listen mit Flusslängen betrachtet, kann man feststellen, dass mehr Zahlen mit
einer 1 beginnen als beispielsweise mit einer 6. Diese Beobachtung machte 1881 auch
der Astronom und Mathematiker Simon Newcomb, dem aufgefallen war, dass die
erste Seite von Logarithmentafeln viel abgegriffener waren als die späteren. Er gab
eine heuristische Begründung dafür an, dass die Anfangsziffer k die Wahrscheinlichkeit log10 1 + k1 hat (k = 1, . . . , 9). Für k = 1 ergibt sich der Wert 0,301, für k = 2
der Wert 0,176 usw. bis zum Wert 0,046 für k = 9. Frank Benford entdeckte 57
Jahre später das Gesetz neu und untermauerte es mit über 20 000 Daten aus den
verschiedenen Tabellen. Da man die newcombsche Arbeit übersah, erhielt die Verteilung den Namen benfordsches Gesetz. Die Verteilung hat inzwischen interessante
Anwendungen z.B. in der Steuerfahndung gefunden. Statistisch stellt man sich in
diesem Zusammenhang z.B. die Frage, ob die Angaben in einer Steuererklärung
stimmen. Wenn man davon ausgeht, dass die Anfangsziffern dem benfordschen Gesetz folgen, dann untersucht man, wie weit die in der vorliegenden Steuererklärung
errechneten Häufigkeiten der Anfangsziffern von diesem Gesetz abweichen. Sind die
Abweichungen zu groß, ist die Steuererklärung mit großer Wahrscheinlichkeit manipuliert worden. In der Wirtschaft wird das benfordsche Gesetz auch genutzt zur
Aufdeckung von Betrug bei der Bilanzerstellung, der Fälschung in Abrechnungen
und generell zum schnellen Auffinden eklatanter Unregelmäßigkeiten im Rechnungswesen. Es konnte ferner gezeigt werden, dass die führenden Ziffern von Marktpreisen
dem benfordschen Gesetz folgen. U.a. ließ sich mittels des benfordschen Gesetzes die
Manipulation der Wirtschaftsdaten Griechenlands nachweisen.
60
LITERATUR
Literatur
[AB08] Aigner, M., Behrends, E., 2008. Alles Mathematik: Von Pythagoras zum
CD-Player, Verlag Vieweg+Teubner.
[Alb09] Albrecht, H., 2009. Warum Elefanten dicke Beine haben: Mathematik zum
Schmunzeln und Staunen, Books on Demand GmbH.
[Beu09] Beutelspacher, A., 2009. „Das ist o.B.d.A. trivial!“: Tipps und Tricks zur
Formulierung mathematischer Gedanken, Verlag Vieweg+Teubner.
[BZ07] Beutelspacher, A., Zschiegner, M.-A., 2007. Diskrete Mathematik für Einsteiger: mit Anwendungen in Technik und Informatik, Vieweg Verlag.
[Dob10] Dobrowolski, M., 2010. Mathematische Exkursionen: Gödel, Escher und andere Spiele, Verlag Oldenbourg.
[GR11] Goebbels, S., Ritter, S., 2011. Mathematik verstehen und anwenden: von
den Grundlagen bis zu Fourier-Reihen und Laplace-Transformation, Spektrum Akademischer Verlag.
[Haf10] Haftendorn, D., 2010. Mathematik sehen und verstehen: Schlüssel zur Welt,
Spektrum Akademischer Verlag.
[Hav09] Havil, J., Verblüfft?! Mathematische Beweise unglaublicher Ideen, SpringerVerlag.
[Hen10] Henze, N., 2010. Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt der des Zufalls, Verlag Vieweg+Teubner.
[HH12] Hilgert, I., Hilgert, J., 2012. Mathematik - Ein Reiseführer, Spektrum Akademischer Verlag GmbH.
[Pes02] Pesch, H. J., 2002. Schlüsseltechnologie Mathematik: Einblicke in aktuelle
Anwendungen der Mathematik, Verlag Vieweg+Teubner.
[PKV06] Precht, M., Kraft, R., Voigt, K., 2006. Mathematik 1 für Nichtmathematiker, Verlag Oldenbourg.
[PKV05] Precht, M., Kraft, R., Voigt, K., 2005. Mathematik 2 für Nichtmathematiker, Verlag Oldenbourg.
[War06] Warlich, L., 2006. Grundlagen der Mathematik für Studium und Lehramt,
AULA-Verlag GmbH.
[WW11] Wendland, K., Werner, A., (Hrsg.), 2011. Facettenreiche Mathematik, Verlag Vieweg+Teubner.
Herunterladen