Ausgewählte Anwendungen der Mathematik Vorlesung im Rahmen der Mathematisch-Naturwissenschaftlichen Grundlegung im Wintersemester 2013/2014 von Dr. Markus Schulz Inhaltsverzeichnis 1 Grundlagen 1.1 Mengen und Zahlbereiche . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Aussagenlogik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Mathematische Beweisverfahren . . . . . . . . . . . . . . . . . . . . . 2 Die 2.1 2.2 2.3 2.4 Vermessung der Welt Rechte Winkel . . . . . . . . . . . . . . Der Tunnel des Eupalinos . . . . . . . Erde, Sonne und Mond . . . . . . . . . Die Bestimmung des Erddurchmessers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 3 6 8 . 8 . 9 . 10 . 12 3 Primzahlen und Kryptologie 13 3.1 Einfache Verschlüsselungsverfahren . . . . . . . . . . . . . . . . . . . 13 3.2 Primzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3 Das RSA-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4 Codierung 4.1 Die Europäische Artikelnummer (EAN) 4.2 Die ISBN-10-Nummer . . . . . . . . . 4.3 Der Hamming-Code . . . . . . . . . . . 4.4 Der Reed-Solomon-Code . . . . . . . . . . . . 21 22 23 24 27 5 Differentialgleichungen und ihre Anwendungen 5.1 Die Ableitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 31 34 37 6 Stochastik im Alltag 6.1 Kombinatorik . . . . . . . . . 6.2 Einfache Wahrscheinlichkeiten 6.3 Statistische Fragestellungen . 6.3.1 Schätztheorie . . . . . 6.3.2 Testtheorie . . . . . . 42 42 46 52 54 56 . . . . . . . . . . ii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 Grundlagen Ein berühmtes Zitat von Galileo Galilei besagt sinngemäß, dass das Buch der Natur in der Sprache der Mathematik geschrieben ist. Um die Vorgänge in der Natur und die hier geschilderten Anwendungen zu verstehen, müssen wir uns also mit der Sprache der Mathematik vertraut machen. Natürlich wird – zumindest in deutschen Sprachraum – auch in der Mathematik die deutsche Sprache verwendet. Mathematische Texte weisen jedoch eine spezielle Struktur auf und verwenden besondere Formulierungen und Symbole. Dies ließ schon Johann Wolfgang von Goethe sagen „Die Mathematiker sind eine Art Franzosen: redet man zu ihnen, so übersetzen sie es in ihre Sprache, und dann ist es alsobald ganz etwas anderes.“ Bevor wir uns also mit der Mathematik und ihren Anwendungen beschäftigen können, müssen wir zunächst ein wenig Vokabular lernen. Als Basis unserer Betrachtungen führen wir im ersten Abschnitt dieses Kapitels verschiedene Mengen ein. Neu eingeführte Begriffe werden dabei fett gedruckt. 1.1 Mengen und Zahlbereiche Definition 1.1. Unter einer Menge verstehen wir die Zusammenfassung von wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens zu einem Ganzen. Ein in einer Menge enthaltenes Objekt heißt auch ein Element der Menge. Ist x ein Element einer Menge M , so schreiben wir x ∈ M , ist x keine Element der Menge M , so drücken wir dies durch x ∈ / M aus. Besitzt eine Menge keine Elemente, so nennen wir sie die leere Menge und schreiben ∅ oder {}. Eine Menge A ist Teilmenge einer anderen Menge B, geschrieben A ⊂ B, genau dann, wenn jedes Element x von A auch ein Element von B ist. Zwei Mengen können wir auf verschiedene Weisen verknüpfen. Definition 1.2. Der Durchschnitt zweier Mengen A und B, geschrieben als A∩B, besteht aus allen Elementen, die sowohl zu A als auch zu B gehören. Man drückt dies mathematisch so aus: A ∩ B = {x : x ∈ A und x ∈ B}. Die Vereinigung A ∪ B zweier Mengen A und B besteht aus allen Elementen, die zu A oder zu B (oder zu beiden) gehören, also A ∪ B = {x : x ∈ A oder x ∈ B}. Die Differenz A\B zweier Mengen A und B bezeichnet die Menge aller Elemente von A, die nicht gleichzeitig zu B gehören. Es gilt also A\B = {x : x ∈ A und x ∈ / B}. Im nächsten Abschnitt werden wir die mathematischen Symbole für die Verknüpfungen „und“ und „oder“ kennenlernen. Besondere Mengen, die mit eigenen Symbolen bezeichnet sind, sind die verschiedenen Zahlbereiche. Höchstwahrscheinlich sind Sie schon als Kind mit den natürlichen 2 1 GRUNDLAGEN Zahlen in Kontakt gekommen. Diese Menge wird immer dann benutzt, wenn Dinge zu zählen sind. Wir bezeichnen die natürlichen Zahlen mit N = {1, 2, 3, 4, . . .}. Oft nimmt man auch die 0 dazu. Die so entstehende Menge bezeichnen wir mit N0 . Wir können zwei natürliche Zahlen addieren und multiplizieren, ohne aus der Menge „herauszufallen“. So gilt z.B. 3 + 4 = 7 ∈ N und 3 · 4 = 12 ∈ N. Doch schon die Subtraktion zweier natürlicher Zahlen führt manchmal zu Problemen. Beispielsweise gilt 9 − 5 = 4 ∈ N, aber 5 − 9 ∈ / N. Um beliebig subtrahieren zu können, benötigen wir die ganzen Zahlen Z = {. . . , −4, −3, −2, −1, 0, 1, 2, 3, 4, . . .}. Die eben problematische Aufgabe ist nun lösbar: 5 − 9 = −4 ∈ Z. Wenn zusätzlich auch die Division möglich sein soll, reichen die ganzen Zahlen nicht mehr aus. Dazu müssen wir unseren Zahlbereich auf die rationalen Zahlen o np : p ∈ Z und q ∈ Z\{0} Q= q erweitern. Die Zahl 0 ist als Nenner nicht zulässig. Neben der Bruchdarstellung ist auch die Dezimalschreibweise gebräuchlich, also z.B. 54 = 1, 25 oder 13 = 0, 33333 . . .. Jedoch kommt man selbst mit dieser relativ umfangreichen Menge nicht immer aus. 2 Beispielsweise gibt es keine rationale √ Zahl a mit a = 2. Dennoch gibt es eine (nicht endende) Dezimaldarstellung a = 2 = 1, 4142135 . . .. Alle Zahlen der Zahlengerade zusammengenommen ergeben die reellen Zahlen R. Gegenüber den rationalen Zahlen sind alle nichtendenden und nicht-periodischen Dezimalzahlen hinzugekommen, beispielsweise ist auch π = 3, 14159 . . . eine reelle Zahl. Anzumerken ist, dass je zwei reelle Zahlen nach ihrer Größe sortiert werden können, d.h. für zwei reelle Zahlen a und b gilt a ≤ b oder a ≥ b (oder beides, dann ist a = b). Manchmal beschränken wir uns auch auf folgende Teilmengen der rellen Zahlen: [a, b] ={x ∈ R : a ≤ x ≤ b} [a, b) ={x ∈ R : a ≤ x < b} (−∞, b] ={x ∈ R : x ≤ b} [a, ∞) ={x ∈ R : a ≤ x} (a, b] ={x ∈ R : a < x ≤ b} (a, b) ={x ∈ R : a < x < b} (−∞, b) ={x ∈ R : x < b} (a, ∞) ={x ∈ R : a < x}. Alle derartigen Mengen werden unter de Oberbegriff „Intervalle“ zusammengefasst. Die reellen Zahlen sind in der Praxis häufig völlig ausreichend, gelegentlich, z.B. wenn man die Gleichung x2 = −2 lösen will, benötigt man die komplexen Zahlen C = {a + ib : a, b ∈ R}. Der Buchstabe i wird auch imaginäre Einheit genannt und ist definiert durch √ i = −1 bzw. i2 = −1. Für eine komplexe Zahl mit der Darstellung a + ib bezeichnet man a als Realteil und b als Imaginärteil. Jede reelle Zahl x kann man durch a = x und b = 0 auch als komplexe Zahl auffassen. Insgesamt gelten also die Beziehungen N ⊂ N0 ⊂ Z ⊂ Q ⊂ R ⊂ C. 1.2 Aussagenlogik 1.2 3 Aussagenlogik Wie in der Sprache bringt es auch in der Mathematik wenig, die einzelnen Wörter zu kennen, ohne zu wissen, wie man sie zu Aussagen zusammenfügt. Deshalb wollen wir nun definieren, was wir unter einer mathematischen Aussage verstehen. Danach werden wir verschiedene Möglichkeiten betrachten, Aussagen logisch zu verknüpfen. Einige der entwickelten Regeln werden im nächsten Abschnitt die Grundlage für verschiedene Beweismethoden bilden. Definition 1.3. Aussagen sind sprachliche Gebilde, von denen objektiv feststeht, dass sie entweder wahr oder falsch sind, die also von zwei möglichen Wahrheitswerten genau einen annehmen. „Objektiv festehender Wahrheitswert“ bedeutet, dass eine Aussage entweder wahr oder falsch ist, unabhängig von der Person, die diese Aussage macht, unabhängig von Ort und Zeitpunkt, an dem bzw. zu dem die Aussage gemacht wird und unabhängig von einer Person, die diese Aussage beurteilt. Beispielsweise ist der gemäß historischer Anekdote überlieferte Satz „Alle Kreter lügen“ keine Aussage, denn spricht ein Kreter diesen Satz aus, so würde er demzufolge die Wahrheit sagen, also nicht lügen, was dem Satz widerspricht. Auch der berühmte Ausspruch des Babiers von Sevilla „Ich rasiere alle Männer meiner Heimatstadt, die sich nicht selbst rasieren.“ gehört in diese Kategorie, denn wer rasiert den Barbier? Lassen Sie uns noch einige weitere Beispiele behandeln: Beispiel 1.1. 1. Dem Satz „Heute ist ein wunderschöner Herbsttag.“ ist kein objektiver Wahrheitsgehalt zuzuordnen, es ist also keine Aussage im mathematischen Sinn. 2. Der Satz „Die Bauarbeiten am Kölner Dom begannen im Jahr 1248.“ ist dagegen eine wahre Aussage. 3. Die Frage „Gefällt es Ihnen an der Universität zu Köln?“ ist wiederum keine Aussage, da man ihr keinen Wahrheitswert zuordnen kann. 4. Der Satz „Der Kölner Hauptbahnhof liegt auf der rechten Rheinseite.“ ist eine falsche Aussage. 5. Der Satz „Karl der Große hatte 24 Kinder.“ ist eine Aussage, obwohl es hier kaum möglich sein dürfte, den Wahrheitswert festzustellen. Es genügt, dass ein eindeutiger Wahrheitswert existiert. Jede Aussage kann auch verneint werden. Formal definieren wir Definition 1.4. Unter der Negation einer Aussage A verstehen wir die verneinte Aussage ¬A, die zu A den gegensätzlichen Wahrheitswert hat: Ist A wahr, so ist ¬A falsch, und ist A falsch, so ist ¬A wahr. Beispiel 1.2. Die Negation der Aussage aus 2. des vorangegangenen Beispiels lautet „Die Bauarbeiten am Kölner Dom begannen nicht im Jahr 1248.“ Da „nicht rechts“ gleichbedeutend mit „links“ ist, kann man die Negation von 4. auch formulieren als „Der Kölner Hauptbahnhof liegt auf der linken Rheinseite.“ 4 1 GRUNDLAGEN Zwei Aussagen lassen sich außerdem auf verschiedene Weisen verknüpfen. Bei zwei Aussagen wird eine solche Verknüpfung beispielsweise dadurch definiert, dass man für alle vier möglichen Kombinationen von Wahrheitswerten der Verknüpfung einen Wahrheitswert zuordnet. Dies kann durch Angabe einer sog. Wahrheitstafel geschehen. Definition 1.5. Die Konjunktion ∧ zweier Aussagen A und B ist definiert durch A w w f f B w f w f A∧B w f f f Die Aussage A ∧ B ist also nur wahr, wenn sowohl A als auch B wahr sind. Die Verknüpfung entspricht dem sprachlichen ’und’. Definition 1.6. Die Disjunktion ∨ zweier Aussagen A und B ist definiert durch A w w f f B w f w f A∨B w w w f Die Aussage A ∨ B ist also wahr, wenn mindestens eine der beiden Aussagen A oder B wahr ist. Die Verknüpfung entspricht dem sprachlichen ’oder’ im nichtausschließlichen Sinn. Definition 1.7. Dem sprachlichen ’Wenn ..., dann ...’ entspricht die Implikation ⇒, deren Wahrheitstafel wie folgt definiert ist: A B w w w f f w f f A⇒B w f w w Definition 1.8. Die Äquivalenz ⇔ zweier Aussagen A und B ist definiert durch A B w w w f f w f f A⇔B w f f w Sprachlich drücken wir eine Äquivalenz häufig durch ’genau dann, wenn’ aus. Die Aussage A ⇔ B ist also genau dann wahr, wenn die Aussagen A und B die gleichen Wahrheitswerte besitzen. 1.2 Aussagenlogik 5 Gerade in der Mathematik kommen häufig Aussagen vor, die von einem Platzhalter x abhängen. Auch Zusammenfassungen solcher Aussagen der Form „Für alle x ∈ M gilt...“ oder „Es existiert ein x ∈ M , so dass gilt ...“ sind allgegenwärtig. Zur Abkürzung definieren wir Definition 1.9. Es sei M eine Menge und A(x) eine Aussage, die von einer Variable x ∈ M abhänge. (a) Ist A(x) für alle x ∈ M eine wahre Aussage, dann sagt man „Für alle x ∈ M gilt A(x)“ oder „Für jedes x ∈ M gilt A(x)“ und schreibt kurz ∀x ∈ M : A(x). (b) Ist A(x) für mindestens ein x ∈ M eine wahre Aussage, dann sagt man „Für ein x ∈ M gilt A(x)“ oder „Es gibt ein x ∈ M mit A(x)“ und schreibt kurz ∃x ∈ M : A(x). (c) Ist A(x) für genau ein x ∈ M eine wahre Aussage, dann sagt man „Für genau ein x ∈ M gilt A(x)“ oder „Es gibt genau ein x ∈ M mit A(x)“ und schreibt ∃!x ∈ M : A(x). (d) Ist A(x) für kein x ∈ M eine wahre Aussage, dann sagt man „Für kein x ∈ M gilt A(x)“ oder „Es gibt kein x ∈ M mit A(x)“ und schreibt @x ∈ M : A(x). Die hier eingeführen Symbole heißen Quantoren. Es können auch mehrere Quantoren miteinander verschachtelt werden. Als Faustregel kann man sich merken, dass bei der Negation aus einem ∀ ein ∃ wird und umgekehrt. Beispiel 1.3. Ist (xn )n∈N eine reelle Zahlenfolge, dann wird durch die Aussage ∀ε > 0∃n0 ∈ N∀n ≥ n0 : |xn | < ε definiert, dass die Folge gegen Null konvergiert. Formulieren würde man die Aussage z.B. als „Für jedes ε > 0 gibt es einen Index n0 ∈ N, so dass alle weiteren Folgenglieder betraglich kleiner als ε sind.“ Die Negation der Aussage ist ∃ε > 0∀n0 ∈ N∃n ≥ n0 : |xn | ≥ ε. Anwendung findet die mathematische Aussagenlogik v.a. zur Begründung mathematischer Beweisprinzipien und in der Mengenlehre. Die Logik ist also eine wesentliche Grundlage der Mathematik – man spricht ja auch immer von der Mathematik als logische Wissenschaft. Darüber hinaus ist die Logik aber auch Grundlage der Computerwissenschaft und künstlichen Intelligenzforschung. Es gibt ganze Programmiersprachen, die auf Fragmnenten der Logik beruhen, z.B. PROLOG (Programming in Logic). Weitere Stichworte sind Logikprogrammierung, maschinelles deduktives Beweisen, regelbasierte Expertensysteme und nichtmonotone Logik. Außerdem wird die Logik in der Philosophie angewandt, um Argumente und Folgerungen zu formalisieren und Argumente auf ihre Gültigkeit zu untersuchen. 6 1.3 1 GRUNDLAGEN Mathematische Beweisverfahren Mathematische Beweismethoden basieren auf aussagenlogischen Gesetzen. Im Folgenden werden wir einige häufig angewandte Beweismethoden mittels mathematischer Aussagenlogik beweisen. Das erste grundlegende Prinzip besagt, dass der Beweis einer Äquivalenz A ⇔ B durch den Nachweis der Folgerungen A ⇒ B und B ⇒ A erfolgen kann. Proposition 1.1. Für zwei mathematische Aussagen A und B gilt (A ⇔ B) ⇔ ((A ⇒ B) ∧ (B ⇒ A)). Beweis. Die Behauptung beweisen wir mittels folgender Wahrheitstafel: A B A ⇔ B A ⇒ B B ⇒ A (A ⇒ B) ∧ (B ⇒ A) w w w w w w w f f f w f f w f w f f f f w w w w Ebenfalls sehr wichtig ist der Beweis durch Kontraposition. Statt eine Folgerung A ⇒ B direkt zu beweisen, beweist man, dass aus ¬B die Aussage ¬A folgt. Proposition 1.2. Für zwei mathematische Aussagen A und B gilt (A ⇒ B) ⇔ (¬B ⇒ ¬A). Beweis. Man betrachte A w w f f folgende Wahrheitstafel: B A ⇒ B ¬B ¬A ¬B ⇒ ¬A w w f f w f f w f f w w f w w f w w w w Oft werden Aussagen auch aus einer bereits verifizierten Aussage hergeleitet. Proposition 1.3. Für zwei mathematische Aussagen A und B gilt (A ∧ (A ⇒ B)) ⇒ B. Beweis. Die folgende Wahrheitstafel beweist die Behauptung: A B A ⇒ B A ∧ (A ⇒ B) A ∧ (A ⇒ B) ⇒ B w w w w w w f f f w f w w f w f f w f w Manchmal ist es nicht so einfach, eine Aussage direkt zu beweisen. Häufig hilft es in solchen Fällen, einen indirekten Beweis (oder auch Widerspruchsbeweis genannt) zu führen. Wollen wir beispielsweise A beweisen, dann können wir dies tun, indem wir die Annahme, dass A falsch ist bzw. ¬A wahr ist, zum Widerspruch (B ∧ ¬B) führen. 1.3 Mathematische Beweisverfahren 7 Proposition 1.4. Für eine mathematische Aussage A gilt (¬A ⇒ (B ∧ ¬B)) ⇔ A, wobei B eine weitere mathematische Aussage bezeichnet. Beweis. Die Aussage B ∧ ¬B ist immer falsch. Wir erhalten also die Wahrheitstafel A w f ¬A f w B ∧ ¬B f f ¬A ⇒ (B ∧ ¬B) w f Eine besondere Stellung nimmt das Beweisverfahren der vollständigen Induktion ein. Mit ihm ist es möglich, Aussagen der Form „Für alle n ∈ N gilt ...“ zu beweisen. Das Beweisprinzip basiert auf gewissen sog. Axiomen, also mathematischen Aussagen, die die Grundlage der Mathematik bilden und als wahr angenommen werden. Proposition 1.5. Für n ∈ N sei A(n) eine Aussage. Es gelte (1) A(1) ist wahr. (2) Für alle n ∈ N gilt: Ist A(n) wahr, so ist auch A(n + 1) wahr. Dann gilt A(n) für alle n ∈ N. Beweis. Der Proposition 1.4 folgend nehmen wir an, dass A(n) nicht für alle n ∈ N wahr ist. Dann gibt es darunter eine kleinste natürliche Zahl n1 , die wegen (1) größer als 1 sein muss. Daher gilt A(n) für alle n = 1, . . . , n1 − 1. Da A(n1 − 1) also wahr ist, ist nach (2) auch A(n1 ) wahr, was der Definition von n1 widerspricht. Unsere Annahme war also falsch und demzufolge die Behauptung richtig. Das Beweisprinzip funktioniert auch, wenn A(n) für alle n ≥ k, k ∈ N0 , wahr sein soll. Es erinnert an Proposition 1.3. Ausgehend von der wahren Aussage A(1) wird mittels (2) darauf geschlossen, dass auch A(2) wahr ist. Wendet man (2) nun hierauf an, so folgt, dass auch A(3) wahr ist usw. Ein Beweis mittels vollständiger Induktion besteht immer aus zwei Teilen: dem Induktionsanfang (1) und dem Induktionsschritt (2). Wir wollen uns das Beweisprinzip an einem Beispiel anschauen: Beispiel 1.4. Für n ∈ N beweisen wir die Summenformel 1 + 2 + 3 + ··· + n = n X k=1 k= n(n + 1) . 2 P Für n = 1 steht auf der linken Seite 1k=1 k = 1, auf der rechten Seite 1·2 = 1. Also 2 Pn n(n+1) ist A(1) richtig. Sei nun A(n) richtig, also gelte k=1 k = 2 . Zu zeigen ist, dass P (n+1)(n+2) auch A(n + 1) richtig ist, nämlich n+1 . Es gilt k=1 k = 2 n+1 X k=1 k= n X k=1 I.V. k +(n+1) = n(n + 1) n(n + 1) + 2(n + 1) (n + 2)(n + 1) +n+1 = = . 2 2 2 Damit ist A(n + 1) hergeleitet und somit die Aussage bewiesen. 8 2 DIE VERMESSUNG DER WELT 2 Die Vermessung der Welt Für viele Aufgaben im Bauwesen spielt Geometrie eine Rolle. Der Begriff „Geometrie“ geht auf das griechische Wort „geometria“ zurück und bedeutet Erd- bzw. Landvermessung. Aufbauend auf der mehr anwendungsorientierten Geometrie der Babylonier und Ägypter haben die griechischen Mathematiker vor 2500 Jahren die Geometrie zu einer abstrakten Wissenschaft entwickelt. Ein Meilenstein in dieser Entwicklung war das 13-bändige Werk Elemente von Euklid (325-270 v. Chr.) Um Referenzpunkte zu bestimmen oder über größere Distanzen messen zu können, sind Dreiecke von besonderer Bedeutung. Drei Eigenschaften sind dabei wichtig: • (Winkelsumme) Die Summe der drei Winkel im Dreieck ist π (180◦ ). • (Strahlensätze) Sind die drei Winkel in den Dreiecken ABC und A0 B 0 C 0 gleich, so gilt für die Seitenverhältnisse kACk kBCk kABk = = . 0 0 0 0 kA B k kA C k kB 0 C 0 k Dabei bezeichnet AB die Strecke von A nach B und kABk deren Länge. • (Satz des Pythagoras) In einem rechtwinkligen Dreieck gilt a2 + b2 = c2 , wenn c die Länge der Hypothenuse bezeichnet. 2.1 Rechte Winkel Der Satz des Pythagoras (ca. 570-510 v. Chr.) war schon bei den Babyloniern bekannt. Auf einer Keilschrifttafel aus der Zeit der Hammurabi-Dynastie (ca. 18301530 v. Chr.) findet man eine Aufgabe mit Lösung, bei der der Satz von Pythagoras angewendet wird. Auch in Indien und China kannte man den Satz. Ob die Babylonier den Satz aber schon bewiesen haben, ist unbekannt. Ein einfacher Beweis geht folgendermaßen: Man teilt ein Quadrat der Seitenlänge a + b gemäß der folgenden Skizzen auf. a b b a b a c c a c a a a b a c b c b b a c b b b a Die vier Dreiecke kommen dabei in beiden Konstruktionen vor. In der ersten Zeichnung teilt sich die Gesamtfläche (a+b)2 auf die Fläche der vier Dreiecke (4· 12 ab = 2ab) und das innere Quadrat der Fläche c2 auf, d.h. es gilt (a + b)2 = 2ab + c2 . 2.2 Der Tunnel des Eupalinos 9 In der zweiten Zeichnung setzt sich die Gesamtfläche (a + b)2 dagegen auf der Fläche der vier Dreiecke und den Flächen a2 und b2 der beiden Quadrate zusammen, also (a + b)2 = 2ab + a2 + b2 . Gleichsetzen liefert die gewünschte Formel. Das einfachste Dreieck, das a2 +b2 = c2 erfüllt, ist a = 3, b = 4, c = 5. Da ein Dreieck durch die Seitenlängen eindeutig bestimmt ist, kann dieses Dreieck zur Konstruktion eines rechten Winkels verwendet werden. Man nimmt ein Seil mit 13 Knoten in gleichen Abständen und bildet dann ein Dreieck mit Seitenlängen 3,4,5. Dann befindet sich gegenüber der längsten Seite ein rechter Winkel. Auf diese Weise kann man einen rechten Winkel in einem Gebäude bilden oder einen Pfahl senkrecht auf den Boden stellen. 2.2 Der Tunnel des Eupalinos Herodot (482-424 v. Chr.) berichtet, dass der Architekt Eupalinos auf der Insel Samos einen Tunnel durch einen Berg bauen ließ, um Wasser von der AgiadesQuelle zur Stadt Samos (heute Pythagorion) zu leiten. Der Tunnel ist 1036 m lang und wurde im Gegenvortrieb gebaut. Man vermutet, dass der Tunnel zwischen 550 und 530 in einer Bauzeit von 8-15 Jahren gebaut wurde. Der Tunnel hat praktisch kein Gefälle. Um so einen Tunnel zu bauen, stellen sich zwei Probleme: • Wie bestimmt man auf zwei Seiten eines Berges zwei Punkte, die auf gleicher Höhe liegen? • Wie bestimmt man die Richtung, in die man den Tunnel graben muss? Eupalinos hat das Problem (ob Pythagoras mitgeholfen hat, wurde spekuliert, man hat aber keine Indizien gefunden) hervorragend gelöst. Am Verbindungspunkt war der Höhenunterschied 60 cm. Es gibt grundsätzlich zwei Möglichkeiten, die Vermessung vorzunehmen: • Messung um den Berg herum. • Messung über den Berg. Die Messung um den Berg herum scheint einfacher. Es wird ein Chorobates (eine ca. 6 m lange Wasserwaage) zur horizontalen Peilung verwendet. Damit kann man einen Punkt auf gleicher Höhe bestimmen. Auf diese Weise kann man um den Berg herum peilen. Bestimmt man einen zusätzlichen Punkt, dessen Entfernung man messen kann, lassen sich über die Bestimmung der Winkel Dreiecke auf einer Karte zeichnen, so dass der genaue Punkt bestimmt werden kann, wo man den Tunnel beginnen soll. Die Strahlensätze stellen sicher, dass die Längen auf der Karte und der Wirklichkeit immer das gleiche Verhältnis aufweisen. Durch die Karte kennt man auch den Winkel zur Verbindungsgerade zum Punkt auf der anderen Seite des Berges. Das Problem bei dieser Methode ist, dass man aufgrund der Topographie sehr viele Messungen braucht, und dass infolgedessen durch kleinere Fehler eine Ungenauigkeit erzeugt wird. Bei der Messung über den Berg misst man die Winkel und Längen und bestimmt 10 2 DIE VERMESSUNG DER WELT dadurch die Höhe eines Punktes. Stellt man an den Messpunkten Stangen senkrecht auf, so kann man auch sicher gehen, dass die Messpunkte auf einer Geraden liegen. Man hat auch die Möglichkeit, die Abstände zwischen den Messpunkten direkt zu messen, oder auch über Dreiecke mittels Hilfspunkten, die vermessen werden. Da man in einer „Gerade“ über den Berg misst, kennt man auch die Richtung, in die man den Tunnel vorantreiben muss. Auch bei dieser Methode ist das Problem, dass man zu viele Messungen braucht, wodurch das ganze Verfahren ungenau wird. Eupalinos war sich möglicher Ungenauigkeiten bewusst. Kurz vor dem Aufeinandertreffen der beiden Stollen biegen beide Stollen nach Osten ab. Auf diese Weise müssen sich die Stollen schneiden, wenn sie sich auf ungefähr gleicher Höhe befinden. Die Vermessung wurde 1615 durch Willebrord van Roijen Snell verbessert. Er verwendete den Sinussatz b c a = = , sin(α) sin(β) sin(γ) wobei a (bzw. b bzw. c) die Länge der dem Winkel α (bzw. β bzw. γ) gegenüberliegenden Seite bezeichnet. 2.3 Erde, Sonne und Mond Die Geschichte der astronomischen Entfernungsmessung begann mit Aristarchos von Samos (310-230 v. Chr.), den man auch den „Kopernikus der Antike“ genannt hat. Heute bezeichnet man Aristarchos meist als Astronomen, doch die Griechen nannten ihn „Aristarchos der Mathematiker“. Aristarchos wollte Beziehungen zwischen verschiedenen astronomischen Größen herleiten – der Entfernung Erde-Sonne, der Entfernung Erde-Mond, der Größe der Sonne, der Größe des Mondes und der Größe der Erde. Die Messung auch nur einer dieser Größen hätte dann sofort die anderen bedingt. Er erhielt somit keine absoluten Werte für die Entfernungen oder die Durchmesser der drei Himmelskörper. Dennoch sind seine Überlegungen und Schlussfolgerungen genial und heute noch gültig. Wesentlich sind folgende Annahmen Aristarchos’: Für ihn war die Sonne ein großes Feuer, und der Mond strahlte nicht selber, sondern er wurde von der Sonne beschienen. Außerdem deutete er die Mondfinsternis richtig als die Bewegung des Mondes in den Schatten der Erde. Zunächst bestimmte Aristarchos das Verhältnis zwischen dem Abstand Erde-Mond REM und dem Abstand Erde-Sonne RES . Dazu betrachtete er die geometrische Situation zum Zeitpunkt des Halbmondes. Sonne Mond RES α REM Erde Er deutete richtig, dass zu diesem Zeitpunkt der Winkel zwischen der Verbindungslinie von der Erde zum Mond und der Verbindungslinie vom Mond zur Sonne ein rechter Winkel sein muss, also 90◦ beträgt. Das Verhältnis von REM und RES lässt sich nun durch den Winkel α ausdrücken, unter dem zu diesem Zeitpunkt Sonne und Mond von der Erde aus gesehen werden. Dieser Winkel lässt sich allerdings nur 2.3 Erde, Sonne und Mond 11 schwer messen, insbesondere weil der exakte Zeitpunkt des Halbmondes nur schwer feststellbar ist. So kam Aristarchos auf α = 87◦ , der exakte Wert lautet α = 89◦ 510 . Statt einer Abweichung von 9 Bogenminuten vom rechten Winkel verwendete Aristarchos somit den Wert 3 Grad bzw. 180 Bogenminuten und lag in seiner Schätzung somit um einen Faktor 20 falsch. Für das Verhältnis der Abstände Erde-Mond zu Erde-Sonne erhielt er 2π 1 REM = cos 87 ≈ 0, 05233596 ≈ . RES 360 19 1 Die grundlegende Idee war richtig, der genaue Wert beträgt jedoch RREM . ≈ 390 ES Eine zweite Beziehung war nun nahe liegend. Jeder, der schon einmal eine Sonnenfinsternis gesehen hat, weiß, dass die Mondscheibe genau auf die Sonnenscheibe passt, dass also Mond und Sonne von der Erde aus gesehen gleich groß erscheinen. Nach dem Strahlensatz muss also das Verhältnis von Mondradius rM zu Sonnenradius rS gleich dem Verhältnis des Abstandes Erde-Mond zum Abstand Erde-Sonne sein, d.h. es gilt REM rM ≈ . rS RES Für Aristarchos war die Sonne also ungefähr 19-mal so groß wie der Mond, in Wirklichkeit ist sie aber etwa 400-mal so groß. Eine weitere Beziehung betraf den Radius des Mondes rM und den Abstand zwischen Erde und Mond REM . Dazu muss man den Öffnungswinkel messen, unter dem die Mondscheibe von der Erde aus gesehen wird. Aristarchos stellte fest, dass der Mond etwa 1/15 eines Tierkreiszeichens verdeckt. Da es zwölf Tierkreiszeichen gibt, sieht 1 · 15 = 2 Grad. Aristarchos hatte man den Mond also unter einem Winkel von 360 12 ◦ sich aber verschätzt, es sind in Wirklichkeit nur 0,52 , sein Wert um den Faktor 4 2π ≈ 0, 0349. zu groß. Auf dem Einheitskreis entsprechen 2 Grad einer Länge von 2 · 360 Somit beträgt der Durchmesser des Mondes 3,5% des Abstandes Erde-Mond, und damit der Durchmesser der Sonne 66,5% des Abstandes Erde-Mond. Was noch fehlte, war eine Beziehung zwischen dem Radius der Erde und dem Radius des Mondes. Diese fand Aristarch aus seinen Beobachtungen bei einer Mondfinsternis. Der Mond tritt bei seinem Umlauf um die Erde durch den Erdschatten. Aristarchos verglich nun zwei Zeiten: 1. die Zeit zwischen dem ersten Erscheinen des Erdschattens am Mondrand und dem Zeitpunkt des völligen Verschwindens des Mondes und 2. die Zeit, die der Mond in völliger Dunkelheit hinter der Erde wandert. Er fand, dass diese Zeiten bei einer zentralen Mondfinsternis (bei der der Mond durch das Zentrum des Erdschattens tritt) ungefähr gleich sind. Daraus schloss Aristarchos, dass der Mond zweimal im Erdschatten Platz hat. Da nach seinen Messungen die Sonne 19 Mal so weit entfernt ist wie der Mond und die Sonne 19 Mal so groß ist wie der Mond, konnte Aristarchos aus einer Zeichnung den Mondradius bestimmen. 19rM rE 2rM REM 19REM 12 2 DIE VERMESSUNG DER WELT Unter der Annahme, dass die betrachteten Dreiecke rechtwinklig sind, erhalten wir aus dem Strahlensatz die Verhältnisse rE − 2rM 19rM − 2rM = . REM 20REM Daraus berechnen wir 20rE ≈ 0, 3509rE . 57 Das Verhältnis von Mondradius zu Erdradius hat also nach Aristarchos’ Messungen den Wert 0,35 (der exakte Wert beträgt 0,2728). Da Aristarchos nun wusste, dass die Sonne größer als die Erde ist, schloss er daraus, dass nicht die Erde, sondern die Sonne im Mittelpunkt des Universums stehen müsste. Er war somit der erste bekannte Vertreter des heliozentrischen Weltbildes. rM = 2.4 Die Bestimmung des Erddurchmessers Dass die Erde eine Kugel ist, war den Griechen schon länger bekannt. Entfernten sich Schiffe, verschwand zuerst der untere Teil. Daraus schloss man, dass die Erdoberfläche gekrümmt ist. Eine andere Beobachtung war, dass man in Ägypten andere Sterne sah als in Griechenland. Aristoteles (384-322 v. Chr.) beobachtete, dass der Erdschatten bei einer Mondfinsternis rund war. Da die Sonne bei verschiedenen Mondfinsternissen von verschiedenen Seiten schien und der Schatten immer rund war, war bewiesen, dass die Erde eine Kugel ist. Aristoteles war der erste, der die Frage nach dem Umfang der Erde stellte. Der erste, der wissenschaftlich den Umfang bestimmte, war Eratosthenes von Kyrene (ca. 275-194 v. Chr.). Er war Leiter der Bibliothek von Alexandria. Der Legende nach wurde Eratosthenes darauf aufmerksam, dass es in Syene (Assuan) einen Brunnen gab, wo die Sonne am 21. Juni die ganze Wasseroberfläche im Schacht beschien. Eratosthenes schloss daraus, dass die Sonne am 21. Juni senkrecht auf Syene scheint. Außerdem war bekannt, dass Syene fast genau südlich von Alexandria liegt. Für seine Berechnungen nahm Eratosthenes nun ein sog. Gnomon zu Hilfe. Es handelt sich dabei um einen vertikalen Stab, der auf einem nivellierten Untergrund errichtet ist. Er erlaubt, den Sonnenschatten zu verfolgen, während die Sonne über den Himmel wandert – ähnlich wie bei einer Sonnenuhr. U.a. konnte man ihn auch zur Bestimmung der Sonnenhöhe benutzen – also der Winkeldistanz der Sonne vom Horizont. Man musste dazu nur die Länge des Schattens und die Länge des Stabes messen. Wenn man nach diesen Vorgaben ein rechtwinkliges Dreieck maßstäblich zeichnet, kann man den dem Schatten gegenüberliegenden Winkel messen. Auf diese Weise bestimmte Eratosthenes am Mittag der Sommersonnenwende in Alexandria den Winkel zwischen der Sonnenrichtung und der Vertikalen. Da die Sonne zu dieser Zeit in Syene genau im Zenit steht, kannte er damit den Winkel zwischen den Vertikalen in Alexandira und Syene. Der Winkel belief sich auf ein Fünfzigstel eines Vollkreises. Das bedeutet, dass der Erdumfang das 50-fache der Distanz von Alexandria und Syene beträgt. Erastothenes wusste, dass der Abstand zwischen beiden Städten 5000 Stadien betrug. Damit musste der Erdumfang 250 000 Stadien betragen. Es wird darüber spekuliert, welches Stadion Eratosthenes verwendete. Das ägyptische Stadion entsprach etwa 157,5 m, was einen Erdumfang von 39 375 km ergibt. Dieser Wert ist schon ziemlich genau (in Wirklichkeit etwa 40 030 km). In dieser Rechnung sind allerdings einige Fehler enthalten: 13 • Der tatsächliche Abstand der beiden Städte beträgt 835 km, was 5302 ägyptischen Stadien entspricht. • Syene (24◦ 05’N 32◦ 54’E) befindet sich nicht genau südlich von Alexandria (31◦ 12’N 29◦ 55’E), sondern liegt ungefähr 3◦ östlicher. Der Radius des Brei2π ≈ 5820 km, was einem Umfang tenkreises in Syene beträgt 6371 · cos 24 360 ◦ von 36 569 km entspricht. 3 entsprechen √ somit 305 km. Das ergibt für den Nord-Süd-Abstand der beiden Städte 8352 − 3052 ≈ 777, 303 km. Dies sind 4935 Stadien. Die ersten beiden Fehler heben sich also teilweise auf. • Syene liegt etwa ein halbes Grad nördlich des Wendekreises (23◦ 26’). Der gemessene Winkel 7,2◦ ist leicht zu klein, er liegt aber nahe am tatsächlichen Winkel 7,12◦ . 3 Primzahlen und Kryptologie In diesem Kapitel beleuchten wir verschiedene einfache Verschlüsselungsmethoden. Nach einem kleinen Abschnitt über die Theorie der Primzahlen überlegen wir uns im darauffolgenden Abschnitt, wie wir diese Theorie anwenden können, um Nachrichten zu verschlüsseln. 3.1 Einfache Verschlüsselungsverfahren In diesem Abschnitt überlegen wir uns einfache Verfahren, mit denen man eine zu übermittelnde Textbotschaft verschlüsseln kann. Der geheime Text, auch Klartext genannt, wird jeweils mit Kleinbuchstaben geschrieben, der verschlüsselte mit Großbuchstaben. Eines der ältesten Verfahren ist die Verschiebungschiffre. Bei diesem Verfahren werden die 26 Buchstaben des Alphabets um eine vorher festgelegte Anzahl von Buchstaben vorwärts verschoben. Damit auch im Alphabet weiter hinten stehende Buchstaben auf diese Weise verschlüsselt werden können, beginnen wir nach z wieder von vorne. Schon Julius Caesar hat dieses Verfahren benutzt, indem er statt eines Buchstabens aus dem Klartext den drittnächsten aufschrieb. Deshalb heißt eine Verschiebung um drei Buchstaben auch Caesar-Chiffre. Folgende Tabelle gibt an, wie Caesar die einzelnen Buchstaben verschlüsselt hätte. a Klartext verschlüsselt D b E c d F G e H f g ··· I J ··· t W u X v Y w x Z A y z B C Beim Entschlüsseln wird wird die Tabelle in umgekehrter Weise benutzt. Beispiel 3.1. Caesars berühmtem Worten „veni, vidi, vici“ werden durch das soeben beschriebene Verfahren als „YHQL, YLGL, YLFL“ verschlüsselt. Das Verfahren ist sehr simpel, das ist aber gleichzeitig auch seine Schwachstelle. Durch den limitierten Zeichenvorrat gibt es nur 26 mögliche Verschiebungen, die man alle ausprobieren kann. Man kann die Suche sogar noch verkürzen, indem man im Geheimtext die häufigsten Buchstaben sucht und mit den in deutschen Texten häufigsten Buchstaben vergleicht. 14 3 PRIMZAHLEN UND KRYPTOLOGIE Das Problem der zu geringen Anzahl von möglichen Verschlüsselungen lässt sich leicht lösen, indem man anstelle der 26 Verschiebungen jede beliebige Vertauschung (Permutation) der Buchstaben erlaubt, z.B. Klartext a b verschlüsselt L A c H ··· ··· p q M X r D s R t U u E v w J B x y z . O I Z Es gibt dann – wie wir in Kapitel 6 sehen werden – 26! = 1 · 2 · · · 25 · 26 ≈ 4 · 1026 Möglichkeiten, eine Nachricht zu verschlüsseln. Das sind bereits zu viele, um die Nachricht durch bloßes Ausprobieren zu dechiffrieren. Dennoch kann man solche Substitutionschiffren knacken, indem man die bekannte Häufigkeitsverteilung der Buchstaben in einem durchschnittlichen deutschsprachigen Text zur Hilfe nimmt. Buchstabe a b c d e f g h i Häufigkeit [%] 6,51 1,89 3,06 5,08 17,40 1,66 3,01 4,76 7,55 Buchstabe j k l m n o p q r Häufigkeit [%] 0,27 1,21 3,44 2,53 9,78 2,51 0,79 0,02 7,00 Buchstabe s t u v w x y z Häufigkeit [%] 7,27 6,15 4,35 0,67 1,89 0,03 0,04 1,13 Durch Zählen der gleichen Buchstaben des Geheimtextes findet man die häufigsten Buchstaben e und n und dann durch weiteres Kombinieren, etwa das Bestimmen häufiger Buchstabenpaare wie ch, st usw., weitere Buchstaben und dann die restliche Substitution. Solche Verschlüsselungsmethoden sind also nicht sehr sicher. Hinzu kommt, dass man sich für alle 26 Buchstaben merken muss, wie sie verschlüsselt werden. Die Substitutionschiffre ist ein sog. monoalphabetisches Verschlüsselungsverfahren. Die Probleme dieser beiden Verschlüsselungen motivieren die folgende Chiffre, die nach dem französischen Diplomaten Blaise de Vigenère (1523-1596) benannt wurde. Zunächst wählt man sich ein Schlüsselwort, z.B. GEHEIM. Wenn man einen Text verschlüsseln will, schreibt man das Schlüsselwort Buchstabe für Buchstabe über den Klartext, so lange bis man die Länge des Klartextes erreicht hat, z.B. GEHEIMGEHEIMGEHEIMGEHEIMGEHEIMGE diesisteinesehrwichtigenachricht Nun werden die Buchstaben des Klartextes wie bei einer Verschiebungschiffre verschlüsselt. Anstelle der immer gleichen Verschiebung gibt nun der zugehörige Buchstabe des Schlüsselworts die Weite der Verschiebung an. Im Beispiel muss an der ersten Stelle das Alphabet um 6 Stellen nach hinten verschoben werden (a→G,. . .), d.h. dem Klartextzeichen d entspricht das Geheimzeichen J. Entsprechend wird das Alphabet an der zweiten Stelle um 4 Zeichen verschoben (a→E,. . .), so dass wir i durch M verschlüsseln. Da wir mehrere Alphabete verwenden, bezeichnet man derartige Verfahren auch als polyalphabetisch. Das Ergebnis der Verschlüsselung ist JMLWQEZIPRMEKLYAQONXPKMZGGOVQONX. 3.2 Primzahlen 15 Um die Arbeit etwas zu erleichtern, erzeugt man sich vor der Verschlüsselung die Vignère-Tabelle, in der alle möglichen Verschiebungen erfasst sind. Mit Hilfe der Tabelle kann die Verschlüsselung dann ganz mechanisch und sehr schnell durchgeführt werden. Die Vignère-Verschlüsselung behebt viele Probleme der Verschiebungschiffre. Zum einen gibt es, selbst wenn man nur kurze Schlüsselwörter zulässt, eine große Zahl von Schlüsseln (z.B. gibt es 265 = 11881376 Schlüsselwörter mit fünf Buchstaben), so dass ohne Computer ein Ausprobieren aller Schlüssel unmöglich ist. Zum anderen kann je nach Position im Geheimtext das gleiche Geheimtextzeichen für verschiedene Klartextzeichen stehen (im Beispiel steht G einmal für a und einmal für c). Eine einfache Analyse der Buchstabenverteilung wird uns daher nicht helfen. Trotzdem genügt das Vignère-Verfahren nicht einmal annäherend modernen Sicherheitsstandards. Wenn wir die Länge des Codewortes, in unserem Beispiel 6, kennen, dann betrachten wir nur jeden sechsten Buchstaben des Geheimtextes. Da an diesen Stellen immer das selbe Schlüsselzeichen verwendet wurde, ist der entsprechende Geheimtext wie bei der Verschiebungschiffre zu behandeln. Das Knacken einer VignèreVerschlüsselung haben wir auf diese Weise auf das Knacken von (im Beispiel sechs) Verschiebungschiffren zurückgeführt. Wir sehen, dass wir mehr mathematisches Wissen brauchen, um eine sicherere Verschlüsselungsmethode zu entwickeln. Ein bekanntes Verfahren ist das sog. RSAVerfahren. Dies nutzt Primzahlen und ihre Eigenschaften, die wir im folgenden Abschnitt einführen werden. 3.2 Primzahlen Um zu verstehen, wie man Nachrichten mit Primzahlen verschlüsseln kann, führen wir zunächst Primzahlen und den dafür essentiellen Begriff der Teilbarkeit ein. Definition 3.1. Eine ganze Zahl a heißt durch eine natürliche Zahl b teilbar, wenn es eine ganze Zahl n gibt, so dass a = n · b. Die Zahl b heißt in diesem Fall Teiler von a. Man schreibt dafür auch b|a, gelesen „b teilt a“. Besitzen zwei Zahlen a, b ∈ Z außer 1 keinen gemeinsamen Teiler, so nennt man sie teilerfremd. Beispiel 3.2. Die Zahl 15 besitzt die Teiler 1,3,5 und 15. Die Zahl 8 ist durch 1,2,4 und 8 teilbar. Die Zahlen 15 und 8 sind teilerfremd. Mit elementaren Mitteln kann man zeigen Bemerkung 3.1. Für zwei Zahlen a, b ∈ N mit a|b ist a ≤ b. Da Zahlen, die außer sich selbst und der 1 keine weiteren Teiler besitzen, besondere Zahlen sind, erhalten sie einen eigenen Namen. Definition 3.2. Eine natürliche Zahl p > 1, die nur durch sich selbst und durch 1 teilbar ist, heißt Primzahl. Beispiel 3.3. Die Zahlen 2 und 3 sind Primzahlen. Die Zahl 4 ist hingegen keine Primzahl, weil sie neben 1 und 4 auch den Teiler 2 hat. Jetzt könnte man sich fragen, wie viele Primzahlen es denn überhaupt gibt. Diese Frage beantwortet der folgende Satz. 16 3 PRIMZAHLEN UND KRYPTOLOGIE Satz 3.1 (Euklid). Es gibt unendlich viele Primzahlen. Beweis. Wir beweisen diesen Satz indirekt. Qn Angenommen, es gäbe nur endlich viele Primzahlen p1 , . . . , pn . Wir setzen P = i=1 pi + 1 = p1 · · · pn + 1. Nach Definition ist P größer als jede Primzahl, kann also selber keine Primzahl sein. Daher wird P von einer Zahl a mit 1 < a < P geteilt. Wir wählen das kleinste solche a und behaupten, dass dieses a eine Primzahl sein muss. Wäre a nämlich keine Primzahl, so hätte a einen Teiler b mit 1 < b < a. Dieser wäre dann auch ein Teiler von P , im Widerspruch zur Minimalität von a. Also Q stimmt der Teiler a von P mit einem der pj überein. Nun teilt pj das Produkt ni=1 pi , aber nicht die 1, somit kann pj nicht P teilen. Wir erhalten also einen Widerspruch. Ein Resultat, das wir schon aus der Schule kennen, ist die Division mit Rest. Satz 3.2 (Division mit Rest). Es seien a ∈ Z und b ∈ N. Dann gibt es eindeutig bestimmte Zahlen q, r ∈ Z zu a, b, so dass gilt: a = qb + r mit 0 ≤ r < b. Die Zahl q heißt Quotient, die Zahl r Rest. Im Falle a ≥ 0 gilt stets q ≥ 0. Beweis. Existenz: Die Menge A = {x ∈ N0 : x = a − zb, z ∈ Z} ⊂ N0 ist nicht leer: Falls a ≥ 0, so ist a ∈ A; falls a < 0, so gilt a − ab = a(1 − b) ∈ A, da a < 0 und 1 − b ≤ 0 die Ungleichung a(1 − b) ≥ 0 zur Folge hat. Sei nun r das kleinste Element von A. Dann gibt es ein q ∈ Z mit r = a − qb ≥ 0. Es gilt r < b, da sonst die Zahl a − (q + 1)b = r − b ebenfalls nicht negativ, aber kleiner als r wäre, was der Minimalität von r widerspräche. Für a ≥ 0 muss q ≥ 0 gelten, denn q ≤ −1 bzw. −q ≥ 1 führt zu r = a − qb ≥ b. Eindeutigkeit: Für a sei neben a = qb + r eine weitere Gleichung a = q 0 b + r0 0 gegeben, wobei q 0 , r0 ∈ Z mit 0 ≤ r0 < b. Dann gilt r−r0 = (q 0 −q)b, also q 0 −q = r−r . b r−r0 0 0 Wegen 0 ≤ r < b und 0 ≤ r < b gilt −b < r − r < b, also −1 < b < 1. Da aber q 0 − q ∈ Z, ist q 0 − q = 0, d.h. q 0 = q und damit auch r0 = r. Definition 3.3. Sind a, b ∈ Z zwei Zahlen, so nennen wir c = ggT(a, b) ∈ N den größten gemeinsamen Teiler von a und b, wenn c ein Teiler sowohl von a als auch von b ist, und für jeden gemeinsamen Teiler d ∈ N von a und b gilt d ≤ c. Da ein Teiler d von a nach Bemerkung 3.1 die Ungleichung d ≤ a erfüllt, kann a nur endlich viele Teiler besitzen. Darunter gibt es dann auch einen größten. Mit Hilfe der Division mit Rest leiten wir folgenden Hilfssatz her: Satz 3.3. Seien a, b ∈ Z, nicht beide = 0, und c = ggT(a, b). Dann gibt es Zahlen x, y ∈ Z mit c = xa + yb. Beweis. Sei m die kleinste natürliche Zahl in der Menge L = {xa + yb : x, y ∈ Z} 3.2 Primzahlen 17 der ganzzahligen Linearkombinationen von a und b. Wir werden zeigen, dass m mit dem c übereinstimmt. Da c ein gemeinsamer Teiler von a und b ist, teilt c jede Zahl in L, insbesondere also auch m. Andererseits gilt m|a, denn a ∈ L, qm ∈ L für alle q ∈ Z und somit a − qm ∈ L. Division mit Rest von a durch m kann aber keinen Rest 6= 0 ergeben, da m ∈ L ∩ N minimal gewählt war. Also muss m ein Teiler von a sein. Mit dem gleichen Argument zeigt man m|b, also m ≤ c. Mit c|m folgt daraus nach Bemerkung 3.1 c = m. Es existieren also x, y ∈ Z mit xa + yb = c. Wir haben zwar den größten gemeinsamen Teiler eingeführt, doch für große Zahlen wäre es sehr mühsam, ihn durch Primfaktorzerlegung (vgl. Satz 3.7) beider Zahlen zu bestimmen. Stattdessen nutzt man den Euklidischen Algorithmus, den wir im nächsten Satz kennenlernen. Satz 3.4 (Euklidischer Algorithmus). Es seien a, b ∈ N mit a ≥ b. Man setze a0 = a und a1 = b und bilde sukzessive folgende Kette von Divisionen mit Rest: mit q1 , a2 ∈ Z, 0 ≤ a2 < a1 , mit q2 , a3 ∈ Z, 0 ≤ a3 < a2 , .. . mit qn−1 , an ∈ Z, 0 ≤ an < an−1 . a0 = q 1 a1 + a2 a1 = q 2 a2 + a3 .. . an−2 = qn−1 an−1 + an Dann gibt es einen ersten Index k, 1 ≤ k ≤ b, so dass gilt: ak > 0, ak+1 = 0. Die Zahl ak ist dann der größte gemeinsame Teiler von a und b. Beweis. Wegen b = a1 > a2 > a3 > . . . und a1 ≥ 1 gibt es einen ersten Index k mit 1 ≤ k ≤ b, so dass ak > 0 aber ak+1 = 0. Dann hat man also als k-te Gleichung ak−1 = qk ak . Durchläuft man die Kette der Gleichungen für die ai von unten nach oben, so erhält man nacheinander: ak |ak−1 , ak |ak−2 , . . . , ak |a1 , ak |a0 . Durchläuft man hingegen die Gleichungskette von oben nach unten, so folgt für jeden gemeinsamen Teiler c von a0 und a1 nacheinander: c|a0 , c|a1 , c|a2 , . . . , c|ak . Somit hat ak die Eigenschaften eines größten gemeinsamen Teilers, d.h. es gilt ak = ggT(a0 , a1 ) = ggT(a, b). Beispiel 3.4. Zu bestimmen sei der größte gemeinsame Teiler von 531 und 93. Gemäß Satz 3.4 rechnen wir 531 93 66 27 12 = = = = = 5 · 93 + 66 1 · 66 + 27 2 · 27 + 12 2 · 12 + 3 4·3 Aus der letzten Gleichung entnehmen wir ggT(531, 93) = 3 = a5 . Wegen 617 = 1 · 379 + 238 379 = 1 · 238 + 141 238 = 1 · 141 + 97 141 = 1 · 97 + 44 erhalten wir ggT(617, 379) = 1. 97 = 2 · 44 + 9 44 = 4 · 9 + 8 9=1·8+1 8=8·1 18 3 PRIMZAHLEN UND KRYPTOLOGIE Ein Hilfsmittel für die folgenden Betrachtungen ist Lemma 3.5 (Fundamentallemma). Teilt eine Primzahl p ein Produkt a · b zweier Zahlen a, b ∈ N, so teilt p einen der Faktoren. Beweis. Wenn p|a, dann gilt die Aussage. Nehmen wir also an, dass p die Zahl a nicht teilt. Dann gilt ggT(a, p) = 1. Nach Satz 3.3 gibt es dann Zahlen x, y ∈ Z mit xa + yp = 1. Durch Multiplikation mit b folgt daraus b = (ab)x + byp. Da p beide Summanden teilt, muss p auch b teilen. Die Aussage bleibt richtig, wenn wir sie für Zahlen a, b ∈ Z formulieren. Aus dem Fundamentallemma folgt durch vollständige Induktion nach n Korollar 3.6. Teilt eine Primzahl p ein Produkt a1 · · · an aus n Zahlen a1 , . . . , an ∈ N, so teilt p einen der Faktoren. Lemma 3.5 bzw. Korollar 3.6 werden im Beweis des folgenden grundlegenden Satzes der Zahlenthoerie über die Primfaktorzerlegung natürlicher Zahlen verwendet. Satz 3.7. Jede natürliche Zahl m > 1 besitzt eine eindeutige Darstellung m = p1 · p2 · · · pn als Produkt von endlich vielen Primzahlen p1 ≤ p2 ≤ . . . ≤ pn . Beweis. Der Satz besteht aus zwei Teilen: Der Existenz einer solchen Darstellung und der Eindeutigkeit derselben. Existenz: Angenommen, es gäbe natürliche Zahlen, die sich nicht als Produkt von Primzahlen schreiben lassen. Sei m die kleinste dieser natürlichen Zahlen. Die Zahl m kann keine Primzahl sein, da sie sonst eine Zerlegung in den einen Primfaktor m besäße. Es gibt also a, b ∈ N mit a, b ≥ 2, so dass m = a · b. Da wegen a, b ≥ 2 nach Bemerkung 3.1 a, b < m gilt, besitzen a und b nach Wahl von m Primfaktorzerlegungen a = p1 · · · pn und b = q1 · · · qk . Daraus folgt jedoch m = a · b = p1 · · · pn · q1 · · · qk , m besitzt also doch eine Primfaktorzerlegung im Widerspruch zur Annahme. Eindeutigkeit: Angenommen, es gäbe natürliche Zahlen, für die die Darstellung nicht eindeutig ist. Sei m die kleinste derartige Zahl. Sie besitze die Darstellungen m = p1 · · · pn = q1 · · · qk . Auf die Sortierung der Primfaktoren nach ihrer Größe verzichten wir im Moment. Es genügt, nachzuweisen, dass die Anzahlen der Primfaktoren übereinstimmen und auf beiden Seiten die gleichen Primfaktoren vorkommen. Da die Primzahl p1 das Produkt m = q1 · · · qk teilt, muss sie nach Korollar 3.6 einen der Faktoren q1 , . . . , qk teilen. Es gibt also einen Index j zwischen 1 und k, so dass p1 |qj . Da qj eine Primzahl ist, muss gelten p1 = qj . Die natürliche Zahl m = p2 · · · pn = q1 · · · qj−1 · qj+1 · · · qk ist kleiner als m und ihre Primfaktorzerlegung p1 ist deshalb eindeutig, wenn man die Primfaktoren der Größe nach sortiert. Insbesondere stimmen die Anzahlen der Primfaktoren n − 1 und k − 1 (und somit n und k) überein. Zudem bestehen beide Darstellungen aus den gleichen Faktoren. Durch Multiplikation mit p1 = qj folgt, dass auch die Darstellungen von m übereinstimmen, was unserer Annahme widerspricht. Beispiel 3.5. Die Zahl 165 ist eindeutig darstellbar als 165 = 3 · 5 · 11. Die Zahl 540 besitzt die Darstellung 540 = 2 · 2 · 3 · 3 · 3 · 5. Es können also durchaus einige Primfaktoren mehrfach vorkommen. Satz 3.7 kann auch dazu verwendet werden, den größten gemeinsamen Teiler oder das kleinste gemeinsame Vielfache zweier Zahlen zu bestimmen. 3.3 Das RSA-Verfahren 3.3 19 Das RSA-Verfahren Ausgehend von Satz 3.2 können wir bei festgehaltener Zahl d ∈ N die Zahlen a ∈ Z anhand ihres nach der Division durch d verbleibenden Restes in Klassen zusammenfassen. Beispielsweise haben u.a. die Zahlen −18, −13, −8, −3, 2, 7, 12, 17 bei Division durch 5 alle den Rest 2. Haben zwei Zahlen a, b ∈ Z nach Division durch eine Zahl d ∈ N den gleichen Rest, so sagt man auch, dass a und b kongruent modulo d sind. Formal definiert man Definition 3.4. Sei d ∈ N. Eine Zahl a ∈ Z heißt kongruent zu b modulo d, wenn d|(a − b). Man schreibt dann a ≡ b mod d. Zur Definition ist äquivalent: Es gibt ein q ∈ Z mit a = b + qd. Schon anhand der Definition erkennt man, dass die Beziehung symmetrisch ist, d.h. a ≡ b mod d bedeutet das Gleiche wie b ≡ a mod d. Dass zwei zueinander kongruente Zahlen tatsächlich den gleichen Rest besitzen, sagt uns die nächjste Proposition. Proposition 3.8. Zwei Zahlen a, b ∈ Z sind genau dann kongruent modulo d ∈ N, wenn sie bei Division durch d den gleichen Rest besitzen. Beweis. Wir teilen den Beweis gemäß Proposition 1.1 in zwei Richtungen auf. ⇐: Gelte a = q1 d + r und b = q2 d + r, beide Zahlen besitzen bei Division durch d also den gleichen Rest r. Dann gilt a − b = q1 d + r − q2 d − r = (q1 − q2 )d. Dieser Term ist aber durch d teilbar. ⇒: Sei a − b durch d teilbar, d.h. es gibt ein q ∈ Z mit a = b + qd. Hat b bei Division durch d den Rest r, d.h. ist b darstellbar als b = pd + r mit p ∈ Z und r ∈ N0 , dann folgt a = b + qd = (p + q)d + r. Daher hat a ebenfalls den Rest r. Mit elementaren Rechnungen leitet man folgende Rechenregeln her: Proposition 3.9. Sind a ≡ a0 mod d und b ≡ b0 mod d, dann gelten (a) a + b ≡ a0 + b0 mod d; (b) a − b ≡ a0 − b0 mod d; (c) a · b ≡ a0 · b0 mod d. Ist d eine Primzahl, so gilt außerdem a·b≡0 mod d ⇔ (a ≡ 0 mod d ∨ b ≡ 0 mod d). Beweis. zu (a): Wenn d|(a − a0 ) und d|(b − b0 ), dann ist auch a + b − (a0 + b0 ) = (a − a0 ) + (b − b0 ) durch d teilbar. zu (b): Mit a − a0 und b − b0 ist auch a − b − (a0 − b0 ) = (a − a0 ) − (b − b0 ) durch d teilbar. zu (c): Wenn d|(a − a0 ) und d|(b − b0 ), dann ist d auch ein Teiler von ab − a0 b0 = ab − a0 b + a0 b − a0 b0 = (a − a0 )b + a0 (b − b0 ). a · b ≡ 0 mod d ist nach Definition äquivalent zu d|ab. Ist d ein Teiler von a oder b, so ist d auch ein Teiler von ab. Andererseits muss nach dem Fundamentallemma 3.5 d schon einen der Faktoren teilen, wenn es das Produkt beider teilt. Dass der letzte Teil der Proposition 3.9 falsch ist, wenn d keine Primzahl ist, verdeutlicht das folgende Beispiel: 20 3 PRIMZAHLEN UND KRYPTOLOGIE Beispiel 3.6. Weder 2 noch 3 ist durch 6 teilbar, es gilt jedoch 2 · 3 = 6 ≡ 0 mod 6. Satz 3.10 (Kleiner Satz von Fermat). Sei p eine Primzahl und a ∈ Z. Dann gilt ap ≡ a mod p. Ist a kein Vielfaches von p, so ist insbesondere ap−1 ≡ 1 mod p. Beweis. Ist a Vielfaches von p, dann ist ap − a durch p teilbar, die Gleichung ist also richtig. Ist a kein Vielfaches von p, so bilden wir die Produkte a, 2a, . . . , (p − 1)a. Division mit Rest durch p gemäß Satz 3.2 liefert die Gleichungen ka = qk p + rk , 0 ≤ rk < p, k = 1, . . . , p − 1. Da p weder k noch a teilt, kann nach dem Fundamentallemma 3.5 auch ka nicht durch p teilbar sein. Daher sind auch alle rk , k = 1, . . . , p−1, nicht durch p teilbar, die Reste sind also insbesondere ungleich 0. Wir behaupten, dass alle Reste r1 , . . . , rp−1 paarweise verschieden sind: Wäre dem nicht so, würde aus ri = rj nämlich folgen, dass (i − j)a = (qi − qj )p durch p teilbar ist. Da p nicht a teilt, muss p nach dem Fundamentallemma 3.5 i − j teilen. Wegen |i − j| < p müsste dann jedoch i = j sein. Wir sehen somit a ≡ r1 mod p ∧ 2a ≡ r2 mod p ∧ ··· ∧ (p − 1)a ≡ rp−1 mod p. (∗) Da die p − 1 Reste aus {1, . . . , p − 1} stammen und paarweise verschieden sind, gilt bereits {r1 , . . . , rp−1 } = {1, . . . , p − 1}. Setzen wir c= p−1 Y rj = j=1 p−1 Y j = (p − 1)!, j=1 so folgt aus Proposition 3.9(c) durch Multiplikation aller Gleichungen aus (∗) cap−1 ≡ c mod p bzw. p|(ap−1 − 1)c. Da c nicht durch p teilbar ist, muss gemäß dem Fundamentallemma ap−1 − 1 durch p teilbar sein, es gilt also ap−1 ≡ 1 mod p. Durch Multiplikation mit a folgt nach Proposition 3.9(c) ap ≡ a mod p. Satz 3.11 (Euler). Sind p und q verschiedene Primzahlen und ist a ∈ Z weder durch p noch durch q teilbar, dann gilt a(p−1)(q−1) ≡ 1 mod pq. Beweis. Aus dem kleinen Satz von Fermat 3.10 folgt mit Proposition 3.9 a(p−1)(q−1) = (ap−1 )q−1 ≡ 1q−1 mod p ≡ 1 mod p a(p−1)(q−1) = (aq−1 )p−1 ≡ 1p−1 mod q ≡ 1 mod q. und Nach Definition ist also a(p−1)(q−1) −1 sowohl durch p als auch durch q teilbar. Folglich ist a(p−1)(q−1) − 1 auch durch p · q teilbar, d.h. es gilt a(p−1)(q−1) ≡ 1 mod pq. 21 Basierend auf den Sätzen von Euler und Fermat entwickelten Ronald Linn Rivest (*1947), Adi Shamir (*1952) und Leonard Adleman (*1945) im Jahr 1977 ein Verschlüsselungsverfahren, das ihnen zu Ehren als RSA-Verfahren bezeichnet wird. Machen wir die Vorgehensweise anhand eines kleinen Beispiels klar: Bob wählt zwei große Primzahlen p 6= q („groß“ heißt hier oft p, q > 10100 ). Er berechnet die Produkte n = pq und m = (p − 1)(q − 1) und wählt eine zu m teilerfremde Zahl e mit 1 < e < m. Er bestimmt weiterhin ein d ∈ N mit ed ≡ 1 mod m. Dieses existiert wegen Satz 3.3. Bob macht die Zahlen n und e öffentlich bekannt, hält aber d geheim. Alice kann nun an Bob eine Nachricht senden, die aus einer oder mehreren Zahlen aus {1, 2, . . . , n − 1} besteht. Für eine Zahl t ∈ {1, 2, . . . , n − 1} berechnet sie dazu s ≡ te mod n und sendet dies an Bob. Nach Wahl von d gibt es eine Zahl k ∈ N, so dass de = km + 1. Bob berechnet nun sd ≡ (te )d = ted = tkm+1 = (tm )k · t ≡ t mod n, er erhält somit die zu sendende Nachricht. Beispiel 3.7. Sei p = 5 und q = 11, also n = 55 und m = (p − 1)(q − 1) = 40. Der Schlüssel e soll zu 40 teilerfremd sein, er darf also nicht durch 2 oder 5 teilbar sein. Wir wählen e = 7. Der Wert d ist nun durch die Gleichung de ≡ 1 mod m bestimmt. Wir suchen also einen Wert 40k + 1, der durch 7 teilbar ist. Dies ist 161 = 23. Die Zahlen n = 55 und e = 7 werden bekannt (für k = 4), also d = 161 7 gegeben. Jemand, der die Nachricht 32 an uns übermitteln möchte, berechnet 327 = 34 359 738 368 ≡ 43 mod 55 und übermittelt 43. Um die Nachricht zu entschlüsseln, rechnen wir 4323 = 37 134 234 731 477 575 983 465 092 780 473 537 507 ≡ 32 mod 55. Bei diesem Verfahren mit öffentlichem Schlüssel (e, n) kennt jeder den Schlüssel. Ist das Verfahren dann überhaupt sicher, d.h. kann ein Fremder, der die Nachricht s ebenfalls empfangen hat, diese nur mit dem Wissen von e und n entschlüsseln? Wenn p und q sehr groß sind, dann kann man leicht n = pq und m = (p − 1)(q − 1) berechnen, n bzw. m jedoch zu faktorisieren, ist in angemessener Zeit unmöglich. Die Bestimmung von d ist vom gleichen Schwierigkeitsgrad wie die Faktorisierung von n. 4 Codierung Codierungstheorie ist ein Zweig der Mathematik, der uns in vielen Bereichen unseres Lebens begegnet. Beispielsweise ist in der Partitur eines musikalischen Werkes codiert, welche Töne wie lange in welcher Ausführung und in welcher Lautstärke gespielt werden sollen. Ein geübter Musiker kann diese Informationen leicht mit einem geeigneten Instrument decodieren. Auch im Bildmuster der Online-Bahnfahrkarte, in Barcodes, Buchnummern oder Artikelnummern sind Informationen codiert. Weniger offensichtlich ist die Anwendung der Codierungstheorie beim Erstellen und Abspielen von CDs und auf Kreditkarten. Codierungen sind in gewisser Weise mit der Verschlüsselung verwandt, da in beiden Fällen das eigentlich Gemeinte in Zeichen übersetzt wird. Im Gegensatz zur Kryptologie können die codierten Informationen 22 4 CODIERUNG jedoch prinzipiell von jedermann wieder zurück übersetzt werden, manchmal unter Zuhilfenahme geeigneter Geräte. Ein Schlüssel ist dazu nicht erforderlich. Im Folgenden wollen wir uns anhand einiger einfacher Beispiele ansehen, wie die Codierungstheorie funktioniert. 4.1 Die Europäische Artikelnummer (EAN) Auf allen Dingen des täglichen Bedarfs finden wir sog. Barcodes. Der Name leitet sich ab vom englischen Wort bar, was übersetzt Strich oder Balken bedeutet. In ihm ist die Zahl codiert, die darunter steht. Die ersten beiden Ziffern stehen für das Land, aus dem die Ware kommt. 40, 41, . . . stehen für Deutschland, 80, . . . für Italien. Große Länder haben mehrere Nummern, kleine nur eine. Dann folgen i.a. fünf Ziffern für die Herstellerfirma und fünf weitere Ziffern für die Ware. Die letzte Ziffer ist eine Prüfziffer. Doch wie prüft eine Scannerkasse mit Hilfe der Prüfziffer die Artikelnummer auf ihre Gültigkeit? Zur Prüfung multipliziert man die Ziffern abwechselnd mit 1 und 3 und addiert die Ergebnisse. Auf diese Weise erhält man die Prüfsumme S. Die Artikelnummer ist gültig, wenn S≡0 mod 10, d.h. wenn die Prüfsumme ohne Rest durch 10 teilbar ist. Andernfalls ist die Artikelnummer ungültig. Beispiel 4.1. Durch Nachrechnen wollen wir prüfen, ob 4 007396 079005 eine gültige Artikelnummer ist. Dazu berechnen wir die Prüfsumme 4 · 1 + 0 · 3 + 0 · 1 + 7 · 3 + 3 · 1 + 9 · 3 + 6 · 1 + 0 · 3 + 7 · 1 + 9 · 3 + 0 · 1 + 0 · 3 + 5 · 1 = 100. Da die Prüfsumme durch 10 teilbar ist, ist sie gültig. Bei der Erzeugung der EAN für einen neuen Artikel rechnet man zunächst die Prüfsumme nur mit zwölf Ziffern aus, in unserem Beispiel hätte sich 95 ergeben. Die Prüfziffer wählt man dann so, dass die Prüfsumme zu einer durch 10 teilbaren Zahl ergänzt wird. Lese- oder Tippfehler führen in vielen Fällen zu einer falschen Prüfsumme. Wir betrachten zunächst den Fall, in dem eine Ziffer falsch getippt wurde. An den Plätzen, die mit 1 multipliziert werden, entsteht die größte Änderung durch Vertauschung von 0 und 9. Durch eine falsche Ziffer an einer 1er Stelle kann sich also die Prüfziffer nicht um einen vollen Zehner ändern. Tippt man an einer Stelle, die mit 3 multipliziert wird, x statt y, dann ändert sich die Prüfsumme um 3 · (x − y). Da x − y maximal 9 werden kann, ist diese Änderung nicht durch 10 teilbar und wir erhalten bei Division der Prüfsumme durch 10 den nicht verschwindenden Rest 3·(x−y). Alle Einzelfehler können also anhand einer falschen Prüfsumme erkannt werden. Treten jedoch mehrere Einzelfehler auf, so kann es passieren, dass die falsche Prüfsumme trotzdem durch 10 teilbar ist und die Fehler somit nicht erkannt werden. Häufig geschehen beim Eintippen auch Zahlendreher. Betrachten wir also zwei Nachbarziffern x und y. In einer Stellung tragen Sie x + 3y zur Prüfsumme bei, in der verdrehten Stellung ist ihr Beitrag 3x + y. Dieser Zahlendreher wird nicht bemerkt, wenn der Unterschied der beiden Beträge durch 10 teilbar ist, wenn also eine ganze Zahl z ∈ Z\{0} existiert mit 3x + y − (x + 3y) = 10 · z. 4.2 Die ISBN-10-Nummer 23 Dies ist äquivalent zu 2(x − y) = 10z bzw. x − y = 5z. Da die linke Seite höchstens gleich 9 sein kann, kommen für z nur die Werte 1 und −1 infrage. Zifferndreher werden also nicht erkannt, wenn sich die verdrehten Ziffern um 5 unterscheiden. Dies betrifft die Zahlenpaare (5, 0), (6, 1), (7, 2), (8, 3) und (9, 4). Alle anderen Zifferndreher führen zu einer falschen Prüfsumme und werden bemerkt. Mit kombinatorischen Mitteln (vgl. Kapitel 6) kann man zeigen, dass es viel mehr Ziffernpaare gibt, bei denen ein Zifferndreher auffällt. Vertauschungen von Stellen mit gleichen Gewichtsfaktoren führen zur gleichen Prüfsumme und fallen daher nie auf. 4.2 Die ISBN-10-Nummer Bis zum Jahr 2006 wurde zur Codierung von Büchern die zehnstellige ISBN (International Standard Book Number) verwendet. In ihr sind die Sprache (z.B. „3“ für Deutsch, „0“ oder „1“ für Englisch), der Verlag und der Titel (zusammen 8 Stellen) codiert. Die Zahl endet mit einer Prüfziffer, für die neben den Ziffern 0, . . . , 9 auch die Ziffer X (entspricht der Zahl 10) möglich ist. Sei a1 a2 . . . a10 die ISBN. Zur Prüfung berechnet man die Prüfsumme 10 · a1 + 9 · a2 + · · · + 2 · a9 + 1 · a10 . Ist das Ergenis durch 11 teilbar, akzeptiert man die ISBN. Beispiel 4.2. Das englischsprachige Buch „Harry Potter and the Order of the Phoenix“ besitzt die ISBN-10-Nummer 0-7475-5100-6. Als Prüfsumme erhält man S = 10·0+9·7+8·4+7·7+6·5+5·5+4·1+3·0+2·0+1·6 = 63+32+49+30+25+4+6 = 209. Das Ergebnis ist wegen 209 = 11 · 19 durch 11 teilbar und die ISBN daher gültig. Zur Berechnung der Prüfziffer a10 bildet man z = 10 · a1 + 9 · a2 + · · · + 3 · a8 + 2 · a9 . Wenn z ≡ r mod 11, dann wähle man die Prüfziffer a10 = 11 − r. Beispiel 4.3. Wir wollen die Prüfziffer des Buches „Fräulein Smillas Gespür für Schnee“ berechnen. Die ersten 9 Stellen lauten 3-499-13599. Es gilt 10·3 + 9·4+8·9+7·9+6·1+5·3+4·5+3·9+2·9 = 287 = 26·11+1 ≡ 1 mod 11. Wegen 11 − 1 = 10 müssen wir als Prüfziffer also X wählen. Ähnlich wie bei der EAN werden auch bei der ISBN alle Einzelfehler erkannt. Zum Beweis betrachten wir eine ISBN a1 a2 . . . a10 . An der i-ten Stelle werde fälschlicherweise bi statt ai eingetippt. Wir erhalten also die Prüfsummen 10 · a1 + 9 · a2 + · · · + (11 − i) · ai + · · · + 1 · a10 = x · 11 (x ∈ Z) und 10 · a1 + 9 · a2 + · · · + (11 − i) · bi + · · · + 1 · a10 . Der Fehler fällt nur dann nicht auf, wenn auch die falsche Prüfsumme ein ganzzahliges Vielfaches y · 11 von 11 ist. Durch Subtraktion beider Gleichungen erhalten wir (11 − i)(ai − bi ) = (x − y) · 11, wobei x − y eine ganze Zahl ist. Da 11 eine Primzahl ist, müsste im Fall x − y 6= 0 einer der beiden Faktoren auf der linken Seite durch 11 teilbar sein. Wegen 0 ≤ |ai − bi | ≤ 10 und 1 ≤ 11 − i ≤ 10 ist dies unmöglich. Daher folgt x − y = 0 bzw. x = y und somit ai = bi . 24 4 CODIERUNG Im Gegensatz zur EAN erkennt die ISBN das Vertauschen zweier Ziffern auf jeden Fall. Zum Beweis nehmen wir an, dass die i-te und k-te Stelle einer ISBN vertauscht sind. Der Fehler wird nur dann nicht bemerkt, wenn die Prüfsumme der falschen Zahl ebenfalls wieder ein ganzzahliges Vielfaches von 11 ist, d.h. wenn gilt 10 · a1 + 9 · a2 + · · · + (11 − i) · ai + · · · + (11 − k) · ak + · · · + a10 = x · 11 10 · a1 + 9 · a2 + · · · + (11 − i) · ak + · · · + (11 − k) · ai + · · · + a10 = y · 11 mit x, y ∈ Z. Durch Subtraktion erhalten wir (11 − i)(ai − ak ) + (11 − k)(ak − ai ) = (x − y) · 11 bzw. (ai − ak ) · (k − i) = (x − y) · 11. Es gilt 0 ≤ |k − i| ≤ 9. Für k 6= i und x 6= y kann die Gleichung nur dann richtig sein, wenn 11 ein Teiler von ai − ak ist. Wegen 0 ≤ |ai − ak | ≤ 10 kann dies nie der Fall sein, so dass ai = ak folgt. Eine Vertauschung verschiedener Ziffern wird also immer erkannt. Da nicht mehr genug ISBN-10-Nummern zur Verfügung standen, wurde dieser Code durch den ISBN-13-Code ersetzt. Er ist eine Variante der EAN. Auf die drei Ziffern 978 oder 979 (für Zeitschriften 977) folgt die alte ISBN-Nummer ohne Prüfziffer. An der letzten Stelle wird die Nummer durch die wie bei der EAN berechneten Prüfziffer ergänzt. Durch diese Umstellung werden nun nicht mehr alle Zahlendreher bemerkt. Dies ist jedoch kein großer Nachteil, da die Buchnummer kaum noch per Hand geschrieben oder getippt werden muss. 4.3 Der Hamming-Code Nachdem wir in den beiden vorangegangenen Abschnitten Codierungen kennengelernt haben, die bestimmte Fehler entdecken können, wollen wir uns nun einen Code näher ansehen, der gewisse Fehler nicht nur entdecken kann, sondern sogar die Korrektur derselben erlaubt. Der Code wurde von Richard Hamming (1915-1998) zu Beginn des Computerzeitalters 1948 entwickelt. Computer arbeiten mit Strom und können gut zwischen den beiden Zuständen „kein Strom“ und „Strom“ unterscheiden. Eine Unterscheidung nach der Menge des Stroms findet dagegen nicht statt. Daher werden Daten in der digitalen Welt in Form von langen Ketten von Nullen und Einsen (sog. Bitfolgen) dargestellt. Definition 4.1. Die Parität einer Bitfolge ist 0, wenn die Anzahl der 1 in der Folge gerade ist. Die Parität einer Bitfolge ist 1, wenn die Anzahl der 1 in der Folge ungerade ist. Beispiel 4.4. Die Parität von 11101011 ist 0, die Parität von 11101010 ist 1. Zu je vier zu sendenden Bits werden drei Korrekturbits berechnet und angehängt. Zur Berechnung wird die soeben definierte Parität herangezogen. Die folgende Abbildung illustriert das Vorgehen anhand der zu codierenden Nachricht 1011: 5 0 6 1 1 1 4 0 1 1 2 3 0 7 4.3 Der Hamming-Code 25 Die Nachricht schreibt man in die blauen Felder 1, 2, 3 und 4. In die grünen Felder tragen wir die Paritäten der im zugehörigen Kreis enthaltenen Bitfolge ein. Der Kreis 5 enthält beispielsweise die Bits 1, 0 und 1, die Parität ist also 0. Die so erhaltenen Korrekturbits aus 5, 6 und 7 hängen wir an die ursprüngliche Nachricht 1011 an, übermittelt wird also die Nachricht 1011010. Der Empfänger trägt die sieben Bits wieder in die sieben Felder ein und prüft, ob alles richtig ist. Die Nachricht kann er dann aus den Feldern 1, 2, 3 und 4 ablesen. Bei der Übertragung können jedoch einzelne Bits falsch (oder gar nicht) übertragen werden. Tritt nur an einer einzigen Stelle ein Fehler auf, so gibt es drei Fehlertypen: Typ1: Eines der ersten drei Bits ist falsch übermittelt worden, wir haben also beispielsweise die Nachricht 0011010 empfangen. Dann zeigt aber Bit 5 etwas Falsches an, denn die Felder 1, 2 und 4 enthalten nun nur eine 1, die Parität müsste also 1 sein. Ebenso passt der Eintrag in Feld 6 nicht mehr. In Feld 7 steht dagegen weiterhin das Richtige. Da nur ein Fehler aufgetreten ist, kann der Empfänger schließen, dass Feld 1 falsch sein muss. Der Empfänger korrigiert den Fehler und nimmt 1011010 als Nachricht an. Ebenso können Einzelfehler in Feld 2 oder 3 korrigiert werden. Typ 2: Wurde das vierte Bit falsch übermittelt, so sind ebenfalls die Felder 5 und 6 falsch, aber auch Feld 7. Hieraus schließt der Empfänger, dass Bit 4 falsch angekommen ist und korrigiert es. Typ 3: Ist eines der drei Korrekturbits falsch übermittelt worden, so hat dies nur Auswirkungen auf das zugehörige Feld, die anderen Felder bleiben davon unberührt. Wurde beispielsweise Bit 5 falsch gesendet, so ist nur der Wert in Feld 5 falsch. Der Empfänger schließt also, dass Bit 5 falsch ist, und korrigiert es. Der Hamming-Code kann somit alle Einzelfehler korrigieren. Wenn also in einer sehr langen Bitfolge in jedem Siebenerblock maximal ein Übertragungsfehler auftritt, wird die Nachricht trotzdem richtig empfangen. Eine Verbesserung kann man z.B. dadurch erreichen, dass man gar nicht alle 0-1-Folgen der betrachteten Länge als Codewörter zulässt. In diesem Zusammenhang ist der Begriff des Hamming-Abstandes von Bedeutung: Definition 4.2. Sei C die Menge aller Codewörter einer vorgegebenen Länge n. Der Hamming-Abstand zweier Bitfolgen a = (a1 , . . . , an ) und b = (b1 , . . . , bn ) aus {0, 1}n ist definiert durch dH (a, b) = |{i ∈ {1, . . . , n} : ai 6= bi }|. Der Wert dC = min dH (a, b) a,b∈C a6=b heißt Minimalabstand des Codes C. Der Hamming-Abstand gibt also an, an wie vielen Stellen sich zwei Bitfolgen unterscheiden. Beispiel 4.5. Die beiden Codewörter 1011010 und 1001001 unterscheiden sich an drei Stellen, haben also Hamming-Abstand dH (1011010, 1001001) = 3. Durch Betrachten aller 16 möglichen Codewörter findet man heraus, dass dC = 3. 26 4 CODIERUNG Man definiert Bk (a) = {b ∈ {0, 1}n : dH (a, b) ≤ k}. Diese Menge enthält alle 0-1-Folgen der Länge n, die sich vom Codewort a an maximal k Stellen unterscheiden. Definition 4.3. Ein Code C ⊂ {0, 1}n ist k-fehlererkennend, wenn für jedes Codewort a ∈ C jedes Tupel b ∈ Bk (a)\{a} (das sich also von a an mindestens einer und höchstens k Stellen unterscheidet) nicht in C liegt und damit als fehlerhaft erkannt wird. Der Code C ist k-fehlerkorrigierend, wenn für jedes Codewort a ∈ C und für jedes Tupel b ∈ Bk (a) (das sich also von a an höchstens k Stellen unterscheidet) a das eindeutig nächste Codewort zu b ist und damit die ≤ k Fehler in b durch Suche nach dem nächsten Codewort korrigiert werden können. Bemerkung 4.1. Dass ein Code C k-fehlererkennend ist, kann man formal auch ausdrücken durch ∀a ∈ C : Bk (a) ∩ C = {a}. Der Code C ist genau dann k-fehlerkorrigierend, wenn ∀a, b ∈ C : a 6= b ⇒ Bk (a) ∩ Bk (b) = ∅ . In der Informatik beweist man den Satz Satz 4.1. Ein Code C ist genau dann k-fehlererkennend, wenn dC ≥ k + 1. Er ist genau dann k-fehlerkorrigierend, wenn dC ≥ 2k + 1. Beweis. Ist der Code k-fehlererkennend, so enthält jede Menge Bk (a) mit a ∈ C kein von a verschiedenes Codewort. Der Hamming-Abstand zum nächsten Codewort beträgt also mindestens k + 1. Sei andererseits a ∈ C und b ∈ Bk (a) beliebig. Dann gilt nach Voraussetzung dH (a, b) ≤ k ≤ dC − 1. Da dC der minimale Abstand zweier Codewörter ist, gilt entweder b = a oder b kann kein Codewort sein. Sei a, b ∈ C mit a 6= b. Ist der Code k-fehlerkorrigierend, so gilt nach Bemerkung 4.1 Bk (a) ∩ Bk (b) = ∅. Der Abstand zweier Codewörter ist also größer als 2k. Da Hamming-Abstände immer ganzzahlig sind, folgt dC ≥ 2k + 1. Nehmen wir andererseits an, dass es ein c ∈ Bk (a) ∩ Bk (b) gibt. Es gilt dH (a, b) ≤ dH (a, c) + dH (c, b), denn die Zahl der Änderungen, die man braucht, um a in b zu überführen (dH (a, b)), ist offensichtlich kleiner oder gleich der Zahl der Änderungen, die wir benötigen, um a zunächst in c umzuwandeln und anschließend c in b (dH (a, c) + dH (c, b)). Daraus folgt 2k + 1 ≤ dC ≤ dH (a, b) ≤ dH (a, c) + dH (c, b) ≤ 2k. Dies ist jedoch ein Widerspruch, so dass die Annahme falsch gewesen sein muss. Beispiel 4.6 (Fortsetzung Beispiel 4.5). Nach Satz 4.1 kann der Hamming-Code maximal dC − 1 = 2 Fehler erkennen und dC2−1 = 1 Fehler korrigieren. 4.4 Der Reed-Solomon-Code 4.4 27 Der Reed-Solomon-Code Eine weitere Klasse fehlerkorrigierender Codes wurde um 1960 von Irving S. Reed (1923-2012) und Gustave Solomon (1930-1996) entwickelt. Zu ihren Ehren werden die Codes Reed-Solomon-Codes oder kurz RS-Codes genannt. Erste Anwendung fanden die RS-Codes beim Voyager-Programm der NASA im Jahr 1977. Kommerziell wurden RS-Codes zum ersten Mal 1982 zur Fehlerkorrektur auf Compact Disks verwendet. Heutig werden RS-Codes z.B. im DVB-Standard zur Aussendung von digitalen Fernsehsignalen, in verschiedenen Mobilfunkstandards und im Digital Audio Broadcasting (DAB) angewendet. Auch bei den immer weiter verbreiteten QR-Codes werden Reed-Solomon-Codes zur Korrektur von Lesefehlern eingesetzt. In neuerer Zeit werden RS-Codes jedoch zunehmend durch leistungsfähigere Codes ersetzt, so z.B. im neuen Fernsehstandard DVB-S2. Für den Reed-Solomon-Code RS(q, m, n) benutzen wir die Menge Fq = {1, 2, . . . , q}. Hierbei ist q = pk eine Primzahlpotenz. Auf Fq können wir eine Addition und Multiplikation wie folgt definieren: Für zwei Elemente u, v ∈ Fq seien u + v und u · v diejenigen Elemente aus Fq , die bei Division durch q den gleichen Rest besitzen wie die Summe bzw. das Produkt in N. Wir wollen nun Nachrichten a = (a0 , . . . , am−1 ) ∈ Fm q zu Codeworten c = (c0 , . . . , cn−1 ) ∈ Fnq codieren. Dazu verlangen wir n ≤ q. Zur Codierung wählen wir n paarweise verschiedene Elemente u1 , . . . , un aus Fq . Die Nachricht a fassen wir dann als Polynom a(x) = m−1 X ai xi = a0 + a1 x + a2 x2 + · · · + am−1 xm−1 i=0 auf. Die Codierung von a ist dann gegeben durch a = a(x) 7→ (a(u1 ), a(u2 ), . . . , a(un )), d.h. die Codierung von a besteht aus den Werten des Polynoms a(x) an den Stellen u1 , . . . , un . Dabei erfolgen Addition und Multiplikation gemäß der obigen Definition. Streng genommen gibt es also viele Reed-Solomon-Codes RS(q, m, n), einen für jede mögliche Wahl der Stellen ui . All diese Codes haben aber die gleichen Eigenschaften. Deshalb reden wir von dem Reed-Solomon-Code RS(q, m, n). Beispiel 4.7. Betrachten wir RS(7, 3, 7). Als Stellen ui wählen wir ui = i − 1, i = 1, . . . , 7. Wir wollen die Nachricht a = (1, 2, 3) codieren. Dieser Nachricht wird das Polynom a(x) = 3x2 + 2x + 1 zugeordnet. Es gilt a(0) = 1 , a(1) = 6 , a(2) = 3 , a(3) = 6 , a(4) = 1 , a(5) = 2 , a(6) = 2. Die Berechnung von a(2) wollen wir uns exemplarisch einmal genauer ansehen: 3 · 22 + 2 · 2 + 1 = 12 + 4 + 1 = 17 ≡ 3 mod 7, also a(2) = 3. Die Codierung von (1, 2, 3) ist also gegeben durch (1, 6, 3, 6, 1, 2, 2). Nun wollen wir uns überlegen, welchen Hamming-Abstand dieses Codierungsverfahren hat. Dazu beweisen wir zunächst das folgende Lemma. Lemma 4.2. Ist a(x) 6= 0 ein Polynom vom Grad d mit Koeffizienten aus Fq , so existieren höchstens d Elemente u1 , . . . , ud ∈ Fq mit a(ui ) = 0, i = 1, . . . , d. D.h. a(x) hat höchstens d Nullstellen in Fq . 28 4 CODIERUNG Beweis. Der Beweis erfolgt durch Induktion über den Grad d. Ist d = 0, so hat a(x) keine Nullstellen. Die Aussage des Lemmas ist also richtig. Wir nehmen nun an, dass die Behauptung für Polynome vom Grad d − 1 schon bewiesen ist. Sei u1 eine Nullstelle von a(x). Nach dem Euklidischen Algorithmus (Satz 3.4) können wir a(x) schreiben als a(x) = (x − u1 ) · g(x), wobei g ein Polynom vom Grad d − 1 ist. Auf g ist also die Induktionsvoraussetzung anwendbar, so dass g nur höchstens d−1 Nullstellen hat. Eine Nullstelle von a(x) ist entweder u1 oder eine Nullstelle von g. Damit hat a(x) höchstens d Nullstellen. Hieraus folgt unmittelbar Korollar 4.3. Sind a, b, a 6= b, zwei Polynome in Fq , beide vom Grad höchstens d, so existieren höchstens d Stellen u1 , . . . , ud ∈ Fq mit a(ui ) = b(ui ), i = 1, . . . , d. Beweis. a 6= b bedeutet, dass a − b 6= 0. Außerdem ist der Grad des Polynoms a − b höchstens d. Ein u ∈ Fq mit a(u) = b(u) ist eine Nullstelle von a − b. Das Korollar folgt also direkt aus dem vorangegangenen Lemma. Wir erhalten, dass für n ≥ m zwei Polynome a, b vom Grad m−1 , die verschiedenen Nachrichten entsprechen, höchstens an m − 1 Stellen die selben Werte annehmen können. Die Codes unterscheiden sich also an n − m + 1 > 0 Stellen. Die Codierung unterschiedlicher Nachrichten ist also verschieden und der Hamming-Abstand zwischen zwei Codeworten mindestens n − m + 1, d.h. es gilt dRS = n − m + 1. Angenommen, wir haben eine nach dem RS-Code codierte Nachricht empfangen. Wie decodieren wir diese? Und wie kann der Code genutzt werden, um Ausfälle zu beseitigen und Fehler zu korrigieren? Wir beginnen zunächst mit dem einfacheren Fall, dass Teile des Codewortes bei der Übermittlung verloren gehen. Wir werden zeigen, dass wir den Reed-Solomon-Code RS(q, m, n) noch richtig decodieren können, wenn höchstens n−m Ausfälle aufgetreten sind. Dies schließt auch den Fall ein, dass die Nachricht ohne Ausfälle übermittelt wurde. Betrachten wir also den Fall, dass wir von den übermittelten Werten a(u1 ), . . . , a(un ) mindestens m erhalten. Um die Notation zu vereinfachen, nehmen wir an, dass wir die Werte a(u1 ), . . . , a(um ) empfangen. Die Stellen ui seien bekannt. Aus den Paaren (u1 , a(u1 )), (u2 , a(u2 )), . . . , (um , a(um )) lässt sich dann mittels der sog. Lagrange-Interpolation das Polynom a(x) bestimmen. Dazu setzen wir m Y gi (x) = (x − uj ) , i = 1, . . . , m. j=1 j6=i Es gilt gi (uj ) = 0 ∀j 6= i. Dann ist m X a(ui ) gi (x), a(x) = g (u ) i=1 i i denn das Polynom auf der rechten Seite hat höchstens Grad m − 1 und stimmt mit a(x) an den Stellen u1 , . . . , um überein. Da auch a(x) höchstens Grad m − 1 hat, muss das Polynom auf der rechten Seite nach Korollar 4.3 mit a(x) übereinstimmen. 4.4 Der Reed-Solomon-Code 29 Beispiel 4.8. Als Beispiel betrachten wir den Code RS(5, 3, 5). Es sei ui = i − 1, i = 1, . . . , 5, gewählt. Wir erhalten die Nachricht (1, 4, 4, ∗, ∗). Die letzten beiden Werte sind also bei der Übertragung verloren gegangen. Zunächst berechnen wir die Polynome gi . Es gilt (x − 1)(x − 2) = x2 − 3x + 2 ≡ x2 + 2x + 2 mod 5, also g1 (x) = x2 + 2x + 2, x(x − 2) = x2 − 2x ≡ x2 + 3x mod 5, also g2 (x) = x2 + 3x, x(x − 1) = x2 − x ≡ x2 + 4x mod 5, also g3 (x) = x2 + 4x. Jetzt berechnen wir gi (ui ), gi (ui )−1 und a(ui )gi (ui )−1 . Man beachte dabei, dass alle Werte in F5 liegen müssen. In der dritten Spalte sind diejenigen Elemente eingetragen, die mit der zweiten Spalte multipliziert modulo 5 den Wert 1 ergeben. gi (ui ) i = 1, u1 = 0 2 4 i = 2, u2 = 1 i = 3, u3 = 2 2 gi (ui )−1 3 4 3 a(ui )gi (ui )−1 3 1 2 Damit erhalten wir 3(x2 + 2x + 2) + (x2 + 3x) + 2(x2 + 4x) ≡ x2 + 2x + 1 mod 5 bzw. a(x) = x2 + 2x + 1. Die Nachricht war also a = (1, 2, 1). Wenn bei der Übermittlung Fehler auftreten, ist das Decodieren etwas komplizierter. Fehler korrigieren Da dRS = n − m + 1, kann der Code nach Satz 4.1 bis zu n−m 2 n−m n−m (bzw. 2 , d.h. die größte ganze Zahl ≤ 2 ). Nehmen wir also an, wir empfangen (y1 , . . . , yn ) ∈ Fnq . Es gibt nur ein Polynom a(x) mit Koeffizienten aus Fq , das Grad Stellen ui gilt. höchstens m − 1 hat und für das yi = a(ui ) für mindestens n − n−m 2 In Verallgemeinerung der bekannten Polynome mit einer Variable sind Polynome p(x, y) in zwei Variablen x, y über Fq von der Form p(x, y) = r X s X pij xi y j , pij ∈ Fq . i=0 j=0 Satz 4.4. Sei k ∈ N beliebig. Sei p(x, y), p 6= 0, ein Polynom über Fq mit p(x, y) = y · f (x) + g(x), wobei der Grad von f höchstens k ist und der Grad von g höchstens k + d ist und p(ui , yi ) = 0 für i = 1, . . . , n. Weiter sei a(x) ein Polynom über Fq mit Grad höchstens d und mit a(ui ) = yi für t > k + d Stellen ui . Dann gilt a(x) = − g(x) . f (x) Beweis. Wir setzen h(x) = g(x) + f (x) · a(x) und schreiben p als p(x, y) = y · f (x) + g(x) = f (x) · (y − a(x)) + h(x). Setzen wir in diese Gleichung y = a(x), so erhalten wir p(x, a(x)) = a(x) · f (x) + g(x) = h(x). (∗) 30 4 CODIERUNG Da der Grad von f (x) höchstens k, der Grad von a(x) höchstens d und der Grad von g höchstens k + d ist, hat auch h(x) höchstens Grad k + d. In Gleichung (∗) setzen wir nun alle t > k + d Paare (ui , yi ) mit yi = a(ui ) ein. Für jedes Paar erhalten wir 0 = p(ui , yi ) = f (ui )(yi − a(ui )) + h(ui ) = h(ui ). Da h höchstens Grad k + d hat, folgt nach Lemma 4.2, dass h(x) = 0 für alle x. Also gilt p(x, y) = f (x) · (y − a(x)). Insbesondere muss daher gelten f (x) · a(x) = −g(x), also folgt die Behauptung. Wann die Voraussetzungen erfüllt sind, sagen uns die nächsten beiden Lemmas. Lemma 4.5. Seien k, d mit 2(k + 1) + d > n. Dann existieren Polynome f (x), g(x) über Fq vom Grad höchstens k und k + d, so dass für das Polynom p(x, y) = y · f (x) + g(x) gilt p(ui , yi ) = 0 für i = 1, . . . , n. Beweis. Polynome über Fq vom Grad höchstens m haben bis zu m+1 Koeffizienten. Zusammen haben daher f und g bis zu k + 1 + k + d + 1 = 2(k + 1) + d Koeffizienten. Die Bedingungen p(ui , yi ) = 0 , i = 1, . . . , n ergeben ein Gleichungssystem aus n Gleichungen, aus denen die bis zu 2(k + 1) + d Koeffizienten bestimmt werden sollen. Nach der vorausgesetzten Ungleichung besitzt dieses Gleichungssystem mehr Variablen als Gleichungen, daher hat es auch eine Lösung, in der nicht alle Koeffizienten von f und g gleich Null sind. Lemma 4.6. Mit k= ln − d − 1m 2 n−d−1 (d.h. k ist die kleinste ganze Zahl ≥ 2 ) gilt n− jn − d − 1k 2 >k+d (4.1) (4.2) und 2(k + 1) + d > n. Beweis. Wegen n−d−1 k< 2 ≤ n−d−1 2 n−d+1 2 (4.3) ist Gleichung (4.2) erfüllt, falls bzw. k ≤ n−d+1 n−d−1 −1= . 2 2 Gleichung (4.3) ist erfüllt, falls k≥ n−d−1 . 2 Das in (4.1) gewählte k erfüllt beide Bedingungen. Sei also d = m − 1 und k wie in (4.1). Nach (4.3) aus Lemma 4.6 und Lemma 4.5 gibt es ein Polynom p(x, y) = y · f (x) + g(x) mit p(ui , yi ) = 0 für i = 1, . . . , n. Nach (4.2) aus Lemma 4.6 und Satz 4.4 gilt dann a(x) = −g(x)/f (x). 31 5 Differentialgleichungen und ihre Anwendungen Differentialgleichungen sind ein wichtiges und vielfältig anwendbares Themengebiet der Mathematik. Seit dem historischen Beginn der Theorie der Differentialgleichungen durch Galilei, Leibniz und Newton im 17. Jahrhundert gehören besonders Naturwissenschaften und Technik zu den Hauptanwendungsgebieten. Aber auch mancher wirtschaftliche oder gesellschaftliche Prozess wird durch Differentialgleichungen modelliert. Bevor wir uns jedoch verschiedene Anwendungen näher ansehen können, müssen wir zunächst den Begriff der Ableitung einer Funktion einführen, um dann verschiedene Differentialgleichungen zu betrachten und zu lösen. 5.1 Die Ableitung Um Differentialgleichungen zu behandeln, müssen wir zunächst klären, wann eine Funktion differenzierbar ist. Dazu müssen wir aber erst weitere grundlegende Begriffe einführen. Definition 5.1. Eine Funktion ist eine Beziehung zwischen zwei Mengen D und W , die jedem Element x aus dem Definitionsbereich D genau einen Wert f (x) aus dem Wertebereich W zuordnet. Neben der aus der Schule bekannten Notation ist in der Mathematik auch die Notation f : D → W, x 7→ f (x) gebräuchlich. Weiterhin benötigen wir den Begriff der Konvergenz. Dabei kann man sich eine reelle Folge (xn )n∈N als unendlich lange Liste (x1 , x2 , x3 , . . .) von reellen Zahlen vorstellen. Definition 5.2. Eine reelle Folge (xn )n∈N heißt konvergent gegen x ∈ R, wenn gilt ∀ε > 0∃n0 ∈ N∀n ≥ n0 : |xn − x| < ε. In diesem Fall schreiben wir limn→∞ xn = x. Anschaulich heißt das, dass es zu jedem ε > 0 einen Index n0 ∈ N gibt, ab dem alle Folgenglieder xn von x um weniger als ε entfernt sind. Die Folgenglieder nähern sich also beliebig nah dem Wert x an. Diese Definition ist uns bereits in Beispiel 1.3 begegnet. Bemerkung 5.1. Ohne Beweis bemerken wir: Sind (xn )n∈N und (yn )n∈N konvergente Zahlenfolgen mit limn→∞ xn = x und limn→∞ yn = y, dann gilt auch lim (xn + yn ) = x + y ; n→∞ lim (xn · yn ) = x · y ; n→∞ x xn = , falls y 6= 0. n→∞ yn y lim Es gibt Funktionen, bei denen eine kleine Änderung im Definitionsbereich nur zu einer geringfügigen Änderung des Funktionswert führt. Formal definiert man Definition 5.3. Sei D ⊂ R. Eine Funktion f : D → R heißt stetig im Punkt a ∈ D, wenn ∀ε > 0∃δ > 0∀x ∈ D : (|x − a| < δ ⇒ |f (x) − f (a)| < ε). Eine Funktion f : D → R heißt stetig, wenn sie in jedem Punkt a ∈ D stetig ist. 32 5 DIFFERENTIALGLEICHUNGEN UND IHRE ANWENDUNGEN Da wir uns hier ausschließlich im Reellen befinden, genügt es, sich statt der Definition das folgende Kriterium zu merken: Satz 5.1. Eine Funktion f : D → R ist in a ∈ D genau dann stetig, wenn für jede Folge (xn )n∈N in D, die gegen a konvergiert, die Folge (f (xn ))n∈N der Funktionswerte gegen f (a) konvergiert. Nun zur Differenzierbarkeit. Anschaulich ist durch zwei Punkte (x0 , f (x0 )) und (x, f (x)) des Graphen der Funktion f eine Gerade festgelegt, die durch diese Punk(x0 ) . Diesen Quotienten bezeichnet man te geht. Die Steigung der Geraden ist f (x)−f x−x0 auch als Differenzenquotient. Verschieben wir nun x immer näher an x0 , so wird aus der Sekante im Grenzfall eine Tangente an den Punkt (x0 , f (x0 )), sofern diese existiert. Das bekannteste Beispiel einer in 0 nicht differenzierbaren Funktion ist die Betragsfunktion | · |. Die Steigung der entstehenden Tangente wollen wir als Ableitung der Funktion im Punkt x0 definieren. Definition 5.4. Sei [a, b] ⊂ R. Eine Funktion f : [a, b] → R heißt in x0 ∈ (a, b) differenzierbar, wenn es eine reelle Zahl a gibt, so dass lim x→x0 f (x) − f (x0 ) = a. x − x0 Der Wert a heißt dann Ableitung von f in x0 und wird mit f 0 (x0 ) bezeichnet. Die Funktion f heißt differenzierbar, wenn sie in allen Punkten x0 differenzierbar ist. Bemerkung 5.2. In der Situation von Definition 5.4 können wir für x ∈ (a, b), x 6= x0 , setzen: f (x) − f (x0 ) − f 0 (x0 ) r(x) = x − x0 und erhalten, dass r(x) für x → x0 gegen Null konvergiert. Auflösen der Gleichung nach f (x) ergibt f (x) = f (x0 ) + [f 0 (x0 ) + r(x)](x − x0 ) mit lim r(x) = 0. x→x0 Für x → x0 konvergiert also auch f (x) gegen f (x0 ). Nach Satz 5.1 muss also eine in x0 differenzierbare Funktion insbesondere stetig in x0 sein. Mit Hilfe der folgenden Sätze können wir schnell Ableitungen von Summen, Produkten und Quotienten von Funktionen mit bekannten Ableitungen berechnen. Satz 5.2. Seien f, g : (a, b) → R differenzierbar in (a, b). Für α, β ∈ R ist dann auch αf + βg differenzierbar mit (αf + βg)0 (x) = αf 0 (x) + βg 0 (x). Beweis. Es gilt f (x) − f (x0 ) g(x) − g(x0 ) αf (x) + βg(x) − αf (x0 ) − βg(x0 ) =α +β . x − x0 x − x0 x − x0 Nach Bemerkung 5.1 konvergiert dies gegen αf 0 (x0 ) + βg 0 (x0 ). 5.1 Die Ableitung 33 Satz 5.3 (Produktregel). Seien f, g : (a, b) → R differenzierbar in (a, b). Dann ist auch f · g : (a, b) → R differenzierbar und es gilt die Produktregel (f g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x). Beweis. Es gilt f (x)g(x) − f (x0 )g(x0 ) f (x) − f (x0 ) g(x) − g(x0 ) = g(x) + f (x0 ) . x − x0 x − x0 x − x0 Die Behauptung folgt durch Grenzübergang x → x0 mit Bemerkung 5.1 und Bemerkung 5.2. Satz 5.4 (Quotientenregel). Seien f, g : (a, b) → R differenzierbar in (a, b). Dann ist fg : (a, b) → R in allen Punkten x ∈ (a, b) mit g(x) 6= 0 differenzierbar und es gilt die Quotientenregel f 0 f 0 (x)g(x) − f (x)g 0 (x) . (x) = g g 2 (x) Beweis. Es gilt f (x) g(x) − f (x0 ) g(x0 ) x − x0 1 f (x) − f (x0 ) g(x) − g(x0 ) = g(x0 ) − f (x0 ) . g(x)g(x0 ) x − x0 x − x0 1 für x → x0 gegen Nach Bemerkung 5.1 und Bemerkung 5.2 konvergiert g(x)g(x 0) 1 . Insgesamt erhalten wir mit Bemerkung 5.1 die behauptete Identität. g 2 (x0 ) Ohne Beweis gebe ich noch die wichtige Kettenregel an, die uns sagt, wie man miteinander verknüpfte bzw verkettete Funktionen ableitet. Satz 5.5 (Kettenregel). Ist f : (a, b) → R differenzierbar in (a, b), J = f ((a, b)) = {y ∈ R : ∃x ∈ (a, b) : y = f (x)} und ist g : J → R differenzierbar in J, so ist die Hintereinanderausführung g ◦ f : (a, b) → R, x 7→ g(f (x)) differenzierbar in (a, b) und es gilt die Kettenregel (g ◦ f )0 (x) = g 0 (f (x)) · f 0 (x). Nach den vielen theoretischen Resultaten nun einige Beispiele. Beispiel 5.1. Eine konstante Funktion, d.h. eine Funktion mit f (x) = c für alle x ∈ R und ein c ∈ R, ist differenzierbar mit Ableitung f 0 (x) = 0. Man kann elementar nachrechnen, dass die Funktion f (x) = x differenzierbar ist mit Ableitung f 0 (x) = 1. Durch Induktion nach n folgt daraus mit der Produktregel 5.3, dass auch f (x) = xn für n ∈ N auf R differenzierbar ist mit f 0 (x) = nxn−1 . Nach Pn Satz 5.2 ist dann auch jedes PolynomP f (x) = k=0 ak xk = an xn + · · · + a1 x + a0 differenzierbar mit Ableitung f 0 (x) = nk=1 ak kxk−1 = an nxn−1 + · · · + a1 . Ohne Beweis stellen wir weitere Ableitungen verschiedener Funktionen zusammen: 1 exp0 (x) = exp(x) , sin0 (x) = cos(x) , cos0 (x) = − sin(x) , ln0 (x) = . x Im nächsten Abschnitt werden wir gelegentlich auch Ableitungen höherer Ordnung benötigen. Definition 5.5. Eine Funktion f : (a, b) → R heißt zweimal differenzierbar, wenn f und f 0 differenzierbar sind. Man schreibt f 00 = (f 0 )0 . Induktiv definiert man die n-te Ableitung von f durch f (n) = (f (n−1) )0 . 34 5.2 5 DIFFERENTIALGLEICHUNGEN UND IHRE ANWENDUNGEN Differentialgleichungen Eine gewöhnliche Differentialgleichung ist eine Aussage, die eine gesuchte Funktion in einer bestimmten Weise mit ihren Ableitungen (bis zu einer gewissen Ordnung) in Beziehung setzt. Aufgabe ist es, aus dem gegebenen Zusammenhang auf die Funktion zu schließen, d.h. die Differentialgleichung (DGL) zu lösen. Wir behandeln zuerst Differentialgleichungen der Form y 0 (x) = f (x, y(x)). Dabei bezeichnet f eine vorgegebene Funktion f : D → R mit D ⊂ R2 , x die Variable und y die noch unbekannte Funktion. Oft lässt man auch die Variable in der gesuchten Funktion weg und schreibt kurz y 0 = f (x, y). Eine solche DGL heißt Differentialgleichung erster Ordnung, da nur die Funktion und ihre erste Ableitung eingehen. Ist zusätzlich zur DGL noch ein Wert y(x0 ) = y0 vorgegeben, so bezeichnet man die DGL zusammen mit dem Anfangswert als Anfangswertproblem. Manchmal betrachtet man auch ein Gleichungssystem mehrerer DGLs dieses Typs und nennt es System von Differentialgleichungen. Treten in einer DGL auch höhere Ableitungen auf, etwa bis zur n-ten Ordnung, so spricht man von einer Differentialgleichung n-ter Ordnung. Beginnen wir mit Differentialgleichungen erster Ordnung. In manchen Situationen ist es recht einfach, die Lösung y einer DGL erster Ordnung zu bestimmen. Die wichtigsten Lösungsmethoden wollen wir uns hier kurz ansehen. Trennung der Variablen Ist die Funktion f in der DGL y 0 = f (x, y) von der Form f (x, y) = g(x)·h(y), so kann man die Variablen x und y „trennen“, falls h(y) 6= dy , 0 ist. Verwendet man für die Ableitung y 0 die ebenfalls gebräuchliche Notation dx so lässt sich die DGL symbolisch umformen in dy = g(x) dx. h(y) Durch Integration folgt Z 1 dy = g(x) dx. h(y) Ein Integral ohne Grenzen bezeichnet eine Stammfunktion, d.h. eine differenzierbare Funktion, deren Ableitung der Integrand ist. Man beachte, dass mit einer Funktion H auch die um eine Konstante verschobene Funktion H + c eine Stammfunktion ist. Ist also H eine Stammfunktion von h1 und G eine Stammfunktion von g, so ist die Gleichung äquivalent zu Z H(y) = G(x). Kann man die linke Seite nach y auflösen, erhalten wir die Lösung y = H −1 (G(x)). Beispiel 5.2. Für die Differentialgleichung y y 0 = , x > 0, x ergibt sich dy = dx . Wegen ln0 (x) = x1 (vgl. Beispiel 5.1) ist dies äquivalent zu y x ln |y| = ln |x| + c bzw. zu y = ±ec · x. Die Lösungen der DGL sind also von der Form y = cx mit c ∈ R. Durch einen Anfangswert y(x0 ) = y0 könnte man die Konstante c geeignet bestimmen. 5.2 Differentialgleichungen 35 Variation der Konstanten Sind g, h : [a, b] → R stetige Funktionen, so heißt eine DGL der Form y 0 = g(x) · y + h(x) eine (inhomogene) lineare Differentialgleichung. Die Differentialgleichung y 0 = g(x) · y heißt zugehörige homogene Differentialgleichung. Die homogene Gleichung können wir mittels Trennung der Variablen lösen. Ist G eine Stammfunktion von g, so gilt Z Z 1 dy dy 0 y = = g(x) · y ⇔ = g(x) dx ⇔ dy = g(x) dx dx y y ⇔ ln |y| = G(x) + C ⇔ y = ±eC eG(x) mit einer Konstanten C. Die Lösungen sind also von der Form y(x) = ceG(x) mit c ∈ R. Um eine Lösung der inhomogenen Gleichung zu finden, macht man den Ansatz y(x) = c(x)eG(x) , man lässt die Konstante nun also ebenfalls variieren – daher der Name der Methode. Differenzieren liefert nach den Sätzen 5.3 und 5.5 und Beispiel 5.1 y 0 (x) Prod. regel c0 (x)eG(x) + c(x)(eG(x) )0 Kettenregel c0 (x)eG(x) + c(x)eG(x) g(x) = c0 (x)eG(x) + g(x)y(x). = = Wenn gleichzeitig die inhomogene Gleichung y 0 = g(x)y + h(x) erfüllt sein soll, muss h(x) = c0 (x)eG(x) bzw. c0 (x) = h(x)e−G(x) sein. Die Funktion c erhält man dann als Stammfunktion von h(x)e−G(x) . Ist ỹ eine spezielle Lösung der inhomogenen DGL, so sind alle Lösungen von der Form y(x) = ỹ(x) + ceG(x) . Dass dies Lösungen der DGL sind, rechnen wir noch einmal kurz nach: y 0 (x) Satz 5.2, Bsp 5.1 = ỹ 0 (x) + ceG(x) g(x) = g(x) · ỹ(x) + h(x) + ceG(x) g(x) = y(x) + h(x). Es genügt also, eine einzige Lösung der inhomogenen Gleichung zu finden und zu dieser dann die Lösungen der homogenen DGL hinzuzuaddieren, um alle möglichen Lösungen zu erhalten. Beispiel 5.3. Wir betrachten die DGL y 0 = y + x. Die homogene Gleichung y 0 = y hat die Lösungen y = cex , denn die Funktion G(x) = x ist Stammfunktion der konstanten Funktion g(x) = 1. Die Konstante lassen wir nun gemäß der soeben beschriebenen Methode variieren, wir setzen also an y(x) = c(x)ex . Mit der zu erfüllenden Gleichung folgt dann y(x) + x = y 0 (x) = c0 (x)ex + c(x)ex = c0 (x)ex + y(x) also x = c0 (x)ex bzw. c0 (x) = xe−x . Die Funktion −(x+1)e−x ist eine Stammfunktion von xe−x ist, denn (−(x + 1)e−x )0 Prod. regel = −e−x − (x + 1)e−x · (−1) = xe−x . Eine spezielle Lösung der inhomogenen Gleichung ist also ỹ(x) = (−(x + 1)e−x )ex = −(x + 1). Alle Lösungen von y 0 = y + x sind gegeben durch cex − x − 1 , c ∈ R. 36 5 DIFFERENTIALGLEICHUNGEN UND IHRE ANWENDUNGEN Von einzelnen DGLs kommen wir nun zu ganzen Gleichungssystemen. Wir behandeln hier Systeme der Form y10 = f1 (x, y1 , . . . , yn ) .. . yn0 = fn (x, y1 , . . . , yn ). Es handelt sich also nicht bloß um eine Sammlung mehrerer DGLs, vielmehr können die Ableitungen yi0 auch von den anderen Funktionen abhängen. Von besonderer Bedeutung sind lineare Differentialgleichungssysteme der Form y10 = a11 (x)y1 + a12 (x)y2 + · · · + a1n (x)yn + b1 (x) y20 = a21 (x)y1 + a22 (x)y2 + · · · + a2n (x)yn + b2 (x) .. . 0 yn = an1 (x)y1 + an2 (x)y2 + · · · + ann (x)yn + bn (x). Wir betrachten hier den Fall konstanter Koeffizienten genauer. Durch y1 = c11 z1 + · · · + c1n zn .. . yn = cn1 z1 + · · · + cnn zn definieren wir neue Funktionen z1 , . . . , zn . Durch geeignete Wahl der Koeffizienten cij können wir in vielen Fällen erreichen, dass das homogene Gleichungssystem für die yi in ein System der Form z10 = λ1 z1 ∧ z20 = λ2 z2 ∧ . . . ∧ zn0 = λn zn überführt wird. Diese Gleichungen werden bekanntlich gelöst durch zi = Ci eλi x . Allgemeinere Lösungsmethoden wollen wir hier nicht betrachten, da uns das mathematische Hintergrundwissen fehlt. In vielen Fällen ist das Differentialgleichungssystem von einer solchen Form, dass die einzelnen Gleichungen hintereinander gelöst und in die anderen eingesetz werden können. In anderen Fällen führt es häufig zum Ziel, wie oben neue Funktionen zu definieren, für die die einzelnen Differentialgleichungen getrennt lösbar sind. Schließlich befassen wir uns mit Differentialgleichungen n-ter Ordnung, n ≥ 2, von der Form y (n) = f (x, y, y 0 , . . . , y (n−1) ). Diese lassen sich zurückführen auf ein System von n Differentialgleichungen erster Ordnung. Definiert man nämlich die neuen Variablen y1 = y, y2 = y 0 , ..., yn = y (n−1) , so ist die ursprüngliche DGL äquivalent zum System y10 = y2 , .. . 0 yn−1 = yn , yn0 = f (x, y1 , y2 , . . . , yn ). 5.3 Anwendungen 37 Ist y eine Lösung der DGL n-ter Ordnung, so ist (y, y 0 , . . . , y (n−1) )> eine Lösung des Systems. Ist umgekehrt (y1 , y2 , . . . , yn )> eine Lösung des Systems, so löst y1 die zugehörige DGL n-ter Ordnung. Von besonderem Interesse sind lineare Differentialgleichungen n-ter Ordnung mit konstanten Koeffizienten, also auf DGLs der Form y (n) + an−1 y (n−1) + · · · + a0 y = 0, Um derartige DGLs zu lösen, können wir einen Exponentialansatz y = eλx machen. Dieser liefert die Gleichung (λn + an−1 λn−1 + · · · + an λ + a0 )eλx = 0. Da die Exponentialfunktion immer positiv ist, müssen wir λ so bestimmen, dass der Term in Klammern gleich Null ist. Das Lösen der DGL kann also im Wesentlichen auf das Bestimmen von Nullstellen eines Polynoms zurückgeführt werden. Problematisch ist der Fall mehrfacher Nullstellen, den wir hier ausklammern. 5.3 Anwendungen Differentialgleichungen werde in vielen Gebieten angewendet, um einen Zusammenhang zwischen der Änderung einer unbekannten Größe und der Größe selbst zu modellieren. In diesem Abschnitt werden wir einige Situationen betrachten, in denen man Differentialgleichungen zur Modellierung und Lösung heranziehen kann. Differentialgleichungen der Form y 0 = ay + b Wir untersuchen zunächst die homogene lineare DGL y 0 = ay. Sie hat vielfältige Anwendungen – je nach Vorzeichen der Konstante a. Ist a positiv, so beschreibt die DGL ein Wachstum, für negatives a das Verhalten einer schrumpfenden Größe. Die Variable ist dabei häufig die Zeit t. Der Fall eines negativen a tritt z.B. beim radioaktiven Zerfall auf. Wenn mehr radioaktive Atome (y) vorhanden sind, dann werden pro Zeiteinheit auch mehr Atome zerfallen (y 0 ). Die Annahme einer Proportionalität zwischen der Anzahl der pro Zeiteinheit zerfallenen Atome und der Anzahl der Atome ist also plausibel. Die Konstante |a| hat in dem Fall die Funktion einer Zerfallsrate. Beispiele für Situationen, in denen die DGL y 0 = ay mit positivem a vorkommt, sind die anfängliche Entwicklung einer Bakterienkultur, das Wachstum von Zellen bis zu einer gewissen Größe – ab einer gewissen Größe ist das Modell nicht mehr anwendbar, da sich die Zelle dann teilt – oder ein ungehindertes Wachstum einer Population. Aus der Finanzmathematik ist die stetige Verzinsung von Kapital zu nennen. Die gesuchte Funktion y steht in diesen Fällen für die Anzahl der Bakterien oder die Größe der Zelle, der Population bzw. des Kapitals. Nach dem ersten Teil des Vorgehens im Absatz über die Variation der Konstanten wird die DGL durch Funktionen der Form y(t) = ceat gelöst. Ohne limitierende Faktoren würde eine Bakterienkultur, eine Zelle, eine Population oder unser Kapital also exponentiell wachsen. Lässt man neben einem Geburtsprozess auch einen Sterbeprozess zu, so hat die DGL die Form y 0 = ay − by = (a − b)y. a ist hier die Geburtenrate, b die Sterberate. Dies wird gelöst durch y(t) = ce(a−b)t . 38 5 DIFFERENTIALGLEICHUNGEN UND IHRE ANWENDUNGEN Nun betrachten wir die inhomogene lineare DGL y 0 = ay + b. Wenn a = 0, dann wird die Gleichung durch y(t) = bt gelöst. Sei also a 6= 0. Wegen b 0 y = ay + b = a y + a können wir die DGL mittels Trennung der Variablen lösen. Wir erhalten R dy R dy b = a dt ⇒ = a dt ⇔ ln y + = at + C b y+ a a y + ab b ⇔ y + ab = ±eC eat ⇔ y = ceat − mit c = ±eC . a Beispiel 5.4. Dieses Modell können wir beispielsweise anwenden, wenn das soeben behandelte Wachstum einer Population durch eine feste Grenze B beschränkt ist. Gründe für eine derartige Begrenzung des Wachstums sind z.B. Futterknappheit, Raumnot, fehlende Unterschlupfmöglichkeiten, schlechte physische Bedingungen oder ein Kontrollmechanismus. Es ist logisch, anzunehmen, dass bei Annäherung an die Grenze B, d.h. für B − y → 0, das Wachstum auch geringer wird. Daher setzen wir an y 0 = k(B − y) = kB − ky. Diese DGL wird gelöst durch y = ce−kt + B. Damit y < B, muss c negativ sein. Beispiel 5.5. Ein weiteres Beispiel, in dem eine lineare inhomogene DGL vorkommt, ergibt sich durch Modifikation eines Geburtsprozesses um einen Imigrationsprozess. Dies wird modelliert durch die DGL y 0 = λy + γ, wobei γ für eine Einwanderung mit konstanter Rate steht. Als Lösung erhalten wir y = ceλt − λγ . Systeme erster Ordnung Wir betrachten eine chemische Reaktion, bei der ein Stoff A in den Stoff B und dieser wiederum in den Stoff C umgewandelt wird. Die Funktion y1 gebe die vorhandene Menge des Stoffes A, y2 die Menge des Stoffes B und y3 die Menge des Stoffes C an. Wir setzen an y10 = −k1 y1 ∧ y20 = k1 y1 − k2 y2 ∧ y30 = k2 y2 mit positiven Konstanten k1 und k2 . Dabei sind die Konstanten eine Art Reaktionsgeschwindigkeit. Die erste Gleichung besagt, dass die Abnahme der Stoffmenge von A proportional zur noch vorhandenen Menge von A ist. Die zweite Gleichung sagt aus, dass sich die Zunahme der Menge von B durch die Abnahme der Menge von A abzüglich der sich in C umwandelnden Stoffmenge von B, die proportional zu y2 ist, zusammensetzt. Dass die Zunahme der Stoffmenge von C durch Abnahme der Stoffmenge von B resultiert, modelliert die dritte Gleichung. Wir lösen das Gleichungssystem sukzessive beginnend mit der ersten Gleichung. Wir wissen bereits, dass die erste DGL durch y1 = C1 e−k1 t gelöst wird. Einsetzen in die zweite DGL liefert die inhomogene DGL y20 = k1 C1 e−k1 t − k2 y2 . Die Lösungen der homogenen DGL y20 +k2 y2 = 0 haben wieder die Form Ce−k2 t . 5.3 Anwendungen 39 Eine spezielle Lösung der inhomogenen DGL erhalten wir durch Variation der Konstanten, d.h. durch den Ansatz y2 = u(t)e−k2 t . Hierfür folgt u0 (t) = k1 C1 e(k2 −k1 )t C1 (k2 −k1 )t bzw. durch Integrieren u(t) = kk21−k e + C2 . Damit ergibt sich 1 k1 C1 −k1 t e + C2 e−k2 t . k2 − k1 Setzen wir dies in die dritte Gleichung ein, so können wir schließlich y3 bestimmen. 2 C1 ek1 t + k2 C2 e−k2 t . Durch Integration erhalten Die dritte Gleichung wird zu y30 = kk12k−k 1 wir die Lösung k2 C1 −k1 t y3 = − e − C2 e−k2 t + C3 . k2 − k1 Mit einem ähnlichen Gleichungssystem kann man auch den Futterdurchgang durch einen Wiederkäuermagen modellieren. y2 = Ein weiteres wichtiges Beispiel, in dem ein System von Differentialgleichungen zu lösen ist, ist das sog. Räuber-Beute-Modell. Mit ihm werden die Wechselwirkungen zwischen zwei Populationen R (Räuber) und B (Beute) beschrieben. Sei x(t) die Größe der Beute-Population und y(t) die Größe der Räuber-Population. In dem auf den amerikanischen Biophysiker Alfred Lotka und den italienischen Mathematiker Vito Volterra zurückgehenden Gleichungssystem x0 = x(a − by) ∧ y 0 = y(−α + βx) sind a, b, α und β positive Konstanten. Es wird angenommen, dass die BeutePopulation ausreichend (pflanzliche) Nahrung hat. Bei Abwesenheit von Räubern (y = 0) vermehrt sie sich exponentiell nach der Gleichung x0 = ax. Je nach Größe der Räuber-Population sinkt die Wachstumsrate von a auf a − by, sie kann sogar negativ werden. Anders die Räuber-Population. Ohne Beute (x = 0) nimmt sie gemäß y 0 = −αy ab, je nach Größe der Beute-Population nimmt der Nahrungsvorrat zu, die Wachstumsrate wächst auf −α + βx. Die Terme mit x · y haben diesmal sogar zwei verschiedene Interpretationen: Zum einen beschreibt es die Anzahl der möglichen Begegnungen zwischen Raub- und Beutetieren. Es ist plausibel, dass die Abnahme der Beutetiere bzw. die Zunahme der Räuber davon abhängt, hier sogar proportional. Zum anderen könnte man den Ausdruck −bxy auch so interpretieren, dass jedes Raubtier in einem Zeitschritt einen gewissen Teil der Beute erlegt, sagen wir bx. Insgesamt werden dann in diesem Zeitschritt bxy Beutetiere erlegt. Umgekehrt erhöht sich durch jedes erlegte Beutetier die Fitness der Räuber und fördert somit die Reproduktion neuer Raubtiere. Durch die Interaktion der beiden Spezies ergeben sich Schwankungen in den Größen der Populationen. Gibt es zu einem Zeitpunkt gerade viele Beutetiere, so haben die Raubtiere genug zu fressen und können sich vermehren. Steigt dann aber die Zahl der Raubtiere, werden sehr viele Beutetiere erlegt, was zu einem Rückgang in der Beutepopulation führt. Die Raubtiere haben in der Folge nicht mehr genug Nahrung, was eine Dezimierung ihrer Anzahl zur Folge hat. Gibt es nur noch wenige Raubtiere, kann sich die Beutepopulation wieder erholen und das Spiel beginnt von vorne. Lineare Differentialgleichungen zweiter Ordnung Wichtige Beispiele, in denen Differentialgleichungen zweiter Ordnung vorkommen, sind Schwingungen aller Art. Betrachten wir zuerst ein Federpendel, d.h. eine waagerecht angebrachte Feder, an der ein Gewicht befestigt ist, das sich reibungsfrei 40 5 DIFFERENTIALGLEICHUNGEN UND IHRE ANWENDUNGEN bewegen kann. Dehnt man die Feder über ihre Ruhelage hinaus, so übt die Feder auf die Masse eine rückstellende Kraft F = −Dx aus, die proportional zur Auslenkung x ist. In der Physik lernt man das Newtonsche Gesetz Kraft=Masse·Beschleunigung. Wir erhalten also die DGL x00 = − Wir setzen zur Abkürzung ω = q D x mit D > 0. m D . m Der Exponentialansatz x(t) = ceλt liefert die Gleichung (λ2 + ω 2 )ceλt = 0. Für λ erhalten wir die beiden Lösungen λ1/2 = ±iω. Die allgemeine Lösung ist also x(t) = c1 eiωt + c2 e−iωt . Für k1 = 12 (c1 + c2 ) und k2 = 2i1 (c1 − c2 ) können wir dies auch schreiben als x(t) = k1 cos(ωt) + k2 sin(ωt). Anhand des Kosinus- und des Sinusanteils erkennen wir, dass die Masse um die Ruhelage schwingt. Erlauben wir zusätzlich einen Reibungsterm, der proportional zur Geschwindigkeit x0 ist, dann ist die Gleichung x00 = − b 0 D x − x mit b, D > 0 m m zu lösen. Wieder mit dem Exponentialansatz x(t) = ceλt ergibt sich die Gleichung λ2 + b D λt λ+ ce = 0. m m Nach der p-q-Formel hat sie die Lösungen r √ b D b b2 b2 − 4Dm λ1/2 = − ± − = − ± 2m 4m2 m 2m 2m (∗). Für b2 > 4Dm, d.h. für große Reibung, sind beide Werte reell und negativ. Als Lösung erhalten wir in diesem Fall x(t) = c1 eλ1 t + c2 eλ2 t , c1 , c2 ∈ R. Es kommt also nicht zur Schwingung. Für t → ∞ konvergiert x(t) gegen Null. Für b2 = 4Dm gibt es nur eine reelle und negative Lösung λ der Gleichung (∗). Man kann jedoch verifizieren, dass cxeλt ebenfalls eine Lösung der DGL ist. Die allgemeine Lösung lautet also x(t) = (c1 + c2 x)eλt , c1 , c2 ∈ R. Auch hier kommt es nicht zur Schwingung und die Auslenkung konvergiert mit voranschreitender Zeit gegen Null. Ist schließlich b2 < 4Dm (kleine Reibung), so√sind beide Lösungen von (∗) imaginär. 2 b Mit den Abkürzungen a = 2m und ω = 4Dm−b können wir sie schreiben als 2m λ1 = −a + iω und λ2 = −a − iω. Wir erhalten also die Lösungen x(t) = c1 e(−a+iω)t + c2 e(−a−iω)t = e−at (c1 eiωt + c2 e−iωt ) , c1 , c2 ∈ C 5.3 Anwendungen 41 bzw. in reeller Form x(t) = e−at (k1 cos(ωt) + k2 sin(ωt)), k1 , k2 ∈ R. Die Lösung beschreibt eine Schwingung, deren Amplitude exponentiell mit dem Faktor e−at abklingt. Als nächstes untersuchen wir das Schwingungsverhalten eines Fadenpendels. Eine an einem Faden der Länge l senkrecht aufgehängte Masse m werde so um den Winkel ϕ aus ihrer Ruhelage ausgelenkt, dass der Faden immer straff gespannt ist. Die Bewegung beschreiben wir durch den Auslenkungswinkel ϕ(t) in Abhängigkeit von der Zeit. Auf die Masse wirkt die Schwerkraft m · g mit der Erdanziehung g = 9, 81 sm2 , die in eine Komponente entlang des Fadens und in eine dazu senkrechte Komponente entlang der Bahntangente aufgeteilt werden kann. Letztere ist m · g · sin(ϕ) und bewirkt eine Bewegung in Richtung Ruhelage. Der durch die Auslenkung zurückgelegte Weg ist lϕ, wir können also ansetzen g mlϕ00 (t) = −mg sin(ϕ(t)) ⇔ ϕ00 (t) = − sin(ϕ(t)). l Sie werden jetzt sagen: „Diese Gleichung ist aber nicht linear.“ Damit haben sie auch recht. Für kleine Auslenkungen kann man aber sin(ϕ) durch ϕ approximieren und ist dann wieder in der schon durchgerechneten Situation. Weitere Beispiele In Anwendungen ist manchmal eine DGL der Form y 0 = a(A − y)(B − y) = ay 2 − a(A + B)y + aAB mit reellen Konstanten A 6= B zu lösen. Diese Gleichung ist nicht linear. Zur Lösung benutzen wir erneut die Methode der Trennung der Variablen und erhalten Z Z dy = a dt. (A − y)(B − y) Aufgrund der leicht nachzuprüfenden Identität 1 1 1 1 = − (A − y)(B − y) B−A y−B y−A ist dies äquivalent zu Z Z 1 1 − dy = a(B − A) dt ⇔ ln |y − B| − ln |y − A| = a(B − A)t + C. y−B y−A Mit den Logarithmengesetzen können wir dies weiter umformen in y − B ln = a(B − A)t + C ⇔ y−A y − B y−B = cea(B−A)t . = eC · ea(B−A)t ⇔ y−A y−A Auflösen nach y liefert schließlich y =A+ B−A . 1 − cea(B−A)t 42 6 STOCHASTIK IM ALLTAG Beispiel 5.6. Wir betrachten noch einmal das Wachstum einer Population. Statt der oben untersuchten Gleichungen y 0 = ay (für kleine y) und y 0 = a(B − y) (nahe einer Wachstumsschranke) wollen wir beide Ansätze kombinieren. Dies wird durch y 0 = λy(B − y) erreicht. Nach dem soeben Gesagten lautet die Lösung y = 1−ceB−λBt . Beispiel 5.7. Als nächstes untersuchen wir die Verbreitung einer Infektionskrankheit. Wir definieren x(t) als die Anzahl der ansteckbaren Individuen zur Zeit t und y(t) als die Anzahl der Infizierten. Dabei gehen wir davon aus, dass die Anzahl der Individuen unverändert bleibt, es handelt sich also insbesondere nicht um eine tötliche Krankheit. Wir drücken diesen Sachverhalt aus durch x + y = n. Weiterhin berücksichtigen wir nicht, dass sich eine natürliche Immunität ausbilden könnte. Dann ist es plausibel, anzunehmen, dass die Ansteckungsrate proportional von der Zahl der Infizierten und derjenigen der ansteckbaren Individuen abhängt, da die Ansteckungsgefahr bei einer größeren Zahl Infizierter größer ist und mehr Individuen ansteckbar sind. Wir setzen also an y 0 = βyx = βy(n − y). Die Lösung lautet y = 1−cen−βnt . Beispiel 5.8. Bei einer chemischen Reaktion zweier Stoffe im Verhältnis 1:1 mit verschiedenen Ausgangskonzentrationen A und B ist ein ähnlicher Ansatz gerechtfertigt. Bezeichne x den Betrag, um den die Konzentration abnimmt. Dann können wir ansetzen x0 = r(A − x)(B − x). 6 Stochastik im Alltag Die Stochastik (vom griechischen „στ óχoζ“ – sprich: stóchos – das Ziel, die Mutmaßung) umfasst u.a. die beiden Teilgebiete Wahrscheinlichkeitstheorie und Statistik und kann kurz und prägnant als Mathematik des Zufalls bezeichnet werden. Als Gebiet der Mathematik ist die Stochastik relativ jung. 6.1 Kombinatorik Ziel der Wahrscheinlichkeitstheorie ist die Analyse der Gesetzmäßigkeiten, die bei der Beschreibung sog. „Zufallsexperimente“ eine Rolle spielen. Darunter verstehen wir Experimente, deren Ausgänge nicht vorherbestimmt (bzw. deterministisch) sind. Die Experimente sollten unter den gleichen Bedingungen wiederholbar sein, und zwar so, dass der Versuchsausgang bei unabhängig angestellten Wiederholungen nicht unbedingt der gleiche sein muss. Beispiele sind Würfelexperimente, das Ziehen von Losen oder das Austeilen von Spielkarten, aber auch Geburten (Junge oder Mädchen), Unfallstatistiken oder die Anzahl der Ausschläge eines Geigerzählers gehören dazu. Dagegen ist die Frage, wie „wahrscheinlich“ es ist, dass einmal Leben auf dem Mars existiert hat, von ganz anderer Art, da die Antwort deterministisch fest steht, obwohl wir sie nicht kennen. Wir führen zunächst einige Begriffe und Notationen ein. Definition 6.1. Die möglichen Versuchsausgänge ω eines Zufallsexperiments werden Ergebnisse genannt. Die Menge aller Ergebnisse eines Zufallsexperiments heißt Ergebnismenge und wird mit Ω bezeichnet. Eine Teilmenge A ⊂ Ω der Ergebnismenge heißt Ereignis. 6.1 Kombinatorik 43 In der Kombinatorik zählt man nun ab, wie viele Ergebnisse ein Ereignis enthält. Oft können wir solche Abzählprobleme auf Formeln zurückführen, die wir am Beispiel von mehrfachen Ziehungen aus einer Urne kennenlernen wollen. In einer Urne seien N Kugeln, die wir uns mit 1, 2, . . . , N durchnummeriert vorstellen. Es werden n Kugeln gezogen. Es gibt nun vier verschiedene Ergebnismengen – je nachdem, ob man die gezogenen Kugeln wieder zurücklegt, und je nachdem, ob die Reihenfolge der Ziehungen berücksichtigt wird. I. Stichprobe in Reihenfolge mit Zurücklegen: Als Ergebnisraum kann ΩI = {ω = (ω1 , . . . , ωn ) : wi ∈ {1, . . . , N } für i = 1, . . . , n} = {1, . . . , N }n gewählt werden. Die Menge enthält offenbar N n Elemente. II. Stichprobe in Reihenfolge ohne Zurücklegen: Hier ist zu beachten, dass man nicht mehr Kugeln ziehen kann als in der Urne enthalten sind. Es muss also n ≤ N gelten. Als Ergebnisraum dient ΩII = {ω = (ω1 , . . . , ωn ) : ωi ∈ {1, . . . , N }, i = 1, . . . , n, ωi 6= ωj für i 6= j}. Beim ersten Zug enthält die Urne N Kugeln, danach nur noch N − 1 usw. Vor dem n-ten Zug sind nur noch N − n + 1 Kugeln in der Urne. Mit vollständiger Induktion kann man zeigen, dass ΩII folglich aus N ·(N −1) · · · (N −n+1) Ergebnissen besteht. Oft kürzt man dies auch ab durch (N )n = N · (N − 1) · · · (N − n + 1). Ist speziell n = N , dann sind am Schluss alle Kugeln gezogen und ΩII ist gerade die Menge aller Permutationen (Vertauschungen) von {1, . . . , N }. Durch unsere Überlegungen haben wir herausgefunden, dass es (N )N = N · (N − 1) · · · 2 · 1 Permutationen der Menge {1, . . . , N } gibt. Man schreibt auch kurz N ! = 1 · 2 · · · N . III. Stichprobe ohne Reihenfolge ohne Zurücklegen: Jede solche Stichprobe kann durch Angabe der Kugelnummern beschrieben werden. Der zugehörige Ergebnisraum ΩIII ist demnach gerade die Menge aller Teilmengen aus {1, . . . , N } mit n Elementen, also ΩIII = {{ω1 , . . . , ωn } : ωi ∈ {1, . . . , N }, ωi 6= ωj für i 6= j}. Manchmal verwendet man auch die Darstellung ΩIII = {(ω1 , . . . , ωn ) ∈ {1, . . . , N }n : ω1 < ω2 < . . . < ωn }. Für ein durch Ziehen ohne Zurücklegen gemäß II. erhaltenes n-Tupel gibt es n! Permutationen, die hier aber alle das gleiche Ergebnis beschreiben. Die Anzahl der Ergebnisse in ΩIII ist also N! (N )n = . n! n!(N − n)! Hierfür schreiben wir Nn , gelesen „N über n“, und nennen einen derartigen Ausdruck Binomialkoeffizient. 44 6 STOCHASTIK IM ALLTAG IV. Stichprobe ohne Reihenfolge mit Zurücklegen: Wenn wir bei einer Ziehung mit Zurücklegen die erhaltenen Kugelnummern der Größe nach ordnen, wird die Reihenfolge der Ziehung irrelevant. Wir sehen also, dass der Ergebnisraum beschreiben lässt durch ΩIV = {(ω1 , . . . , ωn ) ∈ {1, . . . , N }n : ω1 ≤ ω2 ≤ . . . ≤ ωn }. Um die Anzahl der Elemente zu bestimmen, definieren wir eine Funktion, die einem Tupel ω = (ω1 , . . . , ωn ) ∈ ΩIV das Tupel ω 0 = (ω10 , . . . , ωn0 ) mit ωi0 = ωi + i − 1 zuordnet. Da nun die Komponenten ωi0 ∈ {1, 2, . . . , N + n − 1} verschieden sind, ist ω 0 ∈ Ω0III = {(ω10 , . . . , ωn0 ) ∈ {1, 2, . . . , N + n − 1}n : ω10 < . . . < ωn }. Zwei verschiedenen Tupeln ω und τ werden verschiedene Tupel ω 0 und τ 0 zugeordnet. Zudem gibt es zu jedem τ 0 ∈ Ω0III ein τ ∈ ΩIV , das auf τ 0 abgebildet wird. Die Menge ΩIV enthält also genauso viele Elemente wie Ω0III . Nach III. besitzt letztere Menge jedoch N +n−1 n Elemente. Durch eine alternative Interpretation zeigt sich, dass wir vier weitere Abzählprobleme mitgelöst haben. Wenn wir n Murmeln auf N Fächer verteilen wollen, hängt die Anzahl der möglichen Ergebnisse davon ab, ob die Murmeln unterscheidbar sind und ob in ein Fach auch mehrere Murmeln gelegt werden dürfen. Indem wir die Nummer der Murmel als Nummer der Ziehung einer Kugel aus einer Urne und die Nummer des Faches als Nummer der Kugel, die gezogen wird, interpretieren, haben wir das Problem auf die soeben behandelten Urnenmodelle zurückgeführt. Durch Angabe der Anzahl der günstigen Ergebnisse wird auch das folgende Problem gelöst. Beispiel 6.1. Der Fürst der Toskana schrieb damals an Galileo Galilei, warum beim Wurf dreier Würfel die Augensumme 10 häufiger als die Augensumme 9 auftritt, obwohl beide Summen auf genau 5 Arten gewürfelt werden können, nämlich 9 = 1+2+6=1+3+5=1+4+4=2+2+5=2+3+4=3+3+3 10 = 1 + 3 + 6 = 1 + 4 + 5 = 2 + 2 + 6 = 2 + 3 + 5 = 2 + 4 + 4 = 3 + 3 + 4 Wir überlegen jeweils, wie viele mögliche Realisationen es gibt. Dazu nehmen wir an, dass die drei Würfel unterscheidbar sind (z.B. durch unterschiedliche Färbung). Das Wurfergebnis 1 + 2 + 6 kann dann auf 3! mögliche Arten realisiert werden: (1, 2, 6), (1, 6, 2), (2, 1, 6), (6, 1, 2), (2, 6, 1), (6, 2, 1). Dies entspricht dem Problem, drei Murmeln mit den Nummern 1, 2 und 3 auf die drei möglichen Fächer 1, 2 und 6 zu verteilen bzw. Kugeln mit den Wurfergebnissen ohne Zurücklegen unter Beachtung der Reihenfolge aus einer Urne zu ziehen. Das gleiche Ergebnis erhält man für alle anderen Wurfergebnisse mit drei verschiedenen Augen. Zeigen zwei Würfel den gleichen Wert, so gibt es nur drei mögliche Realisationen, für 1 + 4 + 4 sind das beispielsweise (1, 4, 4), (4, 1, 4), (4, 4, 1). Dies entspricht dem Problem, drei Murmeln mit den Nummern 1, 2 und 3 auf die Fächer 1 und 4 zu verteilen, wobei zwei Murmeln in das Fach 4 gelegt werden müssen. Für das Ergebnis 3+3+3 gibt es hingegen nur eine einzige Realisation (3, 3, 3). Insgesamt kann die Augensumme 9 also auf 25 Arten und die Augensumme 10 auf 27 Arten erzielt werden. Die Augensumme 10 kommt also in der Tat häufiger vor als die Augensumme 9. 6.1 Kombinatorik 45 Auch kann die Kombinatorik zum Beweis gewisser Aussagen herangezogen werden. Wir wollen hier exemplarisch den Binomischen Satz beweisen: Satz 6.1. Für x, y ∈ R und n ∈ N gilt n X n k n−k (x + y) = x y . k k=0 n Beweis. Schreibt man (x + y)n = (x1 + y1 )(x2 + y2 ) · · · (xn + yn ) mit xi = x und yi = y, so tritt das Glied xk y n−k beim Ausmultiplizieren immer dann auf, wenn in k Klammern der Faktor xi und in n − k Klammern der Faktor yi gewählt wird, also n in k Fällen. Eine weitere mögliche Anwendung der Urnenmodelle aus der statistischen Physik zeigt das folgende Beispiel auf. Beispiel 6.2. In der statistischen Physik sieht man von der Beschreibung der Bewegung von Teilchen nach den Gesetzen der newtonschen Mechanik ab. Die Teilchenzahlen sind einfach zu groß, als dass man die zugehörigen Gleichungen lösen könnte. Stattdessen macht man einen stochastischen Ansatz. Für jedes Teilchen wird der Zustand in jedem Zeitpunkt durch die drei Ortskoordinaten und die drei Geschwindigkeitskoordinaten beschrieben. Für ein abgeschlossenes System können wir annehmen, dass die Menge der möglichen Zustände, der Phasenraum, eine beschränkte Teilmenge des R6 ist. Man teilt ihn in Zellen genannte gleich große 6dimensionale Quader, die so klein sind, dass die interessierenden Größen, etwa die Energie, innerhalb jeder Zelle als konstant angesehen werden können. Es gebe insgesamt N Zellen. Sind n Teilchen vorhanden, so sei der Mikrozustand des Systems das n-Tupel ω = (ω1 , . . . , ωn ), in dem ωi die Nummer der Zelle angibt, in der sich das i-te Teilchen gerade aufhält. Nun gibt es drei verschiedene Herangehensweisen: Maxwell-Boltzmann-Statistik: Können beliebig viele der Teilchen in jeder Zelle auftreten und sind die Teilchen unterscheidbar, so ist ΩI = {1, . . . , N }n die Menge der möglichen Mikrozustände. Betrachtet man jedes Element aus ΩI als gleichwahrscheinlich, so spricht man von der Maxwell-Boltzmann-Statistik (zum Begriff der Wahrscheinlichkeit vgl. auch den folgenden Abschnitt). Fermi-Dirac-Statistik: Für Elementarteilchen stimmen die Resultate, die man aus der Annahme der Gleichverteilung auf ΩI ableiten kann, nicht mit den Beobachtungen überein. Für Elementarteilchen mit halbzahligem Spin, sog. Fermionen, zu denen die Elektronen, Protonen und Neutronen gehören, kommt man aber mit einer Gleichverteilung auf ΩII = {ω ∈ ΩI : ωi 6= ωj ∀i 6= j} zu guten Übereinstimmungen. Diese Annahme lässt sich dann so interpretieren, dass für Fermionen das so genannte Pauli-Verbot gilt: Es ist verboten, dass sich in einer Zelle zugleich zwei Teilchen aufhalten. Statt ΩII können wir ebenso gut ΩIII benutzen, denn jedes ω ∈ ΩIII lässt sich auf n! Arten permutieren, ohne dass sich etwas an den Besetzungszahlen ändert. Benutzt man ΩIII als Ergebnisraum, so ist ein „Mikrozustand“ ω ∈ ΩIII beschreibbar, indem man angibt, welche der N Zellen eines der Teilchen enthalten. Die übliche Sprechweise ist dann „Zustand“ statt Zelle und „besetzter Zustand“ für eine Zelle, die ein Teilchen enthält. In dem Fall gibt es Nn Mikrozustände. Bose-Einstein-Statistik: Für Bosonen, d.h. Elementarteilchen mit ganzzahligem Spin, 46 6 STOCHASTIK IM ALLTAG zu denen Photonen und Mesonen gehören, kommt man zu Ergebnissen in Übereinstimmung mit physikalischen Beobachtungen, wenn man die Gleichverteilung auf ΩIV annimmt. 6.2 Einfache Wahrscheinlichkeiten Definition 6.2. Sei Ω ein Ergebnisraum. Eine Funktion P , die jeder Menge A einer geeigneten Familie A von Ereignissen einen Wert aus [0, 1] zuordnet und die Eigenschaften (N) P (Ω) = 1 (A) Für paarweise disjunkte Ereignisse A1 , A2 , . . . ∈ A gilt: P ∞ [ Ai = P (A1 ∪ A2 ∪ . . .) = P (A1 ) + P (A2 ) + · · · = i=1 ∞ X P (Ai ). i=1 besitzt, heißt Verteilung. Dabei bedeutet paarweise disjunkt, dass Ai ∩ Aj = ∅ für i 6= j. Der Wert P (A) heißt Wahrscheinlichkeit von A. Die Formulierung „geeignet“ in Definition 6.2 ist etwas schwammig. Für diskrete Ergebnisräume (wie wir sie hier betrachten) enthält A alle Teilmengen von Ω. In anderen Fällen wäre diese Familie zu groß, genauer wollen wir darauf hier aber nicht eingehen. Eigenschaft (N) besagt, dass die Verteilung normiert ist. Eigenschaft (A) wird auch als σ-Additivität bezeichnet. Die Eigenschaften (N) und (A) sowie die Nichtnegativität der Funktion P gehen auf Andrej Kolmogorov zurück und werden ihm zu Ehren auch Kolmogorovsche Axiome genannt. Bezeichne |Ω| die Anzahl der Elemente der endlichen Menge Ω. Sind die Ergebnisse ω einer endlichen Ergebnismenge Ω alle gleich wahrscheinlich, so besitzen sie folglich 1 . alle die Wahrscheinlichkeit |Ω| Definition 6.3. Ein Zufallsexperiment mit endlich vielen, gleichwahrscheinlichen Ergebnissen heißt Laplace-Experiment. Bezeichnet |Ω| die Anzahl der Elemente von Ω, so ist in diesem Fall 1 P ({ω}) = |Ω| für alle ω ∈ Ω. Ein Ereignis A ⊂ Ω besitzt dann die Laplace-Wahrscheinlichkeit P (A) = |A| . |Ω| Letztere Formel lässt sich gut merken in der Form P (A) = Anzahl der für A günstigen Ergebnisse . Anzahl aller möglichen Ergebnisse Beispiel 6.3 (Fortsetzung von Beispiel 6.1). Bei einem Wurf dreier Würfeln erhalten wir gemäß der gerade eingeführten Formel die Augensumme 9 mit Wahrscheinlich25 27 keit 25 = 216 und die Augensumme 10 mit Wahrscheinlichkeit 216 . 63 6.2 Einfache Wahrscheinlichkeiten 47 Das Beispiel zeigt, dass man manchmal, obwohl die Würfel möglicherweise ununterscheidbar sind, sie zumindest gedanklich unterscheiden muss. Ein weiteres interessantes Beispiel ist das Problem der Geburtstagszwillinge. Beispiel 6.4. Gesucht ist die Wahrscheinlichkeit p, dass mindestens zwei von n Personen am gleichen Tag Geburtstag haben. Wir berechnen p speziell für n = 25, also z.B. die Schüler einer Klasse, und gehen von 365 Tagen (also ohne Schaltjahr) aus. Als Ergebnisraum fungiert ΩI mit n = 25 und N = 365. Das Ergebnis (ω1 , . . . , ω25 ) bedeutet, dass Person 1 am ω1 -ten Tag des Jahres Geburtstag hat, Person 2 am ω2 -ten Tag usw. ΩII gibt dann das Ereignis an, dass alle Personen an verschiedenen Tagen Geburtstag haben. Gemäß Definition 6.3 berechnen wir P (ΩII ) = (N )n n − 1 1 |ΩII | = · · · 1 − . = 1 · 1 − |ΩI | Nn N N Wir begnügen uns mit einer Approximation. Ist k 3 viel kleiner als N 2 , so ist 1 − Nk ≈ e−k/N . Also gilt (mit Hilfe von Beispiel 1.4) P (ΩII ) ≈ e− Pn−1 k k=1 N = e− n(n−1) 2N 600 = e− 730 ≈ 0, 44. Wir sind jedoch an dem komplementären Ereignis interessiert. Hierfür gilt p= |ΩI \ΩII | N n − (N )n = = 1 − P (ΩII ) ≈ 0, 56. |ΩI | Nn Ohne die Approximation ergäbe sich p = 0, 568. Erstaunlicherweise ist es selbst bei der recht geringen Gruppengröße von 25 schon ziemlich wahrscheinlich, mindestens zwei Personen zu finden, die am gleichen Tag Geburtstag haben. Mit den gleichen Methoden lässt sich auch folgende Zeitungsmeldung vom 29.06.1995 relativieren: Stuttgart (dpa/lsw). Die Staatliche Toto-Lotto GmbH in Stuttgart hat eine Lottosensation gemeldet: Zum ersten Mal in der 40jährigen Geschichte des deutschen Zahlenlottos wurden zwei identische Gewinnreihen festgestellt. Am 21. Juni dieses Jahres kam im Lotto am Mittwoch in der Ziehung A die Gewinnreihe 15-25-27-30-42-48 heraus. Genau die selben Zahlen wurden bei der 1628. Ausspielung im Samstagslotto schon einmal gezogen, nämlich am 20. Dezember 1986. Welch ein Lottozufall: Unter den 49 Zahlen sind fast 14 Millionen verschiedene Sechserreihen möglich. Zur wahrscheinlichkeitstheoretischen Bewertung dieser „Sensation“ setzen wir 49 n= = 13 983 816 6 und denken uns alle Gewinnreihen durchnummeriert. In dieser Deutung können wir uns die Ermittlung der Gewinnreihe als rein zufälliges Besetzen eines von insgesamt n verschiedenen Fächern vorstellen. Wie gehabt berechnen wir mittels kombinatorischer Argumente die Wahrscheinlichkeit des komplementären Ereignisses. Als Ergebnis erhalten wir für den konkreten Fall eine Wahrscheinlichkeit von etwa 0,2775. 48 6 STOCHASTIK IM ALLTAG Dieses als „Sensation“ angepriesene Ereignis ist also fast so wahrscheinlich wie beim Werfen zweier Würfel eine Augensumme von höchstens 5 zu erhalten (Wahrscheinlichkeit 10 ≈ 0, 2777). Weitere Rechnungen zeigen, dass bereits bei 4500 Ziehungen 36 die Wahrscheinlichkeit für eine Wiederholung größer als 0,5 ist. Dies mag angesichts der knapp 14 Millionen möglichen Tippreihen überraschend erscheinen, liegt aber darin begründet, dass wir auf irgendeine (und nicht auf eine bestimmte) Wiederholung warten. Wenn wir schon beim Lotto sind, interessieren wir uns natürlich auch für die verschiedenen Gewinnwahrscheinlichkeiten. Beispiel 6.5. Es werden n = 6 Kugeln aus N = 49 Kugeln ohne Zurücklegen gezogen. Notieren wir die Kugeln in der Reihenfolge der Ziehungen, so ist ΩII die Ergebnismenge; notiert man nur die Teilmenge der gezogenen Kugeln, so muss man mit ΩIII arbeiten. Im Gegensatz zu Beispiel 6.3 führen nun beide Herangehensweisen zum gleichen Ergebnis, wenn man die Ergebnisse als gleichwahrscheinlich annimmt. Für Ereignisse der Form „die dritte gezogene Kugel ist eine 5“ muss man ΩII verwenden, da diese Ereignisse in ΩIII nicht definiert sind. Interessiert man sich jedoch für Ereignisse „unter den 6 geratenen Zahlen {2, 11, 17, 32, 40, 48} sind mindestens drei Richtige“, so hat man die freie Wahl zwischen ΩII und ΩIII . Wir wollen ΩIII benutzen. Die Wahrscheinlichkeit jedes Ergebnisses ist dann P ({ω}) = 1 = 49 6 1 ≈ 7, 1511 · 10−8 . 13983816 Dies ist auch die Wahrscheinlichkeit p6 für „6 Richtige“. Wir wollen nun die Wahrscheinlichkeit p4 für „genau 4 Richtige“ bestimmen. Sei ω̄ = {ω̄1 , . . . , ω̄6 } die Menge der geratenen Zahlen. Dann lässt sich das Ereignis „genau 4 Richtige“ in ΩIII beschreiben durch A4 = {ω ∈ ΩIII : |ω̄ ∩ ω| = 4}. Wir können eine zu A4 gehörige Menge ω von Kugeln dadurch beschreiben, dass wir zuerst 4 Kugeln von ω̄ und dann 2 Kugeln von {1, 2, . . ., 49}\ω̄ festlegen. Da ω̄ aus 6 Kugelnummern besteht, gibt es für die erste Wahl 64 Möglichkeiten, für die zweite gibt es 43 Möglichkeiten. Jede Wahl der 4 Kugeln aus ω̄ lässt sich mit jeder 2 Wahl von 2 Kugeln aus {1, . . . , 49}\ω̄ zu einem Element ω ∈ A4 zusammensetzen. 6 43 Also ist |A4 | = 4 · 2 und 43 6 · 2 4 . p4 = P (A4 ) = 49 6 Ebenso bestimmt man z.B. die Wahrscheinlichkeit p5 für 5 Richtige. Die Wahrscheinlichkeit für mindestens 4 Richtige wäre p6 + p5 + p4 . Mit dem Lottospiel haben wir einen Spezialfall einer weiteren Verteilung kennen gelernt, die auch in vielen anderen Situationen auftritt. Um eine allgemeine Formel abzuleiten, betrachten wir eine Urne, welche S schwarze und W weiße Kugeln enthält, insgesamt also N = S + W Kugeln. Es werden n ≤ S + W Kugeln ohne Zurücklegen gezogen. Die Wahrscheinlichkeit dafür, dass die Stichprobe genau s schwarze und n − s = w weiße Kugeln enthält, ist S W s w S+W n , 0 ≤ s ≤ n. 6.2 Einfache Wahrscheinlichkeiten 49 Dies begründet man wie im vorangegangenen Beispiel. Die hier angegebene Verteilung heißt auch hypergeometrische Verteilung. Sie besitzt die Parameter n, S und W . In vielen Anwendungen sind Experimente von Bedeutung, die nur zwei mögliche Ausgänge besitzen. Ein derartiges Experiment heißt Bernoulli-Experiment. Beispiele sind der Münzwurf (Ausgänge „Kopf“ oder „Zahl“), Glücksspiele (Ausgänge „Erfolg“ oder „Misserfolg“) oder das Warten auf ein bestimmtes Ereignis (das Ereignis tritt ein oder nicht). Formal bezeichnen wir die beiden möglichen Ausgänge mit 0 und 1, der Ergebnisraum ist also Ω = {0, 1}. Die beiden Ausgänge müssen nicht gleichwahrscheinlich sein, vielmehr tritt 1 mit einer Wahrscheinlichkeit p ein und 0 mit der komplementären Wahrscheinlichkeit 1 − p. Da traditionell 1 als „Erfolg“ interpretiert wird, bezeichnet man p auch als Erfolgswahrscheinlichkeit. Ein derartiges Experiment kann man auch n-mal hintereinander durchführen. Als Ergebnismenge dient dann Ω = {0, 1}n = {(ω1 , . . . , ωn ) : ωi ∈ {0, 1}, 1 ≤ i ≤ n}. Einem n-Tupel (ω1 , . . . , ωn ) mit k Einsen ordnet man die Wahrscheinlichkeit P ({ω}) = pk (1 − p)n−k zu. Wenn man nun nach der Wahrscheinlichkeit fragt, dass insgesamt k Einsen auftreten, gibt es nach dem letzten Abschnitt nk Möglichkeiten, die Zeitpunkte {1, . . . , n} festzulegen, an denen eine 1 auftritt. Das Ereignis „Es treten k Erfolge auf.“ hat also die Wahrscheinlichkeit n k P (genau k Erfolge) = p (1 − p)n−k . k Dies definiert eine Verteilung auf {0, 1, . . . , n}, die sog. Binomial-Verteilung. Beispiel 6.6. Wir werfen einen Würfel zehnmal hintereinander und fassen eine sechs als Erfolg auf, die Erfolgswahrscheinlichkeit ist also 61 . Die Wahrscheinlichkeit, in 1 3 5 7 zehn Würfen drei Sechsen zu werfen, ist dann 10 . 3 6 6 Wir betrachten nun wieder n hintereinander ausgeführte Bernoulli-Experimente mit Erfolgswahrscheinlichkeit p. Eine interessante Frage ist dann, wie groß die Wahrscheinlichkeit dafür ist, dass der erste Erfolg im k-ten Versuch (k ≤ n) eintritt. Das Ereignis tritt genau dann ein, wenn dem Erfolg im k-ten Experiment k −1 Misserfolge vorausgehen. Die Wahrscheinlichkeit für ein solches Ereignis beträgt p(1 − p)k−1 . Wenn das Experiment auch beliebig oft wiederholt werden darf, wird durch p(1 − p)k−1 , k∈N eine Verteilung auf N definiert. Diese Verteilung heißt geometrische Verteilung. In den bisher betrachteten mehrstufigen Experimenten haben wir ein BernoulliExperiment n-mal wiederholt. Allgemeiner können auch verschiedene Experimente hintereinander durchgeführt werden. Besteht das Experiment aus n Stufen, so lassen sich seine Ergebnisse als ω = (ω1 , . . . , ωn ) darstellen, wobei ωj den Ausgang des j-ten Teilexperiments angibt. Bezeichnet Ωj die Ergebnismenge des j-ten Teilexperiments, so ist Ω = Ω1 × · · · × Ωn = {(ω1 , . . . , ωn ) : ωj ∈ Ωj für j = 1, . . . , n} 50 6 STOCHASTIK IM ALLTAG eine geeignete Ergebnismenge des Gesamtexperiments. Wir nehmen an, dass die Ωj nur jeweils endlich viele Ergebnisse enthalten. Dann können wir durch Angabe aller Wahrscheinlichkeiten P ({ω}) eine Verteilung auf Ω definieren. Dazu geben wir zunächst P für alle ω1 ∈ Ω1 eine Startverteilung in Form von Wahrscheinlichkeiten p1 (ω1 ) mit ω1 ∈Ω1 p1 (ω1 ) = 1 vor. Zu jedem Ausgang ω1 des ersten Teilexperiments geben wir anschließend ein SystemPvon Übergangswahrscheinlichkeiten p2 (ω2 |ω1 ), ω2 ∈ Ω2 , vor. Für jedes ω1 ∈ Ω1 gilt ω2 ∈Ω2 p2 (ω2 |ω1 ) = 1. Die Modellierung des Übergangs zum dritten Teilexperiment erfolgt dann mit Hilfe eines von den Ergebnissen (ω1 , ω2 ) ∈ Ω1 × Ω2 der beiden ersten Teilexperimente abhängenden Systems p3 (ω3 |ω1 , ω2 ), ω3 ∈ Ω3 , von Übergangswahrscheinlichkeiten P mit ω3 ∈Ω3 p3 (ω3 |ω1 , ω2 ) = 1 für jede Wahl von ω1 ∈ Ω1 und ω2 ∈ Ω2 . Allgemein benötigen wir zur Modellierung des Übergangs vom (j − 1)-ten zum j-ten Teilexperiment (j = 2, 3, . . . , n) für jede Wahl von ω1 ∈ Ω1 , . . . , ωj−1 ∈ Ωj−1 ein P System pj (ωj |ω1 , . . . , ωj−1 ), ωj ∈ Ωj , von Übergangswahrscheinlichkeiten mit ωj ∈Ωj pj (ωj |ω1 , . . . , ωj−1 ) = 1. Für ein ω ∈ Ω1 × . . . × Ωn legen wir dann eine Wahrscheinlichkeit p(ω) fest durch p(ω) = p1 (ω1 ) · p2 (ω2 |ω1 ) · p3 (ω3 |ω1 , ω2 ) · · · pn (ωn |ω1 , . . . , ωn−1 ). Proposition 6.2. Durch P (A) = X p(ω) , A ⊂ Ω, ω∈A wird eine Verteilung auf Ω definiert. Beweis. Die Eigenschaft P (A) ≥ 0 ist klar, da alle p(ω) nichtnegativ sind. Die Normiertheit zeigen wir mittels sog. endlicher Induktion nach der Anzahl k der betrachteten Teilexperimente: k = 1: Dieser Fall ist klar nach Definition von p. k → k + 1 ≤ n: Als Induktionsannahme setzen wir voraus, dass wir die Behauptung für die auf Ω1 × . . . × Ωk definierten Wahrscheinlichkeiten p(k) (ω1 , . . . , ωk ) = p1 (ω1 ) · p2 (ω2 |ω1 ) · · · pk (ωk |ω1 , . . . , ωk−1 ) bewiesen haben. Dann folgt X X ··· p(k+1) (ω1 , . . . , ωk+1 ) ω1 ∈Ω1 = X ωk+1 ∈Ωk+1 ··· ω1 ∈Ω1 = = X X p(k) (ω1 , . . . , ωk ) · pk+1 (ωk+1 |ω1 , . . . , ωk ) ωk ∈Ωk ωk+1 ∈Ωk+1 ··· X ω1 ∈Ω1 ωk ∈Ωk X X ω1 ∈Ω1 X ··· p(k) (ω1 , . . . , ωk ) X pk+1 (ωk+1 |ω1 , . . . , ωk ) ωk+1 ∈Ωk+1 I.V. p(k) (ω1 , . . . , ωk ) · 1 = 1. ωk ∈Ωk Durch den Schritt n − 1 → n erhalten wir schließlich wie gewünscht P (Ω) = P ω∈Ω p(ω) = 1. 6.2 Einfache Wahrscheinlichkeiten 51 Die σ-Additivität (A) ergibt sich direkt aus S der Definition: Seien A1 , A2 , . . . paarweise disjunkte Ereignisse. Dann ist ω ∈ ∞ j=1 Aj genau dann, wenn es genau ein j0 ∈ N gibt, so dass ω ∈ Aj0 . Daher gilt P ∞ [ X Aj = j=1 ω∈ S∞ j=1 p(ω) = ∞ X X p(ω) = j=1 ω∈Aj Aj ∞ X P (Aj ). j=1 Die Situation können wir mittels eines Baumdiagramms veranschaulichen, der Übersichtlichkeit halber hier nur für n = 3 und Ω1 = Ω2 = Ω3 = {1, 2, 3}: Start p1 (2) 2 p1 (1) p2 (1|1) 1 1 2 p2 (3|1) 3 1 2 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 p1 (3) p2 (3|2) p3 (1|2, 3) 3 p2 (1|3) 1 3 2 p2 (3|3) 3 1 2 3 1 2 3 1 2 3 1 2 3 In diesem Diagramm stehen an den von den vom Startpunkt ausgehenden Linien die Wahrscheinlichkeiten für die mit dem Startpunkt durch die Linien verbundenen Ergebnisse der ersten Stufe. Diese sind wiederum mit den möglichen Ergebnissen der zweiten Stufe verbunden usw. Aus Platzgründen sind nicht alle Übergangswahrscheinlichkeiten aufgeführt. Man beachte, dass jedem Ergebnis des Gesamtexperiments ein vom Startpunkt ausgehender und entlang der Linien verlaufender Pfad im Baumdiagramm entspricht. In obigem Diagramm ist ein solcher Pfad rot hervorgehoben. Deuten wir ω als einen Pfad im Baumdiagramm – für den rot hervorgehobenen Pfad wäre ω beispielsweise gleich (2, 3, 1) – so besagt die Definition von p(ω), dass die Wahrscheinlichkeit dieses Pfades gleich dem Produkt der an den Linien des Pfades stehenden Übergangswahrscheinlichkeiten ist. Dem roten Pfad ordnen wir also die Wahrscheinlichkeit p1 (2) · p2 (3|2) · p3 (1|2, 3) zu. Die Wahrscheinlichkeit eines Ereignisses A berechnet sich gemäß Proposition 6.2 als Summe der Wahrscheinlichkeiten aller zu A gehörenden Pfade. Wir wollen uns dies an einem Beispiel verdeutlichen, das zu intensiven Diskussionen geführt hat: Beispiel 6.7 (Ziegenproblem). In der amerikanischen Spielshow „Let’s make a deal“ (im deutschen Fernsehen als „Geh aufs Ganze!“ adaptiert) ist als Hauptpreis ein Auto ausgesetzt. Hierzu sind auf der Bühne drei verschlossene Türen aufgebaut. Hinter einer rein zufällig ausgewählten Tür befindet sich der Hauptpreis, hinter den beiden anderen jeweils eine Ziege. Der Kandidat wählt eine der Türen, beispielsweise Tür 1, aus; diese bleibt aber vorerst verschlossen. Der Spielleiter, der weiß, hinter welcher Tür das Auto steht, öffnet daraufhin eine der beiden anderen Türen, z.B. Tür 3, und eine Ziege schaut ins Publikum. Der Kandidat hat nun die Möglichkeit, bei seiner ursprünglichen Wahl zu bleiben oder die andere verschlossene Tür (in unserem Beispiel Tür 2) zu wählen. Er erhält dann den Preis der von ihm zuletzt gewählten Tür. Stochastisch gesehen, ist es vorteilhafter, sich umzuentscheiden, da 52 6 STOCHASTIK IM ALLTAG einer Gewinnwahrscheinlichkeit von 13 bei Beibehaltung seiner Wahl eine Gewinnwahrscheinlichkeit von 23 bei einem Wechsel gegenübersteht. Am einleuchtendsten erklärt man dies wie folgt: Der Standhafte gewinnt nur dann den Hauptgewinn, wenn sich dieser hinter der ursprünglich gewählten Tür befindet. Die Wahrscheinlichkeit hierfür ist 13 . Ein Wechsler hingegen gewinnt das Auto genau dann, wenn er zuerst auf eine der beiden „Ziegentüren“ zeigt (die Wahrscheinlichkeit hierfür ist 23 ), denn nach dem Öffnen der anderen Ziegentür durch den Moderator führt die WechselStrategie in diesem Fall automatisch zum Auto. Bei all diesen Betrachtungen gehen wir natürlich davon aus, dass der Moderator den Standort des Autos geheimhalten muss, aber auch verpflichtet ist, eine Ziegentür zu öffnen. Das Ziegenproblem können wir formal mit Hilfe der soeben eingeführten mehrstufigen Zufallsexperimente modellieren. Ein geeigneter Ergebnisraum ist z.B. Ω = Ω1 × Ω2 × Ω3 mit Ωj = {1, 2, 3} (j = 1, 2, 3). In ω = (ω1 , ω2 , ω3 ) bezeichnet ω1 die Nummer der „Autotür“, ω2 die Nummer der vom Kandidaten gewählten Tür und ω3 die Nummer der vom Moderator geöffneten Tür. Das dazugehörige Baumdiagramm hat die Form Start 1 3 1 3 1 2 2 1 1 1 3 1 2 3 3 1 1 1 3 2 1 3 1 3 2 2 1 3 1 3 1 3 1 3 1 3 1 2 1 2 1 2 3 3 1 3 3 1 1 1 1 2 1 2 1 1 3 1 3 1 2 1 3 1 2 2 Hat der Kandidat die Gewinnertür gewählt, kann der Moderator zufällig eine der beiden verbliebenen Ziegentüren öffnen. Hat der Kandidat hingegen eine Ziegentür gewählt, so hat der Moderator keine Wahl, welche Tür er öffnet, da er weder die vom Kandidaten gewählte Tür noch die Gewinnertür öffnen darf. Das Ereignis A =„Der Kandidat gewinnt ohne Wechsel“ besteht aus den Pfaden (1, 1, 2), (1, 1, 3), (2, 2, 1), (2, 2, 3), (3, 3, 1) und (3, 3, 2) und hat daher die Wahrscheinlichkeit P (A) = 6 · 1 1 1 1 · · = . 3 3 2 3 Das Ereignis B =„Der Kandidat gewinnt nach einem Wechsel“ besteht aus den Pfaden (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2) sowie (3, 2, 1) und besitzt die Wahrscheinlichkeit 1 1 2 P (B) = 6 · · · 1 = . 3 3 3 6.3 Statistische Fragestellungen Die zentrale Aufgabe der Statistik besteht in der Entwicklung von Methoden, mit denen man aus zufallsgesteuerten Beobachtungen auf die zugrunde liegenden Gesetzmäßigkeiten schließen kann. Die infrage kommenden Gesetzmäßigkeiten werden durch eine Familie (Pϑ )ϑ∈Θ geeigneter Wahrscheinlichkeitsmaße beschrieben. Die Parametermenge Θ kann eine beliebige abstrakte Menge sein, in der Praxis ist Θ meist eine Teilmenge von R, Rd oder N. Die möglichen Ergebnisse der Beobachtungen 6.3 Statistische Fragestellungen 53 bilden eine Menge X , den Stichprobenraum. Anhand eines Beispiels wollen wir die verschiedenen Herangehensweisen der Statistik motivieren und diskutieren. Beispiel 6.8 (Qualitätskontrolle). Ein Orangenimporteur erhält eine Lieferung von N = 10 000 Orangen. Natürlich möchte er wissen, wie viele von diesen faul sind. Um Anhaltspunkte dafür zu bekommen, nimmt er eine Stichprobe von n = 50 Orangen. Von diesen ist eine zufällige Anzahl x faul. Welche Rückschlüsse auf die wahre Anzahl w der faulen Orangen kann der Importeur dann ziehen? Die folgenden drei Vorgehensweisen bieten sich an: 1. Naive Schätzung: Über den Daumen gepeilt wird man vermuten, dass der Anteil der faulen Orangen in der Stichprobe in etwa dem Gesamtanteil der faulen Oranw . Demzufolge wird der Importeur gen in der Lieferung entspricht, dass also nx ≈ N x darauf tippen, dass ungefähr W (x) = N n Orangen faul sind, d.h. W (x) (oder genauer gesagt, die nächstgelegene ganze Zahl) ist ein aus dem Beobachtungsergebnis x resultierender Schätzwert für w. Eine solche Abbildung W , die dem Beobachtungsergebnis x einen Schätzwert W (x) zuordnet, heißt ein Schätzer. Der Schätzwert ist offensichtlich vom Zufall abhängig. Wenn der Importeur eine zweite Stichprobe zieht, bekommt er im Allgemeinen ein anderes Ergebnis x0 , und damit verändert sich auch der Schätzwert W (x0 ). Welchem Schätzwert soll er nun mehr vertrauen? 2. Schätzung mit Fehlerangabe: Beim Beobachtungsergebnis x tippt man nicht auf einen genauen Wert W (x), sondern gibt nur ein von x abhängiges Intervall C(x) an, in dem der wahre Wert w mit hinreichender Sicherheit liegt. Da x vom Zufall bestimmt wird, ist natürlich auch C(x) zufallsabhängig. Man möchte, dass es mit goßer Wahrscheinlichkeit den wahren Wert w enthält. Dies bedeutet Pw (x : C(x) 3 w) ≈ 1 für das wahre w und das richtige Wahrscheinlichkeitsmaß Pw . Nun entspricht die Stichprobe des Orangenimporteurs offenbar dem Ziehen ohne Zurücklegen von n Kugeln aus einer Urne mit w weißen und N − w schwarzen Kugeln; die Anzahl der faulen Orangen in der Stichprobe ist daher hypergeometrisch verteilt. Der wahre Wert w allerdings ist unbekannt; er soll ja erst aus der Stichprobe x ermittelt werden! Die Eigenschaften von C(x) dürfen daher nicht von w abhängen. Dies führt zu der Forderung, dass Pw (x : C(x) 3 w) ≥ 1 − α für alle w ∈ {0, . . . , N } und ein (kleines) α > 0. Solch ein vom Beobachtungswert x abhängiges Intervall heißt ein Konfidenzintervall zum Irrtumsniveau α. 3. Entscheidungsfindung durch Test: Dem Orangenimporteur kommt es nicht nur auf die reine Kenntnis von w an, sondern auch aufs Geld. Er hat z.B. einen Vertrag mit dem Lieferanten, welcher besagt: Der vereinbarte Preis muss nur gezahlt werden, wenn höchstens 5% der Orangen faul sind. Aufgrund der Stichprobe x muss er sich entscheiden: Stimmt die Qualität oder nicht? Er hat die Wahl zwischen der Hypothese H0 : w ∈ {0, . . . , 500} und der Alternative H1 : w ∈ {501, . . . , 10 000} und braucht dazu ein Entscheidungsverfahren, etwa der Art: Wenn x einen kritischen Wert c nicht überschreitet, entscheidet man sich für die Hypothese, wird c überschritten, für die Alternative. Dabei soll c so bestimmt werden, dass Pw (x : x > c) für w ≤ 500 klein ist, und für w > 500 möglichst groß ist. Die erste Forderung bedeutet, dass ein für den Importeur peinlicher Irrtum sehr unwahrscheinlich sein soll, und die zweite, dass 54 6 STOCHASTIK IM ALLTAG der Importeur zu seinem Recht kommt – er möchte ja unbedingt erkennen, wenn die Qualität der Orangen nicht ausreichend ist. Eine Entscheidungsregel dieser Art heißt Test. Die zweite Methode werden wir hier nicht weiter beleuchten. Mit der Schätztheorie und der Testtheorie werden wir uns hingegen etwas ausführlicher befassen. 6.3.1 Schätztheorie Definition 6.4. Sei X ein Stichprobenraum, (Pϑ )ϑ∈Θ eine parametrische Familie von Wahrscheinlichkeitsmaßen auf X und g : Θ → Γ eine Abbildung. Eine Abbildung t : X → Γ heißt Schätzer für g(ϑ). Eine Realisierung t(x) heißt Schätzwert oder Schätzung. Wenn wir x beobachten, können wir in den bisher betrachteten Modellen die Wahrscheinlichkeit Lϑ (x) = Pϑ ({x}) berechnen, mit der dieses Ergebnis eintritt, wenn ϑ der richtige Parameter ist. Wir definieren Definition 6.5. Ist X ein Stichprobenraum und (Pϑ )ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßen mit Parametermenge Θ, so heißt die Funktion L : X × Θ → [0, ∞[, (x, ϑ) 7→ L(x, ϑ) = Lϑ (x) = Pϑ ({x}) die zugehörige Likelihood-Funktion, und die Abbildung L(x, .) : Θ → [0, ∞[, ϑ 7→ L(x, ϑ) heißt Likelihood-Funktion zum Beobachtungswert x. Wir können dann argumentieren, dass ein ϑ mit sehr kleinem Lϑ (x) nicht der wahre Parameter sein kann, denn sonst wäre unser Beobachtungsergebnis ein Ausnahmefall gewesen. Viel plausibler ist es, auf ein ϑ zu tippen, bei dem unser x mit großer Wahrscheinlichkeit eintritt. Definition 6.6. Ein Schätzer T : X → Θ für ϑ heißt ein Maximum-LikelihoodSchätzer, wenn L(x, T (x)) = max L(x, ϑ) ϑ∈Θ für jedes x ∈ X , d.h. wenn der Schätzwert T (x) eine Maximalstelle der Funktion L(x, ·) auf Θ ist. Beispiel 6.9 (Fortsetzung zu Beispiel 6.8). Im Beispiel des Orangenimporteurs war X = {0, . . . , n}, Θ = {0, . . . , N } und Pϑ die hypergeometrische Verteilung mit Parametern n, ϑ und N − ϑ. Wir berechnen den Maximum-Likelihood-Schätzer T (x) für ϑ. Es gilt Lϑ (x) = Pϑ ({x}) = ϑ x N −ϑ n−x N n . Für welches ϑ wird dies maximal? Für ϑ ∈ N gilt ϑ N −ϑ Lϑ (x) ϑ(N − ϑ + 1 − n + x) x n−x = ϑ−1 N −ϑ+1 = . Lϑ−1 (x) (ϑ − x)(N − ϑ + 1) x n−x Dieser Quotient ist genau dann mindestens 1, wenn ϑn ≤ (N + 1)x,also wenn ϑ ≤ Nn+1 x. Die Funktion Lx wächst somit auf der Menge 0, . . . , Nn+1 x und fällt für größere Werte von ϑ. Die eckige Klammer steht N +1dabei für den ganzzahligen Anteil N +1 der Zahl n x. Im Fall x < n ist also T (x) = n x . 6.3 Statistische Fragestellungen 55 Anstatt einer Anzahl können wir auch eine Erfolgswahrscheinlichkeit schätzen. Beispiel 6.10 (Schätzung der Erfolgswahrscheinlichkeit). Ein Reißnagel kann auf die Spitze oder den Rücken fallen, und zwar falle er auf die Spitze mit Wahrscheinlichkeit ϑ. Gesucht ist ein Schätzer für ϑ bei Beobachtung von n Würfen. Das gleiche Problem tritt immer dann auf, wenn in (unabhängigen) Beobachtungen eine unbekannte Wahrscheinlichkeit ϑ für das Eintreten eines „Erfolgs“ bestimmt werden soll, wie etwa die Heilwirkung eines Medikaments oder die Favorisierung eines Wahlkandidaten. Wir wählen X = {0, . . . , n}, Θ = [0, 1] und Pϑ als die Binomialverteilung mit x n n−x Parametern n und ϑ. Die Likelihood-Funktion lautet dann Lϑ (x) = x ϑ (1 − ϑ) . Anstatt diese Funktion in ϑ zu maximieren, suchen wir die Maximalstelle der Funktion ln(Lϑ (x)). Da der Logarithmus streng monoton wachsen ist, stimmen beide Maximalstellen überein. Es gilt d x n−x d ln(Lϑ (x)) = [x ln ϑ + (n − x) ln(1 − ϑ)] = − . dϑ dϑ ϑ 1−ϑ Der letzte Ausdruck ist fallend in ϑ und verschwindet genau für ϑ = nx . Also ist T (x) = nx der (einzige) Maximum-Likelihood-Schätzer für ϑ. Dieser Schätzer leuchtet auch intuitiv ein: Als Schätzwert für die Erfolgswahrscheinlichkeit wählen wir die relative Häufigkeit des Erfolges. In den beiden vorangegangenen Beispielen wird deutlich, dass man je nach Parametermenge Θ das Maximum auf verschiedene Weise bestimmen kann/muss: Ist Θ eine Teilmenge von N oder Z oder Lϑ (x) als Funktion von ϑ nicht differenzierbar, muss man das Maximum mit Monotonieüberlegungen bestimmen, ist ϑ 7→ Lϑ (x) differenzierbar, so erhält man die Maximalstelle auch mittels des aus der Schule bekannten Verfahrens zur Berechnung eines Extremums einer Funktion. Maximum-Likelihood-Schätzer sind zwar in den meisten Fällen „gute“ Schätzer, jedoch gibt es auch Situationen, in denen man mit ihnen einen systematischen Fehler macht. Beispiel 6.11 (Taxiproblem). In einer großen Stadt gibt es N Taxis, die die Nummern 1, . . . , N tragen. Ein Passant steht an einer viel befahrenen Straße und beobachtet die Nummern der n Taxis x1 , . . . , xn . Wiederholungen werden ignoriert. Nehmen wir an, dass noch alle Taxis in Betrieb sind, so ist, X die Menge der n-elementigen Teilmengen x = {x1 , . . . , xn } von {1, 2, 3, . . .}. Die Beobachtungen seien der Größe nach sortiert, d.h. es gelte x1 < x2 < . . . < xn . Aus diesen Beobachtungen soll nun N geschätzt werden. Natürlich ist N ≥ xn . Wenn es N Taxis gibt, dann sind alle n-elementigen Teilmengen von {1, . . . , N } gleichwahrscheinlich, jeder Teilmenge x lässt sich also die Wahr−1 scheinlichkeit PN (x) = Nn zuordnen. Die Wahrscheinlichkeit ist umso größer, je kleiner N ist. Also ist T (x) = xn = max1≤i≤n xi der Maximum-Likelihood-Schätzer. Aber besonders realistisch scheint die Schätzung nicht zu sein. Mit heuristischen Argumenten wollen wir versuchen, einen Schätzer zu finden, der nicht systematisch N unterschätzt. Aus Symmetriegründen müsste „im Durchschnitt“ von vielen Stichproben die Zahl x1 − 1 der nicht beobachteten Taxis mit Nummern < x1 etwa gleich der Zahl N − xn der nicht beobachteten Taxis mit Nummern > xn sein. Also bietet sich N1 (x) = xn + x1 − 1 als Schätzer an. Noch besser ist es, die Länge der nicht beobachteten Lücke {xn + 1, . . . , N } oberhalb von xn durch die mittlere Länge der vorangegangenen Lücken zu schätzen, also 56 6 STOCHASTIK IM ALLTAG durch xn − n 1 (x1 − 1) + (x2 − x1 − 1) + · · · + (xn − xn−1 − 1) = . n n Dies führt zum Schätzer N2 (x) = xn + xnn−n . (In der Praxis würde man die nächstgelegene ganze Zahl als Schätzer wählen.) Das Taxiproblem lässt sich leicht so variieren, dass {1, . . . , N } durch ein unbekanntes Intervall {M, M + 1, . . . , N } ersetzt wird. Es heißt, dass Varianten davon im zweiten Weltkrieg eine Rolle gespielt haben. Aus den Seriennummern der abgeschossenen Panzer wurde die Zahl der Panzer der Wehrmacht von den Alliierten zuverlässiger geschätzt als durch Geheimdienstmethoden. 6.3.2 Testtheorie Während man in der Schätztheorie die Beobachtungen dazu nutzt, den zugrunde liegenden Zufallsmechanismus möglichst treffend zu beurteilen, geht es in der Testtheorie um das rationale Verhalten in Entscheidungssituationen. Wir erinnern uns an Beispiel 6.8. Dort hatten wir folgende Entscheidungsregel formuliert: Sind höchstens c Orangen faul, so akzeptieren wir die Lieferung, sind mehr als c Orangen faul, fordern wir zumindest einen Preisnachlass. Doch wie groß muss c nun gewählt werden? Allgemein geht man in solchen Entscheidungssituationen folgendermaßen vor: 1. Schritt: Modellierung. Dieser Schritt beinhaltet die Angabe eines geeigneten Stichprobenraums X , eines Parameterraums Θ und einer parametrischen Familie (Pϑ )ϑ∈Θ von Wahrscheinlichkeitsmaßen. Im in Beispiel 6.8 vorliegenden Fall wählt man X = {0, . . . , n}, Θ = {0, . . . , N } und Pϑ als hypergeometrische Verteilung mit Parametern n, ϑ und N − ϑ, ϑ ∈ Θ. 2. Schritt: Formulierung der Nullhypothese und der Alternative. Die Parametermenge Θ wird in diesem Schritt gemäß dem folgenden Prinzip in zwei Teilmengen Θ0 und Θ1 zerlegt: ϑ ∈ Θ0 ⇔ ϑ ist für mich akzeptabel. ϑ ∈ Θ1 ⇔ ϑ ist für mich problematisch. Man sagt dann, dass die Nullhypothese H0 : ϑ ∈ Θ0 gegen die Alternative H1 : ϑ ∈ Θ1 getestet werden soll. In unserem Beispiel akzeptiert der Importeur die Lieferung, wenn ϑ ∈ Θ0 = {0, . . . , 500}, da in dem Fall die Qualität stimmt. Falls ϑ ∈ Θ1 = {501, . . . , 10000}, so ist die Qualität zu schlecht. 3. Schritt: Wahl eines Irrtumsniveaus. Es gibt keinen Test, in dem man sich nie irren kann. Wählt man Θ0 = Θ und Θ1 = ∅, dann lehnt man die Nullhypothese zwar nicht fälschlicherweise ab, man verwirft sie aber auch nicht, wenn es angebracht wäre. Im anderen Extremfall Θ0 = ∅ und Θ1 = Θ verwirft man immer, auch wenn die Nullhypothese vorliegt. Die beiden beschriebenen Fehler verhalten sich also konträr zueinander. Als Ausweg wählt man ein Irrtumsniveau α ∈ (0, 1), z.B. α = 0, 05, und fordert, dass die Wahrscheinlichkeit eines „peinlichen Irrtums“, d.h. einer Entscheidung für die Alternative, obwohl die Nullhypothese vorliegt („Fehler erster Art“) höchstens α betragen soll. Bei der Festlegung der Entscheidungsregel kann man diese dann so wählen, dass der andere Fehler (fälschliche Entscheidung für die Hypothese) möglichst klein wird. 6.3 Statistische Fragestellungen 57 4. Schritt: Wahl der Entscheidungsregel. Schließlich wählt man eine Funktion ϕ : X → [0, 1] wie folgt: Wird x ∈ X beobachtet, so gibt ϕ(x) die Wahrscheinlichkeit an, sich für die Alternative zu entscheiden. Im Klartext heißt das: ⇔ Ich halte an der Nullhypothese fest, d.h. mein Verdacht auf Vorliegen der Alternative lässt sich durch das Beobachtungsergebnis x nicht rechtfertigen. ϕ(x) = 1 ⇔ Ich verwerfe die Nullhypothese und nehme aufgrund von x an, dass die Alternative vorliegt. 0 < ϕ(x) < 1 ⇔ Ich bin mir nicht ganz sicher über die richtige Entscheidung und führe deshalb ein Zufallsexperiment durch, das mir mit Wahrscheinlichkeit ϕ(x) sagt: Entscheide dich für die Alternative. ϕ(x) = 0 Im Beispiel kann der Importeur z.B. die Entscheidungsregel 1 , x > c ϕ(x) = 12 , x = c 0 ,x < c verwenden. Für x = c kann er dann seine Entscheidung beispielsweise von dem Ergebnis eines Münzwurfes abhängig machen. Die Funktion ϕ wird als Test bezeichnet. 5. Schritt: Durchführung des Experiments. Erst nachdem der Test festgesetzt wurde, erfolgt die Durchführung des Experiments, da sonst die Gefahr besteht, dass der Test so verändert wird, das das Ergebnis den eigenen Wünschen entspricht. Wir wollen uns das Vorgehen an einem weiteren Beispiel veranschaulichen: Beispiel 6.12 (Außersinnliche Wahrnehmung). Ein Medium behauptet, mittels seiner außersinnlichen Fähigkeiten verdeckt liegende Spielkarten identifizieren zu können. Um diese Behauptung zu überprüfen, werden dem Medium n = 20 Mal die Herz-Dame und der Herz-König eines fabrikneuen Spiels in zufälliger Anordnung verdeckt vorgelegt. Das Medium soll jeweils die Herz-Dame aufdecken. Der Versuchsleiter geht nun folgendermaßen vor: • Ein geeigneter Stichprobenraum ist X = {0, . . . , n}. Als Wahrscheinlichkeiten Pϑ eignen sich Binomialverteilungen mit Erfolgswahrscheinlichkeiten ϑ mit ϑ ∈ Θ = 12 , 1 , denn das Medium kann durch bloßes Raten bereits die Erfolgswahrscheinlichkeit 21 erreichen. • Getestet muss die Nullhypothese Θ0 = 12 gegen die Alternative 1 werden Θ1 = 2 , 1 . Peinlich wäre der Irrtum, einer Person übersinnliche Fähigkeiten zu bescheinigen, obwohl diese in Wirklichkeit auf Raten angewiesen ist. • Als Irrtumsniveau wählen wir α = 0, 05. • Es bietet sich an, einen Test der Form ( 1 , x ∈ {c, . . . , n} ϕ(x) = 0 , x ∈ {0, . . . , c − 1} 58 6 STOCHASTIK IM ALLTAG mit geeignetem c zu wählen. Ein Blick in Tabellen zur Binomialverteilung lehrt den Versuchsleiter, dass er c = 15 wählen muss, wenn er das Niveau α einhalten will. In dem Fall gilt allerdings sogar P 1 ({15, . . . , n}) ≈ 0, 0207. 2 • Der Test wird durchgeführt, und das Medium erzielt x = 14 Treffer. Es ist also ϕ(x) = 0, die medialen Fähigkeiten konnten also durch den Versuch nicht bestätigt werden. Zum Schluss betrachten wir noch eine aktuelle Anwendung der Testtheorie: Wenn man eine Liste mit Börsenkursen liest, eine Tabelle von Naturkonstanten ansieht oder Listen mit Flusslängen betrachtet, kann man feststellen, dass mehr Zahlen mit einer 1 beginnen als beispielsweise mit einer 6. Diese Beobachtung machte 1881 auch der Astronom und Mathematiker Simon Newcomb, dem aufgefallen war, dass die erste Seite von Logarithmentafeln viel abgegriffener waren als die späteren. Er gab eine heuristische Begründung dafür an, dass die Anfangsziffer k die Wahrscheinlichkeit log10 1 + k1 hat (k = 1, . . . , 9). Für k = 1 ergibt sich der Wert 0,301, für k = 2 der Wert 0,176 usw. bis zum Wert 0,046 für k = 9. Frank Benford entdeckte 57 Jahre später das Gesetz neu und untermauerte es mit über 20 000 Daten aus den verschiedenen Tabellen. Da man die newcombsche Arbeit übersah, erhielt die Verteilung den Namen benfordsches Gesetz. Die Verteilung hat inzwischen interessante Anwendungen z.B. in der Steuerfahndung gefunden. Statistisch stellt man sich in diesem Zusammenhang z.B. die Frage, ob die Angaben in einer Steuererklärung stimmen. Wenn man davon ausgeht, dass die Anfangsziffern dem benfordschen Gesetz folgen, dann untersucht man, wie weit die in der vorliegenden Steuererklärung errechneten Häufigkeiten der Anfangsziffern von diesem Gesetz abweichen. Sind die Abweichungen zu groß, ist die Steuererklärung mit großer Wahrscheinlichkeit manipuliert worden. In der Wirtschaft wird das benfordsche Gesetz auch genutzt zur Aufdeckung von Betrug bei der Bilanzerstellung, der Fälschung in Abrechnungen und generell zum schnellen Auffinden eklatanter Unregelmäßigkeiten im Rechnungswesen. Es konnte ferner gezeigt werden, dass die führenden Ziffern von Marktpreisen dem benfordschen Gesetz folgen. U.a. ließ sich mittels des benfordschen Gesetzes die Manipulation der Wirtschaftsdaten Griechenlands nachweisen.