Von den Zufallszahlen und ihrem Gebrauch Johann Baumeister∗ und Tania Garfias Macedo† (Kursleiter) unter Mitwirkung von Paul Dietze, Pauline Eberts, Lara Felten, Miriam Gerharz Tim Hahn, Kim Hellriegel, Alexander Hoffmann, Anton Kohrt Philipp Kretz, Rozan Rosandi, Jan Rühl, Julia Schneider Clara Schüttler, Julia Weber, Saskia Wirfs, David Zimnol (Teilnehmer der Juniorakademie in Meisenheim 2011) Im August 2011 Zusammenfassung Dies sind Aufzeichnungen, die im Rahmen eines Kurses einer Juniorakademie zum Thema Von den Zufallszahlen und ihrem Gebrauch“ in Meisenheim 2011 ent” standen sind. Eine Juniorakademie ist eine Fördermaßnahme auf Bundesländerebene für begabte Schülerinnen und Schüler der 7. und 8. Klassen. Im Kurs wurden Erzeugungsmethoden für Zufallszahlen untersucht und Beispiele für die Verwendung kennengelernt. Die behandelten Themen waren: Zufallsexperimente, unfaire Würfel, Monte Carlo–Simulation, Benford-Zahlen, modulares Rechnen, euklidischer Algorithmus, Kongruenzgeneratoren, geometrische Tests, Sierpinski-Figuren, Simulation von Aktienkursen. Dieser Artikel ist eine Erweiterung der Dokumentation zum Kurs, in der insbesondere über Tests und Überlegungen, die die Teilnehmer zu Zufallsexperimenten angestellt haben, berichtet wird. Manches von dem, was hier angeführt wird, wurde im Kurs nur kursorisch behandelt, manches wurde ergänzt um mathematische Begründungen, die so bei der Kenntnislage der Kursteilnehmer nicht erbracht werden konnten. Ein weiteres Ziel dieses Artikels ist eine möglichst komplette Darlegung der wichtigsten Literaturstellen zur Thematik der Zufallszahlen und ihrer Einordnung. Aus dieser Zielsetzung ergibt sich ein ziemlich buntes Bild von Themen. ∗ Prof. Dr. Baumeister, Fachbereich Informatik und Mathematik, Goethe-Universität, Robert Mayer– Str. 6–10, 60054 Frankfurt am Main, Germany, [email protected]. † Tania Garfias Macedo, Mathematisches Institut, Georg-August-Universität Göttingen, Bunsenstr. 3-5, 37073 Göttingen 1 Inhaltsverzeichnis Vorwort 1 1 Einführung 1.1 Aus der Bibel . . . . . . . . . . . . . . . . . . . . 1.2 Zufall auf dem Jahrmarkt . . . . . . . . . . . . . 1.3 Zufall: eine vorläufige Einschätzung . . . . . . . . 1.4 Zufallszahlen und deren Ersatz . . . . . . . . . . 1.5 Die middle square-Methode von J. von Neumann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 3 4 6 9 2 (Mathematische) Wahrscheinlichkeit 2.1 Zufall, Ereignismenge und Wahrscheinlichkeit . . . . . 2.2 Mehrstufige Zufallsexperimente und Baumdiagramme . 2.3 Hilfsmittel zur Realisierung von Laplace-Experimenten 2.4 Zufallsvariable, Erwartungswert und Verteilung . . . . 2.5 Determinismus, Kausalität, Berechenbarkeit und Zufall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 12 14 16 18 3 Elementare Zufallsexperimente 3.1 Reißzweckexperiment . . . . . . . . . 3.2 (Unfaire) Würfel . . . . . . . . . . . 3.3 Zufallszahlen der Natur entnommen . 3.4 Flächenberechnung mit Zufallszahlen 3.5 Uabhängigkeit bei Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 21 22 24 25 . . . . . 28 28 32 33 35 36 . . . . . 4 Exponential- und Logarithmusfunktion 4.1 Zahlen . . . . . . . . . . . . . . . . . . 4.2 Exponenten . . . . . . . . . . . . . . . 4.3 Logarithmen . . . . . . . . . . . . . . . 4.4 Exponential– und Logarithmusfunktion 4.5 Logarithmentafel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Benford–Zahlen 5.1 Die Beobachtung von Newcomb und Benford 5.2 Neuere Beobachtungen . . . . . . . . . . . . 5.3 Das Mantissengesetz . . . . . . . . . . . . . 5.4 Anwendung: Benford und Betrüger . . . . . 5.5 Benford bei dynamischen Systemen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 38 40 41 45 47 6 Elementare Arithmetik 6.1 Ganze Zahlen, Teilbarkeit, Primzahlen 6.2 Fibonacci-Zahlen . . . . . . . . . . . . 6.3 Division mit Rest . . . . . . . . . . . . 6.4 Euklidischer Algorithmus . . . . . . . . 6.5 Modulares Rechnen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 53 55 57 59 63 . . . . . 67 67 69 69 71 73 . . . . . . . . . . . . . . . 7 Kongruenzgeneratoren 7.1 Lineare Kongruenzgeneratoren . . . . . . . . . 7.2 Einige verwendete Generatoren . . . . . . . . 7.3 Geometrische Beobachtungen . . . . . . . . . 7.4 Statistische Tests . . . . . . . . . . . . . . . . 7.5 Anwendung von Zufallszahlen: One-Time-Pad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Monte Carlo-Methode 8.1 Grundidee der Monte Carlo-Methode 8.2 Simulation der Normalverteilung . . . 8.3 Simulation der Aktienkurse . . . . . 8.4 Simulation von Optionen . . . . . . . 8.5 Simulationen von Optionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Sierpinski-Mengen 9.1 Sierpinski-Dreieck . . . . . . . . . . . . . . . . . . . . . . 9.2 Fraktale und ihre Dimension . . . . . . . . . . . . . . . . 9.3 Konstruktion mit Hilfe des Chaos-Spiel-Verfahrens“ . . ” 9.4 Konstruktion mit Hilfe eines iterierten Funktionssystems 9.5 Variationen des Sierpinski-Dreiecks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 75 77 79 82 87 . . . . . 88 88 89 90 91 91 Literatur 93 Weitere Quellen 97 Stand: 21. November 2011 1 c J. Baumeister, T.G. Macedo Vorwort Die Beschäftigung mit dem Zufall und Zufallsexperimenten hat eine lange Geschichte. Sie beginnt mit dem Werfen von Losen in der Antike, fndet seine Fortsetzung bei Jahrmarkttricks beim Würfelspiel, endet in einer theoretischen Behandlung des Zufalls nicht zuletzt in der Konsequenz der Entwicklungen in der Quantenmechanik und ist nun präsent in fast jeder Disziplin der Mathematik. In der Finanzmathematik, wie sie sich in den letzten beiden Jahrzehnten entwickelt hat, ist der Zufall und seine Realisierung zentral. Eine Methode, für die die Bereitstellung von Zufallszahlen essentiell und in den Naturwissenschaften von Bedeutung ist, ist die Monte Carlo–Methode. Zufallszahlen sind aus vielen Anwendungsgebieten heute nicht mehr wegzudenken: Computerspiele wären schnell langweilig, wenn nicht durch eingebauten Zufall der Ablauf innerhalb des Spiels bzw. von Spiel zu Spiel variiert würde. Um die Sicherheit bei der Übertragung von Daten im Internet zu gewährleisten, werden kryptografische Programme verwendet, die sichere Zufallszahlen verwenden. Das Binomialmodell zur Ermittlung von fairen Optionspreisen bedient sich des Zufalls in der Simulation des Auf und Ab von Aktienkursen. Viele Einträge im Internet zum Thema Zufallszahlen“ sind aufgelistet unter dem ” Stichwort echte Zufallszahlen. Doch kann es echte Zufallszahlen geben? Oder anders gefragt, wie soll man solche Zahlen in ihrer Echtheit/Verwendbarkeit bewerten, und wie kann man brauchbare Zufallszahlen erzeugen? Bereits vom Pionier der Computertechnik, John von Neumann, gab es ein erstes Verfahren zur Konstruktion von Zufallszahlen auf einem Rechner. Aber er schreibt auch: Any one who considers arithmetical methods of producing random digits is of course in a state of sin. Die ersten aufklärenden Überlegungen sollten einer ganz einfachen Fragestellung gelten: was ist ein Zufallsexperiment? Dies sind Experimente, die unterschiedliche Ergebnisse haben können, deren Ausgang vor der Ausführung aber nicht vorausgesagt werden kann. Als Beispiele für Zufallsexperimente sehr unterschiedlicher Natur können zur Veranschaulichung etwa herangezogen: Münzwurf, Werfen von Reißzwecken, Würfeln, Ziehen einer Kugel aus einer Urne, Zeitpunkt des Zerfalls eines radioaktiven Materials, 2. Stelle nach dem Komma der Laufzeit eines Programms auf dem Rechner. Man kann sich unschwer vorstellen, dass jedes dieser angeführten Experimente zu einem Zufallsgenerator umdefiniert werden kann. Einen komplizierteren Zufallsmechanismus erhält man, wenn man ein Zufallsexperiment mehrmals unabhängig voneinander wiederholt. Nun steht die Frage im Raum, was unabhängig“ heißen soll. Alle diese Umstände und Fragen werden wir im ” Folgenden vertiefen. Zentral für das Verständnis der algebraischen Erzeugung“ von (Pseudo-)Zufallszahlen ” ist die Arithmetik in den ganzen Zahlen. Die Tatsache, dass die Division in den ganzen Zahlen nicht uneingeschränkt möglich ist, kann erfolgreich dabei verwendet werden. Die Hilfsmittel für die algebraischen Überlegungen, die bereitgestellt werden müssen, sind Teilbarkeit, Division mit Rest und euklidischer Algorithmus. Die Möglichkeiten der Erzeugung von Zufallszahlen berühren auch das Thema Benfordzahlen“, das einige besonders ” reizvolle Facetten bereithält. Die Frage der Bewertung von Zufallszahlen kann auf unterschiedliche Weise erfolgen: statistisch, geometrisch, indirekt durch Beobachtung von Experimenten. Ein Beispiel, das dabei Verwendung finden kann, stellt das Sierpinski-Dreieck dar, dem wir einen Abschnitt widmen. Als Grundlagen für die Zufälligkeitstest benötigen wir den Wahrscheinlichkeitsbegriff für endliche Ereignisräume und Verteilungsstests. Stand: 21. November 2011 2 c J. Baumeister, T.G. Macedo 1 Einführung Gott würfelt nicht ! Albert Einstein 1.1 Aus der Bibel Und da sie ihn gekreuziget hatten, teileten sie seine Kleider, und warfen das Los drum, welcher was überkäme. (Markus-Evangelium 15,24; siehe Abbildung 11 ) Was heißt das Los werfen“, um eine Zufallsentscheidung herbeizuführen? In einer alttes” tamentarischen Losentscheidung werden die zur Wahl stehenden verschiedenen Kleidungsstücke, Namen, Zeitpunkte . . . auf ein Stück Holz, eine Tonscherbe oder etwas ähnliches geschrieben. Diese Lose“ werden dann in einem Gefäß oder einem Kleidungsstück zu” sammen durchgeschüttelt, bis eines herausfällt, das dann die Entscheidung herbeiführt. Jesus hatte zwölf engste“ Jünger. Ei” ner davon (Judas Ischariot) hatte Jesus verraten und sich dann erhängt. Die anderen elf Jünger wollten ein altes Wort aus den Psalmen erfüllen und ihre Zahl wieder auf zwölf erhöhen. Dazu machten sie nach Christi Himmelfahrt eine Versammlung. Zwei Anhänger wurden als Kandidaten ausgewählt – Barsabbas und Matthias – und das Gottes-Los über sie geworfen. So wurde Matthias zwölfter Jünger. Abbildung 1: Würfeln um die Kleider Aus dem Alten Testament gibt es folgende Aufzeichnung einer Zufallsentscheidung: Mose hatte den Rat der ältesten aus 70 Mitgliedern zu bestimmen: Aus jedem der 12 Stämme wurden zunächst 6 Kandidaten ausgewählt. Aus der Schar dieser 72 Kandidaten waren nun zwei zu eliminieren. Dazu wurden 72 Kugeln vorbereitet; 70 davon wurden markiert, zwei blieben unmarkiert. Die Kugeln wurden in eine Urne gelegt und gemischt. Jeder Kandidat hatte ein Kugel zu ziehen; jene beiden, die die unmarkierten zogen, wurden eliminiert. 1.2 Zufall auf dem Jahrmarkt Glücksspiel“ ist ein Begriff, der viele Bereiche der Spielkultur beinhaltet. Darunter fallen ” vor allem Würfelspiele und einige Kartenspiele, das Roulette, Lotto und Lotterien. Manche Brett- oder Würfelbrettspiele können unter Vorbehalt ebenso dazugezählt werden. Beim Glücksspiel ist der Einsatz von Geld oder Belohnungen anderer Art im Allgemeinen begleitend. Zum einen wird um Geld gespielt, zum anderen müssen Lose gekauft werden, um an den großen Gewinn, sei es Bargeld oder Sachwerte, zu gelangen. Beim Glücksspiel steht die Zufallskomponente im Vordergrund. Der Ausgang des Spiels ist nicht vom Können oder einer bestimmten Spielstrategie abhängig, sondern vom Fall der Würfel, dem Drehen der 1 Bild von U. Leive Stand: 21. November 2011 3 c J. Baumeister, T.G. Macedo 1.3 Zufall: eine vorläufige Einschätzung Lostrommel, dem Kauf eines Loses, dem Lauf einer Roulettekugel oder dem Mischen und Verteilen von Karten. Über Gewinn oder Verlust entscheidet also das Glück“ und nicht ” der Verstand“. ” Im Mittelalter gehörten Jahrmärkte zu den wichtigsten Ereignissen in den sich politisch verselbständigenden Städten. Das dazu notwendige Recht, einen Jahrmarkt zu halten wurde meistens vom Kaiser, König, Grafen oder sonstigen Landesherrn an einen Ort - oft im Rahmen des Stadtrechts - verliehen. Zu den Jahrmärkten reisten häufig auch Schausteller des Fahrenden Volkes an: Bärenführer, Gaukler, Wahrsager, Quacksalber, Musikanten. Amts-Blatt der Königlichen Regierung zu Potsdam und der Stadt Berlin/Den 21. November 1851, Seite 364, No. 48. Polizei-Verordnung betreffend den Verkehr auf den Berliner Jahr- und Weihnachtsmärkten .. . § 3. Glücks- und Würfelbuden sind verboten. .. . Selbst großen Mathematikern sind bei Jahrmarktspielen Fehler unterlaufen. Bei G.W. Leibniz2 handelt es sich um das Augensummenparadoxon. Er hat sich bei der Analyse dieses Spiels einen kleinen Schnitzer erlaubt: Es sei ihm unbegreiflich, wie ihm erfahrene Würfelspieler versicherten, warum bei zwei Würfeln ” die Augensumme 9 wahrscheinlicher sei als die Augensumme 10, aber bei drei Würfeln die Augensumme 10 wahrscheinlicher als die Augensumme 9. Denn schließlich könne die Summe 9 wie die Summe 10 in beiden Fällen auf gleich viele Arten anfallen, also müssten die Augensummen in beiden Fällen gleich wahrscheinlich sein.“ . Leibniz hat übersehen, dass die Reihenfolge der Summanden hier wichtig ist. Wir analysieren das Spiel später. Ein Jahrmarktspiel, das nach J. Bertrand Bertrandsches Schachtelparadoxon3 genannt wird, ist folgendes: Drei nicht unterscheidbare Schachteln enthalten zwei Goldmünzen (1. Schachtel), zwei Silbermünzen (2. Schachtel) und eine je eine Gold- und eine Silbermünze (3. Schachtel). Jetzt entnimmt man einer Schachtel eine Münze. Der Veranstalter des Spiels bietet nun eine Wette an: Die zweite Münze in der Schachtel ist aus demselben Metall! Man ist versucht, zu vermuten, dass die Wette fair ist, da man geneigt ist, zu vermuten, dass die Beschaffenheit der zweiten Münze gleichwahrscheinlich ist. Dies ist nicht der Fall. Analysieren wir die Situation, dass Gold gezogen wurde. Wir vermuten richtig, dass nicht aus der Schachtel mit den zwei Silbermünzen gezogen wurde und schließen daraus irrig, dass mit Wahrscheinlichkeit 21 beide Münzen in der Schachtel, aus der gezogen wurde, aus Gold sind. In Wahrheit sind mit einer Wahrscheinlichkeit von 23 beide Münzen aus Gold, weil in zwei von 3 Fällen die beiden Münzen in der Schachtel aus Gold sind. 1.3 Zufall: eine vorläufige Einschätzung Hier reden wir über den Zufall eher aus einer historischen Betrachtungsweise heraus. Im Abschnitt 2 stellen wir die Begriffe bereit, die wir im Folgenden benötigen. 2 3 G.W. Leibniz, 1646-1716 Joseph Bertrand, 1822-1900 Stand: 21. November 2011 4 c J. Baumeister, T.G. Macedo 1.3 Zufall: eine vorläufige Einschätzung Zufall, Ungewißheit, Glück, Pech – sind das nicht ziemlich diffuse Begriffe? Eher aus dem Bereich der Wahrsager als dem der Wissenschaftler? Eine wissenschaftliche Untersuchung des Zufalls ist möglich, und sie begann mit der Analyse von Glücksspielen durch B. Pascal, C. Huygens, Jakob Bernoulli und P. Fermat4 . Diese Analyse hat den Wahrscheinlichkeitskalkül hervorgebracht, der lange für einen unbedeutenden Zweig der Mathematik gehalten wurde. Einen ersten Erfolg erzielte der Kalkül in der statistischen Mechanik durch Untersuchungen von L. Boltzmann und J.W. Gibbs5 : Die Menge von ” Zufall“, die in einem Liter Luft ist, wird durch den Begriff der Entropie gemessen. Der nächste große Erfolg ist mit der Entwicklung der Quantentheorie verknüpft. Heutzutage ist der Zufall in wissenschaftlichen Theorien fast überall präsent: Rauschen in der Signalübertragung, Ausbreitung von Epidemien, Entwicklung von Börsenkursen, chaotisches Verhalten von nichtlinearen Systemen, Spieltheorie, Wetterprognosen, . . . . Wenn man von Wahrscheinlichkeiten spricht, so tut man dies immer im Zusammenhang mit irgendwelchen Ereignissen, deren gemeinsames Kennzeichen darin besteht, dass sie – unter gegebenen Umständen – eintreten können, aber nicht eintreten müssen. Zufällige Ereignisse begegnen uns als Ergebnisse von Versuchen, wobei Versuch“ ” als Realisierung einer Gesamtheit von wohldefinierten Bedingungen (Versuchsanordnungen) verstanden werden kann. Da wir unter Versuch“ so unterschiedliche Objekte wie ” medizinische Untersuchung, physikalischer Versuch, Intelligenztest, Gedankenspielerei“, ” Glückspielrunde, . . . verstehen wollen, wollen wir bei dieser verbalen Beschreibung bleiben. Statt Versuch sagen wir häufig auch Experiment und sehen darin oft eine reale Untersuchung, einen Test, eine Probe, ein Gedankenexperiment, eine Beobachtung. Wichtig ist nun, dass wir annehmen wollen, dass ein Versuch/Experiment – wenigstens gedanklich – bei gleichbleibender Versuchsanordnung wiederholbar ist. Ist dann die Versuchsanordnung so, daß sie den Ausgang eines Versuchs nicht eindeutig festlegt, so sind bei Wiederholung des Versuchs unterschiedliche Ausgänge möglich. Da wir die den Ausgang determinierenden Bedingungen nicht kennen oder nicht nennen können, können wir nicht vorhersagen, welches der Ausgang bei der nächsten Durchführung des Versuchs sein wird. Wir nennen daher solche Versuche Zufallsexperimente oder zufällige Ereignisse, ihren Ausgang zufällig. Zufall“ dient also hier zur Beschreibung einer Situation, in ” der wir auf Grund fehlender Information den Ausgang eines Versuchs nicht vorhersagen, nicht wissen können. Der Begriff der Wahrscheinlichkeit“, der noch einzuführen ist, dient ” dazu, dieses Nichtwissen bzw. Nichtwissenkönnen theoretisch in den Griff zu bekommen und zu quantifizieren. Der Titel dieses Essays ist eine Frage: Ist alles vorherbestimmt? Die Antwort lautet ” ja. Doch sie könnte genausogut nein lauten, weil wir niemals wissen können, was vorherbestimmt ist.“ 6 Das Ja“ soll heißen, dass wir in fast allen Fragestellungen, wofür wir ein mathemati” sches Modell haben, in der Lage sind, Gleichungen hinzuschreiben, in denen komplizierte Phänomene codifiziert sind und deren Lösung uns Vorhersagen erlauben (Hirntätigkeit, Wetter, . . . ). Das Nein“ bedeutet, dass wir meist nicht in der Lage sind, diese (vielen) ” Gleichungen zu lösen oder in ihnen eingearbeitete Anfangsbedingungen zu bestimmen. Was Wahrscheinlichkeit ist, glaubt jeder zu wissen, es aber zu formulieren, fällt auch jedem schwer, erst recht schwer ist es im Allgemeinen, die Wahrscheinlichkeit für das 4 Blaise Pascal, 1623-1662, Christian Huygens, 1629-1695, Jakob Bernoulli, 1654-1705, Pierre de Fermat, 1607-1665 5 Ludwig Boltzmann, 1844-1906, Josiah Willard Gibbs, 1839-1903 6 Aus: Stephen W. Hawking, Einsteins Traum, Rowohlt, 1993 Stand: 21. November 2011 5 c J. Baumeister, T.G. Macedo 1.4 Zufallszahlen und deren Ersatz Eintreten eines Ereignisses anzugeben oder auszurechnen. Eine zentrale Tatsache der Wahrscheinlichkeitsrechnung ist, dass wir ein Experiment kennen, das uns diesen Zufall so klar vor Augen führt: der Münzwurf. Bei einer großen Anzahl von Münzwürfen mit einer fairen (symmetrischen) Münze wird die Anzahl von Kopf (der Zahl) etwa bei 50 % liegen. Auf diese Weise ergibt eine lange Reihe von Münzwürfen ein nahezu sicheres Ergebnis, obwohl der Ausgang eines einzelnen Wurfes vollständig ungewiss ist. Dieser Übergang von Ungewissheit zu einer Fastgewissheit, wenn wir eine lange Reihe von Ereignissen (oder große Systeme) beobachten, ist ein wesentliches Thema beim Studium des Zufalls. Als Zufallsexperimente können wir betrachten: Münzwurf Ausgänge: Kopf oder Zahl. Würfelwurf Ausgänge: Zahlen (Augen) 1, . . . , 6. Hier könnte eine Beschreibung der Versuchsanordnung so aussehen: Der Würfel ist ein regelmäßiger Körper mit 6 identischen und glatten Seitenflächen, beschriftet mit den Zahlen 1, 2, 3, 4, 5, 6. Ein Versuch bestehe aus einem Wurf (Fallenlassen aus der geschlossenen Hand) aus einer Höhe von 10 cm auf einen ebenen Tisch. Der Versuch ist beendet, sobald der Würfel zur Ruhe gekommen ist. Seine obenliegende Fläche legt mit der dort abzulesenden Zahl das Versuchsergebnis fest. Urnenexperiment Ziehen von numerierten Kugeln (auf gut Glück) aus einer Urne. Ausgänge: Nummern der gezogenen Kugeln. Kartenspiele Ausgänge: Kartenverteilung oder Spielpunkte. Kegeln Ausgänge: Anzahl der gefallenen Kegel. Telefonstatistik Erfassung der Anzahl der Anrufe bei der Telefonvermittlung von 12.00 – 12.59 Uhr. Ausgänge: Zahlen 0, 1, 2, . . . . Die drei Experimente Münzwurf, Würfelwurf, Urnenexperiment dienen häufig als Beispiel für ein Zufallsexperiment. Damit können wir reale Situationen erfassen und wesentliche Merkmale von zufälligen Ereignissen verdeutlichen. 1.4 Zufallszahlen und deren Ersatz Das Thema dieser Ausarbeitung sind Zahlen, die als echte“ Zufallszahlen, als Pseudo” oder Quasi-Zufallszahlen betrachtet werden können. Die zugehörigen Erzeugungsmechanismen nenen wir (Pseudo-)Zufallszahlen-Generatoren (random number generator (RNG)). Was ist die Motivation für das Bestreben, (Pseudo-)Zufallszahlen zu erzeugen? Warum zu Generatoren von Pseudozufallszahlen greifen, also zu Generatoren, die nicht den echten Zufall“ verwenden? Es sind die vielfältigen Anwendungsbereiche, ” die nach Zufallszahlen fragen (siehe [Wei04]): Experimente, die Gerechtigkeit produzieren, Erzeugung zufälliger Ereignisse entsprechend statistischer Vorgaben, Verfahren, die die Echtheit von Meßdaten überprüfen, kryptographische Anwendungen (Erzeugung von Schlüsselzahlen,. . . ), Monte Carlo Simulation (insbesondere in Computational Finance), Simulation von Abläufen der realen Welt (Ampelschaltungen), Globale Optimierung, Spiele (wo taucht der Bösewicht auf ?),. . . . Der Wunsch, zufällige Ereignisse zu generieren, ist zwar keine ausschließliche Erscheinung des Computerzeitalters, er wurde aber durch die Rechenmöglichkeiten doch stark in den Vordergrund gerückt. Zur Geschichte: Stand: 21. November 2011 6 c J. Baumeister, T.G. Macedo 1.4 Zufallszahlen und deren Ersatz • 1938: Kendall und Babington-Smith erzeugen mit einer schnell drehenden Scheibe 100 000 zufällige Ziffern. • Seit 1940/50 werden numerische und arithmetische Verfahren verwendet, um Zufallszahlen zu generieren. • 1957: Das 1. ERNIE-Projekt (Electronic Random Number Indicator Equipment) wurde durch Sidney Broadhurst, Tommy Flowers and Harry Fensom realisiert. Es wurden mit Hilfe von Vakuumröhren bis zu 50 Zufallsziffern pro Sekunde erzeugt. • 1955: Die Rand-Corporation veröffentlicht ein Buch mit ca. 1 Million Zufallsziffern. • 1983: Miyatake baut eine Vorrichtung, um durch das Zählen von Gammastahlen zufällige Ergebnisse zu generieren. • 1995 Marsaglia produziert eine CD-ROM, auf der ca. 4.8 Milliarden Zufallszahlen gespeichert sind.7 Pseudozufallszahlen sollen Zahlenfolgen sein, die zufällig“ sind, d.h. die Eigenschaf” ten besitzen, die dem echten Zufall nahe kommen. Also ist man gezwungen, den Zufall deterministisch möglichst gut nachzustellen. In der Umsetzung tun wir es mit Verfahren, die gewissen Forderungen unterliegen; wir wollen sie Algorithmen nennen. Ein Algorithmus8 für eine vorgegebene bestimmte Art von Aufgaben ist eine endliche Abfolge von wohldefinierten, ausführbaren Vorschriften, die bei Abarbeitung, ausgehend von einem Eingangszustand (Input) nach einer endlichen Anzahl von Verarbeitungsschritten einen Ausgangszustand (Output) bestimmen, der als Lösung der durch den Eingangszustand charakterisierten Aufgabe angesehen werden kann. Algorithmen sind unabhängig von einer konkreten Programmiersprache und einem konkreten Computertyp, auf denen sie ausgeführt werden. Die ältesten Rechenvorschriften, die sich Algorithmen nennen dürfen, gehen auf Theon und Euklid zurück9 ; siehe Abschnitte 4.3 und 6.4. Das Problem jeden Vorgehens, Zufallszahlen (auf dem Computer) mittels eines Algorithmus zu erzeugen, ist offenbar, dass Erzeugen“ und Zufall“ ein Widerspruch in ” ” sich ist. Da der Determinismus schon per Definition eine Eigenschaft eines Algorithmus ist, steht jeder Nachfolger einer Zufallszahl deterministisch fest. Für die oben genannten Anwendungsgebiete genügen jedoch diese Pseudozufallszahlen“. Wir lassen das Präfix ” Pseudo“ meist weg. ” Was soll man unter einer Folge von Zufallszahlen verstehen? Der österreichische Mathematiker von Mises10 versuchte es in der ersten Hälfte des 20. Jahrhunderts mit fehlender Vorhersehbarkeit: Eine 0-1-Sequenz sollte als zufällig gelten, wenn es keine Regel gibt, die an irgendeiner Stelle das nächste Glied aus den vorhergehenden mit einer Wahrscheinlichkeit größer als 50 Prozent prognostiziert. Für den Münzwurf bedeutet das: Systeme, die dem Spieler einen Vorteil versprechen, existieren nicht. So einleuchtend die Definition klingt, hat sie doch einen Haken. Von Mises konnte mathematisch nicht präzisieren, was er unter einer Regel verstand. Sein Ansatz blieb Stückwerk. 7 random.org brüstet sich, seit 1998 857 Milliarden Zufallsbits, also zufällige Nullen und Einsen, erzeugt zu haben. 8 Die Bezeichnung leitet sich aus dem Namen Al–Khwarizmi (Al–Khwarizmi,780?-850?), einem der bedeutensten Mathematiker des anfangenden Mittelalters, ab. 9 Theon, um 350 v.Chr., Euklid, um 300 v.Chr. 10 Richard von Mises, 1883-1953 Stand: 21. November 2011 7 c J. Baumeister, T.G. Macedo 1.4 Zufallszahlen und deren Ersatz Erst in den sechziger Jahren des letzten Jahrhunderts fanden Kolmogorow11 und Chaitin unabhängig voneinander mit einer speziellen Komplexitätstheorie einen Ausweg: Eine Zahlenfolge ist ihrer Meinung nach zufällig, wenn sie sich nicht mit einer kürzeren Zeichensequenz beschreiben lässt. Die Folge 11111. . . etwa kann man knapp ausdrücken mithilfe des mit Nullen und Einsen geschriebenen Computerbefehls für Schreibe lauter Einsen, die Folge 01010101. . . mit einem entsprechenden wiederhole 01 . Bei Zufallsfolgen darf es keine solche Umschreibung in Kurzform geben. Wir verfolgen dies nicht weiter, sondern geben uns zunächst mit einer naiven“ Vorstellung von Zufälligkeit zufrieden. ” Um die umständliche Verwendung von Tabellen (siehe Tabelle 2) zu vermeiden, werden Zufallszahlen verwendet, die im Allgemeinen durch Iterationen nach einer Formel ad hoc hergestellt werden. Die so erzeugten Zufallszahlen haben den Vorteil, dass sie konstruierbar sind, und haben den Nachteil, dass sie vollkommen deterministischen Charakter besitzen. Alles, was wir hier zunächst zur Sprechweise Zufallszahl“ sa” gen können, ist, dass jedenfalls kein Muster, keine Struktur in der Folge erkennbar sein soll. Die Wahrscheinlichkeitstheorie und Statistik stellt Hilfsmittel bereit, solche Folgen auf ihre Zufälligkeit zu testen. Im Lichte dieser Begriffsbildungen können wir nun Forderungen formulieren, die an einen Zufallszahlen-Generator zu stellen sind. Er soll Zahlen erzeugen, die folgende Eigenschaften haben: Abbildung 2: RAND-Tabelle Gleichverteilung Die Zufallsfolge genügt der Gleichverteilung in [0, 1] . Diese Einschränkung kann man überwinden, wir werden später darauf zurückkommen. Unvorhersagbarkeit Kennt man eine Zufallszahl (Vorgänger), sollte die nächste konstruierte Zufallszahl (Nachfolger) nicht vorhersagbar sein. Dies bedeutet, dass der Konstruktionsmechanismus komplex genug ist, um zu vermeiden, dass das Konstruktionsprinzip abgelesen werden kann. Reproduzierbarkeit Um die Fehlersuche zu erleichtern und verschiedene Simulationen einfacher miteinander vergleichen zu können, ist es wichtig, dass eine einmal erzeugte Zufallsfolge immer wieder reproduziert werden kann. Bei Spielen (der Bösewicht soll nicht immer zur selben Zeit auf der Bildfläche erscheinen) und in der Kryptologie steht dem gegenüber die Forderung nach Irreproduzierbarkeit. In der Kryptographie ist diese Forderung unverzichtbar“. ” Effizienz Dazu kommen die Forderungen, dass der Generator schnell ist und möglichst wenig Speicherplatz auf dem Computer belegt. Wie soll man nun gute und weniger gute Generatoren auseinanderhalten? Klar, indem man neben der Ausschöpfung“ des zur Verfügung stehenden Zahlraumes [0, 1] die ” obigen Forderungen abprüft. Dies geschieht im Allgemeinen mit theoretischen und empirischen Tests für die Güte von Generatoren. Theoretische Tests setzen am Generator 11 A.N. Kolmogorow, 1903-1987 Stand: 21. November 2011 8 c J. Baumeister, T.G. Macedo 1.5 Die middle square-Methode von J. von Neumann selbst an, empirische Tests nehmen sich die erzeugten Zahlenfolgen vor. Wir gehen auf die Kriterien Gleichverteiltheit, Unkorreliertheit später ein, die Effizienz übergehen wir weitgehend. Bereits 1955, als Computer noch neu“ waren, veröffentlichte die RAND-Corporation ” ein Buch mit einer Million Zufallsziffern. Darin wird die Vorgehensweise beschrieben, wie man zu diesen Zufallszahlen kam: Die Zufallszahlen wurden durch Randomisierung“ ei” ner Grundtabelle erzeugt, die mit einer elektronischen Roulettscheibe generiert wurde. Eine Pulsquelle mit zufälliger Frequenz wurde etwa einmal pro Sekunde von einem Puls konstanter Frequenz durchlaufen. Schaltkreise leiteten den Puls durch einen fünfstelligen Binärzähler. Die Anordnung entsprach im Prinzip einer Roulettscheibe mit 32 Plätzen, die pro Versuch durchschnittlich 3000 Umdrehungen machte und eine Zahl pro Sekunde produzierte. Ein Binär/Dezimal-Konverter wandelte 20 der 32 Zahlen um, der Rest wurde verworfen und behielt nur die letzte Stelle der zweistelligen Zahlen. Diese letzte Stelle steuerte einen IBM-Lochkartenstanzer, der schließlich eine Lochkartentabelle mit Zufallsziffern ausgab. Der Hauptteil des Buches umfasst die Tabelle der Zufallsziffern“. ” Sie werden in Gruppen zu je fünf Ziffern aufgelistet. Wir erwarten, dass die erste Ziffer jedes Blockes ebenfalls zufällig ist. Diese Zufälligkeit“ ” der ersten Ziffer – in Anbetracht des kleinen Ausschnitts der Zufallstabelle – ist nicht sehr ausgeprägt ist. Wir erwähnen diese Fragestellung, da wir uns noch ausführlich damit beschäftigen wollen. 1.5 Die middle square-Methode von J. von Neumann Eine erste Realisierung der Pseudozufallserzeugung bestand in der Nutzung der Dezimalziffern transzendenter Zahlen. Die Zahl π wurde 1873 mit 703, 1960 mit 100 000 und 1986 mit 107 Dezimalstellen berechnet. Die Analyse ergab, dass kein signifikanter Mangel zu erkennen war, was die Zufälligkeit der Dezimalstellen hinsichtlich Gleichverteilung in 0, 1, . . . , 9 betrifft. Da die Algorithmen zur Berechnung transzendenter Zahlen in der Regel sehr kompliziert sind, werden in der Praxis meist andere Algorithmen benutzt. i 0 1 2 3 ... 12 13 14 ... zi ui := 0.zi 7182 −−− 5811 0.5811 7677 0.7677 9363 0.9363 ... ... 0012 0.0012 0001 0.0001 0000 0.0000 ... ... zi2 51 5811 24 33 7677 21 58 9363 29 87 6657 69 ... 00 0001 44 00 0000 01 00 0000 00 ... Einer der ältesten Generatoren ist die Abbildung 3: Middle-Square Middle-Square-Methode, die um 1940 von von J. von Neumann und S.M. Ulam im Rahmen des Los-Alamos-Projekts zur Entwicklung der Wasserstoffbombe für ComputerSimulationen eingesetzt wurde12 ; wir kommen im Rahmen der Monte Carlo-Simulation auf dieses Projekt zurück. Die middle square-Methode wird wie folgt durchgeführt wird: Wähle eine 4-stellige Zahl (Startwert), quadriere sie, man erhält eine höchstens 8-stellige Zahl. Ist das Ergebnis nicht 8-stellig, füllt man sie links mit Nullen auf 8 Stellen auf. Die mittleren 4 Ziffern wählt man nun als erste Zufallszahl und als neuen Startwert für das Vorgehen. 12 John von Neumann, 1903-1957, S.M. Ulam, 1909-1984 Stand: 21. November 2011 9 c J. Baumeister, T.G. Macedo 1.5 Die middle square-Methode von J. von Neumann Ist man unvorsichtigt“ bei der Wahl des Startwertes, bekommt man eine nicht sehr ” brauchbare Folge. Etwa erhält man mit dem Startwert 8441: 8441, 2504, 2700, 2900, 4100, 8100, 6100, 2100, 4100, 8100, . . . . Es ist sogar noch schlimmer“, wie das Beispiel in der Abbildung 3 andeutet: die ers” ten Schritte des Middle-square-Algorithmus scheinen brauchbare Zufallszahlen zu liefern, die Fortsetzung bei i = 12 zeigt aber, dass die Iteration bei der Zufallszahl“ Null en” det. In der Tat tendiert der Algorithmus in vielen Fällen dazu, bei Null zu enden. Also scheint der Algorithmus unbrauchbar zu sein, Zufallszahlen zu erzeugen. Anderenfalls ist das obige kurze Stück 8100, 6100, . . . , 8100 das periodische Stück einer doch recht langen nichtperiodischen Zahlensequenz, die mit dem Startwert 6239 beginnt; man rechne dies nach. Bibliographische Anmerkungen Die hier vorgestellten Überlegungen sind so allgemeiner Natur, dass Verweise nahezu unnötig sind. Algorithmen sind das Werkzeug der Mathematik und Informatik. Eine schon etwas in die Jahre gekommene, aber immer noch topaktuelle dreibändige Monographie dazu ist das Werk von D.E. Knuth [49]. Zu einer populärwissenschaftlichen Diskusion der Frage des Zufalls und der Zufallsfolgen siehe etwa [Zei00]. Von der Verwendung des middle square–Generators ist abzuraten, weil seine Periodenlänge im Allgemeinen sehr klein ist. Interessanterweise gibt es Modifikationen hiervon, die Knuth als muddle square–Generator bezeichnet. In Bemerkung 7.10 kommen mit dem Twister-Generator auf eine solche Modifikation zurück. Stand: 21. November 2011 10 c J. Baumeister, T.G. Macedo 2 (Mathematische) Wahrscheinlichkeit Eine sehr kleine Ursache, die uns entgehen mag, bewirkt einen beachtlichen Effekt, den wir nicht ignorieren können, und wir sagen dann, dass dieser Effekt auf Zufall beruht Henri Poincaré, 1903 Hier skizzieren wir die Begriffe, die wir aus dem Bereich der Wahrscheinlichkeitstheorie für die Diskussion unserer Ergebnisse benötigen. Beispiele für die Begriffe führen wir hier im Allgemeinen nicht an, sie folgen in ausreichender Auswahl in den nächsten Abschnitten. 2.1 Zufall, Ereignismenge und Wahrscheinlichkeit Wie reden wir über den Zufall? Wir wollen uns nicht lange dabei aufhalten. Mögliche Definitionsschnipsel“ sind: ” • Wenn im Bereich der Geschehnisse, die im strengen Sinn wegen etwas eintreten und deren Ursache außer ihnen liegt, etwas geschieht, das mit dem Ergebnis nicht in eine Deswegen-Beziehung zu bringen ist, dann nennen wir das zufällig (Aristoteles) 13 • Zufall ist das Eintreten unvorhergesehener und unbeabsichtigter Ereignisse. • Das, wobei unsere Rechnungen versagen, nennen wir Zufall (Albert Einstein). • Jemandem fällt etwas (unverdientermaßen) zu. Die Spannung bei der Verwendung des Zufalls resultiert wesentlich aus der naturwissenschaftlichen Sicht vom Eintreten von Ereignissen: das Kausalitätsprinzip lässt Nicht– ” Determiniertes“ nicht zu; siehe unten. Ein Ausweg ist, dass wir unterstellen, die Umstände (Anfangsbedingungen) des Greifens von naturwissenschaftlichen Gesetzen nicht vollständig kennen zu können. Beispiele für das Wirken von Zufall“ sind etwa: ” • Ergebnis beim Münzwurf • Eintreten von Augenzahlen beim Würfeln • Radioaktiver Zerfall • Gesund trifft auf krank in der U-Bahn • Ein Blatt fällt von einem Baum zu Boden, landet es auf der Voderseite oder Rückseite? • Männlicher oder weiblicher Nachwuchs In der Wahrscheinlichkeitsrechnung betrachtet man so genannte Zufallsexperimente (Lottoziehung, Würfeln, Ergebnis einer Befragung); im ersten Kapitel haben wir schon darüber geredet. Bei all diesen Experimenten gibt es eine Menge möglicher Ereignisse, üblicherweise mit dem griechischen Großbuchstaben Omega bezeichnet: Ω = {ω1 , ω2 , . . . , ωn } . Ω ist die Ereignismenge, jedes ωi heißt ein Elementarereignis. Eine Teilmenge von Ω heißt ein zusammengesetztes Ereignis. 13 Von Aristoteles (384-322 v. Chr.) ist auch überliefert (Quelle: [72], S. 183): . . . Alle Gebilde, bei de” ren Entstehen sich alle gerade so ergeben habe, wie es auch ein zweckbestimmtes Werden hervorgebracht haben würde, hätten sich nun am Leben erhalten können, da sie dank dem blinden Zufall einen lebensdienlichen Aufbau besessen hätten. Das Übrige aber sei zugrunde gegangen und gehe stets zugrunde.“ Stand: 21. November 2011 11 c J. Baumeister, T.G. Macedo 2.2 Mehrstufige Zufallsexperimente und Baumdiagramme Nun gehen wir daran, das Nichtwissenkönnen des Ausgangs eines Zufallsexperiments zu quantifizieren. Jedem Ereignis soll eine Zahl aus [0, 1] zugeordnet werden, die uns gestattet, die Unsicherheit über den Ausgang anzugeben: 1 sollte für absolute Sicherheit, 0 für vollständige Unsicherheit stehen. Als Maßzahl für die Chance für das Eintreten eines Elementarereignisses ωi sehen wir eine nichtnegative (reelle) Zahl pi an. Diese Maßzahl pi nennen wir die Wahrscheinlichkeit für das Eintreten des Elementarereignisses ωi . Als Normierung betrachtet man die Bedingung, dass sich diese Elementarwahrscheinlichkeiten zu Eins aufsummieren. Dies ist in Übereinstimmung mit der Sichtweise, dass ein sicheres Eintreten eines Ereignisses mit der Chance Eins bewertet wird. Damit ergibt sich die so genannte Wahrscheinlichkeitsabbildung auf der Potenzmenge14 POT(Ω): P : POT(Ω) 3 A 7−→ P (A) := #A ∈ [0, 1] . #Ω (1) Wir führen ein bißchen Algebra“ für das Rechnen mit Wahrscheinlichkeiten an. ” Wenn das Ereignis E ⊂ Ω das zusammengesetzte Ereignis A ∪ B ist, verbinden wir damit folgende Sprechweise: E ist das Ereigneis, dass A oder B eintritt. Was ist die Wahrscheinlichkeit von E? Ist die Vereinigung A ∪ B disjunkt, d.h. ist A ∩ B = ∅, dann gilt P (A ∪ B) = P (A) + P (B) . Ist die Vereinigung nicht disjunkt, dann gilt P (A ∪ B) = P (A) + P (B) − P (A ∩ B) . Dies zeigt man leicht durch Abzählen der Elementarereignisse, der Term −P (A ∩ B) berücksichtigt die Tatsache, dass die Elementarereignisse in A ∩ B durch P (A) + P (B) doppelt gezählt werden. Manchmal sind alle n Elementarereignisse gleichwahrscheinlich, d.h. als Ausgang des Experiments kann jedes Elementarereignis mit der gleichen Chance eintreten. Dann ist die Wahrscheinlichkeit pi für jedes Elementarereignis natürlich der n-te Teil der Gesamtwahrscheinlichkeit Eins, also pi = 1 für alle i = 1, . . . , n . n Man spricht dann von einem Laplace-Experiment.15 Bemerkung 2.1 Hier haben wir nur die Wahrscheinlichkeitsrechnung mit endlicher Ereignismenge angerissen. Von sehr viel größerer Komplexität ist die Theorie bei unendlicher Ereignismenge. Hier tritt schon die Frage auf, welche zusammengesetzte Ereignisse eine Wahrscheinlichkeit haben sollen. Beleuchtet wird diese Frage durch die Tatsache, dass in diesem Kontext Elementarereignisse im Allgemeinen die Wahrscheinlichkeit Null besitzen; eine Additivität von Wahrscheinlichkeiten ist daher problematisch. Wir kommen im Kapitel 8 darauf zurück. 2.2 Mehrstufige Zufallsexperimente und Baumdiagramme Etwas komplexer wird eine Experimentsituation, wenn man sich mehrstufige Zufallsexperimente anschaut, wie etwa die N -malige Wiederholung eines Experiments. Die Wahrscheinlichkeiten für das mehrstufige Experiment soll ermittelt werden aus den Wahrscheinlichkeiten, die auf jeder Stufe bekannt seien. Eine Möglichkeit, eine solche Situation zu 14 Die Potenzmenge einer Menge M ist die Menge aller Teilmengen von M . Mit dem Symbol #M schreiben wir die Anzahl der Elemente der Menge M auf. #M = ∞ bedeutet, dass M eine Menge mit unendlich vielen Elementen ist. 15 P.-S. Laplace, 1749-1827 Stand: 21. November 2011 12 c J. Baumeister, T.G. Macedo 2.2 Mehrstufige Zufallsexperimente und Baumdiagramme veranschaulichen, besteht darin, ein Baumdiagramm zu zeichnen. Ein Baumdiagramm ist ein verzweigtes Diagramm, bei dem jeder Stufe des Zufallsexperimentes eine Ebene“ ” entspricht. Man zeichnet Blasen, die mit den jeweiligen Stufen–Ereignissen gekennzeichnet sind und schreibt die Wahrscheinlichkeiten für ihr Eintreten an die Verbindungslinien (siehe Abbildung 4 in Verbindung mit Beispiel 2.2). Dieses Diagramm wird von links nach rechts gelesen. Zwei Regeln werden zur Berechnung der Wahrscheinlichkeit des mehrstufigen Experiments herangezogen. 2 p= 16/36 4/6 1. Pfadregel: Multiplikationsregel Die Wahrscheinlichkeit eines Ereignisses bei einem 2/6 2 mehrstufigen Zufallsexperiment, die sich aus eip=8/36 6 4/6 nem Pfad des Diagramms ergibt, ist gleich dem Produkt der Wahrscheinlichkeiten längs des Pfa4/6 p=8/36 2 2/6 des, der zu diesem Ergebnis führt! Begründung: 6 Diese Regel ist einsichtig, etwa wenn man an die 2/6 Häufigkeitsinterpretation (siehe unten) denkt. p=4/36 6 2. Pfadregel: Additionsregel 2. Stufe 1. Stufe Setzt sich ein mehrstufiges Ereignis aus verschiede(1. Wurf) (2. Wurf) nen Pfaden eines Baumdiagramms zusammen, so erhält man seine Wahrscheinlichkeit durch Addition der einzelnen Pfadwahrscheinlichkeiten. Abbildung 4: Würfelexperiment Beispiel 2.2 Wir würfeln mit einem Würfel, der auf 4 Seiten die Zahl 2 und auf den übrigen 2 Seiten die Zahl 6 zeigt. Er wird 2-mal geworfen. Wir machen dazu ein Pfaddiagramm; siehe Abbildung 4. An den Pfadenden können wir Wahrscheinlichkeiten ablesen. Die Wahrscheinlichkeit, dass zweimal eine Sechs gewürfelt wird, ergibt sich nach der ersten Pfadregel zu 4/36, die Wahrscheinlichkeit, dass nach zwei Würfen die Augensumme 8 vorliegt, ergibt sich nach der zweiten Pfadregel zu 8/36 + 8/36 = 16/36. Jetzt haben wir schon viel von Wahrscheinlichkeit gesprochen, aber was soll man sich darunter vorstellen? Eine Möglichkeit bietet die Häufigkeitsinterpretation. Sie fasst Wahrscheinlichkeit etwa so: Wenn man ein Zufallsexperiment N -mal wiederholt, möge das Elementarereignis ωi etwa mi -mal eintreten. Ist nun pi die (theoretische) Wahrscheinlichkeit für das Eintreten von ωi , so sollte die Häufigkeit mi etwa gleich N · pi sein; je größer die Zahl der Wiederholungen N ist, desto genauer sollte das Ergebnis mi an die erwartete Anzahl N · pi herankommen (Gesetz der großen Zahl; siehe 8.1). Es gibt also für das Eintreffen eines Ereignisses bei einem Zufallsexperiment nicht nur die theoretische Wahrscheinlichkeit, sondern auch eine empirische Wahrscheinlichkeit. Das Empirische Gesetz der Großen Zahlen besagt, dass je öfter man ein echtes“ Zufalls” experiment durchführt, desto mehr stabilisiert sich die relative Häufigkeit eines Ereignisses um einen festen Wert, den der theoretischen Wahrscheinlichkeit. Für eine Zufallsvariable bedeutet dies, dass sich der Erwartungswert der Zufallsvariablen einstellt. Die Wahrscheinlichkeit p, dass eine Reißzwecke so fällt, dass die Spitze nach oben zeigt, oder ein Butterbrot beim Herunterfallen so fällt, dass die Butterseite unten ist, kann nur empirisch festgestellt werden. Man möchte dabei die theoretische Wahrscheinlichkeit p mittels einer Versuchsserie so abschätzen, dass sich die relative Häufigkeit und p angleichen. Stand: 21. November 2011 13 c J. Baumeister, T.G. Macedo 2.3 2.3 Hilfsmittel zur Realisierung von Laplace-Experimenten Hilfsmittel zur Realisierung von Laplace-Experimenten Ein Mechanismus, der eine Zufallswahl bewerkstelligt, die zwei Ergebnisse mit der Wahrscheinlichkeit 12 als Ausgang hat, ist der Münzwurf. Wir unterstellen also, dass wir es mit einer fairen“ Münze zu tun haben, bei der jede der beiden Seiten – wir bezeichnen sie mit ” Kopf und Zahl – die gleiche Chance hat, oben zu liegen. Wenn wir Kopf die Zahl Eins (1) und Zahl die Zahl Null (0) zuordnen, erzeugen wir also bei mehrmaliger Wiederholung des Münzwurfes eine Folge von Nullen und Einsen. Man nennt eine solche Folge auch ein Wort über dem (einfachen) Alphabet {0, 1} . Für eine solches Wort haben wir die Interpretation als Dualzahlen. Betrachten wir etwa den Ausgang 00101011. Dieses Wort entspricht dann der Dualzahl, die die Zahl 43 im Dezimalsystem darstellt: 0 · 27 + 0 · 26 + 1 · 25 + 0 · 24 + 1 · 23 + 0 · 22 + 1 · 21 + 1 · 20 = 43 Jede dieser achtstelligen Dualzahlen hat als Wahrscheinlichkeit, geworfen zu werden, den Wert ( 12 )8 = 1/256, wie man sich über ein Baumdiagramm mit 8 Stufen mittels der 1. Pfadregel überzeugt.16 Unter Würfeln“ verstehen wir die zufällige Auswahl einer Zahl aus 1,2,. . . ,6. Natürlich ” stellt diese Darstellung die historische Wahrheit auf den Kopf: ein Würfel mit seinen gleichen sechs Seiten stellt die einfache Realisierung der zufälligen Auswahl von Zahlen dar, die Gleichverteilung der Auswahl der Zahlen ist eine Konsequenz der unterstellten geometrischen Gestalt des Würfels.17 Heutzutage besitzt fast jedes Handy die Möglichkeit, den Würfel zu simulieren und damit Zufallszahlen im Bereich 1, 2, . . . , 6 nachzustellen. Beim Würfelexperiment (mit einem fairen Würfel), betrachtet als Laplace–Experiment, haben wir als Ereignismenge Ω = {1, . . . , 6} und jedes Elementarereignis ωi hat die Wahrscheinlichkeit pi = 1 , i = 1, 2, . . . , 6 6 Für das zusammengesetzte“ Ereignis, eine Eins, Zwei oder Drei zu würfeln, errechnen wir ” eine Wahrscheinlichkeit 21 mit der zweiten Pfadregel; anschaulich ist das Ergebnis natürlich klar, denn die erste Hälfte“ der Augen ist gleichwahrscheinlich mit der zweiten Hälfte“ ” ” der Augen. Beim Würfeln mit zwei (fairen) Würfeln, betrachtet als Laplace–Experiment, haben wir: 1 Ω = {(i, j) ∈ N × N|1 ≤ i, j ≤ 6} ; pij = , 1 ≤ i, j ≤ 6 . 36 Kommen wir zum Augensummenparadoxon zurück, das wir im ersten Kapitel betrachtet haben. Wir betrachten das Würfeln mit zwei Würfeln als Laplace–Experiment. Wir unterstellen damit, dass die Würfel unterscheidbar sind und es daher einen ersten und einen zweiten Würfel gibt. Wir haben Ω = {(i, j) ∈ N × N|1 ≤ i, j ≤ 6}, 16 Diese kleine Zahl entspricht der Wahrscheinlichkeit, dass der Kracke Paul für acht Spiele der Weltmeisterschaft den Ausgang richtig voraussagt, wenn man eine Irrtumswahrscheinlichkeit von 21 unterstellt. 17 Siehe http://de.wikipedia.org/wiki/Spielwürfel Stand: 21. November 2011 14 c J. Baumeister, T.G. Macedo 2.3 Hilfsmittel zur Realisierung von Laplace-Experimenten und interessieren uns also für die Laplace–Wahrscheinlichkeiten der Ereignisse A9 := {(i, j) ∈ Ω|i + j = 9} , A10 := {(i, j) ∈ Ω|i + j = 10} . Wir haben dazu A9 , A10 abzuzählen. Es gilt A9 = {(3, 6), (6, 3), (4, 5), (5, 4)} , A10 = {(4, 6), (6, 4), (5, 5)} . und daher 4 1 3 1 = , P (A10 ) = = 36 9 36 12 Bei drei Würfeln zeigt eine einfache Aufzählung (bei entsprechender Bezeichnung) 19 24 P (A9 ) = , P (A10 ) = . 216 216 Modelliert man das Experiment mit zwei ununterscheidbaren Würfeln, dann hat man statt 36 Möglichkeiten nur noch 21 mögliche Ausgänge, aber kein Laplace–Experiment mehr, da etwa die Ausgänge 1–1 und 1–2 verschiedene Wahrscheinlichkeiten haben. Damit ist der Leibnizsche Fehler nun offensichtlich. P (A9 ) = Bei der Beschriftung eines Würfels mit den Augenzahlen“ 1,2,3,4,5,6 gibt es viele ” Möglichkeiten. Unter diesen Möglichkeiten werden aber in der Praxis nur die so genannten 7er-Beschriftungen realisiert. Sie sind dadurch ausgezeichnet, dass die Beschriftung zweier gegenüberliegender Seiten so gewählt wird, dass die Augensumme 7 ergibt. Darunter haben sich genau 2 Möglichkeiten durchgesetzt. Sie sind dargestellt durch folgende Würfelnetze“: ” 4 3 6 5 1 2 6 5 1 2 3 4 Wie kann man mit Hilfe eines Münzwurfes einen Würfel simulieren? Hier kommen uns die Dualzahlen zu Hilfe, denn mit einem dreifachen Münzwurf können wir die Dualzahlen 000, 001, 010, 100, 011, 110, 101, 111 (0 entspricht Kopf, 1 entspricht Zahl) auswürfeln“. ” Aus diesen 8 Möglichkeiten müssen wir nun 6 machen, also 2 streichen“; wir sollten 000 ” (entspricht 0) und 111 (entspricht 7) streichen Dies kann so geschehen: S1 Werfe dreimal die Münze. S2 Ist das Ergebnis 000 oder 111, gehe zu S1, sonst S3 notiere das Ergebnis als Würfelwurfergebnis. Ein beliebtes Bild von einem Zufalls–Mechanismus ist das Urnenmodell. Eine Urne ist ein Gefäß, in dem Gegenstände versteckt“ werden, die man dann wieder – nach ausrei” chendem Mischen – herausholen kann. Beispiel 2.3 In einer Urne liegen drei schwarze Kugeln und eine weiße Kugel. Auf gut Glück werden zwei Kugeln der Urne entnommen. Welche Wahrscheinlichkeit ist größer, zwei schwarze Kugeln oder eine weiße und eine schwarze Kugel herauszunehmen? Man ist auf Grund der Tatsache, dass dreimal soviele schwarze wie weiße Kugeln in der Urne liegen zu vermuten, dass die erste Möglichkeit wahrscheinlicher ist. Dem ist aber nicht so, denn es gibt drei Möglichkeiten, zwei schwarze Kugeln herauszunehmen und drei Möglichkeiten eine schwarze und eine weiße Kugel herauszunehmen. Es lässt sich dies auch rechnerisch begründen: Wahrscheinlichkeit für das Ziehen zweier schwarzer Kugeln Wahrscheinlichkeit für das Ziehen einer weißen und einer schwarzer Kugel Man fertige dazu ein Baumdiagramm! Stand: 21. November 2011 15 3 4 1 4 · 23 = 12 · 1 + 34 · 13 . c J. Baumeister, T.G. Macedo 2.4 2.4 Zufallsvariable, Erwartungswert und Verteilung Zufallsvariable, Erwartungswert und Verteilung Eine Funktion, die den Ergebnissen eines Zufallsexperiments numerische Werte zuordnet, nennt man eine Zufallsvariable. Die Bedeutung der Zufallsvariable liegt darin, dass durch sie die Verbindung zwischen dem Resultat eines Zufallsexperiments und seiner mathematischen Darstellung/Realisation hergestellt wird. Bei einer diskreten Zufallsvariablen – und nur solche betrachten wir hier in erster Linie – sind nur endlich viele Realisierungen möglich. Zum Beispiel kann das Zufallsexperiment des Münzwurfs als Zufallsvariable X modelliert werden: X bildet die Menge der Wurfergebnisse Kopf, Zahl auf die Menge der Realisationen {0, 1} ab: ( 0, wenn ω = Kopf, X(ω) = 1, wenn ω = Zahl. Das Zufallsexperiment Wurf mit drei (fairen) Würfeln“ und die Frage nach der Augen” summe kann mit Hilfe einer Zufallsvariablen Z so modelliert werden: Z((ω1 , ω2 , ω3 )) := ω1 + ω2 + ω3 , ωi ∈ {1, 2, . . . , 6} . Sei X eine Zufallsvariable mit reellen Werten18 . Die Wahrscheinlichkeiten Ws(X = x) , x Realisierung gibt die Wahrscheinlichkeit der unterschiedlichen Realisierungen x an; man nennt diese Gesamtheit Verteilung von X . Die Verteilungsfunktion von X ist definiert durch F (x) := Ws(X ≤ x) . Der Erwartungswert der Zufallsvariablen X – wir schreiben für dies Maßzahl E(X) – ist jener Wert, der sich (in der Regel) bei oftmaligem Wiederholen des zugrunde liegenden Experiments als Mittelwert der Ergebnisse einstellt. In der Situation Ω = {ω1 , . . . , ωn } , pi = P ({ωi }), i = 1, . . . , n, erhalten wir E(X) = n X pi X(ωi ) . i=1 Ein Erwartungswert muss kein mögliches Ergebnis des zugrunde liegenden Zufallsexperiments sein. Beispielsweise ist der Erwartungswert der Augen beim Würfelwurf gegeben durch 1 1 1 7 1 · + 2 · + ··· + 6 · = . 6 6 6 2 Eine weitere wichtige Maßzahl der Zufallsvariablen X ist die Varianz. Wir schreiben dafür V(X) . Sie ist definiert durch V(X) := E((X − E(X))2 ) Die physikalische“ Einheit der Varianz ist das Quadrat der Einheit der Zufallsvariablen ” X . Dies ist birgt gewisse Nachteile. Daher wird die abgeleitete Größe Standardabweichung19 eingeführt. Sie ist für eine Zufallsvariable p X definiert als die positive Quadratwurzel aus deren Varianz und wird als σ(X) := V(X) notiert. Sie beschreibt also, wie 18 Wir verwenden hier die reellen Zahlen ohne auf die inneren Eigenschaften einzugehen. Im Kapitel 4 schauen wir etwas genauer hin. 19 Die Standardabweichung wurde um 1860 von Sir Francis Galton, 1822-1911, Cousin von C.R. Darwin, eingeführt Stand: 21. November 2011 16 c J. Baumeister, T.G. Macedo 2.4 Zufallsvariable, Erwartungswert und Verteilung im Mittel die abgeleitete Zufallsvariable X −E(X) um den Erwartungswert E(X) streut“. ” Beispielsweise ist die Standardabweichung der Augen beim Würfelwurf gegeben durch r 70 7 7 7 70 σ(X) = , da (1 − )2 + (2 − )2 + · + (6 − )2 = . 4 2 2 2 4 Das Galtonbrett besteht aus einer regelmäßigen Anordnung von Hindernissen, an denen eine von oben eingeworfene Kugel jeweils nach links oder rechts abprallen kann; vergleiche mit einem Flipperspiel. Nach dem Passieren der Hindernisse werden die Kugeln in Fächern aufgefangen, um dort gezählt zu werden; siehe Abbildung 5. Jedes Aufprallen einer Kugel auf eines der Hindernisse ist ein Bernoulli-Versuch. Die beiden möglichen Ausgänge sind: Kugel fällt nach rechts, Kugel fällt nach links. Bei symmetrischem Aufbau ist die Wahrscheinlichkeit, nach rechts zu fallen, p = 12 und die Wahrscheinlichkeit, nach links zu fallen, q = 1 − p = 12 . Durch unsymmetrischen Aufbau oder durch Schiefstellen des Brettes kann man auch einen anderen Wert für p erreichen, wobei aber natürlich weiterhin q = 1− p ist, denn die Kugeln, die nicht nach rechts fallen, fallen nach links. Indem die Kugel nach PasAbbildung 5: Das Galtonbrett sieren des ersten Hindernisses auf ein neues trifft, bei dem die gleichen Voraussetzungen gelten, wird hier ein weiterer Bernoulli-Versuch durchgeführt; das Durchlaufen des ganzen Gerätes ist also eine mehrstufige Bernoulli-Kette, wobei die Zahl der waagrechten Reihen von Hindernissen die Anzahl der Ebenen, die Länge dieser Kette ist. In der Abbildung 5 handelt es sich demnach um ein Galtonbrett mit 6 Ebenen und um eine 6-malige Wiederholung eines Bernoulli-Versuchs, d.h. eine Bernoulli-Kette der Länge 6. Sei n die Anzahl der Ebenen eines Galtonbretts. Die Anzahl der Fächer, in die die Kugeln fallen können, ist dann n + 1 . Jeden Durchlauf einer Kugel kann man mit einem Wort der Länge n über dem Alphabet {L, R} in Verbindung bringen, wobei wir festlegen, dass L (links) bzw. R (rechts) mit der Draufsicht gemeint ist. Beispielsweise ist der in der Abbildung 5 eingezeichnete Durchlauf beschrieben durch das Wort RLLRRR . Sei nun ein Wort der Länge n betrachtet, in dem l-mal der Buchstabe L vorkommt. Dann ist die Wahrscheinlichkeit für dieses Wort ( 12 )l ( 12 )n−l = ( 12 )n . Wenn wir die Fächer von links nach rechts durchnummerieren mit den Nummern 0, 1, . . . , n, dann haben wir nach der Pfadregel für die Wahrscheinlichkeit, dass eine Kugel in das Fach mit der Nummer m fällt, die Wahrscheinlichkeiten aller Pfade, die zum Fach m führen, aufzusummieren. Das Fach mit der Nummer m kann erreicht werden durch einen Durchlauf, der durch die Worte beschrieben wird, die m-mal den Buchstaben R enthalten. Um diese Worte abzuzählen, hat man die Möglichkeiten zu zählen, die bei der Verteilung von m Buchstaben R auf n Plätze bestehen. Dies sind n n! := (n − m)!m! m Stand: 21. November 2011 17 c J. Baumeister, T.G. Macedo 2.5 Determinismus, Kausalität, Berechenbarkeit und Zufall viele. Damit ergibt sich für die Wahrscheinlichkeit b(m, n), dass eine Kugel in das Fach m fällt als n n 1 (2) b(m, n) = m 2 An der Abbildung 5 erkennen wir, dass die Füllung der Fächer für großes n sehr schön die Gaußsche Glockenkurve (siehe den ehemaligen 10 DM-Schein) annähert. Diese Approximationsgüte lässt sich mit Hilfe der Normalverteilung analytisch erklären; siehe Abschnitt 8.1. 2.5 Determinismus, Kausalität, Berechenbarkeit und Zufall Determinismus20 ist die Auffassung, dass zukünftige Ereignisse durch Vorbedingungen eindeutig festgelegt sind. Als Determiniertheit bezeichnet man etwa in den Naturwissenschaften die a-priori-Festlegung der Reaktion eines Systems, in der Theoretischen Informatik eine Eigenschaft eines Algorithmus; siehe Abschnitt 1.4. Kausalität21 bezeichnet die Beziehung zwischen Ursache und Wirkung, betrifft also die Abfolge aufeinander bezogener Ereignisse und Zustände. Die Kausalität hat eine feste zeitliche Richtung, die immer von der Ursache ausgeht, auf die die Wirkung folgt. Laplace formuliert: Eine Intelligenz, welche für einen gegebenen Augenblick alle in der Natur wirkenden Kräfte sowie die gegenseitige Lage der sie zusammensetzenden Elemente kennt und überdies umfassend genug wäre, um diese gegebenen Größen der Analysis zu unterwerfen, würde in derselben Formel die Bewegung der größten Weltkörper wie des leichtesten Atoms umschließen; nichts würde ihr ungewiss sein, und Zukunft wie Vergangenheit würden ihr offen vor Augen liegen. Also nach Laplace: Gleiche Ursachen haben gleiche Wirkungen. Ein Experiment, das immer mit denselben Anfangsbedingungen gestartet wird, muss nach menschlichem Selbstverständnis auch immer dasselbe Ergebnis zeigen. Mehr noch, Laplace unterstellt (ausgehend von den Erfolgen Isaac Newtons) die grenzenlose Berechenbarkeit der Natur und damit an das Existieren einer Weltformel, die alle Zusammenhänge beschreibt. Diese Berechenbarkeit in den Naturwissenschaften wurde nicht zuletzt durch die Quantenmechanik auf eine harte Probe gestellt. Determinismus und Kausalität treffen sich etwa in folgenden Fragen: • Kann der Flügelschlag eines Schmetterlings in Brasilien einen Tornado in Texas hervorrufen? • Was bewirkt die Tatsache, dass in China ein Sack Reis umfällt? Das schwache Kausalitätsprinzip besagt, dass gleiche Ursachen gleiche Wirkungen nach sich ziehen. Bei realen Experimenten ist diese Begriffsbildung nicht hilfreich, da niemals die absolut gleichen Bedingungen vorliegen. Das starke Kausalitätsprinzip besagt, dass ähnliche Ursachen ähnliche Wirkungen erzeugen. Wie wir nun aber nach ca. 3 Jahrzehnten Chaosforschung“ wissen, ist auch dieses Prinzip für viele physikali” sche Vorgänge im Zweifel, wenn man ähnlich“ angemessen verwendet. Der Grund dafür ” ist, dass viele physikalische Vorgänge und ihre (mathematischen) Modelle eine sensitive Abhängigkeit von den Bedingungen des Experiments besitzen. Man sieht dies besonders 20 21 determinare (lat.): abgrenzen, bestimmen causa (lat.): Ursache Stand: 21. November 2011 18 c J. Baumeister, T.G. Macedo 2.5 Determinismus, Kausalität, Berechenbarkeit und Zufall gut bei dynamischen Vorgängen, wie etwa in der Wetterentwicklung, bei der Entstehung von Turbulenzen in Strömungen, im Allgemeinen bei nichtlinear rückgekoppelteten Systemen. Modellbeispiele sind das logistische Modell und das Doppelpendel. Beim Würfeln und Werfen von Reißzwecken etwa ist die Situation besonders undurchschaubar: welche Handhaltung beim Werfen hat welche Konsequenz? Wir werden bei der Konstruktion des Sierpinski-Dreiecks das sogenannte Chaos-Spiel“ ” kennenlernen. Dort kommen wir auf einige Details von Sensitivität zurück. Bibliographische Anmerkungen Für die elementare Einführung in die Wahrscheinlichkeitsrechnung verweisen wir auf [17, 21, 38, 82]. Dort findet man auch Anmerkungen zum Determinismus und zur Kausalität. Nichtlinear rückgekoppelte Systeme findet man meist modelliert durch Differentialgleichungen. Etwas Populärwissenschaftliches, geschrieben von einem renomierten Experten der mathematischen Chaostheorie, findet man in [71]. Zu Beispielen von nichtlinearen Systemen siehe [56, 77]. Wir kommen bei der Betrachtung von dynamischen Systemen auf den diskreten Fall zurück; siehe Abschnitt 5.5. Stand: 21. November 2011 19 c J. Baumeister, T.G. Macedo 3 Elementare Zufallsexperimente Zufall ist nur der Ausdruck unserer Unfähigkeit, den Dingen auf den Grund zu kommen A. Einstein (Ein großer Skeptiker in Sachen Zufall) In diesem Abschnitt dokumentieren wir einfache Zufallsexperimente. Grundlegende Fragen zur Erzeugung von Zufallszahlen und ihrem Gebrauch werden damit schon deutlich. 3.1 Reißzweckexperiment Der Wurf eines Reißnagels kommt dem Münzwurf zwar als Experiment mit zwei Ausgängen sehr nahe, er ist aber ein Beispiel eines Zufallsexperiments mit ungleicher Wahrscheinlichkeitsverteilung: die Ausgänge sind: Lage auf der Kappe, Spitze nach oben (Kopf); Lage auf der Spitze und der Kante der Kappe (Seite). Nicht beide Lagen stellen sich mit gleicher Wahrscheinlichkeit ein; siehe unten. In Schulbüchern kann man das Werfen von Reißzwecken als Beispiel für ein Zufallsexperiment aufgeführt sehen, das keine Gleichverteilung der Ergebnisse bringt. Es wird – ohne eine Versuchsanleitung zu geben – berichtet von einer Verteilung 60% Kopf, 40% ” Seite. Versucht man diese Verteilung zu überprüfen, dann ist man schon vor dem ersten Wurf in der Situation, erst die Versuchsbedingungen zu klären und festzulegen; in jedem Falle: Art der Reißzwecke, Fallhöhe, Untergrund, anfangs Spitze nach oben oder nach unten. Zunächst zur Art der Reißzwecke: 1. Wahl Handelsübliche Reißzwecke: Durchmesser 0.8 cm, Spitzenlänge 0.9 cm, 2. Wahl Pin-Reißzwecke: Durchmesser 2.4 cm, Spitzenlänge 2.5 cm Als Versuchsumfang wurde die die Reißzwecke mit der Spitze nach oben 100-mal aus bestimmten Höhen fallen gelassen. Die Ergebnisse waren stark höhenabhängig. Während sich bei Fallhöhen um etwa 50 cm das Verhältnis 60% Kopf, 40% Seite reproduzieren“ ” ließ, zeigten sich bei Fallhöhen um etwa einen Meter andere Ergebnisse, nämlich gerade entgegengesetzte Verhältnisse. Die Vermutung ist, dass man die Höhe für eine 50:50– Verteilung herausfinden könnte, wenn man die Fallhöhe nur geeignet wählen würde. Hierzu sind viele Experimentiermöglichkeiten offen. Man kann mit einer handelsüblichen Reißzwecke eine (quasi) 50-zu-50-Entscheidung herbeiführen, d.h. einen fairen Münzwurf nachstellen, ohne das Verhältnis Kopf/Seite zu kennen. Nehmen wir an, dass bei einer bestimmten Versuchsanordnung die Wahrscheinlichkeit für Kopf p und die Wahrscheinlichkeit für Seite q := 1 − p sei. Wir werfen nun die Reißzwecke bei dieser Versuchsanordnung mehrmals und zählen, wie oft Kopf gefallen ist. Die 50-zu-50 Entscheidung stellt sich (nahezu) ein mit dem Ergebnis Kopf ist gerade-mal gefallen, Kopf ist ungerade-mal gefallen. Analysieren wir zunächst den zweimaligen Wurf: • Häufigkeit von Kopf ist gerade (2-mal Kopf, 0-mal Kopf (2-mal Seite)) Als Wahrscheinlichkeit dafür ergibt sich nach der Pfadregel: 0.6 · 0.6 + 0.4 · 0.4 = 0.36 + 0.16 = 0.52 • Häufigkeit von Kopf ist ungerade (Kopf/Seite oder Seite/Kopf, also genau einmal Kopf) Als Wahrscheinlichkeit dafür ergibt sich nach der Pfadregel: 2 · 0.6 · 0.4 = 2 ∗ 0.24 = 0.48 Stand: 21. November 2011 20 c J. Baumeister, T.G. Macedo 3.2 (Unfaire) Würfel Dies kann man auch mit 3 Würfen, mit 4 Würfen usw. durchführen. Die Situation ist dann bei drei Würfen: • Häufigkeit von Kopf ist gerade: als Wahrscheinlichkeit dafür ergibt sich nach der Pfadregel 0.504 • Häufigkeit von Kopf ist ungerade: als Wahrscheinlichkeit dafür ergibt sich nach der Pfadregel 0.496 Bei 4 Würfen ist das Wahrscheinlichkeitsverhältnis 0.5008 zu 0.4992 . Die Verhältnisszahlen rücken mit wachsender Wurfanzahl schließlich immer mehr an ein Verhältnis 50-zu-50 heran. Dieses Vorgehen kann man auf den Münzwurf anwenden, wenn man Zweifel hat, ob die Münze fair ist. Der Grund für eine ungleiche Wahrscheinlichkeit für Kopf und Zahl bei einer Münze kann eine Krümmung oder eine veränderte Gewichtsverteilung sein. Abschließend zu diesen Überlegungen sei festgehalten, dass bei allen diesen Experimenten ohne eine exakte Beschreibung des Versuchsaufbaus und seiner Dokumentation die Reproduzierbarkeit der Ergebnisse nicht gegeben ist. Ein Mathearbeitsheft für Schüler darf also eigentlich nicht einfach nur die Wahrscheinlichkeitsverteilung aufschreiben, sondern müsste auch Versuchsaufbau und Versuchsdokumentation detailiert darlegen. 3.2 (Unfaire) Würfel Das Würfeln mit einem fairen Würfel ist vielerorts wohlbeschrieben. Wir benötigen diesen Würfel um aus sechs Zahlen eine zu wählen, ohne die anderen zu benachteiligen“. ” Unfaire Würfel sind Würfel, die unregelmäßige Formen aufweisen. Sie werden umgangssprachlich als gezinkt“ und/oder als ” gefälscht bezeichnet. Sie haben unterschiedlich lange Kanten, eine zusätzliche Gewichteinlagerung, oder Ähnliches. Es gibt sehr viele Möglichkeiten einen Würfel zu manipulieren. Meistens jedoch werden Würfel manipuliert, um in sogenannten Würfel- bzw. Glücksspielen sicher“ zu gewinnen. Bei die” sen Würfeln sind die Wahrscheinlichkeiten, dass die verschiedenen Seiten gewürfelt werden, nicht identisch. Abbildung 6: Unfairer Würfel Um eine Statistik über unfaire Würfel entwerfen zu können, wirft man den Würfel mehrmals (100-mal, 1000-mal,. . . ) und notiert sich die Würfelaugen. Dabei ist darauf zu achten, dass die Würfel-Bedingungen“ (Untergrund, Würfelhand, Würfelhöhe, ...) stets ” gleich sind. Für die Reproduzierbarkeit der Ergebnisse ist eine genaue Dokumentation der Würfel-Bedingungen wesentlich. Der unfaire Würfel“ aus Abbildung 6 hat die Ausmaße 1x1x2 in der Maßeinheit ” Zentimeter und eine Siebenerbeschriftung (übliche Beschriftung bei normalen“ Würfeln). ” Wir haben auf verschiedenen Untergründen (Wiese, Fliesen) jeweils 100-mal gewürfelt, Stand: 21. November 2011 21 c J. Baumeister, T.G. Macedo 3.3 Zufallszahlen der Natur entnommen wobei wir darauf geachtet haben, dass die Versuchsdurchführung immer dieselbe war: mit der rechten Hand aus 42 cm Höhe. In der Abbildung 7 finden wir die Resultate. Die Ergebnisse sind einigermaßen verwirrend und bedürfen einer weiteren Untersuchung. (a) (b) Abbildung 7: Würfeln mit einem unfairen Würfel 3.3 Zufallszahlen der Natur entnommen Zufallszahlen, die mit Vorgängen der Natur gewonnen werden, verwenden im Allgemeinen nicht-deterministische physikalische Prozesse als Zufallszahlenquelle. Beispiele für solche physikalische Generatoren sind: • Die Beobachtung der Zeit zwischen der Emission von Partikeln beim radioaktiven Zerfall • Die Messung thermischen Rauschen • Die Messung der Ladungsdifferenz zweier eng benachbarter Halbleiter • Die Beobachtung von Frequenzschwankungen aufgrund der Instabilität eines frei laufenden Oszillators • Die Messung des Betrags, um den ein Halbleiter während einer festen Zeitspanne geladen werden kann • Die Aufzeichnung von Klang mit einem Mikrofon oder von Bildern mit einer Videokamera. • Laufzähler mit Stoppereignissen. Dabei kommt ein modulo n-Zähler“ zum Einsatz, ” der laufend von 0 bis (n−1) zählt. Beim Auftreten eines zufälligen zählerunabhängigen Stoppereignisses wird der Zählerstand ausgelesen. Man nennt solche physikalische Effekte nutzende Generatoren Hardware-Generatoren22 . Hier steht natürlich die Frage im Raume, ob das physikalische Phänomen wirklich den Zufall simuliert, wie es etwa beispielsweise die Quantenmechanik voraussagt. Die Vorteile solcher Hardware-Generatoren sind: • Keine Periodizität (siehe Kongruenzgeneratoren) • Generation basiert nicht auf einem Algorithmus • Keine Reproduzierbarkeit der Zahlen 22 http://www.westphal-electronic.com/ZrandomUSB− Manual.pdf Stand: 21. November 2011 22 c J. Baumeister, T.G. Macedo 3.3 Zufallszahlen der Natur entnommen • Im Allgemeinen sehr gute statistische Eigenschaften der Zufallszahlen. Wir wollen auf die Zufälligkeit des radioaktiven Zerfalls näher eingehen. Es wird auf Grund von physikalischen Gesetzmäßigkeiten angenommen, dass die Anzahl der durch ein homogenes Isotop ausgestrahlten Teilchen einen zufälligen Prozess darstellt. Um der Gesetzmäßigkeit dieses Prozesses auf die Spur zu kommen, beobachtet man die Zerfallsrate (mit einem Geigerzähler). Man stellt fest, dass die Anzahl der Teilchen, die in einem Zeitintervall der Länge ∆t zerfallen, in ziemlich einfacher Weise materialabhängig beschrieben werden kann, und zwar als Poisson-Verteilung23 der Zufallsvariablen X, die den Zerfall im Intervall ∆t angibt: λk −λ e mit λ = c∆t , k = 0, 1, 2, . . . . (3) k! Dabei stellt die positive Konstante c die Intensität der Strahlungsquelle dar. Für kleine Werte von λ ist p0 := Ws(X = 0) nahe dem maximalen Wert eins. Ws(X = k) = Rutherford und Geiger haben 1910 den Zerfall einer Polonium-Quelle in 2608 8-Minuten Intervallen beobachtet; siehe Tabelle 8. Die dritte Spalte geht vom Parameter λ = 3.87 in der Poissonverteilung aus. Die Übereinstimmung von beobachteten Werten und Werten aus dem Modell ist ziemlich gut. Anzahl Gemessene Erwartete gemessener Häufigkeit Häufigkeit Zerfallsteilchen 0 57 54 1 203 211 2 383 407 3 525 526 4 532 508 5 408 394 6 273 254 139 140 7 8 45 68 9 27 29 10 10 11 ≥ 11 6 6 Die Poissonverteilung ist eine auch in anderem Zusammenhang anzutreffende Verteilung, etwa: Personen, die in einem Zeittakt an der Bushaltestelle eintreffen, Personen, die in einem Zeittakt ein Kaufhaus betreten, Telefongespräche, die in einem Zeittakt bei der Vermittlung auflaufen. Will man solche Gegebenheiten simulieren, braucht man Poisson-verteilte Zufallszahlen. Der obige Zerfallsprozess stellt einen passenden Generator bereit. Abbildung 8: Poisson-Zerfall Wir sind aber an der Frage interessiert, ob es möglich ist, aus den Poisson-verteilten Zufallszahlen gleichverteilte Zufallszahlen (auf [0, 1)) zu extrahieren. Dies ist in der Tat möglich. Dies geschieht in zwei Schritten. Zunächst verschaffen wir uns aus X eine Zufallsvariable, die nahezu einen Münzwurf nachstellt. Dazu betrachten wir die Zufallsvariable Z, die folgende Tatsache zählt“: ist in einem Intervall [0, t] die Anzahl der zerfallenden ” Teilchen gerade, setzen wir Z auf den Wert 0, anderenfalls auf 1. Dann erhalten wir als Wahrscheinlichkeit für das Eintreten der Ereignisse Ws(Z = 0) = ∞ X −λ Ws(X = 2j) = e j=0 Ws(Z = 1) = ∞ X ∞ X eλ + e−λ 1 + e−2λ λ2j = e−λ = (2j)! 2 2 j=0 −λ Ws(X = 2j + 1) = e j=0 23 ∞ X j=0 eλ − e−λ 1 − e−2λ λ2j+1 = e−λ = (2j + 1)! 2 2 S.D. Poisson, 1781-1840 Stand: 21. November 2011 23 c J. Baumeister, T.G. Macedo 3.4 Flächenberechnung mit Zufallszahlen Hier sind wir mit der Tatsache konfrontiert, dass wir erstmals unendlich viele Ereignisse haben, die unendliche Summation“ entspricht diesem Sachverhalt. Für das Nachvollzie” hen der folgenden Rechnungen sollte man zunächst Kapitel 4 durchlesen. Mit ε(t) := e−2λ = e−ct erhalten wir die Darstellung Ws(Z = 0) = 1 + ε(t) 1 − ε(t) , Ws(Z = 1) = 2 2 Im Grenzwert für t gegen unendlich ergibt sich lim Ws(Z = 0) = lim Ws(Z = 1) = t→∞ t→∞ 1 2 Dies bedeutet, dass man auf diese Weise (durch die Intensität der Strahlungsquelle bzw. die Länge des gewählten Zeitintervalls) einen Münzwurf nachstellen kann durch Nachzählen der Zerfallsereignisse. Es ist nun klar, dass wir mit Hilfe eines Poisson-Generators ein Zufallsbit erzeugen können, wobei 1 bzw. 0 mit Wahrscheinlichkeit (nahezu) 21 eintritt. Durch Wiederholung erzeugen wir ein Zufallwort a1 a2 . . . aN etwa der Länge N, wobei die Buchstaben ai die erzeugten Zufallsbits sind. Damit können wir nun eine Dezimalzahl z in [0, 1) erzeugen durch N X z= ai 2−i i=1 Offensichtlich hat jede dieser möglichen Zufallszahlen die Wahrscheinlichkeit ( 12 )−N und die Zahlen sind in [0, 1) gleichverteilt. 3.4 Flächenberechnung mit Zufallszahlen Man kann Zufallszahlen nutzen, um den Inhalt von Körpern und Flächen mit unregelmäßiger Begrenzung und/oder in großen Raumdimensionen zu berechnen. Hier ist diese Vorgehen das Verfahren der Wahl. Dazu wird eine Begrenzungsfläche um den Körper gelegt, von der man leicht den Flächeninhalt ausrechnen kann (z.B. Quadrat, Würfel). Nun wird ein Punkt mit zufälligen Koordinaten ermittelt und in den Raum, den die Begrenzungsfläche einschließt, gesetzt. Danach wird anhand einer Formel ermittelt, ob dieser Punkt im Körper oder nur im Raum innerhalb der Begrenzungsfläche liegt. Diesen Vorgang wiederholt man sehr oft, so dass am Ende viele Punkte vorhanden sind. Dank Abbildung 9: Berechnung von π eines Spielcasinos in der gleichnamigen Stadt trägt das obige Vorgehen den Namen Monte-Carlo Simulation. In Kapitel 8 betrachten wir die Methode in allgemeinerem Kontext. Wir beschreiben hier die Anwendung auf die Berechnung von Flächen, insbesondere von krummlinig berandeten Flächen. Man benötigt dazu ein Einheitsquadrat mit der Stand: 21. November 2011 24 c J. Baumeister, T.G. Macedo 3.5 Uabhängigkeit bei Zufallsvariablen Fläche 1, das die Figur umgibt. Mit geeigneter Skalierung kann man dies immer erreichen. Danach startet man den Zufallsregen“, indem man etwa 1 000 000 Zufallszahlen ” auswürfelt, notgedrungen mit einem Zufallgenerator. Man bezeichnet dieses Geschehen als Zufallsregen“, da alle Punkte zeitnah auf die Figur im Einheitsquadrat treffen. ” Damit das Vorhaben gelingt, müssen die Punkte im Einheitsquadrat liegen und dort gleichmäßig verteilt sein. Nach dem Abschluss des Zufallsregens ermittelt man die Anzahl T der Treffer, d.h. der Zufallspunkte, die in der Figur liegen. Besteht der Zufallsregen aus N Punkten, dann ist in T F := N nun eine Näherung für den gesuchten Flächeninhalt gegeben. Demonstrieren wir das Vorgehen für den Kreis mit Radius r = 1 . Wir umschließen den Viertelkreis - die Fläche des Vollkreises lässt sich leicht daraus ableiten - mit dem Einheitswürfel. Dann ist es einfach (mit dem Satz von Pythagoras) zu entscheiden, ob ein Zufallspunkt (x, y) im Kreis oder außerhalb liegt: x2 + y 2 ≤ 1 : innerhalb x2 + y 2 > 1 : außerhalb Hier brauchen wir dann eine Folge von Zufallspunkten, die im Einheitswürfel liegen; wir bezeichnen sie mit (xn , yn ), n = 1, 2, . . . , N . Wir zählen nun die Anzahl der Punkte, die innerhalb des Kreises liegen; wir nehmen an, es seien mN Stück. Dann approximieren wir die Fläche des Viertelkreises durch den Bruch b(N ) := mN /N . Für größer werdendes N nähert b(N ) die Kreiszahl π/4 immer besser an. In der Abbildung 9 sehen wir den Zufallsregen“. Ein typisches Ergebnis ist etwa b(1000) = 3.1442 . ” 3.5 Uabhängigkeit bei Zufallsvariablen Definition 3.1 Sei (Ω, POT(Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ⊂ Ω heißen unabhängig, wenn P (A ∩ B) = P (A)P (B) gilt, anderenfalls abhängig. Zahlreiche Fehlvorstellungen zur Wahrscheinlichkeitsrechnung beruhen auf der Nichtberücksichtigung der Abhängigkeit bzw. Unabhängigkeit von Ereignissen. Machen wir uns die Fehlerquellen z.B. beim Skatspiel“ klar. Ein Skatspieler berechnet die Wahrschein” lichkeit, in seinem Blatt von 10 Karten 4 Asse zu haben als 28 10 · 9 · 8 · 7 6 ≈ 0.00584 . 32 = 32 · 31 · 30 · 29 10 Die Wahrscheinlichkeit, alle 4 Buben zu bekommen, ist ebenso groß. Daraus schließt er, dass die Wahrscheinlichkeit, alle 4 Asse und alle 4 Buben zu bekommen etwa 0.005842 ≈ 0.000034 beträgt. Die Überlegung ist natürlich falsch, da sie die Abhängigkeit der Ereignisse A : 4 Asse , B : 4 Buben Stand: 21. November 2011 25 c J. Baumeister, T.G. Macedo 3.5 Uabhängigkeit bei Zufallsvariablen nicht berücksichtigt. Die Wahrscheinlichkeit, alle 4 Buben zu bekommen, wenn man schon 4 Asse hat, ist kleiner als die Wahrscheinlichkeit, ohne die Bedingung alle 4 Buben zu bekommen: 24 P (A ∩ B) = P (B|A) · P (A) = 2 32 10 = 0.0000042 . Unabhängigkeit ist ein in A, B symmetrischer Begriff. Sind A, B ⊂ Ω unabhängig, dann sind es auch A, Ω\B und Ω\A, B und Ω\A, Ω\B.24 Die Verallgemeinerung der Unabhängigkeit auf mehr als zwei Ereignisse liegt auf der Hand; wir führen sie zur Erläuterung an. Definition 3.2 Sei (Ω, POT(Ω), P ) ein endlicher Wahrscheinlichkeitsraum und seien A1 , . . . , Ak Ereignisse. Diese Ereignisse heißen unabhängig, wenn für jede Wahl 1 ≤ i1 < · · · < il ≤ k gilt: P (Ai1 ∩ · · · ∩ Ail ) = P (Ail ) · · · P (Ail ). Beispiel 3.3 Betrachte im Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ) mit 1 Ω = {ω1 , ω2 , ω3 , ω4 }, P ({ωi }) = , i = 1, . . . , 4, 4 die Ereignisse A = {ω1 , ω2 }, B = {ω2 , ω3 }, C = {ω1 , ω3 }. Wir haben P (A ∩ B) = P (A)P (B) , P (A ∩ C) = P (A)P (C) , P (B ∩ C) = P (B)P (C), aber 1 P (A ∩ B ∩ C) = 0, P (A) · P (B) · P (C) = . 8 Dieses Beispiel beleuchtet die Definition 3.2. Häufig steht, bevor der Ausgang eines Zufalls–Experiments bekannt ist, schon die Information zur Verfügung, dass der Ausgang zu einer bestimmten (möglicherweise eingeforderten) Teilmenge des Ereignisraumes gehört. Was lässt sich dann über Wahrscheinlichkeiten sagen? Diese Fragestellung wollen wir nun skizzieren. Zur Motivation des Folgenden greifen wir auf den Begriff der relativen Häufigkeiten zurück. Sei V ein Zufallsexperiment mit zugehörigem Wahrscheinlichkeitsraum (Ω, P OT (Ω), P ). Seien A, B Ereignisse in (Ω, P ). Der Versuch V werde nun n–mal (unabhängig) wiederholt. Die relativen Häufigkeiten von A unter der Bedingung B sind dann definiert durch hn (A|B) := n#{ Es tritt A ∩ B ein } hn (A ∩ B) #{ Es tritt A ∩ B ein } = = , n ∈ N. #{ Es tritt B ein } n#{ Es tritt B ein } hn (B) Dabei haben wir hn (B) > 0, n ∈ N, unterstellt. Analog zu dieser Formel kommen wir nun zu einer entsprechenden Begriffsbildung im Wahrscheinlichkeitsraum (Ω, P ) . 24 Mit A\B bezeichnen wir das Komplement der Menge B in A. Stand: 21. November 2011 26 c J. Baumeister, T.G. Macedo 3.5 Uabhängigkeit bei Zufallsvariablen Definition 3.4 Sei (Ω, P OT (Ω), P ) ein endlicher Wahrscheinlichkeitsraum. Seien A, B ⊂ Ω mit P (B) > 0. Dann heißt P (A|B) := P (A ∩ B) P (B) die bedingte Wahrscheinlichkeit des Ereignisses A unter der Bedingung B. Wichtige Resultate im Zusammenhang mit bedingten Wahrscheinlichkeiten sind der Satz von der totalen Wahrscheinlichkeit und der Satz von Bayes. Kommen wir nun zur Unabhängigkeit von Zufallsvariablen. Sie wird mit dem Begriff der Unabhängigkeit von Ereignissen eingeführt. Definition 3.5 Zwei Zufallsvariablen X1 , X2 heißen unabhängig, wenn die Ereignisse {X1 ≤ x1 } und {X2 ≤ x2 } für beliebige x1 , x2 ∈ R unabhängig sind. Die Fortschreibung der Definition 3.5 auf n Zufallsvariablen X1 , . . . , Xn ist offensichtlich: Definition 3.6 Die Zufallsvariablen X1 , . . . , Xn heißen unabhängig genau dann, wenn mit der zugrundeliegenden Wahrscheinlichkeit P gilt: P (X1 ≤ x1 , . . . , Xn ≤ xn ) = P (X1 ≤ x1 ) · · · · · P (Xn ≤ xn ) für alle x1 , . . . , xn ∈ R . Bibliographische Anmerkungen Laplaceexperimente mit Würfeln und Urnen werden in allen Büchern über Wahrscheinlichkeitsrechnung angeführt.; siehe etwa [21, 38, 51, 82]. Dort findet man auch eine Diskussion der Unabhängigkeit von Zufallsvariablen. Zu Würfelexperimenten verweisen wir auf den Aufsatz [RiS10] von Riemer und Stoyan, in dem der Versuch einer Berechnung der Wahrscheinlichkeiten der Augen mittels einer speziellen Verteilung gemacht wird. In [44] betrachtet Ineichen den Spezialfall prismatischer Würfel und diskutiert eine physikalische Modellierung zur Berechnung der Wahrscheinlichkeiten der Augen. Die Literatur zur Berechnung der Kreiszahl π ist umfangreich; nahezu jedes Buch zur Statistik erwähnt Berechnungsmöglichkeiten; siehe etwa [2, 21]. Stand: 21. November 2011 27 c J. Baumeister, T.G. Macedo 4 Exponential- und Logarithmusfunktion Da nichts, meine hochverehrten Studenten der Mathematik, in der praktischen Mathematik so beschwerlich ist und den Rechner mehr aufhält und hemmt als Multiplikationen und Divisionen großer Zahlen sowie Quadrat- und Kubikwurzelziehen aus ihnen, gegen die man wegen ihrer Umständlichkeit eine starke Abneigung hat und bei denen sich sehr leicht Rechenfehler einschleichen, so begann ich zu überlegen, durch welchen zuverlässigen Kunstgriff man diese Hindernisse umgehen könne. Nachdem ich hierüber verschiedentlich hin- und hergedacht, habe ich endlich einige besonders einfache Abkürzungen gefunden, über die ich (vielleicht) später berichten werde. J. Napier im Vorwort seiner Logarithmentafel Descriptio (1614) Hier skizzieren wir die Exponentialrechnung und ihre Umkehrung. Bei der Begründung müssen wir etwas oberflächlich agieren, denn das Fundament der reellen Zahlen“ steht ” uns nicht ausreichend zur Verfügung, die wesentlichen Begriffe stellen wir aber bereit. Im nachfolgenden Kapitel benötigen wir die Logarithmen, um die Benford-Verteilung zu erläutern. 4.1 Zahlen Im Abschnitt 2 haben wir die natürlichen Zahlen zum Abzählen von Möglichkeiten verwendet. Hier benötigen wir auch die reellen Zahlen. Wir verwenden darüberhinaus folgende Bezeichnungen: Natürliche Zahlen–die Erste: Mit N bezeichnen wir die natürliche Zahlen 1, 2, . . . , n, . . . . Natürliche Zahlen–die Zweite: Mit N0 bezeichnen wir die natürliche Zahlen 0, 1, 2, . . . , n, . . . . Ganze Zahlen: Mit Z bezeichnen wir die ganzen Zahlen 0, ±1, ±2, . . . , ±n, . . . . Rationale Zahlen: Mit Q bezeichnen wir die rationalen Zahlen q= m mit m ∈ Z, n ∈ N . n Reele Zahlen: Mit R bezeichnen wir die reellen Zahlen x ; wir denken dabei an die Dezimalzahlen. Damit ist der Zahlenstrahl R := −∞ < x < ∞ “vollständig und ” hat keine Lücken“ mehr. ” Stand: 21. November 2011 28 c J. Baumeister, T.G. Macedo 4.1 Zahlen Wir verwenden in R mitunter die Intervall-Schreibweise: (a, b) [a, b) (a, b] [a, b] := := := := {x ∈ R|a < x < b} {x ∈ R|a ≤ x < b} {x ∈ R|a < x ≤ b} {x ∈ R|a ≤ x ≤ b} Als weitere Kurzschreibweisen halten wir fest: ( +1 falls x > 0 x sign(x) := 0 falls x = 0 , |x| := −x −1 falls x < 0 falls x > 0 . falls x < 0 Die rationalen Zahlen reichen für die Betrachtungen von Funktionen nicht aus, da sie Lücken“ aufweisen. Deutlich √ wird die Lücke, wenn wir die Quadratwurzel aus 2 berechnen ” wollen, d.h. eine Zahl x := 2 bestimmen wollen, die der Gleichung x2 = 2 (4) √ genügt. Die Zahl 2 steht – dank des Satzes von Pythagoras25 – für die Länge der Diagonale in einem Quadrat mit der Seitenlänge eins. Man kann beweisen, dass eine rationale Zahl x, die der Gleichung (4) genügt nicht existiert. Ein Beweisschnipsel, angefertigt von einer Teilnehmerin der Akademie, zeigt Abbildung 10. Wir schreiben einen anderen Beweis auf, der der euklidischen Idee der Kommensurabilität folgt. Der Beweis geht so: Sei x eine rationale Zahl mit x2 = 2, d.h. x = ab mit b2 = 2a2 . Annahme: b und a sind kommensurabel. Dann gibt es ganze Zahlen p, q und ein gemeinsames Maß e mit d = pe, a = qe . Es kann vorausgesetzt werden, dass p und q nicht beide gerade Zahlen sind, da wir sonst das gemeinsame Maß verdoppeln könnten. Aus b2 = 2a2 folgt p2 = 2q 2 . Daraus folgt nach der Lehre von geraden und ungeraden Zahlen, dass p nicht ungerade sein kann; es ist also p gerade und daher p = 2p0 . Dann ist aber q 2 = 2p0 2 , also auch q eine gerade Zahl. Damit ist ein Widerspruch zur Eingangsvoraussetzung, dass von den Zahlen p, q nicht beide Zahlen p, q gerade sind, hergeleitet und die Annahme ist nicht haltbar. Abbildung 10: √ 2 ist irrational Wie die Lücken in den rationalen Zahlen beseitigen? Der Ausweg sind unendliche Dezimalbrüche, denn wir wissen ja, dass rationale Zahlen entweder durch endliche Dezimalbrüche oder periodische Dezimalbrüche beschrieben werden. Aber der Ausweg ist auch 25 E.W. Dijkstra fand einen ziemlich überraschende Verallgemeinerung des Satzes von Pythagoras: wenn in einem Dreieck die Winkel α, β, γ gegenüber den Seiten a, b, c liegen, dann gilt sign(α + β − γ) = sign(a2 + b2 − c2 ) . Ein sehr einsichtiger Beweis findet sich in http://www.cut-the-knot.org/pythagoras/Dijkstra.shtml Stand: 21. November 2011 29 c J. Baumeister, T.G. Macedo 4.1 Zahlen mit Problemen geflastert, denn wir haben mit dem Problem der Summation unendlich vieler Summanden fertig zu werden, etwa 0.101001000100001 · · · = 10−1 + 10−3 + 10−6 + 10−10 + 10−15 + · · · = ??? (5) Abhilfe schafft ein exakter Konvergenzbegriff für Zahlenfolgen in Verbindung mit einem Axiom, das die rellen Zahlen als Vervollständigung der rationalen Zahlen erschafft“. Dazu ” die folgende Definition 4.1 Eine Folge (xn )n∈N rationaler Zahlen heißt eine Cauchyfolge, falls gilt: Für alle ε > 0 gibt es ein N ∈ N so dass für alle m, n > N gilt: |xn − xm | < ε . (6) Das Axiom, das nun die reellen Zahlen ins Leben ruft, ist die Forderung, dass jede Cauchyfolge in den rationalen Zahlen eine eindeutige reelle Zahl definiert, nämlich den Grenzwert – wir schreiben die Definition gleich für die rellen Zahlen auf – in folgendem Sinne: Definition 4.2 Eine Folge (xn )n∈N reeller Zahlen heißt konvergent gegen x, falls gilt; wir schreiben die Definition sofort für reelle Zahlen auf. Für alle ε > 0 gibt es ein N ∈ N so dass für alle n > N gilt: |xn − x| < ε . (7) x heißt dann Grenzwert der Folge. Wir schreiben: x = limn xn . Die entscheidende Annahme über die reellen Zahlen, die die Lücken von Q schließt, ist das Vollständigkeitsaxiom: Jede Cauchyfolge rationaler Zahlen besitzt in den reellen Zahlen einen (eindeutig bestimmten) Grenzwert. Folgende Aussagen im Zusammenhang mit den Definitionen 4.1, 4.2 sind nun besonders von Interesse: 1. Die Menge der reellen Zahlen ist eine Obermenge der rationalen Zahlen, da jede konstante Folge rationaler Zahlen eine Cauchyfolge ist. 2. Jede reelle Zahl kann als Grenzwert einer Folge rationaler Zahlen angesehen werden. 3. Positive, negative reelle Zahlen sind nun wohldefiniert, ebenso der Betrag einer reellen Zahl. 4. Cauchyfolgen reeller Zahlen sind nun definiert analog Definition 4.1. 5. Jede Cauchyfolge reeller Zahlen ist konvergent. √ Kehren wir zur Zahl x := 2 zurück. Aus der Babylonischen Kultur (∼ 1000 v. Chr.) gibt es eine Kleietafel, die belegt, dass derjenige, der sie beschriftet hat, wusste, dass das Verhältnis von Diagonale und Seite im Quadrat gleich“ ” 51 10 24 + + 1+ 60 60 · 60 60 · 60 · 60 Stand: 21. November 2011 30 c J. Baumeister, T.G. Macedo 4.1 Zahlen √ ist; eine erstaunlich gute Näherung für 2.26 Die übliche Näherung zu dieser Zeit war 17 1 + 25 die wir nun entlang von Überlegungen der Babylonier 60 = 12 , eine Näherung, √ ableiten. Sie geben für z := a2 + b2 die Näherung z̃ gemäß z̃ = a + b2 2a (8) an. Man kann diese Formel so finden: Wenn b relativ zu a klein ist, betrachte man a als guten Näherungswert für z und verbessere ihn mit dem Korrekturterm d gemäß ! a2 + b2 = z 2 = (a + d)2 = a2 + 2ad + d2 . b2 und daher Bei Vernachlässigung von d2 ergibt sich d = 2a z̃ = a + d = a + b2 1 z2 = (a + ) 2a 2 a (9) als neue Näherung. Etwa ergibt dies für z := x mit x2 = 2 mit der Ausgangsnäherung a = 1 sukzessive 1 3 17 577 = , z̃ = , z̃ = = 1.4142156 . . . . 2 2 12 408 √ (Man vergleiche mit dem Wert 1.4142136 . . . für 2 , die ein Taschenrechner liefert.) z̃ = 1 + Auf Theon27 geht ein Verfahren zur Bestimmung eines Näherungswertes für die gesuchte Zahl x zurück; es wird auch von Euklid beschrieben. Wir wählen eine schon ziemlich moderne Darstellung der Vorgehensweise von Theon, nämlich die Form eines Algorithmus. Sie erklärt sich zumindest von der Form her von selbst. Algorithm 1 Iteration von Theon EIN Einheitsstrecke“ a := 1 . ” Schritt 0 s0 := a, x0 := a; n := 0. 2 n Schritt 1 an := x sn , bn := an − 2. Schritt 2 sn+1 := sn + xn , xn+1 := 2sn + xn . AUS Für jedes n = 0, 1, . . . Zahlen an , bn mit folgender Eigenschaft: Jedes an ist eine Näherung für x und jedes bn gibt den Fehler von xn in der Gleichung x2 = 2 an. In unserer etwas vagen Betrachtung der reellen√Zahlen macht es wenig Sinn, nach dem √ Fehler der Approximation an für 2 zu fragen, da 2 ja als Zahl gar nicht so recht vorliegt. Theon konnte den Wert, dem das Verhältnis der Zahlen xn , sn zustrebt“, nicht beschrei” ben/ausrechnen, aber er konnte schließen, dass das Verhältnis von xn und sn schließlich immer genauer dem Verhältnis der Diagonale zur Seite des Quadrats wird. Man erhält die folgenden Näherungen für x : 1= 26 27 1 3 7 17 41 99 ; ; ; ; ; = 1.414285 . . . . 1 2 5 12 29 70 Beachte, dass hier das 60-Zahlsystem Verwendung findet. Theon, um 350 v.Chr. Stand: 21. November 2011 31 c J. Baumeister, T.G. Macedo 4.2 Exponenten Abschließend halten wir fest, dass wir in den reellen Zahlen die algebraischen Rechenarten +, −, ·, / wie in den rationalen Zahlen zur Verfügung haben. Daneben haben wir nun auch die Rechenart Radizieren zur Verfügung. Darüberhinaus können wir nun auch Funktionen mit Definitionsbereich in den reellen Zahlen betrachten. Drei herausgehobene Zahlen kann man unter den reellen Zahlen ausmachen, die nicht als Bruch m dargestellt werden können: n √ √ Quadratwurzel x = 2 2 = 2 = 1.414 213 . . . Kreiszahl π = 3.141 592 . . . Eulersche Zahl e = 2.718 281 . . . Von diesen drei Zahlen haben wir die Zahl e noch nicht eigentlich kennengelernt. Sie kann auf mehrfache Weise eingeführt werden: X 1 1 e = lim(1 + )n , e = . n n k! k=0 ∞ Jedenfalls ist immer ein infinitesimaler Prozess beteiligt. Als Nähereung haben wir e ≈ 2.718 281 828 459... 4.2 Exponenten Exponentialterme haben in den Naturwissenschaften, z.B. bei der mathematischen Beschreibung von Wachstumsvorgängen, eine herausragende Bedeutung. Wir führen ein erläuterndes Beispiel an, das Wachstum mit Exponenten verbindet. Sissa ibn Dahir lebte angeblich im dritten oder vierten Jahrhundert n. Chr. in Indien und gilt Legenden zufolge als der Erfinder des Schachspiels. Sein Name ist ferner mit der Weizenkornlegende verbunden. Diese Anekdote findet häufig im Zusammenhang mit exponentiellen Funktionen Erwähnung und lautet folgendermaßen: Der indische Herrscher gewährte dem Brahmanen, der das Schachspiel erfunden hat, einen freien Wunsch. Dieser wünschte sich Weizenkörner: auf das erste Feld eines Schachbretts wollte er ein Korn, auf das zweite Feld die doppelte Menge, also zwei, auf das dritte wiederum doppelt so viele, also vier und so weiter. Der König lachte und war gleichzeitig erbost ob der vermeintlichen Bescheidenheit des Brahmanen. Als die Rechenweister aber nachrechneten, stellten sie fest, dass das Reich die Menge der Weizenkörner nicht aufbringen konnte. Es sind nämlich 20 + 21 + 22 + · · · + 263 = 264 − 1 = 18446744073709551615 Weizenkörner von Nöten. 10 000 Weizenkörner wiegen etwa 3 kg, also wären ca. 600 Milliarden Tonnen Weizen nötig. Man nennt ein Wachstum der Form an := q n , n ∈ N, (mit q > 1) ein geometrisches (im Gegensatz zu einem arithmetischen wie an := na + b, n ∈ N; a, b gegeben). Die Definition der Exponentialterme ax kann man in drei Stufen erarbeiten. Ist x eine natürliche Zahl m ∈ N0 , so ist ax mittels der Multiplikation so erklärt: ax = am := a · · · a} | · ·{z m-mal Stand: 21. November 2011 32 c J. Baumeister, T.G. Macedo 4.3 Logarithmen Im Sonderfall m = 0 ist am als 1 definiert. Ist m = −k ∈ Z mit k ∈ N, so setzen wir am := 1 . ak Dabei unterstellen wir, dass der Kehrwert“ der reellen Zahl ak als bekannt vorausgesetzt ” werden kann. Für eine rationale Zahl a stellt dies kein Problem dar, weil dann ja ak selbst wieder eine rationale Zahl ist. Ist x ein Stammbruch, d.h. ist x = k1 mit k ∈ N, so stehen wir vor dem Problem, dass wir die k-te Wurzel aus a zu erklären haben, d.h. eine Zahl z mit √ z k = a . Eine solche Zahl existiert und sie ist auch eindeutig bestimmt; wir schreiben z = k a . Also setzen wir 1 a k := √ k a für k ∈ N . Damit haben wir nun eine Definition für ax parat für alle x = m a n := √ n m ,m n ∈ Z, n ∈ N: am , m ∈ Z, n ∈ N . Aber was soll eine Potenz ax bedeuten für eine Dezimalzahl, die nicht als Bruch dargestellt werden kann? Man geht approximativ vor: man nähert x an durch eine Folge von rationalen Zahlen q1 , q2 , . . . , ql , . . . , die die Zahl x als Grenzwert“ besitzen, und definiert ” ax als Grenzwert der Zahlenfolge aq1 , aq2 , . . . , aql , . . . . Diese Grenzwertbetrachtung ist im Zentrum der Analysis, also der Beschäftigung mit reellen Zahlen und, darauf aufgebaut, mit den reellen Funktionen. Beachte a0 = 1 für alle a > 0 . Damit können wir sagen, dass z.B. 2π gleich dem Grenzwert der Folge 23 , 23,1 , 23,14 , . . . ist. Was ist der Vorteil einer Exponentialdarstellung? Folgende Beobachtung ist hier richtungsweisend: überstreicht die Variable x das Intervall [0, 1] bzw. [100, 101], so überstreicht die Potenzfunktion x 7−→ ax das Intervall [1, a] bzw. [a100 , a101 ] . Man sieht, Intervalle der Länge 1 werden unterschiedlich gestreckt, im ersten Fall ist der Streckungsfaktor 1, im zweiten Fall a100 (a − 1) . Diese Tatsache kann man nutzen, um etwa physikalische Größen, die über einen weiten Bereich der Zahlskala streuen, geeignet zu skalieren. 4.3 Logarithmen Logarithmen, wie wir sie nun besprechen wollen, sind geeignet, die obige Beobachtung der Streckung rückgängig zu machen und Skalen zu stauchen. Die Verwendung des Logarithmus lässt sich bis in die Frühzeit der indischen Kultur zurückverfolgen, Bezüge finden sich auch bei Archimedes. Mit dem Fortschritt der Astronomie im 15., 16. Jahrhundert28 und dem aufstrebenden Bankwesen im Europa des 17. Jahrhunderts erlangte der Logarithmus dann immer mehr an Bedeutung. Seine Funktionswerte wurden in Tabellenwerken, den Logarithmentafeln, erfasst, um sie nachschlagen zu können und nicht immer neu berechnen zu müssen. Diese Tabellen wurden schließlich durch Rechenschieber und später durch Taschenrechner verdrängt. Eine Funktion der Form x 7→ ax mit der Basis a > 0 heißt Exponentialfunktion. In der gebräuchlichsten“ Form sind dabei für den Exponenten x die reellen Zahlen zuge” lassen. Im Gegensatz zu den Potenzfunktionen (Polynome ersten, zweiten,. . . Grades), bei denen die Basis die unabhängige Größe (Variable) ist, ist bei Exponentialfunktionen die Variable der Exponent (auch Hochzahl) des Potenzausdrucks. Darauf bezieht sich auch die 28 J. Napier, 1550-1617, fertigte eine erste Logarithmentafel. Stand: 21. November 2011 33 c J. Baumeister, T.G. Macedo 4.3 Logarithmen Namensgebung. Exponentialfunktionen haben in den Naturwissenschaften, z.B. bei der mathematischen Beschreibung von Wachstumsvorgängen, eine herausragende Bedeutung; siehe unten. Zentrale Aspekte des Lebens lassen sich mit Hilfe von Logarithmen erklären. So nimmt zum Beispiel die Stärke eines Sinneseindrucks in Abhängigkeit von einer physikalischen Größe wie Helligkeit oder Lautstärke entsprechend dem Verlauf einer Logarithmusfunktion zu. Gleiches gilt für die wahrgenommene Tonhöhe in Abhängigkeit von der Frequenz eines Tones. Formal sind Logarithmen Lösungen x der Gleichung a = bx zu vorgegebenen Größen a und b. Das Logarithmieren ist also eine Umkehroperation des Potenzierens. Je nachdem, über welchem Zahlenbereich und für welche Größen diese Gleichung betrachtet wird, hat sie keine, mehrere oder genau eine Lösung. Ist die Lösung eindeutig, dann wird sie als der Logarithmus von a zur Basis b bezeichnet und man schreibt x = logb (a) . Beispielsweise ist 3 der Logarithmus von 8 zur Basis 2, geschrieben log2 (8) = 3, denn es ist 23 = 8. Beachte: logb 1 := 0 für alle b . Logarithmen erlangten ihre historische Bedeutung in erster Linie durch den Zusammenhang logb (xy) = logb (x) + logb (y) (10) der es erlaubt, eine Multiplikation und damit auch eine Potenzierung durch eine Addition auszudrücken. Sie ergibt sich aus dem Gegenstück für die Exponentialfunktion, das unmittelbar einsichtig ist: ax+y = ax · ay für alle x, y (11) Die Funktionalgleichung (10) ist die Grundlage für die Verwendung und den Nutzen der Logarithmentafeln (Aufstellung von Logarithmen); siehe Abschnitt 4.5. Drei Basen für die Logarithmen spielen eine Sonderrolle, alle drei zugehörigen Logarithmen finden sich im Allgemeinen in Logarithmentafeln. Zehner-Logarithmus/dekadischer Logarithmus Hier ist die Basis b = 10 . Sie ist die angemessene Basis für das Rechnen im Zehner-System. Beispielsweise gilt: log10 (2) ≈ 0.30103 . Dies korrespondiert mit 210 ≈ 103 . Im Allgemeinen schreibt man für log10 kurz log . Dualer Logarithmus Die Basis ist 2 und sie ist die angemessene Basis, wenn wir über Dualzahlen reden wollen. Zum Beispiel können wir mit log2 (a) die Länge der Dualdarstellung von a ermitteln. Natürlicher Algorithmus Die Basis ist die eulersche Zahl b := e . Im Allgemeinen schreibt man für loge kurz ln; ln heißt logarithmus naturalis. Unter Verwendung des natürlichen Logarithmus lässt sich mit der Gleichung ax = ex·ln a jede Exponentialfunktion auf eine solche zur Basis e zurückführen. Zusammenhänge mit angewandten Fragestellungen sind: Stand: 21. November 2011 34 c J. Baumeister, T.G. Macedo 4.4 Exponential– und Logarithmusfunktion Rechenschieber Weil der Logarithmus selbst nicht so leicht zu berechnen ist, waren Rechenschieber mit ihren logarithmischen Skaleneinteilungen und Logarithmentafeln weit verbreitete Hilfsmittel. Durch die bewegliche Zunge und unterschiedliche Skalen auf dem festen Teil und der Zunge konnte die Funktionalgleichung (10) genutzt werden. Evolution Zum Zusammenhang von Evolution und Logarithmus siehe http://www.spiegel.de/wissenschaft/mensch/0,1518,556493,00.html Halbwertszeit Wie lange dauert es, bis radioaktive Atome zerfallen? Für ein einzelnes, ausgewähltes Atom kann man nicht sagen, ob es in der nächsten Millisekunde zerfallen wird oder noch eine Woche oder gar ein Jahrhundert lebt“. Für eine große ” Anzahl von Atomen kann man dagegen mit Hilfe des Zerfallsgesetzes, das ein exponentielles ist, sehr wohl statistische Aussagen machen; siehe Abschnitt 3.3. Mit Hilfe des Logarithmus kann man die Zeitdauer ermitteln, in der die Hälfte der Atome zerfällt. 4.4 Exponential– und Logarithmusfunktion Eine Funktion der Form x 7→ ax mit der Basis a > 0 heißt Exponentialfunktion. Im Gegensatz zu den Potenzfunktionen (Polynome ersten, zweiten,. . . Grades), bei denen die Basis die unabhängige Größe (Variable) ist, ist bei Exponentialfunktionen die Variable der Exponent (auch Hochzahl) des Potenzausdrucks. Darauf bezieht sich auch die Namensgebung. Als die Exponentialfunktion im engeren Sinne (präziser eigentlich: natürliche Exponentialfunktion) bezeichnet man die Exponentialfunktion x 7→ ex mit der eulerschen Zahl e . als Basis; gebräuchlich hierfür ist auch die Schreibweise x 7→ exp(x). Hier ist die Basis schon eine Zahl, die nicht als endlicher oder periodischer Deziamalbruch dargestellt werden kann, die Berechnung von exp(x) gelingt wiederum nur über einen Approximationsprozess. Auf (Taschen-)Rechnern ist die Exponentialfunktion abrufbar. Die allgemeine Exponentialfunktion ist definiert als f (x) = ax , x ∈ Q, mit der Basis a > 0, a 6= 1. Einige Eigenschaften davon sind 1. Die Funktion ist für a > 1 streng monoton steigend und für a < 1 streng monoton fallend. 2. Die Wertemenge beinhaltet alle positiven reellen Zahlen. 3. Die x-Achse ist die Asymptote des Graphen, denn f (x) strebt gegen 0, falls x gegen −∞ strebt für a > 1 und f (x) strebt gegen 0, falls x gegen ∞ strebt für a > 1 . 4. Alle Graphen haben in der Ebene den Punkt P (0; 1) gemeinsam. 5. Die Graphen der Exponentialfunktionen mit f (x) = ax := expa (x) und f (x) = 1 := exp 1 (x) gehen durch Spiegelung an der y-Achse hervor. ax a Die eulersche Zahl hat (neben vielen anderen Eigenschaften) die vorzügliche Eigenschaft, dass sie als Potenzfunktion ein Wachstum als einzige Funktion so beschreibt, dass die Wachstumsrate (Ableitung) durch dieselbe Potenzfunktion beschrieben wird. Die Logarithmusfunktion ist die Umkehrung zur Exponentialfunktion: falls ax = b, dann gilt loga (b) = x für alle a > 0. Stand: 21. November 2011 35 (12) c J. Baumeister, T.G. Macedo 4.5 Logarithmentafel In anderen Worten, der Logarithmus von b zur Basis a ist die Zahl, mit der die Basis a potenziert werden muss, um b zu erhalten. Diese Funktion besitzt folgende Eigenschaften 1. Die Funktion ist für a > 1 streng monoton steigend und für a < 1 streng monoton fallend. 2. Die Wertemenge beinhaltet alle reelle Zahlen. 3. Die y-Achse ist die Asymptote des Graphen, denn f (x) strebt gegen 0, falls x gegen 0 strebt. 4. Alle Graphen haben in der Ebene den Punkt P (0; 1) gemeinsam. 5. Die Graphen der Logarithmusfunktion f (x) := loga x und f (x) := log 1 x gehen a durch Spiegelung an der x-Achse hervor. 4.5 Logarithmentafel Logarithmentafel nennt man eine tabellarische Darstellung der Mantissen der Logarithmen (meist zur Basis 10, e) der Zahlen, in der Regel von 1.00 bis 9.99. Logarithmentafeln waren über Jahrhunderte ein wichtiges Rechenhilfsmittel, besonders im natur- und ingenieurwissenschaftlichen Bereich. Als Erfinder der Logarithmentafeln gilt John Napier, der sie in seinem Werk Mirifici Logarithmorum Canonis Descriptio 1614 veröffentlichte. Unabhängig von Napier entwickelte auch der Schweizer Jost Bürgi in Kassel eine Logarithmentafel. Als Mitarbeiter von Johannes Kepler verwendete er die selbst erstellten Logarithmentafeln für astronomische Berechnungen. Henry Briggs entwickelte die Logarithmentafeln dahingehend weiter, dass er sie zur Basis 10 er- Abbildung 11: Ausschnitt aus einer Logarithstellte. Hier waren die Logarithmen der mentafel Zahlen von 1 bis 20.000 und von 90.000 bis 100.000 auf 14 Stellen genau aufgeführt. Viele Berechnungen in der Schulmathematik, z. B. das Ziehen von schwierigen Wurzeln, konnten nur mit ihrer Hilfe durchgeführt werden. Die Erfindung und weite Verbreitung von Taschenrechnern und Computern hat die Verwendung von Logarithmentafeln, ähnlich wie die von Rechenschiebern, innerhalb weniger Jahre praktisch völlig überflüssig gemacht. Logarithmentafeln erlauben es also, die Multiplikation und Division von Zahlen auf die einfachere Addition und Subtraktion zurückzuführen. Die Basis dafür ist die Funktionalgleichung (10). Dies geht so: Aufgabe: Berechne xy Vorgehen: Stand: 21. November 2011 36 c J. Baumeister, T.G. Macedo 4.5 Logarithmentafel • Berechne q := logb (xy) gemäß (10) als q := logb (x) + logb (y) • Berechne xy aus der Gleichung logb (xy) = q (Delogarithmieren) In einer Logarithmentafel kann man die Logarithmen logb (x), logb (y) nachschlagen, damit kennt man q mittels einer Addition, nun kann man xy in der Logarithmentafel nachschlagen, indem man die Tafel in entgegengesetzter Richtung liest. Wie kamen aber die Zahlenaufstellungen in der Tafel ohne Rechenmaschinen zustande? Wir erläutern dies für den Zehnerlogarithmus von 2, und zwar in einer bescheidenen Genauigkeit, nämlich 3 Stellen Genauigkeit. Dazu hätten wir die Gleichung 10x = 2 zu lösen, ein ziemlich schwieriges Unterfangen. Wir gehen anders vor: Aufgabe: Gegeben y, berechne log(y) . Vorgehen: • Bestimme n ∈ N mit 1.01n < y , 1.01n+1 > y • Bestimme einen interpolierenden Wert“ u zwischen n, n+1 so, dass 1.01u ≈ ” y ist. • Klar: log(y) ≈ u log(1.01) . Das eben skizzierte Vorgehen hat noch eine entscheidende Schwäche: wir kennen ja log(1.01) nicht. Diese Zahl verschaffen wir uns zunächst nach dem obigen Vorgehen für y = 10, wovon wir den Logarithmus ja kennen: log(10) = 1 . Bei diesem Vorgehen wird auch die Bedeutung der Wahl der Zahl 1.01 deutlich. Hiermit ist nämlich das obige Vorgehen, d.h. die Bestimmung von n ziemlich einfach: das Potenzieren hiermit ist einfach eine Verschiebung um zwei Stellen nach hinten und Runden, um die Stellen nicht anwachsen zu lassen. Führen wir dies nun vor für die Berechnung des Logarithmus von 2. Zunächst haben wir n zu bestimmen mit 1.01n < 10, 1.01n+1 > 10 . Ein solches n ist 231. Wir erhalten dies durch sukzessive Rechnung: 1.012 = 1.01 + 0.0101 = 1.0201, 1.013 = 1.012 = 1.0201 + 0.0102 = 1.0303, . . . , 1.01231 = 9.959, 1.01232 = 10.059 Also ist die interpolierende Wahl v = 231.4 für 1.01v ≈ 10 vernünftig. Dies bedeutet log(1.01) ≈ v = 231.4 . In derselben Weise erhalten wir u = 69.7 mit 1.01u ≈ 2, d.h. log(2) ≈ u log(1.01) . Daraus ergibt sich u log(2) ≈ = 0.3012 , v ein Wert, der auf 3 Stellen genau ist. Natürlich verbergen sich dahinter auch Genauigkeitsfragen, aber sie sind abschlie” ßend“ geklärt. Um höhere Genauigkeiten zu erzielen, ersetzt man 1.01 durch 1.000001 ; die Rechenschritte sind analog. Bibliographische Anmerkungen Die Geschichte der Entstehung der rigorosen Handhabung der rationalen und reellen Zahlen ist natürlich eng mit der Entwicklung des Konvergenzbegriffs bei Zahlenfolgen verknüpft; siehe etwa [5, 33, 52, 59, 65, 81]. Als Anmerkung: in [65] findet man eine Bestenliste“ der Mathematiker. ” Die Behandlung der Exponential– und Logarithmenrechnung findet schon in der Schule statt. Sie ist nahezu unerlässlich für ein fundiertes Sachrechnen“; siehe etwa [20, 76]. Eine ” klassische“ Logarithmentafel ist die von P. Schulz, mit der viele Schüler ihre Erfahrungen ” gesammelt haben; siehe [75]. Zur Geschichte des Logarithmus siehe etwa [67]. Stand: 21. November 2011 37 c J. Baumeister, T.G. Macedo 5 Benford–Zahlen Benford‘s Law gives auditors the expected frequencies of the digits in tabulated data. The premise is that we would expect authentic and unmanipulated data to exhibit these patterns. If a data set does not follow these patterns, however, a few possible reasons exist to explain this phenomenon: 1. The data set did not meet the three tests, and/or, 2. The data set includes invented numbers, biased numbers, or errors. Mark Nigrini Hier berichten wir über eine interessante Beobachtung im Zoo der Zahlen“, nämlich ” über die Tatsache, dass in gewissen Datensätzen die Eins als erste Ziffer häufiger vorkommt als andere Ziffern. Diese Beobachtung wurde erstmals gemacht von S. Newcomb 1861, aber dann wieder vergessen. Neu entdeckt wurde sie von F. Benford 1938, von dem nun diese Beobachtung ihren Namen hat. Zahlenfolgen aus Datenmaterial der Börsenseite etwa entnommen eignet sich daher nicht notwendigerweise als Generator für (gleichverteilte) Zufallszahlen. 5.1 Die Beobachtung von Newcomb und Benford Die Geschichte zur Untersuchung der obigen unregelmäßigen Häufigkeitsverteilung“ be” gann beim Betrachten von Logarithmentafeln, und zwar berichtete der amerikanische Mathematiker und Astronom S. Newcomb 1881 ([61]), dass die vorderen Seiten deutlich stärker abgegriffen waren, als die hinteren. Dies wäre bei anderen Büchern als Logarithmentafeln in Bibliotheken durchaus erklärlich, denn viele Leute beginnen ein Buch zu lesen, hören aber vorzeitig damit wieder auf, weil sie keine Zeit mehr haben, weil es ihnen zu langweilig wird, weil es ihnen zu kompliziert wird u.ä.. Wenn viele die Lektüre unfertig unterbrechen – Kein Mensch liest ein langweiliges Buch bis zum Schluss“– ist es klar, dass der Anfang von Büchern abgenützter sein kann als der Schluss. Aber warum soll dies bei Logarithmentafeln der Fall sein? Diese werden ja nach anderen Gesichtspunkten benützt. Die einzige Erklärung, die es dafür gibt, ist, dass der Logarithmus von Zahlen mit niedrigen Anfangsziffern (1,2, ... ) häufiger gesucht wurde als von Zahlen mit hohen Anfangsziffern (9,8, ... ). Aber warum? Newcomb gibt eine heuristische Begründung, klärt aber den Zusammenhang mit den Zahlenmengen, deren Logarithmen in der Tafel aufgesucht wurden, nicht wirklich. 1938 stieß der amerikanische Physiker F. Benford ([7]) auf dieselbe überraschende Beobachtung, allerdings auf einem etwas anderem Weg. Benford analysierte Datenmaterial, das u.a. Stadt, Land, Fluss“ und ” physikalische Konstanten beinhaltete; siehe die Tabelle in Abbildung 12. Das Benford-Gesetz handelt von den ersten Ziffern einer Zahl. Dabei sind auch Dezimalzahlen zugelassen. Wir bezeichnen mit D1 die erste signifikante Ziffer einer Zahl, also Abbildung 12: Aus der Benford-Tabelle √ D1 (314) = 3, D1 (0.0314) = 3, D1 ( 2) = D1 (1.414 . . . ) = 1, D1 (π) = 3 . Stand: 21. November 2011 38 c J. Baumeister, T.G. Macedo 5.1 Die Beobachtung von Newcomb und Benford Analog sind D2 , D3 , . . . erklärt. Allerdings ist nun als signifikante Ziffer auch die Null erlaubt. Dazu später. Das Benfordsche Gesetz sagt also einem Zahlenmaterial die Eigenschaft zu, dass die Wahrscheinlichkeit pi , darunter eine Zahl x mit D1 (x) = di (di = 1, i = 1, 2, . . . , 9) zu finden, folgenden Wert besitzt: 1 pi = log(1 + ) . di Natürlich ist dies nur eine vage Definition, denn es sind dabei Besonderheiten des Zahlenmaterials zu bedenken: endlich, unendlich, . . . . Kommen Zahlen mit niedrigen Anfangsziffern in der Welt“ häufiger vor? Warum sollte ” die Natur eine Präferenz für die 1 als Anfangsziffer haben? Es gibt solches Datenmaterial und das Gesetz, das die Häufigkeit der Ziffern numerisch fasst, heißt Benfordsches Gesetz. Anders gefasst wird dieser Sachverhalt auch als Newcombsches Mantissengesetz bezeichnet. Ein wichtiges Kriterium fur die Anwendbarkeit des Benfordschen Gesetzes ist die Skaleninvarianz einer Datenverteilung. Dies bedeutet, dass sich die Verteilung der Anfangsziffern in einem Datensatz durch Multiplikation mit einer Konstanten nicht verändert. Diese Eigenschaft erklärt unmittelbar, warum in Steuererklärungen, Bilanzen, etc., oder allgemein bei Datensätzen, deren Zahlen Geldbeträge darstellen, das Benfordsche Gesetz gilt. Wenn es überhaupt eine universell gültige Verteilung der Anfangsziffern in solchen Datensätzen gibt, dann muss diese Verteilung unabhängig davon sein, in welcher Währung die Daten angegeben werden, und die universelle Verteilung darf sich auch durch Inflation nicht verändern. Beides bedeutet, dass die Verteilung skaleninvariant sein muss. 1961 gelang dem Mathematiker Roger Pinkham der Beweis, dass die einzige zulässige Verteilung für einen skaleninvarianten Datensatz die Benford-Verteilung ist. Machen wir den Versuch einer heuristischen Erklärung des Benfordschen Gesetzes. Die Eins ist von Null auf der Zahlenskala nicht weiter entfernt als die Fünf von der Sechs. Für die wirklichen Dinge allerdings, die gezählt, gemessen oder gewogen werden, kann der Weg der Ergebnisse von der Eins zur Zwei sehr lang sein: um ihn zurückzulegen, müssen sie auf das Doppelte wachsen. Einer Fünf fehlt dagegen nur ein Fünftel, um zur Sechs zu werden. Anhand des DAX ist dies leicht Abbildung 13: Erste Ziffer bei NASDAQ-Kursen verständlich. Stände der DAX gerade bei 1000 Punkte, dann müssten sich die Aktienkurse im Schnitt verdoppeln, ehe der DAX die 2000 erreicht. Solange bliebe die Eins als führende Ziffer auf allen Listen. Stünde der DAX aber bei 5000 Punkten, so müsste der Wert nur noch um 20 Prozent steigen, ehe mit 6000 die Fünf als erste Ziffer abgelöst wird. Noch kleiner ist im Verhältnis der Schritt von 9000 auf 10000. Dann aber erscheint wieder die Eins an erster Stelle, und sie bleibt so lange, bis der Index sich auf 20 000 abermals verdoppelt. Was wächst oder schrumpft, verharrt deshalb relativ lang im Bereich der führenden Ziffer, besonders ausgeprägt ist dies bei der Eins. Das Benford-Gesetz gilt auch für viele Größen, die sich nicht wesentlich ändern im Lauf der Zeit, zum Beispiel für die Fläche von Gewässern. Ob man sie in Quadratmetern mißt, in Quadratmeilen oder in Hektar, immer tritt die Eins vorneweg gehäuft auf. Die Stand: 21. November 2011 39 c J. Baumeister, T.G. Macedo 5.2 Neuere Beobachtungen Wachstumsbegründung sticht hier nicht, vielmehr hat es wohl mit der Häufigkeit der Gewässer kleiner, mittlerer und großer Größe zu tun. 5.2 Neuere Beobachtungen Kurse der NASDAQ Man kann die berechtigte Vermutung haben, dass auf einer Zeitungsseite, auf der Zahlen zu unterschiedlichen Themen aufgelistet sind, die Ziffern 0, 1, 2, . . . , 9 in nahezu gleicher Häufigkeit zu finden sind.29 Warum daraus nicht eine Tabelle von Zufallszahlen fertigen, indem wir etwa eine Tabelle der Ziffernfolge in Fünfer-Blöcken erstellen; siehe die RAND-Tabelle in Abschnitt 2.5. Dabei spielt offenbar die Ziffer Null eine Sonderrolle, da sie als führende Ziffer im Allgemeinen nicht vorkommt. Wie wir zur Kenntnis nehmen müssen, sind Abbildung 14: 100 Fibonacci-Zahlen die Ziffern auf solchen Zeitungsseiten keine guten Zufallszahlen, da sie z.B. auch Börsendaten enthalten mögen. Hier sind die Ziffern im Allgemeinen Benford-verteilt. Dazu kommen wir nun. Die NASDAQ ist die größte Börse der USA. Sie umfasst ca. 900 Arbeitsplätze Ziffer Häufigkeit in % Benford und wurde 1971 gegründet. Heute wird sie 1 0.301 0.30103 von Robert Greifeld geleitet und macht 2 0.176 0.17609 jährlich rund 1600 Mio. USD Umsatz.30 3 0.126 0.12493 Sie sitzt in New York und ist weltweit be4 0.096 0.09691 kannt. Das Diagramm 13 zeigt im Vergleich 5 0.079 0.07918 mit der Benford-Verteilung die Kurse der 6 0.067 0.06694 NASDAQ am 16. Juli 2011. Die Auswer7 0.057 0.05799 tung zeigt ganz deutlich, dass die Kurse 8 0.053 0.05115 der NASDAQ (im Diagramm mit Blau ge9 0.045 0.04575 kennzeichnet) fast die die gleiche Verteilung haben wie die Benford-Verteilung vorgibt; kleine Ausreisser sind allerdings zu seAbbildung 15: 1000 Fibonacci-Zahlen hen. Auffallend ist die signifikante Abweichungen bei der Ziffer 5 gibt. Wenn man noch mehr Kurse-Zahlenmaterial zur Verfügung hätte, würde – nach dem Gesetz der großen Zahl (siehe vorheriges Kapitel) – das Ergebniss wohl noch genauer die Benfordschen Verteilung widerspiegeln. Fibonaccizahlen und Benford-Verteilung Im Abschnitt 6.2 werden wir die Fibonacci-Zahlen als interessante Folge von ganzen Zahlen etwas genauer kennengelernen. Hier bringen wir sie in Verbindung mit der Benford29 30 Klar, eine Tabelle von Jahreszahlen allein kann offenbar nicht in Betracht kommen. Stand Juli 2011 Stand: 21. November 2011 40 c J. Baumeister, T.G. Macedo 5.3 Das Mantissengesetz Verteilung. Die Fibonacci-Zahlen werden rekursiv definiert durch f0 := f1 := 1 , fn+1 := fn + fn−1 , n ∈ N . Damit ergibt sich eine (schnell) wachsende Folge (fn )n∈N0 : 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233 . . . . Die führenden Ziffern dieser Zahlen zeigen natürlich noch keine Auffälligkeit, der betrachtete Abschnitt ist viel zu kurz. Betrachten wir jedoch die ersten 100 bzw. 1000 Fibonacci-Zahlen, so ergeben sich die in den Abbildungen 14 bzw. 15 notierten Häufigkeiten. Sie deuten an, dass die Zahlen Benford-verteilt sein könnten. Sie sind es in der Tat! Dies hängt mit der Tatsache zusammen, dass sie einem potentiellen Wachstumsgesetz gehorchen. Aufschluss über das Wachstum erhält man, wenn man die Formel von Binet heranzieht, die wir im Abschnitt 6.2 etwas genauer vorstellen werden. Sie lautet: 1 1 n fn = √ g + n , n ∈ N . (13) g 5 √ Hierbei ist g := 21 (1 + 5) die goldene Schnittzahl. Man stellt nämlich wegen g > 1 fest, dass 1 (14) fn ≈ √ g n , n ∈ N , 5 gilt. Die Fibonaccizahlen sind also näherungsweise skalierte Wachstumszahlen. Damit bleibt wegen der behaupteten Skaleninvarianz der Benford-Verteilung nun nur noch die Frage, ob die Zahlenfolge an := g n , n ∈ N, nach Benford verteilt ist. Ist möglicherweise jede geometrische Folge Benford-verteilt? Nein, denn offenbar ist die Folge (10n )n∈N nicht Benford-verteilt. Den Nachweis, dass die Fibonacci-Folge Benford-verteilt ist, erbringen wir später. 5.3 Das Mantissengesetz Zur Formulierung und Analyse des nun folgenden Benford-Gesetzes und Mantissengesetzes benötigen wir etwas Vertrautheit mit den Logarithmen. Newcomb schreibt einer Menge von natürlichen Zahlen – wir beziehen uns nur auf die in der Dezimaldarstellung – die Eigenschaft zu, dass sie dem Mantissengesetz gehorcht, wenn folgende Aussage zutrifft: Ziffer i Häufigkeit/% Ws(z ∈ Ei ) 1 2 3 4 5 6 7 8 9 Die Häufigkeit von Zahlen der Menge ist so, dass die Mantissen ihrer Logarithmen gleichverteilt sind. Newcomb gibt zwar eine heuristische Begründung, spezifiziert jedoch nicht wirklich, für welche Zahlmengen dieses Mantissengesetz gelten sollte. Newcomb Stand: 21. November 2011 30.1 17.6 1.5 9.7 7.9 6.7 5.8 5.1 4.6 log(2) log( 32 ) log( 43 ) log( 54 ) log( 65 ) log( 76 ) log( 87 ) log( 98 ) log( 10 ) 9 Abbildung 16: Benford-Häufigkeiten 41 c J. Baumeister, T.G. Macedo 5.3 Das Mantissengesetz betrachtet also nur natürliche Zahlen und betrachtet die Häufigkeit, mit der die erste Ziffer eine Eins, eine Zwei, . . . , eine Neun ist. Verabredungsgemäß ist die Mantisse31 eines (dekadischen) Logarithmus nur die Zahl der Nachkommastellen. Da Newcomb nur die Mantissen der Logarithmen betrachtet, liegt folgende Darstellung beliebiger positiver Zahlen x zugrunde: x = a · 10e mit 1 ≤ a < 10, e ∈ Z . Die Mantisse des dekadischen Logarithmus ist dann wegen log(a) da log(x) = log(a) + e . Definition 5.1 Die (dezimale) Signifikanz-Funktion S : (0, ∞) −→ [1, 10) ist definiert wie folgt: S(x) = t falls x = t · 10e mit einem t ∈ [1, 10) für ein e ∈ Z . Beachte für x ∈ (0, ∞) : S(S(x)) = x , S(10k x) = S(x) für alle k ∈ Z . Definition 5.2 Ist x eine reelle Zahl, so ist hxi := x − bxc der Bruchteil von x . Dabei ist bxc die größte ganze Zahl, die kleiner gleich x ist. Beispielsweise: √ h33.04i = 0.04 , h−33.04i = 0.96 , h 2i = 0.4142 . . . , hπi = .1415 . . . . Der Zusammenhang dieser Begriffe (erste Ziffer, Signifikanz-Funktion, Bruchteil) ergibt sich aus folgendem Sachverhalt. X S(x) = 101−m Dm (x) ; m∈N m−1 Dm (x) = b10 S(x)c − 10b10m−2 S(x)c für alle m ∈ N ; S(x) = 10 log(x) − blog(x)c . Beachte auch folgende Eigenschaft hlog(x)i = hlog(10s x)i für alle x ∈ (0, ∞), s ∈ N , (15) die sich aus der Funktionalgleichung (10) ableitet. Nun können wir das Benfordsche Gesetz und das Mantissengesetz neu formulieren; wir tun dies (nur) für Zahlenfolgen. Definition 5.3 Ist (an )n∈N eine Folge positiver Zahlen, so sagen wir, dass diese Folge dem Mantissengesetz genügt, wenn gilt: 1 #{n ∈ N |a ≤ hlog10 (an )i ≤ b} , 0 ≤ a < b ≤ 1 . N →∞ N b − a = lim (16) 31 mantissa (lat.) = Zugabe, Anhängsel Stand: 21. November 2011 42 c J. Baumeister, T.G. Macedo 5.3 Das Mantissengesetz Definition 5.4 Ist (an )n∈N eine Folge positiver Zahlen, so sagen wir, dass diese Folge dem starken Benford-Gesetz folgt oder stark Benford-verteilt ist, wenn gilt: 1 #{n ∈ N |0 ≤ han i ≤ x} , x ∈ (0, 1] . N →∞ N log10 (x) = lim (17) Es sollte nun keine Überraschung sein, dass folgender Sachverhalt richig ist: Satz 5.5 Eine Folge (an )n∈N positiver Zahlen genügt dem Mantissengesetz genau dann, wenn sie stark Benford-verteilt ist. Nun bleibt immer noch das Problem, bei konkreten Folgen zu erkennen, ob sie Benfordverteilt ist. Dazu hat Hermann Weyl 1916 einen wichtigen Beitrag – beachte, zeitlich vor Benford und unabhängig von der Entdeckung von Newcomb – geleistet. Er hat nämlich Folgen charakterisiert, die gleichverteilt sind modulo 1. Definition 5.6 Ist (an )n∈N eine Folge positiver Zahlen, so sagen wir, dass diese Folge gleichverteilt modulo 1 ist, wenn gilt: b − a = lim N →∞ 1 #{n ∈ N |a ≤ han i ≤ b} , 0 ≤ a < b ≤ 1 . N (18) Satz 5.7 (Gleichverteilungssatz) Sei a eine positive reelle Zahl. Dann ist die arithemtische Folge (na)n∈N gleichverteilt modulo 1, falls a nicht rational ist. Den Beweis dieses Satzes haben H. Weyl, W. Sierpinski, P. Bohl um 1910 unabhängig voneinander bewiesen; siehe [54] und [85]. Der Satz 5.7 hilft uns nun zusammen mit Satz 5.5 weiter bei der Frage, wann eine Folge Benford-verteilt ist. Wir können nun auflisten: • (an )n∈N ist Benford-verteilt, falls log10 (a) nicht rational ist. • (10n )n∈N ist nicht Benford-verteilt. Klar, denn sie genügt nicht dem Weylschen Kriterium, aber es ist ja auch die ärmliche“ Folge 10, 100, 1000, . . . und modulo 1 ” 0, 0, 0, . . . . • (fn )n∈N ist Benford-verteilt. Dies folgt aus der Betrachtung, die die Formel von Binet erläutert; siehe (27). Grundlegend für die Gültigkeit des Mantissengesetzes in einem Datensatz ist die Tatsache, dass der Datensatz skaleninvariant ist. Die Voraussetzung von Skaleninvarianz erscheint schon deshalb plausibel, weil das Mantissengesetz unabhängig von den gewählten Einheiten gelten sollte. Wenn beispielsweise die Anfangsziffern von Aktienkursen ausgedrückt in Euro Benford-verteilt sind, dann sollten sie das auch sein, wenn man die Kurse in mexikanische Pesos umrechnet. Diese Skaleninvarianz folgt aus folgender Betrachtung. Ist die Folge (an )n∈N positiver Zahlen Benford-verteilt, dann ist es auch die Folge (can )n∈N , wenn c eine positive Zahl ist, denn es gilt ja #{n ∈ N |a ≤ hlog10 (can )i ≤ b} Stand: 21. November 2011 ⇐⇒ ⇐⇒ #{n ∈ N |a ≤ hlog10 (c) + log10 (an )i ≤ b} #{n ∈ N |ia ≤ hlog10 (an )i ≤ bi} 43 c J. Baumeister, T.G. Macedo 5.3 woraus Das Mantissengesetz 1 #{n ∈ N |a ≤ hlog10 (can )i ≤ b} , 0 ≤ a < b ≤ 1 , N →∞ N b − a = lim folgt. Wie konnte nun Newcomb mit Hilfe seines Mantissengesetzes das Phänomen der abgenutzten Seiten seiner Logarithmentafel erklären? Dazu nehmen wir an, eine Menge von zufälligen Zahlen sei so verteilt, dass sie dem Mantissengesetz gehorcht. Dann definieren wir für die Ziffern i ∈ {1, 2, . . . , 9} die Mengen [ Ei := {x ∈ R|x ≥ 0, führende Ziffer von x ist i} = [i10k , (i + 1)10k ) (19) k∈Z Ei steht für die Zahlen, die mit der Ziffer i beginnen. Offenbar ist nun [0, ∞) = S i=1,...,9 Ei . Sei nun z eine Zahl in [0, ∞), betrachtet als Zufallszahl. Was ist die Wahrscheinlichkeit, dass z zu einer der Mengen Ei gehört? z ∈ Ei ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ es es es es gibt gibt gibt gibt ein ein ein ein k k k k ∈Z ∈Z ∈Z ∈Z mit mit mit mit z ∈ [i10k , (i + 1)10k ) log(z) ∈ [log(i10k ), log((i + 1)10k )) hlog(z)i ∈ [hlog(i10k )i, hlog((i + 1)10k ))i hlog(z)i ∈ [log(i10k ), log((i + 1)10k )) Mit Hilfe der Gleichverteilung der Mantissen der Logarithmen (siehe Mantissengesetz) erhalten wir: Ws(z ∈ Ei ) = Ws(log(z) ∈ [log(i), log(i + 1))) 1+i 1 = log 1 + = log(i + 1) − log(i) = log i i Bei dieser Formel steht “Ws(z ∈ Ei )“ für die Wahrscheinlichkeit, mit welcher das Ereignis “z ∈ Ei“ eintritt. Damit lässt sich die Verteilung nach Benford errechnen. Mit Hilfe der Funktionalgleichung des Logarithmus (10) erhalten wir 9 X 1 2 3 4 5 6 7 8 9 10 10 log 1 + = log = log =1 i 12345678 9 1 i=1 und es ist klar, dass die Zahlen 1 pi := log 1 + i , i = 1, . . . , 9, als Wahrscheinlichkeiten betrachtet werden können, denn offenbar sind alle Zahlen pi auch positiv. 1 Ws(z ∈ Ei ) = log 1 + (20) i heißt Benfordsches Gesetz über die erste Ziffer. In der Abbildung 16 sind die Häufigkeiten und die Wahrscheinlichkeiten für die Ziffern aufgelistet. Die Formel Um zu verifizieren, dass eine bestimmte Folge nicht Benford-verteilt ist, ist folgender Satz nützlich.32 32 Mit dem Symbol lim supn bezeichnen wir den größten Häufungspunkt einer Zahlenfolge. Dazu schaut man sich alle konvergenten Teilfolgen der betreffenden Zahlenfolge an und wählt die konvergente Teilfolge mit dem größten Grenzwert aus; dieser Grenzwert ist dann lim supn . Stand: 21. November 2011 44 c J. Baumeister, T.G. Macedo 5.4 Anwendung: Benford und Betrüger Satz 5.8 Ist die Zahlenfolge (an )n∈N Benford-verteilt, so gilt an+1 lim sup n log =∞ an n Den Beweis findet man in [26]. Mit Satz 5.8 lässt sich ableiten, dass folgende Folgen nicht Benford-verteilt sind: • nb für beliebiges reelles b • Arithmetische Folgen beliebiger Ordnung • logb n für beliebiges reelles b > 1 • Primzahlfolge (pn )n∈N • (logb pn )n∈N für beliebiges reelles b > 1 Beispielsweise lässt sich dies für die Folge an := n leicht überprüfen: an+1 n+1 lim sup n log = lim sup n log an n n n = lim sup (n(log(n + 1) − log(n))) n = lim sup (n log(n + 1) − n log(n)) n Da n log(n + 1) und n log(n) für genügend großes n fast den selben Wert“ annehmen, ” wird der Grenzwert Null; siehe nun Satz 5.8. Für die Folge (n2 )n∈N lässt sich ähnlich schnell zeigen, dass (n + 1)2 lim sup n log =0 n2 n gilt, womit auch diese Folge nicht Benford-verteilt ist. Als weiteres Beispiel betrachten wir die Folge an := log(n) := log10 (n) . Sie ist nicht Benford-verteilt wegen log(n + 1) an+1 lim sup n log = lim sup n log an log(n) n n = lim sup (n(log(log(n + 1)) − log(log(n)))) n 6= ∞ 5.4 Anwendung: Benford und Betrüger Hier wollen wir einige Anwendungen der Benford-Verteilung anführen. Der Ansatz bei den Anwendungen ist, in Zahlenmaterial, dem unterstellt wird, dass es der Benford-Verteilung folgt, Abweichungen von der Benford-Verteilung zu erkennen und diese als (bewusste) Fälschung des Zahlenmaterials auszuweisen. Man hüte sich aber vor Schnellschüssen! Starke Abweichungen fallen schnell auf, geringere können auch auf den Zufall zurückzuführen sein; man spricht von Fehlern erster (echte Daten wirken manipuliert) und zweiter Art (manipulierte Daten wirken echt). Stand: 21. November 2011 45 c J. Baumeister, T.G. Macedo 5.4 Anwendung: Benford und Betrüger Gefälschte Steuererklärungen Es gibt Hinweise, dass Teile des Zahlenmaterials in einer Steuererklärung nach Benford verteilt sein sollte; siehe [WeG10]. Die Spiegel-Schlagzeile Ein kurioses Gesetz der Wahrscheinlichkeitstheorie kann Finanzbeamten helfen, Steuersünder aufzuspüren aus dem Jahre 199833 befasst sich mit dem Benford-Gesetz hinsichtlich der Möglichkeit, Fälschern von Steuererklärungen auf die Schliche zu kommen. M.J. Nigrini in [63] setzte diesen Ansatz in die Tat um. Er schrieb ein (einfaches) Computer-Programm, mit dem man große Zahlenmengen auf die Gültigkeit des Benfordschen Gesetzes analysieren kann. Seine Idee war: wenn Zahlen in der Buchhaltung eines Betriebs oder in einer Steuererklärung von der Benford-Verteilung (statistisch) signifikant abweichen, könnten dahinter eventuell betrügerische Absichten stecken. Erste Untersuchungen seinerseits bestätigten die Vermutung: korrekte Steuererklärungen genügen der Benford-Verteilung während betrügerische deutlich davon abweichen. Das von Nigrini entwickelte Verfahren wird mittlerweile von mehreren Steuerbehörden erfolgreich eingesetzt. Gefälschte wissenschaftliche Publikationen Benford’s Beobachtung kann man sich auch im Kleinen nutzbar machen, nämlich bei einer Methode in der Medizin/Mikrobiologie, die mit der Darstellung von Forschungsergebnisse mit Hilfe von graphischen Klecksen“, so genannten Protein-Klecksen arbeitet. Diese ” Methode wird Blotting“(Southern-, Western-, Northern-) genannt. ” Ein Fälschungsskandal in der Medizingeschichte ist verbunden mit dem Krebsforscher Friedhelm Herrmann. Eine unabhängige Untersuchungskomission untersuchte 347 Publikationen, in denen er Co-Autor war und stellte fest, dass 94 davon manipulierte Daten enthielten. In Laborversuchen ermittelte Protein-Klecksen sind in ihrer Größe Benfordverteilt. Stellt man also in Publikationen fest, dass die veröffentlichten Protein-Kleckse nicht nach Benford verteilt sind, geht man von gefälschten Daten aus. Diese Untersuchung wurde angestellt und nach der Untersuchung der Verteilungen aus der Herrmannund einer Kontrollgruppe konnte man behaupten, dass der Verdacht groß ist, dass die Flächen von Northern Blots Benford-verteilt sind. Die Verteilung der Hermann-Gruppe hat eine etwas geringere Übereinstimmung mit der Benfordverteilung. Der Unterschied ist jedoch nicht so bedeutend, dass man nur anhand dieser Unstimmigkeit den Verdacht von Manipulation erheben könnte. Es ist auch zu bemerken, dass man keine Rückschlüsse auf einzelne Publikationen machen kann, da man für das Aufstellen einer Verteilung eine größere Datenmenge braucht; siehe [28] und [79]. Im übrigen ist man dabei frei, welche Ziffernhäufigkeit man verwenden will. Es gibt Indizien, dass die Analyse der Verteilung der zweiten Ziffer erfolgversprechender ist, als die der ersten Ziffer; siehe [28]. Gefälschte Wahlergebnisse Es sind seit den Präsidentschaftswahlen im Iran 2009 Analysen angestellt worden, ob es Hinweise gibt, dass die Ergebnisse gefälscht sind. Als Ansatz für die Untersuchungen wurde auch das Benfordsche Gesetz herangezogen. Zur Wahl standen vier Kandidaten: Ahmadinedschad, Moussawi, Karroubi, Rezai. Insgesamt beteiligten sich knapp 40 Mio. Wähler, die sich auf 366 verschiedene Wahlbezirke aufteilten. Die Anzahl der abgegebenen Stimmen in den einzelnen Wahlbezirken schwankt zwischen den Größenordnungen 103 und 106 . Auch die Stimmzahlen für die einzelnen 33 16. 11. 1998, siehe http://www.spiegel.de/spiegel/print/d-8032391.html Stand: 21. November 2011 46 c J. Baumeister, T.G. Macedo 5.5 Benford bei dynamischen Systemen Kandidaten sind ungefähr über drei Größenordnungen verteilt. Es kann daher davon ausgegangen werden, dass alle Daten, die untersucht werden sollen, über einen genügend großen Bereich streuen, so dass eine aussagekräftige Benford-Analyse durchgeführt werden kann. In [70] und [WeG10] kommt die Benford-Analyse der Daten zum Schluss, dass eine Manipulation der Wahlergebnisse sehr naheliegend ist. In [22] werden Überlegungen angestellt, inwieweit die Wahlen zum Deutschen Bundestag unter der Annahme, dass Wahlergebnisse, genauer die Voten für die Parteien bzw. Kandidaten, dem Benford-Gesetz folgen sollten, Auffälligkeiten zeigen. Gefälschte Statistiken Über eine weitere Wahrnehmung der Benford-Verteilung wird in der Frankfurter Allgemeinen Sonntagszeitung am 18. 9. 2011 unter dem Titel Zahlen mit Frisur“ berichtet. Hier ” steht die Untersuchung der Piigs–Staaten (Portugal, Italien, Irland, Griechenland, Spanien) hinsichtlich der Haushaltsdaten, die 1999 bis 2009 an die EU übermittelt wurden, mit Hilfe der Benford-Analyse im Vordergrund. Die neue Veröffentlichung dieser Daten der 27 EU-Staaten hat nach einer Analyse, inwieweit die Zahlen dem Benford-Gesetz genügen, zu einem Ranking geführt, mit teilweise überraschenden Ergebnissen. In das Bild der aktuellen Diskussion passt, dass Griechenland hier den letzten Platz einnimmt bei allen unterschiedlichen Aufbereitungen der Daten. Man sollte aber vorsichtig sein: das Ranking kann nur der Ausgangspunkt für weitere Untersuchungen sein. 5.5 Benford bei dynamischen Systemen Da das Konzept Dynamische Systeme“ viele Fragen in diesem Aufsatz berührt, wollen ” wir die Benford-Analyse bei dynamischen Systemen skizzieren. Da wir mit dynamischen Systemen u.a. das Wachsen/Schrumpfen von Population beschreiben können, ist es nicht verwunderlich, dass es hier auch positive Befunde für das Vorliegen der Benford-Verteilung gibt. Unter einem (deterministischen) dynamischen System versteht man das mathematische Modell eines zeitabhängigen Prozesses.34 Sie finden vielfältige Anwendungen auf Prozesse im Alltag und erlauben Einblicke in viele Bereiche nicht nur der Mathematik, sondern auch der Physik oder der theoretischen Biologie. Man unterscheidet zwischen diskreter und kontinuierlicher Zeitentwicklung. Bei einem diskreten dynamischen System ändern sich die Zustände in äquidistanten Zeitsprüngen, d.h. in auf einander folgenden, stets gleich großen zeitlichen Abständen, während die Zustandsänderungen eines kontinuierlichen dynamischen Systems in infinitesimal kleinen Zeitschritten stattfinden. Wichtigste Beispiele für kontinuierliche dynamische Systeme ergeben sich im Zusammenhang mit gewöhnlichen Differentialgleichungen. Starten wir mit einer konkreten Situation. Die Entwicklung einer Spareinlage von Jahr zu Jahr bei Verzinsung jeweils am Jahresende zu einem festen Zinssatz r > 0 lässt sich einfach verfolgen: Ist x das Kapital am Beginn des Jahres n, so ist y := x+x·r das Kapital am Beginn des Jahres n + 1. Also haben wir für die Kapitalentwicklung vom Jahre n = 0 an folgende Iterationsvorschrift xn+1 = (1 + r)xn , n ∈ N0 , d.h. xn = (1 + r)n x0 , n ∈ N. 34 Der Begriff des dynamischen Systems geht in seiner heutigen Form auf den Mathematiker George David Birkhoff, 1884-1944, zurück. Stand: 21. November 2011 47 c J. Baumeister, T.G. Macedo 5.5 Benford bei dynamischen Systemen Eine Verdopplung des Kapitals beobachtet man nach etwa n := ln(2) ln(1 + r) Jahren. Nun könnte man auf die sozialistische“ Idee kommen, den Zinssatz abhängig von ” der Kapitalhöhe zu gestalten, um das unbegrenzte Wachstum zu unterbinden. Ein Ansatz für einen kapitalabhängigen Zinssatz ist x r = r(x) := (1 − )r0 . K Hier ist r0 der Zinssatz, mit dem kleine Guthaben verzinst werden und K das Guthaben, bei dem der Zinssatz auf Null gesunken ist; für Guthaben oberhalb von K würden negative Zinsen erhoben. Mit diesem Ansatz erhalten wir folgende Iterationsvorschrift xn r0 xn+1 = xn + (1 − )r0 xn , d.h. xn+1 = (1 + r0 )xn − x2n , n ∈ N0 . (21) K K Der Zinssatz r0 für Kleinguthaben ist nun noch (frei) zu wählen. Die Iterationsvorschrift (21) finden wir auch in der Populationskinetik. Dort steht xn für die Populationsgröße einer Spezies in Biomasse (Hase, Fisch, . . . ) zu Beginn eines Zeitabschnitts n (Jahr, Monat, . . . ); wir normieren eine solchen Zeitabschnitt auf 1. Dann läßt sich die Vorschrift (21) so interpretieren: Die relative Zuwachsrate xn+1 − xn r0 = r0 − xn xn K ist abhängig von der Populationsgröße: sie ist nahezu konstant für kleine Populationsgrößen, sie nimmt ab für wachsende Populationsgrößen. Diese Abnahme der Zuwachsrate wird motiviert durch sozialen Druck“, dem eine Überpopulation ausgesetzt ist. ” Die Iteration (21) verrät schon (fast) alles, was bei allgemeinen Iterationen passieren kann. Wir betrachten die Iterationsvorschrift xn+1 := ga (xn ) , n ∈ N0 , wobei ga (x) := ax(1 − x) , x ∈ [0, 1], die sogenannte logistische Funktion ist. Die Umrechnung der obigen konkreten Situation in unsere nun schlankere Form ist so möglich, dass ein Rückschluss auf unser Verzinsungsproblem möglich ist. Nun haben wir zwei Größen in unserer Iteration, die noch offen sind: der Parameter a ≥ 0 und der Startwert x0 ∈ [0, 1] . Das Intervall [0, 1] ist in Korrespondenz zum Guthabenintervall [0, K] . Da ga nur dann [0, 1] nach [0, 1] abbildet, wenn a ≤ 4 ist, betrachten wir also nur das Parameterintervall [0, 4]. Für die Betrachtung allgemeiner Iterationen benötigen wir einen Betrachtungsrahmen, Begriffe und Resultate. Dies gelingt durch die Einbeziehung des metrischen Raums. Rahmen: Sei (X, d) ein vollständiger metrischer Raum35 und sei f : X −→ X die Abbildung, deren Iterierte wir betrachten wollen. Bezeichnung: Wir verwenden die Schreibweise36 f ◦0 := id , f ◦1 := f ; f ◦(n+1) := f ◦ f ◦n , n ∈ N . Vereinbarung: f ist stetig. 35 Ein metrischer Raum ist eine Menge von Punkten, in der der Abstand der Punkte untereinander mit einer so genannten Metrik gemessen werden kann. Damit sind dann Cauchyfolgen, Konvergenz, Grenzwert in einer zu den reellen Zahlen analogen Weise erklärt. Vollständigkeit stellt sicher, dass Cauchyfolgen konvergieren. 36 Mit f ◦ g bezeichnen wir die Abbildung, die die Hintereinanderausführung von f, g beschreibt: zuerst g dann f . Stand: 21. November 2011 48 c J. Baumeister, T.G. Macedo 5.5 Benford bei dynamischen Systemen Definition 5.9 Eine Folge (f ◦n (x0 ))n∈N0 heisst Orbit mit Startpunkt x0 ∈ X . Um die Konvergenzeigenschaften“ eines Orbits geht es nun. Interessante Punkte x∗ ” sind: • Fixpunkte: der Orbit (f ◦n (x∗ ))n∈N0 ist konstant, d.h. x∗ bleibt fix. • Periodische Punkte; siehe unten. • Anziehende Punkte. Dies sind Punkte xâo , die alle Punkte x0 aus einer Umgebung von x∗ anziehen: lim f ◦n (x0 ) = x∗ . Ist f hinreichend gutartig (stetig!), dann ist n jeder anziehende Punkt ein Fixpunkt. Definition 5.10 a) x∗ ∈ X heisst periodischer Punkt genau dann, wenn es N ∈ N gibt mit f ◦n (x∗ ) 6= x∗ , 1 ≤ n ≤ N − 1 , f ◦N (x∗ ) = x∗ . N heisst Periode von x∗ . b) Ein Orbit (f ◦n (x0 ))n∈N0 heisst periodisch mit Periode N, wenn es k ∈ N gibt, so dass x∗ := f ◦k (x0 ) ein periodischer Punkt mit Periode N ist. Wir betrachten als erstes die Iteration xn+1 := M (xn ) , n ∈ N0 , der Modulo–Abbildung M : [0, 1] −→ [0, 1] , M (x) := 2x, x ∈ [0, 1/2), ; 2x − 1, x ∈ [1/2, 1], (22) siehe Abbildung 17. Diese Abbildung ist nicht injektiv und bei x = 0.5 unstetig“. Ferner ” sind folgende Eigenschaften unmittelbar klar: (a) M hat genau zwei Fixpunkte, nämlich x∗ = 0 und x∗ = 1. (b) M ◦N hat genau 2N Fixpunkte. Davon bilden einige echte Orbits der Period N , die anderen gehören zu niedrigeren Perioden. (c) Da M die Ableitung 2 für alle x ∈ [0, 1]\{ 21 } hat, ist kein Fixpunkt anziehend. Die Wirkung der Abbildung lässt sich besser verstehen, wenn wir ein x ∈ [0, 1] in Dualdarstellung schreiben: x = 0, a1 a2 a3 . . . oder x = ∞ X ai 2−i , ai ∈ {0, 1}. i=1 Die Iteration bewirkt dann ein Streichen der ersten Ziffer und anschließende Linksverschiebung um eine Stelle; die Modulo–Abbildung wird daher auch Bernoulli–Verschiebung (Bernoulli–shift) genannt. Wir können sofort erkennen: Zahlen x, deren Dualdarstellung periodisch ist mit der Periode N gehören zu Orbits der Periode N . Startpunkte, deren Dualdarstellung ab einer gewissen Stelle periodisch ist, werden von periodischen Orbits angezogen“. Damit ist uns erst das Schicksal der rationalen Punkte bekannt. So ” gibt es genau einen Orbit der Periode 2, der aus den Punkten 2 1 x1 = 0, 0101 · · · = , x2 = 0, 1010 · · · = 3 3 Stand: 21. November 2011 49 c J. Baumeister, T.G. Macedo 5.5 besteht und z.B. von x = 0, 011101010 . . . nach drei Iterationen erreicht wird. Was geschieht aber mit der überwiegenden Mehrheit aller Punkte, nämlich den irrationalen Zahlen, die durch nichtperiodische Dualbrüche dargestellt werden? Es lässt sich zeigen, dass fast alle – fast“ wollen wir hier nicht ” näher erläutern – irrationalen Zahlen in ihrer Dualdarstellung jede endliche Folge von Ziffern unendlich oft enthalten. Jede typi” sche“ Trajektorie irrt also fortwährend durch das gesamte Intervall [0, 1] mit einer relativen Häufigkeit, die asymptotisch zur Gleichverteilung wird. Dies bedeutet, dass Benford bei dynamischen Systemen 1 1 Abbildung 17: Die Modulo–Abbildung 1X χ[a,b] (M ◦i (x0 )) = b − a k i=1 k lim k ist für jedes Intervall [a, b] ⊂ [0, 1] und es besagt, dass ein Orbit sich im Intervall [a, b] im Mittel so oft aufhält, wie die Länge b − a uns nahelegt. Die obige Iteration wird von einer Funktion gesteuert“, die nicht stetig ist. Das selt” same Verhalten der Iteration hängt aber nicht von dieser Tatsache ab, wie die Iteration xn+1 := Z(xn ) , n ∈ N0 , mit der sogenannten Zeltdach–Abbildung Z : [0, 1] −→ [0, 1] , Z(x) := 2x , falls x ∈ [0, 1/2), 2 − 2x , falls x ∈ [1/2, 1], zeigen kann; siehe Abbildung 18. Hier folgt aus der Dualdarstellung x = 0, a0 a1 a3 . . . von x offenbar 0, a2 a3 a4 . . . für a1 = 0, Z(x) = , (23) 0, a2 a3 a4 . . . für a1 = 1, so dass Z eine Bernoulli–Verschiebung und für a1 = 1 eine anschließende Komplementierung aller Ziffern bewirkt. Die Komplementierung sieht so aus: 0 := 1, 1 := 0 . Die für die Modulo–Abbildung getroffenen Aussagen bleiben fast wörtlich bestehen: Es gibt zwei Fixpunkte (hier: x∗ = 0 und x∗ = 23 ) und endlich viele Orbits der Periode N . Alle rationalen Zahlen gehören zu Orbits der Periode N = 1, 2, . . . oder werden von diesen angezogen. Jeder typische Orbit, d.h. ein Orbit mit irrationalem Anfangswert, besucht in unregelmäßiger Folge das gesamte Intervall [0, 1] gleichmäßig. Eine wichtige Begriffsbildung bei dynamischen Systemen ist die der Sensitivität. Poncaré formuliert: Eine sehr kleine Ursache, die wir nicht bemerken, bewirkt einen beachtlichen Effekt, den wir nicht übersehen können, und dann sagen wir, der Effekt sei zufällig. Wenn die Naturgesetze und der Zustand des Universums zum Anfangszeitpunkt exakt bekannt wären, könnten wir den Zustand dieses Universums zu einem späteren Moment exakt bestimmen. Aber selbst wenn es kein Geheimnis in den Naturgesetzen mehr gäbe, so könnten wir die Anfangsbedingungen doch nur annähernd bestimmen. Wenn uns dies ermöglichen würde, Stand: 21. November 2011 50 c J. Baumeister, T.G. Macedo 5.5 Benford bei dynamischen Systemen die spätere Situation in der gleichen Näherung vorherzusagen, so würden wir sagen, dass das Phänomen vorhergesagt worden ist, und dass es Gesetzmäßigkeiten folgt. Aber es ist nicht immer so; es kann vorkommen, dass kleine Abweichungen in den Anfangsbedingungen schließlich große Unterschiede in den Phänomenen erzeugen. Ein kleiner Fehler zu Anfang wird später einen großen Fehler zur Folge haben. Vorhersagen werden unmöglich, und wir haben ein zufälliges Ereignis. In dieser Aussage geht es um die Sensitivität eines Systems und damit um die Unmöglichkeit einer Vorhersage. Unter Sensitivität versteht man kurzum inwiefern kleine Änderungen bei den Anfangsbedingungen das Endergebnis beeinflussen: je stärker dies der Fall ist, desto höher ist die Sensitivität. Das Prinzip der starken Kausalität ist nicht mehr anwendbar. Schon bei einfachen Systemen, z.B. dem Werfen eines Würfels kann dies beobachtet werden: die gewürfelte Augenzahl ist trotz der theoretisch möglichen Vorhersagbarkeit chaotisch, d.h. zufällig. Siehe hierzu auch Abschnitt 2.5. Kommen wir nun zur Benford-Aanalysis. Aus der doch beträchtlichen Anzahl von Ergebnissen stellen wir ein Ergebnis aus [14] vor. Es handelt von einem Spezialfall eines dynamischen Systems, nämlich von der Iteration xn+1 := αxn (1 − f (xn )) , n ∈ N, 1 (24) mit einem Startwert x0 . Hierbei ist α > 0 ein reeller Parameter und f eine Abbildung der reellen Zahlen in sich mit f (0) = 0 . Die 1 Grös̈e des Parameters α spielt offenbar eine Rolle für das Verhalten des entstehenden OrAbbildung 18: Die Zeltdach–Abbildung bits (xn )n∈N . Welche Punkte x∗ kommen als (anziehende) Fixpunkte in Frage? Sicherlich folgende drei Punkte: x∗ = 0 , x∗ mit 1 = f (x∗ ) , x∗ = ∞ . Wir betrachten den Fall, dass x∗ = 0 ein anziehender Fixpunkt des Orbits ist. Satz 5.11 Sei die Abbildung f in (24) hinreichend gutartig.37 Ist dann 0 ein anziehender Fixpunkt, so ist der durch (24) beschriebene Orbit Benford-verteilt für alle Startwerte x0 , die nahe dem Fixpunkt 0 sind, genau dann wenn log(α) irrational ist. Bibliographische Anmerkungen Die Zahlenkuriosität wurde erstmals entdeckt von S. Newcomb [61]. Neu entdeckt wurde sie von F. Benford [7], von dem nun diese Beobachtung ihren Namen hat. Nahe am Thema ist ein Artikel von Poincaré; siehe [69]. Eine sehr schöne Darstellung stellt die Ausarbeitung [43] von H. Hungerbühler zum Thema der Benford-Zahlen dar. Eine Erläuterung zur Erklärung des Zahlenphänomens findet man in [13, 31]. Der Artikel [12] arbeitet das Thema mathematisch systematisch auf. Eine vollständige Bibliographie findet man unter [Ber11]. Hervorzuheben sind [42, 45, 68] 37 Dies bedeutet, etwas vage ausgedrückt, dass f eine Abbildung ist, die hinreichend gut durch einfache Polynome approximiert werden kann. Stand: 21. November 2011 51 c J. Baumeister, T.G. Macedo 5.5 Benford bei dynamischen Systemen und [Ric10,Sch03]. Kernpunkt einer Analyse ist es, einen geeigneten wahscheinlichkeitstheoretischen Rahmen aufzubauen. Der Zusammenhang mit der Gleichverteilung mod 1 wird in [26] diskutiert; siehe auch [50, 54, 85]. Fellers klassische Monographie An Introduction to Probability Theory and its Applications (siehe [30]) enthält auch eine Ableitung“ des Benford-Gesetzes. Darin wird eine ” hinreichende Bedingung dafür gegeben, dass eine Zufallsvariable X approximativ verteilt nach Benford ist. In [11] findet sich eine ausführliche Diskussion über die zweifelhafte Argumentation und eine Richtigstellung. Die Benford-Verteilung ist die einzige Verteilung der Mantissen, die Basis-unabhängig ist; siehe [40]. Dies bedeutet, dass ein Datensatz, der dem Benfordschen Gesetz genügt, wenn er dargestellt ist mit einer Basis b1 , auch dem Benfordschen Gesetz genügt, wenn er zur Basis b2 dargestellt wird. Dynamische Systeme werden untersucht etwa in [56, 83]. Eine Analyse der Orbits von dynamischen Systemen hinsichtlich der Benford-Verteilung findet sich in [14, 9, 8, 84]. Das Newtonverfahren wird auf die Gültigkeit des Benford-Gesetzes untersucht in [10]. Die Benford-Verteilung bei Markov-Ketten wird in [46] diskutiert. Zu Anwendungen des Benford-Gesetzes siehe [FAZ11],[22, 27, 57, 63, 70, 73, 78]. Stand: 21. November 2011 52 c J. Baumeister, T.G. Macedo 6 Elementare Arithmetik A lady of 80 named Gertie Had a boyfriend of 60 named Bertie She told him emphatically That viewed mathematically By modulus 50 she’s 30 Limerik of J.W. McClellan Arithmetik ist das Teilgebiet der Mathematik, welches auch als Synonym zum Begriff Zahlentheorie verstanden werden kann. Elementare Arithmetik bezeichnet allgemein das Rechnen mit natürlichen Zahlen und ganzen Zahlen und die Untersuchung der Konsequenzen, die sich daraus ergeben, dass die Division in den ganzen Zahlen nur eingeschränkt möglich ist. Weiterhin wird eine Einführung zu Primzahlen, Teilbarkeit und modularem Rechnen gegeben, Hilfsmittel, die für die linearen Kongruenzgeneratoren benötigt werden. Diese Kapitel ist mathematisch am weitesten ausgeführt. 6.1 Ganze Zahlen, Teilbarkeit, Primzahlen Hier deuten wir die Begriffe an, in denen Arithmetik betrieben wird. Die ganzen Zahlen (Z) und natürlichen Zahlen (N bzw. N0 := N\{0}) rufen wir ins Leben“ durch ” Es gibt Mengen N, Z , ein Element 0 ∈ Z, Abbildungen Z × Z 3 (a, b) 7−→ a + b ∈ Z, (Addition) Z × Z 3 (a, b) 7−→ a · b ∈ Z, (Multiplikation) und eine Vergleichsoperation ≤ mit folgenden Eigenschaften: 1. (a + b) + c = a + (b + c) für alle a, b, c ∈ Z . 2. a + 0 = 0 + a für alle a ∈ Z . 3. Zu a ∈ Z gibt es genau ein (−a) ∈ Z mit (a + (−a)) = 0 = ((−a) + a) . 4. a + b = b + a für alle a, b ∈ Z . 5. (a · b) · c = a · (b · c) für alle a, b, c ∈ Z . 6. a · b = b · a für alle a, b ∈ Z . 7. a · (b + c) = a · b + a · c für alle a, b, c ∈ Z . 8. N ⊂ Z , 1 6= 0 , Z = N ∪ {0} ∪ −N . 9. 1 · a = a , 0 · a = 0 für alle a ∈ Z . 10. a ≤ b ⇐⇒ b + (−a) ∈ N ∪ {0} . (Assoziativgesetz) (0 ist neutrales Element) ((−a) ist Negatives von a) (Kommutativgesetz) (Assoziativgesetz) (Kommutativgesetz) (Distributivgesetz) (1 ist neutrales Element) Zur Abkürzung führen wir noch die Subtraktion durch Z × Z 3 (a, b) 7−→ a − b := a + (−b) ∈ Z ein, schreiben meist kurz ab für a · b und vereinbaren die Schreibweise a < b für a ≤ b, a 6= b . Damit können wir nun in Z und N genauso rechnen, wie wir es gewohnt sind. Stand: 21. November 2011 53 c J. Baumeister, T.G. Macedo 6.1 Ganze Zahlen, Teilbarkeit, Primzahlen Wo bleibt die Division in den ganzen Zahlen? Offenbar sind ±1 die einzigen Zahlen a in Z, für die 1/a, was wir meist als a−1 schreiben, in Z existiert. Wenn man für die anderen Fälle nicht den Weg zu den rationalen Zahlen weitergehen will, muss man eine Division mit Rest einführen, was eine Beschreibung der Tatsache gleichkommt, dass die Division ganzer Zahlen nicht aufgeht“. Zunächst zur Teilbarkeit. ” Definition 6.1 Seien a, b ∈ Z. Wir sagen, dass a die Zahl b teilt, wenn es k ∈ Z gibt mit b = ka. Wir schreiben dafür a|b . Ist b nicht durch a teilbar, so schreiben wir a 6 | b. Srechweisen: Für a|b: a teilt b, b ist Teiler von a, a ist durch b teilbar. Für a 6 | b: a teilt b nicht, b ist kein Teiler von a, a ist nicht durch b teilbar. Bei Teilbarkeitsfragen in Z können wir uns in der Regel immer auf positive Teiler, d.h. auf Teiler in N, zurückziehen, da von den zwei Zahlen a, −a stets eine in N liegt, falls a 6= 0 ist; der Fall a = 0 ist uninteressant. Ohne Beweis führen wir an: Folgerung 6.2 Seien a, b, c, d ∈ Z. Dann gilt: (1) a|a; a|b und b|a =⇒ a = ±b; a|b und b|c =⇒ a|c. (2) d|a und d|b =⇒ d|(ax + by) für alle x, y ∈ Z. (3) a|b und a|(b + c) =⇒ a|c. Fragt man nach gemeinsamen Teilern zweier ganzer Zahlen a, b, so interessiert insbesondere der größte dieser gemeinsamen Teiler. Dabei können wir uns dann auf positive Teiler beschränken, denn 1 ist stets ein gemeinsamer Teiler von a und b. Definition 6.3 Seien a, b ∈ Z, die nicht beide 0 sind. Eine Zahl d ∈ N heißt größter gemeinsamer Teiler von a, b genau dann, wenn (1) d|a und d|b (2) Ist d0 ∈ N ein Teiler von a und b, so teilt d0 auch d gilt. Wir schreiben d = ggT(a, b) . Der größte gemeinsame Teiler d gemäß Definition 6.3 ist eindeutig bestimmt dank der Tatsache, dass wir d ∈ N gefordert haben. Es sollte klar sein, wie nun der größte gemeinsame Teiler von endlich vielen ganzen Zahlen erklärt ist. Beispiel: ggT(6, 10) = 2, ggT(ggT(6, 10), 30) = 2, ggT(6, 10, 15) = 1 . Definition 6.4 Eine Zahl p ∈ N, p 6= 1, heißt Primzahl, wenn 1 und p die einzigen Teiler von p sind. Spätestens seit Euklid kennt man die Primzahlen, die Tatsache, dass es unendlich viele Primzahlen gibt und auch die Aussage, dass eine natürliche Zahl, bis auf die Reihenfolge, eindeutig in ein Produkt von Primzahlen zerlegt werden kann. Diese Zerlegung nennt man Primfaktorzerlegung und das Aufsuchen dieser Zerlegung eine Faktorisierung; siehe unten. Die obige Definition des größten gemeinsamen Teilers hätten wir – wie dies in der Schule meist geschieht – auch auf die Primfaktorzerlegung stützen können. Stand: 21. November 2011 54 c J. Baumeister, T.G. Macedo 6.2 Fibonacci-Zahlen Satz 6.5 (Primfaktorzerlegung) Jede natürliche Zahl n ≥ 2 lässt sich bis auf die Reihenfolge der Faktoren eindeutig als Produkt von Primzahlen darstellen. Den Beweis lassen wir weg, die Vorbereitungen dafür, insbesondere für den Nachweis der Eindeutigkeit, liegen hier nicht vor. Die Eindeutigkeit der Primfaktorzerlegung ist ein Resultat, das wesentlich auf einer Kürzungsregel“ basiert. Man sollte sich hüten, die ” Eindeutigkeit der Primfaktorzerlegung als Selbstverständlichkeit hinzunehmen, die keines Beweises bedarf. Mitunter ist nun eine kanonische Produktschreibweise für die Primfaktorzerlegung nützlich. Wir denken uns die Primzahlen durchnumeriert, also p1 = 1, p2 = 3, p3 = 5, . . . und schreiben jede Zahl n ∈ N so hin: Y pαi i ; n= i∈N dabei ist αi die Vielfachheit, mit der der Primfaktor pi in der Primfaktorzerlegung vorkommt, also αi = 0, falls die Primzahl pi kein Primfaktor von n ist. Die Herstellung der Primfaktorzerlegung einer (großen) Zahl ist kein leichtes Unterfangen. Die Schwierigkeit wird u.a. dadurch beleuchtet, dass nahezu gleiche Zahlen eine sehr verschiedene Primfaktorzerlegung besitzen können: 370273 = 43 · 79 · 109 , 370277 = 17 · 23 · 947 , 370279 = 7 · 13 · 13 · 313 . Die Aufzählung p1 , p2 , . . . suggeriert, dass es unendlich viele Primzahlen gibt. Hier ist der Beweis für die Tatsache, dass es unendlich viele Primzahlen gibt.38 Satz 6.6 (Unendlichkeit der Primzahlen/Euklid) Es gibt unendlich viele Primzahlen. Beweis: Annahme: Es gibt nur endlich viele Primzahlen. Seien p1 , . . . , pr diese Primzahlen. Setze N := 1 + p1 · · · pr . Dann ist N ∈ N und N ≥ 2. Da N > pi für jedes i = 1, . . . , r ist, ist N keine Primzahl. Also ist N zerlegbar: N = kp, p, k ∈ N mit 1 < p < N . O.E. kann man nun annehmen, dass eine der Zahlen k, p eine Primzahl ist; sonst zerlege erneut. Sei also etwa p die Primzahl. Also kommt p unter p1 , . . . , pr vor; o.E. p = p1 . Dann folgt: 1 + p1 p2 . . . p r = p 1 k . Daraus liest man nun p = p1 = 1 ab, was ein Widerspruch ist. Das kleinste gemeinsame Vielfache von Zahlen a, b ∈ N ist die kleinste Zahl m ∈ N, für die a|m , b|m gilt. Kennt man die Primfaktorzerlegung von a und b, so kann man es sehr einfach ablesen. 6.2 Fibonacci-Zahlen Wir kommen nun zu einer speziellen Menge von Zahlen, den so genannten FibonacciZahlen. Sie werden noch eine zweifache Rolle spielen. 38 In [2] – ein Buch, dass in jedem Falle zur Lektüre eines (angehenden) Mathematikers gehören sollte – werden 6 Beweise für die Unendlichkeit der Primzahlen gegeben. Stand: 21. November 2011 55 c J. Baumeister, T.G. Macedo 6.2 Fibonacci-Zahlen Im Buch liber abacci“ von Leonardo von Pisa (genannt Fibonacci)39 wird die Vermeh” rung eines Kaninchenpaares in folgender Weise in Abhängigkeit von der Zeit beschrieben: Ein zur Zeit t = 0 geborenes Kaninchenpaar wirft vom 2. Monat an in jedem Monat ein weiteres Paar. Die Nachkommen folgen dem Vorbild der Eltern. Alle Kaninchen überleben. Damit ergibt sich rekursiv folgende Vorschrift f0 := f1 := 1 , fn+1 := fn + fn−1 , n ∈ N . Die Zahlen fn , n ∈ N, nennt man Fibonacci–Zahlen. Sieht man ein Stück der Fibonacci-Folge an, so stellt man fest, dass sie schnell wächst: 1,1,2,3,5,8,13,21,34,. . . . Es ist offensichtlich, dass die Folge monoton wachsend ist, und man überzeugt sich leicht, dass sie exponentiell wächst, denn durch die Monotonie ergibt sich: fn = fn−1 + fn−2 ≤ 2fn−1 und folglich fn ≤ 2n . √ fn = fn−1 + fn−2 ≥ 2fn−2 und folglich f2n ≥ 2n−1 , fn ≥ ( 2)n−1 . √ Also wird das Wachstum beschrieben mit einer Zahl zwischen 2 und 2 . Man kann dieses noch viel genauer analysieren. Die Fibonacci-Zahlen haben viele schöne, interessante Eigenschaften. Darunter fügen wir die folgende an, da sie im Zusammenhang mit dem euklidischen Algorithmus von Interesse ist: ggT(fn+1 , fn ) = 1 für alle n ∈ N0 (25) Wir beweisen diese Aussage induktiv. Für n = 1 ist die Aussage klar. Ist die Aussage richtig für die Zahl n, dann ist sie auch richtig für n + 1, denn wir haben ggT(fn+2 , fn+1 ) = ggT(fn+1 + fn , fn+1 ) = ggT(fn+1 , fn ) = 1 . Die Fibonacci-Zahlen sind eng mit dem goldenen Schnitt verknüpft. Aus der Darstellung fn+1 fn + fn−1 fn−1 1 = =1+ =1+ f fn fn fn n fn−1 folgt, die Existenz von g := limn fn+1 vorausgesetzt, die Identität fn g =1+ 1 . g (26) Klar, die Lösungen dieser Gleichungen sind √ 1 g± = (1 ± 5) . 2 √ Die positive Lösung g = 12 (1 + 5) heißt goldene Schnittzahl. Sie beschreibt eine harmonische Teilung einer Strecke durch den goldenen Schnitt. Der Goldene Schnitt findet sich in der Natur, z.B. auch in der Anatomie des Menschen. Wir betrachten das Verhältnis, 39 Fibonacci, Leonardo, 1180? – 1250? Stand: 21. November 2011 56 c J. Baumeister, T.G. Macedo 6.3 Division mit Rest das im Arm entsteht durch die Teilung durch das Ellenbogengelenk. Ist die Länge des Unterarmes die Längeneinheit Eins und ist x die Länge des Oberarmes, so gilt: 1 x 1 = d.h. x = . 1+x 1 1+x Damit ist x die Lösung der quadratischen Gleichung x2 + x − 1 = 0 . Die positive Lösung davon ist 1 √ x = ( 5 − 1) ≈ 0.618 . 2 Für x + 1 ergibt sich die Schnittzahl g von oben. Ein weiteres Beispiel in der Anatomie wird von Leonardo da Vinci im Verhältnis, das der Nabel erzeugt, illustriert. Der Goldene Schnitt findet sich auch vielfach in Gegenständen unseres Lebens (Buchformat, Verhältnisse an Bauwerken, . . . ). Eine nicht rekursive Darstellung der Fibonacci-Zahlen ist gegeben durch die Formel von Binet: 1 1 n fn = √ g + n , n ∈ N . (27) g 5 √ Hierbei ist g := 21 (1 + 5) die goldene Schnittzahl. Den Beweis der Formel von Binet erbringt man mit vollständiger Induktion. Wie man auf die Formel von Binet kommt? Dies kann man auf dem Umweg über die Darstellung der Paare (fn+1 , fn ) mit Hilfe einer Matrix-Multiplikation sehen: fn+1 fn 1 · fn + 1 · fn−1 1 1 = , n ∈ N, = fn fn−1 1 · fn + 0 · fn−1 1 0 | {z } A Daraus ergibt sich mit dem n-fachen Produkt An der Matrix A fn+1 n 1 , n ∈ N, =A fn 0 (28) und wir haben eine Formel für die Fibonacci-Zahlen gefunden, wenn wir das n-fache Produkt An geschickt/geeignet/schnell ausrechnen können. Dies gelingt sogar formelmäßig über die Diagonalisierung“ von A . Wir müssen hier auf den Beweis verzichten; siehe [32]. ” Jedenfalls lesen wir dann die Formel von Binet ab. 6.3 Division mit Rest Der Division mit Rest, die wir nun vorstellen wollen, tritt uns im Alltag entgegen bei der Umrechnung von Tageszeiten in unterschiedliche Zeitskalen (Minuten, Sekunden,. . . ), bei der Berechnung von Wochentagen im Kalender, bei . . . . Satz 6.7 (Division mit Rest) Für alle a ∈ Z, b ∈ N gibt es eindeutig bestimmte Zahlen q, r ∈ Z mit a = bq + r und 0 ≤ r < b. Stand: 21. November 2011 57 c J. Baumeister, T.G. Macedo 6.3 Division mit Rest Beweis: Wir beweisen zunächst die Existenz von q, r für a ≥ 0 durch vollständige Induktion: a = 0 : Setze q := r := 0 . a + 1 : Ist a + 1 < b, so gilt a + 1 = 0 · b + (a + 1) und wir sind fertig. Ist a + 1 ≥ b, so folgt aus der Induktionsvoraussetzung a + 1 − b = qb + r mit q ∈ Z, 0 ≤ r < b. Also a + 1 = (q + 1)b + r. Die Existenz folgt für a < 0 aus der Anwendung der eben bewiesenen Aussage auf −a gemäß −a = q 0 b + r0 , 0 ≤ r0 < b durch a= (−q 0 − 1)b + (b − r0 ) , falls r0 6= 0 (−q 0 )b , falls r0 = 0 Um die Eindeutigkeit zu beweisen, nehmen wir ein zweites Zahlenpaar q 0 , r0 mit a = q 0 b + r0 , 0 ≤ r0 < b , wobei o. E. r ≥ r0 sei. Dann ist offenbar 0 ≤ r − r0 < b und r − r0 = −(q − q 0 )b . Aus r − r0 < b folgt −(q − q 0 ) ≤ 0, aus r − r0 ≥ 0, folgt −(q − q 0 ) ≥ 0 . Zusammengefasst: q = q 0 und daher auch r = r0 . Die Umrechnung von Zahlen in unterschiedlichen Stellensystemen kann mit Division mit Rest erfolgen. Sei etwa die Zahl 1234 als Zahl im Zehnersystem vorgelegt, also (1234)10 = 1 · 103 + 2 · 102 + 3 · 101 + 4 · 100 . Wir rechnen sie in das Dualsystem um gemäß 1234 = = = = 1 · 210 + 210 1 · 210 + 0 · 29 + 0 · 28 + 1 · 27 + 82 1 · 210 + 0 · 29 + 0 · 28 + 1 · 27 + 1 · 26 + 18 1 · 210 + 0 · 29 + 0 · 28 + 1 · 27 + 1 · 26 + 0 · 25 + 1 · 24 + 0 · 23 + 0 · 22 + 1 · 21 + 0 · 20 Dies bedeutet (1234)2 = 10011010010 . Van-der-Corput Folgen, werden mit der Dualentwicklung natürlicher Zahlen erzeugt, und zwar durch Bit-Umkehr. Sei also i = (dj . . . d0 )2 = j X dk 2k k=0 die Dualdarstellung von i ∈ N . Dann heißt Φ2 (i) := xi := (.d0 . . . dj )2 = j X dk 2−k−1 k=0 die i-te van der Corput-Zahl. Beispielsweise sind 1 1 3 1 5 3 , , , , , 2 4 4 8 8 8 Stand: 21. November 2011 58 c J. Baumeister, T.G. Macedo 6.4 Euklidischer Algorithmus die ersten 6 van der Corput-Zahlen. Klar, die Basis b = 2 lässt sich gegen jede beliebige Basiszahl b ∈ N, b ≥ 2, austauschen.40 Alle diese van der Corput-Zahlen lassen sich algorithmisch einfach durch Division mit Rest bestimmen. Sie entsprechen also einer Liste von Zahlen, die total den Anspruch der Zufälligkeit verloren haben. Was sie aber auszeichnet, ist die Tatsache, dass sie gute Verteilungseigenschaften haben; siehe [62]. Die Konstruktion der van der Corput-Zahlen kann man nun nutzen, um Folgen in [0, 1]d zu erzeugen. Dazu wähle man für jede Dimension j eine Basis bj , erzeuge damit die van der Corput-Folge (xi,j )i∈N . Damit bilde man dann die Vektoren xi := (xi,1 , . . . , xi,d ) ∈ [0, 1]d . Im Allgemeinen nimmt man als Basen die ersten d Primzahlen. Diese so konstruierte Folge von Punkten nennt man eine Folge von Halton-Punkten. Die guten Verteilungseigenschaften der van der Corput-Zahlen übertragen sich auf die Halton-Punkte. Van der Corput-Zahlen, die als Ersatz für Zufallszahlen dienen können, werden eingeordnet unter Quasizufallszahlen. 6.4 Euklidischer Algorithmus Der nun zu besprechende euklidische Algorithmus“ hat seine historische Wurzel in dem ” Bestreben in der Antike, die Verhältnisrechnung mit geometrischen Größen zu begründen (Kommensurabilitätsbetrachtungen; siehe [72], S. 41-44). Bei Euklid sollen zwei Strecken mit einem Maßstab ausgemessen werden; dies gelingt gerade mit einem Maßstab, der die Länge des größten gemeinsamen Teilers besitzt; siehe Abbildung 19. Der euklidische Algorithmus gestattet es, den größten gemeinsamen Teiler zweier Zahlen (siehe unten) effizient zu berechnen. Er basiert auf folgender Beobachtung: Lemma 6.8 Sei a ∈ Z und b ∈ N. Dann folgt aus der Darstellung a = qb + r , q, r ∈ Z, die Aussage ggT(a, b) = ggT(b, r) . Beweis: Ist d ein Teiler von a, b, dann ist d ein Teiler von b und r und umgekehrt (siehe Folgerung 6.2). Die Interpretation von Lemma 6.8 ist, dass durch fortschreitende Division mit Rest aus dem Ausgangspaar (a, b) Paare (a0 , b0 ) gebildet werden können, die denselben größten gemeinsamen Teiler besitzen. Der euklidische Algorithmus realisiert dies: Algorithm 2 Der euklidische Algorithmus EIN a, b ∈ Z ; o.E. a ≥ b > 0 . Schritt 0 a0 := a, b0 := b . Schritt 1 (a0 , b0 ) := (b0 , r), wobei a0 = qb0 + r mit 0 ≤ r < b0 ist. Schritt 2 Ist r = 0, gehe zu AUS. Ist r 6= 0, setze a0 := b0 , b0 := r, gehe zu Schritt 1. AUS d := b0 = ggT(a, b) . 40 Van der Corput (1935) hat sie für die Basis 2 als erster betrachtet. Stand: 21. November 2011 59 c J. Baumeister, T.G. Macedo 6.4 Euklidischer Algorithmus Die Aussage, dass d der größte gemeinsame Teiler von a, b ist, falls die Situation r = 0 erreicht wird, folgt aus dem Lemma 6.8 unter der Beobachtung, dass ggT(b0 , 0) = b0 ist. Bleibt noch zu klären, dass die Situation r = 0 in endlich vielen Schritten wirklich erreicht wird. Dies folgt aber aus der Tatsache, dass für zwei aufeinanderfolgende Durchläufe von Schritt 1 mit (a0 , b0 ) , (a00 , b00 ) sicherlich 0 ≤ b00 < b0 , b0 , b00 ∈ N0 gilt. Also muss schließlich das Verfahren bei r = 0 abbrechen. Wir geben dem euklidischen Algorithmus, wohlwissend, dass der Schritt 1 nur endlich oft durchlaufen wird, eine explizite Fassung: Euklidischer Algorithmus Kettenbruchentwicklung a = r0 r1 b r0 = q + r2 1 r1 r1 r1 = q + r3 2 r2 r2 .. .. . . r0 := a , r1 := b, r0 = q1 r1 + r2 , 0 < r2 < r1 , r1 = q2 r2 + r3 , 0 < r3 < r2 , .. . rk−1 rk .. . rk−2 rk rk−1 = qk + rk−1 rk rk+1 = qk+1 = qk rk + rk+1 , 0 < rk+1 < rk , = qk+1 rk+1 , In dieser Darstellung ist rk+1 = ggT(rk−1 , rk ) = · · · = ggT(r0 , r1 ) = ggT(a, b) nach Lemma 6.8. Beispiel 6.9 Sei a = 48 , b = 18 . Wir erhalten 48 = 2 · 18 + 12 18 = 1 · 12 + 6 12 = 2 · 6 Also gilt: ggT(48, 18) = 6 . Die geometrische Interpretation als wechselseitige Wegnah” me“, wie sie schon bei Euklid bei Kommensurabilitätsbetrachtungen zu finden ist, findet sich in Abbildung 19: kleinere Strecken werden mehrfach auf einer größeren Strecke abgetragen. Da das Vorgehen im obigen Beispiel abbricht, sagt man, dass a = 48 und b = 18 ein gemeinsames Maß haben, nämlich 6. (Bricht ein solches Verfahren nicht ab, dann heißen a, b inkommensurabel, wie dies etwa bei der Diagonalen im Einheitsquadrat der √ Fall ist, da ja 2 irrational ist.) Aus der obigen Darstellung des euklidischen Algorithmus lesen wir ab: a r0 r2 1 1 1 = = q1 + = q1 + r1 = q1 + = q1 + = ... r 3 1 b r1 r1 q2 + r2 q2 + r2 r4 q3 + r3 (29) r Wir wissen dabei, dass stets 0 < k+1 rk < 1 gilt und dass das Schema nach k Schritten abbricht, denn in formaler Interpretation haben wir rk+2 = 0 . Die berechneten Größen q1 , . . . , qk+1 schreiben wir als [q1 , . . . , qk+1 ] oder Stand: 21. November 2011 a = [q1 , . . . , qk+1 ] b 60 c J. Baumeister, T.G. Macedo 6.4 Euklidischer Algorithmus auf und bezeichnen dies als Kettenbruch. Der Kettenbruch kann mitunter auch sehr ” lang“ sein. In vielen Fällen ist man schon mit einer Näherung [q1 , . . . , ql ] , 1 ≤ l < k + 1 , rl ersetzt. zufrieden, d.h. mit der Näherung, die entsteht, wenn man rl+1 Wir wissen, genügt die goldene Schnittzahl g der Gleichung g= 1 . 1+g Daraus lesen wir durch sukzessives Einsetzen den unendlichen Kettenbruch – g ist ja irrational – für die goldene Schnittzahl g ab: g = [1; 1, 1, 1, 1, . . . ] . Betrachtet man davon nur endliche Abschnitte als Näherung für g, dann erhält man schlechte“ Approximationen von g ; man ” nennt g deshalb die irrationalste Zahl“ 41 . ” Der Grund dafür ist, dass jeder Eintrag im Kettenbruch die kleinste Einheit ist, die ein Abbrechen gerade noch verhindert, nämlich 1. Es deckt sich mit der Tatsache, dass der euklidische Algorithmus für die Brüche der Fibonacci-Zahlen besonders langsam ist. Dies steht im Gegensatz zu einer anderen irrationalen Zahl, der Kreiszahl π . Ihre Kettenbruchentwicklung ist π = [3; 7, 15, 1, . . . ] . 48 18 12 6 18 12 6 6 6 Abbildung 19: Wechselwegnahme Schon der endliche Kettenbruch [3; 7] = 22 7 ist eine sehr gute Approximation von π.42 Der Grund ist, dass der nächste Eintrag im Kettenbruch von π die Zahl 15 ist. Satz 6.10 (Lemma von Bachet/Lemma von Bezout) Seien a, b ∈ Z . Dann gibt es Zahlen s, t ∈ Z mit ggT(a, b) = sa + tb . Beweis: O.E. a ≥ b > 0 . Die Aussage folgt dadurch, dass wir den euklidischen Algorithmus in der expliziten Fassung rückwärts lesen. Wir strukturieren dies, indem wir nachrechnen, dass für 0 ≤ i ≤ k+1 gilt ri = si a + ti b , mit si , ti ∈ Z. (30) Dies ergibt sich so: Für i = 0 setze s0 := 1, t0 := 0 und für i = 1 setzte s1 := 0, t1 := 1 . Nun setzen wir si+1 := si−1 − qi si , ti+1 := ti−1 − qi ti , 1 ≤ i ≤ k. (31) Dann gilt offenbar die obige Aussage. 41 Diese Tatsache spielt sogar eine Rolle in der so genannten Chaostheorie. In den DMV-Mitteilungen vom Herbst 2011 lesen wir, dass 22 7 der Lieblingsbruch von G.M. Ziegler (ein Star der Vermittlung von Mathematik in der Öffentlichkeit, siehe [2]) ist. 42 Stand: 21. November 2011 61 c J. Baumeister, T.G. Macedo 6.4 Euklidischer Algorithmus Beispiel 6.11 Wir können nachrechnen, dass 37 der größte gemeinsame Teiler von 36667 und 12247 ist. Mit der Analyse gemäß Satz 6.10 erhalten wir 37 = ggT(36667, 12247) = 165 · 36667 − 494 · 12247 . Folgerung 6.12 Seien a, m ∈ Z, die nicht beide Null sind, mit ggT(a, m) = 1 . Dann gibt es b ∈ Z mit m|(ab − 1) . Beweis: Wir wissen aus dem Lemma von Bezout 1 = ax + my mit x, y ∈ Z . Setze b := x . Dann ist ab − 1 = −my = m(−y) . Die obige Folgerung können wir so lesen, dass bei Teilerfremdheit von a und m zu a eine Zahl b existiert, die die Gleichung a · b ≡ 1 mod m löst; wir kommen darauf zurück. C. Huygens entwickelte Kettenbruchentwicklungen, als er ein Zahnradmodell (siehe die illustrierende Abbildung 20) des Sonnensystems bauen wollte. Gesucht wurden möglichst einfache Brüche“ für die gelten sollte: ” Zahnzahl von Zahnrad 1 Umlaufzeit von Planet 1 = . Zahnzahl von Zahnrad 2 Umlaufzeit von Planet 2 Werden die Umlaufzeiten der Planeten sehr genau gemessen, dann kann rechts ein Bruch mit sehr großem Zähler und Nenner entstehen. Der euklidische Algorithmus gilt als Mus” terbeispiel“ eines effizienten Algorithmus mit vielfältigen Anwendungen. Eigentlich müssten wir nun eine Analyse der Komplexität des euklidischen Algorithmus durchführen, wenn wir die Behauptung, dass dieser Algorithmus sehr effizient ist, belegen wollten. Wir verzichten darauf, ohne zu vergessen, auf ein Beispiel hinzuweisen, das den worst case des Algorithmus beschreibt: die Berechnung des größten gemeinsamen Teiler zweier aufeinanderfolgender Fibbonacci-Zahlen, die wir nun einführen wollen. Abbildung 20: Zahnräder Hier sind sie von Interesse bei der Untersuchung der Schnelligkeit des euklidischen Algorithmus. Im euklidischen Algorithmus werden die Reste rk+1 umso schneller klein, je größer die Quotienten qk sind. Betrachten wir den euklidischen Algorithmus für das Paar zweier aufeinanderfolgenden Fibonacci–Zahlen, also a = fn+1 , b = fn für ein n ∈ N . Aus der Rekursionsgleichung der Fibonacci–Zahlen folgt unmittelbar fn+1 = 1 · fn + fn−1 fn = 1 · fn−1 + fn−2 .. . f3 = 1 · f2 + f1 f2 = 1 · f1 Stand: 21. November 2011 62 c J. Baumeister, T.G. Macedo 6.5 Modulares Rechnen Da f1 = 1 gilt, folgt: je zwei aufeinanderfolgende Fibonacci-Zahlen sind teilerfremd und jeder Quotient qk ist gleich 1. Dies ist der ungünstigste Fall, was die Anzahl der Schritte in Abhängigkeit von der Größe der Ausgangszahlen betrifft. Beim euklidischen Algorithmus für fn+1 , fn sind, wie gesehen, n Schritte nötig. Da fn in Abhängigkeit von n exponentiell wächst, folgt, dass die Anzahl der Schritte beim euklidischen Algorithmus zur Berechnung eines größten gemeinsamen Teilers ggT(a, b) höchstens logarithmisch in der Stellenanzahl der Eingabedaten a, b, d.h. linear mit der Stellenzahl von a, b wächst: der Aufwand ist also vergleichbar mit dem Aufwand, der bei der Multiplikation von a und b anfällt. Der euklidische Algorithmus ist damit eine sehr effiziente Methode zur Berechnung des größten gemeinsamen Teilers großer Zahlen. Er benötigt insbesondere nicht die Primfaktorzerlegung der Zahlen a, b . 6.5 Modulares Rechnen Die modulare Arithmetik geht auf Gauß zurück. Sie beschreibt das Rechnen mit Resten: man gibt sich eine natürliche Zahl m vor – diese Zahl nennen wir Modul – und ersetzt“ ” jede ganze Zahl a durch ihren Rest r, der bei Division von a durch m entsteht; siehe Satz 6.7. Die Zahlen a, die bei Division mit Rest den gleichen Rest ergeben, fasst man zu einer Klasse, den Restklassen zusammen. Die Restklassen sind nun so definiert: Zm := {[0], [1], . . . , [m − 1]} wobei [i] := {z ∈ Z|z = qm + i für ein q ∈ Z} , Dass die Menge Zm m Elemente hat, ergibt sich aus der Tatsache, dass m Reste gemäß Satz 6.7 auftreten können. Beachte, dass etwa die Restklasse [1] auch als die Restklasse [m + 1] beschrieben werden kann: wir haben in der Definition von Zm ein naheliegendes Representantensystem“ gewählt. Für m = 11 haben wir etwa ” [3] = [25] = [−8] = [91] . Beispiel 6.13 Für m = 2 erhalten wir gerade die Einteilung der natürlichen Zahlen in die Klassen gerade Zahlen (Restklasse [0]) und ungerade Zahlen (Restklasse [1]). Für diese Klassen hat man in natürlicher Weise eine Addition und eine Multiplikation: gerade + gerade = gerade , ungerade + gerade = ungerade gerade · gerade = gerade , ungerade · gerade = gerade Die Beobachtung aus Beispiel 6.13 bezüglich Addition, Multiplikation schreiben wir nun fort auf Zm : Addition: [i] + [j] := [i + j] , i, j ∈ {0, 1, . . . , m − 1} ; Multiplikation: [i] · [j] := [i · j] , i, j ∈ {0, 1, . . . , m − 1} . Beachte, dass die Verknüpfungssymbole +, · in zweifacher Bedeutung auftreten: als Addition, Multiplikation in Zm und in Z . Damit dies wohldefiniert ist, muss noch gezeigt werden: aus [i] = [i0 ], [j] = [j 0 ] folgt [i + j] = [i0 + j 0 ] und [ij] = [i0 j 0 ] (Unabhängigkeit von den Repräsentanten). Wir beweisen dies am Beispiel der Multiplikation. [i] = [i0 ], [j] = [j 0 ] bedeutet i0 = pm + i, j 0 = qm + j für p, q ∈ Z . Daraus folgt i0 j 0 = (pm + i)(qm + j) = (iqm + jpm + pqm)m + ij also [ij] = [i0 j 0 ] . Stand: 21. November 2011 63 c J. Baumeister, T.G. Macedo 6.5 Modulares Rechnen Assoziativgesetz Klammern fürfen bei der Addition beliebig gesetzt werden: ([i] + [j]) + [k] = [i] + ([j] + [k]) , i, j, k ∈ {0, 1, . . . , m − 1} . Neutrales Element [0] ist das neutrale Element für die Addition: [i] + [0] := [i] , i, j ∈ {0, 1, . . . , m − 1} . Inverses [m − i] ist das Inverse von [i] bezüglich der Addition: [m − i] + [i] = [m − i + i] = [m] = [0] . Kommutativgesetz Die Summanden dürfen bei der Addition vertauscht werden: [i] + [j] = [j] + [i] , i, j ∈ {0, 1, . . . , m − 1} . Die angeführten Eigenschaft fasst man zusammmen in der Aussage: (Zm , +) ist eine kommutative Gruppe. Beachte, dass diese Eigenschaften auch für die ganzen Zahlen gelten, also dass auch (Z, +) eine kommutative Gruppe ist. Für die Multiplikation ist die Situation nicht ganz so komfortabel. Zwar gelten die Aussagen Assoziativgesetz Klammern fürfen bei der Multiplikation beliebig gesetzt werden: ([i] · [j]) · [k] = [i] · ([j] · [k]) , i, j, k ∈ {0, 1, . . . , m − 1} Neutrales Element [1] ist das neutrale Element für die Multiplikation: [i] · [1] := [i] , i, j ∈ {0, 1, . . . , m − 1} Kommutativgesetz Die Faktoren dürfen bei der Multiplikation vertauscht werden: [i] · [j] = [j] · [i] , i, j ∈ {0, 1, . . . , m − 1} aber die Eigenschaft über das Inverse gilt nicht allgemein. Ein Gegenbeispiel folgt aus [2] · [2] = [2 · 2] = [0] in Zm für m = 4 , denn hier kann [2] kein Inverses bezüglich der Multiplikation haben, da stets [i] · [0] = [i · 0] = [0] ist. Aber man kann die Vermutung haben, dass diese Schwierigkeit im Fall, dass m eine Primzahl ist, nicht auftritt. Dies trifft zu und wir halten fest: (Zm , ·) ist eine kommutative Gruppe bezüglich der Multiplikation, falls m eine Primzahl ist, wobei wir den Beweis noch nicht eigentlich erbracht haben, aber die Vorarbeit ist in Lemma 6.12 geleistet: jedes Element [a] hat ein Inverses bezüglich der Multiplikation. Hier sind die Gruppentafeln – so nennt man die vollständige Auflistung der Verknüpfungen der Gruppenelemente innerhalb einer Gruppe – für m = 5 . Man beachte, dass sowohl in der Gruppentafel zur Addition als auch in der Gruppentafel zur Multiplikation in jeder Zeile und Spalte jede Klasse genau einmal vertreten ist. Beachte ferner, dass die Potenzen des Elements [2] alle Elemente von Z∗5 := Z5 \{[0]} durchlaufen: [2]0 = [1] , [2]1 = [2] , [2]2 = [4] , [2]3 = [3] , [2]4 = [1] . Man nennt eine Gruppe, die ein solches zyklisches Element besitzt, eine zyklische Gruppe. Wir führen noch eine andere Schreibweise ein. Mit u, v ∈ Z schreiben wir: u≡v Stand: 21. November 2011 mod m : ⇐⇒ [u] = [v] ⇐⇒ m|(u − v) . 64 c J. Baumeister, T.G. Macedo 6.5 Modulares Rechnen + [0] [1] [2] [3] [4] [0] [0] [1] [2] [3] [4] · [1] [2] [3] [4] [1] [1] [2] [3] [4] [0] [1] [1] [2] [3] [4] [2] [2] [3] [4] [0] [1] [2] [2] [4] [1] [3] [3] [3] [4] [0] [1] [2] [3] [3] [1] [4] [2] [4] [4] [0] [1] [2] [3] [4] [4] [3] [2] [1] (b) (a) Abbildung 21: Gruppentafeln zu Z5 Beispiel 6.14 Wie sehen die beiden letzten Dezimalstellen von 242008 aus? Dies ist die Frage nach dem Rest von 242008 modulo 100 . Wir rechnen induktiv nach: 24k ≡ (−1)k+1 · 24 mod 100 , k = 1, 2, . . . . Induktionsbegin k = 1: Klar Induktionsschluss k → k + 1: 24k+1 ≡ (24k ·24) ≡ (−1)k+1 ·24·24 ≡ (−1)k+1 (600−24) mod 100 ≡ (−1)k+2 ·24 mod 100 Daraus folgt also 242008 ≡ −24 mod 100 ≡ 76 mod 100 , was bedeutet, dass die Zahl 22008 mit 76 endet. Beispiel 6.15 Jede Zahl 10k hat wegen 10k − 1 10 = 9 · + 1 = 9 · (10k−1 + · · · + 100 ) + 1 10 − 1 k den Rest 1 modulo 9. Dies hat die Konsequenz, dass jede Dezimalzahl z = an an−1 · · · a0 = an 10n + an−1 10n−1 + · · · + a0 100 modulo 9 den Rest an + · · · + a0 hat. Dies ist die so genannte Quersummenprobe auf Teilbarkeit durch Neun: eine Zahl z hat bei Teilung durch Neun genau dann den Rest r, wenn ihre Quersumme bei Teilung durch Neun den Rest r hat. Daraus resultiert die Neunerprobe, eine Methode, die es gestattet, den Nachweis einer fehlerhaften Addition, Subtraktion oder Multiplikation ohne lange Rechenoperationen zu erbringen: man berechnet die Neunerreste der beiden Operanden und des Ergebnisses, was man durch sukzessives Bilden von Quersummen tun kann. Hier ist ein Beispiel für die Anwendung. Ist die Behauptung 40752 · 32111 = 1308587572 richtig? Nein, denn die Neunerreste erfüllen die Gleichung nicht: Neunerrest von 40752 ist 0, denn: 4 + 0 + 7 + 5 + 2 = 18, 1 + 8 = 9 Neunerrest von 32111 ist 8, denn: 3 + 2 + 1 + 1 + 1 = 8 Neunerrest von 1308587572 ist 1, denn: 1 + 3 + 0 + 8 + 5 + 8 + 7 + 5 + 7 + 2 = 46, 4 + 6 = 10, 1+0 = 1 Beachte, eine umgekehrte Anwendung ist nicht erlaubt: wenn die Neunerprobe keinen Widerspruch aufweist, muss das Ergebnis nicht korrekt sein. Kombiniert man die Neunerprobe etwa mit der Elferprobe – wir gehen hier nicht darauf ein – dann erhält man aus der Korrektheit der Proben schon eine ziemliche Sicherheit für die Korrektheit der Rechnung. Stand: 21. November 2011 65 c J. Baumeister, T.G. Macedo 6.5 Modulares Rechnen Modulares Rechnen wird für Berechnungen mit dem Computer wichtig, wenn mit sehr großen ganzen Zahlen exakt gerechnet werden soll. Sei a ∈ N . Man wählt verschiedene Moduln m1 , . . . , ml und berechnet die Reste r1 , . . . , rl von a bezüglich dieser Moduln. Der Rest r von a bezüglich des Moduls m := m1 · · · ml ist dann gleich r1 · · · rl und er legt a eindeutig fest, wenn a zwischen 0 und m − 1 liegt. Ist a ≥ m, dann liegt a immerhin noch in der Restklasse [r] bezüglich des Moduls m. Beispiel 6.16 Betrachte die Multiplikation der Zahlen 102, 99: 102 · 99 =????? . Wir wählen (geschickt) die Moduln m1 = 9, m2 = 10, m3 = 11 und erhalten folgende Reste für das Produkt: 102 · 99 ≡ (99 + 3) · (99 + 0) ≡ 3 · 0 ≡ 0 mod 9 ; 102 · 99 ≡ (100 + 2) · (100 − 1) ≡ 2 · (−1) ≡ −2 mod 10 ; 102 · 99 ≡ (99 + 3) · (99 + 0) ≡ 3 · 0 ≡ 0 mod 11 . Eine Lösung der Gleichungen ist x = 198 . Alle weiteren Lösungen sind x = 198 + km1 m2 m3 , k ∈ Z . Aus einer Größenordnungsbetrachtung folgt: 102 · 99 = 198 + 10 · 990 ist die Lösung der Multiplikation. Das Ergebnis, das die Rechnung in Beispiel 6.16 rigoros macht, ist der Chinesische Restesatz; siehe [32] und [34]. Bibliographische Anmerkungen Die Idee des euklidischen Algorithmus ist nicht nur auf Zahlbereiche begrenzt; siehe [1]. In der Informatik ist er ein bedeutendes Hilfsmittel. Kettenbrüche sind ein wichtiges Hilfsmittel beim Studium der irrationalen Zahlen und ihrer Approximation durch rationale Zahlen; siehe [52]. Gruppentheorie ist in der Mathematik ein zentrales Thema mit Ausstrahlung in nahezu jede Teildisziplin. Einführendes kann nach gelesen werden etwa bei [1, 32, 86]. Zum modularen Rechnen siehe etwa [Sei07]. Zu Quasizufallszahlen siehe [36]. Stand: 21. November 2011 66 c J. Baumeister, T.G. Macedo 7 Kongruenzgeneratoren Random numbers should not be generated with a method chosen at random Donald E. Knuth Die Klasse der Kongruenzgeneratoren, die wir nun besprechen wollen, nutzen die modulare Rechnung. Sie lassen sich in ihrer Qualität bzw. in ihrer Schwäche gut beurteilen und sie sind für Anwendungen sehr interessant, da sie sich einfach realisieren lassen. 7.1 Lineare Kongruenzgeneratoren Um die umständliche Verwendung von Tabellen zu vermeiden, werden im Allgemeinen Folgen von Zufallszahlen verwendet, die durch Iterationen, also rekursives Rechnen, hergestellt werden. Diese Zufallszahlen – wir nennen sie meist Pseudozufallszahlen – haben den Vorteil, dass sie reproduzierbar sind, und haben den Nachteil, dass sie deterministischen Charakter besitzen. Zunächst einige allgemeine Bemerkungen; sie schließen an an die Betrachtungen zu dynamischen Systemen. Sei M eine endliche Menge und f eine Abbildung von M nach M, also f : M −→ M . Die Iteration dieser Abbildung sieht so aus: xn+1 := f (xn ) , n ∈ N0 , (32) Die Folge ist durch die Wahl von x0 vollständig bestimmt. Es entsteht ein Orbit x1 , x2 , x3 , . . . ; wir schreiben ihn als Folge (xn )n∈N . Da die Menge M endlich ist, können nicht alle Folgenglieder xn verschieden sein. Es gibt also Indizes k, l mit xk = xl ; o. E. k > l . Seien k, l die ersten Indizes, für die dies eintritt, und sei damit r := k − l . Da xk = xl gilt, folgt xn+r = xn für alle n ≥ l . Also wird der Orbit (xn )n∈N periodisch mit Periode r ; wir sagen, dass wir einen Zyklus der Länge r haben. Verlangt man, dass jedes Element der Menge M die Chance hat im Orbit aufzutauchen, muss der Zyklus ganz M umfassen. Aus dieser Forderung folgt, dass die Abbildung f surjektiv sein muss, d.h. dass jedes Element y in M als Bild unter f geschrieben werden kann, also y = f (x) mit einem x ∈ M . Da M endlich ist, hat dies zur Konsequenz, dass dann dieses x eindeutig bestimmt sein muss, d.h. dass f auch injektiv sein muss. Also hat die Forderung, dass für den Zyklus r = #M gilt, zur Folge, dass f surjektiv und injektiv, also bijektiv ist. Die Iteration der Form (32) umfasst die Situation der diskreten dynamischen Systeme und damit auch der chaotischen diskreten dynamischen Systeme, allerdings dann unter Verzicht auf die Endlichkeit der Menge M . Wir werden in Kapitel 9 ein Beispiel dieser Art kennenlernen. Kommen wir nun zur Realisierung von (32) für die Zwecke der Erzeugung von PseudoZufallszahlen. Wir wählen dazu M := Zm ; f : Zm 3 [x] 7−→ [ax + b] ∈ Zm , (33) mit einem Modul m . Hier sind a, b ∈ Z . Damit lautet die Rechenvorschrift (32) xn+1 := axn + b mod m , n ∈ N . (34) Wir bezeichnen (34) auch als affinen Kongruenz–Generator. Stand: 21. November 2011 67 c J. Baumeister, T.G. Macedo 7.1 Lineare Kongruenzgeneratoren Bemerkung 7.1 Durch die Generatoren in (34) werden Zahlen in M := {0, 1, . . . , m−1} erzeugt. Aus einer Zahl y ∈ {0, . . . , m − 1} ergibt sich dann eine Zahl z in [0, 1] ganz y einfach so: z := m . Damit können wir sagen, dass in (34) ein Generator für Pseudozufallszahlen in [0, 1] beschrieben ist. Ein guter Generator sollte Zykluslänge r := m haben. Wie wir oben gesehen haben, ist dann für f die Bijektivität sicherzustellen. Die Forderung der Bijektivität von f hat Konsequenzen für die Wahl der Zahlen m, a, b . Für die Klärung der Frage, unter welchen Bedingungen dieser Typ von Generatoren einen Zyklus maximaler Länge erzeugt, dient folgender Satz: Satz 7.2 Mit m, a, b ∈ Z, m ≥ 2 , betrachte die Abbildung f : {0, . . . , m − 1} 3 x 7−→ ax + b mod m ∈ {0, . . . , m − 1} . (35) Für beliebiges x0 ∈ {0, . . . , m − 1} sei die Folge (xn )n∈N definiert durch xn+1 := f (xn ) , n ∈ N 0 . Genau dann ist diese Folge periodisch mit der maximalen Periodenlänge m für alle Startwerte x0 , wenn folgende Bedingungen erfüllt sind: a) p|(a − 1) für alle Primteiler p von m ; b) 4|(a − 1) falls 4|m ; c) b und m sind teilerfremd. Den Beweis dieses Satzes findet man in [32]. Satz 7.2 nennt uns die Bedingungen für einen affinen Kongruenz–Generator, damit er der Minimalforderung, einen Zyklus maximaler Länge zu erzeugen, genügt. Jedoch garantieren diese Bedingungen noch lange keinen guten Zufallsgenerator, wie nachfolgendes Beispiel zeigt; damit der erzeugte Orbit als eine Folge von Zufallszahlen angesehen werden kann, sollten die Elemente von M darin in einer guten Durchmischung“ vorkommen. ” Beispiel 7.3 Betrachte für einen beliebigen Modul m den Generator f (x) :≡ x + 1 mod m . Kein Zweifel, die Zykluslänge ist maximal für jeden Startwert, nämlich m, aber die erzeugte Folge 0, 1, 2, . . . , m − 1, 0, 1 . . . kann sicherlich nicht den Anspruch einer Zufallsfolge erheben. Beispiel 7.4 Betrachte die spezielle Wahl m = 10, a = b = 7 . Hier ist der erzeugte Zyklus 7, 6, 9, 0, 7, 6, 9, 0, . . . ziemlich kurz. Beachte, Voraussetzung a) in Satz 7.2 ist nicht erfüllt. k In der Praxis wird häufig ein Modul √ 2 verwendet (und dazu in der √ der Form m = Regel der Multiplikator a im Bereich m < a < m − m). In diesem Fall bedeuten die Bedingungen des Satzes 7.2 einfach a ≡ 1 mod 4 und b ungerade . Stand: 21. November 2011 68 (36) c J. Baumeister, T.G. Macedo 7.2 7.2 Einige verwendete Generatoren Einige verwendete Generatoren Wir listen hier ein paar gebräuchliche“ Generatoren auf. ” Beispiel 7.5 Von D. Knuth wurde der Generator Modul = 216 , a = 137 , b = 187 vorgeschlagen. Die Zykluslänge ist maximal, da die Bedingungen (36) erfüllt sind. Beispiel 7.6 In der Programmiersprache C++ gibt es einen Generator namens drand48: Modul = 248 , a = 25214903917 , b = 11 . Die Zykluslänge ist maximal, da die Bedingungen (36) erfült sind. Beispiel 7.7 Betrachte die spezielle Wahl m = 231 , a = 65539, b = 0 . Dies ist der Zufallsgenerator RANDU, wie er von IBM in den Computern in den 60er Jahren verwendet wurde. Die maximal erreichbare Zykluslänge r ist hier nicht ganz maximal, aber mit r = 229 nahezu maximal. Beispiel 7.8 Der Lewis-Goodman-Miller-Generator wird beschrieben durch xn = 16807 xn−1 mod 231 − 1 . Hier ist also m = 231 − 1, a = 16807, b = 0 . Bedingung (36) ist hier verletzt. Beispiel 7.9 Ein weiterer Generator: Modul = 216 , a = 193 , b = 73 . Die Zykluslänge ist maximal, da die Bedingungen (36) erfüllt sind. Als Erläuterung sei hier noch ein Kongruenzgenerator erwähnt, der der Erzeugung der Fibonacci-Zahlen nachgebaut ist. Hier lautet die Iteration xn+2 := xn+1 + xn mod m , n ∈ N0 . (37) Offensichtlich werden hier zwei Startzahlen x0 und x1 benötigt. Als Beispiel sei m = 13 als Modul des Fibonacci-Generators und x0 = 1 und x1 = 1 als Startwerte festgelegt. Die Berechnung des Orbits zeigt, dass sich ein Zyklus von 28 Zahlen einstellt, also eine Periodenlänge größer als der Modul m = 13 . Es gibt Sätze über die Periodenlänge von Zufallsgeneratoren. Für m = 2k beträgt die Periode eines Fibonacci-Generators unabhängig von der Wahl der Startwerte x0 und x1 stets 3 · 2n − 1, falls mindestens ein Startwert von Null verschieden ist. Ein Beispiel für einen guten Fibonacci-Generator ist gegeben für den Modul m = 235 . 7.3 Geometrische Beobachtungen Da die Abfolge der Pseudozufallszahlen durch den Generator festgelegt ist, besteht eine Korrelation zwischen aufeinander folgenden Zufallszahlen. Um Aufschluss über die Korreliertheit/Unkorreliertheit zu erhalten, sollte man daher Paare, Trippel,. . . von Zufallszahlen betrachten und deren geometrische Verteilung“ untersuchen.43 Wir skalieren“ dazu ” ” die Zufallszahlen mit Modul m gemäß ui := xi ∈ [0, 1] , i ∈ N0 . m 43 Eine Anwendung“ der folgenden Pärchenbildung ist die Abtastung eines Schachbretts: will man ” jedes Feld zufällig besuchen, so braucht man zufällige Koordinaten. Stand: 21. November 2011 69 c J. Baumeister, T.G. Macedo 7.3 Geometrische Beobachtungen (a) (b) Abbildung 22: Geometrische Einsichten In (a) von Abbildung 22 haben wir dies für den Generator mit a =, b =, c = getan. Die Korrelation wird sehr deutlich, insbesondere im Vergleich mit der Graphik (b), in der ein perfekter Zufallsregen“ dargestellt ist. ” Betrachten wir den Generator RANDU genauer. Wir haben hier xi+1 ≡ (65539)2 xi−1 mod 231 ≡ (216 + 3)2 xi−1 mod 231 ≡ (6xi − 9xi−1 ) mod 231 und daher xi+1 − 6xi + 9xi−1 = k · 231 mit k ∈ Z . Dies bedeutet für die normalisierten“ Zufallszahlen ui := xi 2−31 ” ui+1 − 6ui + 9ui−1 = k mit k ∈ Z . (38) Da 0 < ui+1 < 1 gilt – beachte, dass daher ui+1 − 6ui + 9ui−1 nur die Werte −5, −4, . . . , 9 3 annehmen kann – müssen die Tripel (ui+1 , ui , ui−1 ) auf Ebenen im Einheitswürfel [0, √ 1] liegen, und zwar auf nicht mehr als 15 Stück, die jeweils einen gleichen Abstand 1/ 118 haben. Neben der mangelnden Maximalität der Zykluslänge ein weiterer Nachteil dieses Generators. Von vielen wird er daher für den Müllhaufen der Informatik-Geschichte freigegeben. Vergleichen wir die geometrische Verteilung der Paare (ui+1 , ui ) in [0, 1] × [0, 1] für die Generatoren aus Beispiel 7.5 und Beispiel 7.9. Man kann Geraden entdecken, worauf alle Zufallszahlen liegen, 21 im ersten Fall, 8 im zweiten Fall; die Streifen dazwischen sind frei von den erzeugten Zufallspaaren. Der maximale Abstand von solchen Streifen ist bei 1 bei Beispiel 7.5, √132 bei beiden Generatoren dementsprechend ziemlich verschieden: √274 Beispiel 7.9. Dies bedeutet, dass der Generator 7.5 größeres Vertrauen genießen sollte. Bemerkung 7.10 Der Blum-Blum-Shub-Generators nutzt ebenfalls die Modulo-Rechnung, wobei der Modul m als Produkt zweier sehr großer Primzahlen ist. Die Iteration erfolgt nach xn+1 = x2 mod m . Stand: 21. November 2011 70 c J. Baumeister, T.G. Macedo 7.4 Statistische Tests Die Iterationszufallszahlenfolge des Blum-Blum-Shub-Generators wird weniger zu Simulationszwecken als zu modernen Codierungsverfahren benutzt. Der derzeit beste“ Generator ist wohl der Mersenne-Twister-19937-Generator, lie” fert er doch Zufallszahlen, die als Tupel selbst im 623-dimensionalen Einheitswürfel noch gleichverteilt sind, die geometrische Korreliertheit ist also sehr gering, und der eine Periodenlänge von 219937 − 1(≈ 4, 3 · 106001 ) besitzt. Diese Periodenlänge erklärt auch den Namen des Algorithmus: Sie ist eine Mersenne-Primzahl und einige Eigenschaften des Algorithmus resultieren aus dieser Eigenschaft. In Abschnitt 7.2 haben wir einen Generator angeführt, der mit Fibonacci-Zahlen arbeitet. Ein oberflächliche Analyse könnte vortäuschen, dass er wesentlich bessere geometri” sche“ Eigenschaften besitzt. Dem ist aber nicht so. Die geometrischen Unzulänglichkeiten zeigen sich bei der Darstellung von Tripeln im dreidimensionalen Raum sehr deutlich; siehe etwa [3]. 7.4 Statistische Tests Die erzeugten Zahlen können durch Tests auf ihre Gleichverteilung untersucht werden. Ergenbisse solcher Tests sind üblichreweise Maßzahlen, die in naheliegender Weise als Qualitätsangabe interpretiert werden können. Manchmal ist es möglich, solche Maßzahlen mathematisch herzuleiten. Man spricht dann von theoretischen Tests (im Gegensatz zu empirischen Tests). Tests, die in Gebrauch sind: • Chi-Quadrat-Test • Kolmogorov-Smirnov-Test • Poker-Test • Run-Test Im Allgemeinen führen erst Kombinationen von Tests zu aussagekräftigen Ergebnissen. Wir besprechen den Chi-Quadrat-Test etwas genauer, zu den übrigen machen wir ein paar Anmerkungen. Der von Karl Pearson um 1900 herum entwickelte Chi-Quadrat-Test (χ2 -Test) ist eines der ältesten und mächtigsten Testverfahren der Statistik. In der einfachsten Form dient es der Prüfung der Verträglichkeit von beobachteten relativen Häufigkeiten – hier in einer Zufallsfolge – mit hypothetischen Wahrscheinlichkeiten. Er testet nach Zuordnung der erzeugten Zufallszahlen zu Kategorien, ob die Kategorie der einer gegebenen Verteilung, hier die Gleichverteilung, entsprechende Anzahl enthält. Bei dem Problem der Zufallsfolgen sind wir in der Praxis genötigt, einen endlichen Abschnitt zu testen. Wir teilen dazu die vorliegenden Zufallszahlen xi , i = 1, . . . , n , in disjunkte Kategorien Kj , j = 1, . . . , l, die den Raum der möglichen Zufallszahlen ausschöpfen, ein. Das Eintreten der Kategorie Kj unter der Annahme der Gleichverteilung sei durch die Wahrscheinlichkeit pj gegeben; kj sei die Anzahl der Zufallszahlen, die der Kategorie Kj angehören. Damit ist auch klar, dass k1 + · · · + kl = n gilt. Diese Identität begründet auch, dass man (nur) von l − 1 Freiheitsgraden in der Testanordnung“ spricht. Das Ziel ist ein Test der einfachen Hypothese ” k H0 : pj = nj für jedes j = 1, . . . , l gegen die Alternative Stand: 21. November 2011 71 c J. Baumeister, T.G. Macedo 7.4 Statistische Tests H1 : pj 6= kj n für ein j ∈ {1, . . . , l} . Die auf Pearson zurückgehende Idee besteht nun darin, eine handhabare Testgröße anzugeben, die es gestattet, bei einer kritischen Größe die Hypothese H0 (mit Recht) abzulehnen. Diese Testgröße ist l X (kj − npj )2 2 ; χ := npj j=1 man nennt sie die χ2 -Statistik mit l − 1 Freiheitsgraden. Wie aus der Darstellung ersichtlich, erhalten seltene Kategorien“ eine hohe Gewichtung und der χ2 -Wert ist umso ” größer, je stärker die Abweichung zwischen beobachteter und theoretischer Verteilung ist. Wenn er eine bestimmte Schranke c überschreitet, so verwirft man die Hypothese der Übereinstimmung beider Verteilungen. Wie üblich, gibt man sich ein Testniveau α > 0 (zugelassene Wahrscheinlichkeit für einen Fehler erster Art) vor und passt dann die kritische Größe c an. Es ist nun der Vorteil des χ2 -Tests, dass c aus einer Tabelle in Abhängigkeit von der Anzahl der Freiheitsgrade (für große n) und α abgelesen werden kann; siehe etwa [38], Seite 259. Zum Beispiel findet man den Tabellenausschnitt α n = 11 0.01 3.053 0.05 4.575 0.25 7.584 0.5 10.34 0.75 13.70 0.95 19.68 0.99 24.72 Beispiel 7.11 Betrachte die Bitkette der Länge 50: 10101 00000 01111 01000 10001 01011 00110 01000 10001 00010 . Wir finden 19 1-Bits und 31 0-Bits. Da bei einer unterstellten Gleichverteilung für das Auftreten eines 1-Bits mit der Wahrscheinlichkeit 12 zu rechnen ist, erhalten wir für den χ2 -Wert: (19 − 25)2 (31 − 25)2 36 36 χ2 = + = + = 2.88 . 25 25 25 25 Die Tabelle in [38] weist als kritischen Wert c = 2.71 für α := 0.1 und c = 3.84 für α = 0.05 aus (Freiheitsgrad =1). Damit lehnen wir die Hypothese zu H0 im Fall α := 0.1 ab und verwerfen H0 im Fall α := 0.05 nicht. Eine gewisse Verfeinerung des Chi-Quadrat-Tests stellt der Kolmogorov-SmirnovTest dar; er ist ein statistischer Test auf Übereinstimmung zweier Wahrscheinlichkeitsverteilungen. Ein weiteres Hilfsmittel der Statistik, Verteilungseigenschaften nachzuprüfen, sind so genannte Run-Tests. Hier wird etwa untersucht, ob die Anzahl und Länge gleichbleibender/aufsteigender Zahlenfolgen in Übereinstimmung mit der Gleichverteilung sind. Der Poker-Test betrachtet Gruppen zu je 5 aufeinanderfolgenden Zahlen und beobachtet, welches der folgenden 7 Muster – manchmal betrachtet man nur 5 Fälle – mit dem Quintupel übereinstimmt. Wir machen dies deutlich mit dem Alphabet {a,b,c,d,e} . Die Muster sind: Poker-Kombination Wort-Kombination Erwartete Häufigkeit Alle verschieden abcde 0.302 Ein Paar aabcd 0.504 Zwei Paare aabbc 0.108 Drei Gleiche aaabc 0.072 Full house aaabb 0.009 Vier gleiche aaaab 0.0045 Fünf gleiche aaaaa 0.0001 Stand: 21. November 2011 72 c J. Baumeister, T.G. Macedo 7.5 Anwendung von Zufallszahlen: One-Time-Pad Auf diese Anzahlen wird ein Chi-Quadrat-Test angewendet, um herauszufinden, ob die empirische Verteilung in Übereinstimmung mit der Gleichverteilung ist. 7.5 Anwendung von Zufallszahlen: One-Time-Pad Auf Gilbert Sandford Vernam (1890-1960) geht ein (symmetrisches) Verschlüsselungsverfahren zurück, das nachweislich nicht geknackt werden kann, wenn es fehlerfrei eingesetzt wird, das One Time Pad oder Einmal-Block-Verfahren oder Einmalschlüssel-Verfahren. Der Amerikaner Joseph O. Mauborgne (1881-1971) setzte diese Idee um und nannte das Verfahren One-Time Pad“. Kurz darauf arbeiteten auch die Deutschen Wer” ner Kunze, Rudolf Schauffler und Erich Langlotz an dieser Methode. Sie schlugen im Jahr 1921 vor, Blöcke, die mit zufällig erstellten Ziffern bedruckt waren, zur Verschlüsselung der damaligen diplomatischen Codes zu verwenden. Seit dieser Zeit bis zum heutigen Tag, speziell auch während der Zeit des Kalten Krieges, wird dieses Verfahren verwendet. Beispielsweise war der Heiße Draht (auch als das Rote Telefon“ bekannt), also die hochsi” chere direkte Fernschreibverbindung zwischen dem amerikanischen Präsidenten und dem sowjetischen Generalsekretär, durch ein Einmalschlüssel-Verfahren geschützt. Was hat diese Tatsache mit dem Thema Zufallszahlen zu tun? Das One-Time-Pad ist ein sicheres Verfahren zum Verschlüsseln von Daten mit Hilfe eines Schlüssels, der Zufallszahlen benötigt. Ein Schlüssel besteht aus mehreren zufällig ausgewählten Zahlen zum Verschlüsseln von kleinen Datenmengen. Bei der Realisierung muss der Schlüssel mindestens so lang sein wie die Nachricht selbst und er muss zufällig sein. Außerdem darf er nur ein einziges Mal verwendet werden, da er sonst geknackt werden kann und er muss genauso lang sein wie der Klartext. Der Ursprungstext, oder auch Klartext genannt, der meist aus Buchstaben besteht, wird in Zahlen umgewandelt. Dazu gibt man jedem Buchstaben des Alphabets die Nummer (aus 1, 2, . . . , 26), gezählt vom Anfang A zum Ende Z: A entspricht 1, B entspricht 2, . . . , Z entspricht 26. Um eine Botschaft der Länge n zu verschlüsseln, schreibt man zuerst die in n Zahlen umgewandelten Buchstaben nebeneinander und addiert danach den Schlüssel, bestehend aus n zufällig ausgewählten Zahlen. Das Ergebnis ist der Chiffretext, der zufällige, verschlüsselte Text. Wenn das Ergebnius bei einer Addition größer als 26 ist, errechnet man den Rest mod 26. Die neu erhaltenen Zahlen sind neue Buchstaben, die verschlüsselte Botschaft. Hier ist ein Beispiel: H A L L O 8 1 12 12 15 Ursprungstext/Klartext + 6 15 10 8 18 Schlüssel 14 16 22 20 33 mod 26 14 16 22 20 7 Chiffretext Beim Entschlüsseln benötigt man den Chiffretext und den Schlüssel. Man addiert zuerst zu 26 den Chiffretext und subtrahiert dann den Schlüssel vom Ergebnis. Danach rechnet man das Ergebnis mod 26. Dieses Verfahren muss man mit jedem einzelnen Buchstaben des Klartextes machen. (26-Chiffretext-Schlüssel) mod 26 = Klartext In obigem Beispiel bedeutet dies: Stand: 21. November 2011 73 c J. Baumeister, T.G. Macedo 7.5 (26 + 14 − 6) (26 + 16 − 15) (26 + 22 − 10) (26 + 20 − 8) (26 + 33 − 18) mod mod mod mod mod Anwendung von Zufallszahlen: One-Time-Pad 26 = 8 H 26 = 1 A 26 = 12 L 26 = 12 L 26 = 15 O Abschließend noch die Bemerkung, dass Zufallszahlen nicht nur beim Verschlüsselungsverfahren One time pad“ eine Rolle spielen. Sie sind präsent in nahezu jeder Realisierung ” von Verschlüsselungsverfahren. Bibliographische Anmerkungen Die Generation von Zufallszahlen mit Hilfe von Kongruenzgeneratoren geht auf D.H. Lehmer zurück; siehe [55]. Detailierte Darstellungen findet man u.a. in [32, 36, 49] und [Wor11]. Die Modifikation Inverse Kongruenzgenerator“ wird in [29] untersucht. Die Be” urteilung von Generatoren wird beleuchtet in [35]. Das One-Time-Pad ist ein sicheres Verfahren zum Verschlüsseln von kleinen Datenmengen; als Referenz siehe etwa [15] und [Ber06]. Weitere Literatur zu Themen der Kryptographie sind [6, 16, 23, 47, 80]. Stand: 21. November 2011 74 c J. Baumeister, T.G. Macedo 8 Monte Carlo-Methode Monte Carlo Methoden sind extrem schlecht; sie sollten nur dann verwendet werden, wenn sämtliche Alternativen noch schlechter sind Alan Sokal, 1997 In diesem Kapitel stellen wir die Monte Carlo-Methode, die wir in einer speziellen Situation bei der Berechnung von Flächen im Abschnitt 3.4 schon vorgestellt haben, in allgemeinerem Rahmen dar. Der Begriff Monte Carlo Methode“ kennzeichnet nicht ” einen Algorithmus, sondern eine Gruppe von numerischen Methoden, die Zufallszahlen zur approximativen Lösung oder zur Simulation verschiedener Prozesse einsetzen. Der Einsatz erfordert auch, dass wir auch Erzeugungsmethoden für Zufallszahlen mit allgemeinerer Verteilung kennenlernen. Damit ist eine Begründung dafür geliefert, das Thema der Monte Carlo-Methoden und Fragestellungen der Finanzmathematik hier anzuführen. 8.1 Grundidee der Monte Carlo-Methode Monte-Carlo-Simulation ist ein Verfahren aus der Stochastik/Statistik, bei dem sehr häufig durchgeführte Zufallsexperimente die Basis darstellen. Es wird dabei versucht, mit Hilfe der Wahrscheinlichkeitstheorie analytisch nicht oder nur aufwändig lösbare Probleme numerisch zu lösen. Als Grundlage ist vor allem das Gesetz der großen Zahlen zu sehen. Monte Carlo-Methoden benutzen zur Simulation von realen Vorgängen Zufallszahlen. Die Zufallszahlen können entweder durch Würfeln real oder durch Zufallszahlengeneratoren erzeugt werden. Im Allgemeinen ist der Aufwand, zu guten Ergebnissen zu gelangen, groß. Wir werden sehen, dass sie sich gerade in der Berechnung von Optionspreisen die Monte Carlo-Simulation auf Grund ihrer großen Flexibilität bewähren; siehe unten. Hier geben wir einen allgemeinen Überblick über Monte Carlo-Verfahren. Als Entdecker der Monte Carlo–Simulation gilt de Buffon44 , der als erster die Kreiszahl π durch den Wurf einer Nähnadel auf eine karierte Tischdecke berechnete. Seine Idee war, dass über den zufälligen Winkel zwischen Nadel und parallelem Karomuster der Tischdecke die Zahl π steckt. Mit dem 10 000-maligen Wurf der Nadel konnte er so die Zahl π auf mehrere Stellen genau berechnen. Die genaue Herkunft der Bezeichnung für dieses Verfahren ist umstritten. Enrico Fermi hatte in den 1930er Jahren die ersten Ideen zu Monte-Carlo-Simulationen. Fest steht, dass der Begriff Monte Carlo“ wohl das erste Mal im zweiten Weltkrieg als Deckna” me für eine geheime Forschung im Bereich des amerikanischen Atomwaffenprogramms (Manhattan-Projekt/Neutronendiffusion), an dem J. v. Neumann und S. Ulam beteiligt waren, verwendet wurde. Vermutlich wurde der Name von einem 1862 in Monaco gegründeten Spielcasino abgeleitet. Die Verfahren nach der Monte Carlo-Methode weisen in der Regel folgende Charakteristik auf: • Sie sind häufig die einzige Simulationsmethode, die in vernünftiger Rechenzeit brauchbare Resultate liefert. • Unter Einsatz von mehr Rechenzeit ist Approximationsgüte für die Lösung systematisch verbesserbar. 44 G.L.L. de Buffon, 1707-1788 Stand: 21. November 2011 75 c J. Baumeister, T.G. Macedo 8.1 Grundidee der Monte Carlo-Methode Sie dienen als Näherungsmethoden u.a. bei folgenden Problemgruppen: • Analytische Lösung von Problemen rein mathematischer Herkunft, wie z.B. die Approximation der Kreiszahl π mit Hilfe des Buffonschen Nadelproblems oder der zufälligen Beregnung“ eines Quadrats mit Zufallspunkten, um die Fläche des Ein” heitskreises zu berechnen (siehe Abschnitt 3.4). • Simulation von Modellen wie etwa zur Optionspreisberechnung; siehe unten. • Nachbildung von komplexen Prozessen, die nicht direkt analysiert werden können, wie etwa von Wetter/Klima und soziologischen Phänomenen. • Aufgaben der statistischen Physik. Als Grundlage ist vor allem das Gesetz der großen Zahlen zu sehen. Die Zufallsexperimente können entweder etwa durch Würfeln“ real durchgeführt werden oder durch Erzeugung ” von geeigneten Zufallszahlen. Computergenerierte Vorgänge können den Prozess in ausreichend hoher Anzahl von Zufallsereignissen simulieren. Als Gesetze der großen Zahlen werden bestimmte mathematische Sätze aus der Stochastik bezeichnet. In ihrer einfachsten Form besagen diese Sätze, dass sich die relative Häufigkeit eines Zufallsergebnisses in der Regel der Wahrscheinlichkeit dieses Zufallsergebnisses annähert, wenn das zu Grunde liegende Zufallsexperiment immer wieder durchgeführt wird. Formal handelt es sich also um Konvergenzsätze für Zufallsvariablen, zumeist unterteilt in unterschiedliche Qualitäten der Konvergenz (stark (fast sichere Konvergenz) und schwach (Konvergenz in Wahrscheinlichkeit)). Diese (unterstellte) Gesetzmäßigkeit haben wir schon in vielen Variationen genutzt: beim Münz- und Reißzweckenwurf, bei der Approximation der Kreiszahl π . Die Wahrscheinlichkeit, dass eine Münze beim Werfen Kopf zeigt, betrage 12 . Je häufiger die Münze geworfen wird, desto unwahrscheinlicher wird es, dass der Anteil der Würfe, bei denen Kopf erscheint (also die relative Häufigkeit des Ereignisses Kopf“), um mehr als einen ” beliebigen vorgegebenen Wert von der theoretischen Wahrscheinlichkeit 12 abweicht. Dagegen ist es durchaus wahrscheinlich, dass die absolute Differenz zwischen der Anzahl der Kopf-Würfe und der halben Gesamtzahl der Würfe anwächst. Insbesondere besagen diese Gesetze der großen Zahlen nicht, dass ein Ereignis, welches bislang nicht so häufig eintrat wie erwartet, seinen Rückstand“ irgendwann ausgleichen und folglich in Zukunft ” häufiger eintreten muss. Beispielsweise bedeutet bei fünf Würfen ein Verhältnis von 3:1 für Kopf und Zahl – Kopf hat gewissermaßen einen Vorsprung von 2 – sind die relativen Häufigkeiten 43 bzw. 14 gegeben. Nach 96 weiteren Würfen stellt sich ein Verhältnis von 51 Mal Kopf zu 49 Mal Zahl ein. Der Vorsprung von Kopf ist also nach 100 Würfen genauso groß wie nach vier Würfen, jedoch hat sich der relative Abstand von Kopf und Zahl stark verringert, beziehungsweise – und das ist die Aussage des Gesetzes der großen Zahlen – der Unterschied der relativen Häufigkeit von Kopf zum Erwartungswert von Kopf. Der 51 = 0.51 liegt sehr viel näher beim Erwartungswert 0.5 als 34 = 0.75 . Wert 100 Kommen wir zu einer Formulierung des Gesetzes der großen Zahlen. Es handelt von einer Folge von Zufallsvariablen (Zn )n∈N auf einem gemeinsamen Wahrscheinlichkeitsraum Ω mit Wahrscheinlichkeitsmaß P ; über die Fragen Ereignisraum Σ, Messbarkeit setzen wir uns hinweg. Die n-te Partialsumme dieser Folge von Zufallsvariablen ist die Zufallsvariable 1X Sn := Zk n k=1 n Stand: 21. November 2011 76 c J. Baumeister, T.G. Macedo 8.2 Simulation der Normalverteilung und wir interessieren uns für das asymptotische Verhalten dieses arithmetischen Mittels, also für S := lim Sn . n∈N In den geforderten Voraussetzungen bezüglich der Zufallsfolge (Zn )n∈N und der Qualität der Konvergenz unterscheiden sich die verschiedenen Varianten des Gesetzes der großen Zahlen. Wir geben ein Resultat an Satz 8.1 (Starkes Gestz der großen Zahlen) Die Zufallsvariablen Zn mögen alle den Erwartungswert µ besitzen. Unter geeigneten Voraussetzungen gilt: P (lim Sn = µ) = 1 (39) n Die Konvergenz in (39) nennt man die fast sichere Konvergenz. Was unter geeignete ” Voraussetzungen“ gemeint ist, lassen wir hier offen und verweisen dazu auf die Literatur. Im Kapitel 2 haben wir das Galtonbrett kennengelernt. Aus der Art, wie sich die Fächer füllen, stellt einen Zusammenhang her zur Gaußschen Glockenkurve. Dies lässt sich auch analytisch bestätigen mit dem Ergebnis, dass die so genannte Binomialverteilung als eine gute Approximation der Normalverteilung angesehen werden kann. 8.2 Simulation der Normalverteilung Die Normalverteilung ist ein Verteilungsmodell für kontinuierliche Zufallsvariablen. Sie wurde ursprünglich von C.F. Gauß45 zum Umgang mit Meßfehlern entwickelt mit deqq m der so genannten Gaußschen Fehlerkurve“. Die Normalverteilung unterstellt eine symmetrische Verteilungsform in Form einer Glocke, bei der sich die Werte der Zufallsvariablen in der Mitte der Verteilung konzentrieren und mit größerem Abstand zur Mitte immer seltener auftreten. Die Normalverteilung ist das wichtigste Verteilungsmodell der Statistik und wird für unterschiedlichste Zwecke verwendet: u.a. als deskriptives Modell zur Beschreibung empirischer Variablen, als Stichprobenverteilung des arithmetischen Mittels oder als Näherungslösung für viele andere Verteilungsmodelle. Die Normalverteilung nimmt eine Sonderstellung unter den Verteilungen ein. Dies hängt mit den vielfältigen Anwendungen und, damit einhergehend, der Gültigkeit des Zentralen Grenzwertsatzes zusammen. Zur (numerischen) Beschreibung der Normalverteilung benötigen wir die Dichtefunktion. Sie ist gegeben durch f (x) := fµ,σ (x) := √ 1 e−(x−µ) 2 /(2σ 2 ) , x ∈ R. (40) 2πσ Wie ergeben sich nun daraus die Verteilungsfunktion einer Zufallsvariablen, die normalverteilt ist? Hier ist der Zusammenhang in Worten: Die Wahrscheinlichkeit, dass ein Experiment den Ausgang x zwischen a, b mit a < b hat, wird durch die Fläche unter dem Graphen der Dichtefunktion beschrieben. In mathematischen Termen lautet diese Formulierung etwa so: Ist Z eine Zufallsvariable, die normalverteilt ist mit Erwartungswert µ und Standardabweichung σ, so ergibt sich die Wahrscheinlichkeit, dass Z Werte zwischen a, b mit a < b annimmt durch Z z Z z 1 2 2 √ e−(x−µ) /(2σ ) dx = N (µ, σ)(−∞, b) . (41) P (a < Z ≤ b) = fµ,σ (x)dx = 2πσ −∞ −∞ 45 Carl Friedrich Gauß, 1777-1855 Stand: 21. November 2011 77 c J. Baumeister, T.G. Macedo 8.2 Simulation der Normalverteilung Hierbei haben wir N (µ, σ) als Abbildung auf R × R zu verstehen. Wir müssen hier den Integralbegriff unterstellen, nur soviel: das Integral Rz f (x)dx berechnet die Fläche unter− µ,σ halb des Graphen von fµ,σ zwischen den Grenzen −∞ und z . Man nennt den Spezialfall µ = 0, σ = 1 die Standard-Normalverteilung. Da aus jeder Normalverteilung durch Verschiebung und Skalierung eine Standard-Normalverteilung gemacht werden kann, reicht es, die StandardNormalverteilung zu untersuchen. In der Abbildung 23 liegt der Fall a = µ − σ, b = µ + σ Abbildung 23: Normalverteilung vor. Die Prozentzahl 68.3 besagt, dass die Wahrscheinlichkeit, dass der Ausgang eines Experiments mit einer Wahrscheinlichkeit von 0.683 im Intervall (µ − σ, µ + σ) liegt. Verbreitert man das Fenster um den Erwartungswert µ zu (µ − 2σ, µ + 2σ), so erhöht sich die Wahrscheinlichkeit auf 0.954 . Man kann den Spieß auch umdrehen und fragen, welche Umgebung (µ − zσ, µ + zσ) etwa zu einer Wahrscheinlichkeit von 0.95 führt; sie wird realisiert mit z ≈ 1.96 . In der Literatur findet man Tabellen, die diesen Zusammenhang zum Inhalt haben; siehe [38]. Es gibt ein einfaches Verfahren, aus gleichverteilten Zufallszahlen Zahlen zu konstruieren, die nach einer Standard-Normalverteilung verteilt sind. Dies geht so: Seien x1 , . . . , xn , . . . gleichverteilte, unabhängig voneinander erzeugter Zufallszahlen im Intervall [0, 1] . Wir setzen r 12 n y := (x1 + · · · + xn − ) . n 2 konstruiert man auf diese Weise Zufallszahlen y1 , . . . , yl , . . . , so sind diese Zufallszahlen standard-normalverteilt; der zentrale Grenzwertsatz liefert den Beweis dazu. In der Praxis arbeitet man mit n = 12 . Diese Methode hat u.a. den Nachteil, dass für eine normalverteilte Zufallszahl“ 12 gleichmäßig verteilte Zufallszahlen benötigt werden. ” Seien X1 , . . . , Xn gleichverteilte, unabhängige Zufallsgrößen auf dem Intervall [0, 1] . Wir wissen, dass der Erwartungswert einer gleichmäßig verteilten Zufallsgröße gleich 1/2 1 ist. Wir setzen und die Varianz gleich 12 r 12 (X1 + · · · + Xn − n/2) Y := n und damit gilt r E(Y ) = n 12 X ( E(Xi ) − n/2) = n i=1 r n 12 X 1 ( − n/2) = 0 n i=1 2 und in analoger Rechnung V(Y ) = Stand: 21. November 2011 12 V n n X ! Xi − n/2 = 1. i=1 78 c J. Baumeister, T.G. Macedo 8.3 Simulation der Aktienkurse P Pn Beachte V ( ni=1 Xi ) = i=1 V(Xi ) auf Grund der Tatsache, dass X1 , . . . , Xn als unabhängig angenommen wurden. Der zentrale Grenzwertsatz besagt, dass Y eine StandardNormalverteilung approximiert. In der Praxis wählt man n = 12 . Die eben beschriebene Methode hat u.a. den Nachteil, dass für eine normalverteilte ” Zufallszahl“ 12 gleichmäßig verteilte Zufallszahlen benötigt werden. Ein besseres Verfahren ist das Box-Muller-Verfahren, das wir hier aber mathematisch nicht darstellen und begründen können, da es tiefere Ergebnisse der Analysis schon in der Beschreibung erfordert. Wir geben es allerdings algorithmisch an.46 Algorithm 3 Box-Muller-Algorithmus EIN Zwei gleichverteilte Zufallsgrößen U1 , U2 . p Schritt 1 Setze θ := 2πU2 , ρ := −2 ln(U1 ) . Schritt 2 Setze Z1 := ρ cos(θ) , Z2 := ρ sin(θ) . AUS Z1 , Z2 sind unabhängige standard-normalverteilte Zufallsgrößen. Der Algorithmus ist numerisch recht aufwändig, da Wurzeln, trigonometrische Funktionen und der Logarithmus ausgewertet müssen. Die Polar-Methode von Marsaglia und Bray ([60]) entledigt sich der trigonometrischen Funktionen. Algorithm 4 Marsaglia’s Polar-Methode EIN Zwei gleichverteilte Zufallsgrößen U1 , U2 . Schritt 1 Setze Vi := 2Ui − 1 solange W := V12 + V22 < 1 . p p Schritt 2 Setze Z1 := V1 −2 ln(W )/W , Z2 := V2 −2 ln(W )/W . AUS Z1 , Z2 sind standard-normalverteilte Zufallsgrößen. Die Idee für die Approximation der Kreisfläche aus Abschnitt 3.4 ordnet sich hier ein. Wir legen über den Graphen der Dichte der Standard–Normalverteilung ein hinreichend breites Rechteck [−a, a] × [0, 1]; hinreichend meint, dass außerhalb des Intervalls [−a, a] die Werte der Dichte klein“ sind. Dann erzeugen wir N gleichverteilte Punkte ” (x1 , y1 ), . . . , (xN , yN ) ∈ [−a, a]×[0, 1] und akzeptieren davon die Punkte (x̃1 , ỹ1 ), . . . , (x̃l , ỹl ), die innerhalb der Fläche des Graphens der Dichte zu liegen kommen. Die Punkte x̃1 , . . . , x̃l sind dannn nahezu standard-normalverteilt. Diese so genannte Wegwerfmethode geht auf J. von Neumann (1951) zurück. 8.3 Simulation der Aktienkurse Bevor wir über Optionen oder allgemein über Finanzderivate reden können, sollten wir über die Zutaten“ reden, die hauptsächlich benötigt werden: Aktien, Wertpapiere, Geld’ anlagen, Marktannahmen. 46 Die trigonometrischen Funktionen sin, cos sollten hier zumindest tafelmäßig bekannt sein. ” Stand: 21. November 2011 79 c J. Baumeister, T.G. Macedo 8.3 Simulation der Aktienkurse Aktien Eine Aktie ist ein Anteil am Grundkapital einer Gesellschaft und eine Urkunde, die dem Inhaber seine Rechte verbrieft.47 Eine Aktiengesellschaft erhält durch den Verkauf von Anteilen des Unternehmens Kapital in Höhe des Aktienpreises, das im Gegensatz zum Kredit nicht zurückgezahlt werden muss. Als Kompensation erhält der Aktionär/Aktienkäufer Anspruch auf Einbeziehung bei Dividendenzahlungen, spezielle Bezugsrechte und Mitbestimmungsrechte. Aktienausgaben stellen für Unternehmen alternative Quellen zur Fremdfinanzierung am Finanzmarkt dar. Die Erträge von Aktien sind in der Regel höher als risikolose Geldanlagen, sie sind aber auch mit höheren Risko behaftet. Das Risiko besteht darin, dass Aktien im Preis schwanken, an Wert verlieren können, ja sogar wertlos werden können, wenn die Aktiengesellschaft ihre Existenz“ verliert. Die Risikoeinschätzung geht ein in die Einteilung ” nach ihrer Qualität: Blue Chips Aktien erstklassiger Unternehmen mit sehr guter Marktposition und Erfolg. Zyklische Aktien Aktien, die sehr stark konjunkturabhängig sind (Autowerte, Bauunternehmen,. . . ). Nebenwerte Aktien kleinerer und mittlerer Unternehmen mit heftigeren Kursbewegungen. Penny Stocks Extrem risikoreiche Aktien, deren Wert im Penny“–Bereich liegen. ” Aktien werden hauptsächlich an den Börsen gehandelt. Ihre Kurswerte sind jedem Kapitalinvestor“, insbesondere in Internetzeiten, zugänglich. Die Gründe für die Verän” derung der Aktienkurse sind zum Teil objektiver Natur, zum Teil aber sehr schwer zu durchschauen. Beobachtet man die Kursentwicklung einer Aktie, so stellt man fest, dass sich meist zwei Effekte überlagern: langfristig bestimmender Trend und kurzfristige Einflüsse. Diese Erkenntnis wird im Allgemeinen durch jeden Kursverlauf zumindest über bestimmte Zeiträume bestätigt. Festverzinsliche Wertpapiere Ein Wertpapier ist eine Urkunde, die ein Vermögensrecht verbrieft, etwa die Miteigentümerschaft an einem Unternehmen. Wertpapiere sind zum Beispiel Aktien, Anleihen, Schecks und Wechsel. Börsenfähige Wertpapiere werden als Effekten bezeichnet. Unter festverzinslichen Wertpapieren (Kupon-Anleihen/Bonds) versteht man Kapitalanlagen, bei denen der Zinssatz über die gesamte Laufzeit völlig gleich bleibt und schon im Vorhinein festgelegt wird, so dass der Anleger hiermit eine völlig risikofreie Geldanlage eingeht. Die Rendite, also das Verhältnis der Auszahlungen zu den Einzahlungen der Anlage, steht dabei also schon vor Ablauf der Vertragszeit genau fest. Der große Vorteil bei dieser Anlageform ist neben der Verlustsicherheit auch die Sicherheit bei der Planung. So weiß der Anleger stets ganz genau, welche Rendite er in welcher Zeit zu erwarten hat. Als festverzinsliche Wertpapiere werden meistens Anleihen wie zum Beispiel Schuldverschreibungen ausgegeben. Sie dienen Staaten, Institutionen und Unternehmen zur Fremdfinanzierung. Im Gegensatz zu Aktien, durch die der Investor Eigentümer wird, sind die Käufer festverzinslicher Wertpapiere Gläubiger und haben als solche nur Anspruch auf Zinsen und Tilgung des Anleihekapitals. Wir verwenden festverzinsliche Anleihe“ oder ” festverzinsliche Geldanlage“ synonym für festverzinsliches Wertpapier. ” 47 actio (lat.)= Handlung, übertragen einklagbarer Anspruch. ” Stand: 21. November 2011 80 c J. Baumeister, T.G. Macedo 8.3 Simulation der Aktienkurse Regel 8.2 (Verzinsung) Der Wert B(t) eines festverzinslichen Wertpapiers vom Betrage B(0) mit einem jährlichen Zinssatz r beträgt nach t Jahren • bei einmaliger Verzinsung pro Jahr: B1 (t) = B(0)(1 + r)t • bei m-maliger Verzinsung pro Jahr: Bm (t) = B(0)(1 + mr )tm • bei kontinuierlicher Verzinsung: B∞ (t) = B(0)ert Die Formel für B∞ folgt als Grenzwert: B∞ (t) := limm→∞ Bm (t) . Unter Diskontierung (Abzinsung) versteht man den zur Verzinsung umgekehrten Vorgang. Regel 8.3 (Diskontierung) Der Wert B(0) eines festverzinslichen Wertpapiers vom Betrage B(t) zur Zeit t mit einem jährlichen Zinssatz r beträgt • bei m-maliger Verzinsung pro Jahr: B(0) = B(t)(1 + • bei kontinuierlicher Verzinsung: B(0) = B(t)e−rt r −tm ) m Approximation der Aktienkurse Die Preisänderungen auf den Finanzmärkten sind eigentlich keine stetigen Prozesse: es gibt üblicherweise kleinste Geldeinheiten, um welche die Preisänderungen mindestens von Statten gehen müssen (also stückweise stetig). Zum anderen ändert sich der Preis nicht permanent, sondern bleibt während einer gewissen kurzen Zeit konstant. Man hat also in der Realität Prozesse, welche stückweise stetig sind und auf diesen stetigen Zwischenstücken sind sie erst noch konstant (Treppenfunktionen)! Andererseits sind diese Preisänderungen normalerweise derart häufig und die Änderungen im Vergleich zum ganzen Preis derart klein, dass je nach Problemstellung doch ein Prozess in stetiger Zeit und mit stetigem Zustandsraum angebracht ist. Als weiterer Vorteil kommt noch dazu, dass wir in den Modellen stetiger Zeit explizitere Formeln erhalten als in den Modellen in diskreter Zeit. Trotz alledem, wir skizzieren im Folgenden die Approximation der Aktienkurse in diskreter Zeit, leiten diese allerdings aus einem kontinuierlichen Modell ab, dem so genannten Black–Scholes–Modell. Die Brownsche Bewegung, die zentral in der Modellierung der Aktienkurse ist, wird in der Physik zur Modellierung der Bewegung eines Teilchens (Molekül) in einer Flüssigkeit oder einem Gas eingesetzt; die Bewegung kommt dann durch Zusammenstöße von Molekülen zustande. Die Brownsche Bewegung nennt man auch Wiener-Prozess. Der Name Brownsche Bewegung“ stammt vom schottischen Botaniker Brown48 ” Aktienkurse haben die Tendenz zu steigen“. Dadurch werden auch die Ausschläge ” nach oben und nach unten immer größer. Deshalb macht es Sinn, die relativen Zuwächse zu betrachten. Es ist nun die Grundannahme, dass sich die so genannten Log-returns St+∆t − St ln St additiv aus einem deterministischen Term, der für die makroskopische Drift“ zuständig ” ist, und einen stochastischen Term, der für die unvorhersagbaren Ausschläge“ verant” wortlich ist. 49 Dabei ist ∆t ein (kleiner) Zeitschritt. Unter den folgenden Annahmen (und weiteren stochastischen Grundvoraussetzungen) 48 Brown, R., 1773-1858. Die Herkunft des Namens wird zwar korrekterweise meist mit Brown in Verbindung gebracht, die Geschichte der Herkunft des Namens findet sich auf http://www.sciences.demon.co.uk/wbbrowna.htm. 49 Dieses Modell für die Bewertung von Optionen geht auf P. Samuelson (1915-2009) zurück; siehe [74]. Er erhielt 1970 den Nobelpreis für Wirtschaftswissenschaften. Stand: 21. November 2011 81 c J. Baumeister, T.G. Macedo 8.4 Simulation von Optionen • das Basisobjekt hat eine konstante Volatilität σ, d.h. die Varianz der Renditen wächst wie σ 2 O(∆t) . ∆St V = σ 2 O(∆t) ; St siehe unten. • die Renditen sind normalverteilt, also √ ∆St ∼ N (µ∆t, σ ∆) , St können wir das Modell so hinschreiben: √ St+∆t 1 ln ∼ N ((µ − σ 2 )∆t, σ ∆) . St 2 Wir diskretisieren nach der expliziten Euler-Methode, welche im Zusammenhang mit stochastischen Differentialgleichungen das Verfahren von Euler-Maruyama heißt. Die auftretenden infinitesimalen Inkremente werden dabei durch finite Zuwächse ersetzt. Dazu wählen wir ein Zeitgitter 0 = t0 < t1 < · · · < tN = T und führen die Bezeichnungen ∆tj := tj+1 − tj , Sj := Stj ein. Damit stellt sich das Diskretisierungsverfahren so dar: p Sj+1 = Sj + µ∆tj + σ 2 zj ∆tj , j = 0, . . . , N − 1 . (42) Dabei ist zj jeweils eine Zufallszahl, die standard-normalverteilt ist. Algorithm 5 Simulation mit dem Euler–Maruyama-Verfahren EIN Zeitgitter 0 = t0 < t1 < · · · < tN = T . ∆j := tj+1 − tj , j = 0, . . . , N − 1 . Volatilitätskonstante σ, Driftterm µ, Basiskurs S0 zur Zeit t = 0 . Mechanismus zur Erzeugung von standard-normal-verteilten Zufallszahlen. Schritt 1 Für k = 0, . . . , N − 1: • erzeuge eine Zufallszahl uk ; • setze Sk+1 := Sk + µ∆j + uj σ 2 p ∆j AUS Diskrete Approximation S0 , . . . , SN des Aktienkurses in [0, T ] . 8.4 Simulation von Optionen Optionen Eine europäische call option ermöglicht dem Besitzer einen Finanztitel zu einem bestimmten Zeitpunkt (maturity) zu einem bestimmten Preis (strike price) zu erwerben. Zu beachten ist, dass hier nur die Möglichkeit eingeräumt wird, jedoch muss der Besitzer dieser Option sie nicht wahrnehmen. Betrachten wir nun einen Investor der eine call option für IBM Aktien mit einem strike price von 100 $ kauft. Der aktuelle Aktienpreis liegt bei 98 $, die Laufzeit beträgt 2 Monate und der Preis der call Option ist 5 $. Falls die Aktie nach Ende der Laufzeit weniger als Stand: 21. November 2011 82 c J. Baumeister, T.G. Macedo 8.4 Simulation von Optionen 100 $ wert ist, wird der Investor seine Option sicher nicht einlösen. (Es wäre wohl sinnlos eine Aktie welche weniger als 100 $ wert ist um 100 $ zu kaufen!). In diesem Fall verliert der Investor sein ursprüngliches Investitionskapital von 5 $. Falls der Aktienpreis nun z.B. bei 115 $ liegt, wird er von seinem Kaufrecht um 100 $ jedoch sicherlich Gebrauch machen. Er macht somit 15 15 -5 $, also 10 $ Reingewinn (net profit). Eine Option ist ein Vertrag, der seinen Besitzer (Inhaber der Option) das Recht einräumt, eine bestimmte Menge eines bestimmten Gutes (Basisobjekt) zu einem festgelegten Preis, dem Ausübungspreis (strike) zu kaufen (Call, Kaufoption) bzw. zu veräußern (Put, Verkaufsoption). Für dieses Recht zahlt der Käufer der Option dem Verkäufer eine Prämie, den Optionspreis. Wer eine Kaufoption (Call Option) besitzt, hat das Recht (aber nicht die Pflicht!) einen in der Option beschriebenen Basiswert (Aktie, Währung, . . . ) zu einem im voraus bestimmten fixen Preis, dem Ausübungspreis zu kaufen. Wer eine Verkaufsoption (Put Option) besitzt, hat das Recht (aber nicht die Pflicht!) einen in der Option beschriebenen Basiswert (Aktie, Währung, . . . ) zu einem im voraus bestimmten fixen Preis, dem Ausübungspreis, verkaufen. Wer eine Option kauft, der hat eine Long-Position. Wer eine Option verkauft, der hat eine Short-Position. Es werden vorwiegend amerikanische Optionen gehandelt! Bewertung von Optionen Wir betrachten ein Optionsgeschäft für Aktien. Es werde mit V der Optionspreis, mit St der Kurs des Basisobjekts zur Zeit t, mit T die Laufzeit, mit K der Ausübungspreis und mit ST der Kurs der Aktie (Basiswert) am Fälligkeitstag bezeichnet. Ist ST > K (die Option ist in the money“), so kann der Besitzer der Option die Aktie zum Preis ” K erwerben und sofort zum höheren Preis ST am Markt verkaufen. Er erzielt dann eine Auszahlung (payoff ) in Höhe von ST − K (unter Vernachlässigung von Transaktionskosten). Ist ST < K (die Option ist out of the money“), so lässt der Besitzer der Option ” sein Recht verfallen, selbst wenn er Interesse am Kauf dieser Aktie hätte. Es ist nämlich dann günstiger, die Aktie am Markt zum Preis ST zu erwerben. In diesem Fall ist die Auszahlung für die Option gleich Null. Der Fall ST = K (die Option ist at the money“), ” ist eine Situation, die wie der Fall ST < K zu behandeln ist. Zusammengefasst ergibt sich für den Besitzer der Option eine Auszahlung“ zum Zeit” punkt T in Höhe von (ST − K)+ wobei h+ := h, falls h ≥ 0, h+ := 0, falls h < 0 ist. Aus den obigen Ausführungen können wir schließen, dass eine Option ihrem Besitzer eine nichtnegative Auszahlung zusichert, die in ihrer Höhe allerdings unsicher ist. Daher ist es verständlich, dass man für den Erwerb einer Option eine Zahlung, die Optionsprämie, leisten muss. Die Auszahlung ist also um den Wert der Optionsprämie zu mindern, genauer um den verzinsten Wert der Optionsprämie, um den Gewinn/Verlust zu ermitteln. Hier haben wir ein Optionsgeschäft beschrieben, das man europäisch nennt. Bei einem amerikanischen Optionsgeschäft kann man zu jedem Zeitpunkt in [0, T ] entscheiden, ob man das Recht ausüben will. Es ist offensichtlich, dass für eine amerikanische Option eine höhere Optionsprämie zu entrichten sein sollte, bietet sie doch mehr Rechte. Stand: 21. November 2011 83 c J. Baumeister, T.G. Macedo 8.4 Simulation von Optionen Das Ein-Perioden-Modell Das Problem im (seriösen) Optionshandel ist, die Optionsprämie zu berechnen, d.h. den Preis der Option zum Zeitpunkt t = 0 festzusetzen, und, um den Handel mit der Option, solange sie noch nicht ausgeübt ist, zu ermöglichen, zu jedem Zeitpunkt t den Wert der Option zu bestimmen. Die Schwierigkeit besteht darin, dass man den Verlauf des Aktienkurses über den Laufzeitraum nicht kennt. Wir machen uns die Problematik an einem einfachen Modell klar, dem sogenannten Ein-Perioden -Binomialmodell. Zur Frage der Festsetzung des Optionspreises wird ein Wertpapierdepot, auch Portfolio genannt, gebildet, das folgendermaßen zusammenzusetzen ist: Aktiendepot der betreffenden Aktie, festverzinsliche Anleihe. Es ist nicht überraschend, dass nun Anleihen ins Spiel kommen, müssen doch die Aktien bzw. die Optionsprämie finanziert werden. Wir kaufen also einen Bruchteil50 ∆ der Aktie auf, und finanzieren die Geschäfte durch die Aufnahme eines Kredits B. Zum Zeitpunkt T = 1 verfalle die Option, deren Preis wir ermitteln wollen, d.h. T = 1 ist die Laufzeit. Diesen Preis setzen wir dann als Wert des Depots zum Zeitpunkt t = 0 fest, dessen quantitative Zusammensetzung wir noch nicht kennen, da ∆ und B noch unbekannt sind. Man spricht bei diesem Vorgehen von einer Duplikationsstrategie. Dabei ist es notwendig, neben den angegebenen Daten die Verzinsung für risikolose Geldaufnahmen und Geldanlagen zu kennen. Im weiteren wird angenommen, dass der konstante Zinssatz für risikofreie Anlagen für eine Periode am Markt r ist, dass der Aufzinsungsfaktor bei einmaliger Verzinsung also gerade z := 1 + r ist. Offen ist die Kursentwicklung der Aktie. Das einstufige Binomialmodell besteht nun darin, anzunehmen, dass der Kurs der Aktie mit Wahrscheinlichkeit q auf den Wert uS0 steigt und mit Wahrscheinlichkeit 1 − q auf den Wert lS0 fällt; also u > 1, 0 < l ≤ 1 . Das Diagramm 24 gibt die Entwicklung des Portfolios wieder. Dabei gehen wir davon aus, dass lS0 ≤ K ≤ uS0 gilt (um hier anderen Annahmen über den Markt aus dem Wege zu gehen). Die Optionsprämie wird nun so festgesetzt, dass Endwert des Duplikationsdepots = Auszahlungswert der Option erfüllt ist. Dies führt auf zwei Gleichungen für die Unbekannten ∆ und B : l∆S0 − zB = 0 , u∆S0 − zB = uS0 − K . Hieraus folgt: ∆= uS0 − K l(uS0 − K) ,B= . (u − l)S0 (u − l)z Nun ist die Zusammensetzung des äquivalenten Portfolios bekannt und die Optionsprämie C0 berechenbar: C0 = ∆S0 − B . Beachte: Die Wahrscheinlichkeit q geht gar nicht ein. Das obige einstufige Modell ist nur von theoretischem Wert. Ersetzt man nun die einmalige Preisänderung der Aktien durch eine endliche Anzahl n von Änderungen im Zeitraum [0, T ] kommt man einer kontinuierlicher Preisänderung schon nahe; die Analyse des 50 In der Wirklichkeit erwirbt man ein Paket von Optionen, die Anzahl der aufzukaufenenden Aktien wird dann auch eine ganze Zahl. Stand: 21. November 2011 84 c J. Baumeister, T.G. Macedo 8.4 Simulation von Optionen Portfoliobewegung Wert des Portfolios t=0 Wert des Portfolios T =1 Aktie kaufen, t = 0 ∆S0 l∆S0 u∆S0 Anleihe aufnehmen, t = 0 −B −zB −zB ∆S0 − B Summe Beachte die Annahme S0 ≤ K ≤ uS0 l∆S0 − zB u∆S0 − zB Auszahlung T =1 uS0 − K 0 Abbildung 24: Duplikationsstrategie Modells birgt keine neuen Schwierigkeiten, nur der Aufwand wird größer. Dieses so entstehende so genannte n-Perioden-Modell wird Cox-Ross-Rubinstein-Modell (1979) genannt. Wir wollen nun Annahmen über den zugrundeliegenden Finanzmarkt anführen. Sie gilt es immer im Auge zu behalten, wenn man Diskrepanzen zwischen Modell und Wirklichkeit diskutieren will51 . Marktannahmen und Marktbegriffe Regel 8.4 ( Geschäftsbedingungen“) ” • Alle Investoren haben den selben Informationsstand und können verzögerungsfrei handeln, • Investoren handeln rational und ziehen ein größeres Vermögen einem kleineren vor, • es werden keine Transaktionskosten und Steuern berücksichtigt, • der Wertpapier– bzw. Optionshandel ist zu jedem Zeitpunkt möglich, • Leerverkäufe (Verkauf eines Basiswertes, den man noch nicht besitzt, aber später liefert) sind möglich, • gewünschte Transaktionen können in beliebigem Umfang ohne Rückwirkungen auf die Kursentwicklung durchgeführt werden, • Wertpapiere sind beliebig teilbar, • Wertpapiere stehen in beliebiger Menge zur Verfügung (Liquidität), • die Verzinsung für festverzinsliche Anleihen und Geldanlagen erfolgt nach demselbem Zinssatz. Zusätzlich vereinbaren wir eine kontinuierliche Verzinsung (eine Vereinbarung, die nicht zwingend wäre, beachte aber, dass daraus quantitative Konsequenzen sich ergeben). Regel 8.5 (Arbitragefreiheit) Der Markt lässt keine Arbitragemöglichkeiten zu. Regel 8.6 (Modellierbarkeit) Der Markt, bestehend aus Wertpapieren, Anleihen, Optionen, . . . kann durch ein Modell abgebildet werden. 51 Der Zoologe Thomas Huxley schreibt: Die Tragödie der Wissenschaft - das Erschlagen einer schönen Hypothese durch eine hässliche Tatsache Stand: 21. November 2011 85 c J. Baumeister, T.G. Macedo 8.4 Simulation von Optionen Unter einem Leerverkauf (short selling) versteht man eine Handelsstrategie, bei der ein Teilnehmer am Finanzgeschehen (Investor) Objekte, die er nicht besitzt, verkauft und sie später zurückkauft.52 Eine Arbitragemöglichkeit ist eine Handelsstrategie, die keine Anfangsinvestitionen benötigt und mit positiver Wahrscheinlichkeit einen Gewinn ergibt, ohne das Risiko eines Verlustes zu beinhalten. Etwas formaler: Sei I(t) die Entwicklung des Vermögens eines Investors über den Zeitraum [0, T ] . Man sagt, dass eine Arbitragemöglichkeit für den Investor besteht, falls es möglich ist, dass er mit dem Vermögen I(0) startet und für sein Endvermögen I(T ) I(T ) ≥ I(0) , Wahrscheinlichkeit({I(T ) > I(0)}) > 0 gilt. Hierbei wird I(t), t ∈ [0, T ], als Zufallsgröße aufgefasst. Rendite, Risiko und Volatilität Rendite bezeichnet den Gesamterfolg einer Kapitalanlage, gemessen als tatsächliche Verzinsung des eingesetzten Kapitals. Sie beruht auf den Ertragseinnahmen (z.B. Zinsen, Dividenden, realisierte Kursgewinne) und den Kursveränderungen. Die Rendite soll erkennbar machen, wie gut sich eine früher angelegte Kapitalanlage entwickelt hat. Rendite wird meist in Prozent und jährlich angegeben. Mit dem Begriff Risiko bezeichnet man in der Finanzwelt die Unsicherheit, mit der die erwarteten Renditen auch wirklich eintreten. Je stärker das Risiko einer Anlageform ist, um so stärker schwankt die Wertentwicklung im Zeitverlauf und umgekehrt.53 Das Instrument um diese Unregelmäßigkeit oder Flatterhaftigkeit der Renditeentwicklungen zu messen, ist die sogenannte Volatilität54 . Sie misst die Schwankungsbreite des Kurses des Basiswertes für Kursbewegungen innerhalb eines bestimmten Zeitrahmens. Üblicherweise wird sie mit σ bezeichnet. Die Volatilitätsgröße ist keine direkt beobachtbare Größe. Sie ist daher aus Marktdaten zu schätzen“. Man unterscheidet zwi- Abbildung 25: DAX-Verlauf im April 2011 ” schen historischer und impliziter Volatilität unterscheiden, solange wir die Volatilität als eine Konstante betrachten. Die Aufgabe eines Investment-Analysten ist nun die Zusammenstellung eines Portfolios aus Finanztiteln, welches einen möglichst guten Kompromiss zwischen Risiko und 52 Aus der FAS am 31. Juli 2011, S. 38: Dabei dürfte es solche hohen Preise eigentlich nicht geben. In einem effizienten Markt sollte jede Überschätzung des Kurses sofort professionelle Investoren auf den Plan rufen, die mit so genannten Leerverküfen auf fallende Kurse spekulieren und gleichzeitig den Aktienkurs zurückstutzen. 53 Diese Binsenweisheit wollen nicht alle akzeptieren und reissen damit sich (o.k.) und andere, ja ganze Staaten ins Unglück. Man sollte sich an folgende Weisheit (Andrè Kostelany) halten: Man sollte wissen, dass hinter den Fassaden großer Finanzinstitute keine Musterknaben sitzen. 54 lat. volare: fliegen; volatilis: fliegend, flüchtig Stand: 21. November 2011 86 c J. Baumeister, T.G. Macedo 8.5 Simulationen von Optionen möglichem Gewinn darstellt. Dafür benötigt er eine Abschätzung des Wertes der Option, welche von der Preisentwicklung der ihr zugrundeliegenden Aktie abhängt. 8.5 Simulationen von Optionen Mit dem oben skizzierten Rechenvorschriften können wir viele“ Approximationen SN für ” 1 M den Basiskurs ST errechnen, etwa SN , . . . , SN . Damit stehen uns auch die Auszahlungen 1 1 (SN − K)+ , . . . , (SN − K)+ zur Verfügung. Eine Approximation CN,M für den zu ermittelnden Optionspreis besteht nun im Mittelwert dieser Auszahlungen, diskontiert auf den Zeitpunkt t = 0: M X −rT 1 (S j − K)+ (43) C0 := e M j=1 N Die Qualität der Diskretisierung hängt von den Parametern N, M ab: N sollte groß sein, damit der Pfad“ der Aktienkurse gut approximiert wird, M sollte groß sein, damit die ” Qualität der Mittelwertsberechnung hoch ist. Bei Berücksichtigung dieser Forderungen entsteht ein hoher Rechenaufwand. Den Beweis, dass dieses Vorgehen realisiert und mathematisch abgesichert werden kann, müssen wir übergehen. Bibliographische Anmerkungen Die Monte Carlo-Methoden sind beschrieben in ganz unterschiedlichen Disziplinen der Wissenschaften: im Kontext Physik siehe [18], in der Mathematik als Methode der Integration siehe etwa [64], als Werkzeug in der Finanzmathematik siehe [37]. Zur Normalverteilung und ihrer Approximation durch die Normalverteilung siehe etwa [38, 21, 51]. Zur Simulation der Normalverteilung siehe [37, 36]. Die Theorie zur approximativen Lösung von stochastischen Differentialgleichungen ist ein extrem schnell wachsendes Gebiet; siehe [25, 48]. Als einfachster Zugang“ zur Modellierung von Bewertungsmodellen für Optionen kann ” [24] angesehen werden. Die Bewertung von Optionen wird elementar beschrieben etwa in [19, 41, 53]. Stand: 21. November 2011 87 c J. Baumeister, T.G. Macedo 9 Sierpinski-Mengen Für einen Zufallsgenerator braucht man einen richtigen Samen ( Seed“). Wer kennt den weltweit zufälligsten ? ” Eintrag in einem Forum zum Thema Gutes Chaos ist verdammt teuer ! Das Sierpinski-Dreieck55 ist eine geometrische Figur, die die Eigenschaft des Fraktals56 besitzt. Es kann unter Zuhilfenahme von Zufallszahlen auf unterschiedliche Weise erzeugt werden; der Zusammenhang mit dynamischen Systemen wird dabei offensichtlich. Da der Zufall benutzt wird, kann die Konstruktion als Test für Pseudozufallszahlen verwendet werden; wir gehen diesem Ansatz aber nicht eigentlich nach. 9.1 Sierpinski-Dreieck Viele Formen der Natur lassen sich nicht mit den klassischen geometrischen Körpern ausreichend beschreiben: eine Wolke ist keine Kugel, ein Baum kein Kegel, ein Blitz keine Linie, ein Farn kein Dreieck. Bei genauerem Hinsehen entdecken wir oft Selbstähnlichkeit und eine zerbrochene Struktur. Selbstähnlichkeit bedeutet, dass man die Form eines Objekt in sich selbst wieder auf kleinerer Skala wiederfindet, oder etwas mehr formal: Eine Struktur/Objekt heißt selbstähnlich genau dann, wenn sie in Teile zerlegt werden kann, von denen jedes eine kleinere Kopie des Ausgangsobjekts ist. Das Sierpinski-Dreieck als geometrische Figur passt hier sehr gut her; siehe unten. Beispiele für Selbstähnlichkeit finden sich auch im Werk von M.C. Escher. Fraktale sind geometrische Objekte, denen keine im klassischen Sinne (ganzzahlige) Dimension zugeordnet werden kann; daraus leitet sich die Namengebung Fraktal“ ” ab. Diese Begriffsbildung geht auf B. Mandelbrot57 zurück. Er griff dabei auf mathematische Grundlagen zurück, die im 19. Jahrhundert von Cantor, Peano und Hausdorff geschaffen wurden. Im Allgemeinen besitzen solche Objekte bestimmte Eigenschaften, wie zum Beispiel verschiedene Arten von Selbstähnlichkeit, eventuell Abbildung 26: Sierpinski-Dreieck unendlich großen Umfang, . . . . Das SierpinskiDreieck (siehe Abbildung 26), das als geometrische Figur schon vor Sierpinski bekannt war – es findet sich in itaienischen Kathedralen aus dem 12. Jahrhundert als Fußbodenmosaik und an einer Kanzel – besitzt solche Eigenschaften. Das Konstruktionsverfahren für das Sierpinski-Dreieck ist einfach: • Man beginnt mit einem schwarzem gleichseitigem Dreieck, halbiert die Seiten und nimmt das Dreieck heraus“, das durch die Seitenmittelpunkte gegeben ist. ” 55 Waclaw Sierpinski, Mathematiker und Physiker, 1882-1969 Vom Lateinischen: frangere = brechen, fractus = gebrochen 57 Benoit Mandelbrot, Mathematiker, 19??-2011 56 Stand: 21. November 2011 88 c J. Baumeister, T.G. Macedo 9.2 Fraktale und ihre Dimension • Es bleiben drei schwarze Teildreiecke übrig. • Nehme bei den drei verbliebenen Dreiecken wieder das Mitteldreieck heraus und fahre so fort. Das Sierpinski-Dreieck besteht offenbar aus Flächenstücken, die immer und immer wieder durchbrochen und zersplittert sind. Unten werden wir zwei dynamische“ Konstruktions” verfahren kennenlernen. (a) Ausgangsdreieck (b) 1. Schritt (c) Weitere Schritte Abbildung 27: Konstruktion des Sierpinski-Dreiecks 9.2 Fraktale und ihre Dimension Unser gewohnter Dimensionsbegriff in der Geometrie ist die euklidische Dimension: ein Punkt hat die Dimension null, eine Strecke die Dimension eins, eine Fläche die Dimension zwei, einer Pyramide die Dimension 3, . . . . In der Linearen Algebra/Analytischen Geometrie ordnen wir Vektorräumen als Dimension die Zahl zu, die die minimale Anzahl der zur Erzeugung aller Punkte des Raums erforderlichen Basisvektoren angibt; jeweils haben wir eine ganze Zahl als Dimension. Wie oben beschrieben, können selbstähnliche Objekte beliebig zerlegt werden und die entstehenden Teilmengen ergäben vergrös̈ert wieder das Ausgangsobjekt. Für die Objekte der euklidischen Geometrie mit einer Dimension d gilt bei einem Verkleinerungsfaktor s für die Anzahl t der verkleinerten Objekte t= 1 ( 1s )d d.h. d = log(t) log(s) (44) Dies lässt sich nun auf Fraktale übertragen. Beim Sierpinski-Dreieck haben wir für s = 2 t = 3 und daher log(3) dSierpinski = ≈ 1.585 (45) log(2) Der Wert dSierpinski ≈ 1.585 macht den fraktalen Charakter des Sierpinski-Dreiecks messbar. Mit dem obigen Dimensionsbegriff können interessante und zumeist klassische Beispiele fraktaler Objekte bestimmt werden. Etwa: • Koch-Kurve als Nachbildung einer Schneeflocke“. Die Dimension ist ” log(4) DKoch = log(3) Stand: 21. November 2011 89 c J. Baumeister, T.G. Macedo 9.3 Konstruktion mit Hilfe des Chaos-Spiel-Verfahrens“ ” • Dürer-Pentagon Dabei wird jedes regelmäßiges Fünfeck in sechs kleinere regelmäßige Fünfecke zerlegt. Keine Überraschung sollte sein, dass die goldene Schnittzahl g hierbei ins Spiel kommt bei der Dimensionsformel: DDuerer = 9.3 log(6) ≈ 1.863 log(1 + g) Konstruktion mit Hilfe des Chaos-Spiel-Verfahrens“ ” Um das Sierpinski-Dreieck zu konstruieren, wendet man den Chaos-Spiel-Algorithmus“ ” oder ein iteriertes Funktionssystem an. Dabei ist es unverzichtbar, gleichverteilte Zufallszahlen für die Erzeugung von Koordinaten der Punkte zu benutzen; siehe unten. Unter einer Iteration58 versteht man in der Mathematik eine wiederholte Durchführung einer Anweisung oder eines Anweisungsblocks. Ein iteriertes Funktionssystem ist damit die Wiederholung einer Folge von festdefinierten Funktionen. Wir haben diese Idee schon im Zusammenhang mit der Erzeugung von Zufallszahlen kennengelernt. Der Name des Spiels kommt daher, dass jedem, der sich das erste Mal mit diesem Verfahren beschäftigt, am Anfang das Ganze wie ein Chaos vorkommt. Die Regeln des Spiels sind folgendermaßen beschrieben: 1. Man definiert 3 Eckpunkte eines (gleichseitigen) Dreiecks. 2. Man legt einen Startpunkt in das Dreieck. 3. Man wählt zufällig einen der drei Eckpunkte mit Wahrscheinlichkeit p = 13 . 4. Man bildet einen neuen Punkt, in dem man die Strecke zwischen dem Startpunkt bzw. dem zuletzt erzeugten Punkt und dem ausgewählten Eckpunkt halbiert und den neuen Punkt dorthin legt. 5. Man wiederholt Schritt 3 und 4. Da der Zufall blind“ ist, erwartet man, dass die Spielpunkte“ gleichmäßig im Dreieck ” ” verteilt sind. Die Überraschung ist aber groß, es bildet sich ein strukturiertes Bild heraus. Die Struktur ist nach ca. 500 Iterationen schon erkennbar und nach ca. 10.000 Iterationen ist das Sierpinski-Dreieck fertig“. ” Die Entstehung wird plausibel, wenn man eine Ecke des Ausgangsdreiecks als Startpunkt wählt. Man stellt fest, dass die dann erzeugten Punkte stets Eckpunkte eines Teildreiecks der jeweils nächsten Konstruktionsstufe gemäß sind. Abschließend noch eine Anmerkung zur Namensgebung des Konstruktionsverfahrens. In Abschnitt 2.5 haben wir Kausalität, sensitive Abhängigkeit und Chaos angesprochen. Wie ordnet sich dies hier ein? Haben wir zwei nahe benachbarte Startwerte gewählt, so ist ganz einfach einzusehen, dass die Punktfolge, die nun konstruiert wird, schon nach ganz wenigen Konstruktionsschritten sich im Allgemeinen weit voneinander entfernt. Aber auch das Gegenteil“ist zu beobachten, nämlich, dass sie sich auch wieder stark annähern. ” Dieses Verhalten ist Teil der Definition von Chaos in dynamischen Systemen. Man mag nun der Meinung sein, dass dies eine Folge des Zufalls ist, den wir eingebaut haben. Dies ist nicht der Fall, sensitive Abhängigkeit kann eintreten auch bei einer Nichtzufallsfolge der gewählten Eckpunkte; siehe nachfolgende Bemerkung. Überraschenderweise hängt aber das Ergebnis des Spiels“ nicht von diesen Sensiti” vitäten ab: bei jedem Startwert erhalten wir diesselbe Figur. 58 Vom Lateinischen: iterare = wiederholen Stand: 21. November 2011 90 c J. Baumeister, T.G. Macedo 9.4 Konstruktion mit Hilfe eines iterierten Funktionssystems Bemerkung 9.1 Die Anwendung von Zufall ist für die Konstruktion eines SierpinskiDreiecks unverzichtbar. Wenn wir zum Beispiel eine periodische Zahlenfolge statt ein Zufallsexperiment für die Wahl des angewendeten Funktionsparameter oder für die Wahl des Eckpunktes im Chaos-Spiel-Algorithmus“ benutzen, werden wir keine fertige Struktur er” kennen. Im Allgemeinen entsteht dann eine periodische Punktfolge oder eine Punktfolge, die offenbar gegen Fixpunkte konvergiert. 9.4 Konstruktion mit Hilfe eines iterierten Funktionssystems In einem Koordinatensystem setzt man einen Startpunkt, dann wählt man zufällig eine Funktion aus eine Gruppe von drei Funktionen und setzt den Startpunkt ein, um die Koordinaten des neuen Punktes zu erzeugen. Dabei wiederholt man dieses Verfahren, bis die Struktur erkennbar ist. Die Funktionen, die dabei benutzt werden, sind Funktionen auf R×R, also Funktionen mit den Variablen x, y ∈ R. Sie sind definiert als: f (x, y) := ax + by + e g(x, y) := cx + dy + f wobei die Parameter a, b, . . . , f Zahlen zwischen 0 und 1 sind; sie werden den Zeilen der Tabelle in Abbildung 28 entnommen. Damit ergibt sich die Iteration xn+1 := axn + byn + e yn+1 := cxn + dyn + f mit einem noch zu wählenden Startwert (x0 , y0 ) . Die Funktionen werden entsprechend der gewählten Zufallszahl aus {1, 2, 3} gewählt. Wir können die Iteration als diskretes dynamisches System interpretieren. F 1 2 3 a 0.5 0.5 0.5 b 0.0 0.0 0.0 c 0.0 0.0 0.0 d 0.5 0.5 0.5 e 0.00 0.25 0.50 f 0.0 0.5 0.0 Abbildung 28: Parameter zum Sierpinski-Dreieck Die Aussage von Bemerkung 9.1 trifft auch hier zu. 9.5 Variationen des Sierpinski-Dreiecks Es gibt verschiedene Möglichkeiten, mit denen man abgeänderte Sierpinski-Dreiecke konstruieren kann. Hier stellen wir ein paar Variationen mit anderen Anfangswerten und Gegebenheiten vor, die die fertige Struktur des Dreiecks anders gestalten. Zudem erklären wir, wie wichtig die Verwendung des Zufalls bei der Konstruktion des Fraktals ist. Verzerrung Die Form des Fraktals muss nicht gleichseitig sein. Als Grundform könnte man zum Beispiel ein beliebiges Dreieck nehmen. Dadurch entsteht eine verzerrte“ Struktur, die die ” Eigenschaften eines Sierpinski-Dreiecks immer noch besitzt; siehe: Abbildung 29 (a). Stand: 21. November 2011 91 c J. Baumeister, T.G. Macedo 9.5 (a) Variationen des Sierpinski-Dreiecks (b) (c) Abbildung 29: Variationen des Themas Veränderte Wahrscheinlichkeiten Bei der Konstruktion eines normalen Sierpinski-Dreiecks nutzen wir für die Wahl des Eckpunktes im Chaos-Spiel-Verfahren“ ein Laplace-Experiment; siehe Kapitel ??. Jedes ” Elementareireignis tritt also mit der gleichen Wahrscheinlichkeit p ein. Wenn wir nun die Wahrscheinlichkeit der Wahl verändern, entsteht eine Struktur mit abgeschwächter Dichte der Punkte; siehe Abbildung 29 (b). Als Beispiel setzen wir beim Chaos-Spiel” Algorithmus“ die Wahrscheinlichkeiten für die Wahl der Eckpunkte folgendermaßen: • Eckpunkt 1: p = • Eckpunkt 2: p = • Eckpunkt 3: p = 5 10 1 10 4 10 Sierpinski-Teppich Der Sierpinski-Teppich ist ein Fraktal, welcher eine selbstähnliche Teilmenge eines Quadrats ist. Um das Fraktal zu konstruieren, überträgt man die Idee des Chaos-Spiel” Algorithmus“ auf diese Situation. Der Unterschied zu der Konstruktion eines SierpinskiDreiecks besteht darin, dass man beim Sierpinski-Teppich vier Eckpunkte und vier Mittelpunkte aller Kanten einsetzt, also insgesamt acht Punkte nutzt. Dadurch entstehen acht Teilquadrate. Außerdem teilt man, um einen neuen Punkt zu erzeugen, die Verbindungsstrecke zwischen dem aktuellen Punkt und dem gewählten Eckpunkt nicht in zwei sondern in drei Teile. Der neu konstruierte Punkt entsteht als Endpunkt der Drittelstrecke, die im gewählten Eckpunkt endet; siehe Abbildung 29 (c). Bibliographische Anmerkungen In Abschnitt haben wir die Selbstähnlichkeitsdimension“ kennengelernt. Es gibt eine ” Reihe weiterer Dimensionsbegriffe; siehe für einen Überblick [39, 87]. Interessante Fraktale kommen als Attraktoren und daraus abgeleiteten Mengen von dynamischen Systemen zustande; siehe etwa [4, 58, 66]. Stand: 21. November 2011 92 c J. Baumeister, T.G. Macedo LITERATUR Literatur [1] M. Aigner. Diskrete Mathematik. Vieweg, 1996. [2] M. Aigner and G.M. Ziegler. Proofs from THE BOOK. Springer, 1998. [3] L. Afflerbach und J. Lehn. Zufallszahlen und Simulation. Teubner, 1986. [4] M.F. Barnsley. Fractals everywhere. Academic Press, 1993. [5] G.E. Bärwolf. Höhere Mathematik. Elsevier, 2004. [6] F.L. Bauer. Entzifferte Geheimnisse: Methoden und Maximen der Kryptographie. Springer, 2000. [7] F. Benford. The law of anomalous numbers. Proceedings of the American Philosophical Society, 78:551–572, 1938. [8] A. Berger. Multi-dimensional dynamical systems and Benford’s law. Discrete and Continuous Dynamical Systems, 13:219–237, 2005. [9] A. Berger. Benfordâs law in power-like dynamical systems. Stochastic Dynamics, 5:587–607, 2007. [10] A. Berger and T. Hill. Newtons’method obeys Benford’s law. Amer. Math. Monthly, 114:588–601, 2007. [11] A. Berger and T. Hill. Fundamental flaws in Feller’s lassical derivation of Benford’s Law. Technical report, University of Alberta, 2010. [12] A. Berger and T. Hill. A basic theory of Benford’s law. Probability Surveys, 8:1–126, 2011. [13] A. Berger and T. Hill. Benford’s law strikes back: no simple explanation in sight for mathematical gem. The mathematical intelligencer, 33:85–91, 2011. [14] A. Berger, A. Bunimovich and T. Hill. One-dimensional dynamical systems and benford’s law. Trans. Amer. Math. Soc., 357:197–219, 2004. [15] A. Beutelsbacher. Kryptologie. Vieweg, 1993. [16] A. Beutelsbacher, H. Neumann und T. Schwarzpaul. Kryptographie in Theorie und Praxis. Vieweg, 2005. [17] J. Bewersdorff. Glück, Logik und Bluff. Vieweg, Braunschweig, 1998. [18] K. Binder. Applications of the Monte Carlo method in statistical physics. Springer, Berlin, 1984. [19] F. Black and M. Scholes. The pricing of options and corporate liabilities. J. of political economy, 81:637–659, 1973. [20] J. Blankenagel. Elemente der Angewandten Mathematik. Wissenschaftsverlag, 1994. [21] K. Bosch. Elementare Einführung in die Wahrscheinlichkeitsrechnung. Vieweg, Braunschweig, 1995. Stand: 21. November 2011 93 c J. Baumeister, T.G. Macedo LITERATUR [22] C. Breuning and A. Goerres. Searching for electoral irregularities in an established democracy: applying Benford’s law tests to Bundestag elections in Unified Germany. Electoral Studies, xxx:1–12, 2011. [23] J. Buchmann. Einführung in die Kryptographie. Springer, Berlin, 2009. [24] J.C. Cox and S.A. Ross. The valuation of option for alternative stochastic processes. Journal of Financial Economics, 3:145–166, 1976. [25] S. Cyganovski, P. Kloeden and J. Ombach. From Elementary Probability to Stochastic Differential Equations with MAPLE. Springer, Berlin, 2001. [26] P. Diaconis. The distribution of leading digits and uniform distribution mod 1. The Annals of Probability, pages 72–81, 1977. [27] A. Diekmann. Datenfälschung. Ergebnisse aus Experimenten mit der Benford-Verteilung. Manuscript, ETH Zürich, 2004. [28] A. Diekmann. Not the First Digit! Using Benford’s Law to Detect Fraudulent Scientific Data. Manuscript, ETH Zürich, 2004. [29] J. Eichenauer-Herrmann. Inversive congruential pseudorandom numbers: A tutorial. Int. Stat. Rev., 60:167–176, 1992. [30] W. Feller. An Introduction to Probability Theory and its Applications. Wiley, Providence, 1966. [31] R. Fewster. A simple explanation of Benford’s law. Amer. Stat., 63:26–32, 2009. [32] O. Forster. Algorithmische Zahlentheorie. Vieweg, Wiesbaden, 1996. [33] O. Forster. Analysis 1,2. Vieweg, Wiesbaden, 1996. [34] A.S. Fraenkel. New proof of the generalized chinese remainder theorem. Proc. of the american mathematical society, 14:790–791, 1963. [35] B. Gaertner. Ein Reinfall mit Computer-Zufallszahlen. DMV-Mitteilungen, Ausgabe 2:55–60, 1999. [36] J.E. Gentle. Random number generation and Monte Carlo methods. Springer, 2001. [37] P. Glasserman. Monte Carlo Methods in Financial Engineering. Springer, Baltimore, 2003. [38] N. Henze. Stochastik für Einsteiger. Vieweg, Braunschweig, 1997. [39] D. Herrmann. Algorithmen für Chaos und Fraktale. Addison-Wesley, Bonn, Paris, 1994. [40] T. Hill. Base-invariance implies Benford’s law. Proc Amer. Math. Soc., 123:887–895, 1995. [41] J.C. Hull. Options, Futures, and other Derivatives. Prentice Hall, 2003. [42] H. Humenberger. Das Benford Gesetz über die Verteilung der ersten Ziffer von Zahlen. Manuscript, 1996. Wien. Stand: 21. November 2011 94 c J. Baumeister, T.G. Macedo LITERATUR [43] N. Hungerbühler. Benfords Gesetz über führende Ziffern: Wie die Mathematik Steuersündern das Fürchten lehrt, 2007. Publication von www.educeth.ch. [44] R. Ineichen. Der schlechte Würfel – ein selten behandeltes Problem in der Geschichte der Stochastik. Historia Mathematica, 18:253–261, 1991. [45] T. Jech. The logarithmic distribution of leading digits and finitely additive measures. Discrete Mathematics, 108:53–57, 1992. [46] B. Kaynar, A. Berger, T. Hill and A. Ridder. Benford’s law, 2010. Finite-state Markov chains obey [47] R. Kippenhahn. Verschlüsselte Botschaften: Geheimschrift, Enigma und Chipkarte. Rowohlt, 1999. [48] P. Kloeden and E. Platen. Numerical Solution of SDE through Computer Experiments. Springer, Berlin, 1994. [49] D.E. Knuth. The Art of Computer Programming, Vol. 1,2,3. Addison-Wesley, Reading, 1998. [50] J.F. Koksma. Ein mengentheoretischer Satz über die Gleichverteilung modulo Eins. Compositio, 2:250–258, 1935. [51] U. Krengel. Einführung in die Wahrscheinlichkeitstheorie und Statistik. Braunschweig, 1991. Vieweg, [52] G. Kropp. Geschichte der Mathematik. Sammlung Aula, Wiesbaden, 1994. [53] R. Korn und E. Korn. Optionsbewertung und Portfolio–Optimierung. Vieweg, Braunschweig, 1999. [54] L. Kuipers and H. Niederreiter. Uniform Distribution of sequences. Wiley, New York, 1974. [55] D.H. Lehmer. Mathematical methods in large-scale computing units, 1949. [56] R.W. Leven, B.-P Koch and B. Pompe. Chaos in dissipativen Systemen. Vieweg Verlag, Wiesbaden, 1989. [57] E. Ley. On the peculiar distribution of the u.s. stock indexes’ digits. Amer. Stat., 50:311–314, 1996. [58] B.B. Mandelbrot. Die fraktale Geometrie der Natur. Birkhäuser, Basel, 1987. [59] E. Maor. Dem Unendlichen auf der Spur. Birkhäuser, Basel, 1982. [60] G. Marsaglia and T.A. Bray. A convenient method for generating normal variables. SIAM Review, 6:260–264, 1964. [61] S. Newcomb. Note on the frequency of use of the different digits in natural numbers. American Journal of Mathematics, 4:39–40, 1981. [62] H. Niederreiter. Random Number Generation and Quasi-Monte-Carlo-Methods. SIAM, Philadelphia, 1992. [63] M.J. Nigrini. A taxpayer compliance application of Benford’s law. J. of the Amer. Taxation Assoc., 18:72–91, 1996. Stand: 21. November 2011 95 c J. Baumeister, T.G. Macedo LITERATUR [64] E. Nowak and K. Ritter. High dimensional integration of smooth functions over cubes. Numerische Mathematik, 75:79–97, 1996. [65] J.A. Paulos. Von Algebra bis Zufall. Campus, Frankfurt, 1992. [66] H.-O. Peitgen, H. Jürgens and D. Saupe. Bausteine des Chaos – Fraktale. SpringerKlett-Cotta, Berlin, 1992. [67] R.C. Pierce. A brief history of logarithm. The two-year college mathematics journal, 8:22–26, 1977. [68] R.S. Pinkham. On the distribution of first significant digits. The Annals of Statistics, 32:1223–1230, 1961. [69] H. Poincaré. Répartition des décimales dans une table numérique. Calcul des probabilités, pages 313–320, 1912. [70] B.F. Roukema. Benford’s law anomalies in the 2009 iranian presidential election. Artikel-id: 0906.2789v2, 2009. [71] D. Ruelle. Zufall und Chaos. Springer, New York, 1992. [72] L. Russio. Die vergessene Revolution. Springer, New York, 2003. [73] M. Sambridge, H. Tkalcic and A. Jackson. Benford’s law in the natural sciences. Geophys. Res. Lett., 37:xx–xx, 2010. [74] P. Samuelson. Rational theory of warrant pricing. Industrial Management Review, 6:13–32, 1965. [75] P. Schulz. Fünfstellige logarithmische und trigonometrische Tafeln; 32. Auflage. C.C. Buchners, Bamberg, 1956. [76] B. Schuppar. Elementare Numerische Mathematik. Vieweg, 1999. [77] H.-G. Schuster. Deterministisches Chaos: eine Einführung. VCH Verlagsgesellschaft, Weinheim, 1994. [78] A. Sen De and U. Sen. Benford’s law: a detection of quantum phase transitions similarly as earthquakes, 2011. arXiv:1103.5398v1[quant-ph]. [79] S. Simonet, S. Monteleone and D. Adolf. Analyse von Bildflächen auf Benfordverteilung am Beispiel von Northern Blots. Manuscript, ETH Zürich, 2008. [80] S. Sing. Geheime Botschaften. Carl Hanser, München, 2000. [81] D.J. Struik. A concise history of mathematics. Dover Publications, 1987. [82] L. Tarassow. Wie der Zufall will? Vom Wesen der Wahrscheinlichkeit. Springer, Berlin, 1998. [83] G. Teschl. Dynamische Systeme, 2005. [84] C.R. Tolle, J.L. Budzien and R.A. LaViolette. Do dynamical systems follow Benford’s law? Chaos: An Interdisciplinary Journal of Nonlinear Science, 10:331, 2000. Stand: 21. November 2011 96 c J. Baumeister, T.G. Macedo LITERATUR [85] H. Weyl. über die Gleichverteilung von Zahlen mod 1. Mathematische Annalen, 77:313–352, 1916. [86] J. Wolfart. Einführung in die Zahlentheorie und Algebra. Vieweg, 1996. [87] H. Zeitler und W. Neidhardt. Fraktale und Chaos. Wiss. Buchgesellschaft, 1994. Weitere Quellen [Ber06] [Ber11] [FAZ11] [Fib??] [Hun10] [RiS10] [Sch03] [Sei07] [Stu10] [WeG10] [Wei04] [Zei00] http://www-i1.informatik.rwth-aachen.de/ algorithmus/algo26.php http://www.benfordonline.net/ Frankfurter Allgemeine Zeitung, 18.9.2011, Seite 67 http://www.ijon.de/mathe/fibonacci/index.html http://www.educ.ethz.ch/unt/um/mathe/ana/benford/Benford− Fuehrende − Ziffern.pdf) http://www.mathematik.uni-erlangen.de/∼richard/vortrag.pdf http://www.schimmeck.de/Texte/benford.htm http://www.mathematik.uni-kassel.de/∼seiler/Courses/AGCA-0708/ ModRechnen.pdf http://stubber.math-inf.uni-greifswald.de/∼bandt/statprak10/Benford/ Benford− U− Horn.pdf https://www.physik.uni-marburg.de/fileadmin/user− upload/forschung/kosy/ Lenz/Comp− phys− I/Benfords− Gesetz.pdf https://www.uni-koblenz.de/∼steigner/seminar-asym-krypt/weizel.pdf http://homepages.cwi.nl/ paulv/news/zeit00-plain Stand: 21. November 2011 97 c J. Baumeister, T.G. Macedo