Technische Universität Wien Seminar Finanz- und Versicherungsmathematik Seminararbeit Philosophische Theorien der Wahrscheinlichkeit Wintersemester 2013/2014 eingereicht von: Stephanie Schmid (1125764) eingereicht am: 26. Februar 2014 Betreuer: Herr Dipl.-Ing. Dr.techn. Stefan Gerhold Inhaltsverzeichnis 1 Einleitung 1.1 Überblick über die Philosophien . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Geschichtlicher Hintergrund . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 2 Klassische Theorie 5 3 Logische Theorie 3.1 Wahrscheinlichkeit als logische Relation 3.2 Das Indifferenzprinzip . . . . . . . . . . 3.3 Paradoxon . . . . . . . . . . . . . . . . . 3.4 Änderung und Weiterentwicklung . . . . . . . . 6 7 8 9 10 . . . . . 10 11 11 13 14 15 . . . . . 17 17 18 18 19 20 6 Propensitätstheorie 6.1 Poppers Vorstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Objektive Wahrscheinlichkeiten für einzigartige Ereignisse . . . . . . . . . . . 21 21 22 7 Schlussworte 24 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Subjektive Theorie 4.1 Ramseys Kritik an Keynes . . . . . . . . . . . . . . . . . . 4.2 Subjektive Grundlagen . . . . . . . . . . . . . . . . . . . . 4.3 Vergleich mit der logischen Theorie . . . . . . . . . . . . . 4.4 Objektive Wahrscheinlichkeiten in der subjektiven Theorie 4.5 Kritik, Vergleich und das Rot-Blau-Spiel . . . . . . . . . . 5 Frequenztheorie 5.1 Wahrscheinlichkeitstheorie als Wissenschaft . . . . . 5.2 Empirische Wahrscheinlichkeitsgesetze . . . . . . . . 5.3 Definition der Wahrscheinlichkeit als Grenzfrequenz 5.4 Das Zufallsproblem . . . . . . . . . . . . . . . . . . . 5.5 Verbindung der Axiome . . . . . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Einleitung Es gibt einen bemerkenswerten Unterschied zwischen den verschiedenen philosophischen Theorien der Wahrscheinlichkeit. In dieser Seminararbeit möchte ich vier verschiedene Theorien erklären und ihre Unterschiede aufzeigen. Obwohl sie im mathematischen Sinne meist übereinstimmen, so ist die Auffassung, was denn Wahrscheinlichkeit ist, eine unterschiedliche. 1.1 Überblick über die Philosophien 1. Logische Theorie Diese Theorie identifiziert Wahrscheinlichkeit mit dem Grad rationalen, vernünftigen Glaubens. Unter dem gleichen Vorwissen werden alle logisch denkenden Menschen die gleiche Wahrscheinlichkeit schätzen. 2. Subjektive Theorie In diesem Falle wird nicht angenommen, dass alle Menschen die gleichen Ansichten über Wahrscheinlichkeit haben. Wahrscheinlichkeit definiert sich durch den Glauben eines jeden einzelnen Menschen. Unterschiedliche Meinungen über dieselbe Sachlage sind erlaubt. 3. Häufigkeitstheorie Wahrscheinlichkeit ist die Grenzhäufigkeit, mit der ein Ausgang in einer langen Folge von gleichen Ereignissen auftritt. 4. Propensitätstheorie Verwendet Wahrscheinlichkeit als die einem Satz von wiederholbaren Ereignissen innewohnende Neigung. Sagt man, die Wahrscheinlichkeit eines Ausganges ist p, dann hat eine Menge von wiederholbaren Ereignissen, bei oftmalige Wiederholung der Ereignisse, die Tendenz eine Häufigkeit des Ausgangs nahe bei p zu haben. Die meisten Philosophen stimmen darin überein, dass man die verschiedenen Interpretationen in zwei größere Gruppen teilen kann. Die eine wird oft als epistemologisch, also wissenschaftlich und erkenntnistheoretisch, bezeichnet, während die andere objektiv, also sachgerecht oder zielorientiert, genannt wird. Der Unterschied zwischen diesen Gruppen ist folgender: Die epistemologische Interpretation setzt Wahrscheinlichkeit in Verbindung mit dem Wissen des Menschen. Mit diesem Zugang ist Wahrscheinlichkeit also eine Art Messung des Wissensstandes oder des rationalen Glaubens in eine Sache. In diese Kategorie fallen die logische und die subjektive Theorie. Im Gegensatz dazu begreift die objektive Interpretation Wahrscheinlichkeit als eine Eigenschaft der realen, materiellen Welt, die nichts mit dem Wissen oder Glauben des Menschen zu tun hat. Man sieht, dass die Häufigkeit- und die Propensitätstheorie objektive Theorien sind. Um diese Unterschiede zu verdeutlichen, möchte ich ein Beispiel anführen: Beispiel Ein in der Literatur oft genanntes Beispiel ist die Wahrscheinlichkeit des Zerfalles eines bestimmten Uraniumisotops in einem Jahr. Diese Wahrscheinlichkeit existiert unabhängig vom 3 Wissen des Menschen, der von ihr weiß oder eben nicht. Sie existiert also als objektive Eigenschaft der physikalischen Welt. In der Tat gab es diese Wahrscheinlichkeit schon bevor der Mensch die Welt überhaupt betrat. In der epistemologische Erklärung gehört nun Wahrscheinlichkeit zum Menschen und seinem Glauben oder Wissen. Die objektive Interpretation trennt dies, löst Wahrscheinlichkeit vom menschlichen Wissen und nimmt sie als Eigenschaft der materiellen Welt an. 1.2 Geschichtlicher Hintergrund 17. Jahrhundert Die Anfänge der mathematischen Wahrscheinlichkeitsrechnung werden im Allgemeinen mit dem Briefwechsel zwischen Pascal und Fermat im Jahre 1654 datiert. Es hatte zuvor zwar schon Überlegungen über verschiedene Spielwahrscheinlichkeiten gegeben, zum Beispiel von Galileo oder Cardano, diese wurden aber immer nur als Spezialfälle betrachtet. Erst dieser Briefwechsel setzt den Startpunkt zum systematischen Studium und der Entwicklung der Wahrscheinlichkeitstheorie. Teilungsproblem Um einen Einblick zu verschaffen, mit welchen Problemen sich Pascal und Fermat beschäftigt haben, möchte ich ein berühmtes, von Pascal gestelltes Problem aufgreifen: das Teilungsproblem. Hierbei sollen drei Spieler um einen gewissen Einsatz spielen. Derjenige, der als erster eine bestimmte Anzahl von Spielen gewonnen hat, soll den gesamten Einsatz erhalten. Aus irgendeinem Grund muss das Spiel jedoch unterbrochen werden, wenn der erste Spieler noch ein Spiel und der zweite und dritte noch zwei Spiele gewinnen müssen, um den gesamten Einsatz zu erhalten. Dieses Problem lässt sich nun sehr einfach mit Fermats Kombinationsmethode lösen. Schreibt man die Buchstaben a, b und c für einen Gewinn des ersten, zweiten beziehungsweise dritten Spielers, so muss man nur alle 27 Kombinationsmöglichkeiten der drei Buchstaben aufschreiben. Sucht man dann diejenigen Spiele heraus, bei denen der erste, zweite oder dritte Spieler gewinnt, erhält man deren Anteile. Pascal fing bei diesem Problem richtig an, bekam jedoch durch eine gewisse Verwirrung die Lösung 16 : 51/2 : 51/2. In seiner Antwort korrigiert Fermat Pascals Fehler indem er ihn darauf hinweist, dass beim Sieg eines der Spieler die nachfolgenden Spiele nicht zu zählen sind. Dadurch kommt man auf ein Ergebnis von 17 : 5 : 5. Antikes Griechenland Die Entwicklung der Wahrscheinlichkeitstheorie im 17. Jahrhundert lässt die Frage offen, warum sich nicht schon die antiken Griechen mit dem Thema beschäftigt haben. Ich möchte diese Frage nun in zwei Punkten erläutern: 1. Mathematik 2. regelmäßige Würfel Zum ersten Punkt, der Mathematik, ist zu sagen, dass die Griechen sicherlich hervorragende Mathematiker waren mit Spezialisierung in die Geometrie. Wahrscheinlichkeitstheorie benötigt aber Arithmetik und Algebra - genau diejenigen Gebiete, die die Griechen vernachlässigten. Die Griechen hatten außerdem ein schlechtes System um Zahlen darzustellen 4 und um arithmetische Rechenoperationen durchzuführen. Die Mathematiker im 17. Jahrhundert hatten bereits das moderne arabisch/indische Dezimalsystem. Die Griechen waren sowohl leidenschaftliche Spieler als auch ausgezeichnete Mathematiker, ihre Mathematik war aber nicht dafür geeignet, Spielausgänge zu errechnen. Ein weiterer wichtiger Faktor der gegen die Entwicklung der Wahrscheinlichkeitstheorie arbeitete, war der Würfel selbst. Die ersten Problemstellungen in der Wahrscheinlichkeitstheorie rührten vom Spiel mit regelmäßigen Würfeln her. Die Annahme, dass alle Würfelseiten gleich wahrscheinlich sind, war ausschlaggebend für die Kombinationsmethode, die daraus besteht alle favorisierten Ausgänge durch alle möglichen Ausgänge zu dividieren. Diese Methode konnte nicht auf einen irregulären Würfel angewendet werden. Die Spiele in der antiken Welt wurden jedoch nicht mit einem Würfel im modernen Sinne gespielt, sondern mit Tierknochen. Diese machten es unmöglich von einer Gleichverteilung der Wahrscheinlichkeiten zu sprechen. Das führte dazu, dass man weder die Kombinationsmethode anwenden konnte, noch irgendeine andere Theorie zur Wahrscheinlichkeit aufstellen konnte. Man kann argumentieren, dass sowohl die Griechen, als auch die Römer Münzen hatten, mit denen man allgemeine Wahrscheinlichkeitsrechnung hätte starten und betreiben können. Allerdings wurden bis ins siebzehnte Jahrhundert sämtliche frühen Wahrscheinlichkeitsrechnungen mit dem Würfeln in Verbindung gebracht. Dies geschah ohne Zweifel deswegen, weil bekannte Glücksspiele mit Würfeln gespielt wurden. 2 Klassische Theorie Wenn es wirklich richtig ist, dass die Unregelmäßigkeit der Würfel die Entwicklung der Wahrscheinlichkeitstheorie verhinderte, so gibt dies eine historische Begründung für die erste hier vorgestellte Theorie: die klassische Theorie der Wahrscheinlichkeit. In dieser Theorie basiert Wahrscheinlichkeit auf der Annahme der gleich wahrscheinlichen Ausgänge. Die klassische Theorie war ein Produkt der Aufklärung und beinhaltet die in jener Zeit entstandene Newtonsche Mechanik und in deren Folge den Glauben an den universellen Determinismus. In ≫Philosophical Essay on Probabilities≪ von 1814 veröffentlicht Laplace eine berühmte Beschreibung über den universellen Determinismus: den Laplaceschen Dämon. Die Idee dahinter ist, dass ein intelligentes Wesen durch die Newtonsche Mechanik die zukünftigen Wege von Planeten und Kometen errechnen kann. In Erweiterung dieses Erfolges, war es nur natürlich, ein Wesen mit genügend großer Intelligenz anzunehmen, welches den Verlauf des gesamten Universums errechnen kann. In einem vollkommen deterministischen System kann Wahrscheinlichkeit nicht in der objektiven Natur liegen, sondern ist relativ zur menschlichen Ignoranz oder Unwissenheit. Angenommen in einer bestimmten Situation gibt es drei mögliche Ausgänge, nennen wir sie A, B und C, dann muss durch den universellen Determinismus einer dieser drei Ausgänge, sagen wir zum Beispiel A, eintreffen. Wenn wir Menschen jedoch nicht genug über Naturgesetze oder bestimmte Umstände, oder beides, wissen, dann ist es uns nicht möglich zu entscheiden, welche der drei Möglichkeiten eintreffen wird. Angenommen es gäbe n solcher Situationen und m von diesen sind unser favorisierter Ausgang A. Dann gilt für die Wahrscheinlichkeit von A: P(A) = m/n. Dies ist die klassische Definition der Wahrscheinlichkeit, basierend auf der Annahme, 5 dass die einzelnen Ausgänge gleich wahrscheinlich sind. Problematisch wird es, sobald wir es mit verfälschten, also unfairen Münzen oder Würfel zu tun haben. Tatsächlich scheint es in der klassischen Theorie keine Möglichkeit zu geben, mit einer unfairen Münze umzugehen. Dennoch möchte man diese Möglichkeit nicht ausschließen. Laplace, einer der Gründer und Verfechter der klassischen Theorie, verwendet für die Situation eines verfälschten Münzwurfs für Kopf die Wahrscheinlichkeit (1+λ)/2 und für Zahl (1−λ)/2 und rechnet mit diesen Werten. Eigenartigerweise folgt daraus die Existenz einer objektiven, möglicherweise unbekannten, Wahrscheinlichkeit mit einer bestimmten Münze Kopf zu bekommen. Dies steht aber im Widerspruch zu Laplaces eigener Sicht von Wahrscheinlichkeit, die besagt Wahrscheinlichkeit sei ein Maß menschlicher Unwissenheit. Daraus entwickelte sich die subjektive Theorie, die Wahrscheinlichkeit als Grad des Glaubens interpretiert und die logische Theorie, die Wahrscheinlichkeit als Grad rationalen Glaubens sieht. Da aber zu diesem Zeitpunkt alle Wahrscheinlichkeitstheoretiker in irgendeiner Weise an den universellen Determinismus glaubten, ist es schwer, Wahrscheinlichkeit als etwas anderes zu sehen als menschliche Ignoranz. Beispielsweise kann eine Person, die über die Verfälschung, nicht aber über die Neigung einer Münze informiert ist, gefragt werden, welche Wahrscheinlichkeit wohl Kopf hat. Falls sie den epistemologischen Ansatz für den richtigen hält, so wird sie P(Kopf ) =½ antworten, weil sie die Schieflage einfach ignoriert. Ist ihre Ansicht jedoch objektiver Natur, so antwortet sie P(Kopf ) = p, wobei 0 = p = 1 und p sonst unbekannt ist, bis auf die Tatsache, dass p 6=½. Wie man sieht, ist die Behandlung von Fällen mit ungleichen Wahrscheinlichkeiten nicht befriedigend gelöst. Solange Wahrscheinlichkeitstheorie nur mit regelmäßigen Würfeln, fairen Münzen und gut gemischten Karten zu tun hatte, war die klassische Theorie eine ideale Basis. Von der Mitte des 19. Jahrhunderts an wurde Wahrscheinlichkeitstheorie jedoch immer mehr auch in Naturwissenschaften, wie der Biologie oder der Physik, oder der Wirtschaft angewandt. Dort sind die alten Annahmen der gleichen Wahrscheinlichkeit nicht mehr gegeben. Im folgenden Kapitel werde ich nun die erste der im 20. Jahrhundert eingeführten Ansicht über Wahrscheinlichkeitstheorie erklären: die logische Theorie. Sie ist der klassischen Theorie am ähnlichsten. 3 Logische Theorie In den ersten Jahrzehnten des 20. Jahrhunderts entwickelte sich die logische Theorie der Wahrscheinlichkeit hauptsächlich in Cambridge. Zwei bekannte Vertreter dieser Theorie waren Keynes und Russell. Sie und natürlich auch andere Philosophen versuchten die Mathematik zu reduzieren, bis nur mehr Logik und die von ihr genutzten formalen Axiome als eine Art selbstevidentes System entstünde. Mit diesem System wäre es möglich, sämtliche mathematischen Sätze zu beweisen. Ein wichtiges Theorem in der logischen Theorie ist das Indifferenzprinzip, das ich später in diesem Kapitel näher erörtern werde. Um eine Ahnung davon zu bekommen, was dieses Prinzip erreichen möchte, gebe ich hier ein kleines Beispiel: Beispiel Nehmen wir an, wir müssen uns zwischen der Durchführung zweier Aktionen A und B entscheiden. Wir können uns sicher sein, dass innerhalb kurzer Zeit der von A produzierte Nutzen größer sein wird als jener von B. Auf längere Sicht gesehen haben wir allerdings keine Gewissheit über die Produktivität von A und B. Damit sind folgende Möglichkeiten möglich: (a) der 6 von A produzierte Nutzen wird größer sein als jener von B oder (b) der von B produzierte Nutzen wird, auf lange Sicht gesehen, den von A übersteigen. Wenn dies gegeben ist, können wir den Ausgängen (a) und (b) die gleiche Wahrscheinlichkeit zuordnen. Unser Wunsch, den erwarteten Nutzen zu maximieren, führte uns zu Aktion A. Die allgemeine Lösung ist, dass wir Aktionen durchführen sollten, die uns den größten Nutzen in kurzer Zeit bringen, auch wenn es gegen moralische Konventionen verstößt. 3.1 Wahrscheinlichkeit als logische Relation Im Falle der folgernden Logik, der Deduktion, ist die Lösung nur durch Prämissen festgelegt. Ist zum Beispiel unsere Prämisse, dass alle Raben schwarz sind und Hannes ein Rabe ist, so folgt unweigerlich, dass auch Hannes schwarz ist. Betrachten wir aber nun einen eher induktiven als schlussfolgernden Fall: Angenommen unsere Voraussetzung ist die Beobachtung einiger Tausend Raben, die ergab, dass diese Raben schwarz sind. Dann ist unser Hypothese, dass alle Raben schwarz sind und wir erstellen die Prognose, dass der nächste zu sehende Rabe schwarz sein wird. Aus der modernen Logik folgt, dass weder die Hypothese noch die Prognose zwingend aus der Voraussetzung folgen. Die Frage lautet jetzt jedoch, ob wir sagen können, dass die Voraussetzungen zumindest teilweise die Prognose und Hypothese unterstützen. Dieser Gedanke suggeriert, dass es eine logische Theorie einer teilweisen Folgerung gibt, die eine verallgemeinerte Theorie der vollständigen Schlussfolgerung, wie sie in der Deduktion gefunden wird, darstellt. Dies ist der Punkt an dem Keynes beginnt, sich mit der Wahrscheinlichkeitstheorie zu beschäftigen. Für ihn gibt es eine Verbindung zwischen einem Satz von Voraussetzung und einem anderen Satz von Folgerungen. (Man verstehe hier den Ausdruck ”Satz”nicht als mathematische Aussage, sondern eher als ein Bündel von Objekten.) Dieser Zusammenhang wird durch die Stichhaltigkeit der Begründung gewichtet. Man kann dies als eine Wahrscheinlichkeitsbeziehung bezeichnen. Also ist hier Wahrscheinlichkeit ein Grad der partiellen Abhängigkeit. Zu Beginn scheint es einen Konflikt mit unserem gewöhnlich gebrauchten Konzept der Wahrscheinlichkeitstheorie zu geben, bei dem wir oft nur über die Wahrscheinlichkeit verschiedener Ausgänge sprechen. In den Fällen, wo dies möglich ist, verwendet Keynes auch die normale Wahrscheinlichkeitstheorie. Bis jetzt ist die Wahrscheinlichkeitsrelation also als ”Grad der Teilfolgerung”beschreiben. Keynes gibt aber noch eine andere Darstellung: Wenn unsere Prämissen aus einem Satz von Behauptungen B bestehen, unsere Folgerungen aus Aussagen A und falls ein Wissen W den Glauben an A mit einem Grad α rechtfertigt, so gibt es eine Wahrscheinlichkeitsrelation zwischen B und A mit dem Grad α. Hier folgt, dass, wenn B A teilweise induziert und zwar mit einem Grad von α, dann ist es bei gegebenem B vernünftig mit einem Grad α an A zu glauben. Das identifiziert den Grad der teilweisen Folgerung mit dem Grad rationalen Glaubens. Dieser Zusammenhang scheint anfangs plausibel, wird aber unter anderem von Popper in Frage gestellt. Eines seiner Argumente dabei ist folgendes: Nehmen wir an, wir haben eine begrenzte Anzahl von Belegen und eine Verallgemeinerung die auf eine vielleicht unendliche Anzahl von Aussagen führt. (Man veranschauliche sich dies wieder mit dem oben angeführten Beispiel der Raben.) Nun kann B, bildlich gesprochen, im Vergleich zu A infinitesimal werden und damit auch der Grad, in dem A aus B teilweise gefolgert werden kann. Popper argumentiert weiter, dass, obwohl der Grad, mit dem eine endliche Anzahl von Behauptungen auf eine generelle Verallgemeinerung führt, gleich null ist, es sehr wohl möglich ist, einen 7 Grad rationalem Glaubens ungleich Null an eine allgemeine Behauptung bei nur endlichen Beobachtungen zu haben. Um dieses Problem zu lösen, geht Popper einen anderen Weg um die Theorien zu verbinden: Er identifiziert den Grad rationalen Glaubens mit dem von ihm sogenannten ”Grad der Bekräftigung” oder ”Grad der Bestätigung”. Kurz gesagt meint dies, dass, obwohl wir immer mehr über allgemeine Gesetzmäßigkeiten wissen, ihre Wahrscheinlichkeit nicht zunimmt. Man kann einige davon testen, bestätigen und damit den ”Grad der Bestätigung” erhöhen, ohne ihre Wahrscheinlichkeit zu verändern, die bei Null bleibt. Ich möchte hier nicht näher auf Poppers Argumentationen eingehen, sondern mich weiter mit Keynes’ Ansatz beschäftigen. Es stellt sich nämlich die Frage, wie wir Wissen über diese logischen Relation erlangen und wie die Wahrscheinlichkeitsaxiome unter diesem Ansatz eingeführt werden können. Hier schließt sich Keynes den Ansichten Russells an. Für diesen ist ein gewisses Wissen sofort vorhanden oder uns vertraut. Seine Ansichten darüber, was wir so wissen können, variieren, beinhalten jedoch immer unsere unmittelbare Sinneswahrnehmung. Der Rest unseres Wissens ist das Wissen durch Beschreibung, das wiederum auf bekanntem Wissen basiert. Also wissen wir zumindest ein wenig über die Wahrscheinlichkeitsrelation durch bekanntes Wissen und unserer daraus resultierenden logischen Intuition. Wir gelangen somit durch unser Wissen von B zum Wissen über A durch Nutzung der logischen Verbindung, die zwischen ihnen besteht. Doch für Keynes ist der Grad rationalen Glaubens nicht nur ein Grad des Glaubens. Er beschreibt Wahrscheinlichkeit im Sinne der Logik, nicht subjektiv. Sie hängt sozusagen nicht von der menschlichen Willkür ab. Eine Aussage ist nicht wahrscheinlich, nur weil wir das denken. Wenn die Fakten, die unser Wissen festlegen, einmal sachlich fixiert sind, dann hängt es nicht mehr von unserer Meinung ab, was wahrscheinlich oder unwahrscheinlich ist. Die Wahrscheinlichkeitstheorie, so Keynes, ist logisch. Dies wird damit begründet, dass sie in Verbindung mit dem Grad rationalen Glaubens in gegebenen Umständen steht und nicht mit dem Glauben eines bestimmten Individuums, der nicht zwingendermaßen rational sein muss. Man darf in Keynes Erklärung den Ausdruck ”objektiv ”nicht in dem Sinne verstehen, dass er sich auf die materielle Welt bezöge. Er meint Objektivität im Platonischen Sinne, bezugnehmend auf etwas in einer vermuteten Platonischen Welt von abstrakten Ideen. Gehen wir nun im nächsten Abschnitt noch einmal darauf ein, wie man Wahrscheinlichkeit als Grad rationalen Glaubens messen kann. 3.2 Messbare und nicht messbare Wahrscheinlichkeiten: das Indifferenzprinzip In der üblichen mathematischen Behandlung von Wahrscheinlichkeit haben alle Wahrscheinlichkeiten einen numerischen Wert im Intervall [0, 1]. Keynes seinerseits denkt nicht, dass sämtliche Wahrscheinlichkeiten einen numerischen Wert haben. Im Gegenteil: Einige Wahrscheinlichkeiten sind nicht einmal vergleichbar. Haben wir also zwei Wahrscheinlichkeiten, so können verschiedene Situationen auftreten. Im ersten Fall haben beide einen numerischen Wert. Es kann auch passieren, dass, obwohl es uns vielleicht nicht möglich ist, beiden Wahrscheinlichkeiten einen numerischen Wert zuzuweisen, wir im Stande sind, zu sagen, dass die eine größer ist als die andere. In anderen Fällen könnte uns das nicht möglich sein. Also sind Wahrscheinlichkeiten nicht linear geordnet. Es gibt jedoch eine spezielle Art von Teilordnung die in Abbildung 1 illustriert ist. O repräsentiert Unmöglichkeit, I Gewissheit und A eine numerisch messbare Wahrschein8 Abbildung 1: Partielle Ordnung der Wahrscheinlichkeiten lichkeit zwischen O und I. U, V, W, X, Y, Z seien nicht-numerische Wahrscheinlichkeiten, wobei V kleiner als die numerische Wahrscheinlichkeit A und auch kleiner als W, X und Y ist. X und Y sind beide größer als W und auch größer als V, sind aber nicht miteinander oder mit A vergleichbar. Auch V und Z sind nicht miteinander vergleichbar, beide jedoch kleiner als W, X und Y. U ist quantitativ nicht vergleichbar mit V, W, X, Y, Z. Wie man sieht ist Keynes’ Position zur Wahrscheinlichkeit nicht für die Entstehung einer mathematischen Wahrscheinlichkeitstheorie geeignet. Außerdem passt sie kaum mit der intuitiven Idee von Wahrscheinlichkeit zusammen. Doch beschränken wir uns nun auf jene Fälle, in denen man Wahrscheinlichkeit numerisch messen kann. Dafür muss man fähig sein, zu beurteilen, ob die möglichen Ausgänge gleich wahrscheinlich sind. Um dies zu können, braucht man wiederum das sogenannte Indifferenzprinzip. Dieses wurde schon von Bernoulli und Laplace verwendet. Es wird auch das Prinzip des unzureichenden Grundes genannt. Anschaulich besagt das Indifferenzprinzip, dass es ohne bekannten Grund für die Bevorzugung einer Aussage zu ihren Alternativen, und wenn es keine andere Begründung dagegen gibt, somit alle Alternativen gleich wahrscheinlich sind. Das Indifferenzprinzip führt aber zu einer Reihe von Paradoxien. 3.3 Paradoxon des Indifferenzprinzips und mögliche Lösung In diesem Abschnitt möchte ich ein weniger bekanntes, einfaches Paradoxon vorstellen und einen Lösungsvorschlag bringen. Es handelt sich dabei um das sogenannte Buch-Paradoxon. Man stelle sich ein Buch in einem festgelegten Platz in einer Bibliothek vor. Weiters nehmen wir an, die Bibliothek, das Buch und auch keine Kopie davon, je besucht bzw. gesehen zu haben. Also haben wir keine Anhaltspunkte über die Farbe des Buches. Unter diesen Umständen haben wir nicht mehr Grund anzunehmen das Buch sei rot, als es sei nicht rot. Damit haben wir mithilfe des Indifferenzprinzips P (rot)=½. Analog sind P(blau), P(grün) und P(gelb) ebenfalls alle ½, was aber gegen das Axiom widerspricht, dass die Summe alle Wahrscheinlichkeiten kleiner oder kleiner gleich 1 ist. 9 Bei diesem Problem ist unsere Annahme in höchstem Maße anzuzweifeln. Die Alternative nicht-rot kann weiter aufgeteilt werden in blau und nicht-(blau oder rot) und so weiter. Also ist das Indifferenzprinzip nicht auf die Alternativen rot und nicht-rot anwendbar. Außerdem scheint die Möglichkeit nicht-rot wahrscheinlicher zu sein als rot. Verallgemeinert kann man sagen, dass das Indifferenzprinzip nur auf Fälle anwendbar ist, bei denen die Alternativen endlich und unteilbar sind. Damit ist es nicht anwendbar, wenn eine der Alternativen, hier zum Beispiel nicht-rot, in Unter-Alternativen derselben Form wie die andere, hier rot, teilbar ist. 3.4 Änderung und Weiterentwicklung Keynes ändert also sein Indifferenzprinzip insofern ab, als dass er es auf endliche, unteilbare Alternativen einschränkt. Darauf folgt die Frage, was passiert, wenn es sich um einen kontinuierlichen Fall mit einem Parameter θ, der beliebig in einem Intervall [a, b] liegt, handelt. In so einem Fall wird entweder angenommen, θ habe eine infinite Anzahl von Werten oder, wenn wir die Intervalle in eine endliche Anzahl Teilintervalle zerlegen, so können diese Teilintervalle immer weiter geteilt werden. Keynes hatte damit also leider keinen Erfolg, alle Paradoxien des Indifferenzprinzips aufzulösen. Ein anderer Ansatz Paradoxien zu vermeiden, wurde von Jaynes vorgenommen. Dieser sagt, alle geometrischen Paradoxien, können vermieden werden, wenn wir von den Lösungen fordern, rotations-, skalen- und translations-invariant zu sein. Trotzdem können invariante Prinzipien auch nicht alle Paradoxien lösen, besonders nicht jene, die keine geometrische Interpretation besitzen. Jaynes Ansatz kommt von der Anwendung des Indifferenzprinzips in der Physik. Es stimmt, dass das Prinzip erfolgreich in der Physik angewendet wird. Dies zeigt allerdings die Anwendbarkeit des Indifferenzprinzip als heuristisches Prinzip und nicht als logisches. Für die logische Interpretation von Wahrscheinlichkeit müsste das Indifferenzprinzip aber ein logisches Prinzip sein. Nur wenn es vom Charakter her ein logisches Prinzip ist, kann die logische Wahrscheinlichkeitstheorie numerische Werte für Wahrscheinlichkeit erlauben. Ohne numerische Werte kann man jedoch kaum behaupten, die logische Theorie sei adäquat um die mathematischen Rechnungen zu interpretieren. Es ist jedoch fatal, keine befriedigende Lösung zu allen Paradoxien des Indifferenzprinzips erhalten zu haben. Es gibt keine klar formulierte Modifikation des Indifferenzprinzips, das alle Paradoxien löst und zu keinen weiteren führt. Zusammengefasst scheint es derzeit kaum Hoffnung für die erfolgreiche Rehabilitation des Indifferenzprinzips als logisches Prinzip zu geben. Die Schwierigkeiten, die die logische Interpretation bis in die 1920er Jahre hatte, führten dazu, dass man eine neue Interpretation der Wahrscheinlichkeit entwickelte. Eine neue Theorie, die subjektive Theorie der Wahrscheinlichkeit entstand. 4 Subjektive Theorie Die subjektive Wahrscheinlichkeitstheorie wurde in etwa derselben Zeit von Frank Ramsey in Cambridge und von Bruno de Finetti in Italien unabhängig von einander entdeckt. Solche gleichzeitigen Entdeckungen sind nicht ungewöhnlich in der Wissenschaft. In diesem Fall war sie aber nicht einmal überraschend. Wir haben im vergangenen Kapitel gesehen, dass es bis in die 1920er Jahre ernste Probleme mit der logischen Theorie gab und man eine neue 10 Wahrscheinlichkeitsinterpretation brauchte. Dies erreichten Ramsey und de Finetti mit ihrer subjektiven Annäherung an die Wahrscheinlichkeit. Ramseys Verbindung zur alten, logischen Theorie ist klar, da er seine neue subjektive einführt, indem er Keynes’ Ansichten kritisiert. De Finetti hingegen scheint in der Entwicklung seiner Theorie nicht von Keynes beeinflusst worden zu sein. Ich werde hier Ramseys Zugang zur Theorie erörtern. 4.1 Ramseys Kritik an Keynes Laut Keynes gibt es eine logische Verbindung zwischen Paaren von Aussagen. Wissen darüber kann in irgendeiner Weise erhalten werden. Ramsey kritisiert, dass er diese Verbindung nicht einfach a priori sieht oder Wissen über sie erhält. Dies ist eine interessante Argumentationsart, da sie von der Stärke zeugt, mit der Ramsey an seine Intelligenz glaubt. Hätte ein weniger von sich überzeugter Logiker, als Ramsey es war, ein solches Argument gebracht, wäre das vielleicht ein Zeichen logischer Inkompetenz gewesen. Keynes verurteilt Ramsey aber nicht, da dieser ein brillanter Mathematiker aus Cambridge war und sie beide Mitglieder der Cambridge Apostles, einem renommierten Geheimbund, waren. Ramsey argumentiert weiter, dass der logischen Intuition, von der Keynes spricht, in schlussfolgernden Fällen nicht unbedingt und schon gar nicht in induktiven Fällen vertraut werden kann. Für ihn ist die sogenannte logische Intuition nichts weiter als eine psychologische Illusion, hervorgerufen durch Vertrautheit. Vielleicht sind die Axiome der Wahrscheinlichkeitstheorie nur intuitiv durch das jahrelange Studium der Mathematik klar. Zusammengefasst ist für Ramsey die logische Intuition keine adäquate Basis um die Theorie der teilweisen Abhängigkeit zu beweisen oder zu zeigen, dass sie den gewöhnlichen Wahrscheinlichkeitsaxiome unterliegt. Wie diese Angelegenheiten in der subjektiven Theorie behandelt werden, zeigt der folgende Absatz. 4.2 Subjektive Grundlagen für mathematische Wahrscheinlichkeit: das Ramsey-DeFinetti Theorem In der logischen Interpretation ist die Wahrscheinlichkeit von A bei gegebenem W identifiziert mit dem Grad mit dem jemand mit Wissen W rational an A glaubt. Dieser Grad, so wird angenommen, ist für alle rationalen Individuen gleich. Die subjektive Wahrscheinlichkeitsinterpretation verabschiedet sich von der Annahme, Rationalität führe zu übereinstimmenden Meinungen. Folgt man der subjektiven Theorie, so können verschiedene Individuen, Herr K, Frau L und Fräulein M zum Beispiel, zu unterschiedlichem Grad an die Aussage A glauben. Damit ist Wahrscheinlichkeit definiert als Grad des Glaubens eines bestimmten Individuums, sodass wir nicht von der Wahrscheinlichkeit sprechen können, sondern eher von Herrn Ks Wahrscheinlichkeit, Frau Ls Wahrscheinlichkeit und Fräulein Ms Wahrscheinlichkeit. Nun verwendet die mathematische Wahrscheinlichkeitstheorie Wahrscheinlichkeiten als Zahlen im Intervall [0, 1]. Wenn also die subjektive Theorie eine adäquate Interpretation der mathematischen Rechnung sein soll, muss ein Weg gefunden werden, den rationalen Glauben einer Person an ein Ereignis zu messen. Ramseys Versuch dies zu tun, beginnt mit der Annahme es gäbe ein Instrument, das den Grad des Glaubens messen kann: einen Psychogalvanometer. Dieses Instrument stelle man sich als besseren Lügendetektor vor. Wir würden also Herrn Ks Kopf mit Elektroden versehen 11 und die Maschine würde seinen Glaubensgrad in eine Behauptung messen. Es ist überflüssig zu sagen, dass selbst wenn wir eine solche Apparatur erfinden könnten, denn es gibt sie nicht, können wir unser Problem, den Wahrscheinlichkeitsgrad zu messen, damit nicht lösen. Der nächste Ansatz war der altbewährte: die Wette. Um zu messen wie stark eine Person an etwas glaubt, kann man eine Wette abschließen und die niedrigste Quote betrachten die sie abzuschließen bereit ist. Dies ist auch de Finettis Weg. Es ist klar, dass Herr K die Wettquote so richten wird, sodass die Wette kohärent ist. Das führt zum sogenannten Ramsey-De Finetti Theorem das besagt, dass die Wettquoten dann und nur dann kohärent sind, wenn sie die Wahrscheinlichkeitsaxiome erfüllen. Definition der Wettquote und des Wettquotienten Nehmen wir an Frau L möchte den Grad messen, mit dem Herr K an ein Ereignis E glaubt. Um dies zu tun bringt sie Herrn K dazu, mit ihr mit folgenden Bedingungen auf E zu wetten: Herr K musst eine Zahl q wählen (seinen Wettquotienten auf E) und Frau L wählt den Einsatz S. Herr K zahlt an Frau L qS falls E eintrifft. S kann positiv oder negativ sein, muss betragsmäßig jedoch klein sein im Vergleich zu Herrn Ks Gunst p. Unter diesen Umständen ist q ein Maß für Herrn Ks Glauben an E. Zu dieser Definition sind einige Bemerkungen zu machen: • Wenn Herr K q wählt, darf er nicht wissen, ob der Einsatz S positiv oder negativ sein wird. • Für de Finetti war, zumindest in seinen frühen Veröffentlichungen, der Einsatz S ein Geldbetrag. Ramsey hingegen entwickelte dafür eine eigene Nutzentheorie und verwendet als Einsatz die von ihm definierten Nützlichkeiten. Das Problem, wenn man mit Geld wettet, ist offensichtlich, dass Geldbeträge, bei unterschiedlichem Gesamtvermögen, verschiedene Auswirkungen haben. (500€ Einsatz bei Gesamtvermögen 1000€ ist wesentlich höher gewichtet als 500€ bei einem Millionär.) Es gab zwar verschiedene Lösungsversuche, diese schienen die Philosophen aber nicht zufriedenzustellen. Wir verwenden der Einfachheit halber Wetten um Geld mit angemessenen Geldeinsätzen. • Es sollte auch erwähnt werden, dass dieses Wettschema nur eine ungenaue Schätzung und kaum genaue numerische Werte für Wahrscheinlichkeiten produziert. De Finetti beantwortet diesen Punkt damit, dass exakte numerische Glaubensgrade tatsächlich ein Produkt der Fiktion oder der Idealisierung wäre. Diese Idealisierung nütze aber, um die mathematischen Rechnungen zu vereinfachen. Zusammengefasst halten wir fest, dass wir das Wettschema mit passend gewähltem Geldeinsatz verwenden können und dass dies eine geeignete Methode ist, um den Grad des Glaubens in vielen Situationen zu messen. Erwähnenswert ist außerdem, dass dieser Weg, Wahrscheinlichkeit einzuführen, der Philosophie des Operationalismus entspricht. Gehen wir nun weiter zu einem anderen Problem der subjektiven Wahrscheinlichkeitstheorie. Wenn die subjektive Theorie eine Interpretation der mathematischen Theorie darstellt, sollte sie auch die Standardaxiome der Wahrscheinlichkeit erfüllen. Es stellt sich die Frage, warum sie dies tun sollte. Es ist leicht, sich ein Individuum vorzustellen, dessen Glaubensgrad arbitragebehaftet ist und dadurch auch nicht die Wahrscheinlichkeitsaxiome erfüllt. Die Subjektivisten lösen dieses Problem mit der Einführung der Kohärenz. 12 Kohärenz Wenn Herr K auf eine Anzahl von Ereignissen E1 , . . . , En wettet, so sind seine Wettquotienten kohärent genau dann, wenn Frau K keine Einsätze S1 , . . . , Sn wählen kann, sodass sie auf jeden Fall gewinnt. Es wird angenommen, dass Herr K eine kohärente Wette abschließen, also die Wahrscheinlichkeit immer zu verlieren vermeiden möchte. Überraschenderweise ist dieser Umstand notwendig und hinreichend, damit die Wettquotienten die Wahrscheinlichkeitsaxiomen erfüllen. Das Ramsey-De Finetti Theorem Ein Satz von Wettquotienten ist kohärent genau dann, wenn sie die Wahrscheinlichkeitsaxiome erfüllen. Wahrscheinlichkeitsaxiome Seien E, F, . . . , E1 , . . . Ereignisse an deren zukünftiges oder vergangenes Eintreffen wir zu einem gewissen Grad glauben. Sei Ω ein bestimmtes Ereignis, das eintreffen muss. Dann gibt es folgende Wahrscheinlichkeitsaxiome: 1. 0 6 P(E) 6 1 ∀ E ∧ P(Ω) = 1 2. Additionsgesetz: Seien alle E1 , . . . , En so, dass nicht zwei gleichzeitig auftreten können und eines auftreten muss, dann folgt: P(E1 ) + . . . + P(En ) = 1 3. ∀ Ereignisse E, F : P(E ∧ F ) = P(E|F )P(F ) Zum Beweis des Ramsey-De Finetti Theorems vergleiche man mit Gillies, Seite 60 ff.. 4.3 Vergleich mit der logischen Theorie Das Theorem der Kohärenz ist insofern eine bemerkenswerte Errungenschaft, als dass es die Überlegenheit der subjektiven über die logische Theorie zeigt. Wo die logische Theorie die Wahrscheinlichkeitsaxiome nur durch vage Intuition zu erklären vermag, können sie in der subjektiven Theorie rigoros von der sofort plausiblen Annahme der Kohärenz weg bewiesen werden. Die subjektive Theorie löst die Paradoxien des Indifferenzprinzips, indem es das Prinzip unnötig macht. In der logischen Theorie war das Prinzip nötig, um den als einzigartig angenommenen a priori Grad rationalen Glaubens zu erhalten. Der subjektiven Theorie folgend, gibt es jedoch keine solchen a priori Wahrscheinlichkeiten. Verschiedene Individuen können ihre eigene a priori Wahrscheinlichkeit auf unterschiedliche Weise wählen, immer unter der Voraussetzung, diese ist kohärent. Es bleibt jedoch ein weiteres Problem der subjektiven Theorie zu lösen. Dies ist die Frage, wie Wahrscheinlichkeiten, die objektiv erscheinen, wie zum Beispiel die Wahrscheinlichkeit des Zerfalls eines bestimmten Uraniumisotopes innerhalb eines Jahres, in dieser Theorie erklärt werden sollen. De Finetti behandelt dieses Problem mit der Einführung des Konzepts der Austauschbarkeit. 13 4.4 Objektive Wahrscheinlichkeiten in der subjektiven Theorie In Fällen wie der Regenwahrscheinlichkeit am kommenden Tag oder der Wahrscheinlichkeit eines Pferdes, ein Rennen zu gewinnen, ist die subjektive Interpretation sehr plausibel oder die Situationen haben zumindest subjektive Komponenten. Doch wie steht es mit dem Zerfall eines Uraniumisotopes? Wie geht ein Anhänger der subjektiven Theorie mit diesen Fällen um? Es gibt hier zwei mögliche Ansätze. Der erste erklärt Fälle wie den obigen für objektiv. Als Konsequenz gibt es mindestens zwei verschiedene Wahrscheinlichkeitskonzepte, die bei unterschiedlichen Umständen angewandt werden. Diese Erklärung verwendet Ramsey. Der zweite Ansatz, dem auch de Finetti zustimmt, nimmt an, dass alle Wahrscheinlichkeiten subjektiv sind und auch wenn sie objektiv erscheinen, können sie als Grade subjektiven Glaubens beschrieben werden. Vergleich Objektivist und Subjektivist an einem Beispiel Angenommen wir haben eine Münze von der bekannt ist, dass sie unfair ist, aber in unbekanntem Ausmaß. Ein Objektivist würde sagen es gibt eine sichere, jedoch unbekannte, Wahrscheinlichkeit p für Kopf und dass wir diese mit n Würfen für große n messen können, in dem wir sehen, dass mit der Anzahl r für das Auftreten von Kopf gilt: p ≈ r/n. Der genaue Zusammenhang zwischen p und r/n hängt dann von der jeweiligen angenommenen objektiven Theorie ab. Ein Subjektivist wie de Finetti ginge von einer Folge von Würfen mit gegebenen Resultaten E1 , E2 , . . . , En , . . . aus, in der die Ei entweder Kopf (Hi für head) oder Zahl (Ti für tail) sind. So bedeutet zum Beispiel Hn+1 , dass im n + 1-ten Wurf Kopf auftritt. Sei weiters e eine Folge mit n Einträgen, die die Information über die ersten n Würfe speichert. Angenommen Kopf tritt r mal in n Würfen auf, dann ist die Methode des Subjektivisten, P(Hn+1 |e) auszurechnen und zu zeigen, dass unter gewissen Annahmen P(Hn+1 |e) für große n gegen r/n konvergiert. All dies passiert unter der Annahme, dass unterschiedliche Individuen die selbe subjektiven Wahrscheinlichkeit für große Zahlenwerte n annehmen. Nach Axiom 3 gilt für P(Ei ) 6= 0 ∀ i, sodass auch P(e) 6= 0 : P(Hn+1 |e) = P(Hn+1 ∧ e) P(e) (1) Um fortzufahren, führen wir die Bedingung der Austauschbarkeit ein. Nehmen wir an, Herr K schließt eine a priori Wette über die Ereignisse Ei1 , Ei2 , . . . , Ein ab. In den letzten n Würfen soll die Münze r mal Kopf gezeigt haben. Herr Ks Wettquotienten heißen austauschbar, wenn er jedem n-Tupel in dem r mal Kopf kam den gleichen Wettquotienten zuordnet. Hier können n und r beide frei gewählt werden, solange beide kleiner unendlich und r 6 n. Es gibt dann nr verschiedene Möglichkeiten wie r mal Kopf in n Würfen vorkommen kann. Diese Möglichkeiten haben durch die Austauschbarkeit diesel(n) be Wahrscheinlichkeit. Sei Herrn Ks vorherige Wahrscheinlichkeit ωr , so hat jedes dieser n-Tupel die gleiche Wahrscheinlichkeit, nämlich (n+1) P(Ei1 , Ei2 , . . . , Ein ) = 14 ωr n r = P(e). Nun ist (Hn+1 ∧ e) ein (n + 1)-Tupel in dem Kopf r + 1 mal vorkommt. Analog zu oben erhalten wir, in dem wir in Gleichung (1) einsetzen: (n+1) P(Hn+1 ∧ e) = =⇒ P(Hn+1 |e) = ωr+1 (2) n+1 r+1 (n+1) n ωr+1 r n+1 (n) ωr r+1 (n+1) r + 1 ωr+1 = n + 1 ωr(n) (n+1) (n) Die letzte Gleichung gibt uns, für die plausible Annahme von ωr+1 /ωr → 1 für n → ∞, das gesuchte Ergebnis. Wir können also die a priori Wahrscheinlichkeit wählen wie wir wollen und kommen für n → ∞ zu dem Ergebnis P(Hn+1 |e) → r/n. In n Würfen können wir 0, 1, 2, . . . , oder n mal Kopf erhalten. Wegen der Kohärenz muss also gelten: (n) (n) (n) ω0 + ω1 + ω2 + . . . + ωr(n) + . . . + ωn(n) = 1 (3) (n) In der subjektiven Theorie können wir ωr frei wählen, solange (3) gilt. Obwohl nicht zwingend notwendig, können wir sie wie im Indifferenzprinzip alle gleichsetzen, sodass: (n) ω0 (n) = ω1 (n) = ω2 = . . . = ωr(n) = . . . = ωn(n) = 1/(n + 1) (4) Setzen wir dies in die Gleichung (2) ein, erhalten wir die sogenannte Laplacesche Regel für Nachfolger: r+1 (5) n+1 De Finetti interpretiert die mathematischen Ergebnisse so, dass wir die Begriffe der objektiven Wahrscheinlichkeit und der Unabhängigkeit durch die subjektive Wahrscheinlichkeit und Austauschbarkeit auswechseln können. Alternativ dazu können wir das auch als Reduktion betrachten. P(Hn+1 |e) = 4.5 Kritik, Vergleich und das Rot-Blau-Spiel Es ist offensichtlich, dass wir das Prinzip der Austauschbarkeit nur in objektiv unabhängigen Situationen verwenden können. Damit die Austauschbarkeit nicht zu fehlerhaften Ergebnissen führt, müssen wir uns sicher sein, dass es sich um eine objektiv unabhängige Situation handelt. Also vermuten wir Unabhängigkeit und beweisen sie rigoros. Wenn unsere Vermutung dem Test standhält, können wir Austauschbarkeit anwenden ohne weit daneben zu liegen. Wir müssen es aber gar nicht, da wir bei unabhängigen Fällen den üblichen Weg mit objektiven Wahrscheinlichkeiten gehen können. In diesem Fall ist also die Austauschbarkeit unnötig. Ist andererseits unsere Situation dem Unabhängigkeitstest nicht gewachsen, ist also keine mit unabhängigen Wahrscheinlichkeiten, dann führt die Austauschbarkeit zu irreführenden Resultaten und sollte vermieden werden. Also gibt es auch hier keinen Grund, Austauschbarkeit zu verwenden. 15 Rot-Blau-Spiel Um dieses Argument zu veranschaulichen, können wir eine Folge von Ereignissen betrachten, die eher abhängig als unabhängig sind. Ein sehr einfaches Beispiel ist hierbei das Rot-BlauSpiel. In diesem Spiel gibt es eine Zahl s, die sich bei jedem Durchlauf ändert und von den vergangenen Werten abhängt. Eine faire Münze wird geworfen. Ist das Ergebnis Kopf, so ändern wir s in s′ = s + 1 und bei Zahl in s′ = s − 1. Ist nun s′ > 0, so sagen wir, das Ergebnis des Wurfes ist rot, bei s′ ≤ 0 blau. Obwohl das Spiel auf voneinander unabhängigen Münzwürfen basiert, sind die Ergebnisse nicht Kopf oder Zahl sondern rot oder blau und letztere sind stark voneinander abhängig. Starten wir bei s = 0, so ist die Wahrscheinlichkeit von blau ein klein wenig höher. Um dies zu vermeiden lassen wir einen Münzwurf den Startpunkt entscheiden: Bei Kopf setzen wir s gleich 0, bei Zahl gleich −1. Dadurch werden rot und blau exakt symmetrisch, sodass die Grenzwahrscheinlichkeiten von beiden Möglichkeiten gleich ½ sind. Deshalb ist es überraschend, dass bei einer sehr großen Anzahl von Wiederholungen die Wahrscheinlichkeit einer Farbe wesentlich höher ist als die der anderen. Bitten wir nun zwei Wahrscheinlichkeitstheoretiker, eine Objektivistin, (nennen wir sie Frau O) und einen Subjektivisten (Herr S), eine Folge zu analysieren, deren Elemente nur zwei verschiedene Werte annehmen. Die beiden wissen nicht, dass die Sequenz, die sie sehen, durch das Rot-Blau-Spiel generiert wird. Die Objektivistin Frau O sieht, dass die Folge einen zufälligen Charakter hat. Sie wird die bekannteste und einfache Annahme treffen, dass die Ereignisse unabhängig voneinander sind. Durch einige statistische Tests beweist sie diese Vermutung rigoros. Es wird allerdings nicht lange dauern, bis sie ihre anfängliche Vermutung verwirft und andere Hypothesen mit abhängigen Ereignissen aufstellt. Falls sie eine talentierte Wissenschaftlerin ist, wird sie bald auf den rot-blau-Mechanismus stoßen und diesen durch statistische Tests zeigen können. Betrachten wir nun die Vorgehensweise von Herrn S, dem Subjektivisten. Entsprechend der Anfangsannahme der Unabhängigkeit von Frau O, wird er Austauschbarkeit vermuten. Um die (n) Überlegung zu vereinfachen nehmen wir an, er gäbe den ωr eine uniforme a priori Verteilung. Bei anderen Verteilungen käme man mit mehr Rechenaufwand auf gleiche Ergebnisse. Nehmen wir an, es gab schon 700 mal blau, gefolgt von zwei mal rot. Herr S wird die Wahrscheinlichkeit, blau im nächsten Lauf zu bekommen, mit Gleichung (5) errechnen, wobei n = 702 und r = 700. Dies ergibt eine Wahrscheinlichkeit von 701 /704 = 0.996, auf drei Stellen gerundet. Da wir den Mechanismus des Spieles kennen, können wir die wahre Wahrscheinlichkeit von blau im nächsten Lauf errechnen. Durchgang 700 ergab blau, Durchgang 701 rot. Das ist nur möglich, wenn im Durchgang 700 s = 0 war und dann Zahl geworfen, s also auf −1 gesetzt wurde. Der nächste Wurf muss auch Zahl ergeben haben, sonst wäre das Ergebnis im Durchgang 702 wieder blau geworden. Damit muss s vor dem Wurf 703 gleich −2 sein. Deswegen ist die Wahrscheinlichkeit für blau in diesem Lauf gleich null. Wir sehen, dass Herrn Ss Rechnungen unter Verwendung der Austauschbarkeit zu Ergebnissen führen, die sehr stark von der wahren Situation abweichen. Außerdem wird er wahrscheinlich bald merken, dass es viel zu lange Sequenzen einer Farbe oder der anderen gibt, als dass die Annahme der Austauschbarkeit plausibel wäre. Wir haben im vergangenen Kapitel die subjektive Wahrscheinlichkeitstheorie eingeführt und ihre Vorteile gegenüber der logischen Theorie erörtert. Jedoch fanden wir auch hier einige Probleme, die zu lösen wir nicht imstande waren. Im neunzehnten Jahrhundert entwickelte 16 sich in Cambridge noch eine weitere Theorie der Wahrscheinlichkeit, die ich im nun folgenden Kapitel erklären werde. 5 Frequenztheorie Die Frequenz- oder Häufigkeitstheorie wurde erstmals im Cambridge des neunzehnten Jahrhunderts von Ellis und Venn entwickelt. Sie kann als, auf empirischen Methoden basierende, Reaktion auf den Rationalismus des europäischen Festlandes gesehen werden. 5.1 Wahrscheinlichkeitstheorie als Wissenschaft Der logische Ansatz sah Wahrscheinlichkeitstheorie als Erweiterung der folgernden Logik in induktiven Fällen. Im subjektiven Ansatz wurde sie mit dem Grad des Glaubens eines bestimmten Individuums in Verbindung gebracht. Im Gegensatz zu diesen beiden betrachtet die Frequenztheorie Wahrscheinlichkeit als eine mathematische Wissenschaft, wie etwa Mechanik, allerdings mit einem weitaus größeren Anwendungsbereich. Womit beschäftigt sich also die Häufigkeitstheorie? Für den Mathematiker Von Mises befasst sich Wahrscheinlichkeitstheorie mit Massenphänomenen und sich wiederholenden Ereignissen. Wahrscheinlichkeitstheorie ist in dieser Theorie also eine mathematische Wissenschaft wie Mechanik. Doch anstatt mit der Bewegungen und den Gleichgewichtszuständen von Körpern und den auf sie wirkenden Kräften, behandelt Wahrscheinlichkeitstheorie Probleme, bei denen entweder dasselbe Ereignis sich immer wieder wiederholt oder eine große Anzahl von gleichartigen Ereignissen gleichzeitig vorkommen. Dieser Schwerpunkt auf Ansammlungen ist ein großer Unterschied zur subjektiven Theorie, in der die Wahrscheinlichkeit von einem einzelnen Individuum zu jedem speziellen Ereignis bestimmt wird. In der Häufigkeitstheorie steht Wahrscheinlichkeit in Verbindung mit einer Ansammlung von Ereignissen oder anderen Elementen. Sie wird als objektiv und als vom schätzenden Individuum unabhängig aufgefasst. Von Mises gibt einige Beispiele zu den von ihm beschriebenen sich wiederholenden Ereignissen. Diese können in drei Kategorien eingeteilt werden. In der ersten sind die Zufallsspiele, in denen wir es zum Beispiel mit einer langen Folge von Münzwürfen zu tun haben. Die biologischen Statistiken sind in der zweiten Kategorie zusammengefasst. Hier behandeln wir unter anderem eine Gruppe von Männern, die im Jahre 2013 68 Jahre alt sind und die Wahrscheinlichkeit, mit der alle ihren 69 Geburtstag überleben. Zuletzt gibt es noch eine große Anzahl von Beispielen aus der Physik. Ein Beispiel hierfür ist die Betrachtung der Moleküle in einer bestimmten Gasprobe und die Frage, ob sie eine gewisse Geschwindigkeit haben. In Verbindung zu jedem Wiederholungsereignis oder Massenphänomen haben wir eine Anzahl von Merkmalen, die wir als a priori möglich betrachten. Diese spannen den, von Von Mises so genannten, Merkmalsraum auf. Der Merkmalsraum, meist mit Ω bezeichnet, ist ein von Von Mises eingeführtes Konzept, das in den meisten Büchern über Wahrscheinlichkeitstheorie übernommen wurde. Der Begriff Merkmalsraum wurde später allerdings in den heutzutage geläufigeren Stichproben- oder Ereignisraum umbenannt. Des Weiteren ist erwähnenswert, dass Ω nur aus allen elementaren Merkmalen bestehen soll, da jede Teilmenge von Ω wieder ein Merkmal ist. Von Mises führte auch den Begriff des Kollektivs ein um ein sich wiederholendes Ereignis oder ein Massenphänomen zu beschreiben. Ein Kollektiv wird durch Sequenzen von 17 gleichartigen Ereignissen oder Ergebnissen bestimmt, die sich durch ein Merkmal, wie Farbe oder Zahl, unterscheiden. Beim Würfelwurf ist zum Beispiel Ω = {1, 2, . . . , 6} die Menge der möglichen Ausgänge und eine Teilmenge von Ω ist A = {2, 4, 6}. A beschreibt die Menge möglichen Ausgänge mit der nicht elementaren Eigenschaft ”gerade Augenzahl”. Es ist oft nützlich zwischen einem empirischen Kollektiv und einem mathematischen Kollektiv zu unterscheiden. Ersteres existiert in der realen Welt und kann beobachtet werden. Ein mathematisches Kollektiv andererseits besteht aus einer unendlichen Folge {ω1 , ω2 , . . . , ωn , . . .}, wobei ωn ∈ Ω ∀ n. Diskutieren wir nun die Frage, ob eine Repräsentation eines endlichen empirischen Kollektivs durch ein infinites mathematisches Kollektiv möglich ist. Für Von Mises ist diese Frage mit ”ja” zu beantworten, da dies in der Physik ständig vorkommt. In der Mechanik beispielsweise benutzen wir Punktmengen um Körper darzustellen und infinitesimal dünne Linien repräsentieren Linien mit finiten Ausmaßen. Von Mises argumentiert damit, dass er Wahrscheinlichkeit als eine mathematische Wissenschaft wie Mechanik betrachtet und damit jede Begründung fehle, warum Wahrscheinlichkeitstheorie genauer sein sollte als eben Mechanik. Wenn es uns in der Mechanik also ausreicht, finite Objekte durch infinite darzustellen, so muss es auch in der Wahrscheinlichkeitstheorie erlaubt sein. Unser Ziel ist es jetzt, Von Mises’ Ansichten zu verfolgen, wie mathematische Wissenschaft mit der empirischen Materie zusammenhängt. Dies ist dann auch die Verbindung zwischen dem empirischen und dem mathematischen Kollektiv. Da Von Mises ein Empirist war, startet er immer vom beobachtbaren Phänomen, wie einem empirischen Kollektiv. Um damit umgehen zu können, brauchen wir dann ein, durch Abstraktion oder Idealisierung erhaltenes, mathematischen Konzept, wie in diesem Falle das Konzept des mathematischen Kollektivs. 5.2 Empirische Wahrscheinlichkeitsgesetze Laut Von Mises gibt es zwei empirische Gesetze, die von empirischen Kollektiven eingehalten werden: das Urphänomen und das Gesetz der speziellen Spielsysteme. Das erste beschreibt die wachsende Stabilität der relativen Häufigkeit verschiedener Ausgangsmöglichkeiten für steigende Beobachtungszahl. Von Mises nennt dieses Gesetz ”Urphänomen”, eigentlich ist es aber ein Stabilitätsgesetz für statistische Häufigkeiten. Man kann dieses Gesetz in allen Zufallsspielen (wie Würfel, Münze, Roulette), aber auch in Versicherungsunternehmen und biologischen Statistiken, beobachten. Dieses erste Gesetz war auch schon vor Von Mises bekannt. Das Gesetz der speziellen Spielsysteme stammt jedoch von ihm. Von Mises’ Idee war, Zufall mit dem Fehler von Spielsystemen in Verbindung zu bringen. Ein Spielsystem bei Roulette könnte sein, immer einmal auf Rot und dreimal auf Schwarz zu setzen oder nur jede siebte Runde zu spielen. Laut dem Gesetz der speziellen Spielsysteme kann aber kein System die Gewinnchancen des Spielers vergrößern. Also konvergiert nicht nur die relativ Häufigkeit gegen gewissen Werte, sondern diese Werte bleiben auch konstant, wenn wir, einem Spielsystem folgend, auf eine bestimmte Art wetten. 5.3 Definition der Wahrscheinlichkeit als Grenzfrequenz Wir haben nun mit dem Urphänomen und dem Gesetz der speziellen Spielsysteme zwei empirische, anschaulich richtige Gesetze eingeführt. Der nächste Schritt auf Von Mises’ Weg ist die Idealisierung oder Abstraktion dieser Gesetze, um die mathematischen Axiome (vgl. 4.2 18 Wahrscheinlichkeitsaxiome) zu erhalten. Diese Axiome werden naturgemäß auf ein Kollektiv der Form C = {ω1 , ω2 , . . . , ωn , . . .} mit ωn ∈ Ω ∀ n angewendet. Das erste Axiom ist leicht aus dem Urphänomen herzuleiten und kann wie folgt geschrieben werden: Konvergenzaxiom: Sei A ein elementares Merkmal des Kollektivs C welches in den ersten m Stellen von Cm(A)− mal vorkommt ⇒ ∃ lim m(A) n n→∞ Wir definieren jetzt die Wahrscheinlichkeit von A in C als P(A|C) = lim m(a)/n. Dies n→∞ nennt man die Grenzfrequenzdefinition der Wahrscheinlichkeit. Man sieht, dass durch diese Definition alle Wahrscheinlichkeiten bedingte Wahrscheinlichkeiten werden. Nachdem wir Wahrscheinlichkeit definiert haben, werden wir nun kurz Kritik daran üben. Einer der Hauptkritikpunkte ist die Beengtheit der Theorie. Es gibt nämlich einige wichtige Situationen in denen wir Wahrscheinlichkeit nutzen wollen, in denen aber kein empirisches Kollektiv definiert werden kann. Auf diesen Punkt antwortet Keynes damit, dass wir Wahrscheinlichkeit nur dort in einem mathematischen oder quantitativen Sinne einführen sollen, wo es auch eine Reihe von gleichartigen Ereignissen gibt. Die Mathematiker, die der Frequenztheorie trotz dieser Kritik folgten, taten dies vor allem deswegen, weil es keine befriedigendere Lösung gab. Abgesehen von beobachtbarer Häufigkeit gab es nur Theorien, die das Indifferenzprinzip verwendeten, und dieses führt ja bekanntlich zu einigen Paradoxien. 5.4 Das Zufallsproblem Das empirische Gesetz der speziellen Spielsysteme sagt, dass es unmöglich ist, jemandes Gewinnchancen durch Verwendung eines Spielsystems zu erhöhen. Unsere Aufgabe ist jetzt, eine Version des Gesetzes für mathematische Kollektive zu formulieren. Dies wird dann das zweite Axiom der mathematischen Theorie: das Zufallsaxiom. Wählen wir unser originales Kollektiv {a1 , a2 , . . . , an , . . .}, sodass an gleich 0 oder 1 ∀ n ist. Wir können auch ein Spielsystem darstellen als infinite Folge {c1 , c2 , . . . , cn , . . .} mit Einträgen 0 und 1 so, dass cn = 1 die Wahl von an und cn = 0 die Verwerfung von an bedeutet. Wir sagen, {c1 , c2 , . . . , cn , . . .} sei ein rekursives Spielsystem, wenn cn = φ(bn ) wobei 1. b1 = 1, bn+1 = 2bn + an 2. φ ist eine rekursive Funktion in N, sodass für unendliche viele n gilt: cn = 1 Damit definieren wir unser Zufallsaxiom: Sei C ein Kollektiv, das das Konvergenzaxiom erfüllt, A eine beliebige Eigenschaft in C, für die gilt: P(A|C) = lim m(A)/n = p und C ′ eine rekursiv durch ein Spielsystem n→∞ bestimmte Teilsequenz von C. Dann existiert in C ′ lim m(A)/n und ist gleich p. n→∞ Man kann zeigen, dass es ohne der Einschränkung auf die abzählbaren, rekursiven Spielsysteme zu einigen Problemen bezüglich dem Konvergenzaxiom kommt und sich Zufallsaxiom und Konvergenzaxiom ausschließen würden. (vgl. Gillies S. 105 - 109) 19 5.5 Verbindung zwischen Von Mises’ Axiome und Kolmogorovs Axiome Wie in der subjektiven Theorie müssen wir nun untersuchen, wie die von Von Mises eingeführten Axiome mit den Kolmogorovschen Axiomen, die innerhalb der Mathematik Standard sind, in Verbindung stehen. Die ersten Kolmogorovschen Axiome (vgl. 4.2 Wahrscheinlichkeitsaxiome) können vom Konvergenzaxiom abgeleitet werden. Um die Axiome aus dem vorigen Kapitel anzugeben, werden wir die Ereignisse E, F, . . . durch die Eigenschaften A, B, . . . ersetzen. Außerdem wechseln wir vom bestimmten Ereignis zum Merkmalsraum. Mit diesen Modifikationen schreiben wir die ersten zwei Axiome von Kolmogorov wie folgt: 1. 0 6 P(A) 6 1 ∀ A ∧ P(Ω) = 1 Das Konvergenzaxiom annehmend gilt: P(A) = lim m(A)/n. Es gilt: 0 6 m(A)/n 6 1. n→∞ Verwenden wir den Grenzwert, so gilt: 0 6 P(A) 6 1. m(Ω)/n = n/n = 1, also gilt auch P(Ω) = 1. 2. Additionsgesetz: Seien A und B zwei sich ausschließende Eigenschaften, dann folgt: P(A) + P(B) = P(A ∨ B) Sind A und B sich ausschließende Eigenschaften, dann gilt: m(A)/n + m(B)/n = m(A∨ B)/n. Verwenden wir wie oben den Grenzwert, so ergibt sich: P(A) + P(B) = P(A ∨ B). Dies zeigt das Additionsgesetz im Falle von endlicher Additivität. Wie bei der subjektiven Theorie stellen wir uns die Frage, ob das Additionsgesetz zu abzählbarer Additivität erweitert werden kann. Dies folgt nämlich nicht aus Von Mises’ Axiomen. Um die Frage zu beantworten, stellen wir uns zuerst einem sofort auftretenden Problem: jedes empirische Kollektiv hat einen endlich Merkmalsraum. Von Mises war sich dieses Problems bewusst und versuchte es, durch die Einführung eines weiteren Axioms zu lösen. Durch diese Einführung löst er zwar die Frage der abzählbaren Additivität, untergräbt aber seine eigene philosophische Rechtfertigung für die Axiome. Ihm zufolge soll ja jedes Axiom die mathematische Abstraktion und Idealisierung eines empirischen Gesetzes sein. Dies ist zwar der Fall beim Konvergenzaxiom und beim Zufallsaxiom, jedoch nicht bei seinem neuen Axiom zur abzählbaren Additivität. Das dritte Axiom kann mit obiger Notation folgendermaßen umgeschrieben werden: 3. ∀A, B : P(A ∧ B) = P(A|B)P(B) Wir haben schon gesehen, dass die Wahrscheinlichkeit von jeder Eigenschaft A immer bedingt auf ein gewisses Kollektiv C ist, wir also immer P(A|C) schreiben sollten. Nun steht aber im dritten Axiom P(A|B), was die Bedingtheit nicht auf ein Kollektiv, sondern auf eine Eigenschaft B bedeutet. Da wir noch keine Bedeutung für den Ausdruck P(A|B) definiert haben, müssen wir dies tun, bevor wir uns überhaupt mit dem dritten Axiom beschäftigen können. Tatsächlich ist P(A|B) definiert als P(A|B ∧ C). B ∧ C ist dabei ein Kollektiv, bei dem wir aus C diejenigen Elemente wählen, in denen B auftritt. Zu zeigen, dass dies wirklich ein Kollektiv nach unserem Sinne ist, wird Teil des Beweises, dass das Axiom 3 anwendbar ist, sein. Wir nehmen zu Anfang an, dass B nur endlich oft in C vorkommt. Dann hat B ∧ C nur endliche Sequenzen inne. Wir brauchen weiter die Bedingung, dass die Wahrscheinlichkeit von B ungleich 0 ist, also P(B|C) 6= 0. Wir wählen n beliebig und nehmen an, dass in den ersten n Stellen von C B n(B)-oft vorkommt. Da P(B|C) 6= 0 ⇒ n(B) → ∞ für n → ∞. In 20 den ersten n(B) Stellen von B ∧ C soll nun A m(A) mal eintreten. Wir müssen zeigen, dass der Limes lim m(A)/n(B) existiert. Wenn nun A ∨ B in den ersten n Stellen von C genau n→∞ n(A ∨ B) oft vorkommt, dann ist n(A ∨ B) = m(A). Damit und mit dem Konvergenzaxiom angewandt auf C existieren die folgenden Grenzwerte und es gilt: m(A) P(A ∧ B) n(A ∨ B) n(A ∨ B)/n = lim = lim = n(B) n(B)/n P(B) n(B)→∞ n(B) n(B)→∞ n(B)→∞ lim Die Grenzwerte hängen nicht von der gewählten rekursiven Spielstrategie ab. Wir haben nun gezeigt, dass die Kolmogorovschen Axiome Von Mises’ Theorie folgen, wenn wir uns erstens auf nur endliche Additivität beschränken und wir zweitens das dritte Axiom nur für Fälle mit P(B) 6= 0 betrachten. Damit wurde im vergangenen Kapitel die Frequenztheorie eingeführt, ihre Ansicht über Wahrscheinlichkeit erklärt und Gesetze definiert. Wir haben einige Probleme gefunden und diskutiert, aber auch gezeigt, dass die aufscheinenden Axiome mit Einschränkungen in die mathematische Struktur passen. Gehen wir nun noch kurz weiter zur letzten in dieser Arbeit vorgestellten Wahrscheinlichkeitstheorie. 6 Propensitätstheorie Die Propensitätstheorie wurde von Popper eingeführt. Er verteidigte zwar die Frequenztheorie, sah aber ihre Schwächen ein. Deswegen wollte er eine neue, objektive Interpretation der Wahrscheinlichkeit finden. Der größte Fehler der Frequenztheorie war laut Popper, dass sie bei objektiven Wahrscheinlichkeiten für einzeln auftretende Ereignisse versagt. Poppers Vorschlag für eine Propensitätstheorie wurde von mehreren Wissenschaftstheoretikern aufgegriffen. Jeder dieser Philosophen entwickelte seine Idee auf unterschiedliche Weise. Deswegen gibt es eigentlich mehrere verschiedene Propensitätstheorien. In den Wahrscheinlichkeitstheorien, die wir bis jetzt betrachtet haben (klassische, logische, subjektive und Frequenztheorie), gab es jeweils eine allgemein anerkannte Version. Dies ist nicht der Fall bei der Propensitätstheorie. Ich werde mich hier darauf beschränken, einen allgemeinen Überblick über die Propensitätstheorie zu schaffen, um nicht eine der Versionen zu bevorzugen. 6.1 Poppers Vorstellung Die Frage, die sich als erste stellt, ist die, ob es möglich ist, Wahrscheinlichkeiten für alleinstehende Ereignisse, oder einzigartige Wahrscheinlichkeiten wie Popper sie nannte, zu definieren. Ein von ihm betrachtetes Beispiel war die Todeswahrscheinlichkeit. Wir können die Wahrscheinlichkeit, mit 41 Jahren zu sterben anhand einer Menge von 40-jährigen Österreichern herausfinden. Es ist die Grenzfrequenz derjenigen in der Menge, die vor dem Alter von 41 Jahren sterben. Wir können aber nicht die Wahrscheinlichkeit eines einzelnen Mannes, mit 40 zu sterben, herausfinden. In der subjektiven Theorie war es einfach, Wahrscheinlichkeiten für einzeln auftretende Ereignisse einzuführen. Wir können alle Freunde unseres Österreichers darauf wetten lassen, ob er stirbt bevor er 41 wird. Klarerweise stellt ein solches Vorgehen einen Objektivisten wie Popper nicht zufrieden. Die Schlüsselfrage ist damit folgende: Ist es überhaupt möglich, objektive Wahrscheinlichkeiten für einzigartige Ereignisse einzuführen? 21 Da Popper von der Frequenztheorie ausging um Propensitätstheorien einzuführen, wollte er diese zuerst leicht verändern. Er verwendete statt den Sequenzen in der Frequenztheorie solche, die entweder virtuell sein mussten oder aber durch verschiedene, generierende Umstände verursacht wurden. Diese Umstände würden bei wiederholter Realisierung die Elemente der Sequenz produzieren. In dieser Interpretation sind die generierenden Umstände also mit der Neigung ausgestattet, die beobachtbaren Häufigkeiten zu produzieren. Anders erklärt bedeutet dies, wir müssen uns die Umstände als mit einer Tendenz, Neigung oder Propensität ausgestattet vorstellen, die Sequenzen erzeugen, die wiederum gleich zu den Wahrscheinlichkeiten sind. Dies ist genau der Punkt, der die Propensitätstheorie ausmacht. Also hängen die Wahrscheinlichkeiten von der experimentellen Umgebung ab, in der sie gemessen werden sollen. Sie charakterisieren somit eigentlich die Verschiebung oder die Propensität des experimentellen Arrangements hinsichtlich eines Ereignisses, wenn es oft wiederholt wird. Hier muss noch angemerkt werden, dass Experimente, die oft wiederholt werden, nur endliche Sequenzen erzeugen können. Poppers Ansicht war also, dass Wahrscheinlichkeiten eher in Relation gebracht werden sollen mit dem Ausgang von wiederholbaren Ereignissen als mit Kollektiven. Es war eine Folge von Von Mises’ Überlegungen, dass wir Wahrscheinlichkeiten nur in physikalischen Situationen einführen, in denen wir empirische Kollektive haben. Wenn wir nun aber Poppers Propensitätstheorie verfolgen, wird es überaus legitim, Wahrscheinlichkeiten für verschiedene Umstände einzuführen, obwohl das Ereignis nicht in großer Zahl wiederholt wurde. Obwohl damit eine wohldefinierte Erweiterung von Von Mises’ Frequenztheorie erzeugt wurde, stellt sich immer noch die Frage, ob diese Version bei der Einführung der objektiven Wahrscheinlichkeit für einzelne Ereignisse hilft. 6.2 Objektive Wahrscheinlichkeiten für einzigartige Ereignisse Unser Problem in diesem Absatz ist folgendes: Wenn wir versuchen einem einzelnen Ereignis eine Wahrscheinlichkeit zuzuordnen, dann wird diese mit den umgebenden Umständen variieren, die wir selbst vorgeben. Wir müssen Wahrscheinlichkeit also immer mit den gegebenen Voraussetzungen in Verbindung bringen, die wir beschreiben. Um dies zu veranschaulichen kommen wir noch einmal zurück zu unserem Beispiel eines bestimmten 40-jährigen Mannes und seiner Wahrscheinlichkeit bis zum Alter von 41 Jahren zu überleben. Intuitiv wird diese Wahrscheinlichkeit variieren, je nachdem, ob wir das Individuum eher als Mann oder als Österreicher betrachten, da die Überlebenswahrscheinlichkeit in diesem Alter für einen Österreicher höher ist als für die gesamte Menschheit. Analog verändert sich die Wahrscheinlichkeit mit der Überlegung, ob wir den Menschen als 40-jährigen Österreicher betrachten oder als 40-jährigen Österreicher, der täglich zwei Packungen Zigaretten raucht. Diese Überlegung lässt sich noch einige Zeit weiter führen und veranschaulicht gut, wie Wahrscheinlichkeiten eher abhängig von den beschreibenden Eigenschaften als vom Ereignis selbst sind. Es ist im Kontext der Propensitätstheorie nur natürlich, unser Problem als eines der beschriebenen Umstände zu betrachten. Wir können allerdings gleichermaßen dies zusammenfassen und das Ereignis in Referenzklassen einordnen. Anstatt zu fragen, ob wir unseren 40-jährigen Mann als Österreicher oder als Österreicher der täglich zwei Packungen Zigaretten raucht betrachten sollen, können wir ihn auch in die Referenzklasse aller 40-Jährigen, aller 40-jährigen Österreicher oder aller 40-jährigen Österreicher die zwei Packungen Zigaretten täglich rauchen, einordnen. 22 Schauen wir nun auf bestimmte Beispiele dieses generellen Prinzips. Nehmen wir an, ein bestimmtes Ereignis E kann beschrieben werden als Teil einer Serie von Eigenschaften S, S ′ , S ′′ , . . ., wo der Satz an Eigenschaften S eine Obermenge dessen von S ′ ist und dieser wiederum eine Obermenge von S ′′ und so weiter. Wir nehmen weiters an, dass statistische Daten uns zu einer guten Einschätzung über die objektive Wahrscheinlichkeit vom Auftreten des Ereignisses E führen, nennen wir sie p, p′ , p′′ , . . .. Verständlicherweise werden wir eher die Wahrscheinlichkeit p′ annehmen als p, p′′ eher als p′ und so weiter. Diese Vorgehensweise nennt man auch Prinzip der engsten Referenzklasse. Illustrieren wir dies wieder mit unserem Beispiel. Unser einzigartiger Mann kann nun in folgende Referenzklassen gesteckt werden: die Klasse aller 40-jährigen Männer, die Klasse aller 40-jährigen Österreicher und die jener, die 2 Packungen Zigaretten am Tag rauchen. Wenn wir nun annehmen, dass wir ausreichen statistische Daten über diese drei Klassen haben, können wir nach dem Prinzip der engsten Referenzklasse annehmen, dass die Überlebenswahrscheinlichkeit unseres Mannes auf der dritten unserer Klassen basiert. Das Prinzip der engsten Referenzklasse scheint ein anschaulich gutes zu sein, jedoch gibt es damit auch Probleme. Erstens könnte es für die Referenzklasse keine ausreichenden statistischen Daten geben oder zweitens kann es auch keine eindeutige engste Klasse geben. Nehmen wir zum Beispiel an, dass unser Mann nicht nur zwei Packungen Zigaretten am Tag raucht, sondern auch sehr sportlich ist. Es kann dann genug statistische Daten geben bezüglich der Überlebenswahrscheinlichkeit von Rauchern als auch von Sportlern, aber nicht von sportlichen Rauchern. Damit haben wir nicht nur eine, sondern zwei engste Referenzklassen und lassen unsere Wahrscheinlichkeitsüberlegungen auf den Daten (sagen wir p und p′ ) dieser zwei Klassen basieren. Diese könnten jedoch unterschiedlich sein. Zusätzlich ist es auch möglich, dass es keine engste Referenzklasse gibt. Es kann sein, dass wir etwas über das Ereignis wissen, das in den statistischen Daten nicht aufscheint und uns trotz dessen einen guten Grund gibt, unsere Wahrscheinlichkeit zu verändern. Wenn wir solche qualitativen Begebenheiten negieren und nur quantitative zu Rate ziehen, kann dies uns auf ein völlig falsches Ergebnis führen. Eine Veranschaulichung hierfür ist, wenn wir wieder unseren 40-jährigen, rauchenden Mann betrachten. Im Folgenden soll er nicht mehr sportlich sein. Wir schätzen die Überlebenswahrscheinlichkeit dieses Mannes im folgenden Jahr als die Häufigkeit r aller sich in der gleichen Referenzklasse befindlichen 40-jährigen Männer die zwei Packungen Zigaretten am Tag rauchen. Lernen wir nun diesen Mann besser kennen. Wir erfahren, dass er aus einer Familie kommt, in der alle Erwachsenen zwei Packungen Zigaretten am Tag rauchen und dennoch keines der Familienmitglieder jemals an Lungenkrebs oder an einer anderen, mit dem Konsum von Zigaretten in Verbindung zu bringenden Krankheit oder überhaupt vor ihrem 80 Lebensjahr gestorben ist. Es gibt keine statistischen Daten zu Individuen, die aus solch ungewöhnlichen Familien stammen. Dennoch ist es mit diesen zusätzlichen Informationen begründbar, wenn wir unsere Wahrscheinlichkeit erhöhen möchten auf einen Wert größer als r. Der allgemeine Weg um Wahrscheinlichkeiten für bestimmte Ereignisse zu bestimmen ist damit folgender: Zuerst finden wir, falls vorhanden, die engste Referenzklasse zu der genug statistische Daten zur Verfügung stehen und berechnen die relative Häufigkeit, sagen wir r, mit der das Ereignis in der Referenzklasse auftritt. Dann betrachten wir zusätzliche Informationen, die keinen statistischen Charakter haben und dennoch relevant für den Fall sind und verändern r je nach Information. Dies ist sicher eine gut begründete und praktische Vorgangsweise. Sie involviert jedoch 23 einige subjektive Elemente und ist damit nicht sehr dafür geeignet, objektive, einzigartige Wahrscheinlichkeiten zu erzeugen. An diesem Punkt möchte ich meine Überlegungen über die Propensitätstheorie beschließen. Obwohl wir nicht zu einer zufriedenstellenden Lösung gekommen sind, haben wir doch einen Überblick über die Vorgangsweise der Wahrscheinlichkeitstheoretiker gewonnen. Derzeit wird noch an einer zufriedenstellenden Lösung von objektiven Wahrscheinlichkeiten, die nicht mit der Frequenztheorie zusammenhängt, gearbeitet. Jedoch treten bei den meisten Probleme auf, deren Lösungen nur in Grundzügen zufriedenstellende sind. 7 Schlussworte Mit dieser Seminararbeit wollte ich einen Einblick in die philosophischen Theorien der Wahrscheinlichkeit geben. Probleme sind bei jeder einzelnen aufgetreten, weswegen an diesem Thema auch noch heute geforscht wird. Für weitere Vertiefung empfehle ich die angeführte Literatur. Besonders [4] wurde in dieser Arbeit als Hauptquelle verwendet. Ich hoffe, dass mit dieser Arbeit Interesse geweckt wurde, sich weiter mit der Philosophie der Wahrscheinlichkeit im Speziellen und Philosophie der Mathematik im Allgemeinen zu beschäftigen. 24 Literatur [1] Popper: The Propensity Interpretation of Probability. http://www.lophisc.org/wpcontent/uploads/2011/05/Popper 1959 Propensity BJPS.pdf, 1959. [2] Pierre de Fermat, Blaise Pascal: Briefwechsel zum Teilungsproblem (1654). https://www.uni-due.de/imperia/md/content/didmath/ag jahnke/briefe fp.pdf, 1988. [3] Seminar Logik III: Wahrscheinlichkeit und unsicheres Schließen. http://www.phil-fak.uniduesseldorf.de/fileadmin/Redaktion/Institute/Philosophie/Theoretische Philosophie/ Schurz/scripts/WahrscheinlichkeitSkriptum.pdf, 2005. [4] D. Gillies. Philosophical Theories of Probability. Routledge, 2000. [5] P. S. Laplace. A philosophical essay on probabilities. Dover Publ., 1995. [6] B. Prosenbauer. Die Geschichte der Wahrscheinlichkeitsrechnung und deren Berücksichtigung im Unterricht. Technische Universität Wien, 2013. 25