1 Aufbau-SE Logik III: Wahrscheinlichkeit (G. Schurz, Ws 2016-17, Mi 10:3012:00, 23.31, U1.46) Zeitplan: 19.10. Objektive (statistische) vs. subjektive (epistemische) Wahrscheinlichkeit (Carnap, Reichenbach) 26.10. Mathematische Gesetze der Wahrscheinlichkeit (Kolmogoroff) 02.11. entfällt (Konferenzreise) 09.11. Probabilistische Rechtfertigung von Schlussarten (Suppes, Adams) 16.11. Philosophische Probleme der objektiv-statistischen Wahrscheinlichkeit (von Mises, Reichenbach, Salmon, Kutschera) - Determinismus und stat. W.keit 23.11. Philosophische Probleme der subjektiv-epistemischen Wahrscheinlichkeit (Ramsey, de Finetti, Carnap, Skyrms, Earman, Howson-Urbach) 30.11. Verbindungen von objektiver und subjektiver Wahrscheinlichkeit (Reichenbach, Carnap, de Finetti, Lewis, Strevens, eigener Ansatz) 07.12. Überprüfung statistischer Hypothesen (Fisher, Neyman) 14.12. Likelihood-Intuition und ihre bayesianische Rechtfertigung (Earman, Gillies) 21.12. Objektiver und subjektiver Bayesianismus (Howson-Urbach, Laplace, Williamson) 11.01. Induktionsproblem I: No free lunch Theorem (Wolpert) 18.01. Induktionsproblem II: Algorithmische Komplexität (Solomonoff) 25.01. Induktionsproblem III: Metainduktion (eigener Ansatz) 01.02. Zeitpuffer / Wiederholung 08.02. Klausur/BN 1 2 2 Literatur: Das Aufbau-Seminar stützt sich auf mein Buch: Gerhard Schurz: Wahrscheinlichkeit, De Gruyter, Berlin/Boston 2015 (25 Euro). Siehe: https://www.amazon.de/Wahrscheinlichkeit-Grundthemen-Philosophie-GerhardSchurz/dp/3110425505) Weitere Literatur: Adams, E.W. (1998): A Primer of Probability Logic, CSLI Publications, Stanford. Bortz, J. (1985): Lehrbuch der Statistik, 2. Aufl., Springer, Berlin (Neuaufl. als Statistik für Human- u. Sozialwissenschaflter, 6. überarb. Aufl. 2005). Carnap, R. (1959): Induktive Logik und Wahrscheinlichkeit. Bearbeitet von W. Stegmüller, Springer, Wien. Carnap, R. und Jeffrey, R. (1971): Studies in Inductive Logic and Probability, Univ. of California Press, Berkeley. Gillies, D. (2000): Philosophical Theories of Probability, Routledge, London. Earman, J. (1992): Bayes or Bust?, MIT Press, Cambridge/Mass Howson, C. und Urbach, P. (1996): Scientific Reasoning: The Bayesian Approach, Open Court, Chicago (2. Aufl.). Stegmüller, W. (1973b), Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie. Band IV: Personelle und Statistische Wahrscheinlichkeit, Springer, Berlin. 3 1. Objektive (statistische) vs. subjektive (epistemische) Wahrscheinlichkeit Geschichte: Theorie der Wahrscheinlichkeit entstand im 16. und 17. Jahrhundert, im Kontext von Glücksspielen: Galilei, 1654 Briefwechsel Pascal-Fermat, 1657 Huygens, 1713 Bernoulli (Binomialverteilung, Gesetz der großen Zahlen), 1763 Theorem von Bayes, 1814 Laplace, 1933 axiomatische Fundierung durch Kolmogorov. Intuitive Begriff der Wahrscheinlichkeit involviert etwas Objektives („wahr-“) und etwas Subjektives („-scheinlich“). Erst im 20. Jahrhundert wurde die unterschiedliche Natur der beiden Wahrscheinlichkeitsbegriffe herausgearbeitet. Frühen Begründer hatten dies nur unzureichend bemerkt. Laplace (1814) unterschied das subjektive „Gleichverteilungsprinzip“ nicht von der objektiven Gleichwahrscheinlichkeit der Wurfresultate eines regulären Würfels; erst von Mises (1928, 69) machte den Unterschied deutlich. Gegenwärtige Wahrscheinlichkeitstheorie durch eine anhaltende Lagertrennung gekennzeichnet (vgl. auch Gillies 2000): in den empirischen Wissenschaften objektiv-statistische Wahrscheinlichkeit (Begründer von Mises 1964, Reichenbach 1935, 1949, und Fisher 1956; Einführungsliteratur Bortz 1985; Spezialvariante "objektive Einzelfallwahrscheinlichkeit"). in Philosophie und kognitiver Wissenschaft subjektiv-epistemische Wahrscheinlichkeit im Sinn von rationalen Glaubensgraden (Begründer Ramsey 1926 und de Finetti 1934/70; Einführungsliteratur Earman 1992, Howson/Urbach 1996); Spezialvarianten "objektiver Bayesianismus", "logische Wahrscheinlichkeit" Carnap 1959). 3 4 4 in Mathematik wird Interpretationskonflikt systematisch ignoriert. Objektive Wahrscheinlichkeit drückt eine subjektunabhängige Eigenschaft der Realität aus. Subjektive Wahrscheinlichkeit drückt Glaubensgrad eines (aktualen oder hypothetischen) rationalen Subjekts aus. Wenn es sich dabei um intersubjektive Glaubensgrade handelt, spricht man auch von „epistemischer“ Wahrscheinlichkeit. Zur Unterscheidung beider verwenden wir die prädikatenlogische Schreibweise: "Fx" für "x ist ein F" und „Fa“ für "a ist ein F". "F" ist ein Prädikat, das wiederholbares (binäres) Merkmal / Ereignistyp F bezeichnet, z.B. "rothaarig zu sein". „x“ Individuenvariable und „a“ Individuenkonstante. (In Mathematik unterscheidet man das nicht formal, schreibt für beides eine binäre mathematische 'Zufallsvariable' Xï) Die statistische (objektive) Wahrscheinlichkeit eines Merkmals oder wiederholbaren Ereignistyps, z.B. Fx, ist die relative Häufigkeit seines Eintretens bzw. der Grenzwert seiner relativen Häufigkeit auf lange Sicht. Formal kleines p(): p(Fx) = Häufigkeit bzw. Häufigkeitsgrenzwert, mit der beliebige Individuen x eines gegebenen Bereichs die Eigenschaft F besitzen. Beispiel: Die Häufigkeit von Sonnentagen in Düsseldorf. Die epistemische (subjektive) Wahrscheinlichkeit eines bestimmten Ereignisses bzw. Sachverhaltes, z.B. Fa, ist der rationale Glaubensgrad, in dem ein (oder mehrere gegebene) Subjekt(e) an das Eintreten des Ereignisses glauben. Formal großes P(): P(Fa) = der subjektive Glaubensgrad dafür, dass das Individuum 5 a die Eigenschaft F besitzt. Beispiel: Unser Glaubensgrad, dass der morgige Tag in Düsseldorf ein Sonnentag sein wird. Für endlichen Individuenbereich (Population, Grundgesamtheit) D ist die statistische Wahrscheinlichkeit gleich der relativen Häufigkeit eines Ereignistyps Fx in D: h(Fx) = Anzahl aller Fs in D geteilt durch die Anzahl aller Individuen in D. Problem: Endliche Häufigkeiten sind Zufallschwankungen unterworfen; sie geben nicht direkt die Wahrscheinlichkeitsdispositionen wieder (Beispiel: Münzwurf) Für unendlichen Individuenbereich D ist die relative Häufigkeit undefiniert. Man bezieht sich auf eine zufällige Anordnung der Individuen in D in Form einer (unendlichen) Zufallsfolge (a1,a2,), produziert durch ein "Zufallsexperiment". Statistische Wahrscheinlichkeit p(Fx) =def limn hn(Fx) = Grenzwert der relativen Häufigkeiten hn(Fx) von Fs in den n-gliedrigen Anfangsabschnitten einer Zufallsfolge, für n gegen unendlich. p(Fx) = 0,6 heißt per definitionen: für jedes noch so kleines >0 gibt es eine Stellenzahl n, sodass für alle m n die relative Häufigkeit hm(Fx) vom Grenzwert 0,6 um weniger als abweicht (je kleiner , desto größer n) hn(Fx) limnhn(Fx)=0,6 n 5 6 6 Konvergenz der relativen Häufigkeiten eines Ereignisses mit Häufigkeitsgrenzwert p(Fx) = 0.6 in zwei Zufallsfolgen (programmiert in Visual Basic). Häufigkeitsgrenzwerte sind theoretische Idealisierungen p(Fx) = 0.6 bedeutet: Zufallsexperiment hat gewisse Disposition, Ergebnis Fx mit einer auf lange Sicht nach 0.6 konvergierenden Häufigkeit zu produzieren („generische Propensität“). Auch zufälliges Ziehen eines Individuums aus Individuenbereich D ist Zufallsexperiment. Zusammenhang: Statistischen Wahrscheinlichkeit, zufällig ein F-Individuum aus D zu ziehen = endliche Häufigkeit von Fx in D gdw. jedes Individuum in D dieselbe statistische Chance besitzt gezogen zu werden. (Ziehen mit Zurücklegen) Zur Interpretation von Eins- und Nullwahrscheinlichkeiten: Im epistemischen Fall bedeutet die Aussage P(A) = 1, dass sich Subjekt hinsichtlich der Aussage A sicher ist. Im statistischen Fall komplizierter: Nur bei endlichem Individuenbereichs ist p(Fx) = 1 gleichbedeutend mit ausnahmslosen Allsatz xFx (Alle Individuen sind F), bzw. p(Fx) = 0 mit xFx. Bei unendlichem Individuenbereichs ist p(Fx) = 1 schwächer als xFx, bedeutet nur, dass die Häufigkeiten hn(Fx) gegen eins konvergieren. Beispiel: Sei Zufallsfolge (1, 2,3) und Fx das Prädikat „x ist eine ganzzahlige Potenz von 2“. Dann gibt unter den natürlichen Zahlen unendlich viele ganzzahlige 2er-Potenzen; dennoch gilt limk p(Fx) = limk(k/2k) = 0. Grundlegender Unterschied: Statistische Wahrscheinlichkeit p(Fx) bezieht sich immer auf wiederholbaren Ereignistyp (Sachverhaltstyp) ausgedrückt durch Prädikat 7 bzw. offene Formel Fx; der Operator "p" bindet die freie Individuenvariable ("px"). Subjektive Wahrscheinlichkeit p(Fa) bezieht sich auf bestimmtes Ereignis (Sachverhalt) ausgedrückt in einem Satz bzw. einer geschlossenen Formel Fa. Bekannteste Prinzip, um statistische Wahrscheinlichkeiten auf subjektive Einzelfallwahrscheinlichkeiten zu übertragen (Reichenbach 1949, §72): Prinzip der engsten Referenzklasse: Die subjektive Wahrscheinlichkeit P(Fa) eines Einzelereignisses wird bestimmt als die (geschätzte) bedingte statistische Wahrscheinlichkeit p(Fx|Rx) des entsprechenden Ereignistyps Fx in der engsten (relevanten, nomologischen) Bezugsklasse bzw. Referenzklasse R, von der das zugrundeliegende Subjekt 'weiß' bzw. mit Sicherheit glaubt, dass a in ihr liegt (also Ra gilt). Anwendung in Alltag und Wissenschaft: Subjektive Wahrscheinlichkeit dafür, dass gegebene Person Autounfall hat (Versicherungsstatistik): engste bekannte Referenzklasse, die nicht unter Datenschutz fällt. Wahrscheinlichkeit dafür, dass es morgen in NRW regnet: engste Referenzklasse = die vom Meteorologen berücksichtigte vorausgehende Wetterentwicklung. Bezug zum induktiven Spezialisierungsschluss (Carnap 1950; "direct inference" nach Levi 1977): Generelle Prämisse 1: r % aller Fs sind Gs Singuläre Prämisse 2: Dies ist ein F ===================== [mit r % Glaubenswahrscheinlichkeit] Konklusion: Dies ist ein G Prinzip der Gesamtevidenz: die singuläre Prämisse muss die gesamte für die Konklusion relevante Evidenz enthalten. 7 8 8 Mit Prinzip der engsten Referenzklasse kann nur subjektive Wahrscheinlichkeit von Singulärsätzen durch statistische Wahrscheinlichkeiten bestimmt werden, nicht subjektive W.keit von generellen Hypothesen (Problem des Bayesianismus). 9 2. Mathematische Gesetze der Wahrscheinlichkeit Statistische und der epistemische Wahrscheinlichkeitsbegriff gehorchen denselben Grundgesetzen (Kolmogorov 1933) Kolmogorov benutzt die mathematisch übliche mengenalgebraische Darstellung: Möglichkeitsraum = {e1,e2,.} Elemente ei von = {e1,e2,}: mögliche (maximal bestimmte) Ergebnisse eines Zufallsexperimentes. "Ereignisse" = Teilmengen von , als Disjunktionen aufgefaßt. Beispiel Würfelwurf: = {1,2,3,4,5,6} Ergebnis z.B. "1" Ereignis z.B. "gerade Zahl" = {2,4,6}. Anderes Beispiel: Ziehen eines Individuums aus dem Individuenbereich: = D. Wir verwenden sprachliche Darstellung (zwecks Unterscheidung von p und P): Im statistischen Fall: = Menge möglicher Ergebnistypen eines (wiederholten) Zufallsexperimentes, dargestellt durch maximal starke offene Formeln der Sprache: Ei(x)(binäre Zufallsvariable), oder f(x) = ei (mehrstufige Zufallsvariable) Beliebige Ereignisse dargestellt durch offene Formel (entsprechen Disjunktionen maximal starker Formeln, z.B. "Gerade(x)" = "x=2 x=4 x=6". Im epistemischen Fall: = Menge möglicher Ergebnisse eine einzelnen Durchführung des Zufallsexperimentes, dargestellt durch maximal starke geschlossene Formeln der Sprache: Ei(aj)(binäre Zufallsvariable) oder f(aj) = ei (mehrstufige Zufallsvariable). Beliebige Ereignisse dargestellt durch geschlossene Formel. 9 10 10 11 Axiome der Wahrscheinlichkeit: Im folgenden bezeichnen A, B, (Ereignisse) offene Formeln im statistischen Wahrscheinlichkeitsaufbau, geschlossene Formeln im epistemischen Aufbau, -Teilmengen im mathematischen Aufbau. Dass A und B disjunkt sind (können nicht gemeinsam auftreten) bedeutet dass die Extension von AB faktisch (im gegebenen Modell) leer ist ist, im statistischen Aufbau. dass AB in allen (logisch, analytisch-epistemisch) möglichen Modellen der Sprache unerfüllbar ist, im epistemischen Aufbau. dass AB leer ist,im mathematischen Aufbau. Zur Erinnerung: entspricht , entspricht , A entspricht A. Grundaxiome der Wahrscheinlichkeit Für alle A, B, , wobei statt „p“ auch „P“ stehen kann: (A1) p(A) 0 (Nicht-Negativität) In Worten: Wahrscheinlichkeiten sind immer größer-gleich null. (A2) p(AA) = 1 (Normierung auf 1) In Worten: die Wahrscheinlichkeit des gesamten Möglichkeitsraumes ist 1. (A3) Wenn A, B disjunkt sind: p(AB) = p(A) + p(B) (endliche Additivität) In Worten: für disjunkte Ereignis(typen) addieren sich die Wahrscheinlichkeiten. 11 12 12 Dass A exhaustiv (notwendig) ist bedeutet dass A von allen Individuen erfüllt wird, im statistischen Aufbau, A von allen möglichen Modellen wahr gemacht wird, im epistemischen Aufbau, A = gilt, im mathematischen Aufbau. Eine Partition von ist eine Menge {A1,,An} vom wechselseitig disjunkten und zusammen exhaustiven Ereignissen Ai. Z.B. {gerade, ungerade} Theoreme unbedingter Wahrscheinlichkeit (T1) p(A) = 1p(A) (Komplementärwahrscheinlichkeit) In Worten: Die Wahrscheinlichkeit der Negation eines Ereignisses ist 1 minus jener des Ereignisses. (T2) p(A) 1 (obere Schranke) In Worten: Die Wahrscheinlichkeit jedes Ereignisses ist kleiner-gleich 1. (T3) p(AA) = 0 (Kontradiktion). In Worten: Ein Widerspruch besitzt die Wahrscheinlichkeit Null. (T4) Für jede Partition A1,,An: 1in p(Ai) = 1 und p(B) = 1in p(BAi). In Worten: Die Summe der Wahrscheinlichkeiten der Ereignisse einerPartition {A1,,An} von addiert sich zu 1, und die Ereignisse {AiB: 1in} bilden eine Partition von B, deren Wahrscheinlichkeiten sich zu p(B) aufaddieren. (T5) p(A1A2) = p(A1) + p(A2) p(A1A2) (allgem. Additionsgesetz) (T6) Wenn A1A2 =def A1A2 exhaustiv ist, dann gilt p(A1) p(A2) (Monotonie) In Worten: Wenn A1 mit Notwendigkeit A2 impliziert, Wahrscheinlichkeitn von A1 kleiner-gleich der von A2. (T7) Ist A1A2 exhaustiv, dann gilt p(A1) = p(A2) (Äquivalenz) dann ist die 13 Die Wahrscheinlichkeit von A unter der Annahme, dass B vorliegt, nennt man die bedingte Wahrscheinlichkeit von A gegeben B, p(A|B) bzw. P(A|B): Bedingte Wahrscheinlichkeit: p(A|B) =def p(A B) , sofern p(B) > 0. p(B) (Analog für „P“ anstelle von „p“.) B = bedingende Ereignis oder Antecedens; A = bedingte Ereignis oder Konsequens. Im endlich-statistischen Fall ist p(A|B) die relative Häufigkeit von A-Individuen in der Menge B siehe Abbildung. („x“ kann man weeglassen) A 8 p(Bx|Ax) = 12/20 = 3/5 12 B 4 p(Ax|Bx) = 12/16 = 3/4 |D| = 24, p(Ax) = 20/24 = 5/6 p(Bx) = 16/24 = 2/3 Im unendlich-statistischen Fall ist p(A|B) der Häufigkeitsgrenzwert von As in einer (unendlichen) Zufallsfolge von B-Individuen. Im subjektiv-epistemischen Fall ist P(A|B) der hypothetische Glaubensgrad an A unter der hypothetischen Annahme, dass B sicher wäre. Wird B tatsächlich mit Sicherheit geglaubt, gilt P(B) = 1 woraus P(A) = P(A|B) folgt. Subjektive Sicherheit bzgl. A impliziert nicht, dass A wahr ist: subjektiver Glaube ist fallibel und Glaubensfunktion P ist unabhängig von Wahrheitswertfunktion v. Hinweis: Gewöhnliche Definition von p(A|B) hat Nachteil, dass p(A|B) für ein 0wahrscheinliches Ereignis B undefiniert. Carnap 1971, Popper 1935: direkte Axiomatisierung bedingter Wahrscheinlichkeit. 13 14 14 Zwei (binäre) Ereignisse A, B heißen probabilistisch unabhängig voneinander, abgekürzt AB, g.d.w. p(AB) = p(A)p(B). Es gilt: AB g.d.w. p(A|B) = p(A) oderp(B) = 0 in Worten: g.d.w. die Annahme von B A's Wahrscheinlichkeit nicht ver ändert, oder Null beträgt. Ergo: Zwei nicht-nullwahrscheinliche Ereignisse sind probabilistisch abhängig g.d.w. p(A|B) p(A) gilt. A und B sind positiv abhängig, wenn p(A|B) > p(A) (bzw. p(AB) > p(A)p(B)) negativ abhängig, wenn p(A|B) < p(A) (bzw. p(AB) < p(A)p(B)) gilt. Wichtig ist die Nichtmonotonie bedingter Wahrscheinlichkeiten: ein hoher Wert von p(A|B) impliziert nicht einen hohen Wert von p(A|BC); vielmehr kann zugleich p(A|BC) = 0 gelten. Beispiel: A B BC C p(A|B) ist hoch, aber p(A|BC) beträgt Null. Beispiel: Die meisten Einwohner Deutschlands essen Schweinefleisch, aber nicht: Die meisten islamischen Einwohner Deutschlands essen Schweinefleisch. 15 Theoreme bedingter Wahrscheinlichkeit (sofern p(A|B) definiert): (TB1): Für die auf B konditionalisierte Wahrscheinlichkeitsfunktion pB(A) =def p(A|B) gelten alle Gesetze der unbedingten Wahrscheinlichkeit. (TB2:) WennAB exhaustiv ist, dann gilt p(B|A) = 1. Die Umkehrung gilt nicht. (TB3) p(AB) = p(A|B)p(B) (TB4) Für jede Partition B1,,Bn giltp(A) = 1in p(ABi) p(Bi) (allg. Multiplikationsprinzip). Speziell folgt: p(A) = p(A|B)p(B) + p(A|B)(1p(B)) (TB5) p(A|B) = p(B|A) p(A) / p(B) (Bayes-Theorem, 1. Version) (TB6) Für jede Partition A1,,An giltp(Ai|B) = p(B|Ai)p(Ai) / 1in p(BAi)p(Ai) (Bayes-Theorem, 2. Version) (TB7) Symmetrie der probabilistischen Abhängigkeit (sofern 1 > p(B), p(A) > 0): p(A|B) > p(A) g.d.w. p(B|A) > p(B) g.d.w. p(A|B) > p(A|B) (analog für ) (TB7) Symmetrie probabilistischer Abhängigkeiten (TB5), (TB6) Bedeutung bayesscher Theoreme liegt in Situationen, in denen man an P(Ai|B) interessiert ist, aber nur inverse Wahrscheinlichkeit P(B|Ai) zugänglich ist. Beispiel 1: Ai sind rivalisierende Hypothesen, B ein empirisches Resultat Beispiel 2: Diagnoseprobleme, B Indikator für eine zu diagnostizierenden Zustand A. Z.B.: B positiver Krebstestbefund, A Krebskrankheit. Einfach messbar ist nur p(B|A). ("" für "unnegiert" oder "negiert") p(B|A) die Sensitivität und p(B|A) die Spezifität des Indikators B für A. p(A|B) Reliabilität des Indikators als Prognoseinstrument Base rate fallacy: p(A|B) = p(B|A)p(A) / ( p(B|A)p(A) + p(B|A)p(A)) = 0,950,01 / ( 0,950,01 + 0,050,99) = 15 16 16 = nur = 0,0095/0.059 = 0,16 = 16%. Statistische Unabhängigkeit, Binomialverteilung und Gesetz der großen Zahl: Unabhängige Wiederholungen desselben (identischen) Zufallsexperiments: Beispiel: Ergebnisse von n Münzwürfen (x1,,xn), mit xi {Zahl, Kopf} Sprachlich dargestellt: Fx1Fxn ("F" für "Zahl", "F" für "Kopf") Vereinbarung: i.te Variable der Formel, von links nach rechts angeordnet, entspricht i.ter Durchführung des Zufallsexperimentes. Unabhängigkeit bedeutet physikalisch, dass das Zufallsexperiment im Verlaufe wiederholter Durchführungen seine Dispositionen nicht ändert (sonst: "MarkovKette"). Statistisches Unabhängigkeitsgesetz für Ereigniskombinationen: Fx1Gx2, d.h. p(Fx1Gx2) = p(Fx)p(Gx) (Produktgesetz) In Worten: Statistische Wahrscheinlichkeit, in zwei Durchführungen einmal F und dann G zu erzielen = Produkt der beiden Wahrscheinlichkeiten, in einmaliger Durchführung F respektive G zu erzielen. Mathematische Notation: p(F1,G2) = p(F1)p(G2) Daraus folgt: p(Gx2|Fx1) = p(Gx2) und p(Fx1|Gx2) = p(Fx1). Beispiel: Wahrscheinlichkeit, in zwei Würfen einmal eine Sechs und ein anderes Mal eine gerade Zahl zu würfeln = (1/6)(1/2) = (1/12). Für subjektiven Wahrscheinlichkeiten kombinierter Ereignisse gilt das Unabhängigkeitsgesetz im allgemeinen nicht. Im Gegenteil: sobald das epistemische Wahrscheinlichkeitsmaß induktiv ist, wächst unser Glaubensgrad dafür, dass das nächste Individuum ein F ist, mit der Häufigkeit von bisher beobachteten F-Individuen an: 17 Es gilt also P(Fa|Fb) > P(Fa) und somit P(FaFb) > P(Fa)P(Fb). 17 18 18 Erklärung dieses Unterschieds: In subjektiver Wahrscheinlichkeitstheorie geht man davon aus, dass man statistische Wahrscheinlichkeit nicht mit Sicherheit kennt. Ist gegebenen Münze symmetrisch (p = 1/2) oder asymmetrische Münze mit Bias? Dann induktiv sinnvoll, aus gehäuften Eintreten von Kopf zu schließen, dass die Münze eher Kopf als Zahl ergibt. In der statistischen Wahrscheinlichkeitstheorie spricht man nicht über Glaubensgrade, sondern über die statistische Wahrscheinlichkeit selbst und nimmt diese als gegeben bzw. bekannt an. Für diese gilt aufgrund physikalischen Unabhängigkeitsannahme das Produktgesetz. D.h. wenn die Münze mit Häufigkeitsgrenzwert r auf Kopf landet, so tut sie dies unabhängig von vorausliegenden Münzwürfen. tiefliegender Unterschied zwischen obj. und subj. W.keit! Aus statistischen Produktgesetz folgt Binomialgesetz (oder Bernoulli Gesetz) für nfache-Durchführung eines Zufallsexperimentes, bzw. Ziehen von n-elementigen Zufallsstichproben: Sei p(F) = p = Wahrscheinlichkeit von Merkmal F (schreibe kurz "p(F)" statt "p(Fx)") hn(F) = relative Häufigkeit von Merkmal F in n-elementiger Zufallsstichprobe: Binomialformel: p( hn(F) = kn ) = nk pk (1p)nk . n n! k („n über k“) = = Anzahl der Möglichkeiten, aus n Individuen k (n - k)! k! auszuwählen. 19 p(hn) ( = Wahrscheinlichkeit einer Stichprobe mit F-Häufigkeit hn) n = 1000 n = 100 n = 10 x x x x x 0 x x x Drei Binomialverteilungen Normalverteilungen). x p(hn=k/n) hn= kn (Stichprobenhäufigkeit von F) für p=1/2 (approximiert durch Für zunehmende Stichprobengrößen n immer steilgipfeliger ( = p (1 - p)/n ) . Daraus ergeben sich: Gesetze der großen Zahlen: Schwaches Gesetz der großen Zahlen: Für jede noch so kleine positive Zahl strebt die Wahrscheinlichkeit dafür, dass hn(F) von p(F) um weniger als abweicht, für n gegen unendlich gegen 1. Starkes Gesetz der großen Zahlen: Die Wahrscheinlichkeit dafür, dass der Häufigkeitsgrenzwert von F in einer unendlichen Zufallsfolge mit der Wahrscheinlichkeit von F übereinstimmt, beträgt 1. (Beweis benötigt -Addditivität) 19 20 20 Intuition: Gesetze der großen Zahlen sei "Bestätigung" statistischer W.keitstheorie. Doch nur formale Theoreme, die für W.keit in jeder Interpetation gelten. Das erkennt man daran dass die Konvergenz der Häufigkeiten nur mit W.keit behauptet wird was je nachdem, wie „W.keit“ interpretiert wird, unterschiedliches bedeutet. Interpretiert man Wahrscheinlichkeiten subjektiv, so besagt starkes Gesetz: Mit subjektiver Sicherheit (P = 1) wird geglaubt, dass Häufigkeitsgrenzwert in einer unendlichen Folge von (subjektiv) gleichwahrscheinlichen und voneinander unabhängigen Ereignissen mit der Glaubenswahrscheinlichkeit der Ereignisse übereinstimmt. 21 Sigma-Additivität (unendliche Additivität): P/p heißt -additiv g.d.w.: die Wahrscheinlichkeit der Vereinigung von unendlich vielen paarweise disjunkten Ereignissen = unendliche Summe ihrer Wahrscheinlichkeiten. Problem: Unendliche Summe iN p({i}) kann nur dann Wert 1 (bzw. einen Wert größer als Null und kleiner enendlich) annehmen, wenn die Folge der Wahrscheinlichkeiten p({i}) hinreichend schnell gegen Null strebt (ohne nur aus Nullen zu bestehen): p=1 p=0 |N -additive Wahrscheinlichkeitsmaße über |N. Annahme zwingt jeder Wahrscheinlichkeitsverteilung über einem abzählbar unendlichen Möglichkeitsraumeinen Bias auf; ist daher nicht generall adäquates Axiom. Kelly (1996): -Additivität von subjektiven Wahrscheinlichkeiten impliziert schwache induktive Annahme: Für universelle Hypothese xFx über unendlichen Bereich D muss W.keit, dass das n.te Individuum die erste falsifizierende Instanz von xA(x) ist, mit zunehmenden n schnell gegen Null gehen. Humescher Induktionsskeptiker würde nicht zustimmen: nach jeder noch so großen endlichen Anzahl bestätigender Beobachtungen Fa1,,Fan verbleiben unendlich viele unbeobachtete Individuen, die Allyypothese falsifizieren können, weshalb für Induktionsskeptiker W.keit nicht gesunken ist. Nicht--additive W.keitsmaße: Bhaskara Rao & Rao (1983), Schurz & Leitgeb 21 22 22 (2008). Erfüllen schwächerer Gesetze, z.B. p(ip({i})) iN p({i}). 3. Probabilistische Rechtfertigung von Schlussarten Deduktive Schlüsse sind sicher; induktive bzw. nichtdeduktive Schlüsse sind unsicher. Beispiel: Deduktiver Schluss Induktiver Schluss Alle Fische sind Kiemenatmer. Alle bisher beobachteten Fische (Nr. 1, Dieses Tier ist ein Fisch. (2,....,n) waren Kiemenatmer. Also ist dieses Tier ein Kiemenatmer. Also sind (wahrscheinlich) alle Fische Kiemenatmer. Sicher: Wahrheitsübertragung in allen Unsicher: Wahrheitsübertragung nur in möglichen Welten genügend ,uniformen‘ möglichen Welten. Einfache Schlussstrich indiziert Sicherheit, der Doppelstrich Unsicherheit. Induktive Schlüsse (im engen "Humeschen" Sinn) übertragen beobachtete Zusammenhänge auf neue nicht beobachtete Fälle sind "gehaltserweiternd". Weitere nicht-deduktive Schlussart: Abduktion bzw. Schluss auf die beste Erklärung. Geht auf C.S. Peirce zurück. Einfach gesagt: Schluss von beobachteter Wirkung auf unbeobachtete) Ursache. Schlussschema der Abduktion (Niiniluoto 1999): Prämisse 1: Ein erklärungsbedürftiges (singuläres oder generelles) Faktum E. ,Prämisse‘ 2: Ein Hintergrundwissen W, das für eine gewisse Hypothese H impliziert: H ist eine plausible und unter Erklärungskandidaten die beste Erklärung für E. den gegenwärtig bekannten 23 Abduktive Vermutung: H ist wahr. Durch abduktive Schlüsse können neue theoretische Begriffe/Modelle eingeführt werden: Newton schloss aus der Bewegung der Planeten um die Sonne abduktiv auf die Existenz einer Gravitationskraft. Geltungsstatus einer abduktiv erschlossenen Hypothese sehr unsicher und vorläufig: die abduzierte Hypothese muss durch Deduktion und Induktion weiter getestet werden. Probabilistische Rechtferigung von Schlussarten: Man fragt nach der Höhe der bedingten epistemischen Wahrscheinlichkeit der Konklusion, gegeben die Prämissen. Soll möglichst hoch sein und von möglichst wenig subjektiven Annahmen abhängen. 23 24 24 3.1 Deduktives Schließen "||" für logische Folgebeziehung Wahrscheinlichkeitstheorie und logische Folgerung: Sei P die Menge aller möglichen epistemischen Wahrscheinlichkeitsfunktionen über den Propositionen einer Sprache L. Es stehe U(A) =def 1P(A) für die sogenannte PUnsicherheit von Satz A. Dann gilt für alle Sätze A1,,An, B: (1.) (i) A1,,An B g.d.w. (ii) PP: P(B|A1An) = 1 g.d.w. (iii) PP: P(B) P(A1An) g.d.w. (iv) PP: wenn P(A1An) = 1dann P(B) = 1. In Worten: (i) Eine Konklusion folgt aus einer Menge von Prämissen, g.d.w. (ii) die bedingte Konklusionswahrscheinlichkeit gegeben die Prämissenkonjunktion ist für alle Wahrscheinlichkeitsfunktionen 1, g.d.w. (iii) die Konklusionswahrscheinlichkeit ist für alle Wahrscheinlichkeitsfunktionen größer oder gleich der Wahrscheinlichkeit der Prämissenkonjunktion, g.d.w. (iv) die Konklusionswahrscheinlichkeit Wahrscheinlichkeitsfunktionen 1, für die beträgt für Wahrscheinlichkeit alle der Prämissenkonjunktion 1 beträgt. (2.) PP: U(A1An) U(A1) + + U(An). In Worten: Die Unsicherheit einer Satzkonjunktion für alle Wahrscheinlichkeitsfunktionen kleiner oder gleich der Summe der Unsicherheiten der Einzelsätze. ("Unsicherheitssummenregel", "uncertainty sum rule", Suppes 1966). (3.) (folgt aus 1.+2.) A1,,An B g.d.w. PP: U(B) U(A1) + + U(An). 25 In Worten: Eine Konklusion folgt aus einer Menge von Prämissen, g.d.w. die Summe der Prämissenunsicherheiten für alle Wahrscheinlichkeitsfunktionen kleiner oder gleich der Konklusionsunsicherheit ist. Zusammenhang zwischen logischer Folgerung und Wahrscheinlichkeit bezieht sich auf das, was in allen Wahrscheinlichkeitsmodellen gilt. ur Erfassung des Zusammenhangs muß man die Wahrscheinlichkeit der Konjunktion aller Prämissen kennen. Hinweis: Popper (1935/76, Anhänge II*, IV*) zeigt, dass sich die KomolgorovW.keit sogar ohne vorausgesetzten Folgerungsbegriff axiomatisieren lässt, woraus man eine Definition von logischer Folgerung durch Wahrscheinlichkeit gewinnt. 25 26 26 3.1* Schließen aus unsicheren Konditionalen Unsicheres Konditionale ausgedrückt durch Doppelpfeil A B: Bedeutet: As sind normalerweise/meistens Bs; d.h. bedingte W.keit P(B|A) ist hoch. Nicht dasselbe wie hohe unbedingte Wahrscheinlichkeit der materialen Implikation. Es gilt nur P(AB) = P(AB) P(B|A), aber trotz hohem P(AB) kann P(B|A) klein sein. Beispiel: P(BundeskanzlerZirkusclown) ist hoch, weil die meisten Personen keine Bundeskanzler sind, aber P(Zirkusclown|Bundeskanzler) ist sehr gering. Für gelten schwächere Gesetze als für : Beispiel: erfüllt Transitivität: Alle Fs sind Gs, Alle Gs sind Hs Alle Fs sind Hs“. aber erfüllt Transitivität nicht. Z.B.: "Die meisten Deutschen leben nicht in München" "die meisten nicht in München lebenden Menschen sind keine Deutschen", aber nicht "Die meisten Deutschen sind Nichtdeutsche". 27 Regeln der konditionalen Wahrscheinlichkeitslogik, System P (Adams 1975) Vorsichtige Transitivität VT: A B, AB C |P A C Vorsichtige Monotonie VM: A B, A C |P AB C Vorsichtige Disjunktion VD: A C, B C |P AB C Supraklassikalität SK: Wenn A B, dann |P A B. Einige abgeleitete Regeln: Konjunktion K: A B, A C |P A BC Linke Logische Äquivalenz LLÄ: Wenn | A B, dann A C |P B C Rechte Abschwächung RA: Wenn | B C, dann A B |P A C Vorsichtiger Konditionalbeweis VKP: AC B |P A (B C) Theorem (Adams 1975): A1 ,,An Bn |P C D g.d.w. für alle Wahrscheinlichkeitsfunktionen Pgilt: U(D|C) U(B1|A1) + + U(BnAn). (Semantik dieses Schließens beschränkt sich auf Unsicherheitssummenregel) Problem: Bei mehreren unsicheren Unsicherheitszuwachs: Konjunktionsproblem. Prämissen gibt es einen 27 28 28 3.2 Induktives Schließen Die wichtigsten probabilistischen Formen induktiver Schlüsse: Induktiver Generalisierungsschluss: (a) Statistisch: Informell: r% aller bisher beobachteten Indiviuduen waren Fs, also sind wahrscheinlich zirka r% aller Individuen Fs. Halbformal: (wobei "[r]" symmetrisches 2-Intervall um r für kleines ): Der Wert von P(„p(Fx) [ kn ]“ | hn(F) = kn ) ist so-und-so hoch (abhängig von und n), und strebt für n gegen 1. (b) Strikt: (Spezialfall von (a)): Alle bisher beobachtetenIndividuen waren Fs, also sind wahrscheinlich alle Individuen Fs. Der Wert von P(xFx | Fa1Fan) ist so-und-so hoch (abhängig von n), und strebt für n gegen 1. Damit induktive Schlüsse probabilistisch gelten, muss zugrundeliegende W.keitsfunktion zusätzliche induktive Bedingungen erfüllen (z.B. Vertauschbarkeit, Indifferenz) genaues später. Erst dann kann man genaue W.keitswerte (rot) präzisieren. Vertauschbarkeit: P(F(a1)) = P(F(ai)) für beliebige Individuenkonstanten ai (schwach) Indifferenz: P(F(a)) = P(F(a)) und P(Fa) = P(Ga) für beliebige Prädikate G; somit P(F(a)) = 0.5 (stark!) Nicht-zirkuläre Rechtfertigung induktiver Wahrscheinlichkeitsschlüsse ist ohne 29 Annahme zusätzliche induktiver Axiome nicht möglich. 29 30 30 Induktiver Voraussageschluss: (a) Statistisch: r% aller beobachteten Individuen waren Fs, also wird mit einer r% nahekommenden Wahrscheinlichkeit auch das nächste Individuum ein F sein. Halbformal: P(Fan+1 | hn(F) = kn ) liegt -nahe bei kn ( abhängig von n) und strebt für n gegen r. (b) Strikt (Spezialfall von (a)): Alle bisher beobachteten Indivuduen waren Fs, also ist mit hoher Wahrscheinlichkeit auch das nächste Individuum ein F. Halbformal: P(Fan+1 | Fa1Fan) = so-und-so hoch (abhängig von n), und strebt für n gegen 1. Induktiver Spezialisierungsschluss: (a) Statistisch: r % aller Fs sind Gs, dies ist ein F, also wird dies mit r% Wahrscheinlichkeit ein G sein. Formal: P(Ga| p(Gx|Fx) = r Fa) = r. (b) Strikt dieser Schluss ist deduktiv gültig: x(FxGx), Fa / Ga. Auch statistischer Spezialisierungsschluss (a) beruht auf induktiver Uniformitätsannahme (Grundgesamtheit Einzelfall). Macht nur Sinn, wenn "F" die Bedingung der engsten Referenzklasse erfüllt. Diese induktiven Schlussarten sind obwohl unsicher formale Schlussarten: Gelten inhaltsungebunden. Ihre Korrektheit ist unter Ersetzung ihrer nichtlogischen Symbole durch syntaktisch formgleiche Symbole abgeschlossen. 31 3.3 Abduktives Schließen (verallgemeinerter Bayesianismus) Auch Rechtfertigung abduktiver Schlüsse bedarf zusätzlicher probabilistischer Annahmen aber: diese sind im Regelfall nicht mehr durch zusätzliche formale Axiome begründbar, sondern benötigen inhaltsspezifische Annahmen für P (sind auf inhaltlich bestimmte Hypothesen bezogen; sind abhängig von relevantem Hintergrundwissen). Konklusion abduktiver Schlüsse im einfachsten Fall: P(H1|E) > P(H2|E) H1 und H2 rivalisierende Hypothesen, die Erfahrungsdaten E implizieren oder wahrscheinlich machen. Beispiel: Gegeben heutiger Beobachtungsstand ist Darwinsche Evolutuionstheorie wahrscheinlicher als Linnésche Theorie unvergänglicher Arten. Bayes-Theorem und abduktives Schließen: P(H1|E) > P(H2|E) g.d.w. P(E|H1)P(H1) > P(E|H2)P(H2). In Worten: Eine Evidenz macht eine Hypothese wahrscheinlicher als eine zweite, genau dann wenn das Produkt aus Likelihood und Ausgangswahrscheinlichkeit der ersten Hypothese größer ist als das der zweiten. Welches Hi von am wahrscheinlichsten gemacht wird, hängt von zwei Faktoren ab: (1) dem Likelihood von Hi, P(E|Hi), = inverse Wahrscheinlichkeit von E gegeben Hi, mißt die Stärke der Implikationsbeziehung von Hi für E, sowie (2) der Ausgangswahrscheinlichkeit P(Hi) der Hypothesen (Problem: Subjektivität) Beide Faktoren hängen – zumindest oft - von inhaltlichen Natur von E und Hi und dem gegebenen Hintergrundwissen ab. Rechtfertigung abduktiven Schließens als formale Schlussart so nicht möglich. (Man müsste hierfür die formale Struktur von Hi und E spezifizieren.) 31 32 32 4. Probleme des objektiv-statistischen Wahrscheinlichkeitsbegriffs Definitionsfragen: Was ist Wahrscheinlichkeit? Wie lässt sie sich explizieren? Rechtfertigungsfragen: Wie lassen sich die Wahrscheinlichkeitsaxiome rechtfertigen? Warum ist der so explizierte W.keitsbegriff wissenschaftlich/praktisch relevant? Die Probleme des statistischen Wahrscheinlichkeitsbegriff sind vor alledem Definitionsprobleme, die des subjektiven Wahrscheinlichkeitsbegriffs Rechtfertigungsprobleme. 4.1 Rechtfertigung statistischer Wahrscheinlichkeit Geltung der Axiome: Man kann zeigen, dass sowohl Häufigkeiten wie Häufigkeitsgrenzwerte die Basisaxiome erfüllen. (Nur -Additivität ist nicht erfüllt. Ausserdem: Menge der Ereignisse, die Häufigkeitsgrenzwert besitzen, nicht immer abgeschlosseen unter algebraischen Operationen; lösbare Spezialprobleme: Schurz und Leitgeb 2008). Relevanz der statist. W.keit: Entscheidungstheorie (z.B. Raiffa 1973): Erwartungswert (langfristiger Mittelwert) des Nutzen einer Handlungsweise hängt von den statistischen W.keiten der möglichen Umstände ab, die für ihre Auswirkungen relevant sind. (Allerdings hat Kenntnis des "Häufigkeitsgrenzwertes" nur praktische Relevanz, wenn es induktiven Zusammenhang zur "Häufigkeit auf kurze Sicht" gibt; s. später.) 33 Mögliche Handlungsweisen: h1,,hn Mögliche Umstände: u1,,um Erwartungsnutzen der Handlung hi: EN(hi) = 1im N(hi,uj)p(uj) In Worten: Der EN einer Handlung ist die Summe ihrer Nutzwerte in allen möglichen Umständen, jeweils multipliziert mit dem Wahrscheinlichkeitswert des Umstandes. Um den Durchschnittsnutzen zu maximieren, müssen die statistischen Wahrscheinlichkeiten zumindest näherungsweise bekannt sind darin liegt ihre Relevanz. Beispiel: Ich stehe vor der Entscheidung, ein Auto zu kaufen oder nicht. Nutzenmatrix (relative Nutzwerte; mit Konstante multiplizierbar): Mit dem Auto Mit öffentlichen Verkehrsmitteln Nutzen Stadtfahrten (Häufigkeit p) 1 2 Nutzen Landfahrten (Häufigkeit 1p) 3 2 EN(Auto) = 1p + 3(1p) = 3 2p EN(Öffentlich) = p2 +(1p)2 = 2 Annahme p = 2/3: Dann EN(Auto) = 5/3 < EN(Öffentlich) = 2 liegt. Gleichgewichtswahrscheinlichkeit: 32p = 2 p = 0.5. 33 34 34 4.2 Definition / Explikation statistischer Wahrscheinlichkeit Begriff des Häufigkeitsgrenzwertes ist theoretische Idealisierung definierbar nur durch "kontrafaktische" Aussage: p(Fx) = r bedeutet: wenn man das zugrundeliegende Zufallsexperiment (mit möglichem Ergebnis F) unendlich oft wiederholen würde, würden die Häufigkeiten von F gegen den Grenzwert r konvergieren. ist gesetzesartige Aussage über die Disposition des zugrundeliegenden Zufallsexperimentes bzw. physikalischen Prozesstyps. Problem 1: Kontrafaktische Aussagen lassen sich durch die Beobachtungen endlicher Häufigkeiten niemals definitiv verifizieren/falsifizieren, sondern nur induktiv bestätigen/schwächen. Nicht "schwerwiegend": auch strikte Gesetzesaussagen wie Zucker ist wasserlöslich müssen durch kontrafaktische Konditionale expliziert werden: Zucker ist auch dann wasserlöslich, wenn man ihn nie ins Wasser gegeben nicht. Problem 2 (Kernproblem, spezifisch für statistische W.keiten): durch wiederholte Durchführungen des Zufallsexperimentes können potentiell unendlich viele potentiell unendlich anwachsende Ergebnisfolgen (e1,e2,) produziert werden. Beispiele: Gesamtfolge aller Würfe aller Personen (hypothetisch verlängert…) jede Person ihre eigene Folge jeder Würfel hat seine eigene Folge, Folge aller Würfelwürfe in Januarmonaten (usw. ...). 35 Warum sollten alle diese (idealisierten) Folgen denselben Häufigkeitsgrenzwert p(Fx) besitzen. Warum sollten sie alle überhaupt einen Häufigkeitsgrenzwert besitzen? Problem: Häufigkeitsgrenzwerte sind abhängig von der Anordnung der Ereignisse in einer gegebenen Folge. Durch Permutationen (Umordnungen) oder Stellenauswahlen einer gegebenen Ereignisfolge kann sich ihr Häufigkeitsgrenzwert drastisch ändern; Beispiel: Sei (1,0,0,1,1,0,1,0,) beliebige Zufallsfolge mit vielen 1en und 0en und beliebigen Häufigkeitsgrentzwert (z.B. p = 1/5). Wir können daraus durch Umordnung Folgen mit beliebigem anderen Grenzwert r = kn konstruieren (für k<n; k,n > 0): Wir nehmen die ersten k 1en, die ersten n-k 0en, die nächsten k 1en, die nächsten nk 0en, usw. [Zeichnung] 1en und 0en gehen diese niemals aus jedes Element der Folge "kommt dran". Man kann auch Folgen ohne Häufigkeitsgrenzwert konstruieren, z.B. eine Folge deren Häufigkeiten ewig zwischen 2/3 oszillieren: Nimm so viele Einsen wie nötig um hx(1) auf 2/3 hochzutreiben, dann soviele 0en wie nötig, um die Häufigkeit hn(1) auf 1/3 zu senken, usw. [Zeichnung] Noch einfacher sind ,seltsamen‘ Folgen statt durch Umordnungen durch Stellenauswahlen erzeugbar. [Zeichnung] Von Mises beschränkt sich auf Stellenauswahlen. 35 36 36 Knackpunkt des Problems (von Mises): Solche Konstruktionen sind ergebnisabhängig: Man muss das Ergebnis der Stelle n kennen, um zu wissen, ob man sie auswählt (bzw. bei Umordnung vorzieht). Solche Folgen sind keine Zufallsfolgen. Sie "zählen" daher nicht. Einwand: Wäre es nicht möglich, dass häufigkeitsabweichende Ergebnisfolgen mit einer regulären Münze durch extrem unwahrscheinlichen Zufall erzielt werden? "Naiver" Lösungsvorschlag: Gesetz der großen Zahlen (GGZ) besagt ja nicht, dass in allen Zufallsfolgen der Häufigkeitsgrenzwert von Fx mit p(Fx) übereinstimmt, sondern lediglich, dass er dies mit Wahrscheinlichkeit 1 tut. Einwand: Als Definition betrachtet ist GGZ zirkulär: im Definiens kommt Ausdruck „mit Wahrscheinlichkeit 1“ vor. Vgl. Literatur: Skyrms (1980, 29f), Eagle (2004, 396f). Hájek (1999, 223), Kutschera (1972, 104). Stegmüller (1973b, 37): „tödlicher Einwand“. Inwiefern ist die zirkuläre Definition wertlos? Weil sie Wahrscheinlichkeitsbegriff inhaltlich nicht bestimmt; nicht zwangsweise mit Häufigkeiten verbindet folgt schon daraus, dass GGZ aus Axiomen logisch folgt. Fiktives Beispiel: Angenommen P bedeutet "rationaler Erwünschtheitsgrad": Dann besagt GGZ, dass es in maximalem Grad erwünscht ist, dass die Häufigkeiten mit Erwünschtheitsgrad übereinstimmt. Versucht man Bedingung „p = 1“ erneut mit GGZ umzuformen, gerät man in infiniten Regress (Spezialfall des Zirkularitätsproblems): „p(Fx) = r“ „mit Wahrscheinlichkeit 1 ist in einerZufallsfolge vonZufallsfolgen Häufigkeitsgrenzwert jener Folgen mit Häufigkeitsgrenzwert = p(Fx) gleich 1“. Bedingung „mit Wahrscheinlichkeit 1“ kann so nicht eliminiert werden. 37 Lösung(sversuch) des Zirkularitätsproblem durch von Mises (1928, 1964): Annahme einer einzigen Grundfolge von Experimentrealisierungen Z.B. "Folge aller Würfe mit Würfeln desselben physikalischen Typs" hypothetisch verlängert in die Zukunft: ein "statistisches Kollektiv". Reale Einzelfolgen werden durch den Begriff der ergebnisunabhängigen Stellenauswahl charakterisiert wird gemäß Weiterführung durch Wald und Church mittels Begriffs der berechenbaren Funktion erklärt: Definition (von Mises 1928, Church 1940): Eine zulässige Stellenauswahl s der Grundfolge g = (e1,e2,) ist eine berechenbare Funktion, die angewandt auf eine beliebige Stelle n|N von g besagt, ob diese Stelle ausgewählt werden soll (+) oder nicht () (s(n,Input) {+,}). Als zusätzlicher Input für s(n) fungieren die vorausliegenden Ergebnisse der Grundfolge (e1,,en1), aber nicht aber das Ergebnisse en. s(g) = die durch Stellenauswahl s aus g erzeugte Folge. Eine Grundfolge g ist statistische Grundfolge g.d.w.t: (a) (Konvergenzbedingung). Jedes mögliche (disjunktive) Ereignis E in der Algebra AL über (abzählbarem) besitzt in g einen Häufigkeitsgrenzwert p(E) (b) (Zufälligkeitsbedingung): dieser Häufigkeitsgrenzwert ist insensitiv gegenüber zulässigen Stellenauswahlen. Zufallsfolgen = alle durch zulässige Stellenauswahlen gewonnene Teilfolgen von g. 37 38 38 Leistungen des von Mises Ansatz: Natürliche Definition von "Zufallsfolge" Ermöglicht Beweis statistischen Unabhängigkeitsgesetzes für Zufallsfolgen: p(Fx1Gx2) = p(Fx)p(Gx) d.h. bei von Mises: Limes-h von Paaren (Fn,Gn+1) in g = (Limes-h von F-in-g)(Limes-h von G-in-g) für endliche Häufigkeiten gilt Unabhängigkeit schon durch simple Kombinatorik) Beweis Binomialgesetz im von Mises Rahmen GGZ im von Mises Rahmen: Grundfolge enthält unendliche Folge von überlappenden unendlichen Folgen: Für Folgen von zulässig ausgewählten Teilfolgen gilt GGZ "per definitionem". GGZ ist im von Mises Rahmen für noch größere Klasse beweisbar (Schurz 2015). Von Mises‘schen Ansatzes löst fast alle bekannten Einwände gegen frequentistische Wahrscheinlichkeiten (Übersicht in Hájek 1999). Nur ein Einwand verbleibt (Wiederholung): Einwand Schritt 1: W.keit als idealisierte Dispositionon ist nicht empirisch (nur kontrafaktisch) definierbar. Antwort: ist positive Einsicht! Statistische W.keit ist theoretischer Begriff. Bezieht sich auf mögliche Verlängerungen der bisher erzeugten Zufallsfolge. Einwand Schritt 2: Dann gibt es aber doch nicht nur eine, sondern unendliche vielen Zufallsfolgen (auch ‚Grundfolgen‘) qua theoretisch (physikalisch) mögliche Fortsetzungen realer (bisheriger) Zufallsfolgen (der Einwand kehrt wieder). 39 M.E. gibt es nur zwei sinnvollen Methoden, auf den Einwand zu reagieren: Methode 1: Annahme dass strikt alle physikalisch mögliche (hypothetisch fortgesetzte) Zufallsfolgen gegen denselben Grenzwert konvergieren. Nullwahrscheinliche Zufallsfolgen werden als physikalisch unmöglich erachtet. Methode ist "im Geiste von Mises' (enthält nur "statistische" W.keit.) Methode 2: Nullwahrscheinliche Zufallsfolgen sind physikalisch möglich. Phrase „mit Wahrscheinlichkeit 1“wird um der Zirkularität zu entgehen als epistemische (induktive) Wahrscheinlichkeitsaussage betrachtet (Kolmogorov 1933, Cramér 1946: „praktischen Sicherheit“). Vorschlag führt zu dualistischen W.keitsbegriff. Schurz 2015: Vorteil "statistischer Reinheit" von Methode 1 ist oberflächlich, denn: Sobald man die Frage des empirischen Gehaltes statistischer W.keitsaussagen stellt, ist man (auch bei Methode 1) gezwungen, induktiv-epistemische Wahrscheinlichkeitsannahmen zu machen. Diese Aussagen bleiben dieselben, egal ob man Methode 1 oder 2 anwendet (w.keitstheoretisch besteht zwischen "p=1" und "unmöglich" kein Unterschied.) Schurz 2015: statistisch-dualistischer Wahrscheinlichkeitsbegriff. 39 40 40 Empirischer Gehalt statistischer Wahrscheinlichkeitsaussagen: Es gibt keine Beobachtungsaussage, die aus Aussage über Häufigkeitsgrenzwert logisch folgt: limnhn(E) = r ist mit jedem hn(E) = q logisch verträglich. [Zeichnung] Problem wurde weder von von Mises noch von Reichenbach befriedigend gelöst. Konvergenzkriterium sagt uns nie, wie nahe wir "jetzt" schon am Grenzwert sind (Lenz 1974). Traditionelle Definition von "empirischer Gehalt" ist deduktiv. Muß auf beobachtbare induktive-wahrscheinliche Konsequenzen erweitert werden. Mithilfe des induktiven Spezialisierungsschlusses, der Häufigkeitsgrenzwert von Stichprobenhäufigkeiten (berechenbar mittels Binomialgesetz) als Glaubenswahrscheinlichkeit auf einzelne Stichproben überträgt (vorbehaltlich "Prinzips der engsten Referenzklasse"). Ist ein induktives Prinzip ("statistisch-induktives Koordinationsprinzip", Strevens 2004, s. später). Beispiel: Glaubenswahrscheinlichkeit, in einem Münzwurfexperiment mit einer regulären Münze in 10.000 Würfen zwischen 4900 und 5100 mal Kopf zu erzielen, beträgt 95%. Gehört zum induktiv-empirischen Gehalt der statistischen Hypothese p(Kopf) = 1/2. Grundidee der statistischen Testtheorie: Statistische Hypothese "p(Fx)=r" nur solange akzeptierbar, solange die beobachteten Stichprobenhäufigkeit hn(Fx) unter Annahme von der Wahrheit von "p(Fx)=r" nicht zu unwahrscheinlich ist (s. später.) 41 4.3 Objektive Zufälligkeit, Determinismus und Indeterminismus Ontologie: Statistische Wahrscheinlichkeitsbegriff ist Dispositionsbegriff. Generische Propensität des zugrundeliegenden Zufallsexperimentes (Popper 1959). Statistische W.keit wird nicht identifiziert mit Häufigkeitsgrenzwert, sondern mit Disposition, diesen Häufigkeitsgrenzwert tendenziell zu produzieren. Ganz anders singuläre Propensitäten = objektive Wahrscheinlichkeiten von Einzelereignissen die von Popper (1990) einführte um seinen Deduktivismus zu verteidigen. Singuläre Propensitäten, die nicht generischen Propensitäten beruhen, sind kognitiv fragwürdig, weil völlig unüberprüfbar. Beispiel: In diesem Münzwurf gelang es dem Mentalisten Uri Geller mithilfe seiner Geisteskraft, die Münze auf Kopf landen zu lassen (allerdings gelingt ihm dies nur in 50% aller Fälle). W.keit, eine 1 in diesem Münzwurf zu werfen, ist bestimmt durch statistische W.keit in zugrundeliegenden Zufallsexperiment ... ... plus Reichenbachs Prinzip der engsten Referenzklasse: ich muß auf gesamte relevante Information über Zufallsexperiment konditionalisieren. Führt uns zum Unterschied zwischen (folgen-)interner und objektiver Zufälligkeit. Interne Zufälligkeit (von Mises' Definition): betrachtet nur Abhängigkeiten (der Stellenauswahlen) von vorausliegenden Ereignissen innerhalb der Folge Objektive (externe) Zufälligkeit: auch Abhängigkeiten von vorausliegenden externen Ereignissen werden mit einbezogen (Reichenbach 1949, Salmon 1984). 41 42 42 Die Ergebnisse eines Zufallsexperimentes sind objektv zufällig, wenn sie intern zufälig (im Sinne von von Mises) sind und der Häufigkeitsgrenzwert ihrer Zufallsfolgen auch insensitiv gegenüber zulässigen externen Stellenasuwahlen ist (Stellenauswahlen abhängig von externen Fakten in der Vergangenheit des Zufallsereignisses) Beispiel: Prozess des Werfens eines Würfels erzeugt interne und objektive Zufallsfolge. Prozess des willentlichen Legens eines Würfels kann ebenfalls intern zufällige Ergebnisfolge generieren, die aber nicht objektiv zufällig ist, weil sich die Resultate durch Willensentschluss der Person voraussagen lassen. Frage: Setzt der Begriff der objektiven Zufälligkeit die Annahme eines Indeterminismus der Naturgesetze voraus? Traditionelle Ansicht: Ja. Z.B. Coffa (1974), Salmon (1989). Moderne Ansicht: Nein. Z.B. Norton (2009), Strevens (2008). Traditionelle Ansicht: Genuinen Zufall gibt es nur in der Mikrophysik / Quantenphysik, aber nicht in der klassischen Physik, denn die Gesetze der klassischen Physik sind deterministisch. Beispiel: Radiokative Zerfall ist objektiver Zufallsprozess. Regulärer Münzwurf nur interner und epistemischer Zufallsprozess. W.keit dafür, dass dieses radioaktive Cäsium-137 Atom in nächsten 30 Jahren zerfällt, ist 1/2, gegeben vollständiges physikalisches Wissen über Anfangsbedingungen. W.keit dass Münze in diesem Münzwurf auf Kopf fällt, gegeben vollständiges physikalisches Wissen, ist nicht 1/2, sondern 0 oder 1. (?) 43 Problem der traditionellen Ansicht: Warum spielen scheinbar objektive Zufallsprozesse in Alltagswelt (Bereichen der klassischen Physik) eine so große Rolle? Warum ist es noch niemandem gelungen, die Resultate eines Roulettespiels mit signifikant überzufälligem Erfolg vorauszusagen? D.h.: wie erklären sich makrophysikalische Zufallsprozesse? Eine moderne Ansicht: Es gibt auch in klassischer Physik objektive Zufallsprozesse. Instabile Systeme sind trotz deterministischer Gesetze unvoraussagbar und objektiv zufällig. Erster Teil der Erklärung: Lösungen von gewöhnlichen deterministischen Differentialgleichungen können instabile Punkte (Bifurkationen) besitzen. Systeme in instabilen Zuständen sind hochgradig sensitiv gegenüber minimalen Variationen der Anfangsbedingungen: für jede (unmeßbar) kleine Variation derselben weichen die hervorgehenden Trajektorien schon bald maximal voneinander ab. Beispiel: Ideale Kugel plaziert auf der Spitze einer idealen Halbkugel auf welcher Seite die Kugel herunterrollen wird, wird von unmessbar kleinen Fluktuationen bestimmt und ist daher unmöglich voraussagbar. Chaotische Systeme: Anhäufung instabiler Punkte "deterministisches Chaos", Schuster 1994) Determinismusfreundliche Philosophen wenden ein, dass es sich hier nur um praktische und keine prinzipielle Unmöglichkeit handle. Irrtum, da Fluktuationen so gering sind, dass sie in quantenphysikalische Dimensionen fallen, wo genauer Messbarkeit prinzipielle Grenzen gesetzt sind. 43 44 44 Zweiter Teil der Erklärung: Bisher wurde nur erklärt, warum Würfelwurf ein objektiv unvoraussagbarer Zufallsprozess ist weil minimale Schwankungen in Anfangsbedingungen (minimale Luftbewegungen etc.) darüber entscheiden, welche Würfelseite oben liegen wird. Frage: Warum führt dies (bei einem symmetrischen gebauten Würfel) zu einer stabilen Gleichverteilung der Ergebnisse? Nichts garantiert, dass die W.keitsverteilung über makrophysikalische Anfangsbedingungen gleichverteilt ist:typischerweise werfen unterschiedliche Personen anders; einige heftiger, anderen sanfter, usw. Warum produzieren verschiedenen Personen und Wurftechniken dennoch dieselben Häufigkeitsgrenzwerte? Erklärung der Gleichverteilung von Würfelwurfergebnissen trotz fast beliebiger makrophysikalischer Anfangsverteilung Weil nicht alle, aber fast alle (99,99% aller) Häufigkeitsverteilungen über makrophysikalischen Anfangsbedingungen zu Gleichverteilung der Ergebnishäufigkeiten des Würfelwurfes führen (Strevens 2008, Schurz 2015): Wir betrachten die Abhängigkeit der Würfelwurfresultate (Y) von makrophysikalischen Anfangsbedingungen (X). Einfacheres Beispiel Glücksrad: X umfaßt nur Anfangsgeschwindigkeit des Glücksrades; abhängige Variable Y diskret, umfasst Werte 0,,n. Knackpunkt ist „Mikroperiodizität“ (Strevens): Minimale Änderungen der XVariable bewirken Maximalveränderung und damit einen Periodenzyklus der YVariable. 45 Funktionsgraph von Y in Abhängigkeit von X ist extrem steil Fast alle makrophysikalischen Wahrscheinlichkeitsverteilungen haben viel flachere Steigung. Resultierenden Y-Verteilungen sind daher annäherend gleichverteilt. Y (Würfelergebnis) 1 2 3 4 5 6 Hell:Y Dunkel: Häufigkeit von X X (a) Y hängt mikroperiodisch (b) X in extrem gedehnter Darstellung von X ab; Verteilung extrem steil. Dunkel: eine Anfangsverteilung, die ein bestimmtes Y-Ergebnis präferieren würde sie müsste noch steiler sein. Hell: Y Dunkel: Häufigkeit von X 1 2 3 4 5 6 X Hell: Y Dunkel: Häufigkeit von X (c) Wie (a). Dunkel: makrophysikalische (d) X in extrem gedehnter Darstellung Verteilungen über X. Sie führen alle zu Dunkel: Häufigkeit der X-Werte ist über Gleichverteilungen über Y: siehe (d). extrem kleine X-Intervalle gleichverteilt. Führt zu Gleichverteilung über Häufigkeit von Y-Werten. 45 46 46 5. Probleme des subjektiv-epistemischen Wahrscheinlichkeitsbegriffs 5.1 Definition Kein Problem: Subjektive Wahrscheinlichkeiten sind definiert als die epistemischen Glaubensgrade von Subjekten, die Kolmogorovschen Basisaxiome erfüllen. 5.2 Rechtfertigungsprobleme: Kohärente faire Wettquotienten Hartnäckiger Befund der Kognitionspsychologie (z.B. Kahneman et al. 1982): die realen Glaubensgrade von Versuchspersonen erfüllen Basisaxiome häufig nicht. Vertretern des Baysianismus: Axiome seien Rationalitätsbedingungen. Herausforderung: Warum müssen rationale Glaubensgrade die Axiome erfüllen? Warum sind solche Glaubensgrade wisenschaftlich/praktisch bedeutsam? Bekannteste subjektive Rechtfertigung der Wahrscheinlichkeitsaxiome A1-3: Subjektive Glaubensgrade werden aufgrund des Wettverhalten rationaler Personen als faire Wettquotienten expliziert (Frank Ramsey 1926 und Bruno de Finetti 1937). (vgl. Carnap 1971, Skyrms 1999, Howson/Urbach 1996, Gillies 2000) 47 Wette W auf eine Proposition A = abstrakt definiert als Tripel W = (A, g, v). g monetäre Gewinnbetrag, den Wettperson gewinnt und Wettgegner verliert, wenn sich A als wahr herausstellt. v Verlustbetrag, den Wettperson verliert und Wettgegner gewinnt, wenn sich A als falsch herausstellt. (g, v nichtnegative reelle Zahlen) e = g+v heißt ‚stake‘ (Erläuterung: e Wetteinsatz des Wettgegners = Ausschüttung, v Kaufpreis der Wette), und q = v/(g+v) Wettquotient (betting quotient). Ergo: g = (1q)e v = qe Wc = (A, v, g) ist Gegenwette von W = (A, g, v); Wettgegner von W wettet auf Wc. Wann ist es für die Wettperson rational, Wette W = (A, g, v) anzunehmen? Bayesianismus: wenn subjektiver Erwartungswert E(W) des Wettgewinns 0 ist: E((A,g,v)) = gP(A) vP(A) 0. Wette W heißt fair, wenn E(W) = 0. Fairness meint, dass Wettperson und Wettgegner gleichen Gewinnchancen besitzen, denn es gilt nachweislich E(W) = E(Wc). [Aufgabe] D.h. meine Bereitschaft, Wette und Gegenwette einzugehen, ist gleich hoch. Für eine faire Wette auf A gilt unter der Annahme P(A) = 1P(A): P(A) = Wettquotient q = v/(g+v) [Beweis: Aufgabe] Idee der subjektiven Wahrscheinlichkeitstheorie (Ramsey, de Finetti): Identifiziere subjektiven Glaubensgrade mit fairen Wettquotienten der Person Warum sollten faire Wettquotienten Axiome der Wahrscheinlichkeitstheorie erfüllen? Hauptresultat von Ramsey (1926) und de Finetti (1937): 47 48 48 Definition Kohärenz: Die durch fairer Wettquotienten explizierte Glaubensfunktion qX:AL[0,1] einer Wettperson X heißt kohärent g.d.w. es kein endliches und aus (bzgl. qX) fairen Einzelwetten bestehendes Wettsystem WS ={W1,,Wn} gibt, das in jedem möglichen Weltzustand w für X zu einem Gesamtverlust < 0 führt. Inkohärente Wettperson würde faires Wettsystem annehmen, bei der sie mit Sicherheit verliert damit könnte man Person ,übers Ohr hauen‘ = 'Dutch book'. Beispiel eines Dutch Books: Sie wetten mit Wettquotient 1/2 darauf, dass es morgen regnet, und zugleich mit Wettquotient 3/4 darauf, dass es morgen nicht regnet. Mit e als Wetteinsatz ist Gesamtgewinn dann 0,5e 0,75e = 0,25e wenn es morgen regnet und 0,5e+0,25e = 0,25e, wenn es nicht regnet. Sie verlieren in jedem Fall ein Viertel des Wetteinsatzes. Theorem Kohärenz: Eine durch faire Wettquotienten explizierte subjektive Glaubensfunktion q genau dann die drei Wahrscheinlichkeitsaxiome (A1)-(A3, wenn sie kohärent ist. Definition strikte Kohärenz: Eine Glaubensfunktion q über abzählbarem Möglichkeitsraum heißt strikt kohärent g.d.w. es kein aus fairen Einzelwetten bestehendes Wettsystem gibt, dass in keiner möglichen Welt einen Gewinn und in mindestens einer möglichen Welt einen Verlust liefert. Definition Regularität: Eine Wahrscheinlichkeitsfunktion P über abzählbarem Möglichkeitsraum heißt regulär g.d.w. q allen möglichen Propositionen einen Glaubensgrad größer 0 zuordnet. Theorem strikte Kohörenz: Eine durch faire Wettquotienten explizierte 49 Glaubensfunktion ist strikt kohärent g.d.w. sie Axiome (A1-3) erfüllt und regulär ist. Kritik der Rechtfertigung subjektiven Wahrscheinlichkeit durch faire Wettquotienten: (Earman 1992; Howson 1995; Gillies 2000). Drei Einwände, auf die es passable Antworten gibt, auch wenn diese von starken Idealisierungen Gebrauch machen: (1.) Der Erwartungswert einer fairen Wette ist null. Weshalb sollten rationale Nutzenmaximierer eine faire Wette überhaupt annehmen? Antwort: Mag sein; wenn sie das nicht tun, stellt sich die Frage, wie kann ich dann fairen Wettquotienten bestimmen? Faire Wettquotienten einer Person werden durch Befragung zu einer hypothetischen Situation ermittelt, in der die Wettperson sagen soll, welche Wette sie vorziehen würde. Fairer Wettquotient (rationaler Glaubensgrad) = Wettquotient bei Antwort „gleich“ ist. (2.) Der Nutzen einer Wette hängt typischerweise nicht linear vom Wettgewinn ab (was in der Bildung des Erwartungswertes angenommen wird). Steigt für höhere Gewinne (in Geldeinheiten) schwächer als linear, sinkt für hohe Wettverluste stärker als linear. Antwort: Befragung zu hypothetischen Wettsituationen mit Wetteinsätzen, die verglichen zum Vermögen der Person gering sind. (?: sind dann die Antworten reliabel?) (3.) Echte Wetten kann man nur auf empirisch verifizierbare Propositionen abschließen. Gerade auf jene Propositionen, die für Anwendungen des Bayesianismus am bedeutsamsten sind nämlich unverifizierbare wissenschaftliche Hypothesen kann man nicht echt wetten. Antwort: Man benutzt kontrafaktische Fragen folgender Form: Wie viele Euro würden Sie darauf wetten, dass die Relativitätstheorie wahr ist, wenn es angenommen einen perfekten Experten gäbe, der nach Abschluss der Wette eine mit Sicherheit 49 50 50 wahre Auskunft über diese Frage gibt? (? seltsame Idealisierungen, die reale Personen überfordern können) Drei schwerwiegende Einwände: (4.) Sollten vernünftige Personen quantitative Glaubensgrade über alle Propositionen besitzen? Beispiel: Welche vernünftige Person besitzt Glaubensgrade zu Fragen wie ob es einen Urknall oder mehrere gegeben hat, oder ob es Gott gibt? Meisten Personen würden hier stattdessen mit qualitativen Urteilen aufwarten, wie „für hinreichend erwiesen“, „für eher wahrscheinlich als sein Gegenteil“, oder „zu unwahrscheinlich, um diese Möglichkeit in Betracht zu ziehen“. Subjektive Glaubensgrade scheinen nur dann stabil zu sein, wenn sie sich auf Erfahrungen von Häufigkeiten gründen (psychologischen Experimente) (5.) Erster philosophischer Haupteinwand: Kohärente faire Wettquotienten sind noch lange nicht rational im Sinne von objektiv wahrheitsorientiert. Reale Erfolgshäufigkeit wird durch faire Wett-Rechtfertigung gar nicht berührt. Beispiel: Ein Subjektivist wettet begeistert 1:1 darauf, dass er mit einem regulären Würfel eine Sechs würfelt. Sein Wettquotient ist fair, d.h. er wäre bereit, die Gegenwette 1:1 darauf anzunehmen, dass er keine Sechs würfelt. Er bleibt auch dann noch kohärent, wenn er sein ganzes Vermögen verloren hat und er wird keinen "logischen Fehler" in seinem Wettverhalten erblicken können. Wird sich nur darüber wundern, dass ihm die nach seiner Ansicht nach ebenso fairen Gegenwetten nie abgenommen wurden. Kann sich nicht erklären, warum er sein Vermögen verlor, während andere abgesahnt haben, solange er nicht objektiven Häufigkeitendes Ereignistyps in Betracht zieht. 51 Einwand (5.) zeigt, dass die Axiome A1-3 nur eine Minimalbedingung für rationale Glaubensgrade liefern, die viel zu schwach ist, um aus objektiver Sicht irrationales Wettverhalten auszuschließen. Howson (2000, 133) Darüber hinaus folgt aus Einwand (5.), dass kohärente subjektive Glaubensgrade unterschiedlicher Personen beliebig voneinander abweichen können. (6.) Zweiter Haupteinwand (Ryder 1981): Sobald mehrere Personen zur selben Proposition unterschiedliche Glaubensgrade besitzen, kann ein Dutch book gegen die Gruppe von Personen konstruiert werden. Es gibt dann ein System fairer Wetten, die für alle möglichen Weltzustände zu einem Gesamtverlust für die Gruppe und zu einem Gesamtgewinn der gegen die Gruppe wettenden Person führt. Beispiel: Gruppe = {X,Y}. Person X wettet mit einem fairen Wettquotient von 1/2 darauf, dass es morgen regnet, und Person Y mit einem fairen Wettquotient von 3/4 dagegen. Ich nehme beide Wetten als Wettgegner an und gewinne in jeder möglichen Welt ein Viertel des Wetteinsatzes e, denn: (i) wenn es morgen nicht regnet, erhalte ich von X die Hälfte von e und muss Y ein Viertel von e auszahlen, und (ii) wenn es morgen regnet, erhalte ich von Y drei Viertel von e und muss X die Hälfte von e auszahlen. Somit verlieren X und Y zusammen auf jeden Fall ein Viertel von e, obwohl beide Wettquotienten kohärent sind. Ryder (1981): eine Regel des Wettverhaltens, die wenn von mehreren Personen befolgt zu einem notwendigen Verlust dieser Personen führen kann, kann nicht als „rational“ bezeichnet werden. 51 52 52 Gillies (2000, 170ff): auf Kooperation ausgerichtete Personen sollten ein Interesse daran haben, Übereinstimmung ihrer Glaubensgrade herzustellen. Es fragt sichwie kann eine solche intersubjektive Übereinstimmung in nichtwillkürlicher Weise hergestellt werden kann. Artifizielle Übereinstimmung der Glaubensgrade durch Diktator löst nicht das Problem (5.) nicht. Nur intrinsischen Bezug zu statistischen Wahrscheinlichkeiten löst gleichzeitig Problem (5.) und (6.). Damit ergibt sich überlegener Weg, die Grundaxiome (A1-3) für subjektiven Wahrscheinlichkeitsein zu rechtfertigen: weil sie intendieren, die objektiven statistischen Wahrscheinlichkeiten widerzuspiegeln können sie nur, wenn sie die Grundaxiome (A1-3) erfüllen. "häufigkeitsintendierte Rechtfertigung" von A1-3 (Carnap 1950, Earman 1992, 46). Das gelingt nur, wenn funktionsfähige Brückenbeziehungen zwischen subjektiven und statistischen Wahrscheinlichkeiten hergestellt werden, wie z.B. Prinzip der engsten Referenzklasse (nächstes Kapitel). 53 6. Verbindungen von statistischer und subjektiver Wahrscheinlichkeit: das statistische Koordinationsprinzip (StK, „principal principle“) Zwei Versionen: 1. Das singuläre Koordinationsprinzip (Lewis 1980): verbindet subjektive Wahrscheinlichkeiten mit Einzelfallpropensitäten ('chances'). Einfacher als statistisches Koordinationsprinzip, da sich Einzelfallpropensitäten so wie subjektive W.keiten auf singuläre Sätze und nicht auf offene Formeln beziehen. Problem: Einzelfallpropensitäten empirisch gehaltleer sind (daher führen wir dies nicht weiter aus). 2. Das statistische Koordinationsprinzip StK (Kutschera 1972, Howson/Urbach 1996, Strevens 2004, Williamson 2010). StK für einstellige Prädikate (verallgemeinerbar auf mehrstellige Prädikate) Fx (bzw. Fa) steht für eine möglicherweise komplexe Formel in genau einer Individuenvariable x (bzw. Individuenkonstante a). h(F|{a1,,an}) für die Häufigkeit von Fx in einer bestimmten n-elementigen Stichprobe bestehend aus den Individuen a1,,an. 53 54 54 Definition Statistisches Koordinationsprinzip StK: (a) Sei H statistische Hypothese, die p(Fx)=r wahrscheinlichkeitstheoretisch impliziert. Dann gilt: P(Fa | H E(b1,,bn)) = r, sofern die Zulässigkeitsbedingung „a bj für alle j{1,,n}“ erfüllt ist. Spezialfall: P(Fa | p(Fx)=r E(b1,,bn)) = r. In Worten: Der rationale Glaubensgrad dafür, dass ein bestimmtes Individuum a die Eigenschaft F besitzt, unter der Annahme, dass die statistische Wahrscheinlichkeit von Fs im gegebenen Individuenbereich den Wert r besitzt wobei im Antecedens sonst nichts über a, sondern höchstens über von a verschiedene Individuen b j oder über weitere statistische Fakten angenommen wird) ist identisch mit dem Wert r. (b) Sei H eine statistische Hypothese, die p(Gx|Fx)=r wahrscheinlichkeitstheoretisch impliziert. Dann gilt: P( Ga | H Fa E(b1,,bn) ) = r, wobei die Zulässigkeitsbedingung wie in (a) erfüllt ist. Spezialfall: P( Ga | p(Gx|Fx)=r Fa E(b1,,bn) ) = r. In Worten: Der rationale Glaubensgrad dafür, dass ein bestimmtes Individuum a die Eigenschaft G besitzt, unter der Annahme, dass die statistische Wahrscheinlichkeit von Gs in der Klasse der Fs den Wert r besitzt und a die Eigenschaft F besitzt wobei (Klammerbemerkung wie in (a) ist identisch mit dem Wert r. (c) StK für Zufallsstichproben: P(h(Fx|{a1,,an}) = kn | p(Fx)=r E(bj))= n k k r (1r)nk. In Worten: Die rationale Glaubensgrad dafür, dass die Häufigkeit von Fs in einer bestimmten Zufallsstichprobe von n Individuen k/n beträgt, unter der Annahme einer statistischen F-Wahrscheinlichkeit vom Wert r, stimmt mit der durch die Binomialformel berechneten Häufigkeit von k r-wahrscheinlichen Ergebnissen in Wiederholungen eines binären Zufallsexperimentes. 55 (StK) ist Grundlage der Bayesianischen Statistik. Inverse W.keit P(E|H) der Evidenz (Stichprobe) E gegeben Hypothese H heißt Likelihood von H. Wenn subjektives Likelihood mit statistischem Likelihood übereinstimmt, konvergieren subjektiven Hypothesenw.keiten P(H|E) mit zunehmendem Stichprobenumfang gegen statistische W.keiten. (b) folgt wahrscheinlichkeitstheoretisch aus (a). Mögliche Verstärkung der statistische Hypothese in (a) und (b) wird zur Herleitung des StK für unabhängige Kombinationen von Zufallsexperimenten benötigt. Beispiel: P(FaGb | p(Fx)=r p(Gx)=q) Ec) = rq [= p(FxGy)] Zulässigkeitsbedingung: Konditionalisierung auf zusätzliche (hypothetische) Evidenzen E(b1,,bn) nur erlaubt, wenn diese nichts über jenes Individuum a besagen, auf die das StK angewandt wird daher bj a (für 1jn). Ohne Zulässigkeitsbedingung könnte StK zu Inkohärenzen führen: Beispiel: H = (p(Fx|Gx) = 0.5) (p(Fx|Qx) = 0.8), dann erhielte man zugleich P(Fa|GaQaH) = 0,5 und P(Fa|GaQaH) = 0,8 (Widerspruch). Gemäß dem (StK) sind nur P(Fa|QaH) = 0,8 und P(Fa|GaH) = 0,5 korrekt. („All I know“ Interpretation; Pearl 1988) Um StK auf kombinierte Evidenz GaQa anzuwenden, muss man (gemäss dem Prinzip der engsten Referenzklasse" die statistische W.keit auf "GxQx" konditionalisieren, sofern diese bekannt ist: P(Fa|GaQa p(Fx|GxQx) = s) = s. 55 56 56 Durch das StK für Zufallsstichproben ergibt sich der induktive empirische Gehalt statistischer Hypothesen die Menge aller epistemischen Wahrscheinlichkeitssätze, die aus StK und Akzeptanz der Hypothese mit P=1 folgen: Beispiel: Induktiv-empirischer Gehalt einer statistischen Hypothese p(Fx) = r: Alle W.keitssätze der Form „P(h(Fx |{a1,,an}) = kn ) = (nk ) rk(1r)nk“ für alle individuellen Stichproben{a1,,an}. Darauf beruhen die Überprüfungsverfahren für statistische Hypothesen (später). Weitere Einschränkung des StK: Bei P soll es sich gemäß Carnap um eine erfahrungsunabhängige Ausgangswahrscheinlichkeit handeln: "apriori W.keit" Moderne Bayesianer: Zumindest darf P von keiner Beobachtung über jene Individuen (ai) abhängen, auf die das StK angewandt wird: Ausgangsw.keit, prior probability Sonst kann das StK ebenfalls zu Widersprüchen führen. Beispiel: Wissen wir durch Beobachtung zum Zeitpunkt t, dass die eben geworfene Münze (a) auf Kopf gelandet ist (Ga), dann gilt für aktuale Glaubensfunktion Pt zum Zeitpunkt t, Pt(Ga) = 1 auch wenn wir wissen, dass statistische W.keit von Kopf 1/2 beträgt. Für aktuale Glaubensfunktion Pt gilt: Pt(Ga|p(Gx)=1/2) = 1 Widerspruch zum StK. Auch wenn wir unserer Beobachtung von „Ga“ nicht sicher sind, sondern Pt(Ga) = 0,95 gilt, würde Konflikt zum StK entstehen. Nur wenn wir Ausgang des Münzwurfes (Ga oder Ga) noch nicht beobachtet haben und abgesehen von statistischen W.keit 1/2 nichts darüber wissen, macht es Sinn, 57 dem Ergebnis Ga den Glaubensgrad 1/2 zuzuschreiben. Pt : aktuale Glaubensfunktion des Subjekts zur Zeit t P erfahrungsunabhängige Ausgangsw.keit Von Ausgangswahrscheinlichkeiten zu aktualen Glaubensgraden durch Konditionalisierung auf die Gesamtevidenz: (Reichenbachs Prinzip der engsten Referenzklasse; Carnap 1971, Earman 1992, Howson/Urbach 1996, 102f). Konditionalisierung auf die Gesamtevidenz ("strikte Konditionalisierung"): Sei P = P0 die Ausgangswahrscheinlichkeitsfunktion (eines gegebenen Subjekts) zu Startzeitpunkt t0, sei Pt die aktuale Wahrscheinlichkeit zur Zeit t, und sei W0-t das gesamte singuläre und statistische Wissen (eine lange Konjunktion), dass diese Person zwischen t0 und t erworben hat (Pt(W0-t) = 1). Dann gilt für jede Proposition S: Pt(S) = P0(S | W0-t). Aus StK und Konditionalisierungsregel folgt Reichenbachs Prinzip der engsten Referenzklasse: Denn: Gemäß StK gilt, sofern H p(Gx|Rx)=r impliziert: P0(Ga | RaE(bj)H)= r. Angenommen: W0-t = R(a)E(bj)H (id.h., das ist die Gesamtevidenz). Dann ergibt die Konditionalisierungsregel Pt(Ga) = r ( = Prinzip der engsten Referenzklasse). 57 58 58