Ludwig-Maximilians-Universität München Institut für Statistik Wintersemester 2010/11 Seminar Philosophische Grundlagen der Statistik“ ” Dozenten: Prof. Dr. Thomas Augustin, Dr. Marco Cattaneo, Andrea Wiencierz Betreuer der Arbeit: Dr. Marco Cattaneo Der frequentistische Wahrscheinlichkeitsbegriff Ausarbeitung zum Referat von Anton Freund gehalten am 17. Dezember 2010 Inhaltsverzeichnis Einleitung 1 Inhalt und Gegenstand des frequentistischen lichkeitsbegriffs 1.1 Wahrscheinlichkeit objektivistisch gesehen . . . 1.2 Eine straightforward-Definition . . . . . . . . . 1.3 Axiomatisierung nach Kolmogorow . . . . . . . 3 Wahrschein. . . . . . . . . . . . . . . . . . . . . . . . 3 3 5 6 2 Überprüfung statistischer Modelle 2.1 Deterministische und statistische Hypothesen . . . . . . . . . 2.2 Falsifikation von Wahrscheinlichkeitsaussagen . . . . . . . . . 8 8 9 3 Konkrete Schätz- und Testprobleme 11 3.1 Hypothesentests nach Neyman und Pearson . . . . . . . . . . 12 3.2 Langzeitverhalten von Konfidenzintervallen und Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.3 Theoretische Aussagen oder Handlungsregeln? . . . . . . . . . 15 Fazit 16 Literaturverzeichnis 18 Einleitung Ziel der vorliegenden Arbeit ist es, die frequentistische Konzeption von Wahrscheinlichkeit vorzustellen. Der frequentistische Wahrscheinlichkeitsbegriff ist objektivistisch, insofern er Wahrscheinlichkeitsaussagen allein auf Basis von empirischen Daten und mathematischer Axiomatisierung interpretiert. Grundlegend ist die Beobachtung, dass es Phänomene gibt, bei denen sich die relative Häufigkeit eines bestimmten Ereignisses bei einer großen Zahl von Wiederholungen stabilisiert. Die vorliegende Arbeit orientiert sich am frequentistischen Wahrscheinlichkeitsbegriff bei Jerzey Neyman und E. S. Pearson, wie die beiden Autoren ihn in (Neyman 1955), (Neyman 1957), (Neyman 1977), (Pearson 1955) und (Pearson 1962) ausgearbeitet haben. Der allgemeinere Überblick in (Barnett 1982) ist einbezogen. Die Ausführungen zur Falsifikation von Wahrscheinlichkeitsaussagen und einer darauf basierenden Interpretation von Wahrscheinlichkeit orientieren sich an (Braithwaite 1953). Nach einem kurzen Überblich über wissenschaftstheoretische Voraussetzungen wollen wir die frequentistische Konzeption von Wahrscheinlichkeit anhand von drei Fragen genauer darstellen:1 • Warum ist die Wahrscheinlichkeitstheorie (als mathematische Disziplin) überhaupt auf die Realität anwendbar und was ist ihr Gegenstandsbereich? • Wie wird ein statistisches Modell gebildet und auf der Grundlage welcher Beobachtungen wird es bestätigt oder verworfen? • Wie kann man innerhalb eines Modells konkrete statistische Verfahren entwickeln? Welche Anforderungen müssen diese erfüllen und wie können sie gerechtfertigt werden? 1 1.1 Inhalt und Gegenstand des frequentistischen Wahrscheinlichkeitsbegriffs Wahrscheinlichkeit objektivistisch gesehen Jerzy Neyman zitiert zu Beginn von (Neyman 1955) Rudolf Carnap und reiht seine Bemühung um einen objektivistischen Wahrscheinlichkeitsbegriff damit in den logischen Empirismus ein, der für die Wissenschaftstheorie des frühen 20. Jahrhunderts insgesamt prägend war. Begriffe, die in der Wissenschaft Verwendung finden, müssen demnach allein auf der Basis direkt 1 Diese Fragen scheinen den drei Schritten zu entsprechen, in denen nach (Neyman 1977, S. 99) die Anwendung statistischer Modelle auf die Realität erfolgt. 3 beobachtbarer Naturvorgänge definierbar sein. Exemplarisch gibt (Russell 2002, S. 96f) eine Definition einer Geraden in der uns umgebenden Welt (nicht als Konzept innerhalb eines mathematischen Axiomensystems!): Gegeben sei ein Penny-Stück. Dann ist die Klasse aller Perspektiven, unter denen der Penny rund erscheint, eine Gerade. Die Ordnung der Punkte“ auf ” dieser Geraden ist gegeben durch die Größe, in der der Penny von den verschiedenen Perspektiven aus erscheint. Betrachtet man den Penny nämlich schräg von der Seite, sieht man ihn als Ellipse. Je weiter man von dem Penny entfernt ist, desto kleiner wirkt er. Entscheidend ist, dass es mit Hilfe dieser Definition möglich ist, Wahrheitskriterien für wissenschaftliche Aussagen, die den Begriff Gerade“ enthalten, anzugeben. Die Aussage A, B ” ” und C liegen auf einer Geraden“ ist wahr genau dann, wenn es möglich ist, ein Penny-Stück so zu platzieren, dass es von allen drei Punkten aus rund erscheint. Man hat also eine Aussage, die den Begriff Gerade“ enthält, in ” eine Aussage überführt, die nur aus direkt beobachtbaren Tatsachen (der Penny erscheint von hier aus rund) und logischen Konstruktionen (es gibt einen Ort, von dem dies so ist) besteht. Auch ein objektivistischer Begriff von Wahrscheinlichkeit hat den Anspruch, klare empirische Kriterien anzugeben, wie der Begriff Wahrscheinlichkeit“ ” in der Wissenschaft verwendet werden kann und unter welchen beobachtbaren Umständen es gerechtfertigt ist, eine Aussage wie Die Wahrscheinlich” keit von Ereignis A ist p“ zu behaupten. Folgt man der These, einen Satz zu verstehen heiße zu wissen, unter welchen Umständen er wahr ist, so wird insbesondere die Bedeutung des Begriffs Wahrscheinlichkeit“ auch dadurch ge” klärt, dass man Verfahren angibt, gemäß denen Wahrscheinlichkeitsaussagen bestätigt oder abgelehnt werden können. Dieser Ansatz wird im Abschnitt über die Falsifikation von Wahrscheinlichkeitsaussagen weiter verfolgt; im Rahmen eines Überblicks über den frequentistischen Wahrscheinlichkeitsbegriff sind die dortigen Ausführungen als Exkurs zu verstehen. Die Motivation, einen objektivistischen Wahrscheinlichkeitsbegriff zu entwickeln, kann ganz unterschiedlich sein. Auf der einen Seite steht hier die Überzeugung, dass ein subjektivistischer Wahrscheinlichkeitsbegriff das Kriterium der Wissenschaftlichkeit verletzt. (Neyman 1955, S.14) scheint dieser Ansicht zu sein. Zum anderen lassen sich sehr viel pragmatischere Gründe angeben: (Pearson 1962, S. 395) schreibt, dass die Einbeziehung von a prioriInformationen Neyman und ihm zunächst durchaus wichtig erschienen wäre; allerdings ließen sich diese kaum in sichere numerische Werte umsetzen und wären deshalb für exakte mathematische Verfahren ungeeignet. Nichtsdestoweniger nennt auch Pearson (ebd.) Unzufriedenheit mit der logischen Basis anderer Inferenzschulen als Motivation, eine neue Herangehensweise zu entwickeln. 4 1.2 Eine straightforward-Definition Grundlage des frequentistischen Wahrscheinlichkeitsbegriffs ist, wie in der Einleitung beschrieben, die Beobachtung, dass die relative Häufigkeit sich bei einer großen Zahl von Wiederholungen stabil verhält. (Neyman 1977, S. 99) gibt dazu ein Beispiel: Die relativen Häufigkeiten, mit denen ein Würfel eine bestimmte Augenzahl anzeigt, bestimmen eine meßbare Eigenschaft dieses Würfels, die als sein Wahrscheinlichkeitsverhalten bezeichnet werden kann. Dieses gilt als meßbare Kenngröße des Würfels, so wie auch seine Größe und sein Gewicht. Die relative Häufigkeit, die wir in einer konkreten Versuchsreihe beobachten, ist eine empirische Ausprägung des Wahrscheinlichkeitsverhaltens des Würfels. Im vorliegenden Abschnitt wollen wir eine Definition von Wahrscheinlichkeit angeben, die vor diesem Hintergrund natürlich erscheint. Wir werden sehen, dass eine solche straightforward-Definition mit kaum zu behebenden Schwierigkeiten grundsätzlicher Art behaftet ist; eine sehr viel erfolgreichere frequentistische Konzeption von Wahrscheinlichkeit wird dann im nächsten Abschnitt vorgestellt. Vor dem beschriebenen Hintergrund liegt es nahe, die Wahrscheinlichkeit eines Ereignisses als Grenzwert von relativen Häufigkeiten zu definieren. Wir führen eine solche Definition für die Wahrscheinlichkeitseigenschaften des Würfels in Anlehnung an (Braithwaite 1953, S. 124f) aus: Möchte man Wahrscheinlichkeit als Grenzwert von relativen Häufigkeiten bei großer Versuchszahl definieren, genügt es nicht, eine endliche Menge von Versuchsausgängen zu betrachten, etwa alle bisher erfolgten Würfe mit diesem Würfel. Man benötigt vielmehr eine unendliche Menge von Versuchen, die man am ehesten als Menge aller potenziell möglichen Würfelwürfe interpretieren kann. Sei diese Menge mit B bezeichnet. Seien B1 ⊂ B2 ⊂ B3 ⊂ ... endliche Teilmengen von B und h1 , h2 , h3 , ... die korrespondierenden relativen Häufigkeiten für das Ereignis Würfel zeigt 1“. Dann definieren wir die Wahrscheinlich” keit, eine Eins zu würfeln durch P ( Würfel zeigt 1“) = lim hn . ” n→∞ Ist diese Definition haltbar? Es lässt sich zumindest auf zwei Ebenen fundamentale Kritik daran üben, nämlich auf der ontologischen und der der praktischen Durchführbarkeit. Vom ontologischen Gesichtspunkt aus muss gefragt werden, was für einen Seinsstatus mögliche Würfelwürfe haben, schärfer: Gibt es so etwas wie mögliche Würfelwürfe überhaupt? Eine notwenige Bedingung dafür, dass man Dinge einer bestimmten Art annehmen darf, ist laut (Quine 1989, S.130), dass man ein Identitätskriterium für Gegenstände dieser Art angeben kann. Um im vorliegenden Fall berechtigterweise mit möglichen Würfelwürfen arbeiten zu können, müsste man also in der Lage sein, anzugeben, wann zwei mögliche Würfelwürfe ein und derselbe Würfelwurf sind und wann nicht. Dies scheint nicht möglich zu sein: Was zwei mögliche Würfelwürfe unterscheidet, in denen die selbe Zahl gewürfelt wur5 de, ist völlig unklar. Die vorgestellte Definition scheint jedoch auch von diesem grundsätzlichen Problem abgesehen nicht geeignet zu sein. (Braithwaite 1953, S. 125) etwa übt folgende Kritik: Angenommen, man teilt die Menge B auf andere Weise in Teilmengen B10 ⊂ B20 ⊂ B30 ⊂ ... ein. Dann ist es durchaus möglich, einen anderen Grenzwert zu erhalten. Tatsächlich tritt dieses Problem bei realen Würfelwürfen nicht auf: Dort ist uns ja die Reihenfolge der Versuchsausgänge durch den zeitlichen Ablauf gegeben. Doch in der Menge potenzi” ell möglicher Würfelwürfe“ scheint es nicht möglich zu sein, eine solche Reihenfolge verbindlich festzulegen. Insbesondere kann man nicht fordern, dass die Auswahl der Bn aus B zufällig sein soll, da es ja gerade erst darum geht, die Begriffe Wahrscheinlichkeit“ und Zufall“ zu definieren (siehe dazu auch ” ” Barnett 1982, S.79). Auf ein weiteres mathematisches Problem seiShier nur hingewiesen: Ist nämlich B überabzählbar, so kann niemals B = n∈N Bn gelten, was obige Definition in Frage stellt. Hinzu kommt, dass es nicht möglich ist, aus einer endlichen Folge von Beobachtungen eine Aussage über den Grenzwert bei unendlich vielen Versuchen zu treffen. Der so definierte Wahrscheinlichkeitsbegriff scheint also – anders als oben gefordert – keine logische Konstruktion aus empirischen Beobachtungen zu sein. 2 1.3 Axiomatisierung nach Kolmogorow Aufgrund der im vorigend Abschnitt dargestellten Schwierigkeiten muss eine Definition von Wahrscheinlichkeit auf der Basis von relativen Häufigkeiten also subtiler erfolgen, als durch die Sichtweise als Grenzwert bei großer Versuchszahl. Tatsächlich geht (Neyman 1977) in dem oben zitierten Beispiel des Würfels nicht zur Grenzwertbildung über. Stattdessen verweist er auf die Axiomatisierung der Wahrscheinlichkeitstheorie durch Kolmogorow. Die Wahrscheinlichkeitstheorie ist hier eine rein mathematische Theorie. Die Bedeutung des Begriffs Wahrscheinlichkeit“ ist vollständig durch die Axiome ” festgelegt. Insbesondere ist es nicht relevant, dass die Axiome Kolmogorows durch entsprechende Aussagen über relative Häufigkeiten motiviert sein mögen. Während die Wahrscheinlichkeitstheorie durch die Axiomatisierung erheblich an Klarheit gewinnt, ist nicht klar, warum sie auf empirische Phänomene anwendbar sein soll. (Neyman 1955, S. 16) nimmt hier zunächst einen Teil der Begründungslast von der Statistik, indem er herausstellt, dass diese Frage im Fall der Statistik nicht problematischer ist, als im Falle anderer mathematisch formulierter Theorien: In bestimmten geometrischen Problemen entscheiden sich die Wissenschaftler, das Problem mit Mitteln der euklidischen 2 siehe (Braithwaite 1953, S. 125) 6 Geometrie zu lösen und in bestimmten statistischen Problemen entscheiden sie sich für eine Lösung auf Grundlage der Wahrscheinlichkeitstheorie. Dennoch sollte natürlich gerechtfertigt werden, warum und in welchen Fällen die Wahrscheinlichkeitstheorie anwendbar ist. (Barnett 1977, S. 70) gibt folgende Erklärung: Man war von der Beobachtung ausgegangen, dass sich die relativen Häufigkeiten bei der Wiederholung bestimmter Phänomene stabilisieren. Dem entspricht aber (in mathematischer Formulierung) die Aussage des schwachen Gesetzes der großen Zahlen, welches in der Wahrscheinlichkeitstheorie beweisbar ist. Dies kann als Indiz gewertet werden, dass die Wahrscheinlichkeitstheorie eben jene Klasse von Phänomenen adäquat beschreibt, bei denen sich die relativen Häufigkeiten bei großer Versuchszahl stabilisieren. Wir können damit die erste der in der Einleitung gestellten Fragen als beantwortet ansehen: Die Wahrscheinlichkeitstheorie ist deshalb auf die Realität anwendbar, weil sie Aussagen über relative Häufigkeiten macht, die wir tatsächlich beobachten. Sie ist weiter genau auf solche Situationen anwendbar, bei denen eine Stabilisierung der relativen Häufigkeiten feststellbar ist, die also zumindest beliebige Wiederholbarkeit unter gleichen Bedingungen erlauben. Durch den frequentistischen Wahrscheinlichkeitsbegriff wird die Verwendung des Begriffs Wahrscheinlichkeit“ also für manche Phänomene ” ausgeschlossen: Die Frage, wie wahrscheinlich es ist, dass der FC Bayern doch noch deutscher Meister wird, macht von diesem Standpunkt aus keinen Sinn (außer man geht davon aus, dass die Meisterschaft durch eine Folge vieler einzelner Zufallsereignisse entschieden wird). Man kann nun entweder argumentieren, dass derartige Situationen für eine wissenschaftliche statistische Untersuchung ohnehin nicht in Frage kommen; oder man vertritt die moderatere Auffassung, dass die frequentistische Sicht von Wahrscheinlichkeit zwar einen Teil des Anwendungsbereichs der Statistik gut erklärt, dass der subjektivistische Ansatz aber in anderen Situationen durchaus Vorzüge hat.3 Die Kritik an der Grenzwert-Definition des vorigen Abschnitts triff die hier vorgebrachte frequentistische Sichtweise nicht: Die Grenze zwischen mathematischer Theorie, in der unendliche Folgen von Zufallsexperimenten betrachtet werden können, und der Realität, in der immer nur endlich viele Wiederholungen vorkommen können, wird klar eingehalten. Dadurch kommt es nicht zu den oben beschriebenen logischen Problemen; die Verbindung von mathematischer Theorie und empirischer Anwendung ist etwas loser als im vorigen Abschnitt, aber immer noch plausibel. Dennoch gibt es Kritikpunkte, die auch gegen diesen verbesserten frequentistischen Ansatz vorgebracht werden können: So benötigt dieser etwa die Voraussetzung, dass es tatsächlich Situationen gibt, in denen wir ein Experiment unter im wesent- 3 Barnett 1977, S. 78 7 lichen gleichen Bedingungen wiederholen können. Weiter ist es nur dann aufschlussreich, die relativen Häufigkeiten zu betrachten, wenn die einzelnen Versuche unabhängige Zufallsexperimente sind – eine Voraussetzung, die empirisch kaum zu belegen ist.4 2 2.1 Überprüfung statistischer Modelle Deterministische und statistische Hypothesen Angenommen wird nun, dass die Wahrscheinlichkeitstheorie grundsätzlich auf empirische Phänomene anwendbar ist. Konkret entwickeln wir für einen Zusammenhang, den wir untersuchen wollen, ein statistisches Modell, das diesen beschreiben soll. Es stellt sich also nun die zweite der einleitenden Fragen: Wie wird ein solches Modell gebildet und wie kann es bestätigt oder verworfen werden? Wie in 1.1 beschrieben, trägt ein solches Verfahren der Verifikation oder Falsifikation von Wahrscheinlichkeitsaussagen auch noch einmal zur Klärung der Bedeutung von Wahrscheinlichkeit“ bei. ” Gemäß (Neyman 1977, S. 101) funktioniert die Überprüfung eines statistischen Modelles so wie die einer jeden anderen (natur-)wissenschaftlichen Theorie auch: Man leitet aus dem Modell Folgerungen ab, die empirisch überprüfbar und nicht schon in die Bildung des Modelles eingegangen sind. Stimmen diese Vorhersagen des Modells mit unseren tatsächlichen Beobachtungen überein, gilt das Modell als bestätigt, anderenfalls als verworfen. Insbesondere ist es laut (Neyman 1977, ebd.) nicht ungewöhnlich, dass naturwissenschaftliche Theorien statistische Hypothesen enthalten: Als Beispiel führt er die Mendelschen Regeln der Vererbungslehre an. Dennoch gibt es einen großen Unterschied zwischen der Überprüfung deterministischer und statistischer Hypothesen: Eine Aussage der Form Alle ” Objekte der Menge A sind auch in der Menge B enthalten“ kann durch ein einziges Gegenbeispiel definitiv verworfen werden. Eine Wahrscheinlichkeitsaussage wie Ein zufällig ausgewähltes Objekt aus A ist mit der Wahrschein” lichkeit p auch in B enthalten“ kann für 0 < p < 1 durch keine Menge von Beobachtungen definitiv zurückgewiesen oder bestätigt werden. Dies lässt sich auch wie folgt ausdrücken: Deterministische Hypothesen werden durch ihre logischen Folgerungen überprüft. Aus der Hypothese Alle Objekte der ” Menge A sind auch in der Menge B enthalten“ und der empirischen Beobachtung Das vorliegende Objekt stammt aus der Menge A“ folgt logisch ” die Aussage Das vorliegende Objekt ist in der Menge B enthalten“. Die” se letzte Aussage ist es, die direkt empirisch überprüft werden kann. Aus einer nicht-deterministischen Hypothese lässt sich keine solche logische Folgerung ziehen, anhand der die Hypothese überprüft werden könnte. Dieser 4 Barnett 1977, S. 70,78 8 Sachverhalt kennzeichnet das Wesen statistischer Hypothesen.5 2.2 Falsifikation von Wahrscheinlichkeitsaussagen (Braithwaite 1953, S. 153ff) möchte die Bedeutung des Begriffs Wahrschein” lichkeit“ erklären, indem er ein Testverfahren angibt, mit dem Wahrscheinlichkeitsaussagen zurückgewiesen werden können. Es handelt sich hier also nicht um die Situation, wo innerhalb eines statistischen Modells eine bestimmte Hypothese zu testen ist; diese Fragestellung wird im folgenden Teil der Arbeit behandelt werden. Vielmehr gehen wir hier noch einmal einen Schritt zurück und fragen, wie der Begriff Wahrscheinlichkeit“ überhaupt ” verstanden werden kann; eine Möglichkeit für eine Erläuterung ist, wie bereits erwähnt, dass man Bedingungen angibt, die erfüllt sein müssen, damit eine Wahrscheinlichkeitsaussage als wahr gilt. Man betrachte etwa folgende Situation: Wir möchten für ein Ereignis A eine Wahrscheinlichkeitsaussage testen, d.h. eine Hypothese H (0) : P (A) = p für ein festes p ∈ (0; 1). Hierzu scheint es sich anzubieten, einen der gängigen Hypothesentests K (0) zum Signifikanzniveau α ∈ (0; 1) zu verwenden. Wir verwerfen dann H (0) , wenn K (0) zu einer Ablehnung von H (0) führt. Dabei tritt jedoch folgendes Problem auf: Wenn wir begünden sollen, warum K (0) ein sinnvoller Test ist, werden wir vermutlich argumentieren, dass K (0) die Nullhypothese, falls diese wahr ist, nur mit einer Wahrscheinlichkeit ≤ α ablehnt. Diese Begründung ist aber selbst wieder eine Wahrscheinlichkeitsaussage. In der Praxis ist das kein Problem; wenn wir aber durch die Angabe eines Ablehnungsverfahrens erst erklären wollen, was Wahrscheinlichkeit“ ” bedeutet, wird unsere Erläuterung an dieser Stelle zirkulär. Für das frequentistische Verständnis von Wahrscheinlichkeit ist dieser Punkt auch über Braithwaites Anliehen hinaus von Interesse: Denn wie (Braithwaite 1953, S. 155) herausstellt, folgen aus Wahrscheinlichkeitsaussagen immer nur andere Wahrscheinlichkeitsaussagen, aber niemals Aussagen, die sich direkt empirisch überprüfen ließen. Beispielsweise kann man aus der Wahrscheinlichkeit, mit einem bestimmten Würfel eine Eins zu Würfeln, ableiten, wie wahrscheinlich es ist, bei n Würfen mindestens k Einser zu Würfeln; eine Aussage über die relative Häufigkeit bei n konkreten Würfelwürfen ist dies jedoch nicht. Überspitzt ausgedrückt scheint es überhaupt keine Verbindung zwischen Aussagen der Theorie und konkreten beobachtbaren Vorgängen zu geben, was den frequentistischen Ansatz völlig zunichte machen würde. Im Folgenden soll eine Lösung dieses Problems dargestellt werden:6 Wir 5 6 Braithwaite 1953, S. 152 Die Darstellung leht sich an (Braithwaite 1953, S.153ff) an. Siehe dort für eine wesentlich detailliertere Konstuktion der verschiedenen Hypothesen und Tests. 9 betrachten weiter obige Hypothese H (0) und den dazugehörigen Test K (0) , den wir mit n0 Beobachtungen durchführen, versuchen aber eine andere Begründung zu geben, warum dieses Testverfahren sinnvoll ist. Betrachte dazu die Hypothese H (1) : P ( K (0) führt, durchgeführt mit n0 Beobachtungen, ” zur Ablehnung von H (0)“) ≤ α. Man beachte, dass H (1) aus H (0) folgt, weil α gerade als Signifikanzniveau von K (0) gewählt war. Sei nun K (1) wiederum ein Test für H (1) zum Signifikanzniveau α. Wir können K (1) etwa anwenden, indem wir n1 mal den Test K (0) mit jeweils n0 Beobachtungen durchführen. Definiere für k ≥ 2 nun weiter induktiv H (k) : P ( K (k−1) führt, durchgeführt mit nk−1 Beobachtungen, ” zur Ablehnung von H (k−1)“) ≤ α. Dabei sei jeweils K (k) wie oben beschrieben ein Test von H (k) zum Signifikanzniveau α. Was ist der Sinn dieser Konstruktion? Wie oben folgt jeweils H (k) aus H (k−1) , das heißt man hat eine unendliche Kette H (0) ⇒ H (1) ⇒ H (2) ⇒ ... von Folgerungen aus H (0) mit zugehörigen Tests K (k) , k ∈ N. Insbesondere folgt aus der Falschheit von H (k) für beliebiges k ∈ N also die Falschheit von H (0) . Weiter werden die Test K (k) laut (Braithwaite 1953, S. 158f) mit wachsendem k in folgendem Sinn stärker: Angenommen, K (k) hat zur Ablehnung von H (k) und damit auch H (0) geführt, aber K (k+1) führt nicht zur Ablehnung von H (k+1) . Dann muss H (k+1) also als wahr angesehen werden und dies bedeutet, dass es untypisch ist, dass K (k) zur Ablehnung von H (k) geführt hat.7 Also wird die Ablehnung von H (k) durch K (k) durch das Ergebnis von K (k+1) in Frage gestellt. Dies führt in Anlehnung an (Braithwaite 1953, S. 158-160) zu folgenden Definitionen: 1. Die Hypothese H (0) gilt als vorläufig zurückgewiesen, wenn es ein k ∈ N gibt, sodass der Test K (k) durchgeführt wurde und zur Zurückweisung von H (k) geführt hat, und wenn bisher kein Test K (j) für j ≥ k durchgeführt wurde, der nicht zur Zurückweisung von H (j) geführt hat. 7 Es lässt sich allerdings einwenden, dass untypisch“ ebenfalls eine Aussage über ” Wahrscheinlichkeiten ist und Braithwaites Testvefahren eben der Zirkularität zum Opfer fällt, die er vermeiden wollte. Darauf geht (Braithwaite 1953) nicht ein. 10 2. Die Hypothese H (0) gilt durch eine (unendliche) Reihe von Tests K (0) , K (1) , K (2) , ... als endgültig zurückgewiesen, wenn es ein N ∈ N gibt, sodass für alle k ≥ N der Test K (k) zur Zurückweisung von H (k) führt. Es ist also in der Praxis nicht möglich, eine Wahrscheinlichkeitsaussage (die eine Wahrscheinlichkeit p ∈ (0; 1) behauptet) definitiv zurückzuweisen. Dies entspricht der Beobachtung im vorigen Abschnitt. Es bleibt, zu begründen, warum dieses Testverfahren sinnvoll ist. Zunächst kann man feststellen, dass das beschriebene Verfahren unserem tatsächlichen Umgang mit statistischen Hypothesen in etwa entspricht: Wir weisen eine Hypothese zurück, wenn uns Beobachtungen dazu veranlassen, behalten uns dabei aber vor, die Hypothese zu rehabilitieren, wenn andere (aussagekräftigere) Beobachtungen dies nahelegen. Insbesondere wird das Testverfahren nicht dadurch gerechtfertigt, dass eine fälschliche Ablehnung der Nullhypothese unwahrscheinlich ist (dies wäre, wie oben beschrieben, zirkulär), sondern dadurch, dass eine Fehlentscheidung durch einen späteren Test wieder korrigiert werden kann. Ein weiteres Argument folgt laut (Braithwaite 1953, S.164) aus der Betrachtung der Extremfälle p = 0 und p = 1: Hier entspräche der Test K (0) gerade den üblichen Falsifikationsmethoden, indem er H (0) zurückweist, falls ein Gegenbeispiel gefunden wurde. Auf eine weitere Anforderung weist (Braithwaite 1953, S. 161f) hin: Es muss logisch möglich sein, dass eine Zurückweisung durch einen Test K (k) erfolgt, die durch keinen späteren Test aufgehoben wird. Ansonsten wüssten wir nämlich, dass wir jede Hypothese, die wir zurückgewiesen haben, später wieder rehabilitieren müssen. Für jede endliche Zahl von durchgeführten Tests ist es natürlich möglich, dass alle diese Test die Hypothese zurückweisen, was stärker ist als das, was gefordert war. Man kann sich fragen, ob man nicht darüber hinaus fordern sollte, dass es für eine falsche Hypothese H (0) zumindest möglich sein soll, dass sie endgültig zurückgewiesen wird; genauer: Für jede (einfache) Alternativhypothese H1 soll gelten: P ( Es gibt ein m ∈ N, sodass H (0) durch K (j) für alle j ≥ m ” zurückgewiesen wird“ | H1 ) > 0, wobei hier die Folge der Testergebnisse K (0) , K (1) , ... als Zufallsereignisse verstanden werden. (Braithwaite 1953) geht auf diese Frage nicht ein. 3 Konkrete Schätz- und Testprobleme Im Unterschied zum vorigen Kapitel gehen wir hier davon aus, dass ein adäquates Modell gegeben ist, das eine bestimmte Situation beschreibt. Allerdings sind in dem Modell ggf. einzelne Parameter unspezifiziert, sodass sich konkrete Schätz- und Testprobleme stellen. Das Problem ist also weniger grundsätzlich als im vorigen Abschnitt: Dort sollte ein Modell für einen 11 Sachverhalt erst von Grund auf etabliert werden; hier können wir Eigenschaften des bereits anerkannten Modells nutzen, um Verfahren mit bestimmten Optimalitätseigenschaften herzuleiten. Dieser Unterschied führt dazu, dass die Frage nach geeigneten Test- und Schätzverfahren als philosophisch recht unproblematisch angesehen werden kann. (Neyman 1977, S.99f) beschreibt den Vorgang so: Der Anwender muss festlegen, welche Anforderungen an ein statistisches Verfahren er hat; bei einem Hypothesentest kann dies etwa das Signifikanzniveau sein, oder die Richtung, in die eine Abweichung möglichst auszuschließen ist. Die Festlegung dieser Anforderungen ist eine außermathematische Frage, mit der sich die Theorie der Statistik nicht zu beschäftigen hat. Ein statistisches Verfahren zu finden, das die gewünschten Eigenschaften besitzt, ist dann ein rein mathematisches Problem, dessen Lösung sehr schwierig oder gar unmöglich sein kann; es stellt sich aber jedenfalls nicht die Frage nach der Interpretation und den konzeptionellen Grundlagen des Vorgehens. Mit (Neyman 1955, S.17) sei darauf hingewiesen, dass die beschriebenen Optimalitätseigenschaften nur in Bezug auf ein Modell und nicht bezüglich der empirischen Realität zu verstehen sind. Die Verbindung zu dieser wird dadurch gewährleistet, dass man das verwendete Modell als adäquat ansieht. 3.1 Hypothesentests nach Neyman und Pearson Wir wollen im Folgenden kurz das klassische Verfahren des Hypothesentests darstellen, wie es wesentlich von Neyman und Pearson entwickelt wurde.8 Insbesondere versuchen wir zu verstehen, wieso (Pearson 1955, S.204) die Entwicklung von Konzepten wie Ablehnungsbereichen, Alternativhypothesen, den zwei Fehlerarten und der Macht eines Tests als notwendige Folgen aus dem statistischen Wahrscheinlichkeitsbegriff und aus gegebenen Anwendungsbedürfnissen sieht. Die hier gegebene Darstellung mag straightforward und elementar erscheinen: Alle diskutierten Verfahren sind aus den Einführungsvorlesungen in die Statistik bekannt. Dennoch mussten die eben erwähnten grundlegenden Konzepte von Neyman und Pearson um 1930 erst nach und nach entwickelt werden.9 Man führe sich auch vor Augen, wie stark diese einem objektivistischen Wahrscheinlichkeitsbegriff verhaftet sind: Das Konzept einer Alternativhypothese ist vom objektivistischen Standpunkt aus verständlich – schließlich muss der fragliche Parameter in der Realität irgendeinen Wert annehmen, somit entweder die Nullhypothese oder eine der Alternativen zutreffen. Ein Subjektivist hat mit dieser Sichtweise möglicherweise Schwierigkeiten. Wir setzten also voraus, dass wir ein Modell gegeben haben: Es sei etwa 8 9 Diese Zuschreibung macht etwa (Barnett 1982, S. 129). Dies beschreibt etwa (Pearson 1955, S.204, 207). 12 X eine Zufallsvariable, deren Verteilung bis auf die Wahl eines Parameters festgelegt ist, also beispielsweise X ∼ N (µ, 1). Wir wollen eine Hypothese über den unbekannten Parameter µ testen, etwa H0 : µ = 0. Dazu betrachten wir n Realisationen X1 = x1 , ..., Xn = xn der Zufallsvariablen X. Im Sinne des frequentistischen Ansatzes möchten wir keine a priori-Informationen berücksichtigen, sofern dies die konkrete Situation nicht ausdrücklich nahelegt; wir nehmen an, dass dies nicht der Fall ist. Dann hat unser Test also nur die beobachteten Daten und die Eigenschaften des Modells, die bereits gegeben sind, zur Grundlage. Wir legen uns zunächst darauf fest, X als Schätzer für µ zu verwenden. Es scheint sinnvoll zu sein, H0 dann zurückzuweisen, wenn man einen Wert x für X beobachtet, der unter H0 sehr unwahrscheinlich ist. Wir weisen also H0 zurück, wenn P (X ≥ |x| H0 ) – diese Größe wird üblicherweise als p-Wert bezeichnet – klein ist. Es sei darauf verwiesen, dass bis zu diesem Punkt weder ein Ablehnungsbereich noch eine Menge von Alternativhypothesen festgelegt werden mussten. Dies ändert sich, wenn man weitere Anforderungen an den Test stellt. So ist es etwa nach (Neyman 1977, S. 103) sinnvoll, die Regel für die Ablehnung der Nullhypothese vor der Durchführung des Tests festzulegen. Hierzu muss man spezifizieren, was genau es bedeutet, dass der p-Wert ”klein“ ist. Man wählt also ein α, sodass wird, wenn P ( X ≥ |x| H0 ) ≤ α. H0 abgelehnt Nun wird offenbar P ( X ≥ |x| H0 ) desto kleiner, je größer |x| wird. Wir können also ein c ∈ (0, ∞) finden, sodass P (X ≥ c H0 ) = α. Dann ist das eben formulierte Ablehnungsverfahren äquivalent zu der Vorgabe, H0 abzulehnen, falls x ∈ (−∞, −c] ∪ [c, ∞). Wir haben also einen Ablehnungsbereich eingeführt. Man sieht sofort, dass das Risiko, die Nullhypothese abzulehnen, obwohl sie wahr ist, gleich α ist. Der so definierte Test ist somit ein Signifikanztest zum Signifikanzniveau α. Diese Aussage lässt sich frequentistisch so verstehen, dass die relative Häufigkeit, einen Fehler erster Art zu begehen, etwa α betragen wird, wenn man den Test oft durchführt. Warum das Signifikanzlevel auch dann frequentistisch bedeutsam ist, wenn ein und der selbe Test nur einmal durchgeführt wird, ist Thema des nächsten Abschnitts. Sind wir bis zu diesem Punkt noch ohne die Angabe einer Alternativhypothese ausgekommen, so ändert sich dies, wenn wir die Macht des Tests angeben wollen. Hier fragen wir uns, wie groß die Wahrscheinlichkeits ist, die Nullhypothese zu verwerfen, wenn sie falsch ist. Diese Frage ist entscheidend, wenn wir die verschiedenen möglichen Tests zum Signifikanzniveau α untereinander vergleichen wollen. Um sie zu beantworten, müssen wir im Rahmen unseres Modells präzisieren, was der Fall sein soll, wenn H0 falsch ist. Diese Präzisierung bedeutet gerade die Einführung einer Alternativhy- 13 pothese, gegen die H0 getestet wird.10 Im vorliegenden Fall kann man etwa H1 : µ 6= 0 setzen und erhält so einen zweiseitigen Hypothesentest für H0 . Die power -Funktion dieses Tests gibt dann für jede einfache Hypothese H1,τ aus H1 an, wie groß die Wahrscheinlichkeits ist, dass H0 abgelehnt wird, falls H1,τ wahr ist. Im vorliegenden Fall bietet sich H1,τ : µ = τ an, wobei τ 6= 0 sein soll. Unter zwei Tests zum gleichen Signifikanzniveau sieht man den als besser an, der – im Idealfall global – die größere Macht besitzt. 3.2 Langzeitverhalten von Konfidenzintervallen und Hypothesentests Nach (Neyman 1955, S.19) sind statistische Verfahren immer unzweideutig durch das Langzeitverhalten der auftretenden relativen Häufigkeiten interpretierbar. So ist etwa ein 95% -Konfidenzintervall so konstruiert, dass die geschätzen Grenzen den festen wahren Parameter in etwa 95% der Fälle überdecken. Der Test einer Hypothese H0 zum Signifikanzniveau α ist, wie eben gesehen, so konstruiert, dass die relative Häufigkeit für einen Fehler erster Art ungefähr α betragen wird, wenn man den Test oft durchführt. Hier ergibt sich jedoch ein Einwand, den (Neyman 1977, S. 108) ausräumen möchte: Die Interpretation des Signifikanzniveaus eines Tests durch relative Häufigkeit sei nur dann möglich, wenn man dieselbe Nullhypothese oft mit dem selben Testverfahren teste. Im Allgemeinen ist dies nicht der Fall: Steht eine wissenschaftliche Hypothese zur Diskussion, wird diese möglicherweise nur durch einen Test überprüft. Danach wird auf dieser Grundlage weiter geforscht. Man kann einwenden, dass eine Interpretation über relative Häufigkeiten in diesem Fall nicht sinnvoll ist. In Anlehnung an (Neyman 1977, S.108f) lässt sich dem folgende Überlegung entgegensetzen: Man betrachte eine lange Folge verschiedenster Situationen, in denen jeweils eine Hypothese H (i) zum Signifikanzniveau αi getestet wird; man kann sich unter diesen Situationen etwa die gesamte Tätigkeit eines Forschers vorstellen. Die relative Häufigkeit von Fehlern erster Art wird dann ungefähr gleich dem arithmetischen Mittel der αi sein. Sind die verschiedenen Tests paarweise unabhängig, so folgt dies etwa aus dem schwachen Gesetz der großen Zahlen: Man betrachte nur diejenigen Tests der Folge, bei denen die getestestete Hypothese H (i) wahr ist. Es sei Xi eine Zufallsvariable mit 1, falls H (i) abgelehnt wird Xi = . 0, sonst Dann ist also Xi verteilt nach Ber(αi ). Die relative Häufigkeit von Fehlern erster Art in den ersten n Tests wahrer Hypothesen ist gerade Sn /n, wobei 10 Man beachte, dass es nach (Barnett 1982, S. 159) an dieser Stelle tatsächlich notwendig ist, eine Alternativhypothese zu formulieren. 14 wie üblich Sn = X1 +...+Xn gelten soll. Sei noch α das arithmetische Mittel der αi . Für > 0 beliebig gilt dann nach schwachem Gesetz der großen Zahlen (für unabhängige Zufallsvariablen mit beschränkten Varianzen) lim P (|Sn /n − α| > ) = 0. n→∞ In Bezug auf eingangs vorgebrachten Einwand bedeutet dies, dass eine Interpretation durch relative Häufigkeiten sehr wohl auch dann sinnvoll ist, wenn wir jede einzelne Hypothese nur einmal testen. Auch dann wird nämlich die relative Häufigkeit der Fehler erster Art, die wir insgesamt machen, nahe dem arithmetischen Mittel der verwendeten Signifikanzniveaus liegen. 3.3 Theoretische Aussagen oder Handlungsregeln? Während die Interpretation von Wahrscheinlichkeitsaussagen durch relative Häufigkeiten unzweideutig möglich ist, ist damit noch nicht gesagt, welche Funktion statistische Verfahren beim Umgang mit Daten haben sollen. Laut (Neyman 1957, S.15f) sind hier mindestens zwei Antworten denkbar: Nach der unter dem Schlagwort inductive reasoning bekannten Auffassung, die etwa von Ronald Fisher vertreten wurde,11 soll der Anwender aufgrund gegebener Daten zu einer theoretischen Einsicht kommen, also als Ergebnis eines Tests von einer bestimmten Hypothese zu einem bestimmten Grad überzeugt sein. Ziel der Vertreter dieser Auffassung ist es laut Neyman (ebd.), eine universelle Formel zu finden, die vorschreibt, welche Überzeugung ein rationales Individuum durch die Betrachtung gegebener Daten bekommen sollte. (Neyman 1957) stellt dem eine andere Sicht entgegen: Unter dem Begriff inductive behavior macht er die These stark, dass statistische Verfahren nicht direkt eine theoretische Einsicht vermitteln, sondern zu einer Handlungsentscheidung führen sollten – und sei es die Entscheidung, bestimmte wissenschaftliche Hypothesen zu akzeptieren und auf ihrer Grundlage weiter zu forschen. Diese Sichtweise hat verschiedene Vorteile: Zum einen ist sie nach Neyman der Funktionsweise der Forschung angemessener als die Vorstellung des in” ductive reasoning“. (Neyman 1957, S.10f) beschreibt den Umgang von Forschern mit Daten wie folgt: Zunächst werden in einem kreativen Prozess verschiedene Hypothesen aufgestellt. Aus diesen Hypothesen lassen sich dann Folgerungen ableiten, die mit empirisch gegebenen Daten abgeglichen werden können. Schließlich kommt es zu einer Entscheidung, welche Hypothese weiterverfolgt und als Grundlage der weiteren Forschungstätigkeit angenommen werden soll. In diesem letzten Schritt spielen neben der Überzeugungskraft einer Hypothese aufgrund des Testergebnisses auch die Folgen einer Fehlentscheidung in die eine oder andere Richtung eine Rolle. Im Rahmen 11 Siehe zu dieser Einschätzung (Neyman 1957, S. 11); vgl. auch (Pearson 1955, S.206). 15 der Entwicklung einer wissenschaftlichen Theorie könnte etwa bedeutend sein, welche Hypothese besonders leicht weiter zu untersuchen ist. Ein großer Vorteil der Handlungsorientierung ist, dass diese Sicht recht undogmatisch und mit vielen Schätz- und Testverfahren vereinbar ist. Für jemanden, der den Erkenntnisaspekt in den Vordergrund stellt, mag es beispielsweise schwer sein, das Verfahren des Minimax-Tests zu akzeptieren, bei dem verschiedene Fehlentscheidungen mit Kosten gewichtet werden. Erwartet man hingegen von einem Testverfahren eine Handlungsempfehlung, kann ein Minimax-Test in manchen Fällen das natürliche Vorgehen sein. Besonders relevant wird dies in Situationen, in denen andere optimale Tests nicht existieren.12 Ist die Sichtweise des inductive behavior eine frequentistische Sichtweise? Man kann offenbar Frequentist sein und trotzdem die Handlungsorientierung ablehnen. Dennoch gibt es mindestens einen Grund, als Frequentist auch eine handlungsorientierte Sichtweise einzunehmen: Angenommen, ein Forscher testet seine Hypothesen stets zum Signifikanzniveau 5% . Wie im vorigen Abschnitt darsgestellt, wird er also mit einer relativen Häufigkeit von ungefähr 5% Fehler erster Art begehen. Aber wieso ist dies für ihn erstrebenswert? Wiegen 95 wahre Erkenntnisse die 5 falschen auf? Einfacher wird die Rechtfertigung für das Vorgehen des Forschers, wenn man die Sichtweise von Handeln und Folgen einnimmt: Ziemlich sicher wird der Forscher auf diesem Weg erfolgreich forschen können, seine weiteren Experimente effizient planen und die zur Verfügung stehenden Mittel zielführend einsetzen können. Fazit In den vorangegangenen Abschnitten wurde versucht, einen Überblick über den frequentistischen Wahrscheinlichkeitsbegriff zu geben. Grundlage für jede frequentistische Definition von Wahrscheinlichkeit sind relative Häufigkeiten, die als empirisch beobachtbare Äußerung der tatsächlichen Wahrscheinlichkeitseigenschaften eines Objekts angesehen werden. Wie wir gesehen haben, ist eine straightforward-Definition von Wahrscheinlichkeit aus relativen Häufigkeiten mit kaum zu behebenden Schwierigkeiten grundsätzlicher Natur konfrontiert. Erfolgreich scheint hingegen der Ansatz über eine Axiomatisierung der Wahrscheinlichkeitstheorie, wie etwa durch die Axiome von Kolmogorow, zu sein. Die Anwendbarkeit einer solchen Theorie lässt sich dann durch beobachtbare Eigenschaften von relativen Häufigkeiten stützen. Ein konkretes statistisches Modell wird überprüft wie andere wissenschaft- 12 vgl. (Neyman 1977, S. 105) 16 liche Theorien auch. Jedoch besteht der Unterschied, dass sich statistische Hypothesen im Allgemeinen nicht definitiv zurückweisen oder bestätigen lassen. Dennoch können statistische Modelle durch ihren Erfolg in der Anwendung sehr gut gerechtfertigt werden.13 Innerhalb eines gegebenen Modells lassen sich dann Tests und Schätzer mit bestimmten Optimalitätseigenschaften konstruieren. Diese sind durch relative Häufigkeiten interpretierbar. Der frequentistische Ansatz ist eine gute Basis für statistische Methoden in den Wissenschaften, da er deren Anforderungen an Objektivität entspricht. Viele klassische Verfahren wurden vor frequentistischem Hintergrund entwickelt. Allerdings ist der Anwendungsbereich frequentistischer Statistik auf solche Situationen beschränkt, die sich beliebig wiederholen lassen. Ferner gibt es grundsätzliche Kritik am frequentistischen Wahrscheinlichkeitsbegriff; es wird etwa argumentiert, dass es keine feste Beziehung zwischen Wahrscheinlichkeit und relativer Häufigkeit bei endlicher Versuchszahl gebe. 13 Zum enormen Erfolg statistischer Modelle in den Naturwissenschaften siehe etwa (Neyman 1955, S.17). 17 Literaturverzeichnis [1] Barnett, Vic: Comparative Statistical Inference. 2. Auflage. Wiley, Chichester, 1982. [2] Braithwaite, Richard: Scientific Explanation. A Study of the Function of Theory, Probability and Law in Science.. Cambridge University Press, Cambridge, 1953. [3] Neyman, Jerzy: The Problem of Inductive Inference. In: Communications on Pure and Applied Mathematics Vol. VIII (1955). S.13-46. [4] Neyman, Jerzy: Inductive Behavior“ as a Basic Concept of Philoso” phie of Science. In: Revue Inst. Int. de Stat. 25: 1/3 (1957). S.7-22. [5] Neyman, Jerzy: Frequentist Probability and Frequentist Statistics. In: Synthese 36 (1977). S.97-131. [6] Pearson, E.S.: Statistical Concepts in their Relation to Reality. In: Journal of the Royal Statistical Society. Series B (Methodological) Vol. 17, No. 2 (1955). S.204-207. [7] Pearson, E.S.: Some Thoughts on Statistical Inference. In: Ann. Math. Statist. Vol. 33, No. 2 (1962). S.394-403. [8] Quine, Willard Van Orman: Theorien und Dinge. Suhrkamp Verlag, Frankfurt am Main, 1989. [9] Russell, Bertrand: Our Knowledge of the External World. Routledge, London, 2002. 18