Seminararbeit - Marco EGV Cattaneo

Werbung
Ludwig-Maximilians-Universität München
Institut für Statistik
Wintersemester 2010/11
Seminar Philosophische Grundlagen der Statistik“
”
Dozenten: Prof. Dr. Thomas Augustin, Dr. Marco Cattaneo,
Andrea Wiencierz
Betreuer der Arbeit: Dr. Marco Cattaneo
Der frequentistische
Wahrscheinlichkeitsbegriff
Ausarbeitung zum Referat von
Anton Freund
gehalten am 17. Dezember 2010
Inhaltsverzeichnis
Einleitung
1 Inhalt und Gegenstand des frequentistischen
lichkeitsbegriffs
1.1 Wahrscheinlichkeit objektivistisch gesehen . . .
1.2 Eine straightforward-Definition . . . . . . . . .
1.3 Axiomatisierung nach Kolmogorow . . . . . . .
3
Wahrschein. . . . . . . .
. . . . . . . .
. . . . . . . .
3
3
5
6
2 Überprüfung statistischer Modelle
2.1 Deterministische und statistische Hypothesen . . . . . . . . .
2.2 Falsifikation von Wahrscheinlichkeitsaussagen . . . . . . . . .
8
8
9
3 Konkrete Schätz- und Testprobleme
11
3.1 Hypothesentests nach Neyman und Pearson . . . . . . . . . . 12
3.2 Langzeitverhalten von Konfidenzintervallen und Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3 Theoretische Aussagen oder Handlungsregeln? . . . . . . . . . 15
Fazit
16
Literaturverzeichnis
18
Einleitung
Ziel der vorliegenden Arbeit ist es, die frequentistische Konzeption von
Wahrscheinlichkeit vorzustellen. Der frequentistische Wahrscheinlichkeitsbegriff ist objektivistisch, insofern er Wahrscheinlichkeitsaussagen allein auf
Basis von empirischen Daten und mathematischer Axiomatisierung interpretiert. Grundlegend ist die Beobachtung, dass es Phänomene gibt, bei denen
sich die relative Häufigkeit eines bestimmten Ereignisses bei einer großen
Zahl von Wiederholungen stabilisiert.
Die vorliegende Arbeit orientiert sich am frequentistischen Wahrscheinlichkeitsbegriff bei Jerzey Neyman und E. S. Pearson, wie die beiden Autoren
ihn in (Neyman 1955), (Neyman 1957), (Neyman 1977), (Pearson 1955) und
(Pearson 1962) ausgearbeitet haben. Der allgemeinere Überblick in (Barnett
1982) ist einbezogen. Die Ausführungen zur Falsifikation von Wahrscheinlichkeitsaussagen und einer darauf basierenden Interpretation von Wahrscheinlichkeit orientieren sich an (Braithwaite 1953).
Nach einem kurzen Überblich über wissenschaftstheoretische Voraussetzungen wollen wir die frequentistische Konzeption von Wahrscheinlichkeit anhand von drei Fragen genauer darstellen:1
• Warum ist die Wahrscheinlichkeitstheorie (als mathematische Disziplin) überhaupt auf die Realität anwendbar und was ist ihr Gegenstandsbereich?
• Wie wird ein statistisches Modell gebildet und auf der Grundlage welcher Beobachtungen wird es bestätigt oder verworfen?
• Wie kann man innerhalb eines Modells konkrete statistische Verfahren entwickeln? Welche Anforderungen müssen diese erfüllen und wie
können sie gerechtfertigt werden?
1
1.1
Inhalt und Gegenstand des frequentistischen Wahrscheinlichkeitsbegriffs
Wahrscheinlichkeit objektivistisch gesehen
Jerzy Neyman zitiert zu Beginn von (Neyman 1955) Rudolf Carnap und
reiht seine Bemühung um einen objektivistischen Wahrscheinlichkeitsbegriff
damit in den logischen Empirismus ein, der für die Wissenschaftstheorie des
frühen 20. Jahrhunderts insgesamt prägend war. Begriffe, die in der Wissenschaft Verwendung finden, müssen demnach allein auf der Basis direkt
1
Diese Fragen scheinen den drei Schritten zu entsprechen, in denen nach (Neyman
1977, S. 99) die Anwendung statistischer Modelle auf die Realität erfolgt.
3
beobachtbarer Naturvorgänge definierbar sein. Exemplarisch gibt (Russell
2002, S. 96f) eine Definition einer Geraden in der uns umgebenden Welt
(nicht als Konzept innerhalb eines mathematischen Axiomensystems!): Gegeben sei ein Penny-Stück. Dann ist die Klasse aller Perspektiven, unter denen der Penny rund erscheint, eine Gerade. Die Ordnung der Punkte“ auf
”
dieser Geraden ist gegeben durch die Größe, in der der Penny von den verschiedenen Perspektiven aus erscheint. Betrachtet man den Penny nämlich
schräg von der Seite, sieht man ihn als Ellipse. Je weiter man von dem Penny entfernt ist, desto kleiner wirkt er. Entscheidend ist, dass es mit Hilfe
dieser Definition möglich ist, Wahrheitskriterien für wissenschaftliche Aussagen, die den Begriff Gerade“ enthalten, anzugeben. Die Aussage A, B
”
”
und C liegen auf einer Geraden“ ist wahr genau dann, wenn es möglich ist,
ein Penny-Stück so zu platzieren, dass es von allen drei Punkten aus rund
erscheint. Man hat also eine Aussage, die den Begriff Gerade“ enthält, in
”
eine Aussage überführt, die nur aus direkt beobachtbaren Tatsachen (der
Penny erscheint von hier aus rund) und logischen Konstruktionen (es gibt
einen Ort, von dem dies so ist) besteht.
Auch ein objektivistischer Begriff von Wahrscheinlichkeit hat den Anspruch,
klare empirische Kriterien anzugeben, wie der Begriff Wahrscheinlichkeit“
”
in der Wissenschaft verwendet werden kann und unter welchen beobachtbaren Umständen es gerechtfertigt ist, eine Aussage wie Die Wahrscheinlich”
keit von Ereignis A ist p“ zu behaupten. Folgt man der These, einen Satz zu
verstehen heiße zu wissen, unter welchen Umständen er wahr ist, so wird insbesondere die Bedeutung des Begriffs Wahrscheinlichkeit“ auch dadurch ge”
klärt, dass man Verfahren angibt, gemäß denen Wahrscheinlichkeitsaussagen
bestätigt oder abgelehnt werden können. Dieser Ansatz wird im Abschnitt
über die Falsifikation von Wahrscheinlichkeitsaussagen weiter verfolgt; im
Rahmen eines Überblicks über den frequentistischen Wahrscheinlichkeitsbegriff sind die dortigen Ausführungen als Exkurs zu verstehen.
Die Motivation, einen objektivistischen Wahrscheinlichkeitsbegriff zu entwickeln, kann ganz unterschiedlich sein. Auf der einen Seite steht hier die
Überzeugung, dass ein subjektivistischer Wahrscheinlichkeitsbegriff das Kriterium der Wissenschaftlichkeit verletzt. (Neyman 1955, S.14) scheint dieser
Ansicht zu sein. Zum anderen lassen sich sehr viel pragmatischere Gründe
angeben: (Pearson 1962, S. 395) schreibt, dass die Einbeziehung von a prioriInformationen Neyman und ihm zunächst durchaus wichtig erschienen wäre;
allerdings ließen sich diese kaum in sichere numerische Werte umsetzen und
wären deshalb für exakte mathematische Verfahren ungeeignet. Nichtsdestoweniger nennt auch Pearson (ebd.) Unzufriedenheit mit der logischen Basis
anderer Inferenzschulen als Motivation, eine neue Herangehensweise zu entwickeln.
4
1.2
Eine straightforward-Definition
Grundlage des frequentistischen Wahrscheinlichkeitsbegriffs ist, wie in der
Einleitung beschrieben, die Beobachtung, dass die relative Häufigkeit sich bei
einer großen Zahl von Wiederholungen stabil verhält. (Neyman 1977, S. 99)
gibt dazu ein Beispiel: Die relativen Häufigkeiten, mit denen ein Würfel eine
bestimmte Augenzahl anzeigt, bestimmen eine meßbare Eigenschaft dieses
Würfels, die als sein Wahrscheinlichkeitsverhalten bezeichnet werden kann.
Dieses gilt als meßbare Kenngröße des Würfels, so wie auch seine Größe und
sein Gewicht. Die relative Häufigkeit, die wir in einer konkreten Versuchsreihe beobachten, ist eine empirische Ausprägung des Wahrscheinlichkeitsverhaltens des Würfels. Im vorliegenden Abschnitt wollen wir eine Definition
von Wahrscheinlichkeit angeben, die vor diesem Hintergrund natürlich erscheint. Wir werden sehen, dass eine solche straightforward-Definition mit
kaum zu behebenden Schwierigkeiten grundsätzlicher Art behaftet ist; eine
sehr viel erfolgreichere frequentistische Konzeption von Wahrscheinlichkeit
wird dann im nächsten Abschnitt vorgestellt.
Vor dem beschriebenen Hintergrund liegt es nahe, die Wahrscheinlichkeit eines Ereignisses als Grenzwert von relativen Häufigkeiten zu definieren. Wir
führen eine solche Definition für die Wahrscheinlichkeitseigenschaften des
Würfels in Anlehnung an (Braithwaite 1953, S. 124f) aus: Möchte man Wahrscheinlichkeit als Grenzwert von relativen Häufigkeiten bei großer Versuchszahl definieren, genügt es nicht, eine endliche Menge von Versuchsausgängen
zu betrachten, etwa alle bisher erfolgten Würfe mit diesem Würfel. Man
benötigt vielmehr eine unendliche Menge von Versuchen, die man am ehesten als Menge aller potenziell möglichen Würfelwürfe interpretieren kann. Sei
diese Menge mit B bezeichnet. Seien B1 ⊂ B2 ⊂ B3 ⊂ ... endliche Teilmengen von B und h1 , h2 , h3 , ... die korrespondierenden relativen Häufigkeiten
für das Ereignis Würfel zeigt 1“. Dann definieren wir die Wahrscheinlich”
keit, eine Eins zu würfeln durch
P ( Würfel zeigt 1“) = lim hn .
”
n→∞
Ist diese Definition haltbar? Es lässt sich zumindest auf zwei Ebenen fundamentale Kritik daran üben, nämlich auf der ontologischen und der der praktischen Durchführbarkeit. Vom ontologischen Gesichtspunkt aus muss gefragt
werden, was für einen Seinsstatus mögliche Würfelwürfe haben, schärfer:
Gibt es so etwas wie mögliche Würfelwürfe überhaupt? Eine notwenige Bedingung dafür, dass man Dinge einer bestimmten Art annehmen darf, ist
laut (Quine 1989, S.130), dass man ein Identitätskriterium für Gegenstände
dieser Art angeben kann. Um im vorliegenden Fall berechtigterweise mit
möglichen Würfelwürfen arbeiten zu können, müsste man also in der Lage
sein, anzugeben, wann zwei mögliche Würfelwürfe ein und derselbe Würfelwurf sind und wann nicht. Dies scheint nicht möglich zu sein: Was zwei
mögliche Würfelwürfe unterscheidet, in denen die selbe Zahl gewürfelt wur5
de, ist völlig unklar.
Die vorgestellte Definition scheint jedoch auch von diesem grundsätzlichen
Problem abgesehen nicht geeignet zu sein. (Braithwaite 1953, S. 125) etwa
übt folgende Kritik: Angenommen, man teilt die Menge B auf andere Weise in Teilmengen B10 ⊂ B20 ⊂ B30 ⊂ ... ein. Dann ist es durchaus möglich,
einen anderen Grenzwert zu erhalten. Tatsächlich tritt dieses Problem bei
realen Würfelwürfen nicht auf: Dort ist uns ja die Reihenfolge der Versuchsausgänge durch den zeitlichen Ablauf gegeben. Doch in der Menge potenzi”
ell möglicher Würfelwürfe“ scheint es nicht möglich zu sein, eine solche Reihenfolge verbindlich festzulegen. Insbesondere kann man nicht fordern, dass
die Auswahl der Bn aus B zufällig sein soll, da es ja gerade erst darum geht,
die Begriffe Wahrscheinlichkeit“ und Zufall“ zu definieren (siehe dazu auch
”
”
Barnett 1982, S.79). Auf ein weiteres mathematisches Problem seiShier nur
hingewiesen: Ist nämlich B überabzählbar, so kann niemals B = n∈N Bn
gelten, was obige Definition in Frage stellt.
Hinzu kommt, dass es nicht möglich ist, aus einer endlichen Folge von Beobachtungen eine Aussage über den Grenzwert bei unendlich vielen Versuchen
zu treffen. Der so definierte Wahrscheinlichkeitsbegriff scheint also – anders
als oben gefordert – keine logische Konstruktion aus empirischen Beobachtungen zu sein. 2
1.3
Axiomatisierung nach Kolmogorow
Aufgrund der im vorigend Abschnitt dargestellten Schwierigkeiten muss eine
Definition von Wahrscheinlichkeit auf der Basis von relativen Häufigkeiten
also subtiler erfolgen, als durch die Sichtweise als Grenzwert bei großer Versuchszahl. Tatsächlich geht (Neyman 1977) in dem oben zitierten Beispiel
des Würfels nicht zur Grenzwertbildung über. Stattdessen verweist er auf
die Axiomatisierung der Wahrscheinlichkeitstheorie durch Kolmogorow. Die
Wahrscheinlichkeitstheorie ist hier eine rein mathematische Theorie. Die Bedeutung des Begriffs Wahrscheinlichkeit“ ist vollständig durch die Axiome
”
festgelegt. Insbesondere ist es nicht relevant, dass die Axiome Kolmogorows durch entsprechende Aussagen über relative Häufigkeiten motiviert sein
mögen.
Während die Wahrscheinlichkeitstheorie durch die Axiomatisierung erheblich an Klarheit gewinnt, ist nicht klar, warum sie auf empirische Phänomene
anwendbar sein soll. (Neyman 1955, S. 16) nimmt hier zunächst einen Teil
der Begründungslast von der Statistik, indem er herausstellt, dass diese Frage im Fall der Statistik nicht problematischer ist, als im Falle anderer mathematisch formulierter Theorien: In bestimmten geometrischen Problemen entscheiden sich die Wissenschaftler, das Problem mit Mitteln der euklidischen
2
siehe (Braithwaite 1953, S. 125)
6
Geometrie zu lösen und in bestimmten statistischen Problemen entscheiden
sie sich für eine Lösung auf Grundlage der Wahrscheinlichkeitstheorie. Dennoch sollte natürlich gerechtfertigt werden, warum und in welchen Fällen
die Wahrscheinlichkeitstheorie anwendbar ist. (Barnett 1977, S. 70) gibt folgende Erklärung: Man war von der Beobachtung ausgegangen, dass sich die
relativen Häufigkeiten bei der Wiederholung bestimmter Phänomene stabilisieren. Dem entspricht aber (in mathematischer Formulierung) die Aussage
des schwachen Gesetzes der großen Zahlen, welches in der Wahrscheinlichkeitstheorie beweisbar ist. Dies kann als Indiz gewertet werden, dass die
Wahrscheinlichkeitstheorie eben jene Klasse von Phänomenen adäquat beschreibt, bei denen sich die relativen Häufigkeiten bei großer Versuchszahl
stabilisieren.
Wir können damit die erste der in der Einleitung gestellten Fragen als beantwortet ansehen: Die Wahrscheinlichkeitstheorie ist deshalb auf die Realität anwendbar, weil sie Aussagen über relative Häufigkeiten macht, die wir
tatsächlich beobachten. Sie ist weiter genau auf solche Situationen anwendbar, bei denen eine Stabilisierung der relativen Häufigkeiten feststellbar ist,
die also zumindest beliebige Wiederholbarkeit unter gleichen Bedingungen
erlauben. Durch den frequentistischen Wahrscheinlichkeitsbegriff wird die
Verwendung des Begriffs Wahrscheinlichkeit“ also für manche Phänomene
”
ausgeschlossen: Die Frage, wie wahrscheinlich es ist, dass der FC Bayern
doch noch deutscher Meister wird, macht von diesem Standpunkt aus keinen Sinn (außer man geht davon aus, dass die Meisterschaft durch eine Folge
vieler einzelner Zufallsereignisse entschieden wird). Man kann nun entweder
argumentieren, dass derartige Situationen für eine wissenschaftliche statistische Untersuchung ohnehin nicht in Frage kommen; oder man vertritt die
moderatere Auffassung, dass die frequentistische Sicht von Wahrscheinlichkeit zwar einen Teil des Anwendungsbereichs der Statistik gut erklärt, dass
der subjektivistische Ansatz aber in anderen Situationen durchaus Vorzüge
hat.3
Die Kritik an der Grenzwert-Definition des vorigen Abschnitts triff die hier
vorgebrachte frequentistische Sichtweise nicht: Die Grenze zwischen mathematischer Theorie, in der unendliche Folgen von Zufallsexperimenten betrachtet werden können, und der Realität, in der immer nur endlich viele
Wiederholungen vorkommen können, wird klar eingehalten. Dadurch kommt
es nicht zu den oben beschriebenen logischen Problemen; die Verbindung
von mathematischer Theorie und empirischer Anwendung ist etwas loser als
im vorigen Abschnitt, aber immer noch plausibel. Dennoch gibt es Kritikpunkte, die auch gegen diesen verbesserten frequentistischen Ansatz vorgebracht werden können: So benötigt dieser etwa die Voraussetzung, dass es
tatsächlich Situationen gibt, in denen wir ein Experiment unter im wesent-
3
Barnett 1977, S. 78
7
lichen gleichen Bedingungen wiederholen können. Weiter ist es nur dann
aufschlussreich, die relativen Häufigkeiten zu betrachten, wenn die einzelnen Versuche unabhängige Zufallsexperimente sind – eine Voraussetzung,
die empirisch kaum zu belegen ist.4
2
2.1
Überprüfung statistischer Modelle
Deterministische und statistische Hypothesen
Angenommen wird nun, dass die Wahrscheinlichkeitstheorie grundsätzlich
auf empirische Phänomene anwendbar ist. Konkret entwickeln wir für einen
Zusammenhang, den wir untersuchen wollen, ein statistisches Modell, das
diesen beschreiben soll. Es stellt sich also nun die zweite der einleitenden
Fragen: Wie wird ein solches Modell gebildet und wie kann es bestätigt oder
verworfen werden? Wie in 1.1 beschrieben, trägt ein solches Verfahren der
Verifikation oder Falsifikation von Wahrscheinlichkeitsaussagen auch noch
einmal zur Klärung der Bedeutung von Wahrscheinlichkeit“ bei.
”
Gemäß (Neyman 1977, S. 101) funktioniert die Überprüfung eines statistischen Modelles so wie die einer jeden anderen (natur-)wissenschaftlichen
Theorie auch: Man leitet aus dem Modell Folgerungen ab, die empirisch
überprüfbar und nicht schon in die Bildung des Modelles eingegangen sind.
Stimmen diese Vorhersagen des Modells mit unseren tatsächlichen Beobachtungen überein, gilt das Modell als bestätigt, anderenfalls als verworfen. Insbesondere ist es laut (Neyman 1977, ebd.) nicht ungewöhnlich, dass
naturwissenschaftliche Theorien statistische Hypothesen enthalten: Als Beispiel führt er die Mendelschen Regeln der Vererbungslehre an.
Dennoch gibt es einen großen Unterschied zwischen der Überprüfung deterministischer und statistischer Hypothesen: Eine Aussage der Form Alle
”
Objekte der Menge A sind auch in der Menge B enthalten“ kann durch ein
einziges Gegenbeispiel definitiv verworfen werden. Eine Wahrscheinlichkeitsaussage wie Ein zufällig ausgewähltes Objekt aus A ist mit der Wahrschein”
lichkeit p auch in B enthalten“ kann für 0 < p < 1 durch keine Menge von
Beobachtungen definitiv zurückgewiesen oder bestätigt werden. Dies lässt
sich auch wie folgt ausdrücken: Deterministische Hypothesen werden durch
ihre logischen Folgerungen überprüft. Aus der Hypothese Alle Objekte der
”
Menge A sind auch in der Menge B enthalten“ und der empirischen Beobachtung Das vorliegende Objekt stammt aus der Menge A“ folgt logisch
”
die Aussage Das vorliegende Objekt ist in der Menge B enthalten“. Die”
se letzte Aussage ist es, die direkt empirisch überprüft werden kann. Aus
einer nicht-deterministischen Hypothese lässt sich keine solche logische Folgerung ziehen, anhand der die Hypothese überprüft werden könnte. Dieser
4
Barnett 1977, S. 70,78
8
Sachverhalt kennzeichnet das Wesen statistischer Hypothesen.5
2.2
Falsifikation von Wahrscheinlichkeitsaussagen
(Braithwaite 1953, S. 153ff) möchte die Bedeutung des Begriffs Wahrschein”
lichkeit“ erklären, indem er ein Testverfahren angibt, mit dem Wahrscheinlichkeitsaussagen zurückgewiesen werden können. Es handelt sich hier also
nicht um die Situation, wo innerhalb eines statistischen Modells eine bestimmte Hypothese zu testen ist; diese Fragestellung wird im folgenden Teil
der Arbeit behandelt werden. Vielmehr gehen wir hier noch einmal einen
Schritt zurück und fragen, wie der Begriff Wahrscheinlichkeit“ überhaupt
”
verstanden werden kann; eine Möglichkeit für eine Erläuterung ist, wie bereits erwähnt, dass man Bedingungen angibt, die erfüllt sein müssen, damit
eine Wahrscheinlichkeitsaussage als wahr gilt.
Man betrachte etwa folgende Situation: Wir möchten für ein Ereignis A eine
Wahrscheinlichkeitsaussage testen, d.h. eine Hypothese
H (0) : P (A) = p
für ein festes p ∈ (0; 1). Hierzu scheint es sich anzubieten, einen der gängigen
Hypothesentests K (0) zum Signifikanzniveau α ∈ (0; 1) zu verwenden. Wir
verwerfen dann H (0) , wenn K (0) zu einer Ablehnung von H (0) führt. Dabei
tritt jedoch folgendes Problem auf: Wenn wir begünden sollen, warum K (0)
ein sinnvoller Test ist, werden wir vermutlich argumentieren, dass K (0) die
Nullhypothese, falls diese wahr ist, nur mit einer Wahrscheinlichkeit ≤ α
ablehnt. Diese Begründung ist aber selbst wieder eine Wahrscheinlichkeitsaussage. In der Praxis ist das kein Problem; wenn wir aber durch die Angabe
eines Ablehnungsverfahrens erst erklären wollen, was Wahrscheinlichkeit“
”
bedeutet, wird unsere Erläuterung an dieser Stelle zirkulär. Für das frequentistische Verständnis von Wahrscheinlichkeit ist dieser Punkt auch über
Braithwaites Anliehen hinaus von Interesse: Denn wie (Braithwaite 1953,
S. 155) herausstellt, folgen aus Wahrscheinlichkeitsaussagen immer nur andere Wahrscheinlichkeitsaussagen, aber niemals Aussagen, die sich direkt
empirisch überprüfen ließen. Beispielsweise kann man aus der Wahrscheinlichkeit, mit einem bestimmten Würfel eine Eins zu Würfeln, ableiten, wie
wahrscheinlich es ist, bei n Würfen mindestens k Einser zu Würfeln; eine
Aussage über die relative Häufigkeit bei n konkreten Würfelwürfen ist dies
jedoch nicht. Überspitzt ausgedrückt scheint es überhaupt keine Verbindung
zwischen Aussagen der Theorie und konkreten beobachtbaren Vorgängen zu
geben, was den frequentistischen Ansatz völlig zunichte machen würde.
Im Folgenden soll eine Lösung dieses Problems dargestellt werden:6 Wir
5
6
Braithwaite 1953, S. 152
Die Darstellung leht sich an (Braithwaite 1953, S.153ff) an. Siehe dort für eine wesentlich detailliertere Konstuktion der verschiedenen Hypothesen und Tests.
9
betrachten weiter obige Hypothese H (0) und den dazugehörigen Test K (0) ,
den wir mit n0 Beobachtungen durchführen, versuchen aber eine andere Begründung zu geben, warum dieses Testverfahren sinnvoll ist. Betrachte dazu
die Hypothese
H (1) : P ( K (0) führt, durchgeführt mit n0 Beobachtungen,
”
zur Ablehnung von H (0)“) ≤ α.
Man beachte, dass H (1) aus H (0) folgt, weil α gerade als Signifikanzniveau
von K (0) gewählt war. Sei nun K (1) wiederum ein Test für H (1) zum Signifikanzniveau α. Wir können K (1) etwa anwenden, indem wir n1 mal den Test
K (0) mit jeweils n0 Beobachtungen durchführen. Definiere für k ≥ 2 nun
weiter induktiv
H (k) : P ( K (k−1) führt, durchgeführt mit nk−1 Beobachtungen,
”
zur Ablehnung von H (k−1)“) ≤ α.
Dabei sei jeweils K (k) wie oben beschrieben ein Test von H (k) zum Signifikanzniveau α.
Was ist der Sinn dieser Konstruktion? Wie oben folgt jeweils H (k) aus
H (k−1) , das heißt man hat eine unendliche Kette
H (0) ⇒ H (1) ⇒ H (2) ⇒ ...
von Folgerungen aus H (0) mit zugehörigen Tests K (k) , k ∈ N. Insbesondere
folgt aus der Falschheit von H (k) für beliebiges k ∈ N also die Falschheit
von H (0) . Weiter werden die Test K (k) laut (Braithwaite 1953, S. 158f) mit
wachsendem k in folgendem Sinn stärker: Angenommen, K (k) hat zur Ablehnung von H (k) und damit auch H (0) geführt, aber K (k+1) führt nicht zur
Ablehnung von H (k+1) . Dann muss H (k+1) also als wahr angesehen werden
und dies bedeutet, dass es untypisch ist, dass K (k) zur Ablehnung von H (k)
geführt hat.7 Also wird die Ablehnung von H (k) durch K (k) durch das Ergebnis von K (k+1) in Frage gestellt. Dies führt in Anlehnung an (Braithwaite
1953, S. 158-160) zu folgenden Definitionen:
1. Die Hypothese H (0) gilt als vorläufig zurückgewiesen, wenn es ein k ∈ N
gibt, sodass der Test K (k) durchgeführt wurde und zur Zurückweisung
von H (k) geführt hat, und wenn bisher kein Test K (j) für j ≥ k durchgeführt wurde, der nicht zur Zurückweisung von H (j) geführt hat.
7
Es lässt sich allerdings einwenden, dass untypisch“ ebenfalls eine Aussage über
”
Wahrscheinlichkeiten ist und Braithwaites Testvefahren eben der Zirkularität zum
Opfer fällt, die er vermeiden wollte. Darauf geht (Braithwaite 1953) nicht ein.
10
2. Die Hypothese H (0) gilt durch eine (unendliche) Reihe von Tests K (0) ,
K (1) , K (2) , ... als endgültig zurückgewiesen, wenn es ein N ∈ N gibt,
sodass für alle k ≥ N der Test K (k) zur Zurückweisung von H (k) führt.
Es ist also in der Praxis nicht möglich, eine Wahrscheinlichkeitsaussage (die
eine Wahrscheinlichkeit p ∈ (0; 1) behauptet) definitiv zurückzuweisen. Dies
entspricht der Beobachtung im vorigen Abschnitt.
Es bleibt, zu begründen, warum dieses Testverfahren sinnvoll ist. Zunächst
kann man feststellen, dass das beschriebene Verfahren unserem tatsächlichen
Umgang mit statistischen Hypothesen in etwa entspricht: Wir weisen eine Hypothese zurück, wenn uns Beobachtungen dazu veranlassen, behalten
uns dabei aber vor, die Hypothese zu rehabilitieren, wenn andere (aussagekräftigere) Beobachtungen dies nahelegen. Insbesondere wird das Testverfahren nicht dadurch gerechtfertigt, dass eine fälschliche Ablehnung der Nullhypothese unwahrscheinlich ist (dies wäre, wie oben beschrieben, zirkulär),
sondern dadurch, dass eine Fehlentscheidung durch einen späteren Test wieder korrigiert werden kann. Ein weiteres Argument folgt laut (Braithwaite
1953, S.164) aus der Betrachtung der Extremfälle p = 0 und p = 1: Hier
entspräche der Test K (0) gerade den üblichen Falsifikationsmethoden, indem
er H (0) zurückweist, falls ein Gegenbeispiel gefunden wurde.
Auf eine weitere Anforderung weist (Braithwaite 1953, S. 161f) hin: Es muss
logisch möglich sein, dass eine Zurückweisung durch einen Test K (k) erfolgt,
die durch keinen späteren Test aufgehoben wird. Ansonsten wüssten wir
nämlich, dass wir jede Hypothese, die wir zurückgewiesen haben, später wieder rehabilitieren müssen. Für jede endliche Zahl von durchgeführten Tests
ist es natürlich möglich, dass alle diese Test die Hypothese zurückweisen, was
stärker ist als das, was gefordert war. Man kann sich fragen, ob man nicht
darüber hinaus fordern sollte, dass es für eine falsche Hypothese H (0) zumindest möglich sein soll, dass sie endgültig zurückgewiesen wird; genauer:
Für jede (einfache) Alternativhypothese H1 soll gelten:
P ( Es gibt ein m ∈ N, sodass H (0) durch K (j) für alle j ≥ m
”
zurückgewiesen wird“ | H1 ) > 0,
wobei hier die Folge der Testergebnisse K (0) , K (1) , ... als Zufallsereignisse
verstanden werden. (Braithwaite 1953) geht auf diese Frage nicht ein.
3
Konkrete Schätz- und Testprobleme
Im Unterschied zum vorigen Kapitel gehen wir hier davon aus, dass ein
adäquates Modell gegeben ist, das eine bestimmte Situation beschreibt. Allerdings sind in dem Modell ggf. einzelne Parameter unspezifiziert, sodass
sich konkrete Schätz- und Testprobleme stellen. Das Problem ist also weniger grundsätzlich als im vorigen Abschnitt: Dort sollte ein Modell für einen
11
Sachverhalt erst von Grund auf etabliert werden; hier können wir Eigenschaften des bereits anerkannten Modells nutzen, um Verfahren mit bestimmten
Optimalitätseigenschaften herzuleiten.
Dieser Unterschied führt dazu, dass die Frage nach geeigneten Test- und
Schätzverfahren als philosophisch recht unproblematisch angesehen werden
kann. (Neyman 1977, S.99f) beschreibt den Vorgang so: Der Anwender muss
festlegen, welche Anforderungen an ein statistisches Verfahren er hat; bei
einem Hypothesentest kann dies etwa das Signifikanzniveau sein, oder die
Richtung, in die eine Abweichung möglichst auszuschließen ist. Die Festlegung dieser Anforderungen ist eine außermathematische Frage, mit der sich
die Theorie der Statistik nicht zu beschäftigen hat. Ein statistisches Verfahren zu finden, das die gewünschten Eigenschaften besitzt, ist dann ein rein
mathematisches Problem, dessen Lösung sehr schwierig oder gar unmöglich
sein kann; es stellt sich aber jedenfalls nicht die Frage nach der Interpretation und den konzeptionellen Grundlagen des Vorgehens.
Mit (Neyman 1955, S.17) sei darauf hingewiesen, dass die beschriebenen
Optimalitätseigenschaften nur in Bezug auf ein Modell und nicht bezüglich
der empirischen Realität zu verstehen sind. Die Verbindung zu dieser wird
dadurch gewährleistet, dass man das verwendete Modell als adäquat ansieht.
3.1
Hypothesentests nach Neyman und Pearson
Wir wollen im Folgenden kurz das klassische Verfahren des Hypothesentests
darstellen, wie es wesentlich von Neyman und Pearson entwickelt wurde.8
Insbesondere versuchen wir zu verstehen, wieso (Pearson 1955, S.204) die
Entwicklung von Konzepten wie Ablehnungsbereichen, Alternativhypothesen, den zwei Fehlerarten und der Macht eines Tests als notwendige Folgen
aus dem statistischen Wahrscheinlichkeitsbegriff und aus gegebenen Anwendungsbedürfnissen sieht. Die hier gegebene Darstellung mag straightforward und elementar erscheinen: Alle diskutierten Verfahren sind aus den
Einführungsvorlesungen in die Statistik bekannt. Dennoch mussten die eben
erwähnten grundlegenden Konzepte von Neyman und Pearson um 1930 erst
nach und nach entwickelt werden.9 Man führe sich auch vor Augen, wie stark
diese einem objektivistischen Wahrscheinlichkeitsbegriff verhaftet sind: Das
Konzept einer Alternativhypothese ist vom objektivistischen Standpunkt
aus verständlich – schließlich muss der fragliche Parameter in der Realität irgendeinen Wert annehmen, somit entweder die Nullhypothese oder
eine der Alternativen zutreffen. Ein Subjektivist hat mit dieser Sichtweise
möglicherweise Schwierigkeiten.
Wir setzten also voraus, dass wir ein Modell gegeben haben: Es sei etwa
8
9
Diese Zuschreibung macht etwa (Barnett 1982, S. 129).
Dies beschreibt etwa (Pearson 1955, S.204, 207).
12
X eine Zufallsvariable, deren Verteilung bis auf die Wahl eines Parameters
festgelegt ist, also beispielsweise X ∼ N (µ, 1). Wir wollen eine Hypothese
über den unbekannten Parameter µ testen, etwa
H0 : µ = 0.
Dazu betrachten wir n Realisationen X1 = x1 , ..., Xn = xn der Zufallsvariablen X. Im Sinne des frequentistischen Ansatzes möchten wir keine
a priori-Informationen berücksichtigen, sofern dies die konkrete Situation
nicht ausdrücklich nahelegt; wir nehmen an, dass dies nicht der Fall ist.
Dann hat unser Test also nur die beobachteten Daten und die Eigenschaften des Modells, die bereits gegeben sind, zur Grundlage. Wir legen uns
zunächst darauf fest, X als Schätzer für µ zu verwenden. Es scheint sinnvoll
zu sein, H0 dann zurückzuweisen, wenn man einen Wert x für X beobachtet,
der unter
H0 sehr unwahrscheinlich ist. Wir weisen also H0 zurück, wenn
P (X ≥ |x| H0 ) – diese Größe wird üblicherweise als p-Wert bezeichnet –
klein ist. Es sei darauf verwiesen, dass bis zu diesem Punkt weder ein Ablehnungsbereich noch eine Menge von Alternativhypothesen festgelegt werden
mussten.
Dies ändert sich, wenn man weitere Anforderungen an den Test stellt. So ist
es etwa nach (Neyman 1977, S. 103) sinnvoll, die Regel für die Ablehnung
der Nullhypothese vor der Durchführung des Tests festzulegen. Hierzu muss
man spezifizieren, was genau es bedeutet, dass der p-Wert
”klein“
ist. Man
wählt also ein α, sodass
wird, wenn P ( X ≥ |x| H0 ) ≤ α.
H0 abgelehnt
Nun wird offenbar P ( X ≥ |x| H0 ) desto kleiner,
je größer |x| wird. Wir
können also ein c ∈ (0, ∞) finden, sodass P (X ≥ c H0 ) = α. Dann ist das
eben formulierte Ablehnungsverfahren äquivalent zu der Vorgabe, H0 abzulehnen, falls x ∈ (−∞, −c] ∪ [c, ∞). Wir haben also einen Ablehnungsbereich
eingeführt. Man sieht sofort, dass das Risiko, die Nullhypothese abzulehnen,
obwohl sie wahr ist, gleich α ist. Der so definierte Test ist somit ein Signifikanztest zum Signifikanzniveau α. Diese Aussage lässt sich frequentistisch so
verstehen, dass die relative Häufigkeit, einen Fehler erster Art zu begehen,
etwa α betragen wird, wenn man den Test oft durchführt. Warum das Signifikanzlevel auch dann frequentistisch bedeutsam ist, wenn ein und der selbe
Test nur einmal durchgeführt wird, ist Thema des nächsten Abschnitts.
Sind wir bis zu diesem Punkt noch ohne die Angabe einer Alternativhypothese ausgekommen, so ändert sich dies, wenn wir die Macht des Tests
angeben wollen. Hier fragen wir uns, wie groß die Wahrscheinlichkeits ist,
die Nullhypothese zu verwerfen, wenn sie falsch ist. Diese Frage ist entscheidend, wenn wir die verschiedenen möglichen Tests zum Signifikanzniveau α
untereinander vergleichen wollen. Um sie zu beantworten, müssen wir im
Rahmen unseres Modells präzisieren, was der Fall sein soll, wenn H0 falsch
ist. Diese Präzisierung bedeutet gerade die Einführung einer Alternativhy-
13
pothese, gegen die H0 getestet wird.10 Im vorliegenden Fall kann man etwa
H1 : µ 6= 0 setzen und erhält so einen zweiseitigen Hypothesentest für H0 .
Die power -Funktion dieses Tests gibt dann für jede einfache Hypothese H1,τ
aus H1 an, wie groß die Wahrscheinlichkeits ist, dass H0 abgelehnt wird,
falls H1,τ wahr ist. Im vorliegenden Fall bietet sich H1,τ : µ = τ an, wobei
τ 6= 0 sein soll. Unter zwei Tests zum gleichen Signifikanzniveau sieht man
den als besser an, der – im Idealfall global – die größere Macht besitzt.
3.2
Langzeitverhalten von Konfidenzintervallen und Hypothesentests
Nach (Neyman 1955, S.19) sind statistische Verfahren immer unzweideutig
durch das Langzeitverhalten der auftretenden relativen Häufigkeiten interpretierbar. So ist etwa ein 95% -Konfidenzintervall so konstruiert, dass die
geschätzen Grenzen den festen wahren Parameter in etwa 95% der Fälle
überdecken. Der Test einer Hypothese H0 zum Signifikanzniveau α ist, wie
eben gesehen, so konstruiert, dass die relative Häufigkeit für einen Fehler
erster Art ungefähr α betragen wird, wenn man den Test oft durchführt.
Hier ergibt sich jedoch ein Einwand, den (Neyman 1977, S. 108) ausräumen
möchte: Die Interpretation des Signifikanzniveaus eines Tests durch relative
Häufigkeit sei nur dann möglich, wenn man dieselbe Nullhypothese oft mit
dem selben Testverfahren teste. Im Allgemeinen ist dies nicht der Fall: Steht
eine wissenschaftliche Hypothese zur Diskussion, wird diese möglicherweise
nur durch einen Test überprüft. Danach wird auf dieser Grundlage weiter geforscht. Man kann einwenden, dass eine Interpretation über relative
Häufigkeiten in diesem Fall nicht sinnvoll ist.
In Anlehnung an (Neyman 1977, S.108f) lässt sich dem folgende Überlegung
entgegensetzen: Man betrachte eine lange Folge verschiedenster Situationen,
in denen jeweils eine Hypothese H (i) zum Signifikanzniveau αi getestet wird;
man kann sich unter diesen Situationen etwa die gesamte Tätigkeit eines Forschers vorstellen. Die relative Häufigkeit von Fehlern erster Art wird dann
ungefähr gleich dem arithmetischen Mittel der αi sein. Sind die verschiedenen Tests paarweise unabhängig, so folgt dies etwa aus dem schwachen
Gesetz der großen Zahlen: Man betrachte nur diejenigen Tests der Folge,
bei denen die getestestete Hypothese H (i) wahr ist. Es sei Xi eine Zufallsvariable mit
1, falls H (i) abgelehnt wird
Xi =
.
0, sonst
Dann ist also Xi verteilt nach Ber(αi ). Die relative Häufigkeit von Fehlern
erster Art in den ersten n Tests wahrer Hypothesen ist gerade Sn /n, wobei
10
Man beachte, dass es nach (Barnett 1982, S. 159) an dieser Stelle tatsächlich notwendig ist, eine Alternativhypothese zu formulieren.
14
wie üblich Sn = X1 +...+Xn gelten soll. Sei noch α das arithmetische Mittel
der αi . Für > 0 beliebig gilt dann nach schwachem Gesetz der großen
Zahlen (für unabhängige Zufallsvariablen mit beschränkten Varianzen)
lim P (|Sn /n − α| > ) = 0.
n→∞
In Bezug auf eingangs vorgebrachten Einwand bedeutet dies, dass eine Interpretation durch relative Häufigkeiten sehr wohl auch dann sinnvoll ist, wenn
wir jede einzelne Hypothese nur einmal testen. Auch dann wird nämlich die
relative Häufigkeit der Fehler erster Art, die wir insgesamt machen, nahe
dem arithmetischen Mittel der verwendeten Signifikanzniveaus liegen.
3.3
Theoretische Aussagen oder Handlungsregeln?
Während die Interpretation von Wahrscheinlichkeitsaussagen durch relative
Häufigkeiten unzweideutig möglich ist, ist damit noch nicht gesagt, welche
Funktion statistische Verfahren beim Umgang mit Daten haben sollen. Laut
(Neyman 1957, S.15f) sind hier mindestens zwei Antworten denkbar: Nach
der unter dem Schlagwort inductive reasoning bekannten Auffassung, die etwa von Ronald Fisher vertreten wurde,11 soll der Anwender aufgrund gegebener Daten zu einer theoretischen Einsicht kommen, also als Ergebnis eines
Tests von einer bestimmten Hypothese zu einem bestimmten Grad überzeugt
sein. Ziel der Vertreter dieser Auffassung ist es laut Neyman (ebd.), eine universelle Formel zu finden, die vorschreibt, welche Überzeugung ein rationales
Individuum durch die Betrachtung gegebener Daten bekommen sollte.
(Neyman 1957) stellt dem eine andere Sicht entgegen: Unter dem Begriff
inductive behavior macht er die These stark, dass statistische Verfahren
nicht direkt eine theoretische Einsicht vermitteln, sondern zu einer Handlungsentscheidung führen sollten – und sei es die Entscheidung, bestimmte
wissenschaftliche Hypothesen zu akzeptieren und auf ihrer Grundlage weiter
zu forschen.
Diese Sichtweise hat verschiedene Vorteile: Zum einen ist sie nach Neyman
der Funktionsweise der Forschung angemessener als die Vorstellung des in”
ductive reasoning“. (Neyman 1957, S.10f) beschreibt den Umgang von Forschern mit Daten wie folgt: Zunächst werden in einem kreativen Prozess verschiedene Hypothesen aufgestellt. Aus diesen Hypothesen lassen sich dann
Folgerungen ableiten, die mit empirisch gegebenen Daten abgeglichen werden können. Schließlich kommt es zu einer Entscheidung, welche Hypothese
weiterverfolgt und als Grundlage der weiteren Forschungstätigkeit angenommen werden soll. In diesem letzten Schritt spielen neben der Überzeugungskraft einer Hypothese aufgrund des Testergebnisses auch die Folgen einer
Fehlentscheidung in die eine oder andere Richtung eine Rolle. Im Rahmen
11
Siehe zu dieser Einschätzung (Neyman 1957, S. 11); vgl. auch (Pearson 1955, S.206).
15
der Entwicklung einer wissenschaftlichen Theorie könnte etwa bedeutend
sein, welche Hypothese besonders leicht weiter zu untersuchen ist.
Ein großer Vorteil der Handlungsorientierung ist, dass diese Sicht recht undogmatisch und mit vielen Schätz- und Testverfahren vereinbar ist. Für
jemanden, der den Erkenntnisaspekt in den Vordergrund stellt, mag es beispielsweise schwer sein, das Verfahren des Minimax-Tests zu akzeptieren,
bei dem verschiedene Fehlentscheidungen mit Kosten gewichtet werden. Erwartet man hingegen von einem Testverfahren eine Handlungsempfehlung,
kann ein Minimax-Test in manchen Fällen das natürliche Vorgehen sein.
Besonders relevant wird dies in Situationen, in denen andere optimale Tests
nicht existieren.12
Ist die Sichtweise des inductive behavior eine frequentistische Sichtweise?
Man kann offenbar Frequentist sein und trotzdem die Handlungsorientierung ablehnen. Dennoch gibt es mindestens einen Grund, als Frequentist
auch eine handlungsorientierte Sichtweise einzunehmen: Angenommen, ein
Forscher testet seine Hypothesen stets zum Signifikanzniveau 5% . Wie im
vorigen Abschnitt darsgestellt, wird er also mit einer relativen Häufigkeit
von ungefähr 5% Fehler erster Art begehen. Aber wieso ist dies für ihn erstrebenswert? Wiegen 95 wahre Erkenntnisse die 5 falschen auf? Einfacher
wird die Rechtfertigung für das Vorgehen des Forschers, wenn man die Sichtweise von Handeln und Folgen einnimmt: Ziemlich sicher wird der Forscher
auf diesem Weg erfolgreich forschen können, seine weiteren Experimente effizient planen und die zur Verfügung stehenden Mittel zielführend einsetzen
können.
Fazit
In den vorangegangenen Abschnitten wurde versucht, einen Überblick über
den frequentistischen Wahrscheinlichkeitsbegriff zu geben. Grundlage für jede frequentistische Definition von Wahrscheinlichkeit sind relative Häufigkeiten, die als empirisch beobachtbare Äußerung der tatsächlichen Wahrscheinlichkeitseigenschaften eines Objekts angesehen werden.
Wie wir gesehen haben, ist eine straightforward-Definition von Wahrscheinlichkeit aus relativen Häufigkeiten mit kaum zu behebenden Schwierigkeiten
grundsätzlicher Natur konfrontiert. Erfolgreich scheint hingegen der Ansatz
über eine Axiomatisierung der Wahrscheinlichkeitstheorie, wie etwa durch
die Axiome von Kolmogorow, zu sein. Die Anwendbarkeit einer solchen
Theorie lässt sich dann durch beobachtbare Eigenschaften von relativen
Häufigkeiten stützen.
Ein konkretes statistisches Modell wird überprüft wie andere wissenschaft-
12
vgl. (Neyman 1977, S. 105)
16
liche Theorien auch. Jedoch besteht der Unterschied, dass sich statistische
Hypothesen im Allgemeinen nicht definitiv zurückweisen oder bestätigen
lassen. Dennoch können statistische Modelle durch ihren Erfolg in der Anwendung sehr gut gerechtfertigt werden.13
Innerhalb eines gegebenen Modells lassen sich dann Tests und Schätzer mit
bestimmten Optimalitätseigenschaften konstruieren. Diese sind durch relative Häufigkeiten interpretierbar.
Der frequentistische Ansatz ist eine gute Basis für statistische Methoden in
den Wissenschaften, da er deren Anforderungen an Objektivität entspricht.
Viele klassische Verfahren wurden vor frequentistischem Hintergrund entwickelt. Allerdings ist der Anwendungsbereich frequentistischer Statistik auf
solche Situationen beschränkt, die sich beliebig wiederholen lassen. Ferner
gibt es grundsätzliche Kritik am frequentistischen Wahrscheinlichkeitsbegriff; es wird etwa argumentiert, dass es keine feste Beziehung zwischen
Wahrscheinlichkeit und relativer Häufigkeit bei endlicher Versuchszahl gebe.
13
Zum enormen Erfolg statistischer Modelle in den Naturwissenschaften siehe etwa
(Neyman 1955, S.17).
17
Literaturverzeichnis
[1] Barnett, Vic: Comparative Statistical Inference. 2. Auflage. Wiley,
Chichester, 1982.
[2] Braithwaite, Richard: Scientific Explanation. A Study of the Function of Theory, Probability and Law in Science.. Cambridge University
Press, Cambridge, 1953.
[3] Neyman, Jerzy: The Problem of Inductive Inference. In: Communications on Pure and Applied Mathematics Vol. VIII (1955). S.13-46.
[4] Neyman, Jerzy: Inductive Behavior“ as a Basic Concept of Philoso”
phie of Science. In: Revue Inst. Int. de Stat. 25: 1/3 (1957). S.7-22.
[5] Neyman, Jerzy: Frequentist Probability and Frequentist Statistics. In:
Synthese 36 (1977). S.97-131.
[6] Pearson, E.S.: Statistical Concepts in their Relation to Reality. In:
Journal of the Royal Statistical Society. Series B (Methodological) Vol.
17, No. 2 (1955). S.204-207.
[7] Pearson, E.S.: Some Thoughts on Statistical Inference. In: Ann. Math.
Statist. Vol. 33, No. 2 (1962). S.394-403.
[8] Quine, Willard Van Orman: Theorien und Dinge. Suhrkamp Verlag,
Frankfurt am Main, 1989.
[9] Russell, Bertrand: Our Knowledge of the External World. Routledge,
London, 2002.
18
Herunterladen