Seminararbeit - Marco EGV Cattaneo

Ludwig-Maximilians-Universität München
Institut für Statistik
Wintersemester 2010/11
Seminar Philosophische Grundlagen der Statistik“
”
Dozenten: Prof. Dr. Thomas Augustin, Dr. Marco Cattaneo,
Andrea Wiencierz
Betreuer der Arbeit: Dr. Marco Cattaneo
Der frequentistische
Wahrscheinlichkeitsbegriff
Ausarbeitung zum Referat von
Anton Freund
gehalten am 17. Dezember 2010
Inhaltsverzeichnis
Einleitung
1 Inhalt und Gegenstand des frequentistischen
lichkeitsbegriffs
1.1 Wahrscheinlichkeit objektivistisch gesehen . . .
1.2 Eine straightforward-Definition . . . . . . . . .
1.3 Axiomatisierung nach Kolmogorow . . . . . . .
3
Wahrschein. . . . . . . .
. . . . . . . .
. . . . . . . .
3
3
5
6
2 Überprüfung statistischer Modelle
2.1 Deterministische und statistische Hypothesen . . . . . . . . .
2.2 Falsifikation von Wahrscheinlichkeitsaussagen . . . . . . . . .
8
8
9
3 Konkrete Schätz- und Testprobleme
11
3.1 Hypothesentests nach Neyman und Pearson . . . . . . . . . . 12
3.2 Langzeitverhalten von Konfidenzintervallen und Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3 Theoretische Aussagen oder Handlungsregeln? . . . . . . . . . 15
Fazit
16
Literaturverzeichnis
18
Einleitung
Ziel der vorliegenden Arbeit ist es, die frequentistische Konzeption von
Wahrscheinlichkeit vorzustellen. Der frequentistische Wahrscheinlichkeitsbegriff ist objektivistisch, insofern er Wahrscheinlichkeitsaussagen allein auf
Basis von empirischen Daten und mathematischer Axiomatisierung interpretiert. Grundlegend ist die Beobachtung, dass es Phänomene gibt, bei denen
sich die relative Häufigkeit eines bestimmten Ereignisses bei einer großen
Zahl von Wiederholungen stabilisiert.
Die vorliegende Arbeit orientiert sich am frequentistischen Wahrscheinlichkeitsbegriff bei Jerzey Neyman und E. S. Pearson, wie die beiden Autoren
ihn in (Neyman 1955), (Neyman 1957), (Neyman 1977), (Pearson 1955) und
(Pearson 1962) ausgearbeitet haben. Der allgemeinere Überblick in (Barnett
1982) ist einbezogen. Die Ausführungen zur Falsifikation von Wahrscheinlichkeitsaussagen und einer darauf basierenden Interpretation von Wahrscheinlichkeit orientieren sich an (Braithwaite 1953).
Nach einem kurzen Überblich über wissenschaftstheoretische Voraussetzungen wollen wir die frequentistische Konzeption von Wahrscheinlichkeit anhand von drei Fragen genauer darstellen:1
• Warum ist die Wahrscheinlichkeitstheorie (als mathematische Disziplin) überhaupt auf die Realität anwendbar und was ist ihr Gegenstandsbereich?
• Wie wird ein statistisches Modell gebildet und auf der Grundlage welcher Beobachtungen wird es bestätigt oder verworfen?
• Wie kann man innerhalb eines Modells konkrete statistische Verfahren entwickeln? Welche Anforderungen müssen diese erfüllen und wie
können sie gerechtfertigt werden?
1
1.1
Inhalt und Gegenstand des frequentistischen Wahrscheinlichkeitsbegriffs
Wahrscheinlichkeit objektivistisch gesehen
Jerzy Neyman zitiert zu Beginn von (Neyman 1955) Rudolf Carnap und
reiht seine Bemühung um einen objektivistischen Wahrscheinlichkeitsbegriff
damit in den logischen Empirismus ein, der für die Wissenschaftstheorie des
frühen 20. Jahrhunderts insgesamt prägend war. Begriffe, die in der Wissenschaft Verwendung finden, müssen demnach allein auf der Basis direkt
1
Diese Fragen scheinen den drei Schritten zu entsprechen, in denen nach (Neyman
1977, S. 99) die Anwendung statistischer Modelle auf die Realität erfolgt.
3
beobachtbarer Naturvorgänge definierbar sein. Exemplarisch gibt (Russell
2002, S. 96f) eine Definition einer Geraden in der uns umgebenden Welt
(nicht als Konzept innerhalb eines mathematischen Axiomensystems!): Gegeben sei ein Penny-Stück. Dann ist die Klasse aller Perspektiven, unter denen der Penny rund erscheint, eine Gerade. Die Ordnung der Punkte“ auf
”
dieser Geraden ist gegeben durch die Größe, in der der Penny von den verschiedenen Perspektiven aus erscheint. Betrachtet man den Penny nämlich
schräg von der Seite, sieht man ihn als Ellipse. Je weiter man von dem Penny entfernt ist, desto kleiner wirkt er. Entscheidend ist, dass es mit Hilfe
dieser Definition möglich ist, Wahrheitskriterien für wissenschaftliche Aussagen, die den Begriff Gerade“ enthalten, anzugeben. Die Aussage A, B
”
”
und C liegen auf einer Geraden“ ist wahr genau dann, wenn es möglich ist,
ein Penny-Stück so zu platzieren, dass es von allen drei Punkten aus rund
erscheint. Man hat also eine Aussage, die den Begriff Gerade“ enthält, in
”
eine Aussage überführt, die nur aus direkt beobachtbaren Tatsachen (der
Penny erscheint von hier aus rund) und logischen Konstruktionen (es gibt
einen Ort, von dem dies so ist) besteht.
Auch ein objektivistischer Begriff von Wahrscheinlichkeit hat den Anspruch,
klare empirische Kriterien anzugeben, wie der Begriff Wahrscheinlichkeit“
”
in der Wissenschaft verwendet werden kann und unter welchen beobachtbaren Umständen es gerechtfertigt ist, eine Aussage wie Die Wahrscheinlich”
keit von Ereignis A ist p“ zu behaupten. Folgt man der These, einen Satz zu
verstehen heiße zu wissen, unter welchen Umständen er wahr ist, so wird insbesondere die Bedeutung des Begriffs Wahrscheinlichkeit“ auch dadurch ge”
klärt, dass man Verfahren angibt, gemäß denen Wahrscheinlichkeitsaussagen
bestätigt oder abgelehnt werden können. Dieser Ansatz wird im Abschnitt
über die Falsifikation von Wahrscheinlichkeitsaussagen weiter verfolgt; im
Rahmen eines Überblicks über den frequentistischen Wahrscheinlichkeitsbegriff sind die dortigen Ausführungen als Exkurs zu verstehen.
Die Motivation, einen objektivistischen Wahrscheinlichkeitsbegriff zu entwickeln, kann ganz unterschiedlich sein. Auf der einen Seite steht hier die
Überzeugung, dass ein subjektivistischer Wahrscheinlichkeitsbegriff das Kriterium der Wissenschaftlichkeit verletzt. (Neyman 1955, S.14) scheint dieser
Ansicht zu sein. Zum anderen lassen sich sehr viel pragmatischere Gründe
angeben: (Pearson 1962, S. 395) schreibt, dass die Einbeziehung von a prioriInformationen Neyman und ihm zunächst durchaus wichtig erschienen wäre;
allerdings ließen sich diese kaum in sichere numerische Werte umsetzen und
wären deshalb für exakte mathematische Verfahren ungeeignet. Nichtsdestoweniger nennt auch Pearson (ebd.) Unzufriedenheit mit der logischen Basis
anderer Inferenzschulen als Motivation, eine neue Herangehensweise zu entwickeln.
4
1.2
Eine straightforward-Definition
Grundlage des frequentistischen Wahrscheinlichkeitsbegriffs ist, wie in der
Einleitung beschrieben, die Beobachtung, dass die relative Häufigkeit sich bei
einer großen Zahl von Wiederholungen stabil verhält. (Neyman 1977, S. 99)
gibt dazu ein Beispiel: Die relativen Häufigkeiten, mit denen ein Würfel eine
bestimmte Augenzahl anzeigt, bestimmen eine meßbare Eigenschaft dieses
Würfels, die als sein Wahrscheinlichkeitsverhalten bezeichnet werden kann.
Dieses gilt als meßbare Kenngröße des Würfels, so wie auch seine Größe und
sein Gewicht. Die relative Häufigkeit, die wir in einer konkreten Versuchsreihe beobachten, ist eine empirische Ausprägung des Wahrscheinlichkeitsverhaltens des Würfels. Im vorliegenden Abschnitt wollen wir eine Definition
von Wahrscheinlichkeit angeben, die vor diesem Hintergrund natürlich erscheint. Wir werden sehen, dass eine solche straightforward-Definition mit
kaum zu behebenden Schwierigkeiten grundsätzlicher Art behaftet ist; eine
sehr viel erfolgreichere frequentistische Konzeption von Wahrscheinlichkeit
wird dann im nächsten Abschnitt vorgestellt.
Vor dem beschriebenen Hintergrund liegt es nahe, die Wahrscheinlichkeit eines Ereignisses als Grenzwert von relativen Häufigkeiten zu definieren. Wir
führen eine solche Definition für die Wahrscheinlichkeitseigenschaften des
Würfels in Anlehnung an (Braithwaite 1953, S. 124f) aus: Möchte man Wahrscheinlichkeit als Grenzwert von relativen Häufigkeiten bei großer Versuchszahl definieren, genügt es nicht, eine endliche Menge von Versuchsausgängen
zu betrachten, etwa alle bisher erfolgten Würfe mit diesem Würfel. Man
benötigt vielmehr eine unendliche Menge von Versuchen, die man am ehesten als Menge aller potenziell möglichen Würfelwürfe interpretieren kann. Sei
diese Menge mit B bezeichnet. Seien B1 ⊂ B2 ⊂ B3 ⊂ ... endliche Teilmengen von B und h1 , h2 , h3 , ... die korrespondierenden relativen Häufigkeiten
für das Ereignis Würfel zeigt 1“. Dann definieren wir die Wahrscheinlich”
keit, eine Eins zu würfeln durch
P ( Würfel zeigt 1“) = lim hn .
”
n→∞
Ist diese Definition haltbar? Es lässt sich zumindest auf zwei Ebenen fundamentale Kritik daran üben, nämlich auf der ontologischen und der der praktischen Durchführbarkeit. Vom ontologischen Gesichtspunkt aus muss gefragt
werden, was für einen Seinsstatus mögliche Würfelwürfe haben, schärfer:
Gibt es so etwas wie mögliche Würfelwürfe überhaupt? Eine notwenige Bedingung dafür, dass man Dinge einer bestimmten Art annehmen darf, ist
laut (Quine 1989, S.130), dass man ein Identitätskriterium für Gegenstände
dieser Art angeben kann. Um im vorliegenden Fall berechtigterweise mit
möglichen Würfelwürfen arbeiten zu können, müsste man also in der Lage
sein, anzugeben, wann zwei mögliche Würfelwürfe ein und derselbe Würfelwurf sind und wann nicht. Dies scheint nicht möglich zu sein: Was zwei
mögliche Würfelwürfe unterscheidet, in denen die selbe Zahl gewürfelt wur5
de, ist völlig unklar.
Die vorgestellte Definition scheint jedoch auch von diesem grundsätzlichen
Problem abgesehen nicht geeignet zu sein. (Braithwaite 1953, S. 125) etwa
übt folgende Kritik: Angenommen, man teilt die Menge B auf andere Weise in Teilmengen B10 ⊂ B20 ⊂ B30 ⊂ ... ein. Dann ist es durchaus möglich,
einen anderen Grenzwert zu erhalten. Tatsächlich tritt dieses Problem bei
realen Würfelwürfen nicht auf: Dort ist uns ja die Reihenfolge der Versuchsausgänge durch den zeitlichen Ablauf gegeben. Doch in der Menge potenzi”
ell möglicher Würfelwürfe“ scheint es nicht möglich zu sein, eine solche Reihenfolge verbindlich festzulegen. Insbesondere kann man nicht fordern, dass
die Auswahl der Bn aus B zufällig sein soll, da es ja gerade erst darum geht,
die Begriffe Wahrscheinlichkeit“ und Zufall“ zu definieren (siehe dazu auch
”
”
Barnett 1982, S.79). Auf ein weiteres mathematisches Problem seiShier nur
hingewiesen: Ist nämlich B überabzählbar, so kann niemals B = n∈N Bn
gelten, was obige Definition in Frage stellt.
Hinzu kommt, dass es nicht möglich ist, aus einer endlichen Folge von Beobachtungen eine Aussage über den Grenzwert bei unendlich vielen Versuchen
zu treffen. Der so definierte Wahrscheinlichkeitsbegriff scheint also – anders
als oben gefordert – keine logische Konstruktion aus empirischen Beobachtungen zu sein. 2
1.3
Axiomatisierung nach Kolmogorow
Aufgrund der im vorigend Abschnitt dargestellten Schwierigkeiten muss eine
Definition von Wahrscheinlichkeit auf der Basis von relativen Häufigkeiten
also subtiler erfolgen, als durch die Sichtweise als Grenzwert bei großer Versuchszahl. Tatsächlich geht (Neyman 1977) in dem oben zitierten Beispiel
des Würfels nicht zur Grenzwertbildung über. Stattdessen verweist er auf
die Axiomatisierung der Wahrscheinlichkeitstheorie durch Kolmogorow. Die
Wahrscheinlichkeitstheorie ist hier eine rein mathematische Theorie. Die Bedeutung des Begriffs Wahrscheinlichkeit“ ist vollständig durch die Axiome
”
festgelegt. Insbesondere ist es nicht relevant, dass die Axiome Kolmogorows durch entsprechende Aussagen über relative Häufigkeiten motiviert sein
mögen.
Während die Wahrscheinlichkeitstheorie durch die Axiomatisierung erheblich an Klarheit gewinnt, ist nicht klar, warum sie auf empirische Phänomene
anwendbar sein soll. (Neyman 1955, S. 16) nimmt hier zunächst einen Teil
der Begründungslast von der Statistik, indem er herausstellt, dass diese Frage im Fall der Statistik nicht problematischer ist, als im Falle anderer mathematisch formulierter Theorien: In bestimmten geometrischen Problemen entscheiden sich die Wissenschaftler, das Problem mit Mitteln der euklidischen
2
siehe (Braithwaite 1953, S. 125)
6
Geometrie zu lösen und in bestimmten statistischen Problemen entscheiden
sie sich für eine Lösung auf Grundlage der Wahrscheinlichkeitstheorie. Dennoch sollte natürlich gerechtfertigt werden, warum und in welchen Fällen
die Wahrscheinlichkeitstheorie anwendbar ist. (Barnett 1977, S. 70) gibt folgende Erklärung: Man war von der Beobachtung ausgegangen, dass sich die
relativen Häufigkeiten bei der Wiederholung bestimmter Phänomene stabilisieren. Dem entspricht aber (in mathematischer Formulierung) die Aussage
des schwachen Gesetzes der großen Zahlen, welches in der Wahrscheinlichkeitstheorie beweisbar ist. Dies kann als Indiz gewertet werden, dass die
Wahrscheinlichkeitstheorie eben jene Klasse von Phänomenen adäquat beschreibt, bei denen sich die relativen Häufigkeiten bei großer Versuchszahl
stabilisieren.
Wir können damit die erste der in der Einleitung gestellten Fragen als beantwortet ansehen: Die Wahrscheinlichkeitstheorie ist deshalb auf die Realität anwendbar, weil sie Aussagen über relative Häufigkeiten macht, die wir
tatsächlich beobachten. Sie ist weiter genau auf solche Situationen anwendbar, bei denen eine Stabilisierung der relativen Häufigkeiten feststellbar ist,
die also zumindest beliebige Wiederholbarkeit unter gleichen Bedingungen
erlauben. Durch den frequentistischen Wahrscheinlichkeitsbegriff wird die
Verwendung des Begriffs Wahrscheinlichkeit“ also für manche Phänomene
”
ausgeschlossen: Die Frage, wie wahrscheinlich es ist, dass der FC Bayern
doch noch deutscher Meister wird, macht von diesem Standpunkt aus keinen Sinn (außer man geht davon aus, dass die Meisterschaft durch eine Folge
vieler einzelner Zufallsereignisse entschieden wird). Man kann nun entweder
argumentieren, dass derartige Situationen für eine wissenschaftliche statistische Untersuchung ohnehin nicht in Frage kommen; oder man vertritt die
moderatere Auffassung, dass die frequentistische Sicht von Wahrscheinlichkeit zwar einen Teil des Anwendungsbereichs der Statistik gut erklärt, dass
der subjektivistische Ansatz aber in anderen Situationen durchaus Vorzüge
hat.3
Die Kritik an der Grenzwert-Definition des vorigen Abschnitts triff die hier
vorgebrachte frequentistische Sichtweise nicht: Die Grenze zwischen mathematischer Theorie, in der unendliche Folgen von Zufallsexperimenten betrachtet werden können, und der Realität, in der immer nur endlich viele
Wiederholungen vorkommen können, wird klar eingehalten. Dadurch kommt
es nicht zu den oben beschriebenen logischen Problemen; die Verbindung
von mathematischer Theorie und empirischer Anwendung ist etwas loser als
im vorigen Abschnitt, aber immer noch plausibel. Dennoch gibt es Kritikpunkte, die auch gegen diesen verbesserten frequentistischen Ansatz vorgebracht werden können: So benötigt dieser etwa die Voraussetzung, dass es
tatsächlich Situationen gibt, in denen wir ein Experiment unter im wesent-
3
Barnett 1977, S. 78
7
lichen gleichen Bedingungen wiederholen können. Weiter ist es nur dann
aufschlussreich, die relativen Häufigkeiten zu betrachten, wenn die einzelnen Versuche unabhängige Zufallsexperimente sind – eine Voraussetzung,
die empirisch kaum zu belegen ist.4
2
2.1
Überprüfung statistischer Modelle
Deterministische und statistische Hypothesen
Angenommen wird nun, dass die Wahrscheinlichkeitstheorie grundsätzlich
auf empirische Phänomene anwendbar ist. Konkret entwickeln wir für einen
Zusammenhang, den wir untersuchen wollen, ein statistisches Modell, das
diesen beschreiben soll. Es stellt sich also nun die zweite der einleitenden
Fragen: Wie wird ein solches Modell gebildet und wie kann es bestätigt oder
verworfen werden? Wie in 1.1 beschrieben, trägt ein solches Verfahren der
Verifikation oder Falsifikation von Wahrscheinlichkeitsaussagen auch noch
einmal zur Klärung der Bedeutung von Wahrscheinlichkeit“ bei.
”
Gemäß (Neyman 1977, S. 101) funktioniert die Überprüfung eines statistischen Modelles so wie die einer jeden anderen (natur-)wissenschaftlichen
Theorie auch: Man leitet aus dem Modell Folgerungen ab, die empirisch
überprüfbar und nicht schon in die Bildung des Modelles eingegangen sind.
Stimmen diese Vorhersagen des Modells mit unseren tatsächlichen Beobachtungen überein, gilt das Modell als bestätigt, anderenfalls als verworfen. Insbesondere ist es laut (Neyman 1977, ebd.) nicht ungewöhnlich, dass
naturwissenschaftliche Theorien statistische Hypothesen enthalten: Als Beispiel führt er die Mendelschen Regeln der Vererbungslehre an.
Dennoch gibt es einen großen Unterschied zwischen der Überprüfung deterministischer und statistischer Hypothesen: Eine Aussage der Form Alle
”
Objekte der Menge A sind auch in der Menge B enthalten“ kann durch ein
einziges Gegenbeispiel definitiv verworfen werden. Eine Wahrscheinlichkeitsaussage wie Ein zufällig ausgewähltes Objekt aus A ist mit der Wahrschein”
lichkeit p auch in B enthalten“ kann für 0 < p < 1 durch keine Menge von
Beobachtungen definitiv zurückgewiesen oder bestätigt werden. Dies lässt
sich auch wie folgt ausdrücken: Deterministische Hypothesen werden durch
ihre logischen Folgerungen überprüft. Aus der Hypothese Alle Objekte der
”
Menge A sind auch in der Menge B enthalten“ und der empirischen Beobachtung Das vorliegende Objekt stammt aus der Menge A“ folgt logisch
”
die Aussage Das vorliegende Objekt ist in der Menge B enthalten“. Die”
se letzte Aussage ist es, die direkt empirisch überprüft werden kann. Aus
einer nicht-deterministischen Hypothese lässt sich keine solche logische Folgerung ziehen, anhand der die Hypothese überprüft werden könnte. Dieser
4
Barnett 1977, S. 70,78
8
Sachverhalt kennzeichnet das Wesen statistischer Hypothesen.5
2.2
Falsifikation von Wahrscheinlichkeitsaussagen
(Braithwaite 1953, S. 153ff) möchte die Bedeutung des Begriffs Wahrschein”
lichkeit“ erklären, indem er ein Testverfahren angibt, mit dem Wahrscheinlichkeitsaussagen zurückgewiesen werden können. Es handelt sich hier also
nicht um die Situation, wo innerhalb eines statistischen Modells eine bestimmte Hypothese zu testen ist; diese Fragestellung wird im folgenden Teil
der Arbeit behandelt werden. Vielmehr gehen wir hier noch einmal einen
Schritt zurück und fragen, wie der Begriff Wahrscheinlichkeit“ überhaupt
”
verstanden werden kann; eine Möglichkeit für eine Erläuterung ist, wie bereits erwähnt, dass man Bedingungen angibt, die erfüllt sein müssen, damit
eine Wahrscheinlichkeitsaussage als wahr gilt.
Man betrachte etwa folgende Situation: Wir möchten für ein Ereignis A eine
Wahrscheinlichkeitsaussage testen, d.h. eine Hypothese
H (0) : P (A) = p
für ein festes p ∈ (0; 1). Hierzu scheint es sich anzubieten, einen der gängigen
Hypothesentests K (0) zum Signifikanzniveau α ∈ (0; 1) zu verwenden. Wir
verwerfen dann H (0) , wenn K (0) zu einer Ablehnung von H (0) führt. Dabei
tritt jedoch folgendes Problem auf: Wenn wir begünden sollen, warum K (0)
ein sinnvoller Test ist, werden wir vermutlich argumentieren, dass K (0) die
Nullhypothese, falls diese wahr ist, nur mit einer Wahrscheinlichkeit ≤ α
ablehnt. Diese Begründung ist aber selbst wieder eine Wahrscheinlichkeitsaussage. In der Praxis ist das kein Problem; wenn wir aber durch die Angabe
eines Ablehnungsverfahrens erst erklären wollen, was Wahrscheinlichkeit“
”
bedeutet, wird unsere Erläuterung an dieser Stelle zirkulär. Für das frequentistische Verständnis von Wahrscheinlichkeit ist dieser Punkt auch über
Braithwaites Anliehen hinaus von Interesse: Denn wie (Braithwaite 1953,
S. 155) herausstellt, folgen aus Wahrscheinlichkeitsaussagen immer nur andere Wahrscheinlichkeitsaussagen, aber niemals Aussagen, die sich direkt
empirisch überprüfen ließen. Beispielsweise kann man aus der Wahrscheinlichkeit, mit einem bestimmten Würfel eine Eins zu Würfeln, ableiten, wie
wahrscheinlich es ist, bei n Würfen mindestens k Einser zu Würfeln; eine
Aussage über die relative Häufigkeit bei n konkreten Würfelwürfen ist dies
jedoch nicht. Überspitzt ausgedrückt scheint es überhaupt keine Verbindung
zwischen Aussagen der Theorie und konkreten beobachtbaren Vorgängen zu
geben, was den frequentistischen Ansatz völlig zunichte machen würde.
Im Folgenden soll eine Lösung dieses Problems dargestellt werden:6 Wir
5
6
Braithwaite 1953, S. 152
Die Darstellung leht sich an (Braithwaite 1953, S.153ff) an. Siehe dort für eine wesentlich detailliertere Konstuktion der verschiedenen Hypothesen und Tests.
9
betrachten weiter obige Hypothese H (0) und den dazugehörigen Test K (0) ,
den wir mit n0 Beobachtungen durchführen, versuchen aber eine andere Begründung zu geben, warum dieses Testverfahren sinnvoll ist. Betrachte dazu
die Hypothese
H (1) : P ( K (0) führt, durchgeführt mit n0 Beobachtungen,
”
zur Ablehnung von H (0)“) ≤ α.
Man beachte, dass H (1) aus H (0) folgt, weil α gerade als Signifikanzniveau
von K (0) gewählt war. Sei nun K (1) wiederum ein Test für H (1) zum Signifikanzniveau α. Wir können K (1) etwa anwenden, indem wir n1 mal den Test
K (0) mit jeweils n0 Beobachtungen durchführen. Definiere für k ≥ 2 nun
weiter induktiv
H (k) : P ( K (k−1) führt, durchgeführt mit nk−1 Beobachtungen,
”
zur Ablehnung von H (k−1)“) ≤ α.
Dabei sei jeweils K (k) wie oben beschrieben ein Test von H (k) zum Signifikanzniveau α.
Was ist der Sinn dieser Konstruktion? Wie oben folgt jeweils H (k) aus
H (k−1) , das heißt man hat eine unendliche Kette
H (0) ⇒ H (1) ⇒ H (2) ⇒ ...
von Folgerungen aus H (0) mit zugehörigen Tests K (k) , k ∈ N. Insbesondere
folgt aus der Falschheit von H (k) für beliebiges k ∈ N also die Falschheit
von H (0) . Weiter werden die Test K (k) laut (Braithwaite 1953, S. 158f) mit
wachsendem k in folgendem Sinn stärker: Angenommen, K (k) hat zur Ablehnung von H (k) und damit auch H (0) geführt, aber K (k+1) führt nicht zur
Ablehnung von H (k+1) . Dann muss H (k+1) also als wahr angesehen werden
und dies bedeutet, dass es untypisch ist, dass K (k) zur Ablehnung von H (k)
geführt hat.7 Also wird die Ablehnung von H (k) durch K (k) durch das Ergebnis von K (k+1) in Frage gestellt. Dies führt in Anlehnung an (Braithwaite
1953, S. 158-160) zu folgenden Definitionen:
1. Die Hypothese H (0) gilt als vorläufig zurückgewiesen, wenn es ein k ∈ N
gibt, sodass der Test K (k) durchgeführt wurde und zur Zurückweisung
von H (k) geführt hat, und wenn bisher kein Test K (j) für j ≥ k durchgeführt wurde, der nicht zur Zurückweisung von H (j) geführt hat.
7
Es lässt sich allerdings einwenden, dass untypisch“ ebenfalls eine Aussage über
”
Wahrscheinlichkeiten ist und Braithwaites Testvefahren eben der Zirkularität zum
Opfer fällt, die er vermeiden wollte. Darauf geht (Braithwaite 1953) nicht ein.
10
2. Die Hypothese H (0) gilt durch eine (unendliche) Reihe von Tests K (0) ,
K (1) , K (2) , ... als endgültig zurückgewiesen, wenn es ein N ∈ N gibt,
sodass für alle k ≥ N der Test K (k) zur Zurückweisung von H (k) führt.
Es ist also in der Praxis nicht möglich, eine Wahrscheinlichkeitsaussage (die
eine Wahrscheinlichkeit p ∈ (0; 1) behauptet) definitiv zurückzuweisen. Dies
entspricht der Beobachtung im vorigen Abschnitt.
Es bleibt, zu begründen, warum dieses Testverfahren sinnvoll ist. Zunächst
kann man feststellen, dass das beschriebene Verfahren unserem tatsächlichen
Umgang mit statistischen Hypothesen in etwa entspricht: Wir weisen eine Hypothese zurück, wenn uns Beobachtungen dazu veranlassen, behalten
uns dabei aber vor, die Hypothese zu rehabilitieren, wenn andere (aussagekräftigere) Beobachtungen dies nahelegen. Insbesondere wird das Testverfahren nicht dadurch gerechtfertigt, dass eine fälschliche Ablehnung der Nullhypothese unwahrscheinlich ist (dies wäre, wie oben beschrieben, zirkulär),
sondern dadurch, dass eine Fehlentscheidung durch einen späteren Test wieder korrigiert werden kann. Ein weiteres Argument folgt laut (Braithwaite
1953, S.164) aus der Betrachtung der Extremfälle p = 0 und p = 1: Hier
entspräche der Test K (0) gerade den üblichen Falsifikationsmethoden, indem
er H (0) zurückweist, falls ein Gegenbeispiel gefunden wurde.
Auf eine weitere Anforderung weist (Braithwaite 1953, S. 161f) hin: Es muss
logisch möglich sein, dass eine Zurückweisung durch einen Test K (k) erfolgt,
die durch keinen späteren Test aufgehoben wird. Ansonsten wüssten wir
nämlich, dass wir jede Hypothese, die wir zurückgewiesen haben, später wieder rehabilitieren müssen. Für jede endliche Zahl von durchgeführten Tests
ist es natürlich möglich, dass alle diese Test die Hypothese zurückweisen, was
stärker ist als das, was gefordert war. Man kann sich fragen, ob man nicht
darüber hinaus fordern sollte, dass es für eine falsche Hypothese H (0) zumindest möglich sein soll, dass sie endgültig zurückgewiesen wird; genauer:
Für jede (einfache) Alternativhypothese H1 soll gelten:
P ( Es gibt ein m ∈ N, sodass H (0) durch K (j) für alle j ≥ m
”
zurückgewiesen wird“ | H1 ) > 0,
wobei hier die Folge der Testergebnisse K (0) , K (1) , ... als Zufallsereignisse
verstanden werden. (Braithwaite 1953) geht auf diese Frage nicht ein.
3
Konkrete Schätz- und Testprobleme
Im Unterschied zum vorigen Kapitel gehen wir hier davon aus, dass ein
adäquates Modell gegeben ist, das eine bestimmte Situation beschreibt. Allerdings sind in dem Modell ggf. einzelne Parameter unspezifiziert, sodass
sich konkrete Schätz- und Testprobleme stellen. Das Problem ist also weniger grundsätzlich als im vorigen Abschnitt: Dort sollte ein Modell für einen
11
Sachverhalt erst von Grund auf etabliert werden; hier können wir Eigenschaften des bereits anerkannten Modells nutzen, um Verfahren mit bestimmten
Optimalitätseigenschaften herzuleiten.
Dieser Unterschied führt dazu, dass die Frage nach geeigneten Test- und
Schätzverfahren als philosophisch recht unproblematisch angesehen werden
kann. (Neyman 1977, S.99f) beschreibt den Vorgang so: Der Anwender muss
festlegen, welche Anforderungen an ein statistisches Verfahren er hat; bei
einem Hypothesentest kann dies etwa das Signifikanzniveau sein, oder die
Richtung, in die eine Abweichung möglichst auszuschließen ist. Die Festlegung dieser Anforderungen ist eine außermathematische Frage, mit der sich
die Theorie der Statistik nicht zu beschäftigen hat. Ein statistisches Verfahren zu finden, das die gewünschten Eigenschaften besitzt, ist dann ein rein
mathematisches Problem, dessen Lösung sehr schwierig oder gar unmöglich
sein kann; es stellt sich aber jedenfalls nicht die Frage nach der Interpretation und den konzeptionellen Grundlagen des Vorgehens.
Mit (Neyman 1955, S.17) sei darauf hingewiesen, dass die beschriebenen
Optimalitätseigenschaften nur in Bezug auf ein Modell und nicht bezüglich
der empirischen Realität zu verstehen sind. Die Verbindung zu dieser wird
dadurch gewährleistet, dass man das verwendete Modell als adäquat ansieht.
3.1
Hypothesentests nach Neyman und Pearson
Wir wollen im Folgenden kurz das klassische Verfahren des Hypothesentests
darstellen, wie es wesentlich von Neyman und Pearson entwickelt wurde.8
Insbesondere versuchen wir zu verstehen, wieso (Pearson 1955, S.204) die
Entwicklung von Konzepten wie Ablehnungsbereichen, Alternativhypothesen, den zwei Fehlerarten und der Macht eines Tests als notwendige Folgen
aus dem statistischen Wahrscheinlichkeitsbegriff und aus gegebenen Anwendungsbedürfnissen sieht. Die hier gegebene Darstellung mag straightforward und elementar erscheinen: Alle diskutierten Verfahren sind aus den
Einführungsvorlesungen in die Statistik bekannt. Dennoch mussten die eben
erwähnten grundlegenden Konzepte von Neyman und Pearson um 1930 erst
nach und nach entwickelt werden.9 Man führe sich auch vor Augen, wie stark
diese einem objektivistischen Wahrscheinlichkeitsbegriff verhaftet sind: Das
Konzept einer Alternativhypothese ist vom objektivistischen Standpunkt
aus verständlich – schließlich muss der fragliche Parameter in der Realität irgendeinen Wert annehmen, somit entweder die Nullhypothese oder
eine der Alternativen zutreffen. Ein Subjektivist hat mit dieser Sichtweise
möglicherweise Schwierigkeiten.
Wir setzten also voraus, dass wir ein Modell gegeben haben: Es sei etwa
8
9
Diese Zuschreibung macht etwa (Barnett 1982, S. 129).
Dies beschreibt etwa (Pearson 1955, S.204, 207).
12
X eine Zufallsvariable, deren Verteilung bis auf die Wahl eines Parameters
festgelegt ist, also beispielsweise X ∼ N (µ, 1). Wir wollen eine Hypothese
über den unbekannten Parameter µ testen, etwa
H0 : µ = 0.
Dazu betrachten wir n Realisationen X1 = x1 , ..., Xn = xn der Zufallsvariablen X. Im Sinne des frequentistischen Ansatzes möchten wir keine
a priori-Informationen berücksichtigen, sofern dies die konkrete Situation
nicht ausdrücklich nahelegt; wir nehmen an, dass dies nicht der Fall ist.
Dann hat unser Test also nur die beobachteten Daten und die Eigenschaften des Modells, die bereits gegeben sind, zur Grundlage. Wir legen uns
zunächst darauf fest, X als Schätzer für µ zu verwenden. Es scheint sinnvoll
zu sein, H0 dann zurückzuweisen, wenn man einen Wert x für X beobachtet,
der unter
H0 sehr unwahrscheinlich ist. Wir weisen also H0 zurück, wenn
P (X ≥ |x| H0 ) – diese Größe wird üblicherweise als p-Wert bezeichnet –
klein ist. Es sei darauf verwiesen, dass bis zu diesem Punkt weder ein Ablehnungsbereich noch eine Menge von Alternativhypothesen festgelegt werden
mussten.
Dies ändert sich, wenn man weitere Anforderungen an den Test stellt. So ist
es etwa nach (Neyman 1977, S. 103) sinnvoll, die Regel für die Ablehnung
der Nullhypothese vor der Durchführung des Tests festzulegen. Hierzu muss
man spezifizieren, was genau es bedeutet, dass der p-Wert
”klein“
ist. Man
wählt also ein α, sodass
wird, wenn P ( X ≥ |x| H0 ) ≤ α.
H0 abgelehnt
Nun wird offenbar P ( X ≥ |x| H0 ) desto kleiner,
je größer |x| wird. Wir
können also ein c ∈ (0, ∞) finden, sodass P (X ≥ c H0 ) = α. Dann ist das
eben formulierte Ablehnungsverfahren äquivalent zu der Vorgabe, H0 abzulehnen, falls x ∈ (−∞, −c] ∪ [c, ∞). Wir haben also einen Ablehnungsbereich
eingeführt. Man sieht sofort, dass das Risiko, die Nullhypothese abzulehnen,
obwohl sie wahr ist, gleich α ist. Der so definierte Test ist somit ein Signifikanztest zum Signifikanzniveau α. Diese Aussage lässt sich frequentistisch so
verstehen, dass die relative Häufigkeit, einen Fehler erster Art zu begehen,
etwa α betragen wird, wenn man den Test oft durchführt. Warum das Signifikanzlevel auch dann frequentistisch bedeutsam ist, wenn ein und der selbe
Test nur einmal durchgeführt wird, ist Thema des nächsten Abschnitts.
Sind wir bis zu diesem Punkt noch ohne die Angabe einer Alternativhypothese ausgekommen, so ändert sich dies, wenn wir die Macht des Tests
angeben wollen. Hier fragen wir uns, wie groß die Wahrscheinlichkeits ist,
die Nullhypothese zu verwerfen, wenn sie falsch ist. Diese Frage ist entscheidend, wenn wir die verschiedenen möglichen Tests zum Signifikanzniveau α
untereinander vergleichen wollen. Um sie zu beantworten, müssen wir im
Rahmen unseres Modells präzisieren, was der Fall sein soll, wenn H0 falsch
ist. Diese Präzisierung bedeutet gerade die Einführung einer Alternativhy-
13
pothese, gegen die H0 getestet wird.10 Im vorliegenden Fall kann man etwa
H1 : µ 6= 0 setzen und erhält so einen zweiseitigen Hypothesentest für H0 .
Die power -Funktion dieses Tests gibt dann für jede einfache Hypothese H1,τ
aus H1 an, wie groß die Wahrscheinlichkeits ist, dass H0 abgelehnt wird,
falls H1,τ wahr ist. Im vorliegenden Fall bietet sich H1,τ : µ = τ an, wobei
τ 6= 0 sein soll. Unter zwei Tests zum gleichen Signifikanzniveau sieht man
den als besser an, der – im Idealfall global – die größere Macht besitzt.
3.2
Langzeitverhalten von Konfidenzintervallen und Hypothesentests
Nach (Neyman 1955, S.19) sind statistische Verfahren immer unzweideutig
durch das Langzeitverhalten der auftretenden relativen Häufigkeiten interpretierbar. So ist etwa ein 95% -Konfidenzintervall so konstruiert, dass die
geschätzen Grenzen den festen wahren Parameter in etwa 95% der Fälle
überdecken. Der Test einer Hypothese H0 zum Signifikanzniveau α ist, wie
eben gesehen, so konstruiert, dass die relative Häufigkeit für einen Fehler
erster Art ungefähr α betragen wird, wenn man den Test oft durchführt.
Hier ergibt sich jedoch ein Einwand, den (Neyman 1977, S. 108) ausräumen
möchte: Die Interpretation des Signifikanzniveaus eines Tests durch relative
Häufigkeit sei nur dann möglich, wenn man dieselbe Nullhypothese oft mit
dem selben Testverfahren teste. Im Allgemeinen ist dies nicht der Fall: Steht
eine wissenschaftliche Hypothese zur Diskussion, wird diese möglicherweise
nur durch einen Test überprüft. Danach wird auf dieser Grundlage weiter geforscht. Man kann einwenden, dass eine Interpretation über relative
Häufigkeiten in diesem Fall nicht sinnvoll ist.
In Anlehnung an (Neyman 1977, S.108f) lässt sich dem folgende Überlegung
entgegensetzen: Man betrachte eine lange Folge verschiedenster Situationen,
in denen jeweils eine Hypothese H (i) zum Signifikanzniveau αi getestet wird;
man kann sich unter diesen Situationen etwa die gesamte Tätigkeit eines Forschers vorstellen. Die relative Häufigkeit von Fehlern erster Art wird dann
ungefähr gleich dem arithmetischen Mittel der αi sein. Sind die verschiedenen Tests paarweise unabhängig, so folgt dies etwa aus dem schwachen
Gesetz der großen Zahlen: Man betrachte nur diejenigen Tests der Folge,
bei denen die getestestete Hypothese H (i) wahr ist. Es sei Xi eine Zufallsvariable mit
1, falls H (i) abgelehnt wird
Xi =
.
0, sonst
Dann ist also Xi verteilt nach Ber(αi ). Die relative Häufigkeit von Fehlern
erster Art in den ersten n Tests wahrer Hypothesen ist gerade Sn /n, wobei
10
Man beachte, dass es nach (Barnett 1982, S. 159) an dieser Stelle tatsächlich notwendig ist, eine Alternativhypothese zu formulieren.
14
wie üblich Sn = X1 +...+Xn gelten soll. Sei noch α das arithmetische Mittel
der αi . Für > 0 beliebig gilt dann nach schwachem Gesetz der großen
Zahlen (für unabhängige Zufallsvariablen mit beschränkten Varianzen)
lim P (|Sn /n − α| > ) = 0.
n→∞
In Bezug auf eingangs vorgebrachten Einwand bedeutet dies, dass eine Interpretation durch relative Häufigkeiten sehr wohl auch dann sinnvoll ist, wenn
wir jede einzelne Hypothese nur einmal testen. Auch dann wird nämlich die
relative Häufigkeit der Fehler erster Art, die wir insgesamt machen, nahe
dem arithmetischen Mittel der verwendeten Signifikanzniveaus liegen.
3.3
Theoretische Aussagen oder Handlungsregeln?
Während die Interpretation von Wahrscheinlichkeitsaussagen durch relative
Häufigkeiten unzweideutig möglich ist, ist damit noch nicht gesagt, welche
Funktion statistische Verfahren beim Umgang mit Daten haben sollen. Laut
(Neyman 1957, S.15f) sind hier mindestens zwei Antworten denkbar: Nach
der unter dem Schlagwort inductive reasoning bekannten Auffassung, die etwa von Ronald Fisher vertreten wurde,11 soll der Anwender aufgrund gegebener Daten zu einer theoretischen Einsicht kommen, also als Ergebnis eines
Tests von einer bestimmten Hypothese zu einem bestimmten Grad überzeugt
sein. Ziel der Vertreter dieser Auffassung ist es laut Neyman (ebd.), eine universelle Formel zu finden, die vorschreibt, welche Überzeugung ein rationales
Individuum durch die Betrachtung gegebener Daten bekommen sollte.
(Neyman 1957) stellt dem eine andere Sicht entgegen: Unter dem Begriff
inductive behavior macht er die These stark, dass statistische Verfahren
nicht direkt eine theoretische Einsicht vermitteln, sondern zu einer Handlungsentscheidung führen sollten – und sei es die Entscheidung, bestimmte
wissenschaftliche Hypothesen zu akzeptieren und auf ihrer Grundlage weiter
zu forschen.
Diese Sichtweise hat verschiedene Vorteile: Zum einen ist sie nach Neyman
der Funktionsweise der Forschung angemessener als die Vorstellung des in”
ductive reasoning“. (Neyman 1957, S.10f) beschreibt den Umgang von Forschern mit Daten wie folgt: Zunächst werden in einem kreativen Prozess verschiedene Hypothesen aufgestellt. Aus diesen Hypothesen lassen sich dann
Folgerungen ableiten, die mit empirisch gegebenen Daten abgeglichen werden können. Schließlich kommt es zu einer Entscheidung, welche Hypothese
weiterverfolgt und als Grundlage der weiteren Forschungstätigkeit angenommen werden soll. In diesem letzten Schritt spielen neben der Überzeugungskraft einer Hypothese aufgrund des Testergebnisses auch die Folgen einer
Fehlentscheidung in die eine oder andere Richtung eine Rolle. Im Rahmen
11
Siehe zu dieser Einschätzung (Neyman 1957, S. 11); vgl. auch (Pearson 1955, S.206).
15
der Entwicklung einer wissenschaftlichen Theorie könnte etwa bedeutend
sein, welche Hypothese besonders leicht weiter zu untersuchen ist.
Ein großer Vorteil der Handlungsorientierung ist, dass diese Sicht recht undogmatisch und mit vielen Schätz- und Testverfahren vereinbar ist. Für
jemanden, der den Erkenntnisaspekt in den Vordergrund stellt, mag es beispielsweise schwer sein, das Verfahren des Minimax-Tests zu akzeptieren,
bei dem verschiedene Fehlentscheidungen mit Kosten gewichtet werden. Erwartet man hingegen von einem Testverfahren eine Handlungsempfehlung,
kann ein Minimax-Test in manchen Fällen das natürliche Vorgehen sein.
Besonders relevant wird dies in Situationen, in denen andere optimale Tests
nicht existieren.12
Ist die Sichtweise des inductive behavior eine frequentistische Sichtweise?
Man kann offenbar Frequentist sein und trotzdem die Handlungsorientierung ablehnen. Dennoch gibt es mindestens einen Grund, als Frequentist
auch eine handlungsorientierte Sichtweise einzunehmen: Angenommen, ein
Forscher testet seine Hypothesen stets zum Signifikanzniveau 5% . Wie im
vorigen Abschnitt darsgestellt, wird er also mit einer relativen Häufigkeit
von ungefähr 5% Fehler erster Art begehen. Aber wieso ist dies für ihn erstrebenswert? Wiegen 95 wahre Erkenntnisse die 5 falschen auf? Einfacher
wird die Rechtfertigung für das Vorgehen des Forschers, wenn man die Sichtweise von Handeln und Folgen einnimmt: Ziemlich sicher wird der Forscher
auf diesem Weg erfolgreich forschen können, seine weiteren Experimente effizient planen und die zur Verfügung stehenden Mittel zielführend einsetzen
können.
Fazit
In den vorangegangenen Abschnitten wurde versucht, einen Überblick über
den frequentistischen Wahrscheinlichkeitsbegriff zu geben. Grundlage für jede frequentistische Definition von Wahrscheinlichkeit sind relative Häufigkeiten, die als empirisch beobachtbare Äußerung der tatsächlichen Wahrscheinlichkeitseigenschaften eines Objekts angesehen werden.
Wie wir gesehen haben, ist eine straightforward-Definition von Wahrscheinlichkeit aus relativen Häufigkeiten mit kaum zu behebenden Schwierigkeiten
grundsätzlicher Natur konfrontiert. Erfolgreich scheint hingegen der Ansatz
über eine Axiomatisierung der Wahrscheinlichkeitstheorie, wie etwa durch
die Axiome von Kolmogorow, zu sein. Die Anwendbarkeit einer solchen
Theorie lässt sich dann durch beobachtbare Eigenschaften von relativen
Häufigkeiten stützen.
Ein konkretes statistisches Modell wird überprüft wie andere wissenschaft-
12
vgl. (Neyman 1977, S. 105)
16
liche Theorien auch. Jedoch besteht der Unterschied, dass sich statistische
Hypothesen im Allgemeinen nicht definitiv zurückweisen oder bestätigen
lassen. Dennoch können statistische Modelle durch ihren Erfolg in der Anwendung sehr gut gerechtfertigt werden.13
Innerhalb eines gegebenen Modells lassen sich dann Tests und Schätzer mit
bestimmten Optimalitätseigenschaften konstruieren. Diese sind durch relative Häufigkeiten interpretierbar.
Der frequentistische Ansatz ist eine gute Basis für statistische Methoden in
den Wissenschaften, da er deren Anforderungen an Objektivität entspricht.
Viele klassische Verfahren wurden vor frequentistischem Hintergrund entwickelt. Allerdings ist der Anwendungsbereich frequentistischer Statistik auf
solche Situationen beschränkt, die sich beliebig wiederholen lassen. Ferner
gibt es grundsätzliche Kritik am frequentistischen Wahrscheinlichkeitsbegriff; es wird etwa argumentiert, dass es keine feste Beziehung zwischen
Wahrscheinlichkeit und relativer Häufigkeit bei endlicher Versuchszahl gebe.
13
Zum enormen Erfolg statistischer Modelle in den Naturwissenschaften siehe etwa
(Neyman 1955, S.17).
17
Literaturverzeichnis
[1] Barnett, Vic: Comparative Statistical Inference. 2. Auflage. Wiley,
Chichester, 1982.
[2] Braithwaite, Richard: Scientific Explanation. A Study of the Function of Theory, Probability and Law in Science.. Cambridge University
Press, Cambridge, 1953.
[3] Neyman, Jerzy: The Problem of Inductive Inference. In: Communications on Pure and Applied Mathematics Vol. VIII (1955). S.13-46.
[4] Neyman, Jerzy: Inductive Behavior“ as a Basic Concept of Philoso”
phie of Science. In: Revue Inst. Int. de Stat. 25: 1/3 (1957). S.7-22.
[5] Neyman, Jerzy: Frequentist Probability and Frequentist Statistics. In:
Synthese 36 (1977). S.97-131.
[6] Pearson, E.S.: Statistical Concepts in their Relation to Reality. In:
Journal of the Royal Statistical Society. Series B (Methodological) Vol.
17, No. 2 (1955). S.204-207.
[7] Pearson, E.S.: Some Thoughts on Statistical Inference. In: Ann. Math.
Statist. Vol. 33, No. 2 (1962). S.394-403.
[8] Quine, Willard Van Orman: Theorien und Dinge. Suhrkamp Verlag,
Frankfurt am Main, 1989.
[9] Russell, Bertrand: Our Knowledge of the External World. Routledge,
London, 2002.
18

Zugehörige Unterlagen

Prof. Dr. R. Wulkenhaar WS 15/16 PD Dr. T. Timmermann ¨Ubungen

Einführung in die Stochastik ¨Ubungsblatt Nr. 3 7. November 2007 9

Seminararbeit - Marco EGV Cattaneo

Zugehörige Unterlagen

Produkte

Unterstützung

Seminararbeit - Marco EGV Cattaneo

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können