9 Statistische Probleme Grundlage aller statistischen Probleme sind probabilistische Modelle mit Parametern, die dem “Statistiker” nicht oder nicht vollständig bekannt sind. Aus Beobachtungsdaten sollen dann Rückschlüsse auf diese Parameter gezogen werden, die den Grad der Unsicherheit einschränken. Das Grundproblem ist daher sehr ähnlich zum Problem der “Fragestrategien” des letzten Kapitels, obwohl die Gesichtspunkte etwas anders liegen. Ein einfaches Beispiel ist eine Binomialverteilung mit Erfolgswahrscheinlichkeit p, wobei p nicht zum vornherein bekannt ist. Jedermann ist schon solchen Problemen begegnet, z.B. ist sicher schon jeder beim Würfelspielen nach eine Pechsträhne auf den Gedanken gekommen, ob denn die Wahrscheinlichkeiten für die einzelnen Augenzahlen wirklich dieselben seien. Es ist naheliegend, solche Zweifel anhand von (langen) Versuchsreihen zu testen. Man unterscheidet zwei Typen von statistischen Problemen, die miteinander zusammenhängen: Einerseits gibt es die Testprobleme. Hier geht es darum, eine Hypothese anhand von Daten zu testen. Eine typische Hypothese wäre etwa, dass der Würfel o.k. ist, die der sogenannten Alternative gegenüber gestellt wird, nämlich dass er gezinkt ist. Ein anderes Beispiel: Man interessiert sich dafür, ob ein neues Medikament gegenüber älteren eine wie man sagt signifikant besser ist. Man formuliert dann eine sogenannte 0-Hypothese, die besagt, dass kein Unterschied besteht, bzw. das neue Medikament höchstens so gut wie das alte ist. Die Hypothese wird dann einem statistischen Test aufgrund von Daten unterworfen. Je nach Ausgang des Tests wird man die 0-Hypothese verwerfen. Man sagt dann auch, dass die Daten signifikant nicht mit der 0-Hypothese in Einklang zu bringen sind. Der zweite Typus von Problemen (die wir jedoch zuerst behandeln) sind Schätzprobleme. Hier geht es darum, Parameter in einem Modell zu schätzen. Ein typisches Beispiel ist die Schätzung des Parameters p in einem Bernoulliexperiment. Das Kapitel gliedert sich in drei Unterabschnitte. In einem ersten diskutieren wir Schätzprobleme, in einem zweiten Testprobleme, und in einem dritten kommen wir auf Schätzprobleme zurück, nämlich auf sogenannte Konfidenzschätzungen. Noch etwas zur Notation: In Abweichung von früheren Gepflogenheiten bezeichnen wir die Wahrscheinlichkeiten der Elementarereignisse mit P (ω) , hauptsächlich um P von Parametern, wie p des Bernoulli-Experiments, abzugrenzen. Die meisten Wahrscheinlichkeiten in diesem Kapitel werden noch von Parametern abhängen. wir schreiben dann den Parameter als Index, z.B. Pp für das Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p. n, die Länge des Experiments, ist natürlich (n) auch ein Parameter. Wenn wir ihn betonen wollen schreiben wir Pp . 9.1 Einfache Schätzprobleme Schätzprobleme bestehen einfach darin, dass gewisse Parameter eines Modells aufgrund von erhobenen Daten geschätzt werden sollen. Betrachten wir etwa ein Bernoulli-Experiment mit (unbekanntem) Parameter p. Wir gehen davon aus, dass wir das Zufallsexperiment, wie im Bernoulli-Experiment beschrieben, n-mal unabhängig wiederholen. Bezeichnet Xn die Anzahl der Erfolge, so wissen wir, dass Xn binomialverteilt mit Parametern p und n ist. Wir setzen voraus, dass wir n kennen. Eine naheliegende Schätzung von p ist Xn /n. Es ist üblich, eine derartige Schätzung eines Parameters mit einem “Dach” über dem zu schätzenden Parameter zu bezeichnen; wir schreiben also Xn . (9.1) n Dies ist natürlich eine Zufallsgrösse. Nach der erfolgten “Messung”, d.h. der Realisierung des Zufallsexperimentes, ist p̂n natürlich einfach eine Zahl. Manchmal macht man die Unterscheidung nicht sehr p̂n := 1 sorgfältig. Es ist jedoch klar, dass wir uns hauptsächlich für die probabilistischen Aspekte interessieren, d.h. dass wir Eigenschaften von p̂n als Zufallsgrösse diskutieren. Es ist wichtig, einige grundlegende Annahmen festzuhalten, über deren Berechtigung viel Tinte verspritzt worden ist: Wir nehmen in diesem Beispiel (und hier fast durchgehend) keinesfalls an, dass p selbst zufällig ist. Im Gegenteil betrachten wir p als eine feste Zahl, die bloss dem Statistiker (zunächst) unbekannt ist. Es hat daher keinen Sinn, nach der Wahrscheinlichkeit zu fragen, mit der p = 1/6 ist. Es ist jedoch sinnvoll zu fragen, mit welcher Wahrscheinlichkeit p̂n sich um weniger als 0.1 von p unterscheidet. Zunächst einige theoretische Konzepte. Wir betrachten einen Wahrscheinlichkeitsraum (Ω, Pθ ) . Dabei ist Pθ eine Wahrscheinlichkeit, die noch von einem Parameter θ abhängt, der “unbekannt” ist. Dieser Parameter kann im Prinzip ziemlich beliebig sein; wir nehmen jedoch an, dass θ = (θ1 , . . . , θm ) ∈ Rm gilt, meist sogar einfach θ ∈ R. In letzterem Fall nennt man den Parameter eindimensional. Oft tritt jedoch die Situation ein, dass nicht jeder mögliche Vektor in Rm (oder im eindimensionalen Fall jede reelle Zahl) tatsächlich ein Parameter ist. Auch im Bernoulli-Experiment ist ja der Parameter p auf das Intervall [0, 1] eingeschränkt. Die Menge aller Parameterwerte, die vorkommen können, bezeichnen wir mit Θ ⊂ Rm . Für jeden möglichen Parameter θ ∈ Θ ist also ein Wahrscheinlichkeitsmass Pθ auf Ω definiert ist. Erwartungswerte bezüglich Pθ schreiben wir als Eθ . Es werden jedoch oft auch unendlichdimensionale Parametermengen diskutiert. Im Jargon der Statistik nennt man solche Situationen etwas missverständlich nichtparametrisch. Definition 9.1 Ein Schätzer ist eine Zufallsvektor θ̂ = θ̂1 , . . . , θ̂m : Ω → Rm . Der Schätzer heisst erwartungstreu (engl.: unbiased), wenn Eθ θ̂i = θi für i = 1, . . . , m und für alle θ ∈ Θ gilt. Bemerkung 9.2 Manchmal interessiert man sich auch nur für eine Funktion des Parameters, d.h. es ist eine Abbildung g : Θ → R gegeben, und man möchte einen Schätzer für g (θ) gewinnen. Wir gehen darauf hier jedoch nicht ein. Offensichtlich ist unser oben definierter Schätzer (9.1) für den Parameter p des Bernoulli-Experimentes erwartungstreu, denn es gilt Ep p̂n = Ep X n np = = p. n n Erwartungstreue ist offensichtlich eine “wünschbare” Eigenschaft eines Schätzers, es ist aber klar, dass sie nicht das einzige Kriterium eines guten Schätzers sein kann. Viele gute Schätzer sind übrigens auch gar nicht erwartungstreu. (Man kann übrigens leicht Beispiele angeben, bei denen die Einschränkung auf erwartungstreue Schätzer nur zu ganz unsinnigen Schätzern führt). Ein wichtiges Konzept ist die sogenannte Konsistenz. Man kann davon jedoch nur sprechen, wenn eine Folge von Schätzern betrachtet wird. In den meisten Situation hängt der Wahrscheinlichkeitsraum von einem Parameter n ab, der die “Stichprobengrösse” genau wie etwa im Bernoulli-Experiment. Es liegen deshalb beschreibt, (n) Wahrscheinlichkeitsräume Ωn , Pθ vor, wobei die Parametermenge Θ sich jedoch nicht mit n θ∈Θ verändert. Wir betrachten dann ebenfalls Folgen von Schätzern θ̂n = θ̂n,1 , . . . , θ̂n,m . Natürlich wird man von vernünftigen Schätzverfahren erwarten, dass bei “genügend langen Messreihen” der gesuchte Parameter bestimmt ist. Definition 9.3 Eine Folge von Schätzern heisst (schwach) konsistent, wenn für jedes ε > 0, für jedes i ∈ {1, . . . , m} 2 und für jeden Parameter θ ∈ Θ lim Pθ θ̂n,i − θi ≥ ε = 0 n→∞ gilt. Manchmal sagt man auch einfach, der Schätzer sei konsistent. Konsistenz ist aber immer eine Eigenschaft von Folgen von Schätzern. Der Zusatz “schwach” in der obigen Definition, den wir jedoch nicht weiter verwenden werden, bezieht sich auf die Form der Limesaussage. Für einen stark konsistenten Schätzer müsste limn→∞ θ̂n,i = θi , mit Pθ -Wahrscheinlichkeit 1 gelten. Wir werden nicht weiter auf die Unterscheidung eingehen. Schwache Konsistenz ist offensichtlich das für die “Praxis” relevante Konzept, denn eine unendliche lange Versuchsreihe lässt sich ohnehin nicht realisieren. Satz 9.4 In einem Bernoulli-Experiment ist (p̂n )n∈N , definiert durch (9.1) ein konsistenter Schätzer für p. Beweis. Gesetz der grossen Zahlen. Es gibt viele Methoden Schätzer zu konstruieren, die alle ihre Vor- und Nachteile haben. Eine beliebte Klasse sind die sogenannten Maximum-Likelihood-Schätzer. Wir nehmen an, dass die Wahrscheinlichkeiten Pθ auf einer abzählbaren Menge Ω definiert sind, und dass wir ferner den Parameter θ aufgrund des Wertes einer Zufallsgrösse X : Ω → R schätzen wollen (oder eines Zufallsvektors). Jedes der Wahrscheinlichkeitsmasse Pθ definiert dann eine Verteilung auf X (Ω): lθ (x) := Pθ (X = x) . Wenn Ω eine abzählbare Menge ist, so ist natürlich auch X (Ω) abzählbar. Zu x ∈ X (Ω) definieren wir θ̂ (x) so, dass lθ̂(x) (x) maximal ist: lθ̂(x) (x) = max lθ (x) . θ∈Θ Wir gehen davon aus, dass ein solcher Wert θ̂ (x) existiert und eindeutig ist, was natürlich nicht immer der Fall zu sein braucht. θ̂ definiert dann eine Abbildung X (Ω) → Θ. Setzen wir diese Abbildung mit der Zufallsgrösse X zusammen, so erhalten wir die Abbildung θ̂ (X) : Ω → Θ. Dies nennt man den Maximum-Likelihood-Schätzer. Bemerkung 9.5 Es mag etwas eigenartig erscheinen, dass wir den Schätzer oben über den Umweg einer Zufallsgrösse X definieren wollen. Tatsächlich können wir natürlich auch einfach versuchen, Pθ (ω) zu maximieren. In vielen Fällen liegen die Wahrscheinlichkeitsmasse jedoch nur über die Verteilungen von Zufallsgrössen vor, die uns auch eigentlich nur interessieren. Es ist jedoch klar, dass der Maximum-LikelihoodSchätzer dann von X abhängen kann. In einigen wichtigen Fällen lässt sich jedoch nachweisen, dass es keine Einschränkung ist, wenn man sich von vornherein auf Schätzer, die über eine (einfache) Zufallsgrösse X definiert sind, beschränkt. Ein Beispiel ist das Bernoulli-Experiment. Hier kann man nachweisen, dass man keine Information über p erhalten kann, die man nicht via die Anzahl der Erfolge Xn gewinnen kann. Man nennt eine Zufallsgrösse, die alle Information über einen Parameter enthält, eine suffiziente Statistik. Wir wollen das hier jedoch nicht weiter ausführen. Man kann das Konzept auch auf Zufallsgrössen mit Dichten erweitern: Sei X eine m-dimensionaler Zufallsvektor mit Dichten fθ , θ ∈ Θ. Für x ∈ Rm definieren wir analog wie oben θ̂ (x) so, dass fθ (x) maximal ist. θ̂ (X) ist dann wieder eine Zufallsgrösse, die man in diesem Fall ebenfalls als den Maximum-Likelihood-Schätzer bezeichnet. Wie oben muss natürlich betont werden, dass dieser Schätzer nicht in jeder Situation existiert. Es ist übrigens auch keinesfalls klar, dass die MaximumLikelihood-Schätzer erwartungstreu sind (ausser in Spezialfällen sind sie es auch nicht). Unter ziemlich 3 allgemeinen Bedingungen kann man jedoch nachweisen, dass sie konsistent sind. Über die Berechtigung des Maximum-Likelihood-Ansatzes ist viel geschrieben und gestritten worden. Die stärkste theoretische Stütze für die Maximum-Likelihood-Methode ist ein Satz der besagt, dass (unter gewissen Bedingungen), diese Schätzer in einem asymptotischen Sinne (der natürlich noch zu präzisieren ist) optimal sind. Für eine ausführliche Diskussion von Maximum-Likelihood-Schätzern muss auf die Spezialvorlesungen über Statistik verwiesen werden. Wir betrachten einige einfach Beispiele. Beispiele 9.6 a) Bernoulli-Experiment Der unbekannte Parameter sei p. X sei die Anzahl der Erfolge. Ist n die Anzahl der Versuche (die wir als bekannt voraussetzen), so ist X (Ω) = {0, . . . , n} . Für x ∈ X (Ω) ist n x Pp (X = x) = p (1 − p)n−x . x Um den Maximum-Liklihood-Schätzer zu finden, müssen wir diesen Ausdruck als Funktion in p nun maximieren. Wir können genausogut natürlich den Logarithmus maximieren: n log Pp (X = x) = log + x log p + (n − x) log (1 − p) . x Der erste Summand hängt nicht von p ab und kann daher aus der Betrachtung weggelassen werden. Wir finden das Maximum, indem wir nach p differentieren: d x n−x (x log p + (n − x) log (1 − p)) = − . dp p 1−p Diese Ableitung ist genau dann 0, wenn p = x/n ist. Unser Maximum-Likelihood-Schätzer ist daher nichts anderes als (9.1). b) Hypergeometrische Verteilung Wir betrachten das folgende Problem: Ein Teich enthalte eine Anzahl n von Fischen, wobei wir n nicht kennen. n ist der unbekannte Parameter in unserem Modell. Um n zu schätzen, entnimmt jemand dem Teich m Fische, markiert sie und setzt sie wieder aus. Anschliessend wartet er, bis sich die Fische gut durchmischt (aber nicht vermehrt) haben. Dann entnimmt er wieder m Fische, von denen er feststellt, dass k ≤ m markiert sind. Wir nehmen an, dass k ≥ 1 ist. Wir wollen nun die Maximum-Likelihood-Schätzung für n herleiten. m ist bekannt, nicht aber n. Die beobachtete Zufallsgrösse X ist die Anzahl der markierten Fische beim zweiten Fang. Abhängig von n, n ist X hypergeometrisch verteilt: m n−m Pn (X = k) = k m−k n m . Für den Maximum-Likelihood-Schätzer müssen wir dies als Funktion von n maximieren. Nun gilt Pn+1 (X = k) (n + 1 − m)2 = . Pn (X = k) (n − 2m + k + 1) (n + 1) Dieser Quotient ist genau dann ≥ 1, wenn (n + 1 − m)2 ≥ (n + 1 − 2m + k) (n + 1) m2 ≥ k (n + 1) , 4 2 d.h. wenn n +2 1 ≤ m /k gilt. Mit anderen Worten: Pn (X = k) ist maximal als Funktion von n für n = m /k − 1 . Dies ist somit der Maximum-Likelihood Schätzer für n. Man beachte, dass der Schätzer nicht für alle möglichen Realisierungen von X definiert ist. Pn (X = 0) ist natürlich positiv. Anderseits ist in diesem Fall der Schätzer nicht definiert (oder wenn man will = ∞). Nach welchen Kriterien soll man zwischen guten und weniger guten Schätzern unterscheiden? Ein naheliegendes Kriterium ist die Varianz Vθ θ̂ des Schätzers und man wird einen Schätzer mit kleinerer Varianz vorziehen. Das Problem ist allerdings, dass diese Varianz von θ abhängt. Wir können hoffen, dass wir einen Schätzer finden, der erstens erwartungstreu ist und zweitens minimale Varianz unter allen möglichen Schätzern und für jeden möglichen Parameter θ hat. Leider gibt es derartige Schätzer nicht in jeden Fall (eigentlich nur in wenigen sehr einfachen Fällen). Wir können jedoch nachweisen, dass unser Schätzer (9.1) diese Eigenschaft hat. Dazu leiten wir in einem Spezialfall eine wichtige Ungleichung her, nämlich die sogenannte Cramer-Rao-Schranke. Der Einfachheit halber betrachten wir eine endliche Menge Ω. Für θ ∈ Θ seien Wahrscheinlichkeiten Pθ auf Ω gegeben. Wir nehmen an, dass der Parameter eindimensional ist, und dass ferner für jedes ω ∈ Ω die Abbildung Θ 3 θ → Pθ (ω) differenzierbar in θ und überall postive ist. Ferner sei ein Schätzer θ̂ : Ω → Θ gegeben. Wir nehmen im Moment nicht an, dass der Schätzer erwartungstreu ist. Der Fehler zum Erwartungswert ist dann b (θ) := Eθ θ̂ − θ. (9.2) Proposition 9.7 (Cramer-Rao Schranke) Unter den obigen Bedingungen gilt für die Varianz V θ̂ des Schätzers die Ungleichung: V θ̂ ≥ db(θ) dθ +1 I (θ) 2 , wobei I (θ) die sogenannte Fisher-Information ist: ! d log pθ 2 I (θ) := Eθ . dθ Für einen unverfälschten Schätzer gilt insbesondere V θ̂ ≥ 1 . I (θ) Beweis. Differenzieren der Gleichung (9.2) nach θ ergibt dE θ̂ X dpθ (ω) θ db (θ) = −1= θ̂ (ω) − 1 dθ dθ dθ ω∈Ω X d log pθ (ω) d log pθ = θ̂ (ω) pθ (ω) − 1 = Eθ θ̂ − 1, dθ dθ ω∈Ω wobei d log pθ dθ als Zufallsgrösse aufgefasst wird. Anderseits gilt wegen 1 = X dpθ (ω) d log pθ = Eθ 0= . dθ dθ ω∈Ω 5 P ω pθ (ω) auch Aus den beiden Gleichungen erhalten wir db (θ) d log pθ + 1 = Eθ θ̂ − b (θ) dθ dθ v u 2 ! r u d log p θ ≤ tEθ V θ̂ = I (θ) V θ̂ . dθ Von besonderem Interesse sind natürlich unverfälschte Schätzer, für die V θ̂ = 1/I (θ) gilt. Diese haben minimale Varianz unter allen möglichen unverfälschten Schätzern. Beispiel 9.8 Wir nehmen unser Standardbeispiel: Den Parameter p bei der Binomialverteilung. Ist ω ∈ Ω := {0, 1}n , so ist Pp (ω) = pXn (ω) (1 − p)n−Xn (ω) , wobei Xn (ω) wieder die Anzahl der Erfolge bezeichnet. Es gilt dann d log Pp (ω) Xn (ω) n − Xn (ω) Xn (ω) − np = − = . dp p 1−p p (1 − p) Demzufolge ist die Fisher-Information E (Xn (ω) − np)2 V (Xn ) n = I (p) = 2 2 = p (1 − p) . 2 2 p (1 − p) p (1 − p) 1/I (p) = p (1 − p) /n ist aber gerade die Varianz von p̂n = Xn /n. Demzufolge ist p̂n ein unverfälschter Schätzer mit minimaler Varianz. Es muss betont werden, dass in komplizierteren Situation solche unverfälschten Schätzer mit minimaler Varianz nur selten existieren. Unter relative schwachen Regularitätsannahmen kann man jedoch nachweisen, dass die Maximum-Likelihood-Schätzer diese Eigenschaft in einem gewissen asymptotischen Sinn (für n → ∞) haben. Ein wichtiges Beispiel ist die Familie der Normalverteilung mit Mittel µ ∈ R und Varianz σ 2 > 0. Der Parameter ist dann zweidimensional: µ, σ 2 ∈ Θ := R × R+ ⊂ R2 . Wir betrachten n unabhängige Zufallsgrössen X1 , . . . , Xn mit dieser Verteilung. Die Dichte des Zufallsvektors (X1 , . . . , Xn ) ist 1 Xn 2 2 −n/2 fµ,σ2 (x) = 2πσ exp − 2 (xi − µ) (9.3) i=1 2σ Die Aufgabe ist nun, die Parameter aus diesen Zufallsgrössen zu schätzen. Eine naheliegende Schätzung von µ ist Pn Xi µ̂n := i=1 . (9.4) n Wie wir schon wissen, ist µ̂n selbst wieder normalverteilt mit Erwartungswert Pn E(µ,σ2 ) Xi nµ E(µ,σ2 ) µ̂n = i=1 = =µ n n und Varianz var(µ,σ2 ) µ̂n = 6 nσ 2 σ2 = . n2 n Daraus folgt sehr leicht, dass für jedes ε > 0 lim P(µ,σ2 ) (|µ̂n − µ| ≥ ε) = 0 n→∞ gilt. µ̂n ist also ein erwartungstreuer und konsistenter Schätzer für µ. Was tun mit σ 2 ? Ein naheliegender Schätzer für σ 2 wäre n 1X (Xi − µ)2 . n i=1 Aus der Linearität des Erwartungswertes folgt sofort: X n n 1 1X E(µ,σ2 ) E(µ,σ2 ) (Xi − µ)2 (Xi − µ)2 = i=1 n n i=1 = σ2. Das Problem dabei ist nur, dass wir ja µ nicht kennen und deshalb nicht im Schätzer verwenden können. Es ist naheliegend, den unbekannten Parameter µ einfach durch seinen Schätzer µ̂n zu ersetzen und deshalb den Schätzer !2 Pn n n X X j 1X 1 j=1 (Xi − µ̂n )2 = Xi − n n n i=1 i=1 zu versuchen. Hier ergibt sich jedoch eine kleine Überraschung bei der Berechnung des Erwartungswertes: !2 Pn X 2 ! Xn X X n n j 1 1 1 j=1 =E Xi − X2 − Xi E i=1 i=1 i i=1 n n n n X 2 ! n 1 = E X12 − E Xi i=1 n P E X12 = σ 2 + µ2 . Ferner ist n1 ni=1 Xi normalverteilt mit Mittel µ und Varianz σ 2 /n. Demzufolge gilt !2 Pn 2 n X X j 1 σ (n − 1) σ 2 j=1 2 2 2 =σ +µ − E Xi − +µ = , n n n n i=1 und unser ins Auge gefasster Schätzer ist nicht erwartungstreu. Man kann das jedoch sehr leicht beheben, indem man den Schätzer leicht modifiziert und einfach n σ̂n2 := 1 X (Xi − µ̂n )2 n−1 (9.5) i=1 setzt. Dieser Schätzer ist dann evidenterweise erwartungstreu. Er ist auch konsistent. Der Beweis dafür sei dem Leser als Übungsaufgabe überlassen. Was ist der Maximum-Likelihood-Schätzer für µ, σ 2 ? Dazu müssen wir (9.3) als Funktion von µ, σ 2 maximieren. Es ist oft günstiger, den Logarithmus zu maximieren, was auf dasselbe hinausläuft. n n 1 X n log fµ,σ2 (x) = − log (2π) − log σ 2 − 2 (xi − µ)2 . 2 2 2σ i=1 7 Die partiellen Ableitungen ergeben: n ∂ log fµ,σ2 (x) 1 X = 2 (xi − µ) , ∂µ σ i=1 n ∂ log fµ,σ2 (x) n 1 X =− 2 + 4 (xi − µ)2 . ∂ (σ 2 ) 2σ 2σ i=1 Man überzeugt sich leicht davon, dass die Lösung von ∇ log fµ,σ2 (x) = 0 ein eindeutiges Maximum 2 ist. Daraus folgt, dass der Maximum-Likelihood-Schätzer von µ, σ durch n µ̂n,M L = µ̂n = 1X xi , n i=1 2 σ̂n,M L := 1 n n X (xi − µ̂n,M L )2 . i=1 Will man den Schätzer als Zufallsgrösse interpretieren, so muss man die xi natürlich wieder durch die Zufallsgrössen Xi ersetzen. Wie man sieht, ist das für µ derselbe Schätzer wie oben; für σ 2 erhält man aber den mit dem falschen Erwartungswert. Für n → ∞ verschwinder der Fehler natürlich. Es muss betont werden, dass es andere Schätzer von µ und σ 2 gibt, die gegenüber µ̂n und σ̂n2 gewichtige Vorteile haben. Das Hauptproblem z.B. mit µ̂n ist, dass der Schätzer sehr empfindlich auf auch nur geringfügige Verletzungen der grundlegenden Normalverteilheitsannahme ist. Ist diese nicht richtig, so kann die Varianz des Schätzers massiv ansteigen. Der Schätzer ist, wie man sagt, nicht robust. Eine alte Bauernregel verwendet das folgende Verfahren: Wenn der mittlere Jahresertrag (z.B. von Getreide) aus einer Messreihe von 10 Jahren bestimmt werden soll, so lässt man das beste und das schlechteste Ergebnis weg und mittelt die acht verbleibenden Werte. Solche Schätzer nennt man abgeschnittene Mittel (“trimmed means” auf Englisch). Hier die formale Definition: Sei α ∈ (0, 1/2) . Sind X1 , . . . , Xn die n Zufallsgrössen, so ordnet man sie erst der Grösse nach an. Die entsprechend der Grösse nach geordneten Grössen bezeichnen wir mit Xn,1 ≤ Xn,2 ≤ . . . ≤ Xn,n . (Falls der Vektor (X1 , . . . , Xn ) eine Dichte besitzt, so folgt übrigens sofort, dass alle Xi verschieden sind, mit Wahrscheinlichkeit 1). Anschliessend bildet man µ̂n,α 1 := n − 2 [αn] n−[αn] X Xn,i . i=[αn]+1 Man kann leicht nachweisen, dass diese Schätzer ebenfalls erwartungstreu sind. Sind die Xi exakt normalverteilt, so ist die Varianz von µ̂n,α grösser als die von µ̂n ; wenn α jedoch nicht zu gross ist (α = 0.1 oder darunter sind typische Werte), so ist der Unterschied jedoch nicht sehr gross. (Die Berechnung der Varianz von µ̂n,α ist allerdings nicht ganz einfach). Auf der anderen Seite hat µ̂n,α wesentlich bessere Robustheitseigenschaften. Diese Gesichtspunkte sind in den vergangenen 20-30 Jahren intensiv untersucht worden. Für spätere Zwecke wollen wir noch die gemeinsame Verteilung unserer beiden Schätzer (9.4) und (9.5) berechnen. Wir können dabei µ = 0 und σ 2 = 1 annehmen; die anderen Fälle ergeben sich sofort durch eine Skalierung. 8 Wir betrachten zunächst eine leicht einfachere Situation: Seien ξ1 , . . . , ξn n unabhängige standardnormalverteilte Zufallsgrössen. Wir betrachten die Zufallsgrösse χ2n := n X ξi2 . i=1 Definition 9.9 Die Verteilung von χ2n nennt man die χ2 -Verteilung mit n Freiheitsgraden. Die Dichte der Chi-Quadrat-Verteilung können wir sehr einfach berechnen: " # Z Z n X 1 P χ2n ≤ x = · · · (2π)−n/2 exp − x2i dx1 · · · dxn 2 P i=1 n i=1 = Z x2i ≤x √ x (2π)−n/2 sn rn−1 e−r 2 /2 dr 0 wobei sn die Oberfläche der Einheitskugel mit Radius 1 ist, die bekanntlich durch sn = 2π n/2 Γ (n/2) gegeben ist, mit Γ als der Gamma-Funktion: Γ (α) := Z ∞ e−x xα−1 dx, 0 Γ (n) = (n − 1)! für ganzzahliges n. Differentiation liefert uns die Dichte der χ2 -Verteilung: Z √x n−1 d 1 2 (2π)−n/2 sn rn−1 e−r /2 dr = (2π)−n/2 sn x 2 e−x/2 √ . dx 0 2 x Proposition 9.10 Die χ2 -Verteilung mit n Freiheitsgraden hat die Dichte cn (x) = 1 xn/2−1 e−x/2 , x ≥ 0. Γ (n/2) 2n/2 Für x < 0 ist die Dichte gleich 0. Es ist plausibel, dass die Verteilung von σ̂n2 etwas mit der χ2 -Verteilung zu tun hat. Ein Problem besteht offenbar darin, dass wir die Normalverteilten Zufallsgrössen erst nach einer Zentrierung durch die Zufallsgrösse µ̂n quadrieren. Diese zufällige Zentrierung führt jedoch zu einer Reduktion der Pn nur √ √ Zahl der Freiheitsgrade, wie wir gleich zeigen werden. nµ̂n = X / n ist offenbar standard i i normalverteilt, wenn die Xi es sind. Damit haben wir schon Teil a) des folgenden Satzes eingesehen: Satz 9.11 Seien X1 , . . . , Xn unabhängige und standard-normalverteilte Zufallsgrössen. Dann gilt a) √ n 1 X nµ̂n = √ Xi n i=1 ist standard normalverteilt. 9 b) (n − 1) σ̂n2 = n X (Xi − µ̂n )2 i=1 ist χ2 -verteilt mit n − 1 Freiheitsgraden. c) µ̂n und σ̂n2 sind unabhängig. Beweis. Wir beweisen b) und c) zusammen. Sie e1 := √1n , . . . , √1n . Dieser Vektor hat Euklidsche Länge 1. Wir können diesen Vektor zu einer orthonormierten Basis e2 , . . . , en in Rn ergänzen, und zwar so, dass die orthogonale Matrix der Basistransformation Determinante 1 hat. Wir betrachten die Variablentransformation y (x) = (y1 (x) durch yi (x) := hx, ei i gegeben ist. Wegen P P , . . . , yn (x)) , die √ √ y1 (x) = ni=1 xi / n folgt mit x := ni=1 xi / n = y1 (x) / n : n X (xi − x) = n X = n X 2 i=1 x2i − nx2 i=1 2 2 yi (x) − y1 (x) = i=1 n X yi (x)2 . i=2 √ Daraus folgt für die gemeinsame Verteilung von nµ̂n und (n − 1) σ̂n2 : Z Z √ 1 1 Xn 2 2 x dx1 · · · dxn P nµ̂n ≤ a, (n − 1) σ̂n ≤ r = · · · √ exp − P n/2 2 i=1 i 2 nx≤a, n i=1 (xi −x) ≤r (2π) Z Z 1 1 Xn 2 = ··· y dy1 · · · dyn exp − P n/2 i=1 i 2 2 y1 ≤a, n i=2 y2 ≤r (2π) Z a Z Z 1 1 Xn 2 √ e−y1 /2 dy1 · · · P = exp − yi2 dy2 · · · dyn . n i=2 2 2 2π −∞ i=2 y2 ≤r √ √ Daraus ergibt sich, dass nµ̂n und (n − 1) σ̂n2 unabhängig sind, dass die Verteilung von nµ̂n die Standard-Normalverteilung ist (was wir schon wussten), und dass die Verteilung von (n − 1) σ̂n2 die χ2 -Verteilung mit n − 1 Freiheitsgraden ist. 9.2 Testprobleme Die Testtheorie ist eine konzeptionell ziemlich verwirrende Angelegenheit, weniger von der mathematischen Seite her, sondern von den (hoffentlich existierenden) Beziehungen zur “realen Welt”. Ein Standarproblem ist zu entscheiden, ob z.B. ein neues Medikament eine positive Wirkung hat, oder keine bzw. eine negative. Nehmen wir an, dass sich die möglicherweise existierende Wirkung auf eine einfach zu messende eindimensionale Grösse bezieht, z.B. den systolischen Blutdruck. In der Praxis sind die Probleme natürlich meist weitaus komplexer. Um die Effizienz des Medikaments zu testen wird eine Gruppe von n Personen untersucht. Deren Bludruck wird vor der Behandlung gemessen. Die Ergebnisse seien n reelle Zahlen, die als Zufallsgrössen interpretiert werden: U1 , . . . , Un . Nun wird das Medikament verabreicht und dann wird wieder gemessen. Die Ergebnisse seien nun V1 , . . . , Vn . Dann bildet man die Differenzen Xi = Ui − Vi und möchte aufgrund dieser Differenzen nun Rückschlüsse ziehen. Ohne weiter Annahmen ist das so gut wie unmöglich. Wir setzen daher voraus (was allerdings in vielen Situationen schon ziemlich fragwürdig ist), dass die Paare (Ui , Vi ) alle unabhängig sind und 10 dieselbe Verteilung besitzen. Dann sind auch die Xi alle unabhängig und haben dieselbe Verteilung. Wir sind dann daran interessiert, ob µ := EXi = 0 oder nicht ist. Falls man eine Blutdrucksenkung im Auge hat ist die sinnvolle Alternative, an der man interessiert ist, µ > 0. Man nennt µ = 0 die 0-Hypothese. Dass µ exakt gleich 0 ist, ist natürlich wenig plausibel; es interessiert eigentlich nur, ob µ ≤ 0 oder µ > 0 ist. Wir formulieren die 0-Hypothese entsprechend, also 0-Hypothese µ≤0 Alternative µ>0 Das Problem ist, dass man ohne weitere Voraussetzungen immer noch so gut wie keine vernünftigen statistischen Aussagen machen kann. Wir setzen daher weiter voraus, dass wir die Verteilung der Xi bis auf den Parameter µ kennen. Eine beliebte Annahme ist die der Normalverteiltheit der Xi . Die Normalverteilung hat zwei Parameter: Den Mittelwert µ und die Varianz σ 2 . Wenn wir voraussetzen, dass nur der Parameter µ unbekannt ist, müssen wir also voraussetzen, dass σ 2 bekannt ist. Das ist natürlich sehr fragwürdig und tatsächlich werden wir gleich auf diese Annahme verzichten. Im Moment wollen wir sie jedoch gelten lassen um das Prinzip eines statistischen Tests zu erläutern. Es ist plausibel, dass wir unsere Entscheidung anhand des Mittelwertes der Messwerte, d.h. anhand von n 1X µ̂n := Xi n i=1 treffen wollen. Weiter ist plausibel, dass ein “zu grosser” µ̂n -Wert und zum Schluss führen wird, dass die Alternative zutrifft. Wir werden daher einen Wert d > 0 festlegen und uns für die Alternative entscheiden, wenn µ̂n ≥ d ist. Nun gibt es offensichtlich zwei Möglichkeiten, wie wir zu einer fehlerhaften Entscheidung kommen kann. Ist die 0-Hypothese richtig, hat das Medikament also keine Wirkung, so können wir augrund eines Ausgangs µ̂n ≥ d zu dem falschen Schluss kommen, dass die Alternative richtig ist. Dies nennt man einen Fehler 1. Art. Anderseits könnte die Alternative richtig sein und wir verwerfen die 0-Hypothese aufgrund eines Ausgangs µ̂n < d nicht. Dies nennt man einen Fehler 2. Art. Die Vorgehensweise ist nun die, dass wir d so wählen, dass die Wahrscheinlichkeit für einen Fehler 1. Art einen bestimmten vorgegebenen Wert α ∈ (0, 1) nicht überschreitet. α nennt man das Signifikanzniveau. Es ist üblich entweder α = 0.05 oder α = 0.01 zu wählen. Eine Festlegung von α führt nun ohne Schwierigkeiten zu der Bestimmung von d : Wir wissen ja (oder besser, wir nehmen an, dass wir wissen), dass die Xi unabhängig und normalverteilt sind, mit Mittel µ und Varianz σ 2 , wobei wir σ 2 ebenfalls kennen. Dann ist µ̂n normalverteilt mit Mittel µ und Varianz σ 2 /n. Es ist leicht zu sehen, dass Pµ (µ̂n ≥ d) eine ansteigende Funktion von µ ist. (Mit Pµ bezeichnen wir die Wahrscheinlichkeit unter den Parametern µ, σ 2 . Da wir σ 2 im Moment als bekannt voraussetzen, lassen wir es in der Notation weg.) Wenn wir erzwingen wollen, dass Pµ (µ̂n ≥ d) ≤ α für alle µ ≤ 0 ist, so reicht es deshalb aus, den Fall µ = 0 zu betrachten. Demzufolge ist die Wahrscheinlichkeit für einen Fehler 1. Art höchstens √ Z ∞ Z ∞ h n i n 1 1 2 2 P0 (µ̂n ≥ d) = √ exp − 2 x dx = √ exp − x dx 2σ 2 2π d√n/σ 2πσ 2 d √ = 1 − Φ d n/σ , wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist. Sie zα ∈ R die eindeutig definierte Zahl mit Φ (zα ) = 1 − α. (9.6) 11 Ist α < 1/2, was wir stets annehmen wollen, so ist zα > 0. Hier die nummerischen Werte für α = 0.05, α = 0.01, α = 0.001 : z0.05 = 1.6449, z0.01 = 2.3263, z0.001 = 3.0902. Man nennt zα das obere αQuantil der Nomralverteilung. Wählen wir σzα d = d (α, σ, n) := √ , n so erhalten wir P0 (µ̂n ≥ d) = α. (9.7) Wir erhalten somit das folgende Entscheidungsverfahren: σzα µ̂n ≥ √ : Verwerfung der 0 − Hypothese n σzα µ̂n < √ : keine Verwerfung der 0 − Hypothese n (9.8) Ein solches Entscheidungsverfahren nennt man einen Test. Die Wahrscheinlichkeit für einen Fehler √ α kann man jedoch 1. Art ist dabei α. Man nennt den Test einen Niveau-α-Test. Im Falle µ̂n < σz n natürlich immer noch den Verdacht haben, dass die 0-Hypothese nicht richtig ist, und dass z.B. eine grössere Stichprobe zum entsprechenden Schluss geführt hätte. Man sagt dann auch einfach, der Ausgang sei nicht signifikant (zum vorgegebenen Niveau α). Ursprünglich hatten wir eigentlich nur verlangt, dass wir in (9.7) ≤ α haben. Es ist jedoch klar, dass wir für µ > 0 die Wahrscheinlichkeit Pµ (µ̂n ≥ d) möglichst gross haben wollen. Von daher wird man d so wählen, dass (9.7) gilt. Es ist ziemlich üblich α = 0.01 zu nehmen. In der Praxis wird man natürlich ausrechnen, zu welchem α das Resultat noch signifikant ist. Im statistischen Jargon nennt man ein Niveau α = 0.05 “schwach signifikant” und α = 0.001 “hoch signifikant”. Hier noch eine ganz abstrakte allgemeine Definition, was ein Niveau-α-Test ist. Sei (Pθ )θ∈Θ eine Familie von Wahrscheinlichkeitsmassen auf Ω. Seien Θ0 , ΘA ⊂ Θ zwei disjunkte Teilmengen von Θ. Definition 9.12 Sei α ∈ (0, 1) . Ein Niveau-α-Test für die 0-Hypothese {θ ∈ Θ0 } gegen die Alternative {θ ∈ ΘA } ist ein Entscheidungsverfahren der Form • Entscheidung für die Alternative, falls X ≥ z ist • Keine Ablehnung der 0-Hypothese, falls X < z ist. Dabei ist X : Ω → R ein Zufallsgrösse (die sogenannte Teststatistik), und z ∈ R ist so gewählt, dass sup Pθ (X ≥ z) ≤ α θ∈Θ0 gilt. Ein Niveau-α-Test garantiert somit, dass die Wahrscheinlichkeit für einen Fehler 1. Art stets kleiner als α ist, d.h. die Wahrscheinlichkeit für eine fehlerhafte Annahme der Alternative ist durch α beschränkt. Dies ist jedoch offensichtlich nur eine Seite der Sache: Man möchte natürlich, dass die Wahrscheinlichkeit für eine Verwerfung der 0-Hypothese gross ist, sofern die Alternative auch zutrifft. Ausser in ganz einfachen und artifiziellen Fällen besteht die Alternativen aus einer Vielzahl 12 von Wahrscheinlichkeitsmassen, und man wird davon ausgehen müssen, dass die Wahrscheinlichkeit für einen Fehler 2. Art vom Parameter θ abhängt (und natürlich von der gewählten Teststatistik). Wir untersuchen den obigen sehr einfachen gelagerten Fall der Normalverteilung. Der Fehler 2. Art, bei Vorliegen der Alternative µ > 0 ist natürlich einfach gegeben durch σzα Pµ µ̂n < √ . nσ Nun ist µ̂n unter Pµ einfach normalverteilt mit Mittel µ und Varianz σ 2 /n, d.h. ! ! σz √α − µ √ µ̂n − µ µ̂n − µ σzα n Pµ µ̂n < √ = Pµ p < p = Pµ p < zα − nµ/σ n σ 2 /n σ 2 /n σ 2 /n √ = Φ zα − nµ/σ , µ̂n −µ die letzte Gleichung weil √ unter Pµ standard-normalverteilt ist. Nun muss man sich daran 2 σ /n erinnern, dass zα so gewählt war, dass Φ (zα ) = 1 − α ist. Die Funktion √ [0, ∞) 3 µ → Φ zα − nµ/σ ∈ [0, 1] ist eine monoton fallende Funktion in µ. Es ist klar, dass für µ “sehr nahe” bei 0, diese Wahrscheinlichkeit für einen Fehler 2. Art immer noch nahe bei 1 − α ist. Wie schnell die Funktion abfällt hängt natürlich von n ab: Je grösser n ist, desto schneller fällt sie ab. Meist wird übrigens die Funktion √ 1 − Φ (zα − nµ/σ) aufgezeichnet, also die Wahrscheinlichkeit für Ablehnung der 0-Hypothese. Diese Wahrscheinlichkeit sollte natürlich möglichst gross auf den Alternativen sein. Auf Englisch heisst das die “power function” in Deutsch meist mit Gütefunktion übersetzt. Unten ist die Gütefunktion in unserem Beispiel für α = 0.01, n = 10 und n = 100 (bei σ 2 = 1) aufgezeichnet. Abbildung 1: Gütefunktion bei n = 10 13 Abbildung 2: Gütefunktion bei n = 100 Man wird natürlich nach möglichst “guten” Tests Ausschau halten. Definition 9.13 Ein Niveau-α-Test für die Hypothese {θ ∈ Θ0 } gegen die Alternative {θ ∈ ΘA } heist UMP-Test (uniformly most powerfull), falls seine Wahrscheinlichkeit für einen Fehler 2. Art höchstens die jedes anderen Niveau-α-Tests ist, und zwar gleichmässig in θ ∈ ΘA . Es vesteht sich fast von selbst, dass UMP-Tests in der Regel nicht existieren. Das Problem besteht darin, dass die Optimalität gleichmässig in allen Alternativen gelten soll. Allerdings ist gerade das bisher diskutierte Beispiel eine Ausnahme von dieser Regel: Für den Test von {µ ≤ 0} gegen {µ > 0} ist der oben diskutierte Test tatsächliche UMP. Ein UMP-Test existiert stets, wenn die 0-Hypothese und die Alternative wie man sagt einfach sind, d.h. jeweils nur ein Wahrscheinlichkeitsmass enthalten. Das ist der Inhalt des Neyman-Pearson Lemmas. Wir formulieren es in einer einfachen Situation: Seien P1 und P0 zwei Wahrscheinlichkeiten auf der abzählbaren Menge Ω. Der Einfachheit halben nehmen wir an, dass P0 (ω) > 0, P1 (ω) > 0 für alle ω ∈ Ω gelten. Wir wählen als Teststatistik den sogenannten Likelihoodquotienten: P1 (ω) L (ω) := ∈ R. P0 (ω) Der Likelihood-Quotienten-Test für die Hypothese P0 gegen die Alternative P1 ist nun einfach der Test mit Teststatistik L : Für z > 0 sei X α (z) := P0 (ω) . ω:L(ω)≥z Satz 9.14 (Neyman-Pearson Lemma) Der Test {L ≥ z} ist UMP zum Niveau α (z) für die 0-Hypothese P0 gegen die Alternative P1 . Beweis. Wir betrachten den Ablehnungsbereich A := {L (ω) ≥ z} für unseren Likelihood-QuotientenTest und den Ablehungsbereich B ⊂ Ω für einen beliebigen anderen Test zum Niveau α (z) . Dann ist 14 die Güte dieses anderen Tests einfach X P1 (ω) = ω∈B X ≤ X P1 (ω) und wir erhalten die Ungleichung X P1 (ω) ≤ ω∈B∩Ac P1 (ω) + z ω∈B∩A = ω∈B P1 (ω) + ω∈B∩A X P X X P1 (ω) + z ω∈B c ∩A X ω∈B∩A P0 (ω) X P1 (ω) ω∈B∩Ac ω∈B∩A P0 (ω) ≤ X P1 (ω) + ω∈B c ∩A P1 (ω) . ω∈A P P Die zweite Ungleichung folgt wegen α (z) = ω∈A P0 (ω) ≥ ω∈B P0 (ω) , was einfach die Eigenschaft ist, dass der zweite Test auch ein Niveau α-Test ist. Das Neyman-Pearson-Lemma lässt sich auch leicht in allgemeineren Situationen beweisen, z.B. wenn P0 und P1 die Verteilungen einer Zufallsgrösse (oder eines Zufallsvektors) sind, die beide Dichten besitzen. Die Ausformulierung und der Beweis seien dem Leser überlassen. Immer gilt dabei die Voraussetzung, dass die Hypothese und die Alternative einfach sind. Mit Hilfe des Neyman-PearsonLemmas können wir nun leicht nachweisen, dass unser Test µ ≤ 0 gegen µ > 0 UMP ist. Wir betrachten dazu die einfache Hypothese {µ = 0} gegen die einfache Alternative {µ = µ0 } mit einem beliebigen µ0 > 0. Nach dem Neyman-Pearson-Lemma ist dafür der Likelihood-Quotienten-Test der UMP-Test. Nun hat der Zufallsvektor (X1 , . . . , Xn ) die gemeinsame Dichte (9.3). Der Quotient ist X n fµ0 ,σ2 (x) µ0 nµ2 = exp 2 xi − 20 . i=1 f0,σ2 (x) σ σ 2 (Wir Pn setzen σ als bekannt voraus). Als Funktion der xi ist das einfach eine monotone Funktion von i=1 xi . Demzufolge lehnt der Likelihood-Quotienten-Test die 0-Hypothese ab, wenn diese Summe zu gross wird, wobei die Schranke einfach durch das Niveau α festgelegt wird. Somit ist LikelihoodQuotienten-Test einfach der Test, den wir schon betrachtet haben. Da unser Test somit exakt gleich dem Likelihood-Quotienten-Test für {µ = 0} gegen {µ = µ0 } für ein belibiges µ0 > 0 ist, und demzufolge UMP für diese Situation, so folgt dass er UMP für {µ = 0} gegen {µ > 0} ist. Es folgt dann auch sofort, dass er UMP für {µ ≤ 0} gegen {µ > 0} ist. Es kommt natürlich auch vor, dass man daran interessiert ist, ob ein Medikament überhaupt eine Wirkung hat, die sich von Placebos unterscheidet, gleichgültig ob diese Wirkung positiv oder negativ ist. In einem solchen Fall möchte man die 0-Hypothese {µ = 0} gegen die Alternative {µ 6= 0} testen. Ein natürlicher Test ist einfach der folgende zweiseitige Test: Man lehnt die 0-Hypothese ab, wenn |µ̂n | zu gross ist. Um das Niveau α zu gewährleisten, muss der Test dann wie folgt aussehen: σzα/2 |µ̂n | ≥ √ : Verwerfung der 0 − Hypothese n σzα/2 |µ̂n | < √ : keine Verwerfung der 0 − Hypothese. n (9.9) Dieser Test ist übrigens evidenterweise nicht mehr UMP. Dies liegt einfach daran, dass unser vorheriger einseitiger Test auch für unsere Situation ein Niveau-α-Test ist, der für µ > 0 natürlich eine bessere Güte hat. Allerdings ist die Ablehnungswahrscheinlichkeit für µ < 0 kleiner als α, was sicher nicht wünschbar oder sinnvoll ist. Jedenfalls ist jedoch klar, dass (9.9) nicht mehr UMP ist. Es ist jedoch sinnvoll, das UMP-Konzept etwas einzuschränken. Generell wird man natürlich keine Tests in Betracht ziehen wollen, die für irgendeine Alternative eine Ablehnungswahrscheinlichkeit < α haben. 15 Definition 9.15 Ein Test für die 0-Hypothese Θ0 gegen die Alternative ΘA heisst unverfälscht (englisch “unbiased”), wenn Pθ (Ablehnung) ≥ α für alle θ ∈ ΘA ist. Ein Test heisst gleichmässig bester unverfälschter Test, wenn für jedes θ ∈ ΘA die Ablehnungswahrscheinlichkeit maximal unter allen unverfälschten Tests ist. (Auf Englisch: UMP unbiased). Man kann nachweisen, dass unser Test (9.9) UMP unbiased ist. Wir kommen nun noch zu einer wichtigen Modifikation des Tests von {µ ≤ 0} gegen {µ > 0} im Falle der Normalverteilung. Wir hatten ja bisher angenommen, dass die Varianz σ 2 bekannt ist. Das ist in der Praxis natürlich völlig unsinnig, und wir lassen diese Voraussetzung nun fallen. Unsere Parametermenge Θ ist daher Θ := µ, σ 2 : µ ∈ R, σ 2 > 0 . Für σ 2 interessieren wir uns eigentlich nicht. (Das nennt man einen “nuisance parameter”). Die 0Hypothese ist daher nach wie vor Θ0 := µ, σ 2 : µ ≤ 0, σ 2 > 0 , und die Alternative ΘA := µ, σ 2 : µ > 0, σ 2 > 0 . Es ist dann klar, dass wir den Test (9.8) nicht benützen können, da wir σ 2 nicht kennen. Ein naheliegendes Verfahren besteht darin, σ 2 einfach aus den Daten selbst zu schätzen. Wie wir in Abschnitt 9.1 ausgeführt haben, ist n 1 X 2 (Xi − µ̂n )2 σ̂n := n−1 i=1 P √ √ 2 ein vernünftiger Schätzer für σ . Wir ersetzen die Teststatistik nµ̂n /σ = (1/ nσ) ni=1 Xi durch √ nµ̂n Tn := . (9.10) σ̂n In der englischsprachigen Literatur nennt man das die “ studentized statistics”. Die Bezeichnung geht auf den Statistiker William Gosset zurück, der seine Arbeiten unter dem Pseudonym “Student” publiziert hat. Der berühmte t-Test besteht dann einfach darin, dass die 0-Hypothese verworfen wird, wenn Tn zu gross ist. Student’s t-Test: Tn ≥ tα,n−1 : Annahme der Alternative (9.11) Tn < tα,n−1 : keine Verwerfung der 0 − Hypothese. (Der Grund für die Schreibweise tα,n−1 wird gleich ersichtlich werden.) tα,n−1 muss so bestimmt werden, dass unter der 0-Hypothese P(µ,σ2 ) (Tn ≥ tα,n−1 ) ≤ α ist. Natürlich ist wieder der Fall µ = 0 der Extremfall und wir wollen daher tα,n−1 so bestimmen, dass P(0,σ2 ) (Tn ≥ tα,n−1 ) = α ist. Etwas lästig erscheint die Anwesenheit von σ 2 , aber es stellt sich zum Glück heraus, dass die Verteilung von Tn gar nicht von σ 2 abhängt: Ist nämlich Xi normalverteilt mit Mittel 0 und Varianz σ 2 , so ist Xi /σ standard-normalverteilt. Die Substitution von Xi durch Xi /σ ändert jedoch im Ausdruck (9.10) gar nichts. Demzufolge ist die Verteilung von Tn von σ 2 unabhängig. Es ist jedoch klar, dass die Verteilung von n abhängt. 16 Definition 9.16 Sind X1 , . . . , Xn unabhängige und standard-normalverteilte Zufallsgrössen, so heisst die Verteilung von Tn die t-Verteilung mit n − 1 Freiheitsgraden. √ √ Gemäss Satz 9.9 sind nµ̂n und σ̂n2 unabhängig, wobei nµ̂n standard normalverteilt und (n − 1) σ̂n2 χ2 -verteilt mit n − 1 Freiheitsgraden sind. Proposition 9.17 Ist Y standard normalverteilt, ist Z χ2 -verteilt mit n Freiheitsgraden und sind Y und Z unabängig, so hat die Zufallsgrösse Y /Z die Dichtefunktion Γ ((n + 1) /2) fn (t) = √ nπΓ (n/2) t2 +1 n −(n+1)/2 . Beweis. Übungsaufgabe. Der kritische Wert tα,n−1 ist einfach das obere α-Quantil der t-Verteilung mit n−1 Freiheitsgraden, also die eindeutig bestimmte Zahl mit Z ∞ fn−1 (t) dt = α. tα,n−1 Für n → ∞ konvergiert die t-Veteilung gegen die Standard-Normalverteilung. Insbesondere gilt lim tα,n−1 = zα , n→∞ wobei zα durch (9.6) definiert ist. Wir wollen dies hier nicht beweisen. Die Unterschiede sind jedoch nicht ganz zu vernachlässigen. TInv(0.95; 10) = 1. 812 5 Die folgende Tabelle gibt einige Werte für die t-Quantile tα,n bei α = 0.05 und α = 0.01 : n 10 20 50 100 ∞ α = 0.05 1.8125 1.7247 1.6759 1.6602 1.6449 α = 0.01 2.7638 2.5280 2.4033 2.3642 2.3263 Der t-Test ist übrigens auch im einseitigen Fall nicht mehr UMP, jedoch UMP unbiased. Wir können jedoch auf den Beweis nicht eingehen, der ziemlich aufwendig ist. Wir diskutieren noch zwei wichtige Varianten des t-Test. Unter Umstände möchte man auch auf zweiseitige Alternativen testen: Nämlich die 0-Hypothese {µ = 0} gegen die Alternative {µ 6= 0} . In diesem Fall verwirft man die Hypothese, wenn der Absolutbetrag von Tn zu gross, ist, d.h. wenn Tn ≥ tα/2,n oder Tn ≤ −tα/2,n ist. Da die Verteilung von Tn unter der 0-Hypothese symmetrisch ist, ist das offensichtlich ein Niveau-α-Test. Eine weitere Modifikation ist der sogenannte Zweistrichprobentest: Wir sind ja ursprünglich beim motivierenden Beispiel davon ausgegangen, dass die Xi als Differenzen von zwei Zufallsgrössen Ui und Vi zustande kommen. Es kommt jedoch oft vor, dass nicht einfach dieselbe Person zweimal - einmal vor und einmal nach einer Behandlung - gemessen wird, sondern dass zwei Gruppen von Personen untersucht werden. Typischerweise wird in der klinischen Forschung einer Gruppe das Medikament und einer zweite Gruppe ein Placebo gegeben (natürlich ohne dass die Versuchspersonen wissen, zu 17 welcher Gruppe sie gehören). Es liegen dann zwei Gruppen von Messungen vor unter Umständen auch mit unterschiedlicher Stichprobengrösse: Etwa Ui , i = 1, . . . , n und Vi , i = 1, . . . , m. Eine der Standardannahmen ist, dass die Ui unabhängig und normalverteilt mit Mittel µ1 , Varianz σ 2 und die Vi normalverteilt mit Mittel µ2 und Varianz σ 2 . Die 0-Hypothese lautet im einseitigen Fall dann etwas {µ1 ≤ µ2 } gegen die Alternative {µ1 > µ2 } oder im zweiseitigen Fall {µ1 = µ2 } gegen {µ1 6= µ2 } . Als Teststatistik wird dann Tn := q U −V 1 m + 1 n r 1 m+n−2 mit U= P n i=1 , Ui − U 2 + n m i=1 i=1 Pm i=1 Vi − V 2 1X 1X Ui , V = Vi n n verwendet. Unter der 0-Hypothese µ1 = µ2 ist Tn t-verteilt mit n + m − 2 Freiheitsgraden. Der t-Test ist vielleicht der am weitesten verbreitete Test überhaupt. Viele mathematische Statistiker stimmen jedoch darin überein, dass man ihn eigentlich nicht verwenden sollte. Der Haupteinwand gegen ihn besteht darin, dass der Test zwar UMP unverfälscht ist, dass aber diese Eigenschaft sehr schnell verloren geht, wenn die Voraussetzung der Normalverteiltheit verletzt ist. Die Optimalität des t-Test ist sehr wenig robust. Es gibt eine Reihe von Alternativen, die sich in dieser Beziehung besser verhalten. Wir kommen nochmals auf das Bernoulli-Experiment zurück. Wir nehmen an, dass jemand testen will, ob die Erfolgswahrscheinlichkeit p = p0 oder p 6= p0 ist. Es ist naheliegend, dafür wieder die Anzahl der Erfolge Xn zu verwenden und die Hypothese zu verwerfen, wenn |Xn − np0 | zu gross ist. Da es ziemlich lästig ist, für jedes feste n den Schwellenwert für Ablehnung getrennt auszurechnen macht man meist eine Asymptotik für n → ∞.pNatürlich kann man den Test dann nur für grosse n verwenden. Wie wir wissen ist (Xn − np0 ) / np0 (1 − p0 ) unter der 0-Hypothese asymptotisch standard normalverteilt, d.h. es gilt für jedes x ∈ R : ! Z x Xn − np0 1 2 p √ e−y /2 dy. lim Pp0 ≤ x = Φ (x) := n→∞ 2π np0 (1 − p0 ) −∞ Wenn zα das obere α-Quantil von Φ ist: Φ (zα ) = 1 − α, so gilt ! |Xn − np0 | lim Pp0 p ≥ zα/2 = α. n→∞ np0 (1 − p0 ) Der Test mit dem Ablehnungsbereich |Xn − np0 | ≥ zα/2 p np0 (1 − p0 ) hat daher asymptotisch das korrekte Niveau. Wir wollen noch eine wichtige Verallgemeinerung dieses Test distkutieren, den χ2 -Test. Man will etwa testen, ob ein Würfel auf alle Seiten mit gleicher Wahrscheinlichkeit fällt. Dazu wirft man den Würfel n mal. Wir bezeichnen mit Ni die Anzahl der Würfe bei denen der Würfel i anzeigt. Es ist plausibel, dass wir die 0-Hypothese verwerfen werden, wenn der Vektor Nn1 , . . . , Nn6 zu sehr von 16 , . . . , 16 abweicht. Eine naheliegende Teststatistik ist der Euklidsche Abstand. Wir fassen das gleich etwas allgemeiner: Sei p = (p (1) , . . . , p (m)) ein Wahrscheinlichkeitsvektor. Wir betrachten ein Zufallsexperiment mit m möglichen Ausgängen, der Einfachheit halber bezeichnen wir sie mit 18 1, . . . , m. Dabei hat i die Wahrscheinlichkeit p (i) . Dieses Zufallsexperiment wird nun n mal unabhängig wiederholt. Wir bezeichnen mit N1 , . . . , Nm die Anzahl von Ausgänge des Zufallsexperiments, bei denen i auftritt. Ein geeigneter Wahrscheinlichkeitsraum ist einfach zu konstruieren: Ω := {ω = (ω1Q , . . . , ωn ) : ωi ∈ {1, . . . , m}} . Ein Elementarereignis ω hat dann die Wahrscheinlichkeit Pp (ω) = ni=1 p (ωi ) . Damit können wir auch die Verteilung des Vektors N := (N1 , . . . , Nm ) ausrechnen: Für n1 + . . . + nm = n gilt Pp (N = (n1 , . . . , nm )) = A (n1 , . . . , nm ) m Y p (i)ni , i=1 wobei A (n1 , . . . , nm ) die Anzahl der Möglichkeiten ist, die n1 Plätze bei denen 1 vorkommt, die n2 Plätze bei denen 2 vorkommt, etc. in den n Ausgängen des Zufallsexperimentes zu verteilen: Demzufolge ergibt sich n n − n1 n − n1 − n2 n − n1 − . . . − nm−1 A (n1 , . . . , nm ) = ··· n1 n2 n3 nm n! = Qm . i=1 ni ! Somit erhalten wir n! Pp (N = (n1 , . . . , nm )) = Qm m Y i=1 ni ! i=1 p (i)ni . Dies nennt man die Multinomialverteilung. Die Verteilung von N1 alleine ist natürlich einfach die Binomialverteilung mit Erfolgswahrscheinlichkeit p1 , und analog für N2 , N3 , . . . . Daraus ergibt sich, dass Ni − np (i) p np (i) (1 − p (i)) asymptotisch standard normalverteilt ist. Wir benötigen den folgenden Satz Satz 9.18 m X (Ni − np (i))2 i=1 np (i) ist asymptotisch χ2 -verteilt mit m − 1 Freiheitsgraden. Beweis. Wahrscheinlichkeitstheorie nächstes Semester. Unter Verwendung dieses Satzes können wir nun sofort einen Niveau-α-Test für die Multinomialverteilung angeben. Wir wollen die 0-Hypothese p = p0 gegen die Alternative p 6= p0 testen (p und p0 sind Wahrscheinlichkeitsvektoren der Länge m). Wir verwerfen die 0-Hypothese, wenn m X (Ni − np (i))2 i=1 np (i) ≥ χ2m−1,α (9.12) ist. Dabei ist χ2k,α das obere α-Quantil der χ2 -Verteilung mit k Freiheitsgraden, d.h. die eindeutige definierte postive Zahl mit Z ∞ 1 xk/2−1 e−x/2 dx = α. Γ (k/2) 2k/2 χ2k,α 19 (Falls k gerade ist, lässt sich das Integral natürlich explizit ausrechnen). Der Test (9.12) hat für endliches n natürlich nicht genau das Niveau α; der Unterschied ist für einigermassen grosse n jedoch vernachlässigbar. Für Leser, die ihre Würfel testen wollen: hier die Quantile for m = 6 : χ25,0.05 = 11.07, χ25,0.01 = 15.086, χ25,0.001 = 20.515. Zur Illustration nehmen wir an, sie werfen den Würfel 600 mal und erhalten die folgende Verteilung der Augenzahlen. 120, 123, 81, 85, 111, 80. Dann ist m X (Ni − np (i))2 202 + 232 + 192 + 152 + 112 + 202 = = 2.036. np (i) (1 − p (i)) 100 i=1 Somit besteht kein Grund zur Beunruhigung. Wären jedoch alle Zahlen 10 mal grösser, so hätte man ebenfalls den 10-fachen Wert der Teststatistik. Dann könnte man getrost davon ausgehen, dass der Würfel gezinkt ist. 9.3 Konfidenzintervalle Wir kommen kurz zurück zu Schätzproblemen wie in Abschnitt 9.1, aber nun unter einem etwas anderen Gesichtspunkt. Wir nehmen wieder ein parametrisches Modell an, d.h. einen Raum Ω mit einer Familie von Wahrscheinlichkeitsmassen Pθ , wobei wir für den Moment annehmen, dass θ eindimensional ist. Wichtiger als eine Schätzung θ̂, wie in Abschnitt 9.1 diskutiert, dass man gewisse i h ist meist, Fehlergrenzen angibt, die θ einschränken. Wir wollen also ein Intervall θ̂− , θ̂+ bestimmen, in dem θ “mit grosser Wahrscheinlichkeit” liegt. Ein solches Intervall nennt man Konfidenzintervall. Nun muss man den folgenden konzeptionellen Gesichtspunkt festhalten (der nicht von allen Statistikern geteilt wird): Wir haben stets angenommen, dass θ nicht zufällig ist, sondern nur dem Statistiker unbekannt ist. Somit macht es keinen Sinn, eine Wahrscheinlichkeit zu bestimmen, mit der θ irgendwo liegt. Zufällig sind jedoch die Grenzen θ̂− , θ̂+ unseres Konfidenzintervalles. Wir suchen also nach Zufalls h i grössen θ̂− , θ̂+ , die die Eigenschaft haben, dass Pθ θ ∈ θ̂− , θ̂+ für alle möglichen Parameter gross ist. Der Statistiker muss festlegen, wie gross diese Wahrscheinlichkeit sein soll, bzw. wie klein die Fehlerwahrscheinlichkeit werden soll. Definition 9.19 h i Sei α ∈ (0, 1). Ein Konfidenzintervall zum Konfidenzniveau α ist ein Intervall der Form θ̂α,− , θ̂α,+ , wobei θ̂α,− und θ̂α,+ Zufallsgrössen sind, für die h i Pθ θ ∈ θ̂α,− , θ̂α,+ ≥ 1 − α für alle θ ∈ Θ gilt. Nun ergibt sich sofort ein direkter Zusammenhang mit der Testtheorie aus dem letzten Abschnitt 9.2: Nehmen wir einmal an, wir wollen die 0-Hypothese {θ = θ0 } gegen die zweiseitige Alternative {θ 6= θ0 } testen, und wir hätten dazu eine Teststatistik T mit der Eigenschaft, dass die 0-Hypothese verworfen wird, wenn T ∈ / A gilt, wobei A eine Teilmenge von R ist. Natürlich hängt A von α und natürlich auch von θ0 ab. Wir schreiben daher A (α, θ0 ) . Bei einer gegebenen Realisierung von T können wir die Menge aller θ0 bestimmen, für die die 0-Hypothese nicht verworfen wird: K (ω) := {θ0 ∈ Θ : T (ω) ∈ A (α, θ0 )} ⊂ Θ. 20 Dies ist natürlich eine zufällige Menge, denn T ist eine Zufallsgrösse. Per Definition eines Niveau-αTests gilt dann Pθ0 ({ω ∈ Ω : T (ω) ∈ A (α, θ0 )}) ≥ 1 − α für alle θ0 ∈ Θ. (Den Index 0 können wir uns in Zukunft natürlich wieder sparen). Wenn K (ω) die Form eines Intervalls hat, was in der Regel der Fall ist, so haben wir genau unser Konfidenzintervall gefunden. Wir brauchen daher nur die Tests aus dem letzten Abschnitt unter diesem Gesichtspunkt ausschlachten. Wir beschränken uns auf den allereinfachsten Fall, nämlich den Parameter p der Binomialverteilung. Sei Xn die Anzahl der Erfolge und X n := Xn /n. Wie wir gesehen hatten, wird die 0-Hypothese p = p0 im zweiseitigen Fall nicht abgelehnt, wenn p p −zα/2 np0 (1 − p0 ) < Xn − np0 < zα/2 np0 (1 − p0 ), p p p0 (1 − p0 ) p0 (1 − p0 ) √ √ p0 − zα/2 < X n < p0 + zα/2 n n gilt. (Allerdings setzen wir hier voraus, dass n schon so gross ist, dass die Normalapproximation gerechtfertigt ist). Wir müssen nun diese Bedingung nur noch umformen. Da wir n ohnehin als einigermassen gross voraussetzen müssen, ersetzen wir p0 unter den Wurzelausdrücken durch X n , was zu einem Fehler der Ordnung 1/n führen wird, den wir vernachlässigen. Wir erhalten deshalb das approximative Konfidenzintervall q q Xn 1 − Xn Xn 1 − Xn , √ √ , X n + zα/2 Kn := X n − zα/2 n n wobei die Fehler in den Grenzen des Intervalls von der Ordnung O (1/n) sind. Tatsächlich lässt sich leicht nachweisen, dass für jedes p ∈ (0, 1) lim Pp (p ∈ Kn ) = 1 − α n→∞ gilt. Dies sind die üblichen Konfidenzintervalle für den Parameter der Binomialverteilung. Für kleine n sind sie jedoch nicht genau; dann sollte man aber auch nicht die Approximation durch die Normalverteilung verwenden. Ein Rechenbeispiel: n = 1000 und 310 Erfolge. Dann ist das 99%-Konfidenzintervall (z0.005 = 2.5758) ! r r 0.310 · 0.590 0.310 · 0.590 0.31 − z0.005 , 0.31 + z0.005 = (0.275, 0.345) . 1000 1000 Oft wird jedoch auch nur ein 95%−Konfidenzintervall angegeben, das natürlich enger ist. Meinungsforschungs-Institutionen geben oft noch kleinere Bandbreiten an. Diese werden dadurch erzielt, dass die Stichprobe nicht ganz zufällig ausgewählt wird, sondern nach teilweise systematischen Gesichtspunkten. Dies birgt jedoch immer die Gefahr, dass auch systematische Fehler eingebaut werden. 21