8 Statistische Probleme Grundlage aller statistischen Probleme sind probabilistische Modelle mit Parametern, die dem “Statistiker” nicht oder nicht vollständig bekannt sind. Aus Beobachtungsdaten sollen dann Rückschlüsse auf diese Parameter gezogen werden, die den Grad der Unsicherheit einschränken. Das Grundproblem ist daher sehr ähnlich zum Problem der “Fragestrategien” des letzten Kapitels, obwohl die Gesichtspunkte etwas anders liegen. Ein einfaches Beispiel ist eine Binomialverteilung mit Erfolgswahrscheinlichkeit p; wobei p nicht zum vornherein bekannt ist. Jedermann ist schon solchen Problemen begegnet, z.B. ist sicher schon jeder beim Würfelspielen nach eine Pechsträhne auf den Gedanken gekommen, ob denn die Wahrscheinlichkeiten für die einzelnen Augenzahlen wirklich dieselben seien. Es ist naheliegend, solche Zweifel anhand von (langen) Versuchsreihen zu testen. Man unterscheidet zwei Typen von statistischen Problemen, die miteinander zusammenhängen: Einerseits gibt es die Testprobleme. Hier geht es darum, eine Hypothese anhand von Daten zu überprüfen. Eine typische Hypothese wäre etwa, dass der Würfel o.k. ist, die der sogenannten Alternative gegenüber gestellt wird, die besagen würde, dass der Würfel gezinkt ist. Ein anderes Beispiel: Man interessiert sich dafür, ob ein neues Medikament gegenüber älteren wie man sagt signi…kant besser ist. Man formuliert dann eine sogenannte 0-Hypothese, die besagt, dass kein Unterschied besteht, bzw. das neue Medikament höchstens so gut wie das alte ist. Die Hypothese wird dann einem statistischen Test aufgrund von Daten unterworfen. Je nach Ausgang des Tests wird man die 0-Hypothese verwerfen und die Alternative akzeptieren, nämlich dass das neue Medikament besser ist. Man sagt dann auch, dass die Daten signi…kant nicht mit der 0-Hypothese in Einklang zu bringen sind. Der zweite Typus von Problemen (die wir jedoch zuerst behandeln) sind Schätzprobleme. Hier geht es darum, Parameter in einem Modell zu schätzen. Ein typisches Beispiel ist die Schätzung des Parameters p in einem Bernoulliexperiment. Das Kapitel gliedert sich in drei Unterabschnitte. In einem ersten diskutieren wir Schätzprobleme, in einem zweiten Testprobleme, und in einem dritten kommen wir auf Schätzprobleme zurück, nämlich auf sogenannte Kon…denzschätzungen. Noch etwas zur Notation: In Abweichung von früheren Gep‡ogenheiten bezeichnen wir die Wahrscheinlichkeiten der Elementarereignisse mit P (!) ; hauptsächlich um P von Parametern, wie p des Bernoulli-Experiments, abzugrenzen. Die meisten Wahrscheinlichkeiten in diesem Kapitel werden noch von Parametern abhängen. wir schreiben dann den Parameter als Index, z.B. Pp für das Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p. n, die Länge des Experiments, ist natürlich auch ein Parameter. Wenn wir ihn betonen (n) wollen schreiben wir Pp : 8.1 Einfache Schätzprobleme Schätzprobleme bestehen einfach darin, dass gewisse Parameter eines Modells aufgrund von erhobenen Daten geschätzt werden sollen. 127 Betrachten wir etwa ein Bernoulli-Experiment mit (unbekanntem) Parameter p: Wir gehen davon aus, dass wir das Zufallsexperiment, wie im Bernoulli-Experiment beschrieben, n-mal unabhängig wiederholen. Bezeichnet Xn die Anzahl der Erfolge, so wissen wir, dass Xn binomialverteilt mit Parametern p und n ist. Wir setzen voraus, dass wir n kennen. Eine naheliegende Schätzung von p ist Xn =n: Es ist üblich, eine derartige Schätzung eines Parameters mit einem “Dach” über dem zu schätzenden Parameter zu bezeichnen; wir schreiben also Xn p^n := : (8.1) n Dies ist natürlich eine Zufallsgrösse. Nach der erfolgten “Messung”, d.h. der Realisierung des Zufallsexperimentes, ist p^n natürlich einfach eine Zahl. Manchmal macht man die Unterscheidung nicht sehr sorgfältig. Es ist jedoch klar, dass wir uns hauptsächlich für die probabilistischen Aspekte interessieren, d.h. dass wir Eigenschaften von p^n als Zufallsgrösse diskutieren. Allerdings haben wir uns mit der Schwierigkeit auseinanderzusetzen, dass die Verteilung dieser Zufallsgrösse vom Parameter p abhängt, den wir nicht kennen. Es ist wichtig, einige grundlegende Annahmen festzuhalten, über deren Berechtigung viel Tinte verspritzt worden ist: Wir nehmen in diesem Beispiel (und hier fast durchgehend) keinesfalls an, dass p selbst zufällig ist. Im Gegenteil betrachten wir p als eine feste Zahl, die bloss dem Statistiker (zunächst) unbekannt ist. Es hat daher keinen Sinn, nach der Wahrscheinlichkeit zu fragen, mit der p = 1=6 ist. Es ist jedoch sinnvoll zu fragen, mit welcher Wahrscheinlichkeit p^n sich um weniger als 0:1 von p unterscheidet.13 Zunächst einige theoretische Konzepte. Wir betrachten einen Wahrscheinlichkeitsraum ( ; F; P ) : Dabei sind die P Wahrscheinlichkeitsmasse auf F, die noch von einem Parameter abhängen, der “unbekannt”ist. Für die meisten Beispiele, die wir diskutieren, nehmen wir an, dass abzählbar ist, sodass wir den allgemeinen masstheoretischen Rahmen nicht brauchen. Der Parameter kann im Prinzip ziemlich beliebig sein; wir nehmen jedoch an, dass = ( 1 ; : : : ; m ) 2 Rm gilt, meist sogar einfach 2 R: In letzterem Fall nennt man den Parameter eindimensional. Oft tritt jedoch die Situation ein, dass nicht jeder mögliche Vektor in Rm (oder im eindimensionalen Fall jede reelle Zahl) tatsächlich ein Parameter ist. Auch im Bernoulli-Experiment ist ja der Parameter p auf das Intervall [0; 1] eingeschränkt. Die Menge aller Parameterwerte, die vorkommen können, bezeichnen wir mit Rm : Für jeden möglichen Parameter 2 ist also ein Wahrscheinlichkeitsmass P auf ( ; F) de…niert. Erwartungswerte bezüglich P schreiben wir als E : Es werden in der statistischen Literatur oft auch unendlichdimensionale Parametermengen diskutiert. Im Jargon der Statistik nennt man solche Situationen etwas 13 Die “philosphische” Schwierigkeit mit diesem Ansatz ist, dass p als eine Grösse betrachtet wird, die dem Würfel quasi als physikalische Konstante angeheftet ist, wie etwa die Masse oder die chemische Zusammensetzung und wir p nur noch messen müssen. Bei einem Würfel mag diese Vorstellung noch gut angehen; in anderen (wichtigeren) Fällen ist dieser Ansatz natürlich fragwürdig und ist unter Beschuss gekommen (z.B. von de Finetti). Im Gegensatz dazu geht die sogenannte Bayessche Statistik von einer Zufallsverteilung der Parameter aus, die durch “subjektive” Einschätzungen des Statistikers zustande kommt. Wir können auf diese Auseinandersetzungen hier jedoch nicht eingehen und lassen die Bayessche Statistik hier ausser Betracht. 128 missverständlich nichtparametrisch. Wir gehen jedoch hier nicht auf solche Situationen ein. De…nition 8.1 Ein Schätzer ist eine Zufallsvektor ^ = ^1 ; : : : ; ^m : ! Rm : Der Schätzer heisst erwartungstreu (engl.: unbiased), wenn E ^i = i für i = 1; : : : ; m und für alle 2 gilt. Bemerkung 8.2 Manchmal interessiert man sich auch nur für eine Funktion des Parameters, d.h. es ist eine Abbildung g : ! R gegeben, und man möchte einen Schätzer für g ( ) gewinnen. Wir gehen darauf hier jedoch nicht ein. O¤ensichtlich ist unser oben de…nierter Schätzer (8.1) für den Parameter p des Bernoulli-Experimentes erwartungstreu, denn es gilt Ep p^n = Ep X n np = = p: n n Erwartungstreue ist o¤ensichtlich eine “wünschbare”Eigenschaft eines Schätzers, es ist aber klar, dass sie nicht das einzige Kriterium eines guten Schätzers sein kann. Viele gute Schätzer sind übrigens auch gar nicht erwartungstreu. (Man kann leicht Beispiele angeben, bei denen die Einschränkung auf erwartungstreue Schätzer nur zu ziemlich unsinnigen Schätzern führt). Ein wichtiges Konzept ist die sogenannte Konsistenz. Man kann davon jedoch nur sprechen, wenn eine Folge von Schätzern betrachtet wird. In den meisten Situationen hängt der Wahrscheinlichkeitsraum von einem Parameter n 2 N ab, der die “Stichprobengrösse” beschreibt, genau wie etwa im Bernoulli-Experiment. (n) Es liegen deshalb Wahrscheinlichkeitsräume vor, wobei die Paramen ; Fn ; P 2 termenge sich jedoch nicht mit n ändert. Wir betrachten dann Folgen von Schätzern ^n = ^n;1 ; : : : ; ^n;m : Natürlich wird man von vernünftigen Schätzverfahren erwarten, dass bei “genügend langen Messreihen” der gesuchte Parameter durch den Schätzer bestimmt ist. De…nition 8.3 Eine Folge von Schätzern heisst (schwach) konsistent, wenn für jedes " > 0; für jedes i 2 f1; : : : ; mg und für jeden Parameter 2 lim P n!1 ^n;i i " =0 gilt. Manchmal sagt man auch einfach, der Schätzer sei konsistent. Konsistenz ist aber immer eine Eigenschaft von Folgen von Schätzern. Der Zusatz “schwach” in der obigen De…nition, den wir jedoch nicht weiter verwenden werden, bezieht sich auf die Form der Limesaussage. Für einen stark konsistenten Schätzer müsste limn!1 ^n;i = i ; mit P Wahrscheinlichkeit 1 gelten. Wir werden nicht weiter auf die Unterscheidung eingehen. 129 Schwache Konsistenz ist o¤ensichtlich das relevante Konzept, denn eine unendliche lange Versuchsreihe kommt “in der Praxis”ohnehin nicht vor. Eigentlich sollte man natürlich ^n;i genaue Abschätzungen für P " für endliche n haben. i Satz 8.4 In einem Bernoulli-Experiment ist (^ pn )n2N , de…niert durch (8.1) ein konsistenter Schätzer für p. Beweis. Dies ist das (schwache) Gesetz der grossen Zahlen. (Satz 3.35) Es gibt viele Methoden Schätzer zu konstruieren, die alle ihre Vor- und Nachteile haben. Eine beliebte Klasse sind die sogenannten Maximum-Likelihood-Schätzer. Der Einfachheit halber nehmen wir an, dass die Wahrscheinlichkeiten P auf einer abzählbaren Menge de…niert sind, und dass wir ferner den Parameter aufgrund des Wertes einer Zufallsgrösse X : ! R schätzen wollen (oder eines Zufallsvektors X : ! Rk ). Jedes der Wahrscheinlichkeitsmasse P de…niert dann eine Verteilung auf X ( ): l (x) := P (X = x) : Wenn eine abzählbare Menge ist, so ist natürlich auch X ( ) abzählbar. Zu x 2 X ( ) de…nieren wir ^ (x) so, dass l^(x) (x) maximal ist: l^(x) (x) = max l (x) : 2 Wir gehen davon aus, dass ein solcher Wert ^ (x) existiert und eindeutig ist, was natürlich nicht immer der Fall zu sein braucht. ^ de…niert dann eine Abbildung X ( ) ! : Setzen wir diese Abbildung mit der Zufallsgrösse X zusammen, so erhalten wir die Abbildung ^ (X) : ! : Dies nennt man den Maximum-Likelihood-Schätzer. Bemerkung 8.5 Es mag etwas eigenartig erscheinen, dass wir den Schätzer oben über den Umweg einer Zufallsgrösse X de…nieren wollen. Tatsächlich können wir natürlich auch einfach versuchen, P (!) zu maximieren. In vielen Fällen liegen die Wahrscheinlichkeitsmasse jedoch nur über die Verteilungen von Zufallsgrössen vor, die uns auch eigentlich nur interessieren. Es ist jedoch klar, dass der Maximum-Likelihood-Schätzer dann von X abhängen kann. In einigen wichtigen Fällen lässt sich jedoch nachweisen, dass es keine Einschränkung ist, wenn man sich von vornherein auf Schätzer, die über eine (einfache) Zufallsgrösse X de…niert sind, beschränkt. Ein Beispiel ist das Bernoulli-Experiment. Hier kann man nachweisen, dass man keine Information über p erhalten kann, die man nicht via die Anzahl der Erfolge Xn gewinnen kann. Man nennt eine Zufallsgrösse, die alle Information über einen Parameter enthält, eine su¢ ziente Statistik. Die genaue mathematische De…nition erfordert etwas Sorgfalt; wir wollen das hier nicht weiter ausführen. Man kann das Konzept auch auf Zufallsgrössen mit Dichten erweitern: Sei X eine mdimensionaler RZufallsvektor mit Dichten f ; 2 ; d.h. für jede Borelmenge A Rm gilt P (X 2 A) = A f (x) dx: Für x 2 Rm de…nieren wir analog wie oben ^ (x) so, dass f (x) maximal ist. ^ (X) ist dann wieder eine Zufallsgrösse, die man in diesem Fall ebenfalls als 130 den Maximum-Likelihood-Schätzer bezeichnet. Wie oben muss natürlich betont werden, dass dieser Schätzer nicht in jeder Situation existiert. Es ist übrigens auch keinesfalls klar, dass die Maximum-Likelihood-Schätzer erwartungstreu sind (ausser in Spezialfällen sind sie es auch nicht). Unter ziemlich allgemeinen Bedingungen kann man jedoch nachweisen, dass sie konsistent sind. Über die Berechtigung des Maximum-LikelihoodAnsatzes ist viel geschrieben und gestritten worden. Die stärkste theoretische Stütze für die Maximum-Likelihood-Methode ist ein Satz der besagt, dass (unter gewissen Bedingungen), diese Schätzer in einem asymptotischen Sinne (der natürlich noch zu präzisieren ist) optimal sind. Für eine ausführliche Diskussion von Maximum-Likelihood-Schätzern muss auf die Spezialvorlesungen über Statistik verwiesen werden. Wir betrachten hier nur einige einfach Beispiele. Beispiele 8.6 a) Bernoulli-Experiment Der unbekannte Parameter sei p: X sei die Anzahl der Erfolge. Ist n die Anzahl der Versuche (die wir als bekannt voraussetzen), so ist X ( ) = f0; : : : ; ng : Für x 2 X ( ) ist n x Pp (X = x) = p (1 p)n x : x Um den Maximum-Liklihood-Schätzer zu …nden, müssen wir diesen Ausdruck als Funktion in p nun maximieren. Wir können genauso gut natürlich den Logarithmus maximieren: log Pp (X = x) = log n + x log p + (n x x) log (1 p) : Der erste Summand hängt nicht von p ab und kann daher aus der Betrachtung weggelassen werden. Wir …nden das Maximum, indem wir nach p di¤erentieren: d (x log p + (n dp x) log (1 p)) = x p n 1 x : p Diese Ableitung ist genau dann 0; wenn p = x=n ist. Unser Maximum-LikelihoodSchätzer ist daher nichts anderes als (8.1). b) Hypergeometrische Verteilung Wir betrachten das folgende Problem: Ein Teich enthalte eine Anzahl n von Fischen, wobei wir n nicht kennen. n ist der unbekannte Parameter in unserem Modell. Um n zu schätzen, entnimmt jemand dem Teich m Fische, markiert sie und setzt sie wieder aus. Anschliessend wartet er, bis sich die Fische gut durchmischt (aber nicht vermehrt) haben. Dann entnimmt er wieder m Fische, von denen er feststellt, dass k m markiert sind. Wir nehmen an, dass k 1 ist. Wir wollen nun die Maximum-Likelihood-Schätzung für n herleiten. m ist bekannt, nicht 131 aber n: Die beobachtete Zufallsgrösse X ist die Anzahl der markierten Fische beim zweiten Fang. Abhängig von n; n ist X hypergeometrisch verteilt: Pn (X = k) = m k n m m k n m : Für den Maximum-Likelihood-Schätzer müssen wir dies als Funktion von n maximieren. Nun gilt Pn+1 (X = k) = Pn (X = k) (n Dieser Quotient ist genau dann (n + 1 (n + 1 m)2 : 2m + k + 1) (n + 1) 1; wenn m)2 m 2 (n + 1 2m + k) (n + 1) k (n + 1) ; d.h. wenn n+1 m2 =k gilt. Mit anderen Worten: Pn (X = k) ist maximal als Funktion von n für n = m2 =k 1 : Dies ist somit der Maximum-Likelihood Schätzer für n: Man beachte, dass der Schätzer nicht für alle möglichen Realisierungen von X de…niert ist. Pn (X = 0) ist natürlich positiv. Anderseits ist in diesem Fall der Schätzer nicht de…niert (oder wenn man will = 1): Nach welchen Kriterien soll man zwischen guten und weniger guten Schätzern unterscheiden? Ein naheliegendes Kriterium ist die Varianz var ^ des Schätzers und man wird einen Schätzer mit kleinerer Varianz vorziehen. Das Problem ist allerdings, dass diese Varianz von abhängt. Wir können ho¤en, dass wir einen Schätzer …nden, der erstens erwartungstreu ist und zweitens minimale Varianz unter allen möglichen Schätzern und für jeden möglichen Parameter hat. Leider gibt es derartige Schätzer nur in wenigen sehr einfachen Fällen. Wir können jedoch nachweisen, dass unser Schätzer (8.1) diese Eigenschaft hat. Dazu leiten wir in einem Spezialfall eine wichtige Ungleichung her, nämlich die sogenannte Cramer-Rao-Schranke. Der Einfachheit halber betrachten wir eine endliche Menge : Für 2 seien Wahrscheinlichkeiten P auf gegeben. Wir nehmen an, dass der Parameter eindimensional ist, und dass ferner für jedes ! 2 die Abbildung 3 ! P (!) di¤erenzierbar in und überall postive ist. Ferner sei ein Schätzer ^ : ! gegeben. Wir nehmen im Moment nicht an, dass der Schätzer erwartungstreu ist. Der Fehler zum Erwartungswert ist dann b ( ) := E ^ : (8.2) Diese Abweichung bezeichnet man auch als den “Bias”. Proposition 8.7 (Cramer-Rao Schranke) Unter den obigen Bedingungen gilt für die Varianz var chung: var ^ db( ) d +1 I( ) 132 2 ; ^ des Schätzers die Unglei- wobei I ( ) die sogenannte Fisher-Information ist: 2 d log p d I ( ) := E ! : Für einen unverfälschten Schätzer (d.h. b ( ) = 0) gilt insbesondere 1 : I( ) ^ var Beweis. Di¤erenzieren der Gleichung (8.2) nach dE ^ db ( ) = d d 1= ergibt X dp (!) ^ (!) d 1 !2 X d log p (!) ^ (!) p (!) = d 1=E !2 wobei d log p d d log p ^ d als Zufallsgrösse aufgefasst wird. Anderseits gilt wegen 1 = 0= X dp (!) =E d d log p d !2 : 1; P ! p (!) auch Aus den beiden Gleichungen erhalten wir db ( ) d log p ^ +1=E d d v u u d log p tE d b( ) 2 ! var ^ = r I ( ) var ^ : Von besonderem Interesse sind natürlich unverfälschte Schätzer, für die var ^ = 1=I ( ) gilt. Diese haben minimale Varianz unter allen möglichen unverfälschten Schätzern. Beispiel 8.8 Wir nehmen unser Standardbeispiel: Den Parameter p bei der Binomialverteilung. Ist ! 2 := f0; 1gn ; so ist Pp (!) = pXn (!) (1 p)n Xn (!) ; wobei Xn (!) wieder die Anzahl der Erfolge bezeichnet. Es gilt dann d log Pp (!) Xn (!) = dp p n Xn (!) Xn (!) np = : 1 p p (1 p) Demzufolge ist die Fisher-Information E (Xn (!) I (p) = p2 (1 np)2 2 p) = 133 var (Xn ) n : 2 = p (1 2 p) p (1 p) 1=I (p) = p (1 p) =n ist aber gerade die Varianz von p^n = Xn =n: Demzufolge ist p^n ein unverfälschter Schätzer mit minimaler Varianz. Es muss betont werden, dass in komplizierteren Situation solche unverfälschten Schätzer mit minimaler Varianz nur selten existieren. Unter relative schwachen Regularitätsannahmen kann man jedoch nachweisen, dass die Maximum-Likelihood-Schätzer diese Eigenschaft in einem gewissen asymptotischen Sinn (für n ! 1) haben. Ein wichtiges Beispiel ist die Familie der Normalverteilung mit Mittel 2 R und Varianz 2 > 0: Der Parameter ist dann zweidimensional: ; 2 2 := R R+ 2 R : Wir betrachten n unabhängige Zufallsgrössen X1 ; : : : ; Xn mit dieser Verteilung. Die Dichte des Zufallsvektors (X1 ; : : : ; Xn ) ist 1 Xn n=2 f ; 2 (x) = 2 2 exp (xi )2 (8.3) i=1 2 2 Die Aufgabe ist nun, die Parameter aus diesen Zufallsgrössen zu schätzen. Eine naheliegende Schätzung von ist Pn Xi ^ n := i=1 : (8.4) n Wie wir schon wissen, ist ^ n selbst wieder normalverteilt mit Erwartungswert Pn E( ; 2 ) X i n E( ; 2 ) ^ n = i=1 = = n n und Varianz 2 n 2 var( ; 2 ) ^ n = 2 = : n n Daraus folgt sehr leicht, dass für jedes " > 0 lim P( n!1 ; 2) (j^ n j ") = 0 gilt. ^ n ist also ein erwartungstreuer und konsistenter Schätzer für : Was tun mit Ein naheliegender Schätzer für 2 wäre 2? n 1X (Xi n )2 : i=1 Aus der Linearität des Erwartungswertes folgt sofort: E( ; 2) 1 Xn (Xi i=1 n n )2 = 1X E( n ; 2) (Xi )2 i=1 = 2 : Das Problem dabei ist nur, dass wir ja nicht kennen und deshalb nicht im Schätzer verwenden können. Es ist naheliegend, den unbekannten Parameter einfach durch seinen Schätzer ^ n zu ersetzen und deshalb den Schätzer !2 Pn n n X X j 1X 1 j=1 (Xi ^ n )2 = Xi n n n i=1 i=1 134 zu versuchen. Hier ergibt sich jedoch eine kleine Überraschung bei der Berechnung des Erwartungswertes: 0 !2 1 ! Pn 2 Xn Xn Xn X j 1 1 1 j=1 2 A=E Xi X Xi E@ i=1 i=1 i i=1 n n n n ! 2 1 Xn 2 = E X1 E Xi i=1 n P E X12 = 2 + 2 : Ferner ist n1 ni=1 Xi normalverteilt mit Mittel und Varianz Demzufolge gilt 0 !2 1 Pn n 2 X X j 1 (n 1) 2 j=1 A= 2+ 2 E@ Xi + 2 = ; n n n n 2 =n: i=1 und unser ins Auge gefasster Schätzer ist nicht erwartungstreu. Man kann das jedoch beheben, indem man den Schätzer leicht modi…ziert und einfach ^ 2n := n X 1 n 1 ^ n )2 (Xi (8.5) i=1 setzt. Dieser Schätzer ist dann evidenterweise erwartungstreu. Er ist auch konsistent. Der Beweis dafür sei dem Leser als Übungsaufgabe überlassen. Was ist der Maximum-Likelihood-Schätzer für ; 2 ? Dazu müssen wir (8.3) als Funktion von ; 2 maximieren. Es ist oft günstiger, den Logarithmus zu maximieren, was auf dasselbe hinausläuft. log f ; 2 n log (2 ) 2 (x) = n log 2 2 2 n 1 X 2 (xi )2 : i=1 Die partiellen Ableitungen ergeben: @ log f @ @ log f @( ; 2 (x) = n 1 X 2 (xi ); i=1 2 ; 2) (x) = n n 1 X + (xi 2 2 2 4 )2 : i=1 Man überzeugt sich leicht davon, dass die Lösung von r log f ; 2 (x) = 0 ein eindeutiges Maximum ist. Daraus folgt, dass der Maximum-Likelihood-Schätzer von ; 2 durch n ^ n;M L = ^ n = 1X xi ; n i=1 ^ 2n;M L n 1X := xi n i=1 135 ^ n;M L 2 : Will man den Schätzer als Zufallsgrösse interpretieren, so muss man die xi natürlich wieder durch die Zufallsgrössen Xi ersetzen. Wie man sieht, ist das für derselbe Schätzer wie oben; für 2 erhält man aber den mit dem falschen Erwartungswert. Für n ! 1 verschwinder der Fehler natürlich. Es muss betont werden, dass es andere Schätzer von und 2 gibt, die gegenüber ^ n und ^ 2n gewichtige Vorteile haben. Das Hauptproblem z.B. mit ^ n ist, dass der Schätzer sehr emp…ndlich auf auch nur geringfügige Verletzungen der grundlegenden Normalverteilheitsannahme ist. Ist diese nicht richtig, so kann die Varianz des Schätzers massiv ansteigen. Der Schätzer ist, wie man sagt, nicht robust. Eine alte Bauernregel verwendet das folgende Verfahren: Wenn der mittlere Jahresertrag (z.B. von Getreide) aus einer Messreihe von 10 Jahren bestimmt werden soll, so lässt man das beste und das schlechteste Ergebnis weg und mittelt die acht verbleibenden Werte. Solche Schätzer nennt man abgeschnittene Mittel (“trimmed means” auf Englisch). Hier die formale De…nition: Sei 2 (0; 1=2) : Sind X1 ; : : : ; Xn die n Zufallsgrössen, so ordnet man sie erst der Grösse nach an. Die entsprechend der Grösse nach geordneten Grössen bezeichnen wir mit Xn;1 Xn;2 ::: Xn;n : (Falls der Vektor (X1 ; : : : ; Xn ) eine Dichte besitzt, so folgt übrigens sofort, dass alle Xi verschieden sind, mit Wahrscheinlichkeit 1): Anschliessend bildet man ^ n; := n 1 2 [ n] n [ n] X Xn;i : i=[ n]+1 Man kann leicht nachweisen, dass diese Schätzer ebenfalls erwartungstreu sind. Sind die Xi exakt normalverteilt, so ist die Varianz von ^ n; grösser als die von ^ n ; wenn jedoch nicht zu gross ist ( = 0:1 oder darunter sind typische Werte), so ist der Unterschied jedoch nicht sehr gross. (Die Berechnung der Varianz von ^ n; ist allerdings nicht ganz einfach). Auf der anderen Seite hat ^ n; wesentlich bessere Robustheitseigenschaften. Ein ganz primitives aber praktisch stets präsentes Problem ist etwa, dass vielleicht einige der erhobenen Daten gänzlich schlecht sind, weil etwa das Messgerät gerade ausgefallen ist, der Laborant gerade die Messung verpatzt, oder beim Eintrag der Daten ein Kommafehler passiert. Auf das arithmetische Mittel hat das dann einen enormen Ein‡uss; das abgeschnittene Mittel ^ n; spürt das jedoch kaum, falls nicht zuviele der Messwerte verdorben sind. Diese Gesichtspunkte sind in den vergangenen 20-30 Jahren intensiv untersucht worden und für fast alle Schätzer sind “robuste” Versionen entwickelt worden.14 Für spätere Zwecke wollen wir noch die gemeinsame Verteilung unserer beiden Schätzer (8.4) und (8.5) berechnen. Wir können dabei = 0 und 2 = 1 annehmen; die anderen Fälle ergeben sich sofort durch eine Skalierung. 14 Zürich war übrigens ein Zentrum der Forschung in robuster Statistik, vor allem mit Peter Huber und Frank Hampel von der ETH. 136 Wir betrachten zunächst eine etwas einfachere Situation: Seien 1 ; : : : ; n n unabhängige standard-normalverteilte Zufallsgrössen. Wir betrachten die Zufallsgrösse 2 n := n X 2 i: i=1 De…nition 8.9 Die Verteilung von 2 n nennt man die 2 -Verteilung mit n Freiheitsgraden. Die Dichte der Chi-Quadrat-Verteilung können wir sehr einfach berechnen: " # Z Z n 1X 2 n=2 2 P n x = (2 ) exp xi dx1 dxn 2 P = Z n i=1 p i=1 x2i x x (2 ) n=2 sn rn 1 e r 2 =2 dr 0 wobei sn die Ober‡äche der Einheitskugel mit Radius 1 ist, die bekanntlich durch 2 n=2 (n=2) sn = gegeben ist, mit als der Gamma-Funktion: Z 1 ( ) := e x 1 x dx; 0 ( (n) = (n Verteilung: 1)! für ganzzahliges n:) Di¤erentiation liefert uns die Dichte der d dx Z p x (2 ) n=2 sn rn 1 e r2 =2 dr = (2 ) n=2 sn x n 1 2 0 e x=2 2- 1 p : 2 x Proposition 8.10 Die 2 -Verteilung mit n Freiheitsgraden hat die Dichte cn (x) = 1 xn=2 (n=2) 2n=2 1 e x=2 ; x 0: (8.6) Für x < 0 ist die Dichte gleich 0: Es ist plausibel, dass die Verteilung von ^ 2n etwas mit der 2 -Verteilung zu tun hat. Ein Problem besteht o¤enbar darin, dass wir die normalverteilten Zufallsgrössen erst nach einer Zentrierung durch die Zufallsgrösse ^ n quadrieren. Diese zufällige Zentrierung führt jedoch nur zu P einerpReduktion der Zahl der Freiheitsgrade, wie wir gleich zeigen p werden. n^ n = ni Xi = n ist o¤enbar standard normalverteilt, wenn die Xi es sind. Damit haben wir schon Teil a) des folgenden Satzes eingesehen (wir beweisen es jedoch gleich nochmals). 137 Satz 8.11 Seien X1 ; : : : ; Xn unabhängige und standard-normalverteilte Zufallsgrössen. Dann gilt a) p n 1 X n^ n = p Xi n i=1 ist standard normalverteilt. b) 1) ^ 2n = (n n X ^ n )2 (Xi i=1 ist 2 -verteilt mit n 1 Freiheitsgraden. c) ^ n und ^ 2n sind unabhängig. Beweis. Wir beweisen a), b) und c) zusammen. Sie e1 := p1n ; : : : ; p1n : Dieser Vektor hat Euklidsche Länge 1: Wir können diesen Vektor zu einer orthonormierten Basis e2 ; : : : ; en in Rn ergänzen, und zwar so, dass die orthogonale Matrix der Basistransformation Determinante 1 hat. Wir betrachten die Variablentransformation Pn y (x)p= (y1 (x) ; : : : ; yn (x)) P ; die durch yi (x)p:= hx; ei i gegeben ist. Wegen y1 (x) = i=1 xi / n folgt mit x := ni=1 xi / n = y1 (x) = n : n X (xi x)2 = i=1 n X x2i nx2 i=1 = n X 2 2 yi (x) y1 (x) = i=1 = = Z Z 1 p nx a; y1 a; a yi (x)2 : i=2 Daraus folgt für die gemeinsame Verteilung von Z Z p 2 P n^ n a; (n 1) ^ n r = p Z n X 1 p e 2 1) ^ 2n : n^ n und (n 1 Pn i=1 (xi Pn i=2 y12 =2 (2 )n=2 x)2 r 1 y22 r dy1 Z n=2 (2 ) Z exp Pn i=2 y22 exp 1 Xn x2 dx1 i=1 i 2 1 Xn y 2 dy1 dyn i=1 i 2 1 Xn exp yi2 dy2 i=2 2 r p Daraus ergibt sich, dass n^ n und (n 1) ^ 2n unabhängig sind, dass die Verteilung p von n^ n die Standard-Normalverteilung ist (was wir schon wussten), und dass die Verteilung von (n 1) ^ 2n die 2 -Verteilung mit n 1 Freiheitsgraden ist. 138 dxn dyn : 8.2 Testprobleme Die Testtheorie ist eine konzeptionell etwas verwirrende Angelegenheit, weniger in mathematischen Hinsicht, sondern von den (ho¤entlich existierenden) Beziehungen zur “realen Welt”. Die sich heutezutage weitgehend durchgesetzten Konzepte stammen aus dem Anfang des 20. Jahrhunderts und basieren auf den Ideen zweier englischen Wissenschaftlern, Pearson und Fisher, die sich allerdings spinnefeind waren und sich bekämpften. Auf den (mehr philosophischen) Hintergrund der Auseinandersetzungen können wir hier nicht eingehen.15 Karl Pearson 1857-1936 Sir Ronald A. Fisher 1890-1962 Ein Standarproblem ist zu entscheiden, ob z.B. ein neues Medikament eine positive Wirkung hat, oder keine bzw. eine negative. Nehmen wir an, dass sich die möglicherweise existierende Wirkung auf eine einfach zu messende eindimensionale Grösse bezieht, z.B. den systolischen Blutdruck. In der Praxis sind die Probleme natürlich meist weitaus komplexer. Um die E¢ zienz des Medikaments zu testen wird eine Gruppe von n Personen untersucht. Deren Bludruck wird vor der Behandlung gemessen. Die Ergebnisse seien n reelle Zahlen, die als Zufallsgrössen interpretiert werden: U1 ; : : : ; Un : Nun wird 15 Unter dem Ein‡uss der Computer ist jedoch eine Entwicklung in der Statistik im Gange, die etwas von den hier vorgestellten Konzepten wegführt. Ein Schlagwort dafür ist “data mining”. Überspitzt ausgedrückt “wühlt”man mit Hilfe des Computers so lange in Daten, bis man “etwas sieht”. Statistikern, die mit den klassischen Verfahren gross geworden sind, ist das z.T. ein Greuel. 139 das Medikament verabreicht und dann wird wieder gemessen. Die Ergebnisse seien nun V1 ; : : : ; Vn : Dann bildet man die Di¤erenzen Xi = Ui Vi und möchte aufgrund dieser Di¤erenzen nun Rückschlüsse ziehen. Ohne weiter Annahmen ist das so gut wie unmöglich. Wir setzen daher voraus (was allerdings in vielen Situationen schon ziemlich fragwürdig ist), dass die Paare (Ui ; Vi ) alle unabhängig sind und dieselbe Verteilung besitzen. Dann sind auch die Xi alle unabhängig und haben dieselbe Verteilung. Wir sind dann daran interessiert, ob := EXi = 0 oder nicht ist. Falls man eine Blutdrucksenkung im Auge hat ist die sinnvolle Alternative, an der man interessiert ist, > 0: Man nennt = 0 die 0-Hypothese. Dass exakt gleich 0 ist, ist natürlich wenig plausibel; es interessiert eigentlich nur, ob 0 oder > 0 ist. Wir formulieren die 0-Hypothese entsprechend, also 0-Hypothese 0 Alternative >0 Das Problem ist, dass man ohne weitere Voraussetzungen immer noch so gut wie keine vernünftigen statistischen Aussagen machen kann. Wir setzen daher weiter voraus, dass wir die Verteilung der Xi bis auf den Parameter kennen. Eine beliebte Annahme ist die der Normalverteiltheit der Xi . Die Normalverteilung hat zwei Parameter: Den Mittelwert und die Varianz 2 : Wenn wir voraussetzen, dass nur der Parameter unbekannt ist, müssen wir also voraussetzen, dass 2 bekannt ist. Das ist natürlich sehr fragwürdig und tatsächlich werden wir gleich auf diese Annahme verzichten. Im Moment wollen wir sie jedoch gelten lassen um das Prinzip eines statistischen Tests zu erläutern. Es ist plausibel, dass wir unsere Entscheidung anhand des Mittelwertes der Messwerte, d.h. anhand von n 1X ^ n := Xi n i=1 tre¤en wollen. Weiter ist plausibel, dass ein “zu grosser”^ n -Wert und zum Schluss führen wird, dass die Alternative zutri¤t. Wir werden daher einen Wert d > 0 festlegen und uns für die Alternative entscheiden, wenn ^ n d ist. Nun gibt es o¤ensichtlich zwei Möglichkeiten, wie wir zu einer fehlerhaften Entscheidung kommen kann. Ist die 0-Hypothese richtig, hat das Medikament also keine Wirkung, so können wir augrund eines Ausgangs ^ n d zu dem falschen Schluss kommen, dass die Alternative richtig ist. Dies nennt man einen Fehler 1. Art. Anderseits könnte die Alternative richtig sein und wir verwerfen die 0-Hypothese aufgrund eines Ausgangs ^ n < d nicht. Dies nennt man einen Fehler 2. Art. Die Vorgehensweise ist nun die, dass wir d so wählen, dass die Wahrscheinlichkeit für einen Fehler 1. Art einen bestimmten vorgegebenen Wert 2 (0; 1) nicht überschreitet. nennt man das Signi…kanzniveau. Es ist üblich entweder = 0:05 oder = 0:01 zu wählen. Eine Festlegung von führt nun ohne Schwierigkeiten zu der Bestimmung von d : Wir wissen ja (oder besser, wir nehmen an, dass wir wissen), dass die Xi unabhängig und normalverteilt sind, mit Mittel und Varianz 2 ; wobei wir 2 ebenfalls kennen. Dann ist ^ n normalverteilt mit Mittel und 140 Varianz 2 =n: Es ist leicht zu sehen, dass P (^ n d) eine ansteigende Funktion von ist. (Mit P bezeichnen wir die Wahrscheinlichkeit unter den Parametern ; 2 : Da wir 2 im Moment als bekannt voraussetzen, lassen wir es in der Notation weg.) Wenn wir erzwingen wollen, dass P (^ n d) für alle 0 ist, so reicht es deshalb aus, den Fall = 0 zu betrachten. Demzufolge ist die Wahrscheinlichkeit für einen Fehler 1. Art höchstens p Z 1 Z 1 h n i 1 1 2 n 2 p x dx x dx = exp P0 (^ n d) = p exp p 2 2 2 2 2 d n= 2 d p =1 d n= ; wobei die Verteilungsfunktion der Standardnormalverteilung ist. Sie z 2 R die eindeutig de…nierte Zahl mit (z ) = 1 : (8.7) Ist < 1=2; was wir stets annehmen wollen, so ist z > 0: Hier die nummerischen Werte für = 0:05; = 0:01; = 0:001 : z0:05 = 1:6449; z0:01 = 2:3263; z0:001 = 3:0902: Man nennt z das obere -Quantil der Nomralverteilung. Wählen wir z d = d ( ; ; n) := p ; n so erhalten wir P0 (^ n d) = : (8.8) Wir erhalten somit das folgende Entscheidungsverfahren: z p : Verwerfung der 0 Hypothese n z ^ n < p : keine Verwerfung der 0 Hypothese n ^n (8.9) Ein solches Entscheidungsverfahren nennt man einen Test. Die Wahrscheinlichkeit für einen Fehler 1. Art ist dabei : Man nennt den Test einen Niveau- -Test. Im Falle ^ n < pzn kann man jedoch natürlich immer noch den Verdacht haben, dass die 0-Hypothese nicht richtig ist, und dass z.B. eine grössere Stichprobe zum entsprechenden Schluss geführt hätte. Man sagt dann auch einfach, der Ausgang sei nicht signi…kant (zum vorgegebenen Niveau ): Ursprünglich hatten wir eigentlich nur verlangt, dass wir in (8.8) haben. Es ist jedoch klar, dass wir für > 0 die Wahrscheinlichkeit P (^ n d) möglichst gross haben wollen. Von daher wird man d so wählen, dass (8.8) gilt. Es ist ziemlich üblich = 0:01 zu nehmen. In der Praxis wird man natürlich ausrechnen, zu welchem das Resultat noch signi…kant ist. Im statistischen Jargon nennt man ein Niveau = 0:05 “schwach signi…kant” und = 0:001 “hoch signi…kant”. Es ist wichtig zu bemerken, dass die 0-Hypothese und die Alternative nicht ganz symmetrisch behandelt werden. In der Tat “klebt” der Statistiker gewissermassen an 141 der 0-Hypothese und will diese nur verwerfen, wenn dafür gute Gründe vorliegen. Das ist für viele Situationen in der Praxis vernünftig. Eine bewährte Behandlungsmethode in der Medizin aufzugeben und zu einer neuen zu wechseln hat nur dann Sinn, wenn die neue Methode wirklich “signi…kant” besser ist.16 Hier noch eine ganz abstrakte allgemeine De…nition, was ein Niveau- -Test ist. Sei (P ) 2 eine Familie von Wahrscheinlichkeitsmassen auf : Seien 0 ; A zwei disjunkte Teilmengen von : De…nition 8.12 Sei 2 (0; 1) : Ein Niveau- -Test für die 0-Hypothese f 2 f 2 A g ist ein Entscheidungsverfahren der Form Entscheidung für die Alternative, falls X 0g gegen die Alternative z ist Keine Ablehnung der 0-Hypothese, falls X < z ist. Dabei ist X : ! R ein Zufallsgrösse (die sogenannte Teststatistik), und z 2 R ist so gewählt, dass sup P (X z) 2 0 gilt. Ein Niveau- -Test garantiert somit, dass die Wahrscheinlichkeit für einen Fehler 1. Art stets kleiner als ist, d.h. die Wahrscheinlichkeit für eine fehlerhafte Annahme der Alternative ist durch beschränkt. Dies ist jedoch o¤ensichtlich nur eine Seite der Sache: Man möchte natürlich, dass die Wahrscheinlichkeit für eine Verwerfung der 0-Hypothese gross ist, sofern die Alternative auch zutri¤t. Ausser in ganz einfachen und arti…ziellen Fällen besteht die Alternative aus einer Vielzahl von Wahrscheinlichkeitsmassen, und man wird davon ausgehen müssen, dass die Wahrscheinlichkeit für einen Fehler 2. Art vom Parameter abhängt (und natürlich von der gewählten Teststatistik). Wir untersuchen den obigen sehr einfachen gelagerten Fall der Normalverteilung (8.9). Der Fehler 2. Art, bei Vorliegen der Alternative > 0 ist natürlich einfach gegeben durch z P ^n < p : n Nun ist ^ n unter P einfach normalverteilt mit Mittel ! pz z ^n n p P ^n < p =P < p =P 2 =n 2 =n n p = z n = ; 16 und Varianz ^ pn 2 =n <z 2 =n; p d.h. n = ! Eine di¤erenziertere Betrachtungsweise würde jedoch genauer gewichten, welche Schäden durch die beiden Typen von Fehlern potentiell angerichtet werden. 142 ^n die letzte Gleichung weil p 2 =n unter P standard-normalverteilt ist. Nun muss man sich daran erinnern, dass z so gewählt war, dass (z ) = 1 p [0; 1) 3 ! z n = 2 [0; 1] ist. Die Funktion ist eine monoton fallende Funktion in : Es ist klar, dass für “sehr nahe” bei 0; diese Wahrscheinlichkeit für einen Fehler 2. Art immer noch nahe bei 1 ist. Wie schnell die Funktion abfällt hängt natürlich von n ab: Je grösser n ist, desto schneller fällt sie p ab. Meist wird übrigens die Funktion 1 (z n = ) aufgezeichnet, also die Wahrscheinlichkeit für Ablehnung der 0-Hypothese. Diese Wahrscheinlichkeit sollte natürlich möglichst gross auf den Alternativen sein. Auf Englisch heisst das die “power function” in Deutsch meist mit Gütefunktion übersetzt. Unten ist die Gütefunktion in unserem Beispiel für = 0:01; n = 10 und n = 100 (bei 2 = 1) aufgezeichnet. Gütefunktion bei n = 10 Gütefunktion bei n = 100 Wie man den Graphiken entnimmt, vermag der Test -Werte über etwa 1:5 bei n = 10 sicher zu erkennen und bei n = 100 schon -Werte ab etwa 0:5: Diese Sachverhalte sollten dem Anwender bekannt sein. Man wird natürlich nach möglichst “guten”Tests Ausschau halten. 143 De…nition 8.13 Ein Niveau- -Test für die Hypothese f 2 0 g gegen die Alternative f 2 A g heist UMP-Test (uniformly most powerfull), falls seine Wahrscheinlichkeit für einen Fehler 2. Art höchstens die jedes anderen Niveau- -Tests ist, und zwar gleichmässig in 2 A : Es vesteht sich fast von selbst, dass UMP-Tests für die meisten Testprobleme nicht existieren. Das Problem besteht darin, dass die Optimalität gleichmässig in allen Alternativen gelten soll. Allerdings ist gerade das bisher diskutierte einfache Beispiel eine Ausnahme von dieser Regel: Für den Test von f 0g gegen f > 0g ist der oben diskutierte Test tatsächliche UMP. Ein UMP-Test existiert stets, wenn die 0-Hypothese und die Alternative wie man sagt einfach sind, d.h. jeweils nur ein Wahrscheinlichkeitsmass enthalten. Das ist der Inhalt des Neyman-Pearson Lemmas. Wir formulieren und beweisen es in einer ganz einfachen Situation: Seien P1 und P0 zwei Wahrscheinlichkeiten auf der abzählbaren Menge : Der Einfachheit halben nehmen wir an, dass P0 (!) > 0; P1 (!) > 0 für alle ! 2 gelten. Wir wählen als Teststatistik den sogenannten Likelihoodquotienten: P1 (!) 2 R: P0 (!) L (!) := Der Likelihood-Quotienten-Test für die Hypothese P0 gegen die Alternative P1 ist nun einfach der Test mit Teststatistik L : Für z > 0 sei X P0 (!) : (z) := !:L(!) z Satz 8.14 (Neyman-Pearson Lemma) Der Test fL zg ist UMP zum Niveau (z) für die 0-Hypothese P0 gegen die Alternative P1 : Beweis. Wir betrachten den Ablehnungsbereich A := fL (!) zg für unseren LikelihoodQuotienten-Test und den Ablehungsbereich B für einen beliebigen anderen Test P zum Niveau (z) : Dann ist die Güte dieses anderen Tests einfach !2B P1 (!) und wir erhalten die Ungleichung X X X X X P1 (!) = P1 (!) + P1 (!) P1 (!) + z P0 (!) !2B !2B\Ac !2B\A X P1 (!) + z !2B\A = X X !2B\Ac !2B\A P0 (!) !2B c \A X !2B\A P1 (!) + X P1 (!) !2B c \A P1 (!) : !2A P P Die zweite Ungleichung folgt wegen (z) = !2A P0 (!) !2B P0 (!) ; was einfach die Eigenschaft ist, dass der zweite Test auch ein Niveau -Test ist. 144 Hier die allgemeine Formulierung des Neyman-Pearson Lemmas. Der Beweis ist im wesentlichen eine Kopie dies obigen und sei dem Leser überlassen: P0 und P1 seien zwei Wahrscheinlichkeitsmasse auf dem messbaren Raum ( ; F) : Wir betrachten das Wahrscheinlichkeitsmass Q := (P0 + P1 ) =2: O¤enbar sind P0 und P1 absolut stetig bezüglich Q und wir setzen f0 := und den Liklihood-Quotienten l : dP0 dP1 ; f1 := ; dQ dQ ! [0; 1] durch l (!) := f1 (!) ; f0 (!) wobei wir a=0 = 1 setzen für a > 0: Die Festlegung von 0=0 spielt im untenstehenden Satz keine Rolle; Sie können 0=0 = 1 setzen. Satz 8.15 Für z 0 ist der Test fl P0 (l z) : zg ein UMP-Test für P0 gegen P1 zum Niveau (z) := Mit Hilfe des Neyman-Pearson-Lemmas können wir nun leicht nachweisen, dass unser Test 0 gegen > 0 UMP ist. Wir betrachten dazu die einfache Hypothese f = 0g gegen die einfache Alternative f = 0 g mit einem beliebigen 0 > 0: Nach dem NeymanPearson-Lemma 8.15 ist dafür der Likelihood-Quotienten-Test der UMP-Test. Nun hat der Zufallsvektor (X1 ; : : : ; Xn ) die gemeinsame Dichte (8.3). Der Quotient ist f 0 ; 2 (x) = exp f0; 2 (x) 0 2 Xn i=1 xi n 2 0 2 : (Wir setzen 2 als P bekannt voraus). Als Funktion der xi ist das einfach eine monon tone Funktion von i=1 xi : Demzufolge lehnt der Likelihood-Quotienten-Test die 0Hypothese ab, wenn diese Summe zu gross wird, wobei die Schranke einfach durch das Niveau festgelegt wird. Somit ist Likelihood-Quotienten-Test einfach der Test, den wir schon betrachtet haben. Da unser Test somit exakt gleich dem Likelihood-QuotientenTest für f = 0g gegen f = 0 g für ein belibiges 0 > 0 ist, und demzufolge UMP für diese Situation, so folgt dass er UMP für f = 0g gegen f > 0g ist. Es folgt dann auch sofort, dass er UMP für f 0g gegen f > 0g ist. Es kommt natürlich auch vor, dass man daran interessiert ist, ob ein Medikament überhaupt eine Wirkung hat, die sich von Placebos unterscheidet, gleichgültig ob diese Wirkung positiv oder negativ ist. In einem solchen Fall möchte man die 0-Hypothese f = 0g gegen die Alternative f 6= 0g testen. Ein natürlicher Test ist einfach der folgende zweiseitige Test: Man lehnt die 0-Hypothese ab, wenn j^ n j zu gross ist. Um das Niveau zu gewährleisten, muss der Test dann wie folgt aussehen: 145 z =2 p : Verwerfung der 0 Hypothese n z =2 j^ n j < p : keine Verwerfung der 0 Hypothese: n j^ n j (8.10) Dieser Test ist evidenterweise nicht mehr UMP. Dies liegt einfach daran, dass unser vorheriger einseitiger Test auch für unsere Situation ein Niveau- -Test ist, der für > 0 natürlich eine bessere Güte hat. Allerdings ist die Ablehnungswahrscheinlichkeit für < 0 kleiner als ; was sicher nicht wünschbar oder sinnvoll ist. Jedenfalls ist klar, dass (8.10) nicht mehr UMP ist. Es ist jedoch sinnvoll, das UMP-Konzept etwas einzuschränken. Generell wird man natürlich keine Tests in Betracht ziehen wollen, die für irgendeine Alternative eine Ablehnungswahrscheinlichkeit < haben. De…nition 8.16 Ein Test für die 0-Hypothese 0 gegen die Alternative A heisst unverfälscht (englisch “unbiased”), wenn P (Ablehnung) für alle 2 A ist. Ein Test heisst gleichmässig bester unverfälschter Test, wenn für jedes 2 A die Ablehnungswahrscheinlichkeit maximal unter allen unverfälschten Tests ist. (Auf Englisch: UMP unbiased). Man kann nachweisen, dass unser Test (8.10) UMP unbiased ist, worauf wir jedoch hier nicht weiter eingehen wollen. Wir kommen nun noch zu einer wichtigen Modi…kation des Tests von f 0g gegen f > 0g im Falle der Normalverteilung. Wir hatten ja bisher angenommen, dass die Varianz 2 bekannt ist. Das ist in der Praxis natürlich völlig unsinnig, und wir lassen diese Voraussetzung nun fallen. Unsere Parametermenge ist daher := 2 ; : 2 R; 2 >0 : Für 2 interessieren wir uns eigentlich nicht. (Das nennt man einen “nuisance parameter”). Die 0-Hypothese ist daher nach wie vor 0 := ; 2 : 0; 2 >0 ; A := ; 2 : > 0; 2 >0 : und die Alternative Es ist dann klar, dass wir den Test (8.9) nicht benützen können, da wir 2 nicht kennen. Ein naheliegendes Verfahren besteht darin, 2 einfach aus den Daten selbst zu schätzen. Wie wir in Abschnitt 8.1 ausgeführt haben, ist ^ 2n := ein vernünftiger Schätzer für durch 2: 1 n 1 n X (Xi ^ n )2 i=1 Wir ersetzen die Teststatistik p n^ n Tn := : ^n 146 p P p n^ n = = (1= n ) ni=1 Xi (8.11) In der englischsprachigen Literatur nennt man das die “studentized statistics”. Die Bezeichnung geht auf den Statistiker William Gosset zurück, der seine Arbeiten unter dem Pseudonym “Student” publiziert hat. Der berühmte t-Test besteht dann einfach darin, dass die 0-Hypothese verworfen wird, wenn Tn zu gross ist. Student’s t-Test: Tn t ;n 1 : Annahme der Alternative Tn < t ;n 1 : keine Verwerfung der 0 (8.12) Hypothese: (Der Grund für die Schreibweise t ;n 1 wird gleich ersichtlich werden.) t ;n 1 muss so bestimmt werden, dass unter der 0-Hypothese P( ; 2 ) (Tn t ;n 1 ) ist. Natürlich ist wieder der Fall = 0 der Extremfall und wir wollen daher t ;n 1 so bestimmen, dass P(0; 2 ) (Tn t ;n 1 ) = ist. Etwas lästig erscheint die Anwesenheit von 2 ; aber es stellt sich zum Glück heraus, dass die Verteilung von Tn gar nicht von 2 abhängt: Ist nämlich Xi normalverteilt mit Mittel 0 und Varianz 2 ; so ist Xi = standard-normalverteilt. Die Substitution von Xi durch Xi = ändert jedoch im Ausdruck (8.11) gar nichts. Demzufolge ist die Verteilung von Tn von 2 unabhängig. Es ist jedoch klar, dass die Verteilung von n abhängt. De…nition 8.17 Sind X1 ; : : : ; Xn unabhängige und standard-normalverteilte Zufallsgrössen, so heisst die Verteilung von Tn die t-Verteilung mit n 1 Freiheitsgraden. p p Gemäss Satz 8.10 sind n^ n und ^ 2n unabhängig, wobei n^ n standard normalverteilt und (n 1) ^ 2n 2 -verteilt mit n 1 Freiheitsgraden sind. Die t-Verteilung ist daher einfach die Verteilung des Quotienten von zwei unabhängigen Zufallsgrössen, der Zähler normalverteilt und der Nenner 2 -verteilt. Man kann die Dichte der t-Verteilung leicht berechnen: Proposition 8.18 Ist Y standard normalverteilt, ist Z 2 -verteilt mit n Freiheitsgraden und sind Y und Z unabängig, so hat die Zufallsgrösse Y =Z die Dichtefunktion ((n + 1) =2) fn (t) = p n (n=2) t2 +1 n (n+1)=2 : Beweis. Übungsaufgabe. Der kritische Wert t ;n 1 ist einfach das obere -Quantil der t-Verteilung mit n Freiheitsgraden, also die eindeutig bestimmte Zahl mit Z 1 fn 1 (t) dt = : t 1 ;n 1 Für n ! 1 konvergiert die t-Veteilung gegen die Standard-Normalverteilung. Insbesondere gilt lim t ;n 1 = z ; n!1 147 wobei z durch (8.7) de…niert ist. Wir wollen dies hier nicht beweisen. Die Unterschiede sind jedoch nicht ganz zu vernachlässigen. Die folgende Tabelle gibt einige Werte für die t-Quantile t ;n bei = 0:05 und = 0:01 : n 10 20 50 100 1 = 0:05 1:8125 1:7247 1:6759 1:6602 1:6449 = 0:01 2:7638 2:5280 2:4033 2:3642 2:3263 Der t-Test ist übrigens auch im einseitigen Fall nicht mehr UMP, jedoch UMP unbiased. Wir können jedoch auf den Beweis nicht eingehen, der etwas aufwendig ist. Wir diskutieren noch zwei wichtige Varianten des t-Test. Unter Umstände möchte man auch auf zweiseitige Alternativen testen: Nämlich die 0-Hypothese f = 0g gegen die Alternative f 6= 0g : In diesem Fall verwirft man die Hypothese, wenn der Absolutbetrag von Tn zu gross, ist, d.h. wenn Tn t =2;n oder Tn t =2;n ist. Da die Verteilung von Tn unter der 0-Hypothese symmetrisch ist, ist das o¤ensichtlich ein Niveau- -Test. Eine weitere Modi…kation ist der sogenannte Zweistrichprobentest: Wir sind ja ursprünglich beim motivierenden Beispiel davon ausgegangen, dass die Xi als Di¤erenzen von zwei Zufallsgrössen Ui und Vi zustande kommen. Es kommt jedoch oft vor, dass nicht einfach dieselbe Person zweimal - einmal vor und einmal nach einer Behandlung - gemessen wird, sondern dass zwei Gruppen von Personen untersucht werden. Typischerweise wird in der klinischen Forschung einer Gruppe das Medikament und einer zweite Gruppe ein Placebo gegeben (natürlich ohne dass die Versuchspersonen wissen, zu welcher Gruppe sie gehören17 ). Es liegen dann zwei Gruppen von Messungen vor unter Umständen auch mit unterschiedlicher Stichprobengrösse: Etwa Ui ; i = 1; : : : ; n und Vi ; i = 1; : : : ; m: Eine der Standardannahmen ist, dass die Ui unabhängig und normalverteilt mit Mittel 1 , Varianz 2 und die Vi normalverteilt mit Mittel 2 und Varianz 2 : Die 0-Hypothese lautet im einseitigen Fall dann etwas f 1 2 g gegen die Alternative f 1 > 2 g oder im zweiseitigen Fall f 1 = 2 g gegen f 1 6= 2 g : Als Teststatistik wird dann mit Tn := q 1 m + 1 n r U 1 m+n 2 Pn i=1 V Ui U 2 + n m i=1 i=1 Pm i=1 ; Vi V 2 1X 1X Ui ; V = Vi U= n n 17 Der “Goldstandard” in der klinischen Forschung ist der sogenannte Doppelblindversuch, wo weder der Patient noch der behandelnde Arzt weiss, wer das Medikament und wer das Placebo erhält. Es versteht sich von selbst, dass es viele Situationen gibt, wo das nicht gemacht werden kann. 148 verwendet. Unter der 0-Hypothese 1 = 2 ist Tn t-verteilt mit n + m den.18 Der t-Test ist also im einseitigen Fall: Tn t ;n+m 2 : Annahme der Alternative Tn < t ;n+m 2 : keine Verwerfung der 0 2 Freiheitsgra- Hypothese; und im zweiseitigen Fall jTn j t =2;n+m 2 : Annahme der Alternative jTn j < t =2;n+m 2 : keine Verwerfung der 0 Hypothese: Der t-Test ist vielleicht der am weitesten verbreitete Test überhaupt. Viele mathematische Statistiker stimmen jedoch darin überein, dass man ihn eigentlich nicht verwenden sollte. Der Haupteinwand gegen ihn besteht darin, dass der Test zwar UMP unverfälscht ist, dass aber diese Eigenschaft sehr schnell verloren geht, wenn die Voraussetzung der Normalverteiltheit verletzt ist. Die Optimalität des t-Test ist sehr wenig robust. Es gibt eine Reihe von Alternativen, die sich in dieser Beziehung besser verhalten.19 Wir kommen nochmals auf das Bernoulli-Experiment zurück. Wir nehmen an, dass jemand testen will, ob die Erfolgswahrscheinlichkeit p = p0 oder p 6= p0 ist. Es ist naheliegend, dafür wieder die Anzahl der Erfolge Xn zu verwenden und die Hypothese zu verwerfen, wenn jXn np0 j zu gross ist. Da es ziemlich lästig ist, für jedes feste n den Schwellenwert für Ablehnung getrennt auszurechnen macht man meist eine Asymptotik für n ! 1: Natürlich p kann man den Test dann nur für grosse n verwenden. Wie wir wissen ist (Xn np0 ) = np0 (1 p0 ) unter der 0-Hypothese asymptotisch standard normalverteilt, d.h. es gilt für jedes x 2 R : ! Z x Xn np0 1 2 p e y =2 dy: lim Pp0 p x = (x) := n!1 2 np0 (1 p0 ) 1 Wenn z das obere -Quantil von lim Pp0 n!1 ist: (z ) = 1 jX np0 j p n np0 (1 p0 ) z ; so gilt ! =2 = : Der Test mit dem Ablehnungsbereich jXn np0 j z =2 18 p np0 (1 p0 ) Es wird dabei vorausgesetzt, dass die Varianzen der beiden Stichproben gleich (aber nicht bekannt) sind. Das ist natürlich etwas fragwürdig. Das Problem mit zwei normalverteilten Stichproben unterschiedlicher (und unbekannter) Varianzen ist das sogenannte “Behrens-Fisher-Problem”. Leider brechen dafür die UMP-Konzepte zusammen. 19 Zur Verteidigung der Verwendung des t-Tests muss man jedoch bemerken, dass es wichtig ist, dass langjährig standardisierte Verfahren benützt werden. Wenn dies nicht gemacht würde, so könnte jeder gerade den Test verwenden, der ihm gerade am besten in den Kram passt und dem Missbrauch wäre Tür und Tor geö¤net. 149 hat daher asymptotisch das korrekte Niveau. Wir wollen noch eine wichtige Verallgemeinerung dieses Test distkutieren, den 2 Test. Man will etwa testen, ob ein Würfel auf alle Seiten mit gleicher Wahrscheinlichkeit fällt. Dazu wirft man den Würfel n mal. Wir bezeichnen mit Ni die Anzahl der Würfe bei denen der Würfel i anzeigt. Es ist plausibel, dass wir die 0-Hypothese verwerfen werden, wenn der Vektor Nn1 ; : : : ; Nn6 zu sehr von 16 ; : : : ; 16 abweicht. Eine naheliegende Teststatistik ist der Euklidsche Abstand. Wir fassen das gleich etwas allgemeiner: Sei p = (p (1) ; : : : ; p (m)) ein Wahrscheinlichkeitsvektor. Wir betrachten ein Zufallsexperiment mit m möglichen Ausgängen, der Einfachheit halber bezeichnen wir sie mit 1; : : : ; m: Dabei hat i die Wahrscheinlichkeit p (i) : Dieses Zufallsexperiment wird nun n mal unabhängig wiederholt. Wir bezeichnen mit N1 ; : : : ; Nm die Anzahl von Ausgänge des Zufallsexperiments, bei denen i auftritt. Ein geeigneter Wahrscheinlichkeitsraum ist einfach zu konstruieren: := f! = (! 1 ; : : : ; ! n ) Q : ! i 2 f1; : : : ; mgg : Ein Elementarereignis ! hat dann die Wahrscheinlichkeit Pp (!) = ni=1 p (! i ) : Damit können wir auch die Verteilung des Vektors N := (N1 ; : : : ; Nm ) ausrechnen: Für n1 + : : : + nm = n gilt Pp (N = (n1 ; : : : ; nm )) = A (n1 ; : : : ; nm ) m Y p (i)ni ; i=1 wobei A (n1 ; : : : ; nm ) die Anzahl der Möglichkeiten ist, die n1 Plätze bei denen 1 vorkommt, die n2 Plätze bei denen 2 vorkommt, etc. in den n Ausgängen des Zufallsexperimentes zu verteilen: Demzufolge ergibt sich A (n1 ; : : : ; nm ) = = Somit erhalten wir n n n1 n1 n2 n! Qm : i=1 ni ! n n1 n3 n2 n! Pp (N = (n1 ; : : : ; nm )) = Qm i=1 ni ! n m Y n1 ::: nm nm 1 p (i)ni : i=1 Dies nennt man die Multinomialverteilung. Die Verteilung von N1 alleine ist natürlich einfach die Binomialverteilung mit Erfolgswahrscheinlichkeit p1 ; und analog für N2 ; N3 ; : : : . Daraus ergibt sich, dass Ni p np (i) np (i) (1 p (i)) asymptotisch standard normalverteilt ist. Wir benötigen den folgenden Satz, den wir hier nicht beweisen können: Satz 8.19 m X (Ni np (i))2 np (i) (1 p (i)) i=1 150 ist asymptotisch 2 -verteilt lim P n!1 wobei cm 1 1 Freiheitsgraden, d.h. für jedes x 2 R+ gilt ! Z m x X (Ni np (i))2 x = cm 1 (y) dy; np (i) (1 p (i)) 0 mit m i=1 die Dichte der 2 -Verteilung mit m 1 Freiheitsgraden ist (8.6). Unter Verwendung dieses Satzes können wir nun sofort einen Niveau- -Test für die Multinomialverteilung angeben. Wir wollen die 0-Hypothese p = p0 gegen die Alternative p 6= p0 testen (p und p0 sind Wahrscheinlichkeitsvektoren der Länge m): Wir verwerfen die 0-Hypothese, wenn m X (Ni np (i))2 2 (8.13) m 1; np (i) (1 p (i)) i=1 2 k; ist. Dabei ist das obere -Quantil der 2 -Verteilung mit k Freiheitsgraden, d.h. die eindeutige de…nierte postive Zahl mit Z 1 1 xk=2 1 e x=2 dx = : (k=2) 2k=2 2k; (Falls k gerade ist, lässt sich das Integral natürlich explizit ausrechnen). Der Test (8.13) hat für endliches n natürlich nicht genau das Niveau ; der Unterschied ist für einigermassen grosse n jedoch vernachlässigbar. Für Leser, die ihre Würfel testen wollen: hier die Quantile for m = 6 : 2 5;0:05 = 11:07; 2 5;0:01 = 15:086; 2 5;0:001 = 20:515: Zur Illustration nehmen wir an, sie werfen den Würfel 600 mal und erhalten die folgende Verteilung der Augenzahlen. 120; 123; 81; 85; 111; 80: Dann ist m X (Ni np (i))2 202 + 232 + 192 + 152 + 112 + 202 = 3:3925: = 5 np (i) (1 p (i)) 600 36 i=1 Somit besteht kein Grund zur Beunruhigung. Wären jedoch alle Zahlen 10 mal grösser, so hätte man ebenfalls den 10-fachen Wert der Teststatistik. Dann könnte man getrost davon ausgehen, dass der Würfel gezinkt oder schlecht verarbeitet ist. 8.3 Kon…denzintervalle Wir kommen kurz zurück zu Schätzproblemen wie in Abschnitt ??, aber nun unter einem etwas anderen Gesichtspunkt. Wir nehmen wieder ein parametrisches Modell an, d.h. einen Raum mit einer Familie von Wahrscheinlichkeitsmassen P ; wobei wir für den Moment annehmen, dass eindimensional ist. Wichtiger als eine Schätzung ^; wie in Abschnitt ?? diskutiert, ist meist, dass hman gewisse Fehlergrenzen angibt, die eini schränken. Wir wollen also ein Intervall ^ ; ^+ bestimmen, in dem “mit grosser 151 Wahrscheinlichkeit”liegt. Ein solches Intervall nennt man Kon…denzintervall. Nun muss man den folgenden konzeptionellen Gesichtspunkt festhalten (der nicht von allen Statistikern geteilt wird): Wir haben stets angenommen, dass nicht zufällig ist, sondern nur dem Statistiker unbekannt ist. Somit macht es keinen Sinn, eine Wahrscheinlichkeit zu bestimmen, mit der irgendwo liegt. Zufällig sind jedoch die Grenzen ^ ; ^+ ^ ; ^+ ; die die Eiunseres Kon…denzintervalles. Wir h suchen i also nach Zufallsgrössen genschaft haben, dass P 2 ^ ; ^+ für alle möglichen Parameter gross ist. Der Statistiker muss festlegen, wie gross diese Wahrscheinlichkeit sein soll, bzw. wie klein die Fehlerwahrscheinlichkeit werden soll. De…nition 8.20 Sei 2 (0; 1). Ein Kon…denzintervall zum Kon…denzniveau ist ein Intervall der h i Form ^ ; ; ^ ;+ ; wobei ^ ; und ^ ;+ Zufallsgrössen sind, für die P für alle 2 gilt. h 2 ^ ; ;^ ;+ i 1 Es ergibt sich sofort ein direkter Zusammenhang mit der Testtheorie aus dem letzten Abschnitt 8.2: Nehmen wir einmal an, wir wollen die 0-Hypothese f = 0 g gegen die zweiseitige Alternative f 6= 0 g testen, und wir hätten dazu eine Teststatistik T mit der Eigenschaft, dass die 0-Hypothese verworfen wird, wenn T 2 = A gilt, wobei A eine Teilmenge von R ist. Natürlich hängt A von und natürlich auch von 0 ab. Wir schreiben daher A ( ; 0 ) : Bei einer gegebenen Realisierung von T können wir die Menge aller 0 bestimmen, für die die 0-Hypothese nicht verworfen wird: K (!) := f 0 2 : T (!) 2 A ( ; 0 )g Dies ist natürlich eine zufällige Teilmenge der Parametermenge fallsgrösse. Per De…nition eines Niveau- -Tests gilt dann P 0 (f! 2 : T (!) 2 A ( ; 0 )g) : , denn T ist eine Zu- 1 für alle 0 2 : (Den Index 0 können wir uns in Zukunft natürlich wieder sparen). Wenn K (!) die Form eines Intervalls hat, was in der Regel der Fall ist, so haben wir genau unser Kon…denzintervall gefunden. Wir brauchen daher nur die Tests aus dem letzten Abschnitt unter diesem Gesichtspunkt ausschlachten. Wir beschränken uns auf den allereinfachsten Fall, nämlich den Parameter p der Binomialverteilung. Sei Xn die Anzahl der Erfolge und X n := Xn =n: Wie wir gesehen hatten, wird die 0-Hypothese p = p0 im zweiseitigen Fall nicht abgelehnt, wenn p p z =2 np0 (1 p0 ) < Xn np0 < z =2 np0 (1 p0 ); p p p0 (1 p0 ) p0 (1 p0 ) p p p0 z =2 < X n < p0 + z =2 n n 152 gilt. (Allerdings setzen wir hier voraus, dass n schon so gross ist, dass die Normalapproximation gerechtfertigt ist). Wir müssen nun diese Bedingung nur noch umformen. Da wir n ohnehin als einigermassen gross voraussetzen müssen, ersetzen wir p0 unter den Wurzelausdrücken durch X n ; was zu einem Fehler der Ordnung 1=n führen wird, den wir vernachlässigen. Wir erhalten deshalb das approximative Kon…denzintervall q q 0 1 Xn 1 Xn Xn 1 Xn A; p p Kn := @X n z =2 ; X n + z =2 n n wobei die Fehler in den Grenzen des Intervalls von der Ordnung O (1=n) sind. Tatsächlich lässt sich leicht nachweisen, dass für jedes p 2 (0; 1) lim Pp (p 2 Kn ) = 1 n!1 gilt. Dies sind die üblichen Kon…denzintervalle für den Parameter der Binomialverteilung. Für kleine n sind sie jedoch nicht genau; dann sollte man aber auch nicht die Approximation durch die Normalverteilung verwenden. Ein Rechenbeispiel: n = 1000 und 310 Erfolge. Dann ist das 99%-Kon…denzintervall (z0:005 = 2:5758) ! r r 0:310 0:590 0:310 0:590 ; 0:31 + z0:005 = (0:275; 0:345) : 0:31 z0:005 1000 1000 Oft wird jedoch auch nur ein 95% Kon…denzintervall angegeben, das natürlich enger ist.20 20 Meinungsforschungs-Institutionen geben in der Regel kleinere Bandbreiten an. Diese werden dadurch erzielt, dass die Stichprobe nicht ganz zufällig ausgewählt wird, sondern mehr systematisch. Zum Beispiel wird die Stichprobe, die befragt wird, proportional nach Berufsgruppen, Wohnungsorten etc. gewählt. Auf diese Weise ho¤t man, die Streuung zu reduzieren. Dies birgt jedoch immer die Gefahr, dass systematische Fehler eingebaut werden. 153