Vorlesung Einführung in die mathematische Statistik Prof. A. Antille Sommersemester 2004 Literatur P.J. Bickel – K.A. Doksum, Mathematical Statistics: Basic Ideas and Selected Topics (Holden-Day, 1977). L. Breiman, Statistics: With a View Toward Applications (Houghton Mifflin, 1973). B.L. van der Waerden, Mathematische Statistik (Grundlehren der math. Wissenschaften, Bd 87, Springer, 1971). H. Witting, Mathematische Statistik (Teubner, 1966). Inhalt I. Vorbemerkungen, Statistische Modelle, Beispiele II. Schätztheorie § 1 Einige Schätzmethoden § 2 Verlustfunktion, Güte einer Schätzung, Optimalitätseigenschaften § 3 Vertrauensgebiete III. Testtheorie § 1 Testverfahren, Niveau, Macht, Lemma von Neyman–Pearson § 2 Einige wichtige Beispiele von Tests 2 I. Vorbemerkungen, Statistische Modelle, Beispiele Im Sprachgebrauch bedeutet “Statistik” die Sammlungen von Daten, welche für den Staat wichtig sind: Steuerstatistik, Sterbestatistik, Arbeitslosenstatistik, Studentenstatistik etc. Die mathematische Statistik hat mit Fragen dieser Art wenig oder nichts mehr zu tun. Wesentliches Merkmal: Der Schritt vom Sammeln von Daten zum Schliessen aus Daten, bzw. zum Führen von Entscheidungen nach Sichtungen von Daten. Aufgabe der mathematischen Statistik ist es, mathematische Modelle zu entwickeln, die es erlauben, aus zufälligen Beobachtungen Entscheidungen abzuleiten. Die wahre Verteilung der beobachteten Zufallsgrösse ist unbekannt. Sei X eine Teilmenge von Rn , A eine σ-Algebra von Teilmengen von X, Θ eine Teilmenge von Rk . Definition Ein statistisches Modell ist ein Tripel X , A, (Pθ )θ∈Θ , wobei (Pθ )θ∈Θ eine Familie von Wahrscheinlichkeiten ist. Interpretation: Beobachtet wird eine Zufallsgrösse X mit Werten in X . Die Verteilung von X ist unbekannt. Sie gehört aber der Familie (Pθ )θ∈Θ an. Aufgabe der Statistik ist es, auf Grund einer Beobachtung von X, Entscheidungen über den wahren Wert von θ, d.h. über die zugrundeliegende Verteilung von X, abzuleiten. Θ heisst Parameterraum und X Beobachtungsraum oder Stichprobenraum. Beispiel 1: Um die Qualität eines Heilverfahrens zu überprüfen, werde es auf n Personen angewandt. Dabei handle es sich jeweils um unabhängige Wiederholungen ein- und desselben Experiments, wobei nur das Eintreten oder Nichteintreten von Heilerfolg (mit einer Wahrscheinlichkeit θ, 0 ≤ θ ≤ 1) interessiert. Hier werden Zufallsgrössen X1 , X2 , . . . , Xn verwendet, die nur zwei Werte annehmen können, nämlich 1 (für Erfolg) und 0 (für Nichterfolg) mit den Wahrscheinlichkeiten θ bzw. 1 − θ. Demgemäss liegt eine Zufallsgrösse X := (X1 , . . . , Xn ) vor, wobei X1 , X2 , . . . ,Xn unabhängig sind. Das zugrundeliegende statistische Modell ist dann X , A, (Pθ )θ∈[0,1] , wobei X = x := (x1 , x2 , . . . , xn ) : xi ∈ {0, 1} , A = P(X ) und n n P P xi n− Pθ ({x}) = θi=1 (1 − θ) xi i=1 , ∀x ∈ X. Typische Fragen: 1. Wie gross ist der wahre Wert von θ (Schätzproblem!) ? 2. Ist der wahre Wert grösser als (z.B.) 0,65 (Testproblem!) ? Mögliche Entscheidungen für Frage 1: Alle Werte im Intervall [0, 1], Mögliche Entscheidungen für Frage 2: Ja oder nein. Beispiel 2: n Messungen einer Länge θ ergeben x1 , x2 , . . . , xn . Die Vorstellung ist die, dass diese Werte so zustandekommen, dass zur wahren Länge θ ein jeweils unabhängiger zufälliger Messfehler hinzukommt. Der Vektor x := (x1 , x2 , . . . , xn ) kann als als eine Beobachtung eines Zufallsvektors X := (X1 , . . . , Xn ) interpretiert werden. Ferner gilt Xi = θ + Zi , 3 i = 1, 2, . . . , n, wobei die Zufallsgrössen (zufällige Messfehler) Z1 , Z2 , . . . , Zn unabhängig sind. Typische Frage: Wie gross ist die Länge? (Schätzproblem!) n P Falls E(Zi ) = 0, ist es üblich X̄n := n1 Xi , den Mittelwert der Beobachtungen X1 , . . . , Xn , i=1 als Schätzer zu nehmen. Für grosse Werte von n ist dieses Schätzverfahren (Entscheidungsverfahren), wegen der Gesetze der grossen Zahlen, sicher sinnvoll. Ob man es besser machen kann, ist eine andere Frage. Würde man die Zufallsgrössen Z1 , Z2 , . . . , Zn normalverteilt N (0, σ 2 ) (σ 2 bekannt) voraussetzen, wäre dann das zugrundeliegende statistische Modell: X , A, (Pθ )θ∈R , wobei X = Rn , n 2 n Z − P (xi −θ) 2σ2 1 i=1 dx1 dx2 . . . dxn , e A = βRn = Borel’sche σ-Algebra und Pθ (A) = √ 2πσ A ∀ A ∈ A. Beispiel 3: (Schätzproblem) X1 , X2 , . . . , Xn seien wie im Beispiel 1. Würde man nur X := A = P(X ), Xi beobachten, dann i=1 wäre das zugrundeliegende Modell: (X , A, (Pθ )θ∈[0,1] , n P wobei X = {0, 1, . . . , n}, Pθ ({x}) = (X ist B(n, θ) verteilt!). x θ (1 − θ)n−x , ∀ x ∈ X n x Beispiel 4: (Schätzproblem) Eine “unendlich grosse” Urne enthält θ (unbekannt) Kugeln. Die Kugeln seien von 1 bis θ durchnumeriert. n Kugeln werden der Reihe nach zufällig (mit Zurücklegen) ausgewählt. X := (X1 , . . . , Xn ) sei der Vektor der beobachteten Nummer. Das entsprechende Modell ist dann X , A, (Pθ )θ∈{1,2,...,} , wobei X = {x := (x1 , . . . , xn ) : xi ∈ {1, 2, 3, . . .}} , A = P(X ) und Pθ ({x}) = θ1n , ∀ x ∈ X mit xi ∈ {1, 2, . . . , θ}. Gesucht ist eine Schätzung für die Anzahl der Kugeln. n sei gross. Was meinen Sie über die zwei folgenden Vorschläge?: 1. T (X1 ,2 , . . . , Xn ) := max{X1 , X2 , . . . , Xn }, 2. S(X1 , X2 , . . . , Xn ) := 2X̄n − 1, wobei X̄n := n 1X Xi . n i=1 Begründung für den zweiten Vorschlag: Die Zufallsgrössen X1 , . . . , Xn sind i.i.d. Also ist X̄n ≈ E(X1 ) = der grossen Zahlen und somit θ ≈ 2X̄n − 1. θ+1 wegen der Gesetze 2 4 Beispiel 5: (Testproblem) Ein Angler fängt in seinem gewohnten Teich an einem Nachmittag durchschnittlich 6 Fische. Ein Freund überredet ihn, in einem anderen Teich zu angeln. Dort fängt er aber in der gleichen Zeit nur 4 Fische. Lohnt es sich für ihn, wenigstens noch einmal einen Versuch mit dem zweiten Teich zu machen? Für diese Situation können wir folgendes mathematische Modell betrachten: Sei X die, beim zweiten Versuch, Anzahl der gefangenen Fische. Teich 1: X ist Poisson-verteilt mit Parameter λ1 = 6, Teich 2: X ist Poisson-verteilt, aber mit unbekanntem λ2 . Das statistische Problem liegt gerade darin, dass λ2 unbekannt ist. Wenn λ2 bekannt wäre, wüsste der Angler, wohin er nächsten Sonntag geht. Bekannt ist aber nur der Beobachtungswert X = 4, das von verschiedenen λ herrühren kann. Wir werden später sehen (III), dass sich dieses Problem als Testproblem deuten lässt. Ein Testproblem ist folgendermassen beschaffen: Es soll eine Entscheidung zwischen zwei Möglichkeiten getroffen werden. Beispiel 6: (Vertrauensintervalle) X sei wie im Beispiel 2. Als Schätzer für die Länge haben wir X̄n erwähnt. X̄n ist eine Zufallsgrösse. In der Praxis ist aber die Wahrscheinlichkeit Null, dass X̄n den wahren Wert liefert. Für grosse Werte von n weiss man nur, dass der wahre Wert in der Nähe von X̄n liegt. Um ein Gefühl für die Güte von X̄n zu haben, könnte man so verfahren: Man gibt sich eine Zahl β in der Nähe von 1 vor, z.B. β = 0, 99. Dann sucht man ein um X̄n symmetrisches Intervall I(X), das den wahren Wert mit einer Wahrscheinlichkeit = 0, 99 enthält (falls ein Intervall überhaupt existiert!). Ein solches Intervall heisst Vertrauensintervall vom Niveau 0, 99. Je “kleiner” I(X), desto besser ist der Schätzer X̄n . Vertrauensintervalle werden wir im Kapitel II, § 3 besprechen. II Schätztheorie § 1 Einige Schätzmethoden X1 , X2 , . . . , Xn seien i.i.d. reelle diskrete Zufallsgrössen (d.h. mit Werten in einer abzählbaren Teilmenge E = {e1 , e2 , . . .}) oder Zufallsgrössen mit einer Dichte. Beobachtet wird der Zufallsvektor X := (X1 , . . . , Xn ). Die Verteilung von X gehöre einer Familie (Pθ )θ∈Θ⊆Rk von Wahrscheinlichkeiten an. mk (θ) sei der k–te Moment von X1 unter Pθ , d.h. i) mk (θ) := ∞ P i=1 ii) mk (θ) := R eki Pθ (X1 = ei ) falls xk gθ (x)dx (falls R ∞ P i=1 |ei |k Pθ (X1 = ei ) < ∞) im diskreten Fall und |x|k gθ (x)dx < ∞) im Falle, wo X1 die Dichte gθ besitzt. Die Verteilung von X ist unbekannt und wir möchten sie schätzen. Da die Verteilung durch den Parameter θ eindeutig bestimmt ist, besteht die Aufgabe darin, dass man den wahren Wert θ0 von θ schätzt. 5 1.1. Die Methode der Momente Nehmen wir nun an, dass q(θ) = h m1 (θ), . . . , mr (θ) , wobei h eine stetige Funktion ist. Methode der Momente: Als Schätzer für q(θ0 ) wählt man Tn (X) := h M1 (X), . . . , Mr (X) , n P wo Mk (X) := n1 Xik , d.h. man ersetzt in der Funktion h die Momente mk (θ) durch die i=1 sogenannten empirischen Momente Mk (X). Dieses Schätzverfahren beruht auf den starken Gesetzen der grossen Zahlen: Falls mi (θ0 ) f.s. existiert, gilt Mi (X) = Mi (X1 , . . . , Xn ) −→ mi (θ0 ) und wegen der Stetigkeit von h, n→∞ f.s. Tn (X) −→ h m1 (θ0 ), . . . , mr (θ0 ) = q(θ0 ) . n→∞ Beispiel 1: X1 , X2 , . . . , Xn seien i.i.d. mit einer Normalverteilung N (µ, σ 2 ). Hier ist 2 2 θ := (µ, σ ) ∈ Θ = R × R+ . Da θ = m1 (θ), m2 (θ) − m1 (θ) , bekommen wir als Schätzer für θ, n 1X Tn (X1 , X2 , . . . , Xn ) = M1 (X), M2 (X) − M12 (X) = X̄n , (Xi − X̄n )2 , n i=1 n wobei X̄n := 1X Xi . n !‘=1 Beachte: 1 n n X i=1 n Xi2 − (X̄n )2 = 1X (Xi − X̄n )2 . n i=1 Beispiel 2: X1 , . . . , Xn seien wie im Kapitel I, Beispiel 1. Die Methode liefert der Schätzer Tn (X) = X̄n , denn θ = m1 (θ). Wäre die Grösse ψ(θ) := θ(1 − θ) relevant, könnte man Sn (X) := Tn (X) 1 − Tn (X) = X̄n (1 − X̄n ) als Schätzer von ψ(θ) vorschlagen. 2 Bemerkung: ψ(θ) = Varθ (X1 ) = Eθ (X12 ) − Eθ (X1 ) = m2 (θ) − m21 (θ). n 1X Also ist Tn (X) = M2 (X) − M12 (X) = (Xi − X̄n )2 . n i=1 Beispiel 3: X1 , X2 , . . . , Xn seien wie im Kapitel I, Beispiel 2. θ i P θ(θ + 1) θ+1 = = . Also ist θ = 2m1 (θ) − 1. Die Methode der 2θ 2 i=1 θ Momente liefert dann den Schätzer Es gilt Eθ (X1 ) = S(X1 , . . . , Xn ) := 2M1 (X) − 1 = 2X̄n − 1. Beachte: Die Schätzung S(X1 , . . . , Xn ) ist sinnlos, wenn 2X̄n − 1 < max{X1 , . . . , Xn }. 6 1.2. Die Maximum–Likelihood Methode A. Diskreter Fall: X1 , X2 , . . . , Xn seien i.i.d. Zufallsgrössen mit Werten in E = {x1 , x2 , . . .} und möglichen Wahrscheinlichkeiten Pθ ({xi }), θ ∈ Θ ⊆ Rk (statistisches Modell!) Die Maximum–Likelihood Methode: Als Schätzer für θ wählt man den (einen) Wert θ̂n so, dass L(X1 , X2 , . . . , Xn ; θ̂n ) = maxL(X1 , X2 , . . . , Xn , θ), θ∈Θ wobei L(x1 , . . . , xn ; θ) := Pθ ({x1 }) . . . Pθ ({xn }), ∀(x1 , . . . , xn ) ∈ E n := E . . × E} . | × .{z n−mal Begründung: Wenn X1 = x1 , . . . , Xn = xn beobachtet wurden, ist die Wahrscheinlichkeit dafür Pθ ({x1 }) · Pθ ({x2 }) . . . · Pθ ({xn }) = L(x1 , x2 , . . . , xn ; θ). Falls dieser Wert sehr klein ist bei einem θ, ist die Beobachtung unwahrscheinlich. Die Methode besteht darin, dass man als Schätzer denjenigen Wert θ̂n wählt, für welchen die Beobachtung am wahrscheinlichsten ist. Beispiel 1: X1 , X2 , . . . , Xn seien wie im Kapitel I, Beispiel 1. In diesem Fall ist E = {0, 1}. Ferner gilt n P xi n− L(x1 , . . . , xn ; θ) = θi=1 (1 − θ) n P i=1 xi , ∀ x = (x1 , . . . , xn ) ∈ E n . Gesucht ist nun der Wert θ̂n , für welchen L(x1 , . . . , xn ; θ) maximal wird: L(x1 , . . . , xn ; θ) maximal ⇐⇒ ln L(x1 , . . . , xn ; θ) maximal. Eine notwendige Bedingung dafür ist: n n n n X X X X d ln(θ) d ln(1 − θ) 1 1 d ln(L) =( xi ) + (n − xi ) =( xi ) − (n − xi ) = 0. dθ dθ dθ θ 1 − θ i=1 i=1 i=1 i=1 Der Maximum-Likelihood Schätzer ist also θ̂n = X̄n . Beispiel 2: X1 , X2 , . . . , Xn seien wie im Kapitel I, Beispiel 4. Mit E = {1, 2, . . .} 1 gilt Pθ ({x}) = n für alle x = (x1 , . . . , xn ) ∈ E n , falls max{x1 , . . . , xn } ≤ θ und θ Pθ ({x}) = 0 sonst. Somit ist der Maximum-Likelihood Schätzer θ̂n = max{X1 , . . . , Xn }. B. Der Fall mit einer Dichte X1 , X2 , . . . , Xn seien i.i.d. reelle Zufallsgrössen mit einer Dichte gθ , wo θ ∈ Θ ⊆ Rk . Man definiert L als L(x1 , . . . , xn ; θ) = n Y i=1 gθ (xi ), ∀ x = (x1 , . . . , xn ) ∈ Rn . 7 Maximum-Likelihood Methode: Man wählt denjenigen Wert θ̂n , für welchen L(X1 , . . . , Xn ; θ) maximal wird. Beispiel 1: X1 , . . . , Xn seien i.i.d. und normalverteilt N (µ, σ 2 ) mit θ := (µ, σ 2 ) ∈ R × R+ . In diesem Fall ist L(x1 , x2 , . . . , xn ; θ) = 1 √ 2πσ 2 e − n P (xi −µ)2 2σ2 i=1 . Gesucht ist der maximale Wert von L (als Funktion von θ): L maximal ⇐⇒ ln(L) maximal. Eine notwendige Bedingung dafür ist: ∂ ln(L) = 0, ∂µ ∂ b) ln(L) = 0. ∂σ a) Eine einfache Rechnung (siehe Übungen) liefert dann die Lösungen µ̂n = x̄n , σ̂ 2 = P 1 (xi − x̄n )2 . Der Maximum-Likelihood Schätzer θ̂n ist also n ! n 1X 2 θ̂n = X̄n , (Xi − X̄n ) . n i=1 Bemerkung: Man sollte noch verifizieren, dass an der Stelle θ̂n , L(X1 , . . . , Xn ; θ) den maximalen Wert annimmt. Dies ist aber trivial. (Warum?) Beispiel 2: X1 , . . . , Xn seien i.i.d. mit der Dichte gθ := 12 e−|x−θ|, θ ∈ R. n P n 1 − i=1 |xi −θ| 1 Y −|xi −θ| L(x1 , . . . , xn ; θ) = n e = ne . 2 i=1 2 Der Maximum-Likelihood Schätzer ist also der Wert θ̂n , für welchen die Summe n P |Xi − θ| minimal wird, den sogenannten Zentralwert oder Median (siehe Übungen). i=1 Dieses Beispiel zeigt, dass der Maximum-Likelihood Schätzer nicht immer eindeutig bestimmt ist (n gerade!). Bemerkungen: Wie die Methode der Momente (siehe 1.1., Beispiel 3, oben), kann die Maximum-Likelihood Methode zu unvernünftigen Schätzungen führen: X1 , X2 , . . . , Xn , Y1 , Y2 , . . . , Yn seien unabhängige reelle Zufallsgrössen, wobei Xk , Yk , normalverteilt N (µk , σ 2 ) sind, k = 1, . . . , n (µk , σ 2 , unbekannt). Als Schätzer für µk , σ 2 bekommen wir n 1 X Xk + Yk (Xk − Yk )2 . , k = 1, 2, . . . , n und σ̂n2 = µ̂k = 2 4n k=1 2 Eσ0 (Xk − Yk ) = 2σ02 , wobei σ02 2 der wahre Wert von σ ist. Wegen der Gesetze der σ2 grossen Zahlen konvergiert aber σ̂n2 fast sicher gegen 0 . 2 8 1.3. Die Methode der kleinsten Quadrate Oft stellt sich das Problem, eine Gerade, Parabel oder eine andere “einfache” Funktion einer gegebenen Menge von Messwerten anzupassen. Z.B. kann in Abhängigkeit von einer Grösse x eine Grösse y gemessen worden sein, und nun liegen n Messpunkte (x1 , y1 ), . . . , (xn , yn ) vor. Wenn diese Punkte relativ gut auf einer Geraden liegen, kann man einen linearen Zusammenhang der beobachteten Grössen vermuten, der nur durch Messfehler zi gestört ist. Dann wäre yi = α + βxi + zi (i = 1, . . . , n). In anderen Fällen könnte etwa aus Naturgesetzen ein Ansatz yi = α + βxi + γx2i + zi geboten sein, in dem nur noch α, β, γ unbekannt sind. Allgemeiner nehmen wir an, θ1 , . . . , θp seien unbekannte Parameter, und für bekannte Funktionen ϕi sei δi = ϕi (θ1 , . . . , θp ) (i = 1, . . . , n) der wahre zu messende Wert bei der i–ten Messung und yi = δi + zi der tatsächlich beobachtete Wert, also zi der Messfehler. Im Beispiel der Geraden wäre θ1 = α, θ2 = β und ϕi (θ1 , θ2 ) = θ1 + θ2 xi . Man fragt, welche Parameter am besten zu den yi passen. Methode der kleinsten Quadrate: Die Methode besagt, man solle die θk so bestimmen, dass n P Q := (yi − δi )2 minimal wird. Dies ist als ad hoc Ansatz ohne jede Statistik formulierbar i=1 und wird oft angewandt. In dieser Vorlesung nehmen wir an, dass die zi Realisierungen von Zufallsgrössen Zi sind, wobei die Zi unabhängig sind mit E(Zi ) = 0, ∀ i. So ist y = (y1 , . . . , yn ) die Realisierung von Y = (Y1 , Y2 , . . . , Yn ) mit Yi = δi + Zi . Das allgemeine lineare Regressionsmodell Definition: Das Regressionsmodell Yi = ϕi (θ1 , . . . , θp ) + Zi , i = 1, . . . , n, heisst linear, falls sich ϕi (θ1 , . . . , θp ) schreiben lässt als ϕi (θ1 , . . . , θp ) = p X xij θj mit bekannten Zahlen xij . j=1 In Matrixschreibweise lässt sich das lineare Modell so darstellen: Y = Xθ + Z, wobei Y = (Y1 , . . . , Yn )T , θ = (θ1 , . . . , θp )T (C T bedeudet die transponierte Matrix). X = (xij ) ist die bekannte n × p Matrix. Beachte: Die Methode der kleinsten Quadrate besteht darin, dass man den (einen) Wert θ̂ sucht, für welchen Q(θ̂) = minp Q(θ) mit θ∈R Q(θ) := kY − Xθk2 := (Euklidische Norm des Vektors Y − Xθ). n X i=1 Yi − p X j=1 2 xij θj 9 Satz: Wenn p ≤ n und Rang(X) = p, dann ist θ̂ die einzige Lösung des Gleichungssystems (X T X)θ = X T Y (Normalgleichungen). Die Lösung lässt sich also explizit schreiben als θ̂ = (X T X)−1 X T Y. Beweis. Für i = 1, 2, . . . , p, bezeichne αi (∈ Rn ) den i–ten Spaltenvektor der Matrix X. Mit p P η := Xθ gilt Y = η + Z = θi αi + Z. Vp sei der durch die Vektoren α1 , . . . , αp gespannte Unterraum von Rn , d.h. i=1 Vp = Die Dimension von Vp ist gleich p. ( p X i=1 ) λi αi : λi ∈ R, ∀ i . η̂ sei die orthogonale Projektion von Y auf Vp . Dann gilt kY − η̂k2 = min kY − ηk2 . Da η∈Vp η̂ ∈ Vp , gibt es eindeutig bestimmte Zahlen θ̂1 , θ̂2 , . . . , θ̂p so, dass η̂ = p X θ̂i αi . i=1 Diese Zahlen sind die einzigen Lösungen der Normalgleichungen, denn αTi (Y − η̂) = αTi (Y − X θ̂) = 0 für i = 1, 2, . . . , p (η̂ ist die orthogonale Projektion) ⇐⇒ X T (Y − X θ̂) = 0 ⇐⇒ X T Y = X T X θ̂ Bemerkung: Um den Wert θ̂ zu bestimmen, hätten wir auch die partiellen Ableitungen von Q(θ) nach θ1 , . . . , θp Null setzen können. Die so erhaltenen Gleichungen sind die Normalgleichungen. – Ein Beispiel wird in der Vorlesung angegeben. 10 §2 Verlustfunktion, Güte einer Schätzung, Optimalitätseigenschaften Wie im § 1 wird in diesem Abschnitt ein Zufallsvektor X = (X1 , . . . , Xn ) beobachtet, wobei die {Xj } i.i.d. mit Verteilung (Pθ )θ∈Θ⊆Rk . Zu schätzen ist der unbekannte Parameter θ oder eine reelle bekannte Funktion h von θ. X , A, (Pθ )θ∈Θ bezeichne das zugrundeliegende statistische Modell. 2.1 Verlustfunktion, Güte einer Schätzung Definitionen Eine Schätzfunktion oder kurz eine Schätzung für h(θ) ist eine Abbildung von X in h(Θ), wobei h(Θ) := {h(θ): θ ∈ Θ}. δ sei eine Schätzung für h(θ). Ihre Risikofunktion R(θ, δ) ist definiert als R(θ, δ) := Eθ δ(X)− 2 h(θ) , θ ∈ Θ. δ heisst erwartungstreu oder biasfrei, falls Eθ δ(X) = h(θ), ∀ θ ∈ Θ. δ(X) = δ(X1 , . . . , Xn ) =: δn (X) heisst konsistent, falls Pθ |δn (X) − h(θ)| > ε −→ 0, d.h. n→∞ P θ falls δn (X) −→ h(θ), ∀ θ ∈ Θ. n→∞ Die Funktion L(u, t) := (u − t)2 , u, t ∈ h(Θ) heisst Verlustfunktion. Die Risikofunktion ist also nichts anderes als R(δ, θ) = Eθ L(δ(X), h(θ)) , d.h. R(δ, θ) ist der erwartete Verlust. Spieltheoretische Interpretation von statistischen Entscheidungsproblemen Der Spieler Nr. I sei der “Statistiker”; der Spieler Nr. II sei die “Natur”. Die Natur wählt einen Zustand h(θ) mit θ ∈ Θ. Der Statistiker wählt eine Strategie, d.h. eine Schätzfunktion δ. Wird X = x beobachtet, dann wird die Entscheidung δ(x) getroffen. Der Statistiker verliert dann die Summe L δ(x), h(θ) . Die Risikofunktion R(δ, θ) ist also der erwartete Verlust, wenn δ die Strategie des ersten Spielers ist, und wenn der zweite Spieler den Zustand θ h(θ) wählt. Bemerkung: R(δ, θ) ist ein Mass für die Güte der Schätzung δ. Je kleiner R(δ, θ), desto besser ist die Strategie δ. δ1 , δ2 seien zwei Schätzer für h(θ). Definitionen: δ1 ist besser als δ2 an der Stelle θ, falls R(δ1 , θ) < R(δ2 , θ). δ1 ist überall besser als δ2 , falls R(δ1 , θ) < R(δ2 , θ) für alle θ ∈ Θ. δ1 ist zulässig, falls kein δ existiert, so dass R(δ, θ) ≤ R(δ1 , θ), ∀ θ mit R(δ, θ) < R(δ, θ) für mindestens ein Element von Θ. 11 δ ∗ heisst minimax, falls sup R(δ ∗ , θ) = min sup R(δ, θ). θ∈Θ δ θ∈Θ Beachte: Falls δ erwartungstreu für h(θ) ist, gilt 2 R(δ, θ) = Eθ δ(X) − h(θ) = Varθ ( δ(X) . Beispiele: 1. Beispiel 1, II.1.1. Ist h(θ) = h(µ, σ 2 ) = µ, haben wir den Schätzer δ(X) = X n := δ ist erwartungstreu und R(δ, θ) = Varθ ( δ(X) = 1 n2 n P i=1 1 n P Xi vorgeschlagen. i=1 Varθ (Xi ) = 1 2 nσ . Nach dem schwachen Gesetz der grossen Zahl ist δn (X) = δ(X1 , . . . , Xn ) konsistent. 2. Beispiel 2, II.1.1. δ(X) = X n ist eine erwartungstreue Schätzung für die unbekannte Wahrscheinlichkeit θ. In diesem Fall gilt R(δ, θ) = Varθ (X n ) = n1 Varθ (X1 ) = n1 θ(1 − θ). Die Schätzung X n ist konsistent. 3. Beobachtet wird der Zufallsvektor X = (X1 , . . . , Xn ), wobei X1 , . . . , Xn , i.i.d. Zufallsgrössen mit gleichförmiger Verteilung auf dem Intervall [0, θ], θ > 0. Die MaximumLikelihood Methode liefert den Schätzer T (X) = max(X1 , X2 , . . . , Xn ). Wir betrachten die folgenden erwartungstreuen Schätzer für θ: δ1 (X) := n+1 n T (X), δ2 (X) := 2X n . In den Übungen wird man zeigen, dass Varθ δ1 (X) = θ2 n(n + 2) und δ1 ist also immer eine bessere Strategie als δ2 . θ2 Varθ δ2 (X) = . 3·n Bemerkung 1: Man kann zeigen, dass δ1 unter allen biasfreien Schätzungen (für θ) diejenige ist, die überall die kleinste Varianz hat. Bemerkung 2: Wir werden später zeigen, dass δ(X) im ersten Beispiel 1 unter allen erwartungstreuen Schätzungen überall die kleinste Varianz hat. Bemerkung 3: In den Beispielen 1 und 2 besitzt der Schätzer X n wegen des Zentralgrenzwertsatzes die folgende Eigenschaft: √ n(X n − µ) Beispiel 1: Pθ a < < b −→ Φ(b) − Φ(a), ∀ a, b, n→∞ σ ! √ n(X n − θ) < b −→ Φ(b)−Φ(a), ∀ a, b und 0 < θ < 1. Beispiel 2: Pθ a < p n→∞ θ(1 − θ) 12 Die Fisher Information X sei eine Zufallsgrösse mit Werten in E := {e1 , e2 , . . .} ⊆ Rn (diskreter Fall) oder ein Zufallsvektor mit einer Dichte. Im diskreten Fall sei das statistische Modell (E, P(E), (Pθ )θ∈Θ⊆R ) und wenn eine Dichte existiert (Rn , βRn , (pθ )θ∈Θ⊆R ), wobei Pθ ({ei }) := Pθ (X = ei ), i = 1, 2, . . . und pθ (x), x ∈ Rn dPθ ∂ die Dichte ist. Sehr oft existieren und pθ (x). Nehmen wir an, es sei der Fall. Dann dθ ∂θ können wir die sogenannte Fisher Information definieren: Definition: (Fisher Information) 1. I(Pθ ) := ∞ X i=1 2. I(pθ ) := " Z " #2 dPθ dθ ({ei }) Pθ ({ei }) ∂ ∂θ (pθ (x)) pθ (x) #2 Pθ ({ei }) (diskreter Fall), pθ (x)dx . Diese Grössen werden im folgenden Abschnitt eine wichtige Rolle spielen (siehe Cramer-Rao Ungleichung, unten). Beispiele (für die Beweise siehe die Übungen) i) X habe die Dichte pθ (x) = I(pθ ) = 1 . nσ 2 1 √ 2πδ n e− P (xi −θ)2 2σ2 (σ 2 bekannt). Dann gilt n P xi e−nθ θi=1 , (x1 , x2 , . . . , xn ) ∈ {0, 1, 2, . . .}n , ii) X habe die Verteilung Pθ {(x1 , x2 , . . . , xn )} = x1 !x2 ! . . . xn ! n θ > 0. Dann gilt I(Pθ ) = . θ n n P P n− xi xi iii) Falls X die Verteilung Pθ {(x1 , . . . , xn )} = θi=1 (1 − θ) i=1 mit n . (x1 , . . . , xn ) ∈ {0, 1}n und 0 < θ < 1 besitzt, dann gilt I(Pθ ) = θ(1 − θ) 13 2.2. Die Cramer-Rao Ungleichung (x) X sei ein Zufallsvektor mit Werten in Rn . Die Dichte von X gehöre einer Familie {pθ }θ∈Θ von Dichten an, wobei Θ eine offene Teilmenge von Rk ist. Zu schätzen ist eine reelle Funktion h(θ). Satz 1: (Cramer-Rao Ungleichung) T (X) sei eine biasfreie Schätzung für h(θ) mit Eθ T 2 (X) < ∞, ∀ θ ∈ Θ. Voraussetzungen: 1. Aθ := {x : pθ (x) > 0} hängt nicht von θ ab. 2. Die Dichte pθ (x) ist für alle x nach θ differenzierbar Z pθ+∆ (x) − pθ (x) p0θ (x) − ∆pθ (x) pθ (x) 2 ∂ p0θ (x) := pθ (x) und es gilt ∂θ pθ (x)dx −→ 0, ∀ θ ∈ Θ, ∆→0 3. 0 < I(pθ ) < ∞, ∀ θ ∈ Θ. 4. Man darf immer unter dem Integralzeichen ableiten. Behauptung: R(θ, T ) := Eθ h 2 i (h0 (θ))2 . T (X) − h(θ) = Varθ T (X) ≥ I(pθ ) Beweis: Da T (X) biasfrei ist, gilt für alle reelle Zahlen a, (1) (2) Z Z T (x) − a pθ+∆ (x)dx = h(θ + ∆) − a und T (x) − a pθ (x)dx = h(θ) − a . Indem man (2) von (1) substrahiert, erhält man (3) Z T (x) − a pθ+∆ (x) − pθ (x) dx = h(θ + ∆) − h(θ). Wegen Voraussetzung 1. gilt dann (4) Z T (x) − a pθ+∆(x) − pθ (x) ∆pθ (x) pθ (x)dx = h(θ + ∆) − h(θ) , ∀ ∆ 6= 0. ∆ Ersetzt man in (4) a durch h(θ), dann erhält man (Schwarz’sche Ungleichung) (5) h(θ + ∆) − h(θ) ∆ 2 ≤ Varθ T (X) · Z pθ+∆ (x) − pθ (x) ∆pθ (x) 2 pθ (x)dx, ∀ ∆ 6= 0. Lässt man ∆ gegen 0 streben, bekommen wir (wegen Voraussetzungen 2. und 3.) 14 2 (6) h0 (θ) ≤ Varθ T (X) I(pθ ) : 2 Z p0θ (x) w∆ (x) − pθ (x)dx −→ 0. ∆→0 pθ (x) Z 2 Daraus folgt, dass {w∆ } eine Cauchy-Folge ist, d.h. 0. w∆ (x)−w∆0 (x) pθ (x)dx −→ ∆,∆0 →0 Z 0 h(θ + ∆) − h(θ) h(θ + ∆ ) − h(θ) − , Da T (x) − h(θ) w∆ (x) − w∆0 (x) pθ (x)dx = ∆ ∆0 gilt dann Z h(θ + ∆) − h(θ) h(θ + ∆0 ) − h(θ) 2 2 − ≤ Varθ T (X) · 0. w∆ (x)−w∆0 (x) pθ (x)dx −→ ∆,∆0 →0 ∆ ∆0 h(θ + ∆) − h(θ) ist also eine Cauchy-Folge. Da R vollständig ist, konvergiert dann ∆ h(θ + ∆) − h(θ) . Der Limes ist natürlich h0 (θ). die Folge ∆ pθ+∆ (x) − pθ (x) Wegen 2. gilt mit w∆ (x) := , ∆pθ (x) Beachte: Voraussetzung 4. haben wir im Beweis nicht benützt. Wir werden sie aber brauchen, um den folgenden Satz zu beweisen: Satz 2: X = (X1 , . . . , Xn ) sei ein Zufallsvektor, wobei die {Xj } i.i.d. sind mit Dichte (gθ )θ∈Θ⊆R . Wie oben, sei h(θ) zu schätzen. T (X) sei ein biasfreier Schätzer mit Eθ T 2 (X) < ∞. Behauptung: Falls die Familie {gθ } die Voraussetzungen vom Satz 1 erfüllt, so ist das auch der Fall für die Dichten pθ des Vektors X. Ferner gilt: I(pθ ) = n I(gθ ) und somit 2 h0 (θ) Varθ T (X) ≥ . n I(gθ ) Beweis: Wir zeigen nur, dass I(pθ ) = n I(gθ ) : I(pθ ) = Z = E p0θ (x) pθ (x) 2 pθ (x)dx = n h X g 0 (Xi ) θ !2 i = Z n X n X g 0 (xi ) θ i=1 E " gθ (xi ) !2 gθ0 (Xi ) gθ (Xi ) n Y gθ (xi )dx1 dx2 . . . dxn i=1 2 # + X E gθ0 (Xi ) gθ0 (Xj ) · gθ (Xi ) gθ (Xj ) gθ (Xi ) i=1 i6=j 0 0 X gθ (Xj ) gθ (Xi ) + E (wegen der Unabhängigkeit) E gθ (Xi ) gθ (Xj ) i6=j 0 Z 0 gθ (x) gθ (Xi ) = = n I(gθ ), denn E gθ (x)dx gθ (Xi ) gθ (x) Z 0 Z = gθ0 (x)dx = gθ (x)dx (wegen Voraussetzung 4!) i=1 = 0. = n I(gθ ) 15 Bemerkung: Unter denselben Voraussetzungen ist die Cramer-Rao Ungleichung auch im diskreten Fall gültig. Die Dichten (Integrale) werden einfach durch die Wahrscheinlichkeiten (Summen) ersetzt. Beispiele: 1. X := (X1 , . . . , Xn ) mit X1 , . . . , Xn i.i.d. und normalverteilt N (θ, σ02 ), σ02 bekannt. X̄n σ2 ist erwartungstreu für θ mit Varθ (X̄n ) = n0 . Nun gilt 2 gθ (x) = √ I(pθ ) = n I(gθ ) mit (x−θ) − 1 2 e 2σ0 . 2πσ0 √ (x − θ)2 gθ0 (x) ∂ x−θ 2πσ ) und − ln( . = ln gθ (x) = 0 2 2σ0 gθ (x) ∂θ σ02 Z 1 1 1 Also ist I(gθ ) = 4 (x − θ)2 gθ (x)dx = 2 und deswegen gilt Varθ (X̄n ) = , σ0 σ0 n I(gθ ) d.h. X̄n ist unter allen biasfreien Schätzungen für θ, diejenige mit der kleinsten Varianz. ln gθ (x) = − 2. X1 , X2 , . . . , Xn seien i.i.d. Zufallsgrössen mit Werten in {0, 1} und Qθ ({Xi = 1}) = θ, 0 < θ < 1. X̄n ist biasfrei mit Varθ (X̄n ) = n1 θ(1 − θ). I(Pθ ) = n I(Qθ ), wobei 0 2 2 0 Qθ ({Xi = 1}) Qθ ({Xi = 0}) I(Qθ ) = Qθ ({Xi = 1}) + Qθ ({Xi = 1}) Qθ ({Xi = 0}) 1 −1 2 1 Qθ ({Xi = 0}) = ( )2 · θ + ( ) (1 − θ) = . θ 1−θ θ(1 − θ) n . Wir haben Gleichheit in der Ungleichung von Cramer-Rao, Also ist I(Pθ ) = θ(1 − θ) d.h. X̄n ist unter allen linearen Schätzern derjenige mit der kleinsten Varianz. 3. X1 , X2 , . . . , Xn seien i.i.d. Zufallsgrössen mit gleichförmiger Verteilung auf dem Intervall [0, θ], θ > 0. Sie haben gezeigt, dass T (X1 , . . . , Xn ) := n+1 n · max{X1 , . . . , Xn } θ2 1 biasfrei ist mit Varθ (T ) = . Ferner gilt gθ (x) = 1[0,θ] (x). Also ist n(n + 2) θ 1 gθ0 (x) = − 1[0,θ](x) und somit gθ (x) θ 1 I(gθ ) = θ Zθ 1 1 dx = 2 . θ2 θ 0 Daraus folgt I(pθ ) = n θ2 und Varθ (T ) < 1 . I(pθ ) In diesem Fall ist die Cramer-Rao Ungleichung nicht gültig. Beachte: die erste Voraussetzung vom Satz 1 ist nicht erfüllt. Man kann aber trotzdem zeigen, dass T (X1 , . . . , Xn ) unter allen biasfreien Schätzungen die beste ist. Der Beweis ist nicht einfach und wird deshalb nicht in dieser Vorlesung vorgeführt. 16 2.3. Asymptotische Eigenschaften von Maximum-Likelihood Schätzungen X1 , X2 , . . . sei eine Folge von i.i.d. reellen Zufallsgrössen mit Dichte gθ , wobei θ ∈ Θ ⊆ R. n Q Man definiert die Funktion Ln als Ln (x1 , . . . , xn ) = gθ (xi ) (= Dichte des Vektors X = i=1 n g 0 (X ) P i θ = 0 besitzt eine einzige Lösung (X1 , . . . , Xn )). Nehmen wir an, die Gleichung g (X i) i=1 θ ∂ θ̂n = θ̂n (X1 , . . . , Xn ) und dies für alle n. ( gθ0 (Xi ) := gθ (Xi ) ) ∂θ θ̂n ist die sogenannte Maximum-Likelihood Schätzung für θ (aus der Stichprobe (X1 , . . . , Xn ) hergeleitet). Unter sehr schwachen Voraussetzungen über die möglichen Dichten gθ kann man zeigen, Pθ dass θ̂n konsistent ist: θ̂n −→ θ, d.h. falls θ der wahre Wert ist, dann konvergiert θ̂n in n→∞ Wahrscheinlichkeit gegen θ. Definition: Y, Y1 , Y2 , . . . seien Zufallsgrössen mit stetigen Verteilungsfunktionen. Die Folge Y1 , Y2 , . . . konvergiert in Verteilung gegen Y , falls lim P (a < Yn < b) = P (a < Y < b), ∀ a, b. n→∞ U (θ) sei eine Zufallsgrösse mit Normalverteilung N (0, I(g1θ ) ). Unter schwachen Bedingungen n√ o über {gθ } kann man zeigen, dass die Folge n(θ̂n − θ) in Verteilung gegen U (θ) konvergiert, falls θ der wahre Wert ist. Dies bedeutet, dass für grosse Werte von n die Zufallsgrösse 1 ) verteilt ist. Grob gesagt: Asymptotisch ist die Cramer-Rao θ̂n − θ angenähert N (0, n I(g θ) Schranke erreicht. Beweisskizze für die asymptotische Normalität Per Definition hat man n X h(θ̂n , Xi ) = 0, wobei h(θ, x) := i=1 gθ0 (x) . gθ (x) Ist die Funktion h nach θ differenzierbar, dann gilt, falls θ der wahre Wert ist, n 0= n n 1X 0 1X 1X h(θ̂n − θ + θ, Xi ) ∼ h(θ, Xi ) + h (θ, Xi )(θ̂n − θ) = n i=1 n i=1 n i=1 (θ̂n − θ ist “klein”). Also ist √ n(θ̂n − θ) ∼ = √1 n − n1 n P i=1 n P i=1 h(θ, Xi ) =: h0 (θ, Xi ) In . IIn Asymptotisches Verhalten von IIn ∂ h (θ, x) = ∂θ 0 gθ0 (x) gθ (x) = gθ00 (x)gθ (x) − (gθ0 (x))2 . gθ2 (x) 17 Also gilt Eθ h (θ, Xi ) = 0 = 2 Z 0 gθ (x) gθ00 (x)gθ (x) gθ (x)dx − gθ (x)dx gθ2 (x) gθ (x) 00 Z Z 00 − I(gθ ) = −I(gθ ). gθ (x)dx gθ (x)dx − I(gθ ) = Z Nach dem schwachen Gesetz der grossen Zahlen konvergiert also IIn in Wahrscheinlichkeit gegen −I(gθ ). Asymptotisches Verhalten von In Es gilt Z Z Z 0 0 gθ (x) gθ (x)dx = gθ0 (x)dx = gθ (x)dx = 0 Eθ h(θ, Xi ) = gθ (x) 2 Z 0 gθ (x) gθ (x)dx = I(gθ ). und Eθ h2 (θ, Xi ) = Varθ h(θ, Xi ) = gθ (x) Nach dem Zentralgrenzwertsatz Konvergiert In in Verteilung gegen eine Zufallsgrösse U ∗ (θ), die N 0, I(gθ ) verteilt ist. √ Aus den obigen Überlegungen folgt, dass n(θ̂n − θ) in Verteilung gegen die Zufallsgrösse U ∗ (θ) 1 U (θ) := konvergiert. Die letztere ist aber N (0, ) verteilt. −I(gθ ) I(gθ ) 18 2.4. Einige Eigenschaften der Kleinsten-Quadrat-Schätzung (KQ-Schätzung) Wie in 1.3. betrachten wir das allgemeine lineare Regressionsmodell: Y = Xθ + Z, wobei θ der unbekannte Parameter ist (Y ∈ Rn , θ ∈ Rp ). Definition Falls U eine zufällige Matrix ist, ist die ErwartungE(U ) von U definiert als die Matrix der Erwartungen der Elemente Uij von U , d.h. E(U ) ij := E(Uij ). In diesem Abschnitt machen wir die folgenden Voraussetzungen: 1. p < n, 2. Rang(X) = p, 3. E(Z) = 0 und Cov(Z) := E n × n Identitätsmatrix.) h T i Z − E(Z) Z − E(Z) = E[ZZ T ] = σ 2 In (In ist die Beachte Falls die Komponenten Z1 , Z2 , . . . , Zn von Z i.i.d. Zufallsgrössen sind mit E(Zi ) = 0 und Var(Zi ) = σ 2 , ist die dritte Voraussetzung erfüllt. Die KQ-Schätzung θ̂ für θ ist θ̂ = (X T X)−1 X T Y (siehe 1.3). Satz 1 Unter den gemachten Voraussetzungen gilt a) Eθ,σ2 (θ̂) = θ, ∀θ, σ 2 , d.h. θ̂ ist biasfrei, −1 2 b) Covθ,σ2 (θ̂) = X T X · σ , ∀θ, σ 2 . Beweis “a)”: Eθ,σ2 (θ̂) = Eθ,σ2 (X T X)−1 X T Y = (X T X)−1 X T Eθ,σ2 (Y ) (Linearität der Erwartung!) = (X T X)−1 X T Eθ,σ2 (Xθ + Z) = (X T X)−1 X T Xθ = θ, h i “b)”: Covθ,σ2 (θ̂) = Eθ,σ2 (θ̂ − θ)(θ̂ − θ)T = h T i Eθ,σ2 (X T X)−1 X T Y − θ (X T X)−1 X T Y − θ h T i = Eθ,σ2 (X T X)−1 X T (Y − Xθ) (X T X)−1 X T (Y − Xθ) = Eθ,σ2 (X T X)−1 X T ZZ T X(X T X)−1 = (X T X)−1 X T Eθ,σ2 (ZZ T )X(X T X)−1 = σ 2 (X T X)−1 X T X(X T X)−1 = σ 2 (X T X)−1 . Die Diagonalelemente der Matrix Covθ,σ2 (θ̂) geben Information über die Güte der Schätzungen θ̂i , i = 1, . . . , p. Es ist also notwendig, einen Schätzer für den unbekannten Parameter σ 2 zu haben. Eine Möglichkeit ist durch den folgenden Satz gegeben: 19 Satz 2 kY − X θ̂k2 ist eine biasfreie Schätzung für σ 2 , d.h. Eθ,σ2 (σ̂ 2 ) = σ 2 , ∀θ, σ 2 . σ̂ 2 := n−p Beweis Führe im y–Raum (Beobachtungsraum) ein neues orthogonales Koordinatensystem ein mit den ersten p orthonormierten Basisvektoren in dem von “idealen” Messwerten Xθ aufgespannten Unterraum Vp . Seien V1∗ , . . . , Vn∗ die Koordinaten des Punktes Y im neuen System. Da V ∗ = ΓY mit Γ ortogonal, gilt: 1. δθ,σ2 := Eθ,σ2 (V ∗ ) = ΓEθ,σ2 (Y ) mit (δθ,σ2 )i = 0 für i > p, T ∗ 2. Covθ,σ2 (V ) = Eθ,σ2 Γ Y − E(Y ) Γ Y − E(Y ) = Eθ,σ2 ΓZZ T ΓT = Γσ 2 In ΓT = σ 2 In , 3. kY − X θ̂k2 = kΓY − ΓX θ̂k2 (Γ ist orthogonal!) = n P i=p+1 Vi∗2 . Daraus folgt: Eθ,σ2 (kY − X θ̂k2 ) = n X Eθ,σ2 (Vi∗2 ) = n X Varθ,σ2 (Vi∗2 ) (wegen 1.). i=p+1 i=p+1 Also gilt Eθ,σ2 (kY − X θ̂k2 ) = (n − p)σ 2 Sei ψ(θ) := p P (wegen 2.). λi θi mit λ1 , λ2 , . . . , λp bekannt. i=1 Definition 1 Die KQ-Schätzung ψ̂ für ψ ist definiert als ψ̂(Y ) = p P λi θ̂i . i=1 Definition 2 Ein Schätzer T (Y ) für ψ heisst linear, falls T sich schreiben lässt als T (Y ) = n X di Yi , i=1 wobei d1 , . . . , dn Konstanten sind. Bemerkung Die KQ-Schätzung ψ̂ für ψ ist linear. Es gilt weiter Eθ,σ2 (ψ̂) = ψ(θ), 2 ∀θ, σ , d.h. ψ̂ ist biasfrei. Satz 3 (Gauss-Markov) n P ψ(θ) := λi θi sei irgend eine Linearform in den unbekannten Parametern. i=1 20 Behauptung Unter allen linearen biasfreien Schätzungen für ψ(θ) ist ψ̂ diejenige mit der kleinsten Varianz. n P Beweis Wenn ψ̃ = ci Yi irgend eine lineare Schätzung von ψ ist, dann ist ψ̃ auch in den i=1 v ∗ –Koordinaten linear: ψ̃ = n X di Vi∗ . i=1 Erwartungstreue ergibt ψ(θ) = Eθ,σ2 (ψ̃) = p X di Eθ,σ2 (Vi∗ ), denn Eθ,σ2 (Vi∗ ) = 0 für i > p. i=1 Die Beobachtungsgleichungen können auch im v ∗ –System ausgedrückt werden; sie lauten etwa p X x0ij θj + Zi0 mit x0ij = 0 für i > p. Vi∗ = j=1 Also ist Eθ,σ2 (Vi∗ ) = Pp ψ(θ) = j=1 p X x0ij θj , und Einsetzen ergibt λj θj = p X di i=1 j=1 p X x0ij θj = p p X X j=1 j=1 di x0ij i=1 ! θj , ∀θ. Koeffizientenvergleich bestimmt d1 , . . . , dp eindeutig (während die dp+1 , . . . , dn beliebig sind), denn die Matrix (x0ij ) hat Rang p. Wir haben Varθ,σ2 (ψ̃) = . . . = dn = 0 setzen. n P i=1 d2i Varθ,σ2 (Vi∗ ) = σ 2 n P i=1 d2i ; das wird minimal, wenn wir dp+1 = Die so bestimmte lineare erwartungstreue Schätzung kleinster Varianz ψ̃ = p P k=1 dk Vk∗ fällt ∗ aber mit der KQ-Schätzung ψ̂ zusammen, denn auch diese ignoriert die Werte von Vp+1 , . . . , Vn∗ , und d1 , . . . , dp sind durch die Erwartungstreue eindeutig bestimmt. Wenn die Messungen verschiedene Varianzen σi2 := Var(Zi ) besitzen, soll Bemerkung man Beweis Yi = Ersetze p X 2 p n X X 1 Q(θ) := Yi − xij θj 2 σ i=1 i j=1 xij θj + Zi durch j=1 Beispiel (siehe Übungen.) s 1 Yi σi2 ! = p X j=1 s minimalisieren. 1 xij σi2 ! θj + s 1 Zi , i = 1, . . . , n. σi2 21 §3 Vertrauensgebiete: Vertrauensintervalle für die Erwartung Im Beispiel 1 (Seite 2) haben wir als Schätzer für die Erfolgswahrscheinlichkeit θ, n 1X Xi vorgeschlagen. Ist n hinreichend gross, wissen wir (starkes Gesetz der X̄n := n i=1 grossen Zahlen!), dass mit grosser Wahrscheinlichkeit |X̄n − θ| klein ist. Dies legt es nahe zu versuchen, ein kleines Intervall I(X) (siehe Beispiel 6, Seite 4) um den Schätzer X̄n herum festzulegen, indem man θ vermuten darf. Man könnte etwa fordern, dass z.B. P (I(X) enthält den wahren Wert θ) ≥ 0, 95. Allgemein liege ein statistisches Modell X , A, (Pθ )θ∈Θ vor und es sei g(θ) (∈ R) zu schätzen. Beobachtet wird also eine Zufallsgrösse X mit Werten in X . Definition Ein zufälliges Gebiet C(X) mit der Eigenschaft Pθ C(X) enthält g(θ) ≥ 1 − α, ∀θ ∈ Θ, heisst Vertrauensgebiet für g(θ) zum Niveau 1 − α. Oft ist C(X) ein zufälliges Intervall. Man spricht dann von einem Vertrauensintervall zum Niveau 1 − α. Es ist wichtig, sich diese Definition genau anzusehen, damit die Angabe von C(X) nicht falsch interpretiert wird: Nicht g(θ) ist zufällig, sondern X und damit C(X). Wird X = x beobachtet, ist dann C(x) ein festes Gebiet und es gilt: entweder g(θ) ∈ C(x) oder nicht, aber {θ : g(θ) ∈ C(x)} ist kein Ereignis. Die Aussage über das Niveau 1 − α ist vielmehr eine Aussage über die gesamte Familie {C(x) : x ∈ X }, d.h. über die Vorschrift, nach der das Gebiet aus der Beobachtung bestimmt wird. Wenn wir für jedes x das Gebiet C(x) als Vertrauensgebiet angeben, wird — was auch immer θ ∈ Θ ist — das zufällige Gebiet in ca. 95 % der Fälle g(θ) enthalten (falls α = 0, 05 ist). Beispiel 1 X := (X1 , X2 , . . . , Xn ) mit X1 , . . . , Xn i.i.d. Zufallsgrössen. Nehmen wir an, X1 sei N (θ, σ 2 ) verteilt mit σ 2 bekannt. n 1X Xi ist eine biasfreie Schätzung für θ. X̄n := n i=1 √ n(X̄n − θ) Falls θ der wahre Wert ist, dann besitzt eine N (0, 1) Verteilung. σ ∗ 1 0 < α < 1 sei vorgegeben. ξα∗ sei diejenige Zahl, für welche √ 2π ξα∗ Zξα ∗ −ξα u2 e− 2 du = 1 − α. (Z.B. für α = 0, 05 ist ≈ 1, 96.) √ σξα∗ σξα∗ n(X̄n − θ) ∗ √ √ Dann gilt Pθ ≤ ξ = 1 − α, ∀θ. Also ist I(X) := , X̄ + X̄ − n n α σ n n ein Vertrauensintervall für die Erwartung θ zum Niveau 1 − α. 22 X1 , X2 , . . . , Xn seien i.i.d. Zufallsgrössen mit Normalverteilung N (θ, σ 2 ), wobei n 1 P (Xi − X̄n )2 (X̄n wie im Beispiel 1). Falls θ σ 2 unbekannt ist. Wir definieren Vn2 := n−1 Beispiel 2 i=1 √ n −θ) eine Student-Verteilung mit n−1 der wahre Wert ist, kann man zeigen, dass Tn := n(X̄ Vn Freiheitsgraden ist. fn−1 sei die Dichte dieser Verteilung und 0 < α < 1 sei vorgegeben. Man t∗ α,n−1 R ∗ bestimmt dann die Zahl tα,n−1 , für welche fn−1 (x)dx = 1 − α. (Dazu benützt man t∗ α,n−1 eine Tabelle für die Student-Verteilung; z.B. für n = 7 und α = 0, 05 ist t∗0,05, 6 = 2, 365.) Mit dieser Wahl von t∗α,n−1 gilt Pθ (|Tn | ≤ t∗α,n−1 ) = 1 − α, ∀ θ, σ 2 und somit ist I(X) := zum Niveau 1 − α. Vn Vn X̄n − √ t∗α,n−1 , X̄n + √ t∗α,n−1 ein Vertrauensintervall für θ n n Beispiel 3 X1 , X2 , . . . , Xn seien i.i.d. Zufallsgrössen mit Pθ (Xi = 1) = θ und Pθ (Xi = 0) = 1 − θ, 0 < θ < 1. X̄n ist eine erwartungstreue Schätzung für θ. Für hinreichend √ n(X̄n − θ) angenähert N (0, 1)– grosse n besagt der Zentralgrenzwertsatz, dass Vn := p θ(1 − θ) verteilt ist (falls θ der wahre Wert ist!). ξα∗ sei wie im Beispiel 1 definiert. Dann gilt Pθ (|Vn | ≤ ξα∗ ) ≈ 1 − α, d.h. " # ! p p θ(1 − θ)ξα∗ θ(1 − θ)ξα∗ √ √ Pθ X̄n − enthält θ ≈ 1 − α. , X̄n + n n 1 , ∀θ, gilt 4 ∼ ξ∗ ξ∗ enthält θ ≥1 − α, ∀θ. Pθ X̄n − √α , X̄n + √α 2 n 2 n ∼ ξ∗ ξ∗ ein Vertrauensintervall zum Niveau ≥1 − α. Somit ist I(X̄n ) := X̄n − √α , X̄n + √α 2 n 2 n Da θ(1 − θ) ≤ 23 III §1 Testtheorie Testverfahren, Niveau, Macht. X sei eine Zufallsgrösse und X , A, (Pθ )θ∈Θ das zugrundeliegende statistische Modell. Von einem Testproblem spricht man, wenn man auf grund des beobachteten Wertes x der Zufallsgrösse X entscheiden soll, ob Pθ einer bestimmten echten Teilmenge H von Θ angehört oder nicht. Ein Test ist eine Entscheidungsregel, die für jeden möglichen Wert von x festlegt, ob man sich für die Hypothese “θ ∈ H” oder für die Alternative “θ ∈ Θ−H” = “θ ∈ H c ” entscheiden soll. Man nennt auch kurz H die Hypothese und K := H c die Alternative. Die Entscheidung dH für die Hypothese nennt man “Annahme” der Hypothese, und die Entscheidung dK für die Alternative nennt man Verwerfen der Hypothese. Ein Test ist also (bis auf weiteres) beschrieben durch Angabe der Menge R derjenigen x, für welche die Hypothese verworfen werden soll. R wird Verwerfungsbereich oder kritischer Bereich des Tests genannt. Innerhalb des gewählten Modells sind also zwei Arten von Fehlern möglich: Ist θ ∈ H und wird die Hypothese verworfen, so spricht man von einem Fehler erster Art. Ist θ ∈ K und wird die Hypothese “angenommen”, so spricht man von einem Fehler zweiter Art. Praktisch gibt man R meist mit Hilfe von einer Funktion ϕ(x) an, der sogenannten Testfunktion, die X in {0, 1} ([0, 1]) abbildet: Ist ϕ(x) = 1, dann lehnt man die Hypothese ab. Ist ϕ(x) = 0, dann wird die Hypothese “angenommen”. Bemerkung: Die Nullhypothese ist damit nicht bewiesen; sie ist bloss nicht widerlegt. Es ist möglich, dass wir einen Fehler 2. Art mit grosser Wahrscheinlichkeit begehen. Siehe unten. Falls ϕ, X in [0, 1] abbildet, dann lehnt man die Hypothese mit Wahrscheinlichkeit ϕ(x) ab (falls x beobachtet wurde). Der Test heisst dann randomisiert. Bisher haben wir das Testsproblem so formuliert, dass H und K völlig symmetrische Rollen spielen. In konkreten Fragestellungen gibt es aber gewöhnlich eine Asymmetrie. Ist man z.B. daran interessiert, ob sich irgendwelche Daten innerhalb einer etablierten Theorie erklären lassen oder auf neue Effekte hindeuten, so sollte man auf neue Effekte erst schliessen, wenn wirklich deutliche Hinweise darauf vorliegen. Soll ein gebräuchliches Medikament durch ein neues ersetzt werden, so wird man bei unklaren Vergleichswerten vorerst bei den alten Medikamenten bleiben. In beiden Fällen erscheint ein vorschneller Wechsel nicht ratsam. Im Zweifel kann man sich ja gewöhnlich weitere Daten verschaffen. In der Formulierung des Testproblems trägt man dem so Rechnung, dass man als Hypothese die Verteilung (oder die Verteilungen) wählt, die der etablierten Theorie bzw. reiner Zufälligkeit entsprechen. Man zieht nur Verwerfungsbereiche R (d.h. Bereich der Form {x : ϕ(x) = 1}) in Betracht, für die die Wahrscheinlichkeit eines Fehlers erster Art durch eine vorgegebene Zahl α > 0 begrenzt ist. Dadurch erreicht man, dass man neue Effekte oder wesentliche Vorteile des neuen Medikamentes nur dann behauptet, wenn wirklich die Daten deutlich dafür sprechen. Leider lässt sich die Wahrscheinlichkeit eines Fehlers zweiter Art (beim festen Stichprobenumfang) nicht simultan in gleicher Weise begrenzen. Quantitative Aussagen erhält man durch Betrachtung der Gütefunktion 24 β(θ) := Pθ ϕ(X) = 1 = Eθ ϕ(X) des Tests ϕ, die jedem θ die Verwerfungswahrscheinlichkeit unter Pθ zuordnet. Definition Wir sagen, dass der Test ϕ das Niveau α hat, falls sup β(θ) ≤ α. θ∈H Beachte β(θ) ≤ α, ∀θ ∈ H bedeutet: Die Wahrscheinlichkeit eines Fehlers erster Art ist maximal α. Für θ ∈ K heisst β(θ) die Macht des Tests in θ. Beachte Ist die Macht β(θ) nahe bei 1, so ist die Wahrscheinlichkeit 1 − β(θ) eines Fehlers zweiter Art klein. Beispiel Angenommen, jemand behauptet, er habe eine Methode gefunden, um das Zahlenverhältnis (∼ 1 : 1) zwischen Kuh- und Stierkälbern zugunsten der ersten zu verschieben. Eine landwirtschaftliche Organisation ist interessiert, aber skeptisch, und möchte das Verfahren zuerst ausprobieren, z.B. in n = 20 Fällen; dabei kommen X Kuhkälber heraus. X = 20 würde sie wohl überzeugen. Nehmen wir aber an, sie entschliesst sich, das Verfahren zu empfehlen, falls X ≥ 15. Was bedeutet das? X ist binomial B(20, θ) verteilt, d.h. n x Pθ (X = x) = θ (1 − θ)n−x , x Hypothese H: θ = 1 2 x = 0, 1, . . . , 20. (“Behandlung wirkungslos”), Alternative K: θ ≥ 0, 7 (“Behandlung wirtschaftlich interessant”) ϕ(x) = 1, falls x ≥ 15 und ϕ(x) = 0 sonst. In diesem Beispiel ist β( 12 ) 20 20 20 1 + + ...+ ≈ 0, 021 und P0,7 (X ≥ 15) ≈ 0, 416 , = P1/2 (X ≥ 15) = ( )20 2 15 16 20 d.h. das Niveau des Tests ϕ ist gleich 0, 021 und die Macht an der Stelle θ = 0, 7 beträgt 0, 416. Bemerkung Würde man nach einem Test ϕ∗ suchen, so dass β ∗ ( 21 ) = 0, 05 und β ∗ (0, 7) = 0, 90, so müsste die Anzahl n von Versuchen grösser als 52 sein und ϕ∗ (x) = 1, falls x ≥ 33. Für kleinere n geht es nicht. 25 §2 2.1 Einige Beispiele von wichtigen Tests Ein einfacher Test mit Hilfe des Zentralgrenzwertsatzes Es wird immer wieder behauptet, die Wahrscheinlichkeit einer Knabengeburt sei grösser als die Wahrscheinlichkeit einer Mädchengeburt. Ist das wirklich so? Wir versuchen die folgende Hypothese H zu testen: Wahrscheinlichkeit p einer Knabengeburt = 0,5. Die Alternative K sei p > 0, 5. Wir testen also einseitig (zweiseitig würde die Alternative K ∗ : p 6= 0, 5 bedeuten). Die Wahl der Alternative bedeutet, dass wir praktisch sicher sind, dass p < 0, 5 nicht in Frage kommt. Wir benützen als Beobachtungen die Zahlen, die ein zwischen 1969 und 1972 zufällig ausgewählter Jahrgang des Statistischen Jahrbuches der Schweiz liefert. Dieses nennt für 1972, n = 910 342 Geburten mit x = 470 179 Knabengeburten. Diese Zahl stellt einen Wert einer Zufallsgrösse X dar. Unter der Hypothese (p = 21 ) ist X, B(910 342, 21 ) verteilt. Es ist aber hier einfacher mit der X−n Normal-Approximation zu arbeiten. Wir wissen, dass (unter H) Y := 1 √ 2 angenähert 2 n eine Standard Normalverteilung besitzt. Sei α (das Niveau) = 5 % und ξ0,05 die Zahl, für ξ0,05 R x2 e− 2 dx = 0.95. Es ist naheliegend, die Hypothese zu verwerfen, falls der welche √12π −∞ Beobachtete Wert x von X zu gross ist, d.h. falls y(x) zu gross ist. Tut man das, falls y(x) ≥ ξ0,05 (Verwerfungsbereich), dann hat unser Test das Niveau 5 %. In diesem Beispiel ist y ≈ 10 und aus einer Tabelle der Normalverteilung liest man ξ0,05 = 1, 645. Der Test lehnt also die Hypothese ab. Die Abweichung ist sogar hochsignifikant, denn auch für das Niveau α = 1 % (ξ0,01 = 2, 326), würden wir die Hypothese verwerfen. Eine Bemerkung über den sogenannten p–Wert (p–value) Wenn man bei einem Testproblem ein Software benützt, liefert ein Computer immer im output den sogenannten p–value. Diese Zahl wollen wir im oberen Beispiel erklären. Die Länge der Stichprobe war n = 91342 und der beobachtete Wert der Zufallsgrösse X gleich x = 47179. Definition: Der p–value ist die Wahrscheinlichkeit, dass die normalisierte Zufallsgrösse Y = Y (X) den beobachteten Wert y(x), unter H, überschreitet. Man bezeichne diese Wahrscheinlichkeit mit αy(x) . Interpretation: Falls für ein vorgegebenes Niveau α die Ungleichung α ≥ αy(x) gilt, lehnt man (zum Niveau α) die Hypothese ab. Man kann also die jetzt bei statistischen Auswertungen von den Computern berechneten p–Werte als Entscheidungsanweisungen für den Statistiker auffassen, der α fest gewählt hat. Je nach Wahl von α wird die Anweisung zu verschiedenen Entscheidungen führen. Achtung: Kritisch an der Verwendung von p–Werten ist vor allem, dass sie leicht fehlinterpretiert 26 werden. Nicht ganz so offensichtlich ist im Falle αy(x) = 0, 023 darauf zu schliessen, dass H zum Niveau 0, 023 abzulehnen ist. Das Niveau soll ja nicht vom Ergebnis x abhängen. Ist die Hypothese einfach (= 21 ), so ist die folgende Intepretation richtig: αy(x) ist die Wahrscheinlichkeit (unter H) dafür, dass Y (X) ≥ y(x) ist, also die Wahrscheinlichkeit, dass die Teststatistik Y (X) einen mindestens so grossen Wert annimmt wie den aktuell beobachteten. 2.2 Beispiel 2.1 Fortsetzung Im Beispiel 2.1 könnte man dieselbe Hypothese p = testen (zweiseitige Situation). 1 2 gegen die Alternative K ∗ : p 6= 1 2 Wir betrachten dieselben Zufallsgrössen X und Y wie im Beispiel 2.1 und dieselben Beobachtungen aus dem Jahre 1972. In diesem Falle ist es naheliegend, die Hypothese abzulehnen, falls Y zu gross ist (p > 12 ) oder zu klein ist (p < 21 ), d.h. falls |Y | (absoluter Betrag) zu gross ist. Bemerkung: Unter der Hypothese hat Y wieder angenähert eine Standard Normalverteilung, ∗ die um 0 symmetrisch ist. Sei α (das Niveau) = 5 % vorgegeben, und sei ξ0,05 die Zahl, für welche √1 2π ∗ ξ0,05 R ∗ −ξ0,05 e− x2 2 ∗ dx = 0, 95. Man lehnt dann die Hypothese ab, falls |y| ≥ ξ0,05 . Aus ∗ einer Tabelle der Normalverteilung liest man ξ0,05 = 1, 96. Da |y| ∼ = 10, lehnt der Test die ∗ Hypothese ab. Wie vorher würde man auch zum Niveau 1 % ablehnen, da ξ0,01 = 2, 576. ∗ Bemerkung: Im Beispiel 2.2 (wie auch im Beispiel 2.1) ist die Alternative K zusammenge1 setzt. Alle möglichen Werte p in der Menge (0, 1) − 2 sind theoretisch möglich für K ∗ . Die Macht des Tests hängt also von der Alternative ab. Sie wurde definiert als ∗ , β(p) := Pp |Y | ≥ ξ0,05 wenn das Niveau 5 % beträgt und p ∈ K ∗ . Wenn p ∈ K ∗ nahe bei der Hypothese p = 21 liegt, steht die Macht an dieser Stelle sehr nahe bei 5 %. Die Wahrscheinlichkeit eines Fehlers 2. Art ist dann in diesem Fall sehr gross und man muss sehr vorsichtig sein: Da α (das Niveau) frei wählbar ist, hat man eine Kontrolle über die Wahrscheinlichkeit eines Fehlers 1. Art (≤ α), ber keine über die Wahrscheinlichkeit eines Fehlers 2. Art. Deshalb sagt man, ein Test ist signifikant, wenn die Hypothese abgelehnt wird. Wenn nicht, ist die Hypothese nicht bewiesen, sie ist einfach nicht widerlegt. 2.3 Vergleich von zwei Wahrscheinlichkeiten bei unabhängigen Stichproben Auf zwei verschiedenen Anlagen wird dasselbe Objekt hergestellt. Man vermutet, dass die Wahrscheinlichkeiten an Ausschussstücken bei diesen beiden Anlagen verschieden sind und will dies durch Stichproben überprüfen. n1 = 200 Objekte der ersten Anlage weisen x = 5 fehlerhafte Stücke auf; n2 = 100 Objekte der zweiten Anlage zeigen total y = 10 fehlerhafte Exemplare. Sind die beiden Ausschusswahrscheinlichkeiten p1 , p2 wirklich verschieden? Das statistische Modell für dieses Problem: Beobachtet werden n1 + n2 unabhängige Zufallsgrössen X1 , X2 , . . . , Xn1 , Y1 , Y2 , . . . , Yn2 , wobei Xi = 1 (Yi = 1), falls das i–te Objekt aus der ersten (zweiten) Anlage fehlerhaft ist, = 0 sonst. Relevant für uns sind die Zufallsgrössen 27 X := n1 P i=1 Fällen. Xi , Y := n2 P Yj , d.h. die totalen Anzahlen von fehlerhaften Objekten in beiden j=1 Als Hypothese wählen wir p1 = p2 =: p. Wir müssen zunächst p schätzen. Nach den Gesetzen der grossen Zahlen, für n1 + n2 gross, ist, unter der Hypothese, p̂ := nX+Y sehr nahe bei p. Das wird unsere Schätzung für p sein. 1 +n2 Nach dem Zentralgrenzwertsatz ist die Differenz nX1 − nY2 angenähert normalverteilt mit Erwartung p1 − p2 = 0 (unter der Hypothese) und Varianz p(1 − p)( n11 + n12 ) (unter der Hypothese). Somit ist, im Falle, wo p1 = p2 = p, X/n1 − Y /n2 U := q p(1 − p)( n11 + n12 ) angenähert standard normalverteilt. Dasselbe gilt auch, wenn man für p unsern Schätzer p̂ einführt, d.h. für X/n1 − Y /n2 . V := q p̂(1 − p̂)( n11 + n12 ) Hier ist der Test zweiseitig. So, zum Niveau 5 %, lehnt man die Hypothese ab, falls der ∗ beobachtete Wert v von V so ist, dass |v| ≥ ξ0,05 = 1.96 (siehe Beispiel 2.2). Für v erhalten wir mit unsern Beobachtungen (x = 5, y = 10, p̂ = 0, 05) den Wert v = −2, 8. Der Test lehnt also die Hypothese ab. 2.4 Der Vorzeichentest für kleine gepaarte Stichproben Bei einer Person sei der diastolische Blutdruck durch Pd bezeichnet und der systolische Blutdruck durch Ps . Der “mittlere” Blutdruck wird dann definiert als 32 Pd + 31 Ps . An 18 zufällig ausgewählten Studenten wurde der mittlere Blutdruck zweimal gemessen, einmal liegend und einmal stehend. Man beobachtet also 18 Paare (xi , yi ) von Zahlen. Das statistische Modell für dieses Experiment besteht aus 18 i.i.d. Zufallsvektoren Zi := (Xi , Yi ). Der Vorzeichen Test: Wir betrachten die Differenzen Zi := Yi −Xi . Wenn bei der Messung die Lage des Studenten auf seinen mittleren Blutdruck keinen Einfluss hätte, würde wohl P (Zi > 0) = P (Zi < 0) = 21 gelten (Wertepaare mit Differenz 0 lassen wir zum voraus weg und zählen sie nicht mit!). Man könnte aber vermuten, dass P (zi > 0) > 21 ist. Deshalb wählen wir als Hypothese H : P (Zi > 0) = P (Zi < 0) = 21 und als Alternative P (Zi > 0) > 21 . (Ein Test ist signifikant, nur wenn er die Hypothese ablehnt!) Sei V die Anzahl der positiven Zi ’s, d.h. V := 18 P I(Zi > 0), wobei I die Indikatorfunktion i=1 ist. Der (einseitige) Vorzeichen Test lehnt die Hypothese ab, wenn der beobachtete Wert v von V zu gross ist. 28 Das Verfahren: α sei vorgegeben. Man bestimmt dann die kleinste ganze Zahl cα so, dass PH (V ≥ cα ) ≤ α. Der Vorzeichen-Test lehnt die Hypothese ab, falls v (beobachteter Wert von V ) ≥ cα . Tabelle (beobachtete Differenzen) Im Jahre 1975 wurden im physiologischen Institut die folgenden Differenzen zi der mittleren Blutdrucke beobachtet: Student 1 2 3 4 5 6 7 8 9 Differenz 1 32 1 32 2 32 4 31 −2 32 −3 31 −8 31 −1 32 5 13 Student 10 11 12 13 14 15 16 17 18 Differenz 5 −5 1 32 1 32 3 31 5 1 3 1 32 −5 Sei α = 5 %. In einer Tabelle für die Binomialverteilung B(n, p) für n klein (n ≤ 40), die man zum Beispiel im Buch von E.L. Lehmann “Nonparametrics”: Statistical Methods based on ranks, Holden Day (1975), finden kann, liest man, dass die kleinste Zahl c0,05 , für welche PH (V ≥ c0,0.5 ) ≤ 0, 05, gleich 13 ist. Unsere Stichprobe liefert für V den Wert v = 12. Die Hypothese wird also nicht abgelehnt. Bemerkung: Wäre die Länge n der Stichprobe (in unseremBeispiel n = 18) viel grösser, dann würde man die Zufallsgrösse V so normalisieren, dass die Normal Approximation anwendbar ist (etwa wie im Beispiel 2.1). 2.5 Der χ2 –Anpassungstest Das Testproblem: Es werden n unabhängige, untereinander gleiche Teilexperimente ausgeführt. Diese haben r ≥ 2 mögliche Ausgänge und der i–te Ausgang hat Wahrscheinlichkeit pi . Der Parameter θ := (p1 , p2 , . . . , pr ) ist unbekannt. Wir nehmen an, dass alle pi positiv sind. Für einen vorgegebenen Wahrscheinlichkeitsvektor π := (π1 , π2 , . . . , πr ) ist zu testen, ob θ = π ist. Das zugehörige statistische Modell: Beobachtet wird ein Zufallsvektor X := (N1 , N2 , . . . , Nr ), wobei Ni die Anzahl der Auftreten des i–ten Ausganges (bei den n Wiederholungen des Experimentes) darstellt. r P Beachte, dass Ni = n und dass der Vektor X eine Multinomialverteilung mit Parametern i=1 n,p1 , . . . , pr besitzt. Beispiel: n Würfe mit einem Würfel. Mögliche Ausgänge: {1}, {2}, . . . , {6}. Man könnte sich die folgende Frage stellen: Ist der Würfel symmetrisch, d.h. ist (p1 , p2 , . . . , p6 ) = ( 61 , 16 , . . . , 61 ) =: π ? Zurück zum allgemeinen Testproblem. Der χ2 –Anpassungstest 29 Falls n gross ist, ist Nni , unter der Hypothese, nahe bei πi (Gesetz der grossen Zahlen!). Wenn man N1 = n1 , . . . , Nr = nr beobachtet hat, scheint es vernünftig, die beobachtete absolute Häufigkeit ni mit den, unter der Hypothese θ = π, erwarteten Häufigkeiten nπi zu r P vergleichen. Man würde also die Hypothese θ = π ablehnen, falls z.B. (ni − nπi )2 zu gross i=1 ist. Man benützt indessen einen besonders gut brauchbaren Wert, wenn man die Quadrate der Unterschiede noch normiert: Definition: Die χ2 –Statistik ist definiert als χ2 = r X (Ni − nπi )2 i=1 nπ . Definition (χ2 –Quadrat Anpassungstest) Man kann zeigen (aber das ist schon höhere Statistik), dass für relative grosse Werte von n, etwa nπi ≥ 3, ∀ i, die Statistik χ2 (X) = χ2 (N1 , N2 , . . . , Nr ), unter der Hypothese θ = π, angenähert eine χ2 –Quadrat Verteilung mit r − 1 = Anzahl der möglichen Ausgänge −1 Freiheitsgraden besitzt. Der χ2 –Anpassungstest: Sei α vorgegeben und hm die Dichte der χ2 –Quadrat Verteilung mit m Freiheitsgraden, m = 1, 2, 3, . . .. Man bestimmt dann die Zahl ηα so, dass η Rα hr−1 (x)dx = 1 − α. Der χ2 –Quadrat Anpassungstest zum Niveau α lehnt die Hypothese 0 θ = π ab, falls χ2 (n1 , n2 , . . . , nr ) ≥ ηα , wobei n1 , n2 , . . . , nr die beobachteten Werte von N1 , . . . , Nr sind. Eine Anwendung Es wird vermutet, dass bei Pferderennen auf einer kreisförmigen Rennbahn die Startpositionen einen Einfluss auf die Gewinnchancen hat. In n = 144 Rennen hatten die Sieger die Startpositionen 1, 2, . . . , 8 = r mit den folgenden Häufigkeiten n1 = 29, n2 = 19, n3 = 18, n4 = 25, n5 = 17, n6 = 10, n7 = 15, n8 = 11. Man teste die Hypothese, dass alle Positionen die gleiche Siegwahrscheinlichkeit besitzen zum Niveau 0, 05. Lösung: θi sei die Siegwahrscheinlichkeit mit Start position i. Hier ist die Hypothese (θ1 , . . . , θ8 ) = ( 18 , . . . , 81 ). Die Anzahl der Freiheitsgrade beträgt 8 − 1 = 7. Aus einer Tabelle für die χ2 –Quadrat Verteilung liest man η0,05 = 14.07. Hier bekommt man χ2 (29, 19, 18, 25, 17, 10, 15, 11) = 16, 333. Also lehnt der Test die Hypothese ab. 2.6 Der χ2 –Anpassungstest in einem komplizierteren Falle Jemand hat 100 Messungen einer chemischen Grösse gemacht. Die Resultate seien x1 , x2 , . . . , x100 . Da bei jeder Messung ein zufälliger Fehler auftritt, können die Zahlen x1 , x2 , . . . , x100 als n100 Beobachtungen einer Zufallsgrösse X betrachtet werden. Wegen des Zentralgrenzwertsatzes könnte man sich fragen, ob X eine Normalverteilung besitzt. Dies wird unsere Hypothese H sein. Ein mögliches Verfahren, um H zu testen: 30 1. Die Parameter µ und σ 2 , unter H, sind unbekannt. Als Schätzer für µ wählen wir 100 100 1 P 1 P x̄100 := 100 xi und für σ 2 , s2100 := 100 (xi − x̄100 )2 . i=1 i=1 2. Nehmen wir an, x̄100 = 37, 54, s100 = 2, 81. 3. Man wählt dann z.B. 5 Intervalle I1 , I2 , I3 , I4 , I5 um x̄100 aus und bezeichnet mit nk die Anzahl der xi , die im k–ten Intervall fallen. Die Situation sei die folgende: Intervalle (Klassen) beobachtete Häufigkeiten I1 = [29, 5, 32, 5] n1 = 4 I2 = [32, 5, 35, 5] n2 = 17 I3 = [35, 5, 38, 5] n3 = 43 I4 = [38, 5, 41, 5] n4 = 29 I5 = [41, 5, 44, 5] n5 = 7 4. Y sei N (x̄100 , s2100 ) = N (37, 54; (2, 81)2) verteilt und sei pi := P (Y ∈ Ii ), i = 1, 2, . . . , 5. Die, unter der Hypothese, erwarteten Häufigkeiten sind dann durch 100pi , i = 1, . . . , 5, gegeben. Wir bekommen also die folgende Tabelle (siehe die Übungen für die Bestimmung der pi !): Intervalle beobachtete Häufigkeiten pi erwartete Häufigkeiten I1 4 0, 035 3, 5 I2 17 0, 196 19, 6 I3 43 0, 400 40, 0 I4 29 0, 288 28, 8 I5 7 0, 072 7, 2 Totale 100 1 100 5. Man lehnt die Hypothese ab, falls die Chiquadrat-Statistik X 2 := 0, 648 zu gross ist: 5 P i=1 Das vorgegebene Niveau sei α. Man bestimmt dann die Zahl ηα so, dass (ni −100pi )2 100pi η Rα = h2 (x)dx = 0 1 − α und lehnt die Hypothese ab, falls 0, 648 ≥ ηα . Wenn α = 5 %, dann ist z.B. η0,05 = 5, 99 und die Hypothese wird nicht abgelehnt. Bemerkung: In diesem Beispiel ist die Anzahl der Freiheitsgrade = 5 − 1 − 2 = Anzahl der Intervalle (Klassen) −1 − Anzahl der geschätzten Parameter (µ, σ 2 !). 31 2.7 Der χ2 –Test als Unabhängigkeitstest Wenn man am Montag die Zeitungen liest, so hat man oft den Eindruck, am Wochenende (Sa, So) sei der Anteil der Verkehrsunfälle mit tödlichem Ausgang, bezogen auf die Gesamtzahl der Verkehrsunfälle, grösser als während der Woche. Als Hypothese nehmen wir an, der Anteil mit tödlichem Ausgang sei vom Wochentag unabhängig. Zum Testen ziehen wir eine Verkehrsstatistik mit n = 1350 876 Unfällen heran. Anzahl Verkehrsunfälle mit tödlichem Ausgang A Anzahl Verkehrsunfälle ohne tödlichen Ausgang Ac Totale Wochenende B n11 = 20 808 n12 = 450 708 n1· = 480 516 Woche (Mo-Fr) Bc n21 = 40 680 n22 = 820 680 n2· = 870 360 Totale n·1 = 70 488 n·2 = 1280 388 n = 1350 876 Es liegen hier also vier Klassen vor, die wir in einer sogenannten Vierfeldertafel (oder 2 × 2 Kontingenz-Tafel) dargestellt haben. Das zugehörige statistische Modell Beobachtet wurde ein Zufallsvektor (N11 , N12 , N21 , N22 ), wobei die Zufallsgrössen N11 (N12 , N21 , N22 ) die totale Anzahl der Auftreten des Ereignisses A ∩ B(Ac ∩ B, A ∩ B c , Ac ∩ B c ) darstellt (Ac bedeutet das Komplement von A!). Nun seien θ11 = P (A∩B), θ12 = P (B ∩Ac ), θ21 = P (A∩B c ), θ22 = P (Ac ∩B c ), p1 = P (B), q1 = P (B c ), p2 = P (A), q2 = P (Ac ). Alle diese Zahlen sind natürlich a priori unbekannt. Mann könnte sie aber mit Hilfe der Kontingenz-Tafel schätzen. Der χ2 –Test für Unabhängigkeit Wäre die Hypothese richtig, dann würden die Ereignisse A, Ac , B, B c unabhängig sein. In diesem Fall würde dann das folgende gelten: θ11 = p1 p2 , θ12 = p1 q2 , θ21 = q1 p2 , θ22 = q1 q2 , (C und D sind unabhängig, falls P (C ∩ D) = P (C)P (D) !). Beachte, dass p1 + q1 = 1, p2 + q2 = 1 gilt. Statt vier Paramter zu schätzen, bleiben, unter der Hypothese, nur 2 zu schätzen, etwa p1 und p2 . Nach dem schwachen Gesetz der grossen Zahlen kann p1 (p2 ) durch die relative 12 21 Häufigkeit p̂1 : nn1· = n11 +N (p̂2 : nn·1 = n11 +n ) geschätzt werden. n n 32 Die Idee ist jetzt die folgende: Man vergleicht die beobachteten Häufigkeiten (siehe Tafel) nij mit den, unter der Hypothese, erwarteten Häufigkeiten n̂11 := nn1· · nn·1 · n, n̂12 := nn1· 1 − nn1· n, n̂21 := nn·1 1 − nn1· n, n̂22 := 1 − n1· n 1− n·1 n n. Der χ2 –Test für Unabhängigkeit lehnt die Hypothese ab, falls χ2 (n11 , n12 , n21 , n22 ) := (n11 − n̂11 )2 (n12 − n̂12 )2 (n21 − n̂21 )2 (n22 − n̂22 )2 + + + n̂11 n̂12 n̂21 n̂22 zu gross ist. Bestimmung des Ablehnungsbereichs: Ersetzt man in der Definition der n̂ij die Grössen n1· , n·1 durch die Zufallsvariablen N1· , N·2 , dann bekommt man Zufallsgrössen N̂ij für die erwarteten Häufigkeiten. Man kann dann zeigen, dass χ2 (N11 , N12 , N21 , N22 ) := (N11 − N̂11 )2 N̂11 + (N12 − N̂12 )2 N̂12 + (N21 − N̂21 )2 N̂21 + (N22 − N̂22 )2 N̂22 , unter der Hypothese, angenähert eine χ2 –Verteilung mit ν = 4 − 1 − 2 = 1 = Anzahl von Klassen −1− Anzahl der geschätzten Parameter (p1 und p2 !) besitzt. (Der Beweis ist nicht so einfach!) Zurück zum Beispiel Die boebachteten Fälle liefern χ2 (2808, 45708, 4680, 82680) = 10.43. Als Niveau wähle man 5 %. Analog wie im Beispiel 2.5 bestimmt man mit Hilfe einer Tabelle die Zahl η0,05 so, dass η0,05 R h1 (x)dx = 0, 95. Man bekommt in diesem Fall 3, 84. 0 Der χ2 –Test für Unabhängigkeit lehnt also zum Niveau 5 % die Hypothese ab, da χ2 (2808, 45708, 4680, 82680) = 10, 43 > 3, 84. 2.7 Testen eines Mittelwertes bei unbekannter Varianz: Der einseitige Student-Test An einer Frauenklinik hat man während längerer Zeit das Geburtsgewicht der lebend und reif geborenen Mädchen bestimmt und gemittelt. Das Resultat, 3200 g := µ0 , betrachtet man als Erwartung. Einige Jahre später, führen weitere Beobachtungen zur Vermutung, dass die Erwartung µ nicht mehr 3200 g betrage, dass aber µ > µ0 . Die Hypothese sei µ = µ0 und die Alternative µ > µ0 . 33 Um die Hypothese zu testen, will man bei den 25 nächsten Geburten von lebenden, reif geborenen Mädchen das Gewicht messen. Das zugehörige statistische Model: Beobachtet wird der Zufallsvektor X = (X1 , . . . , X25 ), wobei Xi das Gewicht bei i–ter Geburt ist. Man kann hier annehmen, dass die Zufallsgrössen Xi ’s, i.i.d. normal-verteilt N (µ, σ 2 ) sind mit unbekannten Parametern µ, σ 2 . Aus der Schätztheorie wissen wir, dass X̄25 := gute Schätzungen für µ und σ 2 sind. Bemerkung Die emprische Varianz ist Sn2 := 1 25 25 P i=1 1 25 1 24 2 Xi und V25 := 25 P i=1 25 P i=1 (Xi − X̄25 )2 sehr 2 (Xi − X̄25 )2 . Für V25 hat man die Summe der Quadrate durch 24 dividiert. Der Grund dafür ist die folgende Behauptung Unter der Hypothese µ = µ0 hat die Statistik T = Student-Verteilung mit 24 Freiheitsgraden. X̄25 − µ0 genau eine V25 /5 (Darüber werden wir in den Übungen sprechen, aber nur für Mathematiker und Physiker!) Wir bezeichnen mit fm die Dichte der Student-Verteilung mit m Freiheitsgraden (siehe “Einführung in die Wahrscheinlichkeitstheorie”) und, für 0 < α < 1, mit tα,m die Zahl, für tα,m R welche fm (x)dx = 1 − α. −∞ Die Idee: Der Test von Student (einseitig) lehnt die Hypothese ab, falls der beobachtete Wert t von T zu gross ist. Zurück zum Beispiel Nehmen wir an, wir haben X1 = x1 , . . ., X25 = x25 beobachtet, und das folgende erhalten: 25 x̄25 − 3200 1 P x2 = 3470 g, v25 = 408 g. Dann bekommen wir t = x̄25 = 25 = 3, 31. 408/5 i=1 α sei 5 %. Aus einer Tabelle für die Student-Verteilung liest man t0,05, 24 = 1, 711. Folgerung: Der Student-Test lehnt die Hypothese ab, da 3, 31 > 1, 711. Der Test ist sogar hoch signifikant, weil er auch zum Niveau 1 % ablehnt: t0,01,24 = 2, 492. 2.8 Beispiel 2.7: Fortsetzung. Der zweiseitige Student-Test Die Bezeichnungen sind dieselben, wie unter 2.7. Die Hypothese ist wie oben, d.h. µ = µ0 = 3200 g. Wir betrachten aber jetzt als Alternative t∗ α,m R ∗ ∗ K : µ 6= µ0 . Für 0 < α < 1 vorgegeben, sei tα,m die Zahl für welche fm (x)dx = 1 − α. −t∗ α,m Definition Der zweiseitige Student-Test für H gegen K ∗ lehnt die Hypothese zum Niveau α ab, falls x̄25 − 3200 ≥ t∗α, 24 ist . |t| = 408/5 34 Wäre z.B. α = 5 %, dann würde man in einer Tabelle für die Student-Verteilung mit 24 Freiheitsgraden t∗0,05, 24 = 2, 06 finden. Da |t| = 3, 31, lehnt also der Student-Test die Hypothese ab. Wie vorher würde der Test die Hypothese auch zum Niveau 1 % (t∗0,01, 24 = 2, 80!) ablehnen. 2.9 Testen von zwei Mittelwerten bei unbekannter Varianz Der einseitige (zweiseitige) Student-Test für zwei unabhängige Stichproben Häufig stellt sich das Problem des qualitativen Vergleiches von zwei Methoden, z.B. des Vergleiches von zwei Behandlungsmethoden A und B. Man hat dann zwei Reihen von Zufallsgrössen (Messungen) X1 , . . . , Xn1 (Methode A) und Y1 , . . . Yn2 (Methode B), die alle unabhängig sind. Weiter nimmt man häufig an, X1 , . . . , Xn1 seien N (µ1 , σ12 )–verteilt und Y1 , . . . , Yn2 seien N (µ2 , σ22 )–verteilt. Wir wollen hier die Hypothese µ1 = µ2 gegen die Alternative K : µ2 > µ1 (einseitiger Fall) oder die Hypothese µ1 = µ2 gegen die Alternative K ∗ : µ1 6= µ2 (zweiseitiger Fall) testen. Im folgenden werden wir annehmen, dass σ12 = σ22 =: σ 2 ist. (Den Fall, wo die Varianzen verschieden sind, werden wir in der Vorlesung kurz besprechen.) Man definiere n2 P Xi , Ȳn2 := n12 Yj und i=1 j=1 ) ( n1 n2 P P 1 2 2 2 (Xi − X̄n1 ) + (Yj − Ȳn2 ) . = Vn := n1 +n2 −2 X̄n1 := Vn21 +n2 1 n1 n1 P i=1 j=1 Dann kann man den folgenden Satz beweisen: Satz (ohne Beweis) Unter der Hypothese µ1 = µ2 besitzt die Statistik T (X1 , . . . , Xn1 , Y1 , . . . , Yn2 ) : eine Student-Verteilung mit n1 + n2 − 2 Graden. X̄n1 − Ȳn2 q Vn n11 + n12 tα,n und t∗α,m seien wie unter 2.7 und 2.8 definiert. Definition Wenn man X1 = x1 , . . . , Xn1 = xn1 , Y1 = y1 , . . . , Yn2 = yn2 beobachtet hat, lehnt, zum Niveau α, der einseitige Student-Test (zweiseitige Student-Test) die Hypothese ab, falls T (x1 , . . . , xn1 , y1 , . . . , yn2 ) ≥ tα,n1 +n2 −2 |T (x1 , . . . , xn2 , y1 , . . . , yn2 )| ≥ t∗α,n1 +n2 −2 Beispiel Schweinemast mit zwei verschiedenen Futtermitteln A und B. Beobachtet wurden bei 14 zufällig ausgewählten Schweinen die Gewichtszunahme (in kg) während einer bestimmten Periode. Dabei waren 7 Schweine mit A gefüttert worden, die anderen mit B. Hier sind die Resultate: 35 Gruppe A Gruppe B x 33,17 66,25 26,08 43,79 46,22 55,81 54,50 y 53,77 53,13 37,75 73,45 58,25 61,14 38,80 1 2 3 4 5 6 7 Dann bekommen wir T (x1 , . . . , x7 , y1 , . . . , y7 ) = 1, 023 . Wir haben hier 12 Freiheitsgrade für die Student-Verteilung. Aus einer Tabelle liest man, für α = 5 %, t0,05, 12 = 1, 782. Also wird die Hypothese µ1 = µ2 gegen µ2 > µ1 nicht abgelehnt. Für den zweiseitigen Fall (µ1 6= µ2 ) hat man t∗0,05, 12 = 2, 179. Also wird hier auch die Hypothese nicht abgelehnt. 2.10 Ein anderer Test zum Vergleich von zwei Mittelwerten: Der Wilcoxon-Test oder Mann-Whitney U –Test Der Einfachheit halber betrachten wir dasselbe Problem und dasselbe Beispiel wie unter 2.9. (Der Wilcoxon-Test ist für sehr allgemeine Situationen anwendbar. Man braucht z.B. nicht wie beim Student-Test eine Normalverteilung für die Zufallsgrössen vorauszusetzen.) Es werden also n = n1 + n2 unabhängige Zufallsgrössen X1 , . . . , Xn1 , Y1 , . . . , Yn2 mit den Xi ’s i.i.d. N (µ1 , σ 2 ) verteilt und den Yj ’s i.i.d. N (µ2 , σ 2 ) verteilt, beobachtet. Als Hypothese nehmen wir wie vorher µ1 = µ2 (es gibt also keinen Unterschied zwischen den Futtermitteln A und B!) und als Alternativen, einmal K : µ2 > µ1 (einseitig) und einmal K ∗ : µ1 6= µ2 (zweiseitig). Das Verfahren Man ordnet alle Xi , Yj gemeinsam der Grösse nach an. Jeder Zufallsgrösse ordnet man dann ihren Rang in der gesamten Stichprobe zu. Ri sei der Rang von Xi , i = 1, . . . , n1 . Qj sei der Rang von Yj , j = 1, . . . , n2 ,. Beachte: Die Ränge sind Zufallsgrössen. U1 (U2 ) sei die Summe der Ränge der Xi (Yj ), also U1 := n1 P i=1 Ri , U2 := n2 P Qj . j=1 Die Idee im einseitigen Fall (zweiseitigen Fall): Man lehnt die Hypothese ab, falls der beobachtete Wert u2 von U2 zu gross ist (falls u2 zu gross oder zu klein ist). Illustration anhand des Beispiels von 2.9. 36 Die geordnete Stichprobe sieht so aus: x 26,08 x 33,17 y 37,71 y 38,80 x 43,79 x 46,22 y 53,13 y 53,77 x 54,50 x 55,81 y 58,25 y 61,14 x 66,25 y 73,45 Die Ränge der yj sind {3, 4, 7, 8, 11, 12, 14}. Die Summe u2 dieser Ränge ist also u2 = 59. Aus einer Tabelle für die Wilcoxon Statistik liest man, für den einseitigen Fall, dass, unter ! 7 P Qj ≥ 59 = 0, 22789 (siehe z.B. Lehmann “Nonparametrics”: der Hypothese, PH U2 := j=1 Statistical methods based on ranks). Der Wert α59 = 0, 22789 ist der sogenannte p–Wert, der im Abschnitt 2.1 erklärt wurde. Wählt man α = 5 %, dann gilt α < α59 . Deshalb lehnt der Wilcoxon-Test die Hypothese µ1 = µ2 nicht ab (siehe 2.1). Auch im zweiseitigen Fall wird die Hypothese nicht abgelehnt. Bemerkung Für grosse Werte von n1 und n2 (siehe oben: Das Verfahren), normiert n2 P Qj so, dass, unter der Hypothese, eine Approximation durch die man die Statistik U2 = j=1 Standard-Normal-Verteilung möglich ist. (Siehe z.B. Lehmann “Nonparametrics”: Statistical methods based on ranks.) 2.11 Vergleich zweier unabhängiger binomial-verteilter Zufallsgrössen (siehe Abschnitt 2.3) Wir betrachten dieselbe Situation wie unter 2.3. Wie dort seien X, Y zwei unabhängige binomial-verteilte Zufallsgrössen mit Parametern n1 , p1 bzw. n2 , p2 . Wie vorher sei die Hypothese H: p1 = p2 = p, wobei p unbekannt ist. Der χ2 –Test für die Hypothese H Nehmen wir an, wir haben X = x und Y = y beobachtet. Die Resultate können wir in einer Tafel zusammenfassen: Anlage 1 Anlage 2 Totale x y x+y n1 − x n2 − y n1 + n2 − x − y Total = n1 Total = n2 n = n1 + n2 Das Verfahren 1. Unter der Hypothese schätzt man p durch x+y n1 +n2 =: p̂. 37 2. Die erwartete Häufigkeit der fehlerhaften Stücke bei der Anlage 1 (Anlage 2) ist durch x̂ := n1 p̂ (ŷ := n2 p̂) gegeben. 3. Die χ2 –Statistik ist dann χ2 := (x − x̂)2 (y − ŷ)2 (n1 − x − (n1 − x̂))2 (n2 − y − (n2 − ŷ))2 + + + . x̂ ŷ n1 − x̂ n2 − ŷ 4. Die Anzahl von Freiheitsgraden ist gleich v := 4 − 1 − 1 = 2 = Dimension der Tafel −1−Anzahl der geschätzten Parameter (p!). 5. Sei 0 < α < 1 vorgegeben. Sei ηα die Zahl, für welche η Rα 0 6. Der χ2 –Test lehnt die Hypothese ab, falls χ2 ≥ ηα . h2 (x)dx = 1 − α. Beispiel (siehe 2.3) n1 = 200, x = 5, n2 = 100, y = 10. χ2 ist dann gleich 7.85 und η0,05 = 5, 9991. Der χ2 –Test lehnt also die Hypothese ab. Bemerkung Auf dieselbe Weise kann man den χ2 –Test benützen, um zwei unabhängige multinomial-verteilte Zufallsgrössen zu vergleichen: Beispiel Man würfelt mit einem Würfel A, n1 –mal und mit einem Würfel B, n2 –mal. Sei PA ({i}) =: pi = Wahrscheinlichkeit bei einem Wurf mit A, i zu bekommen, i = 1, 2, . . . , 6. qi := PB ({i}) sei analog definiert. Frage Gilt pi = qi =: wi , i = 1, 2, . . . , 6, wobei die wi unbekannt sind? D.h. besitzen die beiden Würfel dieselben probabilistischen Eigenschaften? Das Verfahren, um die Hypothese H : pi = qi , ∀ i, zu testen: Man definiere nk1 := Anzahl von k bei den n1 Würfen mit A und nk2 := Anzahl von k bei den n2 Würfen mit B. Das sind die beobachteten Häufigkeiten, k = 1, 2, . . . , 6. i2 Man schätzt, unter der Hypothese, wi durch ŵi : nni11 +n +n2 , i = 1, . . . , 6. Die erwarteten Häufigkeiten sind dann durch n̂k1 := n1 ŵk und n̂k2 := n2 ŵk gegeben, k = 1, 2, . . . , 6. Die χ2 –Statistik ist dann definiert als 2 χ = 6 X (ni1 − n̂i1 )2 i=1 n̂i1 + 6 X (ni2 − n̂i2 )2 i=1 n̂i2 . Die Anzahl von Freiheitsgraden ist gleich 12 − 1 − 5 = 6 = Dimension der Tafel (der nik , (i = 1, . . . , 6, k = 1, 2) −1− Anzahl der geschätzten Parameter (w1 , w2 , . . . , w5 !). Der χ2 –Test lehnt die Hypothese zum Niveau α ab, falls χ2 ≥ ηα , wo ηα so ist, dass η Rα h6 (x)dx = 1 − α . 0