Kapitel 7 Einführung in die mathematische Statistik 7.1 Statistische Modellierung Bei der Modellierung eines Zufallsexperiments besteht oft Unsicherheit darüber, welche W-Verteilung auf der Ergebnismenge adäquat ist. Die statistische Modellierung trägt dem – zumindest innerhalb eines gewissen Rahmens – Rechnung. In einem parametrischen statistischen Modell werden einige Parameter in das Verteilungsmodell aufgenommen, deren Werte offen gelassen werden, also unbekannt sind. In einem nicht-parametrischen statistischen Modell werden größere Klassen von W-Verteilungen ins Modell aufgenommen. Definition 7.1 (Statistisches Modell) (a) Ein (parametrisches) statistisches Modell ist ein Tripel ´ ³ ¡ ¢ M , A , Pϑ ϑ∈Θ , wobei (M, A) ein Messraum und (Pϑ )ϑ∈Θ eine Familie von W-Verteilungen auf A ist. (b) Ein (nicht-parametrisches) statistisches Modell ist ein Tripel ¡ ¢ M , A, P , wobei (M, A) ein Messraum und P eine Menge von W-Verteilungen auf A ist. Beispiele: Parametrische Modelle (1) Binomialmodelle n ¡ ¢ N (i) M = {0, 1}n , A = P {0, 1}n , Pp = Bi(1, p) , p ∈ [ 0 , 1 ] der Parameter. i=1 ¡ ¢ (ii) M = {0, 1, . . . , n} , A = P {0, 1, . . . , n} , Pp = Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter. (2) Poisson-Modell n ¡ ¢ N M = Nn0 , A = P Nn0 , Pλ = Poi(λ) , λ ∈ ( 0 , ∞) der Parameter. i=1 (3) Normalverteilungsmodell M = Rn , A = Bn , Pβ,σ = n N N(β, σ 2 ) , (β, σ) ∈ R × ( 0 , ∞) der Parameter. i=1 47 Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 7: Einführung in die mathematische Statistik (4) Exponentialverteilungsmodell n N M = Rn , A = Bn , Pλ = Exp(λ) , λ ∈ ( 0 , ∞) der Parameter. i=1 Beispiel: Ein nicht-parametrisches Modell nN o n M = Rn , A = B n , P = P : P ∈ W(B 1 ) i=1 Bemerkung: Modellformulierung mit Zufallsvariablen Im parametrischen Fall: Im Hintergrund seien ein Messraum (Ω, A) mit einer Familie von W-Maßen Pϑ (ϑ ∈ Θ) auf A vorhanden sowie eine Zufallsvariable X : (Ω, A) −→ (M, A) . Die Verteilungsfamilie im statistische Modell von Definition 7.1 (a) ist die Familie der Verteilungen der Zufallsvariablen X unter den diversen Pϑ (ϑ ∈ Θ) : Pϑ = PX ∀ ϑ ∈ Θ. ϑ Zum Beispiel: n N Binomialmodell (i) : X = (X1 , . . . , Xn ) ∼ Bi(1, p) , p ∈ [ 0 , 1 ] der Parameter. i=1 Man formuliert das Modell auch so: Xi ∼ Bi(1, p) (i = 1, . . . , n) u.i.v. , p ∈ [ 0 , 1 ] der Parameter. Binomialmodell (ii) : X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter. Normalverteilungsmodell : Xi ∼ N(β, σ 2 ) (i = 1, . . . , n) u.i.v. , (β, σ) ∈ R × ( 0 , ∞) der Parameter, (man spricht auch von den beiden Parametern β und σ). Im nicht-parametrischen Fall: Im Hintergrund seien wieder ein Messraum (Ω, A), jetzt mit einer Menge P von W-Maßen P auf A vorhanden sowie eine Zufallsvariable X : (Ω, A) −→ (M, A) . Die Menge P der©W-Verteilungen ª im nicht-parametrischen statistischen Modell von Definition 7.1 (b) ist P = PX : P ∈ P . Im oben gegebenen Beispiel: X = (X1 , . . . , Xn ) eine Rn -wertige Zufallsvariable mit n o nN o n PX : P ∈ P = P : P ∈ W(B1 ) , i=1 was man anschaulicher so zu formulieren pflegt: Das Modell mit n u.i.v. reellen Zufallsvariablen X1 , . . . , Xn und beliebiger (ungekannter) Verteilung: Xi ∼ P , (i = 1, . . . , n) u.i.v., P ∈ W(B 1 ) . 7.2 Maximum-Likelihood-Schätzung Das zu Grunde gelegte statistische Modell gibt die Möglichkeit für eine modellbasierte Datenanalyse: Aus dem Ergebnis x des Zufallsexperiments (den “Beobachtungsdaten”) sollen Rückschlüsse über den wahren Wert des Parameters ϑ gezogen werden. Vereinfacht gesagt ist das deshalb möglich, weil das beobachtete Ergebnis x unter den verschiedenen prinzipiell möglichen Parameterwerten ϑ ∈ Θ verschiedene Wahrscheinlichkeiten besitzt. Beispiel: Binomialmodell X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter, für ein gegebenes n ∈ N. Angenommen, wir haben einen konkreten Wert x ∈ { 0, 1, . . . , n } als Ergebnis erhalten. Jetzt betrachten wir die Wahrscheinlichkeiten, die dieses Ereignis (also das Ergebnis x) für alle möglichen Parameterwerte p besitzt, d. h. wir betrachten die sog. Likelihood-Funktion µ ¶ n x [ 0 , 1 ] 3 p 7−→ Lx (p) := Pp ({x}) = p (1 − p)n−x . x 48 Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 7: Einführung in die mathematische Statistik 49 Maximum-Likelihood-Schätzung: Als Schätzung für p wird die Maximumstelle der Likelihood-Funktion genommen. Dieses Konzept wird in der folgenden Definition allgemeiner formuliert. Definition 7.2 (Likelihood-Funktion, Maximum-Likelihood-Schätzung) ³ ´ ¡ ¢ Gegeben sei ein (parametrisches) statistisches Modell M , A , Pϑ ϑ∈Θ mit Pϑ = fϑ · µ ∀ ϑ ∈ Θ, wobei µ ein Maß auf A ist. Sei x ∈ M . Die Funktion Lx : Θ −→ [ 0 , ∞) , Lx (ϑ) := fϑ (x) , ϑ ∈ Θ . heißt Likelihood-Funktion (zu x); eine Maximum-Likelihood-Schätzung (ML-Schätzung) für ϑ (zu x) ist b ein Parameterwert ϑ(x) ∈ Θ mit ¡ ¢ b Lx ϑ(x) = max Lx (ϑ) . ϑ∈Θ Bemerkung: Log-Likelihood-Funktion Da Lx (ϑ) ∈ [ 0 , ∞) ∀ ϑ ∈ Θ, können wir die Log-Likelihood-Funktion bilden: `x (ϑ) := ln Lx (ϑ) , ϑ ∈ Θ, b wobei definiert sei: ln(0) := −∞ . Eine ML-Schätzung ϑ(x) ist dann äquivalent charakterisiert durch ¡ ¢ b = max `x (ϑ) . `x ϑ(x) ϑ∈Θ Beispiel: Binomialmodell X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter. Likelihood-Funktion bzw. Log-likelihood-Funktion zur Beobachtung x ∈ {0, 1, . . . , n} : µ ¶ n x Lx (p) = p (1 − p)n−x , x µ ¶ n `x (p) = ln + x ln(p) + (n − x) ln(1 − p) . x Eine “Kurvendiskussion” der Funktion `x (p) , p ∈ [ 0 , 1 ] liefert als Maximumstelle, d.h. als MLSchätzung für p : x pb(x) = . n Beispiel: Modell mit n u.i.v. Poisson-verteilten ZV’en X1 , X2 , . . . , Xn u.i.v. Poi(λ)-verteilte Zufallsvariablen, und λ ∈ ( 0 , ∞) ist der Parameter. Zur Beobachtung x = (x1 , x2 , . . . , xn ) ∈ Nn0 haben wir die Likelihood-Funktion bzw. die Log-LikelihoodFunktion: Pn λ i=1 x1 Lx (λ) = e , x1 ! x2 ! · · · xn ! hP i n ¡ ¢ `x (λ) = −nλ + xi ln(λ) − ln x1 ! x2 ! · · · xn ! . −nλ i=1 Eine “Kurvendiskussion” für `x (λ) liefert als ML-Schätzung für λ : n 1 X b λ(x) = x = xi . n i=1 Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 7: Einführung in die mathematische Statistik 50 b Die extreme Beobachtung x = 0 (d.h. alle xi = 0) ist – streng gesehen – dabei auszunehmen, da λ(0) = 0 nicht im Parameterbereich ( 0 , ∞) liegt. Beispiel: Modell mit n ≥ 2 u.i.v. normalverteilten ZV’en X1 , X2 , . . . , Xn u.i.v. N (β, σ 2 )-verteilt, der Parameter ist (β, σ) ∈ R × ( 0 , ∞) . Mit µ = λλn erhalten wir als Likelihood-Funktion zur Beobachtung x = (x1 , x2 , . . . , xn ) ∈ Rn : Als ML-Schätzung ¡ Lx (β, σ) = `x (β, σ) = b β(x), σ b(x) ¢ ³ 1 P ´ n (2π)−n/2 σ −n exp − 2 (xi − β)2 , 2σ i=1 n 1 P n (xi − β)2 . − ln(2π) − n ln(σ) − 2 2σ 2 i=1 ergibt sich: b β(x) = x = 1 n n P i=1 s xi und σ b(x) = 1 n n P (xi − x)2 . i=1 Im Fall, dass die Beobachtungswerte x1 , x2 , . . . , xn alle gleich sind, also x1 = x2 = . . . = xn gilt, erhalten wir σ b(x) = 0. Das ist streng genommen kein zulässiger Schätzwert für σ > 0. Dieser Fall hat Wahrscheinlichkeit Null unter jeder W-Verteilung des Modells und wird daher praktisch nicht auftreten (sofern das Modell zutrifft). 7.3 Lineare Regression Regressionsgerade Eine reelle Zielgröße y hänge von einer reellen Einflussgröße t ab: y = y(t) , (z. B. Umsatz y eines Produkts in Abhängigkeit vom Werbeaufwand t). In erster Näherung wird davon ausgegangen, dass eine lineare Abhängigkeit besteht, d. h. y(t) = a t + c (Regressionsgerade) für alle möglichen Werte t innerhalb eines gewissen Bereichs (in der Regel ein Intervall), wobei a und c reelle Konstanten sind, die aber unbekannt sind. Es liegen nun Beobachtungsdaten vor: (t1 , y1 ) , (t2 , y2 ) , . . . , (tn , yn ) ; (z. B. wurde in n Zeitperioden jeweils der Umsatz yi bei einem Werbeaufwand ti beobachtet). Die yi -Werte hängen von den jeweiligen ti -Werten ab, aber außerdem noch von unkontrollierbaren “Zufallseinflüssen”. Daher wird die folgende statistische Sichtweise in das Modell eingebracht: Die beobachteten Werte y1 , y2 , . . . , yn sind Werte von reellen Zufallsvariablen Y1 , Y2 , . . . , Yn mit: ¡ ¢ Yi ∼ N y(ti ), σ 2 ∀ i = 1, . . . , n , und Y1 , . . . , Yn stoch. unabhängig. Die Parameter im Modell sind a, c ∈ R und σ > 0. Beachte: Nur die beobachteten Werte y1 , y2 , . . . , yn werden hier als Werte von Zufallsvariablen behandelt, nicht aber die beobachteten Werte t1 , t2 , . . . , tn . Letztere werden als bekannte Konstanten gesehen (sie unterliegen keinen Zufallseinflüssen). Wir haben daher das statistische Modell (Normalverteilungsmodell der Regressionsgeraden): ³ ´ ¡ ¢ Rn , Bn , Pa,c,σ (a,c,σ)∈R2 ×(0,∞) , mit Pa,c,σ := n ¡ ¢ N N ati + c , σ 2 . i=1 Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 7: Einführung in die mathematische Statistik 51 Die Log-Likelihood-Funktion (natürlich bei Verwendung des Maßes µ = λλn ) zur Beobachtung y = (y1 , y2 , . . . , yn )t ∈ Rn lautet: n ¢2 n 1 X¡ `y (a, c, σ) = − ln(2π) − n ln(σ) − yi − ati − c . 2 2 2σ i=1 Die Maximierung ergibt die folgende ML-Schätzung : ML-Schätzung im Normalverteilungsmodell der Regressionsgeraden b a(y) = st,y , s2t c2 (y) = 1 RSS(y) . σ n b c(y) = y − b a(y) t , Dabei werden die folgenden abkürzenden Bezeichnungen verwendet: n t = (t1 , . . . , tn )t , y = (y1 , . . . , yn )t , 1X ti , n t = i=1 n 1X s2t = (ti − t)2 , n st,y i=1 RSS(y) = n X ¡ n y = 1X yi , n i=1 n 1X = (ti − t) (yi − y) , n i=1 yi − b a(y) ti − b c(y) ¢2 , i=1 (die Bezeichnung “RSS” kommt von engl. Residual Sum of Squares). Anmerkung: Die Residual Sum of Squares lässt sich auch schreiben als RSS(y) = n X (yi − y)2 − n i=1 s2t,y . s2t Bemerkung: Methode der Kleinsten Quadrate (engl.: Least Squares) Die ML-Schätzungen b a(y) und b c(y) sind auch die Lösung des Minimierungsproblems n ³ X yi − (a ti + c) ´2 −→ min ! a,c ∈R i=1 Es wird also diejenige Gerade y(t) = a t + c den Datenpunkten (t1 , y1 ) , (t2 , y2 ) , . . . , (tn , yn ) angepasst, welche im Sinne der Summe der Abweichungsquadrate, n X ¡ yi − y(ti ) ¢2 , i=1 die geringste Abweichung von den Datenpunkten liefert. Die schließlich verbleibende minimale Abweichungsquadratsumme ist die Residual Sum of Squares: RSS(y) = n ³ X i=1 £ ¤ ´2 yi − b a(y) ti + b c(y) . Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 7: Einführung in die mathematische Statistik 52 Polynomiale Regression Das Modell der Regressionsgeraden können wir auch als polynomiale Regression vom Grad 1 sehen. Ein polynomiales Regressionsmodell vom Grad d setzt die funktionale Abhängigkeit der Zielgröße y von der (reellen) Einflussgröße t als ein Polynom vom Grad (höchstens) d an: y(t) = a0 + a1 t + a2 t2 + . . . + ad td . Im Fall d = 2 spricht man von quadratischer Regression, im Fall d = 3 von kubischer Regression. Die weiteren statistischen Modellannahmen sind analog zum Fall der Regressionsgeraden: Die beobachteten y-Werte y1 , y2 , . . . , yn der Datenpaare (ti , yi ) (i = 1, . . . , n) werden als Werte von reellen Zufallsvariablen Y1 , Y2 , . . . , Yn aufgefasst mit: ¡ ¢ Yi ∼ N y(ti ) , σ 2 ∀ i = 1, . . . , n , Y1 , . . . , Yn stoch. unabhängig. Die Parameter im statistischen Modell sind die Koeffizienten a0 , a1 , . . . , ad des Polynoms sowie die Standardabweichung σ. Die ML-Schätzung für die Koeffizienten a0 , a1 , . . . , ad erweist sich wieder als “Kleinste-Quadrate-Schätzung” (engl. Least Squares Estimate), also als Optimallösung des KleinstenQuadrate-Problems n ³ X minimiere (bezgl. a0 , a1 , . . . , ad ∈ R) £ ¤ ´2 yi − a0 + a1 ti + a2 t2i + . . . + ad tki . i=1 ¡ ¢t b (y) = a0 (y), a1 (y), . . . , ad (y) , wobei wieder y = (y1 , . . . , yn )t , ist als Die Optimallösung a Lösung eines linearen Gleichungssystems zu berechnen: b (y) = B t y , wobei BtB a ¢t ¡ ¢ ¡ B = tji 1≤i≤n und y = y1 , y2 , . . . , yn . 0≤j≤d q 1 Die ML-Schätzung für σ ist gegeben durch σ b(y) = n RSS(y) , wobei RSS(y) (Residual Sum of Squares) den minimalen Wert der Fehlerquadratsumme bezeichnet. Allgemeines lineares Regressionsmodell Sei wieder y eine reelle Zielgröße, die in Abhängigkeit einer Einflussgröße t ∈ T (jetzt T irgendeine Menge) zu studieren ist. Ein linearer Regressionsansatz ist eine Familie von Funktionen y(t) = k X aj fj (t) , t∈T , j=1 wobei k ∈ N und die Funktionen (Basisfunktionen) fj : T −→ R , j = 1, . . . , k , gegeben sind und die Koeffizienten a1 , . . . , ak ∈ R Parameter im Modell sind. Anmerkung: Das Modell der polynomialen Regression vom Grad d ist der Spezialfall: k =d+1 , T ⊆R, fj (t) = tj−1 (j = 1, . . . , k) ∀ t ∈ T . Die weiteren statistischen Annahmen sind wiederum: Die beobachteten y-Werte y1 , y2 , . . . , yn der Datenpaare (ti , yi ) (i = 1, . . . , n) werden als Werte von reellen Zufallsvariablen Y1 , Y2 , . . . , Yn aufgefasst mit: ¡ ¢ Yi ∼ N y(ti ) , σ 2 ∀ i = 1, . . . , n , Y1 , . . . , Yn stoch. unabhängig. Die Parameter im statistischen Modell sind die Koeffizienten a1 , . . . , ak sowie die Standardabweichung σ. Das statistische Modell gemäß Definition 7.1 (a) lautet so: ³ ´ ¡ ¢ ¡ ¢ Rn , B n , N(Ba , σ 2 I n ) (a,σ)∈Rk ×(0,∞) mit der n × k Matrix B := fj (ti ) 1≤i≤n . 1≤j≤k Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 7: Einführung in die mathematische Statistik b (y) = Die ML-Schätzung a ¡ b a1 (y), . . . , b ak (y) ¢t 53 und σ b(y) ergibt sich aus ¢t ¡ ¢ 1¡ b (y) = B t y und σ BtB a b2 (y) = y − Bb a(y) y − Bb a(y) , n ¡ ¢t wobei y = y1 , y2 , . . . , yn . 7.4 Statistische Theorie der Schätzer Wir gehen von einem parametrischen statistischen Modell aus: ³ ´ ¡ ¢ M , A , Pϑ ϑ∈Θ . b Eine Parameterschätzung ϑ(x) ist – wegen des zufälligen Charakters der Beobachtungsdaten x – b zwangsläufig fehlerbehaftet. Die Beobachtung x, die der Schätzung ϑ(x) unterliegt, hätte (im Rahmen des Verteilungsmodells) auch anders sein können. Deshalb wird die Schätzung zufallsbedingt mehr oder weniger vom wahren Wert des Parameters ϑ abweichen. Die statistische Theorie versucht, diese zufällige Abweichung im statistischen Mittel zu erfassen und b betrachtet daher die Schätzfunktion M 3 x 7−→ ϑ(x) ; diese Funktion nennt man einen Schätzer für b ϑ. Ein Schätzer ϑ ist insbesondere eine Zufallsvariable auf M (Messbarkeit bezügl. A und einer geeigneten b Sigma-Algebra in Θ vorausgesetzt), deren Verteilung Pϑϑ , ϑ ∈ Θ, natürlich vom Parameter ϑ abhängt. Es ist zweckmäßig, neben der Schätzung des Modellparameters ϑ auch die Schätzung einer Komponente von ϑ (wenn ϑ mehrdimensional) zu betrachten oder auch z.B. die Schätzung einer Transformation eines ein-dimensionalen Parameters (etwa Schätzung von 1/λ im Exponentialverteilungsmodell mit Parameter λ). Allgemeiner: Definition 7.3 (Schätzer) Sei γ : Θ −→ Rk gegeben. Eine Funktion γ b : (M, A) −→ (Rk , Bk ) heißt ein Schätzer für γ(ϑ). Wir wollen uns hier auf erwartungstreue Schätzer (engl. unbiased estimators) konzentrieren. Definition 7.4 (Erwartungstreuer Schätzer) Ein Schätzer γ b für γ(ϑ) heißt erwartungstreu oder unverzerrt (engl. unbiased), wenn gilt: γ b ist Pϑ -integrierbar und Eϑ ( γ b) = γ(ϑ) für jedes ϑ ∈ Θ. Z Dabei bezeichnet Eϑ ( γ b) = γ b dPϑ ∀ ϑ ∈ Θ. M Beispiele: Erwartungstreue Schätzer (1) Binomialmodell X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter. Der ML-Schätzer pb(x) , x ∈ {0, 1, . . . , n} , ist ein erwartungstreuer Schätzer für p. Anmerkung: Dieser Schätzer ist auch der einzige erwartungstreue Schätzer für p. (2) Ein (parametrisches) Modell mit n u.i.v. reellen Zufallsvariablen: n ¡ ¢ N M = Rn , A = B n , Pϑ = Qϑ ∀ϑ ∈ Θ , wobei Qϑ ϑ∈Θ eine Familie von W-Verteilungen i=1 auf B 1 ist. (a) Der Erwartungswert von Qϑ existiere in R für jedes ϑ ∈ Θ. Betrachte β(ϑ) := E[Qϑ ] ∀ ϑ ∈ Θ . Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 7: Einführung in die mathematische Statistik 54 b Der Schätzer β(x) = x , ∀ x = (x1 , . . . , xn ) ∈ Rn , ist ein erwartungstreuer Schätzer für β(ϑ). (b) Das zweite Moment von Qϑ sei endlich für jedes ϑ ∈ Θ. Betrachte σ 2 (ϑ) := Var[Qϑ ] ∀ ϑ ∈ Θ . Der Schätzer s2 (x) = 1 n−1 n P (xi − x)2 , ∀ x = (x1 , . . . , xn ) ∈ Rn , ist ein erwartungstreuer i=1 Schätzer für σ 2 (ϑ) , (n ≥ 2 vorausgesetzt). (3) Im allgemeinen linearen Regressionsmodell (mit Normalverteilung) von Abschnitt 7.3 ist der MLb für den Koeffizientenvektor a = (a1 , . . . , ak )t , Schätzer (auch Least-Squares-Schätzer genannt) a b (y) = (B t B)−1 B t y , a ∀ y ∈ Rn , (Rang(B) = k vorausgesetzt), ein erwartungstreuer Schätzer für a (d.h. für γ(a, σ) = a). Ein erwartungstreuer Schätzer für σ 2 (d.h. für γ(a, σ) = σ 2 ) ist s2 (y) := ¢t ¡ ¢ 1 ¡ y − Bb a(y) y − Bb a(y) ∀y ∈ Rn , n−k (n > k vorausgesetzt). Ein Maß für die Ungenauigkeit eines erwartungstreuen Schätzers γ b für einen reellen Parameter γ(ϑ) ist die Varianz(funktion) von γ b, die i.A. eine Funktion des Modellparameters ϑ ∈ Θ ist: Z ¡ ¢2 Varϑ (b γ) = γ b(x) − γ(ϑ) dPϑ (x) ∀ ϑ ∈ Θ . M Beispiel: Binomialmodell X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter. Betrachte den erwartungstreuen Schätzer pb(x) = x/n ∀ x ∈ {0, 1, . . . , n} . Wir erhalten für die Varianz: 1 p(1 − p) 1 , Var[Bi(n, p)] = 2 n p (1 − p) = 2 n n n r q p(1 − p) bzw. für die Standardabweichung: Varp ( pb ) = . n Varp ( pb ) = Ersetzen wir in letzterer Formel p wiederum durch die Schätzung pb(x) = x/n , so haben wir die geschätzte Standardabweichung (engl. estimated standard error), Abk. “ese”, des Schätzers pb auf Grund der Beobachtung x : r pb(x)(1 − pb(x)) , ese(b p)(x) = n den man zur Quantifizierung des Fehlers der Schätzung pb(x) für p verwenden kann. Zahlenbeispiel: Bei n = 10 sei x = 8 beobachtet. Also: 8 pb(x) = = 0.8 , 10 r ese( pb )(x) = 0.8 · 0.2 = 0.13 . 10 Man quantifiziert daher den Fehler der Schätzung pb(8) = 0.8 durch: 0.8 ± 0.13 . Beispiel: Schätzer der Koeffizienten im allgemeinen Regressionsmodell Im allgemeinen linearen Regressionsmodell mit Normalverteilung ist der ML-Schätzer bzw. LS-Schätzer (LS = Least Squares) b (y) = (B t B)−1 B t y , a ∀ y ∈ Rn , Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 7: Einführung in die mathematische Statistik 55 (Rang(B) = k vorausgesetzt), ein erwartungstreuer Schätzer für a , und das bedeutet auch: Die Komponente b aj dieses Schätzers ist ein erwartungstreuer Schätzer für den Koeefizienten aj , (j = b . Wir haben: 1, . . . , k). Die Varianz von b aj ist der Eintrag (j, j) der Kovarianzmatrix von a £ ¤t Cova,σ (b a) = (B t B)−1 B t Cova,σ (y) (B t B)−1 B t = σ 2 (B t B)−1 , | {z } = σ2 I n £ ¤ folglich, mit der Abkürzung vjj := (B t B)−1 jj : Vara,σ (b aj ) = σ 2 vjj bzw. q √ Vara,σ (b aj ) = σ vjj , (j = 1, . . . , k). Eine Schätzung letzterer Standardabweichung erhält man durch Ersetzen (“plug-in”) von σ durch die p ¡ ¢t ¡ ¢ 1 2 Schätzung s(y) = s (y) , wobei s2 (y) = n−k y − Bb a(y) y − Bb a(y) . Damit: √ ese(b aj )(y) = s(y) vjj , 7.5 (j = 1, . . . , k). Intervallschätzer und Konfidenzintervalle Wir gehen wieder von einem parametrischen statistischen Modell aus: ´ ³ ¡ ¢ M , A , Pϑ ϑ∈Θ , und das Interesse gelte einem reellen (Teil-)-Parameter γ(ϑ); es sei also eine Funktion γ : Θ −→ R gegeben. Eine Intervallschätzung für γ(ϑ) auf Grund von x ∈ M ist ein Intervall £ ¤ b I(x) = γ b1 (x) , γ b2 (x) , b mit geeigneten reellen γ b1 (x) ≤ γ b2 (x) . Die Intervallschätzung I(x) soll eine Interpretation dahingehend gestatten, dass der wahre Wert γ(ϑ) mit großer Wahrscheinlichkeit in diesem Intervall liegt1 , z.B. mit Wahrscheinlichkeit von mindestens 95 %. Dies zu präzisieren erfordert wieder die statistische Sichtweise: Ein Intervallschätzer für γ(ϑ) ist eine Intervall-wertige Funktion Ib auf M der Form £ ¤ b M 3 x 7−→ I(x) = γ b1 (x) , γ b2 (x) , mit zwei (messbaren) Funktionen bi : (M, A) −→ (R, B1 ) , i = 1, 2, γ b1 ≤ γ b2 . £ ¤γ Wir schreiben dann Ib = γ b1 , γ b2 . Definition 7.5 (Überdeckungswahrscheinlichkeiten, (1 − α)-Konfidenzintervall) £ ¤ Sei Ib = γ b1 , γ b2 ein Intervallschätzer für γ(ϑ). Die Wahrscheinlichkeiten ¡ ¢ Pϑ γ b1 ≤ γ(ϑ) ≤ γ b2 für ϑ ∈ Θ b heißen die Überdeckungswahrscheinlichkeiten des Intervallschätzers I. ³© ¡ ¢ ª´ Dabei bedeutet natürlich: Pϑ γ b1 ≤ γ(ϑ) ≤ γ b2 = Pϑ x ∈ M : γ . b1 (x) ≤ γ(ϑ) ≤ γ b2 (x) Wenn zu einem gegebenen α ∈ ( 0 , 1 ) (i.d.R. klein, z.B. α = 0.05) die Überdeckungswahrscheinlichkeiten von Ib alle (d.h. für alle ϑ ∈ Θ) mindestens 1 − α sind, dann heißt Ib ein (1 − α)-Konfidenzintervall für γ(ϑ). 1 das ist allerdings wörtlich genommen – für eine konkrete Beobachtung x – so nicht möglich; die Interpretation erfordert wieder eine statistische Sichtweise, s. nachfolgende Ausführungen. Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 7: Einführung in die mathematische Statistik 56 Interpretation eines (1 − α)-Konfidenzintervalls: £ ¤ Die Bedingung, dass Ib = γ b1 , γ b2 ein (1 − α)-Konfidenzintervall ist (z.B. ein 95 % -Konfidenzintervall, , wenn α = 0.05), beinhaltet ja insbesondere, dass auch für den wahren Wert ϑ des Modellparameters die Überdeckungswahrscheinlichkeit mindestens 1 − α ist, d.h. das Ereignis n ¢o x∈M : γ b1 (x) ≤ γ(ϑ) ≤ γ b2 (x) hat eine Wahrscheinlichkeit ≥ 1−α (also z.B. ≥ 0.95). Deshalb können wir sozusagen (1−α)·100 % -ig (z.B. 95 % -ig) darauf vertrauen, dass ein zufällig realisiertes x ∈ M in dieser Menge liegt und daher £ ¤ b das (konkrete) Intervall I(x) = γ1 (x) , γ b2 (x) zur Beobachtung x den wahren Wert γ(ϑ) enthält. Ein (1 − α)-Konfidenzintervall ist in diesem Sinne also in der Tat ein (1 − α)-Vertrauensintervall. Anmerkung: Die Sprechweise, (für eine konkrete Beobachtung x) , £ ¤ b ”die Wahrscheinlichkeit, dass γ(ϑ) im Intervall I(x) = γ b1 (x) , γ b2 (x) liegt” macht mathematisch keinen Sinn. Denn γ b1 (x) und γ b2 (x) sind konkrete Werte, z.B. die Werte 2.3 und 5.7. Was aber sollte die Wahrscheinlichkeit für γ(ϑ) ∈ [ 2.3 , 5.7 ] sein ? Diese existiert nicht, da ja γ(ϑ) keine Zufallsvariable, sondern eine unbekannte Konstante ist. Beispiel: Normalverteilungsmodell mit bekannter Varianz Seien X1 , X2 , . . . , Xn ∼ N(β, σ02 ) u.i.v. Zufallsvariablen, wobei β der Parameter ist; die Varianz σ02 soll hier bekannt, also kein Parameter sein. Ein (1 − α)-Konfidenzintervall für β (hier also γ(β) = β) ist gegeben durch: h σ0 σ0 i b I(x) = x − z1− α2 √ , x + z1− α2 √ , x = (x1 , . . . , xn ) ∈ Rn , n n ¢ ¡ wobei z1− α2 := Φ−1 1 − α2 das sog. (1 − α2 )-Quantil der Standard-Normalverteilung ist. Zahlenbeispiel: Für n = 10 und σ0 = 0.23 ergaben die Daten x = (x1 , x2 , . . . , x10 ) : x = 2.57 . Wir berechnen das 95%-Konfidenzintervall für β: α = 0.05, 1 − α2 = 0.975, z0.975 = 1.96 ; damit: b I(x) = £ £ ¤ 0.23 0.23 ¤ 2.57 − 1.96 · √ , 2.57 + 1.96 · √ = 2.43 , 2.71 . 10 10 Wir berechnen auch das 99%-Konfidenzintervall für β, (jetzt also α = 0.01) : Wir haben 1 − z0.995 = 2.58 , und analoge Rechnung wie oben ergibt: £ ¤ b I(x) = 2.38 , 2.76 (99%-Konfidenzintervall für β) , α 2 = 0.995 ; das natürlich breiter als das 95%-Konfidenzintervall ist. Beispiel: Binomialmodell Modell: X ∼ Bi(n, p) , p ∈ ( 0 , 1 ) der Parameter.Wir fragen nach einem (1 − α)-Konfidenzintervall für p (hier also: γ(p) = p). Die Konstruktion eines solchen Konfidenzintervalls ist möglich, aber relativ kompliziert. Wir beschränken uns auf die Herleitung eines approximativen (1 − α)-Konfidenzintervalls für p, die auf der Asymptotik (n → ∞) und dem Zentralen Grenzwertsatz beruht. Für größere Werte von n, (sagen wir n ≥ 20), ist dies als eine gute Näherung anzusehen. Aus dem CLT (und Folgerungen) erhält man für großes n : √ pb − p np pb(1 − pb) ³ ´ := Φ−1 1 − α2 daher: Unter Pp : Mit z1− α2 approx. ∼ N(0, 1) , wobei pb(x) = ³ ´ √ pb − p Pp −z1− α2 ≤ n p ≤ z1− α2 ≈ 1 − α pb(1 − pb) x ∀ x ∈ {0, 1, . . . , n} . n ∀ p ∈ (0, 1) , Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 7: Einführung in die mathematische Statistik oder äquivalent umgeformt: ¡ ¢ Pp pb1 ≤ p ≤ pb2 ≈ 1 − α ∀ p ∈ ( 0 , 1 ) , wobei: r r pb(1 − pb) pb(1 − pb) pb1 = pb − z1− α2 und pb2 = pb + z1− α2 . n n Also haben wir mit Ib = h i pb1 , pb2 ein approximatives (1 − α)-Konfidenzintervall für den Parameter p. Zahlenbeispiel: Für n = 20 hat sich die Beobachtung x = 17 ergeben. Wir berechnen: s r ¡ ¢ pb(x) 1 − pb(x) 17 0.85 · 0.15 pb(x) = = 0.85 und = = 0.08 . 20 20 20 Das approximative 95%-Konfidenzintervall für den Parameter p ist daher (mit z0.975 = 1.96 ): h i £ ¤ b I(x) = 0.85 − 1.96 · 0.08 , 0.85 + 1.96 · 0.08 = 0.69 , 1.01 , was natürlich als Intervall [ 0.69 , 1 ) zu lesen ist. 7.6 Testprobleme und Signifikanztests Gegeben sei wieder ein (parametrisches) statistisches Modell: ´ ³ ¡ ¢ M , A , Pϑ ϑ∈Θ . Unter einem Testproblem versteht man eine Zerlegung des Parameterbereichs Θ in zwei disjunkte, nicht-leere Teilmengen Θ0 und Θ1 : Θ = Θ0 ∪ Θ1 , (Θ0 6= ∅ , Θ1 6= ∅ , Θ0 ∩ Θ1 = ∅ ) . Damit verbunden ist die statistische Fragestellung, ob der wahre Wert des Parameters ϑ in der Teilmenge Θ0 oder in der (komplementären) Teilmenge Θ1 liegt. Als Schreibweise für diese Fragestellung (eigentliches “Testproblem”) ist gebräuchlich: H0 : ϑ ∈ Θ 0 gegen H1 : ϑ ∈ Θ1 ; die mit H0 bezeichnete Möglichkeit nennt man die Nullhypothese und die alternative Möglichkeit H1 heißt die Alternativhypothese. Die Entscheidung zwischen den beiden Möglichkeiten (“Hypothesen”) ist auf Grund einer Beobachtung x ∈ M zu treffen. Da die Beobachtung x zwar eine statistische Information über den wahren Wert des Parameters ϑ enthält, so gut wie niemals aber eine vollständige Information hierüber liefert, ist klar: Jede Entscheidung birgt die Möglichkeit einer Fehlentscheidung in sich; prinzipiell bestehen zwei Möglichkeiten der Fehlentscheidung: Eine Fehlentscheidung erster Art, kurz: Fehler erster Art, liegt vor, wenn die Entscheidung für H1 erfolgt, in Wahrheit aber H0 gültig ist. Eine Fehlentscheidung zweiter Art, kurz: Fehler zweiter Art, liegt vor, wenn die Entscheidung für H0 erfolgt, in Wahrheit aber H1 gültig ist. 57 Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 7: Einführung in die mathematische Statistik 58 Die statistische Sichtweise erstreckt sich wieder globaler auf eine eine Entscheidungsregel, in diesem Kontext ein Test genannt: Ein Test ist eine (messbare) Funktion ¡ ¢ ϕ : (M, B) −→ {0, 1} , P({0, 1}) . Die mit dem Test ϕ verbundene Entscheidungsregel über das Testproblem H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 lautet : ½ Entscheidung für H0 ⇐⇒ ϕ(x) = 0 Wenn x ∈ M beobachtet, dann: Entscheidung für H1 ⇐⇒ ϕ(x) = 1 Definition 7.6 (Fehlerwahrscheinlichkeiten eines Tests) Sei ein Testproblem H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 gegeben. Für einen Test ϕ heißen die Wahrscheinlichkeiten: Pϑ ( ϕ = 1 ) für alle ϑ ∈ Θ0 : Fehlerwahrscheinlichkeiten erster Art des Tests ϕ, und Pϑ ( ϕ = 0 ) für alle ϑ ∈ Θ1 : Fehlerwahrscheinlichkeiten zweiter Art des Tests ϕ. Beispiel: Ein Binomialmodell Modell: X ∼ Bi(10, p) , p ∈ [ 0 , 1 ] der Parameter. Testproblem: H0 : p ≤ 0.6 gegen H1 : p > 0.6 ; hier ist also: Θ = [ 0 , 1 ] , Θ0 = [ 0 , 0.6 ] und Θ1 = ( 0.6 , 1] . Als Test nehmen wir zum Beispiel: ½ 1 , falls x ≥ 9 ϕ(x) = , für alle x ∈ {0, 1, . . . , 10} . 0 , falls x ≤ 8 Wir berechnen: µ ¶ µ ¶ 10 9 10 10 Pp ( ϕ = 1 ) = Pp ( {9, 10} ) = p (1 − p) + p = 10p9 − 9p10 . 9 10 Daraus erhalten wir mit Pp (ϕ = 0) = 1 − Pp (ϕ = 1) die Fehlerwahrscheinlichkeiten erster und zweiter Art des Tests (s. Abbildung). Pp (ϕ = 1) Fehlerw’keit 2. Art 1. Art p p Insbesondere sehen wir: Die Fehlerwahrscheinlichkeiten erster Art sind alle recht klein (maximal 0.046), während jene zweiter Art bis zu 1− 0.046 = 0.954 betragen können. Dieses Phänomen ist einigermaßen typisch: Wenn ein Test kleine Fehlerwahrscheinlichkeiten erster Art hat, dann geht das in der Regel auf Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 7: Einführung in die mathematische Statistik 59 Kosten seiner Fehlerwahrscheinlichkeiten zweiter Art (die dann groß werden können). Das allgemein verwendete Konzept der Signifikanztests (s. unten) erzwingt kleine Fehlerwahrscheinlichkeiten erster Art. Definition 7.7 (α-Signifikanztest) Sei ein Testproblem H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 gegeben, und sei ein α ∈ ( 0 , 1 ) gewählt (in der Regel klein, z. B. α = 0.05). Ein Test ϕ heißt ein α-Niveau-Signifikanztest, oder kürzer ein α-Signifikanztest, für das Testproblem, wenn seine Fehlerwahrscheinlichkeiten erster Art höchstens gleich α sind, d. h. Pϑ ( ϕ = 1 ) ≤ α für alle ϑ ∈ Θ0 . Interpretation eines α-Signifikanztests ϕ : Wenn auf Grund der Beobachtung x der Test ϕ den Wert 1 liefert, also ϕ(x) = 1, dann ist die Gültigkeit der Alternativhypothese H1 “statistisch” (zum Niveau α) nachgewiesen. Denn bei Gültigkeit der Nullhypothese H0 (kurz: unter H0 ) hätte ja das Ereignis { ϕ = 1 } eine Wahrscheinlichkeit von höchstens α (z. B. 5%), wäre also eher unwahrscheinlich. Nun ist dieses Ereignis eingetreten, was “signifikant” gegen H0 und damit für H1 spricht. Wenn hingegen auf Grund der Beobachtung x der Test ϕ den Wert 0 liefert, also ϕ(x) = 0, dann erfolgt die Entscheidung zwar für die Nullhypothese H0 – aber nicht dem Sinne, dass ihre Gültigkeit statistisch nachgewiesen wäre. Die Entscheidung fällt zwar für H0 , aber mit wenig Überzeugungskraft und eher durch Konvention (vergleichbar mit dem juristischen Prinzip: Im Zweifel für die [angeklagte] Nullhypothese). Man beachte daher: Ein α-Signifikanztest eignet sich nur zum statistischen Nachweis der Gültigkeit der Alternativhypothese H1 , nicht aber zum statistischen Nachweis der Nullhypothese H0 . Beispiel: Normalverteilungsmodell mit bekannter Varianz: Gauß-Tests Modell: X1 , . . . , Xn ∼ N(β, σ02 ) u.i.v. , β ∈ R der Parameter, σ0 > 0 fest. Interessant sind die folgenden drei Testprobleme: (TP1) H0 : β ≤ β0 gegen H1 : β > β0 , (TP2) H0 : β ≥ β0 gegen H1 : β < β0 , (TP3) H0 : β = β0 gegen H1 : β 6= β0 . Dabei ist jeweils β0 eine vorgegebene (also bekannte) reelle Zahl. (TP1) und (TP2) nennt man einseitige Testprobleme und (TP3) ein zweiseitiges Testproblem. Als “optimale” α-Signifikanztests für die genannten Testproblem (TP1), (TP2) und (TP3) ergeben sich die sog. Gauß-Tests. Dabei bezeichnet T (x) = √ x − β0 n , σ0 n x = 1X xi , n ∀ x = (x1 , . . . , xn ) ∈ Rn , i=1 sowie zp := Φ−1 (p) (das p-Quantil von N(0, 1) ) für p ∈ ( 0 , 1 ) . Gauß-Tests: ½ (TP1) H0 : β ≤ β0 gg. H1 : β > β0 ϕ1 (x) = (TP2) H0 : β ≥ β0 gg. H1 : β < β0 ϕ2 (x) = ½ 1 0 , falls T (x) > z ≤ 1−α 1 0 , falls T (x) < ≥ − z1−α Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010 Kapitel 7: Einführung in die mathematische Statistik 60 ½ (TP3) H0 : β = β0 gg. H1 : β 6= β0 ϕ3 (x) = 1 0 , falls |T (x)| > z α ≤ 1− 2 Bemerkung: P-Value-Darstellung der Gauß-Tests Eine andere (aber äquivalente) Darstellung der Gauß-Tests hat den Vorteil, dass sofort eine Übersicht über die Entscheidungen der Tests für verschiedene Festlegungen des Niveaus α erhalten wird. Z.B. für den Test ϕ1 für (TP1): Für x = (x1 , x2 , . . . , xn ) ∈ Rn sind äquivalent: ¡ ¢ ¡ ¢ ¡ ¢ T (x) > z1−α ⇐⇒ Φ T (x) > Φ z1−α ⇐⇒ 1 − Φ T (x) < α . | {z } = 1−α Wir können also den Test ϕ1 auch so darstellen: ½ ¡ ¢ < 1 ϕ1 (x) = , falls 1 − Φ T (x) α, 0 ≥ wobei T (x) = √ n x − β0 . σ0 ¡ ¢ Den Wert 1 − Φ T (x) nennt man den Probability-Value, kurz: P-Value, des Tests ϕ1 für (TP1) (zur Beobachtung x). Analog lässt sich der Test ϕ2 umschreiben zu: ½ ¡ ¢ < 1 ϕ2 (x) = , falls Φ T (x) α. 0 ≥ ¡ ¢ Den Wert Φ T (x) nennt man den P-Value des Test ϕ2 für (TP2) (zur Beobachtung x). Und schließlich für ϕ3 : ½ ³ ¡ ¢´ < 1 ϕ3 (x) = , falls 2 1 − Φ |T (x)| α. 0 ≥ ³ ¡ ¢´ Den Wert 2 1 − Φ |T (x)| nennt man den P-Value des Tests ϕ3 für (TP3) (zur Beobachtung x). Beispiel: Anwendung eines Gauß-Tests Oft soll ein quantitativer Effekt (z. B. einer Behandlungsmethode) statistisch untersucht werden. Dabei werden Beobachtungsdaten für die einzelnen Objekte/Individuen jeweils vor und nach der Behandlung erhoben. Es liegen also paarige Beobachtungen (yi , zi ) (i = 1, . . . , n) vor. Folgende Vorgehensweise ist dann verbreitet: Es werden die Differenzen xi := zi − yi (i = 1, . . . , n) gebildet und diese als Werte von n u.i.v. normal-(β,σ 2 )-verteilten Zufallsvariablen X1 , X2 , . . . , Xn aufgefasst. Hier setzten wir voraus, dass die Standardabweichung σ = σ0 bekannt ist. Soll nun statistisch nachgewiesen werden, dass die Behandlung einen positiven Effekt hat, so lässt sich dies als Testproblem (TP1) mit β0 = 0 formulieren: (TP1) H0 : β ≤ 0 gegen H1 : β > 0 . Zahlenbeispiel: Folgende Daten an n = 15 Objekten wurden in einer solchen Situation beobachtet. yi 415 zi 441 xi = zi − yi 26 507 389 677 490 423 698 −17 34 21 560 359 402 500 550 394 472 510 −10 35 70 10 461 534 451 581 −10 47 540 495 −45 390 457 576 460 421 424 580 490 31 −33 4 30 Es sei σ0 = 31.29 . Wir wollen zum 5%-Niveau testen (also α = 0.05): z0.95 = 1.645 ; wir berechnen: √ x = 12.87 ; T (x) = 15 x /σ0 = 1.59 . Der Test ϕ1 ergibt die Entscheidung ϕ1 (x) = 0. Die vorliegenden Daten ergeben somit zum 5%-Niveau keine ¢ Signifikanz für H1 : β > 0. Als P-Value des Tests (auf Grund der vorliegenden Daten) ergibt sich 1 − Φ( 1.59 = 0.056. Der Test ϕ1 würde also erst bei einem Niveau α > 0.056 (also z. B. zum 6%-Niveau) die Signifikanz von H1 : β > 0 liefern.