Einführung in die mathematische Statistik

Werbung
Kapitel 6
Einführung in die mathematische
Statistik
6.1
Statistische Modellierung
Bei der Modellierung eines Zufallsexperiments besteht oft Unsicherheit darüber, welche W-Verteilung
P auf dem Ergebnisraum (M, A) adäquat ist. Die statistische Modellierung trägt dem Rechnung
– innerhalb eines gewissen Rahmens. In einem (parametrischen) statistischen Modell werden einige
Parameter in das Verteilungsmodell aufgenommen, deren Werte offen gelassen werden, also unbekannt
sind.
Definition 6.1 (Statistisches Modell)
Ein (parametrisches) statistisches Modell ist ein Tripel
´
³
¡ ¢
M , A , Pϑ ϑ∈Θ ,
wobei (M, A) ein Messraum und (Pϑ )ϑ∈Θ eine Familie von W-Verteilungen auf (M, A) ist.
Beispiele
(1) Binomialmodelle
n
¡
¢
N
(a) M = {0, 1}n , A = P {0, 1}n , Pp =
Bi(1, p) , p ∈ [ 0 , 1 ] der Parameter.
i=1
¡
¢
(b) M = {0, 1, . . . , n} , A = P {0, 1, . . . , n} , Pp = Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter.
(2) Poisson-Modell
n
¡ ¢
N
Poi(λ) , λ ∈ ( 0 , ∞) der Parameter.
M = Nn0 , A = P Nn0 , Pλ =
i=1
(3) Normalverteilungsmodell
M = Rn , A = Bn , Pβ,σ =
n
N
N(β, σ 2 ) , (β, σ) ∈ R × ( 0 , ∞) der Parameter.
i=1
(4) Exponentialverteilungsmodell
n
N
M = Rn , A = Bn , Pλ =
Exp(λ) , λ ∈ ( 0 , ∞) der Parameter.
i=1
44
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13
Kapitel 6: Einführung in die mathematische Statistik
Bemerkung: Modellformulierung mit Zufallsvariablen
Im Hintergrund seien ein Messraum (Ω, C) mit einer Familie von W-Verteilungen (Pϑ )ϑ∈Θ auf (Ω, C)
vorhanden sowie eine Zufallsvariable X : Ω −→ M . Die Verteilungsfamilie im statistischen Modell von Definition 6.1 ist die Familie der Verteilungen der Zufallsvariablen X unter den diversen Pϑ
(ϑ ∈ Θ) : Pϑ = PX
∀ ϑ ∈ Θ.
ϑ
Zum Beispiel:
n
N
Binomialmodell (a) : X = (X1 , . . . , Xn ) ∼
Bi(1, p) , p ∈ [ 0 , 1 ] der Parameter.
i=1
Man formuliert das Modell auch so: X1 , . . . , Xn u.i.v. ∼ Bi(1, p) , p ∈ [ 0 , 1 ] der Parameter.
Binomialmodell (b) : X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter.
Normalverteilungsmodell : X1 , . . . , Xn u.i.v. ∼ N(β, σ 2 ) , (β, σ) ∈ R × ( 0 , ∞) der Parameter,
(man spricht auch von den Parametern β und σ).
6.2
Maximum-Likelihood-Schätzung
Das zu Grunde gelegte statistische Modell gibt die Möglichkeit für eine modellbasierte Datenanalyse:
Aus dem Ergebnis x des Zufallsexperiments (den “Beobachtungsdaten”) sollen Rückschlüsse über den
wahren Wert des Parameters ϑ gezogen werden. Vereinfacht gesagt ist das deshalb möglich, weil das
beobachtete Ergebnis x unter den verschiedenen prinzipiell möglichen Parameterwerten ϑ ∈ Θ verschiedene Wahrscheinlichkeiten besitzt.
Beispiel: Binomialmodell
X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter, für ein gegebenes n ∈ N. Angenommen, wir haben einen
konkreten Wert x ∈ { 0, 1, . . . , n } als Ergebnis erhalten. Jetzt betrachten wir die Wahrscheinlichkeiten, die dieses Ereignis (also das Ergebnis x) für alle möglichen Parameterwerte p besitzt, d. h. wir
betrachten die sog. Likelihood-Funktion
µ ¶
n x
[ 0 , 1 ] 3 p 7−→ Lx (p) := Pp (x) =
p (1 − p)n−x .
x
Maximum-Likelihood-Schätzung: Als Schätzung für p wird die Maximumstelle der Likelihood-Funktion
genommen. Dieses Konzept wird in den folgenden Definitionen allgemeiner formuliert für die beiden
wichtigsten Situationen:
(a) Diskretes Modell ; (b) Modell mit Lebesgue-stetigen Verteilungen .
Definition 6.2 (Likelihood-Funktion)
³
´
¡ ¢
Gegeben sei ein statistisches Modell M , A , Pϑ ϑ∈Θ .
Fall (a) Sei M abzählbar und A = P(M ) . Für gegebenes x ∈ M heißt die Funktion
Lx : Θ −→ [ 0 , 1 ] ,
Lx (ϑ) := Pϑ (x) , ϑ ∈ Θ .
die Likelihood-Funktion (zu x).
Fall (b) Sei (M, A) = (Rn , Bn ) , und für jedes ϑ besitze Pϑ die Lebesgue-Dichte fϑ .
Für gegebenes x ∈ Rn heißt die Funktion
Lx : Θ −→ [ 0 , ∞) ,
die Likelihood-Funktion (zu x).
Lx (ϑ) := fϑ (x) , ϑ ∈ Θ .
45
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13
Kapitel 6: Einführung in die mathematische Statistik
46
Definition 6.3 (Maximum-Likelihood-Schätzung)
In jedem der beiden Fälle von Definition 6.2 definiert man für ein gegebenes x ∈ M :
b
Eine Maximum-Likelihood-Schätzung (ML-Schätzung) für ϑ (zu x) ist ein Parameterwert ϑ(x)
∈ Θ mit
¡
¢
b
Lx ϑ(x)
= max Lx (ϑ) .
ϑ∈Θ
Bemerkung: Log-Likelihood-Funktion
Da Lx (ϑ) ∈ [ 0 , ∞) ∀ ϑ ∈ Θ, können wir die Log-Likelihood-Funktion bilden:
`x (ϑ) := ln Lx (ϑ) ,
ϑ ∈ Θ,
b
wobei definiert sei: ln(0) := −∞ . Eine ML-Schätzung ϑ(x)
ist dann äquivalent charakterisiert durch
¡
¢
b
`x ϑ(x)
= max `x (ϑ) .
ϑ∈Θ
Beispiel: Binomialmodell
X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter.
Likelihood-Funktion bzw. Log-likelihood-Funktion zur Beobachtung x ∈ {0, 1, . . . , n} :
µ ¶
n x
Lx (p) =
p (1 − p)n−x ,
x
µ ¶
n
`x (p) = ln
+ x ln(p) + (n − x) ln(1 − p) .
x
Eine “Kurvendiskussion” der Funktionen Lx (p) oder `x (p) , p ∈ [ 0 , 1 ] liefert als Maximumstelle,
d.h. als ML-Schätzung für p :
x
pb(x) =
.
n
Beispiel: Poisson-Modell
X1 , X2 , . . . , Xn u.i.v. ∼ Poi(λ) , und λ ∈ ( 0 , ∞) ist der Parameter. Zur Beobachtung
x = (x1 , x2 , . . . , xn ) ∈ Nn0 haben wir die Likelihood-Funktion bzw. die Log-Likelihood-Funktion:
Pn
λ i=1 x1
Lx (λ) = e
,
x1 ! x2 ! · · · xn !
³P
´
n
¡
¢
`x (λ) = −nλ +
xi ln(λ) − ln x1 ! x2 ! · · · xn ! .
−nλ
i=1
Eine “Kurvendiskussion” liefert als ML-Schätzung für λ :
n
1 X
b
xi .
λ(x) = x =
n
i=1
b
Die extreme Beobachtung x = 0 (d.h. alle xi = 0) ist – streng gesehen – dabei auszunehmen, da λ(0)
= 0 nicht
im Parameterbereich ( 0 , ∞) liegt.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13
Kapitel 6: Einführung in die mathematische Statistik
47
Beispiel: Normalverteilungsmodell
X1 , X2 , . . . , Xn u.i.v. ∼ N (β, σ 2 ) , der Parameter ist (β, σ) ∈ R × ( 0 , ∞) , (n ≥ 2 gegeben).
Die Likelihood-Funktion zur Beobachtung x = (x1 , x2 , . . . , xn ) ∈ Rn :
Als ML-Schätzung
¡
Lx (β, σ)
=
`x (β, σ)
=
b
β(x),
σ
b(x)
¢
´
³ 1 P
n
(2π)−n/2 σ −n exp − 2 (xi − β)2 ,
2σ i=1
n
n
1 P
− ln(2π) − n ln(σ) −
(xi − β)2 .
2
2σ 2 i=1
ergibt sich:
b
β(x)
= x =
1
n
n
P
i=1
s
xi
und σ
b(x) =
1
n
n
P
(xi − x)2 .
i=1
Im Fall, dass die Beobachtungswerte x1 , x2 , . . . , xn alle gleich sind, also x1 = x2 = . . . = xn gilt, erhalten wir
σ
b(x) = 0. Das ist streng genommen kein zulässiger Schätzwert für σ > 0. Dieser Fall hat Wahrscheinlichkeit
Null unter jeder W-Verteilung des Modells und wird daher praktisch nicht auftreten (sofern das Modell zutrifft).
6.3
Lineare Regression
Wir beschränken uns auf das einfachste lineare Regressionsmodel: Die Regressionsgerade.
Eine reelle Zielgröße y hänge von einer reellen Einflussgröße t ab: y = y(t) , (z. B. Umsatz y eines
Produkts in Abhängigkeit vom Werbeaufwand t). In erster Näherung wird davon ausgegangen, dass
y eine lineare Funktion von t ist, d. h.
y(t) = a t + c
(Regressionsgerade)
für alle möglichen Werte t innerhalb eines gewissen Bereichs (in der Regel ein Intervall), wobei a und
c reelle Konstanten sind, die aber unbekannt sind. Es liegen nun Beobachtungsdaten vor:
(t1 , y1 ) , (t2 , y2 ) , . . . , (tn , yn ) ;
(z. B. wurde in n Zeitperioden jeweils der Umsatz yi bei einem Werbeaufwand ti beobachtet).
Die yi -Werte hängen von den jeweiligen ti -Werten ab, aber außerdem noch von unkontrollierbaren
“Zufallseinflüssen”. Daher wird die folgende statistische Sichtweise in das Modell eingebracht:
Die beobachteten Werte y1 , y2 , . . . , yn sind Werte von reellen Zufallsvariablen Y1 , Y2 , . . . , Yn mit:
¡
¢
Yi ∼ N y(ti ), σ 2 ∀ i = 1, . . . , n , und Y1 , . . . , Yn stoch. unabhängig.
Die Parameter im Modell sind a, c ∈ R und σ > 0.
Beachte: Nur die beobachteten Werte y1 , y2 , . . . , yn werden hier als Werte von Zufallsvariablen behandelt, nicht aber die beobachteten Werte t1 , t2 , . . . , tn . Letztere werden als bekannte Konstanten
gesehen (sie unterliegen keinen Zufallseinflüssen).
Wir haben daher das statistische Modell (Normalverteilungsmodell der Regressionsgeraden):
³
´
¡
¢
Rn , Bn , Pa,c,σ (a,c,σ)∈R2 ×(0,∞) ,
mit Pa,c,σ :=
n
¡
¢
N
N ati + c , σ 2 .
i=1
Die Log-Likelihood-Funktion zur Beobachtung y = (y1 , y2 , . . . , yn ) ∈ Rn lautet:
n
¢2
n
1 X¡
`y (a, c, σ) = − ln(2π) − n ln(σ) −
yi − (ati + c) .
2
2
2σ
i=1
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13
Kapitel 6: Einführung in die mathematische Statistik
48
Die Maximierung ergibt die folgende ML-Schätzung ; dabei wird vorausgesetzt: Die Werte t1 , . . . , tn
sind nicht alle identisch.
ML-Schätzung im Normalverteilungsmodell der Regressionsgeraden
n
P
b
a(y) =
(ti − t) (yi − y)
i=1
n
P
q
,
b
c(y) = y − b
a(y) t ,
σ
b(y) =
(ti − t)2
1
n
RSS(y) ,
i=1
wobei:
Anmerkung:
t =
1
n
n
P
i=1
ti ,
y =
1
n
n
P
i=1
yi ,
RSS(y) =
n ³
P
i=1
£
¤ ´2
yi − b
a(y) ti + b
c(y)
.
Bezeichnung “RSS” von engl. Residual Sum of Squares.
Bemerkung: Methode der Kleinsten Quadrate (engl.: Least Squares)
Die ML-Schätzungen b
a(y) und b
c(y) sind auch die Lösung des Minimierungsproblems
n ³
X
yi − (a ti + c)
´2
−→ min !
a,c ∈R
i=1
Es wird also diejenige Gerade y(t) = a t + c den Datenpunkten (t1 , y1 ) , (t2 , y2 ) , . . . , (tn , yn ) angepasst, welche im Sinne der Summe der Abweichungsquadrate,
n
X
¡
yi − y(ti )
¢2
,
i=1
die geringste Abweichung von den Datenpunkten liefert. Die schließlich verbleibende minimale Abweichungsquadratsumme ist die Residual Sum of Squares RSS(y) .
6.4
Statistische Theorie der Schätzer
Gegeben sei ein statistisches Modell:
³
´
¡ ¢
M , A , Pϑ ϑ∈Θ .
b
Eine Parameterschätzung ϑ(x)
ist – wegen des zufälligen Charakters der Beobachtungsdaten x –
b
zwangsläufig fehlerbehaftet. Die Beobachtung x, die der Schätzung ϑ(x)
unterliegt, hätte (im Rahmen
des Verteilungsmodells) auch anders sein können. Deshalb wird die Schätzung zufallsbedingt mehr
oder weniger vom wahren Wert des Parameters ϑ abweichen.
Die statistische Theorie betrachtet das Verhalten von Schätzungen im statistischen Mittel und beschäftigt
b
sich daher mit Schätzfunktionen M 3 x 7−→ ϑ(x)
; eine solche Funktion nennt man einen Schätzer
für ϑ. Ein Schätzer ϑb ist insbesondere eine Zufallsvariable auf M (Messbarkeit vorausgesetzt). Wir beschränken uns auf reellwertige Schätzer, etwa für eine Komponente von ϑ (wenn ϑ mehrdimensional)
oder auch für eine Transformation eines ein-dimensionalen Parameters (z.B. Schätzer für 1/λ im Exponentialverteilungsmodell mit Parameter λ). Allgemeiner:
Definition 6.4 (Schätzer für einen reellen Parameter)
Sei γ : Θ −→ R gegeben. Eine messbare (bezgl. der Sigma-Algebren A und B1 ) Funktion γ
b : M −→ R
heißt ein Schätzer für γ(ϑ).
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13
Kapitel 6: Einführung in die mathematische Statistik
49
Eine attraktive Klasse von Schätzern für γ(ϑ) bilden die erwartungstreuen Schätzer (engl. unbiased
estimators).
Definition 6.5 (Erwartungstreuer Schätzer)
Ein Schätzer γ
b für γ(ϑ) heißt erwartungstreu oder unverzerrt (engl. unbiased), wenn gilt:
γ
b ist Pϑ -integrierbar und
Eϑ ( γ
b) = γ(ϑ)
für jedes ϑ ∈ Θ.
Z
γ
b dPϑ
Dabei bezeichnet Eϑ ( γ
b) =
∀ ϑ ∈ Θ.
M
Beispiele: Erwartungstreue Schätzer
(1) Binomialmodell X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter.
Der ML-Schätzer pb(x) = x/n , x ∈ {0, 1, . . . , n} , ist ein erwartungstreuer Schätzer für p.
Anmerkung: Dieser Schätzer ist auch der einzige erwartungstreue Schätzer für p.
(2) Exponentialverteilungsmodell: X1 , . . . , Xn u.i.v. ∼ Exp(λ) , λ ∈ ( 0 , ∞) .
γ
b(x1 , . . . , xn ) = x ist ein erwartungstreuer Schätzer für γ(λ) := 1/λ .
(3) Normalverteilungsmodell: X1 , . . . , Xn u.i.v. ∼ N(β, σ 2 ) , (β, σ) ∈ R ×( 0 , ∞) .
b 1 , . . . , xn ) = x ist ein erwartungstreuer Schätzer für β ;
β(x
n
1 P
s2 (x1 , . . . , xn ) = n−1
(xi − x)2 ist ein erwartungstreuer Schätzer für σ 2 , (n ≥ 2 vorausgesetzt).
i=1
(4) Normalverteilungsmodell der Regressionsgeraden (Abschnitt 6.3):
Die Schätzer b
a und b
c sind erwartungstreue Schätzer für a bzw. c ;
1
2
der Schätzer S := n−2
RSS ist ein erwartungstreuer Schätzer für σ 2 , (n ≥ 3 vorausgesetzt).
Die mittlere quadratische Abweichung der Schätzungen γ
b(x) , (x ∈ M ) , vom zu schätzenden Parameter
γ(ϑ) im Falle eines erwartungstreuen Schätzers γ
b ist die Varianz von γ
b, die i.A. eine Funktion des
Modellparameters ϑ ∈ Θ ist:
Z
¡
¢2
γ
b(x) − γ(ϑ) dPϑ (x) ∀ ϑ ∈ Θ .
Varϑ (b
γ) =
M
Beispiel: Binomialmodell
X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter. Betrachte den erwartungstreuen Schätzer pb(x) = x/n
∀ x ∈ {0, 1, . . . , n} . Wir erhalten für die Varianz:
Varp ( pb ) = Varp
6.5
³1
n
´
X
=
1
1
p(1 − p)
Var(X) = 2 n p (1 − p) =
.
2
n
n
n
Intervallschätzer und Konfidenzintervalle
Wir gehen wieder von einem statistischen Modell aus:
³
´
¡ ¢
M , A , Pϑ ϑ∈Θ ,
und das Interesse gelte einem reellen Parameter γ(ϑ); es sei also eine Funktion γ : Θ −→ R gegeben.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13
Kapitel 6: Einführung in die mathematische Statistik
50
Eine Intervallschätzung für γ(ϑ) auf Grund von x ∈ M ist ein Intervall
£
¤
b
I(x)
= γ
b1 (x) , γ
b2 (x) ,
b
mit geeigneten reellen γ
b1 (x) ≤ γ
b2 (x) . Die Intervallschätzung I(x)
soll eine Interpretation dahingehend gestatten, dass der wahre Wert γ(ϑ) mit großer Wahrscheinlichkeit in diesem Intervall liegt1 ,
z.B. mit Wahrscheinlichkeit von mindestens 95 %. Dies zu präzisieren erfordert wieder die statistische
Sichtweise: Ein Intervallschätzer für γ(ϑ) ist eine Intervall-wertige Funktion Ib auf M der Form
£
¤
b
M 3 x 7−→ I(x)
= γ
b1 (x) , γ
b2 (x) ,
mit zwei messbaren (bezgl. A und B1 ) Funktionen γ
bi : M −→ R , i = 1, 2, γ
b1 ≤ γ
b2 .
£
¤
b
Wir schreiben dann I = γ
b1 , γ
b2 .
Definition 6.6 (Überdeckungswahrscheinlichkeiten, (1 − α)-Konfidenzintervall)
£
¤
Sei Ib = γ
b1 , γ
b2 ein Intervallschätzer für γ(ϑ). Die Wahrscheinlichkeiten
¢
¡
für ϑ ∈ Θ
b1 ≤ γ(ϑ) ≤ γ
b2
Pϑ γ
b
heißen die Überdeckungswahrscheinlichkeiten des Intervallschätzers I.
³©
¡
¢
ª´
Dabei bedeutet natürlich: Pϑ γ
b1 ≤ γ(ϑ) ≤ γ
b2 = Pϑ x ∈ M : γ
b1 (x) ≤ γ(ϑ) ≤ γ
b2 (x)
.
Wenn zu einem gegebenen α ∈ ( 0 , 1 ) (i.d.R. klein, z.B. α = 0.05) die Überdeckungswahrscheinlichkeiten
von Ib alle (d.h. ∀ ϑ ∈ Θ) mindestens 1 − α sind, dann heißt Ib ein (1 − α)-Konfidenzintervall für γ(ϑ).
Interpretation eines (1 − α)-Konfidenzintervalls:
¤
£
Die Bedingung, dass Ib = γ
b1 , γ
b2 ein (1 − α)-Konfidenzintervall ist (z.B. ein 95 % -Konfidenzintervall,
wenn α = 0.05), beinhaltet ja insbesondere, dass auch für den wahren Wert ϑ des Modellparameters
die Überdeckungswahrscheinlichkeit mindestens 1 − α ist, d.h. das Ereignis
n
o
x∈M : γ
b1 (x) ≤ γ(ϑ) ≤ γ
b2 (x)
hat eine Wahrscheinlichkeit ≥ 1−α (also z.B. ≥ 0.95). Deshalb können wir sozusagen (1−α)·100 % -ig
(z.B. 95 % -ig) darauf vertrauen, dass ein zufällig realisiertes x ∈ M in dieser Menge liegt und daher
£
¤
b
das (konkrete) Intervall I(x)
= γ1 (x) , γ
b2 (x) zur Beobachtung x den wahren Wert γ(ϑ) enthält.
Ein (1 − α)-Konfidenzintervall ist in diesem Sinne also in der Tat ein (1 − α)-Vertrauensintervall.
Anmerkung: Die Sprechweise, (für eine konkrete Beobachtung x) ,
b
”die Wahrscheinlichkeit, dass γ(ϑ) im Intervall I(x)
=
£
¤
γ
b1 (x) , γ
b2 (x) liegt”
macht mathematisch keinen Sinn. Denn γ
b1 (x) und γ
b2 (x) sind konkrete Werte, z.B. die Werte 2.3 und 5.7.
Was aber sollte die Wahrscheinlichkeit für γ(ϑ) ∈ [ 2.3 , 5.7 ] sein ? Diese existiert nicht, da ja γ(ϑ) keine
Zufallsvariable, sondern eine unbekannte Konstante ist.
1
das ist allerdings wörtlich genommen – für eine konkrete Beobachtung x – so nicht möglich; die Interpretation
erfordert wieder eine statistische Sichtweise, s. nachfolgende Ausführungen.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13
Kapitel 6: Einführung in die mathematische Statistik
51
Beispiel: Normalverteilungsmodell mit bekannter Varianz
Seien X1 , X2 , . . . , Xn u.i.v. ∼ N(β, σ02 ) , wobei β ∈ R der Parameter ist; die Varianz σ02 soll hier
bekannt, also kein Parameter sein. Ein (1−α)-Konfidenzintervall für β (hier also γ(β) = β) ist gegeben
durch:
h
σ0
σ0 i
b
I(x)
= x − q1− α2 √ , x + q1− α2 √
, x = (x1 , . . . , xn ) ∈ Rn ,
n
n
¡
¢
wobei q1− α2 := Φ−1 1 − α2 das sog. (1 − α2 )-Quantil der Standard-Normalverteilung ist.
Zahlenbeispiel: Für n = 10 und σ0 = 0.23 ergaben die Daten x = (x1 , x2 , . . . , x10 ) : x = 2.57 .
Wir berechnen das 95%-Konfidenzintervall für β:
α = 0.05, 1 − α2 = 0.975, q0.975 = 1.96 ; damit:
b
I(x)
=
£
£
¤
0.23
0.23 ¤
2.57 − 1.96 · √ , 2.57 + 1.96 · √
= 2.43 , 2.71 .
10
10
Wir berechnen auch das 99%-Konfidenzintervall für β, (jetzt also α = 0.01) : Wir haben 1 −
q0.995 = 2.58 , und analoge Rechnung wie oben ergibt:
£
¤
b
I(x)
= 2.38 , 2.76
(99%-Konfidenzintervall für β) ,
α
2
= 0.995 ;
das natürlich breiter als das 95%-Konfidenzintervall ist.
Beispiel: Binomialmodell
Modell: X ∼ Bi(n, p) , p ∈ ( 0 , 1 ) der Parameter.Wir fragen nach einem (1 − α)-Konfidenzintervall
für p (hier also: γ(p) = p). Die Konstruktion eines solchen Konfidenzintervalls ist möglich, aber relativ
kompliziert. Wir beschränken uns auf die Herleitung eines approximativen (1 − α)-Konfidenzintervalls
für p, das auf der Asymptotik (n → ∞) und dem Zentralen Grenzwertsatz beruht. Für größere Werte
von n, (sagen wir n ≥ 20), ist dies als eine gute Näherung anzusehen.
Aus dem CLT erhält man für großes n :
√
approx.
pb − p
∼
N(0, 1) ,
np
Unter Pp :
pb(1 − pb)
´
³
Mit q1− α2 := Φ−1 1 − α2 daher:
wobei pb(x) =
´
³
√
pb − p
≤ q1− α2 ≈ 1 − α
Pp −q1− α2 ≤ n p
pb(1 − pb)
x
∀ x ∈ {0, 1, . . . , n} .
n
∀ p ∈ (0, 1) ,
oder äquivalent umgeformt:
¡
¢
wobei:
Pp pb1 ≤ p ≤ pb2 ≈ 1 − α ∀ p ∈ ( 0 , 1 ) ,
r
r
pb(1 − pb)
pb(1 − pb)
pb1 = pb − q1− α2
und pb2 = pb + q1− α2
.
n
n
Also haben wir mit
h
i
Ib = pb1 , pb2
ein approximatives (1 − α)-Konfidenzintervall für den Parameter p.
Zahlenbeispiel:
Für n = 20 hat sich die Beobachtung x = 17 ergeben. Wir berechnen:
s
r
¡
¢
pb(x) 1 − pb(x)
17
0.85 · 0.15
pb(x) =
= 0.85 und
=
= 0.08 .
20
20
20
Das approximative 95%-Konfidenzintervall für den Parameter p ist daher (mit q0.975 = 1.96 ):
h
i
£
¤
b
I(x)
= 0.85 − 1.96 · 0.08 , 0.85 + 1.96 · 0.08 = 0.69 , 1.01 ,
was natürlich als Intervall [ 0.69 , 1 ) zu lesen ist.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13
Kapitel 6: Einführung in die mathematische Statistik
6.6
52
Testprobleme und Signifikanztests
Gegeben sei wieder ein statistisches Modell:
³
´
¡ ¢
M , A , Pϑ ϑ∈Θ .
Unter einem Testproblem versteht man eine Zerlegung des Parameterbereichs Θ in zwei disjunkte,
nicht-leere Teilmengen Θ0 und Θ1 :
Θ = Θ0 ∪ Θ1 ,
(Θ0 6= ∅ , Θ1 6= ∅ , Θ0 ∩ Θ1 = ∅ ) .
Damit verbunden ist die statistische Fragestellung, ob der wahre Wert des Parameters ϑ in der Teilmenge Θ0 oder in der (komplementären) Teilmenge Θ1 liegt. Als Schreibweise für diese Fragestellung
(eigentliches “Testproblem”) ist gebräuchlich:
H0 : ϑ ∈ Θ 0
gegen H1 : ϑ ∈ Θ1 ;
die mit H0 bezeichnete Möglichkeit nennt man die Nullhypothese und die alternative Möglichkeit H1
heißt die Alternativhypothese. Die Entscheidung zwischen den beiden Möglichkeiten (“Hypothesen”)
ist auf Grund einer Beobachtung x ∈ M zu treffen. Da die Beobachtung x zwar eine statistische
Information über den wahren Wert des Parameters ϑ enthält, so gut wie niemals aber eine vollständige
Information hierüber liefert, ist klar: Jede Entscheidung birgt die Möglichkeit einer Fehlentscheidung
in sich; prinzipiell bestehen zwei Möglichkeiten der Fehlentscheidung:
Eine Fehlentscheidung erster Art, kurz: Fehler erster Art, liegt vor, wenn die Entscheidung für
H1 erfolgt, in Wahrheit aber H0 gültig ist.
Eine Fehlentscheidung zweiter Art, kurz: Fehler zweiter Art, liegt vor, wenn die Entscheidung
für H0 erfolgt, in Wahrheit aber H1 gültig ist.
Die statistische Sichtweise erstreckt sich wieder globaler auf eine eine Entscheidungsregel, in diesem
Kontext ein Test genannt:
¡
¢
Ein Test ist eine messbare (bezgl. A und P {0, 1} ) Funktion
ϕ : M −→ {0, 1} .
Ein Test ϕ ergibt eine Entscheidungsregel über das Testproblem H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 :
½
Auf Grund der Beobachtung x ∈ M :
Entscheidung für H0 , wenn ϕ(x) = 0
Entscheidung für H1 , wenn ϕ(x) = 1
Definition 6.7 (Fehlerwahrscheinlichkeiten eines Tests)
Sei ein Testproblem H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 gegeben.
Für einen Test ϕ heißen die Wahrscheinlichkeiten
Pϑ ( ϕ = 1 )
für alle ϑ ∈ Θ0 :
Fehlerwahrscheinlichkeiten erster Art des Tests ϕ, und
Pϑ ( ϕ = 0 )
für alle ϑ ∈ Θ1 :
Fehlerwahrscheinlichkeiten zweiter Art des Tests ϕ.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13
Kapitel 6: Einführung in die mathematische Statistik
53
Beispiel: Ein Binomialmodell
Modell: X ∼ Bi(10, p) , p ∈ [ 0 , 1 ] der Parameter. Testproblem:
H0 : p ≤ 0.6
gegen H1 : p > 0.6 ;
hier ist also: Θ = [ 0 , 1 ] , Θ0 = [ 0 , 0.6 ] und Θ1 = ( 0.6 , 1] . Betrachte den Test:
½
1 , falls x ≥ 9
ϕ(x) =
, für alle x ∈ {0, 1, . . . , 10} .
0 , falls x ≤ 8
Wir berechnen:
µ ¶
µ ¶
10 9
10 10
Pp ( ϕ = 1 ) = Pp ( {9, 10} ) =
p (1 − p) +
p = 10p9 − 9p10 .
9
10
Daraus erhalten wir mit Pp (ϕ = 0) = 1 − Pp (ϕ = 1) die Fehlerwahrscheinlichkeiten erster und
zweiter Art des Tests (s. Abbildung).
Pp (ϕ = 1)
Fehlerw’keit
2. Art
1. Art
p
p
Insbesondere sehen wir: Die Fehlerwahrscheinlichkeiten erster Art sind alle recht klein (maximal 0.046),
während jene zweiter Art bis zu 1− 0.046 = 0.954 betragen können. Dieses Phänomen ist einigermaßen
typisch: Wenn ein Test kleine Fehlerwahrscheinlichkeiten erster Art hat, dann geht das in der Regel auf
Kosten seiner Fehlerwahrscheinlichkeiten zweiter Art (die dann groß werden können). Das allgemein
verwendete Konzept der Signifikanztests (s. unten) erzwingt kleine Fehlerwahrscheinlichkeiten erster
Art.
Definition 6.8 (α-Signifikanztest)
Sei ein Testproblem H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 gegeben, und sei ein α ∈ ( 0 , 1 ) gewählt
(in der Regel klein, z. B. α = 0.05). Ein Test ϕ heißt ein α-Niveau-Signifikanztest, oder kürzer ein
α-Signifikanztest, für das Testproblem, wenn seine Fehlerwahrscheinlichkeiten erster Art höchstens
gleich α sind, d. h.
Pϑ ( ϕ = 1 ) ≤ α für alle ϑ ∈ Θ0 .
Interpretation eines α-Signifikanztests ϕ :
Wenn auf Grund der Beobachtung x der Test ϕ den Wert 1 liefert, also ϕ(x) = 1, dann ist die
Gültigkeit der Alternativhypothese H1 “statistisch” (zum Niveau α) nachgewiesen. Denn bei Gültigkeit
der Nullhypothese H0 (kurz: unter H0 ) hätte ja das Ereignis { ϕ = 1 } eine Wahrscheinlichkeit von
höchstens α (z. B. 5%), wäre also eher unwahrscheinlich. Nun ist dieses Ereignis eingetreten, was
“signifikant” gegen H0 und damit für H1 spricht.
Wenn hingegen auf Grund der Beobachtung x der Test ϕ den Wert 0 liefert, also ϕ(x) = 0, dann
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13
Kapitel 6: Einführung in die mathematische Statistik
54
erfolgt die Entscheidung zwar für die Nullhypothese H0 – aber nicht dem Sinne, dass ihre Gültigkeit
statistisch nachgewiesen wäre. Die Entscheidung fällt zwar für H0 , aber mit wenig Überzeugungskraft
und eher durch Konvention (vergleichbar mit dem juristischen Prinzip: Im Zweifel für die [angeklagte]
Nullhypothese).
Man beachte daher: Ein α-Signifikanztest eignet sich nur zum statistischen Nachweis der Gültigkeit
der Alternativhypothese H1 , nicht aber zum statistischen Nachweis der Nullhypothese H0 .
Beispiel: Normalverteilungsmodell mit bekannter Varianz: Gauß-Tests
Modell: X1 , . . . , Xn u.i.v. ∼ N(β, σ02 ) , β ∈ R der Parameter, σ0 > 0 fest. Interessant sind die
folgenden drei Testprobleme:
(TP1)
H0 : β ≤ β0
gegen H1 : β > β0 ,
(TP2)
H0 : β ≥ β0
gegen H1 : β < β0 ,
(TP3)
H0 : β = β0
gegen H1 : β 6= β0 .
Dabei ist jeweils β0 eine vorgegebene (also bekannte) reelle Zahl. (TP1) und (TP2) nennt man einseitige
Testprobleme und (TP3) ein zweiseitiges Testproblem.
Als “optimale” α-Signifikanztests für die genannten Testprobleme (TP1), (TP2) und (TP3) ergeben
sich die sog. Gauß-Tests. Bezeichne
n
x =
1X
xi ,
n
T (x) =
i=1
√ x − β0
n
,
σ0
∀ x = (x1 , . . . , xn ) ∈ Rn ,
sowie qp := Φ−1 (p) (das p-Quantil von N(0, 1) ) für p ∈ ( 0 , 1 ) .
Gauß-Tests:
(TP1)
H0 : β ≤ β0
½
gg.
H1 : β > β0
ϕ1 (x) =
½
(TP2)
H0 : β ≥ β0
gg.
H1 : β < β0
ϕ2 (x) =
½
(TP3)
H0 : β = β0
gg.
H1 : β 6= β0
ϕ3 (x) =
1
0
, falls T (x)
>
q
≤ 1−α
1
0
, falls T (x)
<
≥
1
0
, falls |T (x)|
− q1−α
>
q α
≤ 1− 2
Bemerkung: P-Value-Darstellung der Gauß-Tests
Eine andere (aber äquivalente) Darstellung der Gauß-Tests hat den Vorteil, dass sofort eine Übersicht über die
Entscheidungen der Tests für verschiedene Festlegungen des Niveaus α erhalten wird.
½
ϕ1 (x) =
¡
¢ <
, falls 1 − Φ T (x)
α
≥
1
0
;
¡
¢
den Wert 1 − Φ T (x) nennt man den Probability-Value, kurz: P-Value, (zur Beobachtung x) der Gauß-Tests
für (TP1).
½
ϕ2 (x) =
1
0
¡
¢ <
, falls Φ T (x)
α;
≥
¡
¢
den Wert Φ T (x) nennt man den P-Value (zur Beobachtung x) der Gauß-Tests für (TP2).
½
ϕ3 (x) =
1
0
³
¡
¢´ <
, falls 2 1 − Φ |T (x)|
α;
≥
³
¡
¢´
den Wert 2 1 − Φ |T (x)|
nennt man den P-Value (zur Beobachtung x) der Gauß-Tests für (TP3) .
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Wintersemester 2012/13
Kapitel 6: Einführung in die mathematische Statistik
55
Beispiel: Anwendung eines Gauß-Tests
Oft soll ein quantitativer Effekt (z. B. einer Behandlungsmethode) statistisch untersucht werden. Dabei
werden Beobachtungsdaten für die einzelnen Objekte/Individuen jeweils vor und nach der Behandlung
erhoben. Es liegen also paarige Beobachtungen (yi , zi ) ∈ R2 (i = 1, . . . , n) vor.
Folgende Vorgehensweise ist dann verbreitet: Es werden die Differenzen xi := zi − yi (i = 1, . . . , n)
gebildet und diese als Werte von n u.i.v. normal-(β,σ 2 )-verteilten Zufallsvariablen X1 , X2 , . . . , Xn
aufgefasst. Hier setzten wir voraus, dass die Standardabweichung σ = σ0 bekannt ist. Soll nun statistisch nachgewiesen werden, dass die Behandlung einen positiven Effekt hat, so lässt sich dies als
Testproblem (TP1) mit β0 = 0 formulieren:
(TP1)
H0 : β ≤ 0 gegen H1 : β > 0 .
Zahlenbeispiel:
Folgende Daten an n = 15 Objekten wurden in einer solchen Situation beobachtet.
yi
415
zi
441
xi = zi − yi 26
507 389 677
490 423 698
−17 34 21
560 359 402 500
550 394 472 510
−10 35 70 10
461 534
451 581
−10 47
540
495
−45
390 457 576 460
421 424 580 490
31 −33
4 30
Es sei σ0 = 31.29 . Wir wollen zum 5%-Niveau testen (also α = 0.05): q0.95 = 1.645 ; wir berechnen:
√
x = 12.87 ; T (x) = 15 x /σ0 = 1.59 .
Der Test ϕ1 ergibt die Entscheidung ϕ1 (x) = 0. Die vorliegenden Daten ergeben somit zum 5%-Niveau keine
Signifikanz für H1 : β > 0. Als P-Value (auf Grund der vorliegenden Daten) der Gauß-Tests für (TP1) ergibt
¢
sich 1 − Φ( 1.59 = 0.056. Die Daten ergeben also Signifikanz für H1 : β > 0 zu jedem Niveau α > 0.056 (also
z. B. zum 6%-Niveau).
Herunterladen