Einführung in die mathematische Statistik

Kapitel 7
Einführung in die mathematische
Statistik
7.1
Statistische Modellierung
Bei der Modellierung eines Zufallsexperiments besteht oft Unsicherheit darüber, welche W-Verteilung
auf der Ergebnismenge adäquat ist. Die statistische Modellierung trägt dem – zumindest innerhalb
eines gewissen Rahmens – Rechnung. In einem parametrischen statistischen Modell werden einige
Parameter in das Verteilungsmodell aufgenommen, deren Werte offen gelassen werden, also unbekannt
sind. In einem nicht-parametrischen statistischen Modell werden größere Klassen von W-Verteilungen
ins Modell aufgenommen.
Definition 7.1 (Statistisches Modell)
(a) Ein (parametrisches) statistisches Modell ist ein Tripel
´
³
¡ ¢
M , A , Pϑ ϑ∈Θ ,
wobei (M, A) ein Messraum und (Pϑ )ϑ∈Θ eine Familie von W-Verteilungen auf A ist.
(b) Ein (nicht-parametrisches) statistisches Modell ist ein Tripel
¡
¢
M , A, P ,
wobei (M, A) ein Messraum und P eine Menge von W-Verteilungen auf A ist.
Beispiele: Parametrische Modelle
(1) Binomialmodelle
n
¡
¢
N
(i) M = {0, 1}n , A = P {0, 1}n , Pp =
Bi(1, p) , p ∈ [ 0 , 1 ] der Parameter.
i=1
¡
¢
(ii) M = {0, 1, . . . , n} , A = P {0, 1, . . . , n} , Pp = Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter.
(2) Poisson-Modell
n
¡ ¢
N
M = Nn0 , A = P Nn0 , Pλ =
Poi(λ) , λ ∈ ( 0 , ∞) der Parameter.
i=1
(3) Normalverteilungsmodell
M = Rn , A = Bn , Pβ,σ =
n
N
N(β, σ 2 ) , (β, σ) ∈ R × ( 0 , ∞) der Parameter.
i=1
47
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 7: Einführung in die mathematische Statistik
(4) Exponentialverteilungsmodell
n
N
M = Rn , A = Bn , Pλ =
Exp(λ) , λ ∈ ( 0 , ∞) der Parameter.
i=1
Beispiel: Ein nicht-parametrisches Modell
nN
o
n
M = Rn , A = B n , P =
P : P ∈ W(B 1 )
i=1
Bemerkung: Modellformulierung mit Zufallsvariablen
Im parametrischen Fall: Im Hintergrund seien ein Messraum (Ω, A) mit einer Familie von W-Maßen Pϑ
(ϑ ∈ Θ) auf A vorhanden sowie eine Zufallsvariable X : (Ω, A) −→ (M, A) . Die Verteilungsfamilie
im statistische Modell von Definition 7.1 (a) ist die Familie der Verteilungen der Zufallsvariablen X
unter den diversen Pϑ (ϑ ∈ Θ) : Pϑ = PX
∀ ϑ ∈ Θ.
ϑ
Zum Beispiel:
n
N
Binomialmodell (i) : X = (X1 , . . . , Xn ) ∼
Bi(1, p) , p ∈ [ 0 , 1 ] der Parameter.
i=1
Man formuliert das Modell auch so: Xi ∼ Bi(1, p) (i = 1, . . . , n) u.i.v. , p ∈ [ 0 , 1 ] der Parameter.
Binomialmodell (ii) : X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter.
Normalverteilungsmodell : Xi ∼ N(β, σ 2 ) (i = 1, . . . , n) u.i.v. , (β, σ) ∈ R × ( 0 , ∞) der Parameter,
(man spricht auch von den beiden Parametern β und σ).
Im nicht-parametrischen Fall: Im Hintergrund seien wieder ein Messraum (Ω, A), jetzt mit einer Menge
P von W-Maßen P auf A vorhanden sowie eine Zufallsvariable X : (Ω, A) −→ (M, A) . Die Menge
P der©W-Verteilungen
ª im nicht-parametrischen statistischen Modell von Definition 7.1 (b) ist
P = PX : P ∈ P .
Im oben gegebenen Beispiel: X = (X1 , . . . , Xn ) eine Rn -wertige Zufallsvariable mit
n
o
nN
o
n
PX : P ∈ P =
P : P ∈ W(B1 ) ,
i=1
was man anschaulicher so zu formulieren pflegt:
Das Modell mit n u.i.v. reellen Zufallsvariablen X1 , . . . , Xn und beliebiger (ungekannter) Verteilung:
Xi ∼ P , (i = 1, . . . , n) u.i.v., P ∈ W(B 1 ) .
7.2
Maximum-Likelihood-Schätzung
Das zu Grunde gelegte statistische Modell gibt die Möglichkeit für eine modellbasierte Datenanalyse:
Aus dem Ergebnis x des Zufallsexperiments (den “Beobachtungsdaten”) sollen Rückschlüsse über den
wahren Wert des Parameters ϑ gezogen werden. Vereinfacht gesagt ist das deshalb möglich, weil das
beobachtete Ergebnis x unter den verschiedenen prinzipiell möglichen Parameterwerten ϑ ∈ Θ verschiedene Wahrscheinlichkeiten besitzt.
Beispiel: Binomialmodell
X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter, für ein gegebenes n ∈ N. Angenommen, wir haben einen
konkreten Wert x ∈ { 0, 1, . . . , n } als Ergebnis erhalten. Jetzt betrachten wir die Wahrscheinlichkeiten, die dieses Ereignis (also das Ergebnis x) für alle möglichen Parameterwerte p besitzt, d. h. wir
betrachten die sog. Likelihood-Funktion
µ ¶
n x
[ 0 , 1 ] 3 p 7−→ Lx (p) := Pp ({x}) =
p (1 − p)n−x .
x
48
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 7: Einführung in die mathematische Statistik
49
Maximum-Likelihood-Schätzung: Als Schätzung für p wird die Maximumstelle der Likelihood-Funktion
genommen. Dieses Konzept wird in der folgenden Definition allgemeiner formuliert.
Definition 7.2 (Likelihood-Funktion, Maximum-Likelihood-Schätzung)
³
´
¡ ¢
Gegeben sei ein (parametrisches) statistisches Modell M , A , Pϑ ϑ∈Θ mit Pϑ = fϑ · µ ∀ ϑ ∈ Θ,
wobei µ ein Maß auf A ist. Sei x ∈ M . Die Funktion
Lx : Θ −→ [ 0 , ∞) ,
Lx (ϑ) := fϑ (x) , ϑ ∈ Θ .
heißt Likelihood-Funktion (zu x); eine Maximum-Likelihood-Schätzung (ML-Schätzung) für ϑ (zu x) ist
b
ein Parameterwert ϑ(x)
∈ Θ mit
¡
¢
b
Lx ϑ(x)
= max Lx (ϑ) .
ϑ∈Θ
Bemerkung: Log-Likelihood-Funktion
Da Lx (ϑ) ∈ [ 0 , ∞) ∀ ϑ ∈ Θ, können wir die Log-Likelihood-Funktion bilden:
`x (ϑ) := ln Lx (ϑ) ,
ϑ ∈ Θ,
b
wobei definiert sei: ln(0) := −∞ . Eine ML-Schätzung ϑ(x)
ist dann äquivalent charakterisiert durch
¡
¢
b
= max `x (ϑ) .
`x ϑ(x)
ϑ∈Θ
Beispiel: Binomialmodell
X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter.
Likelihood-Funktion bzw. Log-likelihood-Funktion zur Beobachtung x ∈ {0, 1, . . . , n} :
µ ¶
n x
Lx (p) =
p (1 − p)n−x ,
x
µ ¶
n
`x (p) = ln
+ x ln(p) + (n − x) ln(1 − p) .
x
Eine “Kurvendiskussion” der Funktion `x (p) , p ∈ [ 0 , 1 ] liefert als Maximumstelle, d.h. als MLSchätzung für p :
x
pb(x) =
.
n
Beispiel: Modell mit n u.i.v. Poisson-verteilten ZV’en
X1 , X2 , . . . , Xn u.i.v. Poi(λ)-verteilte Zufallsvariablen, und λ ∈ ( 0 , ∞) ist der Parameter. Zur Beobachtung x = (x1 , x2 , . . . , xn ) ∈ Nn0 haben wir die Likelihood-Funktion bzw. die Log-LikelihoodFunktion:
Pn
λ i=1 x1
Lx (λ) = e
,
x1 ! x2 ! · · · xn !
hP
i
n
¡
¢
`x (λ) = −nλ +
xi ln(λ) − ln x1 ! x2 ! · · · xn ! .
−nλ
i=1
Eine “Kurvendiskussion” für `x (λ) liefert als ML-Schätzung für λ :
n
1 X
b
λ(x)
= x =
xi .
n
i=1
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 7: Einführung in die mathematische Statistik
50
b
Die extreme Beobachtung x = 0 (d.h. alle xi = 0) ist – streng gesehen – dabei auszunehmen, da λ(0)
= 0 nicht
im Parameterbereich ( 0 , ∞) liegt.
Beispiel: Modell mit n ≥ 2 u.i.v. normalverteilten ZV’en
X1 , X2 , . . . , Xn u.i.v. N (β, σ 2 )-verteilt, der Parameter ist (β, σ) ∈ R × ( 0 , ∞) . Mit µ = λλn erhalten
wir als Likelihood-Funktion zur Beobachtung x = (x1 , x2 , . . . , xn ) ∈ Rn :
Als ML-Schätzung
¡
Lx (β, σ)
=
`x (β, σ)
=
b
β(x),
σ
b(x)
¢
³ 1 P
´
n
(2π)−n/2 σ −n exp − 2 (xi − β)2 ,
2σ i=1
n
1 P
n
(xi − β)2 .
− ln(2π) − n ln(σ) −
2
2σ 2 i=1
ergibt sich:
b
β(x)
= x =
1
n
n
P
i=1
s
xi
und σ
b(x) =
1
n
n
P
(xi − x)2 .
i=1
Im Fall, dass die Beobachtungswerte x1 , x2 , . . . , xn alle gleich sind, also x1 = x2 = . . . = xn gilt, erhalten wir
σ
b(x) = 0. Das ist streng genommen kein zulässiger Schätzwert für σ > 0. Dieser Fall hat Wahrscheinlichkeit
Null unter jeder W-Verteilung des Modells und wird daher praktisch nicht auftreten (sofern das Modell zutrifft).
7.3
Lineare Regression
Regressionsgerade
Eine reelle Zielgröße y hänge von einer reellen Einflussgröße t ab: y = y(t) , (z. B. Umsatz y eines
Produkts in Abhängigkeit vom Werbeaufwand t). In erster Näherung wird davon ausgegangen, dass
eine lineare Abhängigkeit besteht, d. h.
y(t) = a t + c
(Regressionsgerade)
für alle möglichen Werte t innerhalb eines gewissen Bereichs (in der Regel ein Intervall), wobei a und
c reelle Konstanten sind, die aber unbekannt sind. Es liegen nun Beobachtungsdaten vor:
(t1 , y1 ) , (t2 , y2 ) , . . . , (tn , yn ) ;
(z. B. wurde in n Zeitperioden jeweils der Umsatz yi bei einem Werbeaufwand ti beobachtet).
Die yi -Werte hängen von den jeweiligen ti -Werten ab, aber außerdem noch von unkontrollierbaren
“Zufallseinflüssen”. Daher wird die folgende statistische Sichtweise in das Modell eingebracht:
Die beobachteten Werte y1 , y2 , . . . , yn sind Werte von reellen Zufallsvariablen Y1 , Y2 , . . . , Yn mit:
¡
¢
Yi ∼ N y(ti ), σ 2 ∀ i = 1, . . . , n , und Y1 , . . . , Yn stoch. unabhängig.
Die Parameter im Modell sind a, c ∈ R und σ > 0.
Beachte: Nur die beobachteten Werte y1 , y2 , . . . , yn werden hier als Werte von Zufallsvariablen behandelt, nicht aber die beobachteten Werte t1 , t2 , . . . , tn . Letztere werden als bekannte Konstanten
gesehen (sie unterliegen keinen Zufallseinflüssen).
Wir haben daher das statistische Modell (Normalverteilungsmodell der Regressionsgeraden):
³
´
¡
¢
Rn , Bn , Pa,c,σ (a,c,σ)∈R2 ×(0,∞) ,
mit Pa,c,σ :=
n
¡
¢
N
N ati + c , σ 2 .
i=1
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 7: Einführung in die mathematische Statistik
51
Die Log-Likelihood-Funktion (natürlich bei Verwendung des Maßes µ = λλn ) zur Beobachtung
y = (y1 , y2 , . . . , yn )t ∈ Rn lautet:
n
¢2
n
1 X¡
`y (a, c, σ) = − ln(2π) − n ln(σ) −
yi − ati − c .
2
2
2σ
i=1
Die Maximierung ergibt die folgende ML-Schätzung :
ML-Schätzung im Normalverteilungsmodell der Regressionsgeraden
b
a(y) =
st,y
,
s2t
c2 (y) = 1 RSS(y) .
σ
n
b
c(y) = y − b
a(y) t ,
Dabei werden die folgenden abkürzenden Bezeichnungen verwendet:
n
t = (t1 , . . . , tn )t ,
y = (y1 , . . . , yn )t ,
1X
ti ,
n
t =
i=1
n
1X
s2t =
(ti − t)2 ,
n
st,y
i=1
RSS(y) =
n
X
¡
n
y =
1X
yi ,
n
i=1
n
1X
=
(ti − t) (yi − y) ,
n
i=1
yi − b
a(y) ti − b
c(y)
¢2
,
i=1
(die Bezeichnung “RSS” kommt von engl. Residual Sum of Squares).
Anmerkung: Die Residual Sum of Squares lässt sich auch schreiben als
RSS(y) =
n
X
(yi − y)2 − n
i=1
s2t,y
.
s2t
Bemerkung: Methode der Kleinsten Quadrate (engl.: Least Squares)
Die ML-Schätzungen b
a(y) und b
c(y) sind auch die Lösung des Minimierungsproblems
n ³
X
yi − (a ti + c)
´2
−→ min !
a,c ∈R
i=1
Es wird also diejenige Gerade y(t) = a t + c den Datenpunkten (t1 , y1 ) , (t2 , y2 ) , . . . , (tn , yn ) angepasst, welche im Sinne der Summe der Abweichungsquadrate,
n
X
¡
yi − y(ti )
¢2
,
i=1
die geringste Abweichung von den Datenpunkten liefert. Die schließlich verbleibende minimale Abweichungsquadratsumme ist die Residual Sum of Squares:
RSS(y) =
n ³
X
i=1
£
¤ ´2
yi − b
a(y) ti + b
c(y)
.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 7: Einführung in die mathematische Statistik
52
Polynomiale Regression
Das Modell der Regressionsgeraden können wir auch als polynomiale Regression vom Grad 1 sehen.
Ein polynomiales Regressionsmodell vom Grad d setzt die funktionale Abhängigkeit der Zielgröße y
von der (reellen) Einflussgröße t als ein Polynom vom Grad (höchstens) d an:
y(t) = a0 + a1 t + a2 t2 + . . . + ad td .
Im Fall d = 2 spricht man von quadratischer Regression, im Fall d = 3 von kubischer Regression.
Die weiteren statistischen Modellannahmen sind analog zum Fall der Regressionsgeraden: Die beobachteten y-Werte y1 , y2 , . . . , yn der Datenpaare (ti , yi ) (i = 1, . . . , n) werden als Werte von reellen
Zufallsvariablen Y1 , Y2 , . . . , Yn aufgefasst mit:
¡
¢
Yi ∼ N y(ti ) , σ 2 ∀ i = 1, . . . , n , Y1 , . . . , Yn stoch. unabhängig.
Die Parameter im statistischen Modell sind die Koeffizienten a0 , a1 , . . . , ad des Polynoms sowie die
Standardabweichung σ. Die ML-Schätzung für die Koeffizienten a0 , a1 , . . . , ad erweist sich wieder als
“Kleinste-Quadrate-Schätzung” (engl. Least Squares Estimate), also als Optimallösung des KleinstenQuadrate-Problems
n ³
X
minimiere (bezgl. a0 , a1 , . . . , ad ∈ R)
£
¤ ´2
yi − a0 + a1 ti + a2 t2i + . . . + ad tki
.
i=1
¡
¢t
b (y) = a0 (y), a1 (y), . . . , ad (y) , wobei wieder y = (y1 , . . . , yn )t , ist als
Die Optimallösung a
Lösung eines linearen Gleichungssystems zu berechnen:
b (y) = B t y , wobei
BtB a
¢t
¡ ¢
¡
B = tji 1≤i≤n und y = y1 , y2 , . . . , yn .
0≤j≤d
q
1
Die ML-Schätzung für σ ist gegeben durch σ
b(y) =
n RSS(y) , wobei RSS(y) (Residual Sum of
Squares) den minimalen Wert der Fehlerquadratsumme bezeichnet.
Allgemeines lineares Regressionsmodell
Sei wieder y eine reelle Zielgröße, die in Abhängigkeit einer Einflussgröße t ∈ T (jetzt T irgendeine
Menge) zu studieren ist. Ein linearer Regressionsansatz ist eine Familie von Funktionen
y(t) =
k
X
aj fj (t) ,
t∈T ,
j=1
wobei k ∈ N und die Funktionen (Basisfunktionen) fj : T −→ R , j = 1, . . . , k , gegeben sind und
die Koeffizienten a1 , . . . , ak ∈ R Parameter im Modell sind.
Anmerkung: Das Modell der polynomialen Regression vom Grad d ist der Spezialfall:
k =d+1 ,
T ⊆R,
fj (t) = tj−1 (j = 1, . . . , k) ∀ t ∈ T .
Die weiteren statistischen Annahmen sind wiederum: Die beobachteten y-Werte y1 , y2 , . . . , yn der
Datenpaare (ti , yi ) (i = 1, . . . , n) werden als Werte von reellen Zufallsvariablen Y1 , Y2 , . . . , Yn aufgefasst
mit:
¡
¢
Yi ∼ N y(ti ) , σ 2 ∀ i = 1, . . . , n , Y1 , . . . , Yn stoch. unabhängig.
Die Parameter im statistischen Modell sind die Koeffizienten a1 , . . . , ak sowie die Standardabweichung
σ. Das statistische Modell gemäß Definition 7.1 (a) lautet so:
³
´
¡
¢
¡
¢
Rn , B n , N(Ba , σ 2 I n ) (a,σ)∈Rk ×(0,∞)
mit der n × k Matrix B := fj (ti ) 1≤i≤n .
1≤j≤k
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 7: Einführung in die mathematische Statistik
b (y) =
Die ML-Schätzung a
¡
b
a1 (y), . . . , b
ak (y)
¢t
53
und σ
b(y) ergibt sich aus
¢t ¡
¢
1¡
b (y) = B t y und σ
BtB a
b2 (y) =
y − Bb
a(y) y − Bb
a(y) ,
n
¡
¢t
wobei y = y1 , y2 , . . . , yn .
7.4
Statistische Theorie der Schätzer
Wir gehen von einem parametrischen statistischen Modell aus:
³
´
¡ ¢
M , A , Pϑ ϑ∈Θ .
b
Eine Parameterschätzung ϑ(x)
ist – wegen des zufälligen Charakters der Beobachtungsdaten x –
b
zwangsläufig fehlerbehaftet. Die Beobachtung x, die der Schätzung ϑ(x)
unterliegt, hätte (im Rahmen
des Verteilungsmodells) auch anders sein können. Deshalb wird die Schätzung zufallsbedingt mehr
oder weniger vom wahren Wert des Parameters ϑ abweichen.
Die statistische Theorie versucht, diese zufällige Abweichung im statistischen Mittel zu erfassen und
b
betrachtet daher die Schätzfunktion M 3 x 7−→ ϑ(x)
; diese Funktion nennt man einen Schätzer für
b
ϑ. Ein Schätzer ϑ ist insbesondere eine Zufallsvariable auf M (Messbarkeit bezügl. A und einer geeigneten
b
Sigma-Algebra in Θ vorausgesetzt), deren Verteilung Pϑϑ , ϑ ∈ Θ, natürlich vom Parameter ϑ abhängt.
Es ist zweckmäßig, neben der Schätzung des Modellparameters ϑ auch die Schätzung einer Komponente von ϑ (wenn ϑ mehrdimensional) zu betrachten oder auch z.B. die Schätzung einer Transformation
eines ein-dimensionalen Parameters (etwa Schätzung von 1/λ im Exponentialverteilungsmodell mit Parameter λ). Allgemeiner:
Definition 7.3 (Schätzer)
Sei γ : Θ −→ Rk gegeben. Eine Funktion γ
b : (M, A) −→ (Rk , Bk ) heißt ein Schätzer für γ(ϑ).
Wir wollen uns hier auf erwartungstreue Schätzer (engl. unbiased estimators) konzentrieren.
Definition 7.4 (Erwartungstreuer Schätzer)
Ein Schätzer γ
b für γ(ϑ) heißt erwartungstreu oder unverzerrt (engl. unbiased), wenn gilt:
γ
b ist Pϑ -integrierbar und
Eϑ ( γ
b) = γ(ϑ)
für jedes ϑ ∈ Θ.
Z
Dabei bezeichnet Eϑ ( γ
b) =
γ
b dPϑ
∀ ϑ ∈ Θ.
M
Beispiele: Erwartungstreue Schätzer
(1) Binomialmodell X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter.
Der ML-Schätzer pb(x) , x ∈ {0, 1, . . . , n} , ist ein erwartungstreuer Schätzer für p.
Anmerkung: Dieser Schätzer ist auch der einzige erwartungstreue Schätzer für p.
(2) Ein (parametrisches) Modell mit n u.i.v. reellen Zufallsvariablen:
n
¡ ¢
N
M = Rn , A = B n , Pϑ =
Qϑ ∀ϑ ∈ Θ , wobei Qϑ ϑ∈Θ eine Familie von W-Verteilungen
i=1
auf B 1 ist.
(a) Der Erwartungswert von Qϑ existiere in R für jedes ϑ ∈ Θ. Betrachte
β(ϑ) := E[Qϑ ] ∀ ϑ ∈ Θ .
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 7: Einführung in die mathematische Statistik
54
b
Der Schätzer β(x)
= x , ∀ x = (x1 , . . . , xn ) ∈ Rn , ist ein erwartungstreuer Schätzer
für β(ϑ).
(b) Das zweite Moment von Qϑ sei endlich für jedes ϑ ∈ Θ. Betrachte
σ 2 (ϑ) := Var[Qϑ ] ∀ ϑ ∈ Θ .
Der Schätzer s2 (x) =
1
n−1
n
P
(xi − x)2 , ∀ x = (x1 , . . . , xn ) ∈ Rn , ist ein erwartungstreuer
i=1
Schätzer für σ 2 (ϑ) , (n ≥ 2 vorausgesetzt).
(3) Im allgemeinen linearen Regressionsmodell (mit Normalverteilung) von Abschnitt 7.3 ist der MLb für den Koeffizientenvektor a = (a1 , . . . , ak )t ,
Schätzer (auch Least-Squares-Schätzer genannt) a
b (y) = (B t B)−1 B t y ,
a
∀ y ∈ Rn ,
(Rang(B) = k vorausgesetzt),
ein erwartungstreuer Schätzer für a (d.h. für γ(a, σ) = a). Ein erwartungstreuer Schätzer für σ 2
(d.h. für γ(a, σ) = σ 2 ) ist
s2 (y) :=
¢t ¡
¢
1 ¡
y − Bb
a(y) y − Bb
a(y) ∀y ∈ Rn ,
n−k
(n > k vorausgesetzt).
Ein Maß für die Ungenauigkeit eines erwartungstreuen Schätzers γ
b für einen reellen Parameter γ(ϑ)
ist die Varianz(funktion) von γ
b, die i.A. eine Funktion des Modellparameters ϑ ∈ Θ ist:
Z
¡
¢2
Varϑ (b
γ) =
γ
b(x) − γ(ϑ) dPϑ (x) ∀ ϑ ∈ Θ .
M
Beispiel: Binomialmodell
X ∼ Bi(n, p) , p ∈ [ 0 , 1 ] der Parameter. Betrachte den erwartungstreuen Schätzer pb(x) = x/n
∀ x ∈ {0, 1, . . . , n} . Wir erhalten für die Varianz:
1
p(1 − p)
1
,
Var[Bi(n, p)] = 2 n p (1 − p) =
2
n
n
n
r
q
p(1 − p)
bzw. für die Standardabweichung:
Varp ( pb ) =
.
n
Varp ( pb ) =
Ersetzen wir in letzterer Formel p wiederum durch die Schätzung pb(x) = x/n , so haben wir die
geschätzte Standardabweichung (engl. estimated standard error), Abk. “ese”, des Schätzers pb auf Grund
der Beobachtung x :
r
pb(x)(1 − pb(x))
,
ese(b
p)(x) =
n
den man zur Quantifizierung des Fehlers der Schätzung pb(x) für p verwenden kann.
Zahlenbeispiel: Bei n = 10 sei x = 8 beobachtet. Also:
8
pb(x) =
= 0.8 ,
10
r
ese( pb )(x) =
0.8 · 0.2
= 0.13 .
10
Man quantifiziert daher den Fehler der Schätzung pb(8) = 0.8 durch: 0.8 ± 0.13 .
Beispiel: Schätzer der Koeffizienten im allgemeinen Regressionsmodell
Im allgemeinen linearen Regressionsmodell mit Normalverteilung ist der ML-Schätzer bzw. LS-Schätzer
(LS = Least Squares)
b (y) = (B t B)−1 B t y ,
a
∀ y ∈ Rn ,
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 7: Einführung in die mathematische Statistik
55
(Rang(B) = k vorausgesetzt), ein erwartungstreuer Schätzer für a , und das bedeutet auch: Die
Komponente b
aj dieses Schätzers ist ein erwartungstreuer Schätzer für den Koeefizienten aj , (j =
b . Wir haben:
1, . . . , k). Die Varianz von b
aj ist der Eintrag (j, j) der Kovarianzmatrix von a
£
¤t
Cova,σ (b
a) = (B t B)−1 B t Cova,σ (y) (B t B)−1 B t = σ 2 (B t B)−1 ,
| {z }
= σ2 I n
£
¤
folglich, mit der Abkürzung vjj := (B t B)−1 jj :
Vara,σ (b
aj ) = σ 2 vjj
bzw.
q
√
Vara,σ (b
aj ) = σ vjj ,
(j = 1, . . . , k).
Eine Schätzung letzterer
Standardabweichung erhält man durch Ersetzen (“plug-in”) von σ durch die
p
¡
¢t ¡
¢
1
2
Schätzung s(y) = s (y) , wobei s2 (y) = n−k
y − Bb
a(y) y − Bb
a(y) . Damit:
√
ese(b
aj )(y) = s(y) vjj ,
7.5
(j = 1, . . . , k).
Intervallschätzer und Konfidenzintervalle
Wir gehen wieder von einem parametrischen statistischen Modell aus:
´
³
¡ ¢
M , A , Pϑ ϑ∈Θ ,
und das Interesse gelte einem reellen (Teil-)-Parameter γ(ϑ); es sei also eine Funktion γ : Θ −→ R
gegeben.
Eine Intervallschätzung für γ(ϑ) auf Grund von x ∈ M ist ein Intervall
£
¤
b
I(x)
= γ
b1 (x) , γ
b2 (x) ,
b
mit geeigneten reellen γ
b1 (x) ≤ γ
b2 (x) . Die Intervallschätzung I(x)
soll eine Interpretation dahingehend gestatten, dass der wahre Wert γ(ϑ) mit großer Wahrscheinlichkeit in diesem Intervall liegt1 ,
z.B. mit Wahrscheinlichkeit von mindestens 95 %. Dies zu präzisieren erfordert wieder die statistische
Sichtweise: Ein Intervallschätzer für γ(ϑ) ist eine Intervall-wertige Funktion Ib auf M der Form
£
¤
b
M 3 x 7−→ I(x)
= γ
b1 (x) , γ
b2 (x) ,
mit zwei (messbaren) Funktionen
bi : (M, A) −→ (R, B1 ) , i = 1, 2, γ
b1 ≤ γ
b2 .
£
¤γ
Wir schreiben dann Ib = γ
b1 , γ
b2 .
Definition 7.5 (Überdeckungswahrscheinlichkeiten, (1 − α)-Konfidenzintervall)
£
¤
Sei Ib = γ
b1 , γ
b2 ein Intervallschätzer für γ(ϑ). Die Wahrscheinlichkeiten
¡
¢
Pϑ γ
b1 ≤ γ(ϑ) ≤ γ
b2
für ϑ ∈ Θ
b
heißen die Überdeckungswahrscheinlichkeiten des Intervallschätzers I.
³©
¡
¢
ª´
Dabei bedeutet natürlich: Pϑ γ
b1 ≤ γ(ϑ) ≤ γ
b2 = Pϑ x ∈ M : γ
.
b1 (x) ≤ γ(ϑ) ≤ γ
b2 (x)
Wenn zu einem gegebenen α ∈ ( 0 , 1 ) (i.d.R. klein, z.B. α = 0.05) die Überdeckungswahrscheinlichkeiten
von Ib alle (d.h. für alle ϑ ∈ Θ) mindestens 1 − α sind, dann heißt Ib ein (1 − α)-Konfidenzintervall für
γ(ϑ).
1
das ist allerdings wörtlich genommen – für eine konkrete Beobachtung x – so nicht möglich; die Interpretation
erfordert wieder eine statistische Sichtweise, s. nachfolgende Ausführungen.
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 7: Einführung in die mathematische Statistik
56
Interpretation eines (1 − α)-Konfidenzintervalls:
£
¤
Die Bedingung, dass Ib = γ
b1 , γ
b2 ein (1 − α)-Konfidenzintervall ist (z.B. ein 95 % -Konfidenzintervall,
, wenn α = 0.05), beinhaltet ja insbesondere, dass auch für den wahren Wert ϑ des Modellparameters
die Überdeckungswahrscheinlichkeit mindestens 1 − α ist, d.h. das Ereignis
n
¢o
x∈M : γ
b1 (x) ≤ γ(ϑ) ≤ γ
b2 (x)
hat eine Wahrscheinlichkeit ≥ 1−α (also z.B. ≥ 0.95). Deshalb können wir sozusagen (1−α)·100 % -ig
(z.B. 95 % -ig) darauf vertrauen, dass ein zufällig realisiertes x ∈ M in dieser Menge liegt und daher
£
¤
b
das (konkrete) Intervall I(x)
= γ1 (x) , γ
b2 (x) zur Beobachtung x den wahren Wert γ(ϑ) enthält.
Ein (1 − α)-Konfidenzintervall ist in diesem Sinne also in der Tat ein (1 − α)-Vertrauensintervall.
Anmerkung: Die Sprechweise, (für eine konkrete Beobachtung x) ,
£
¤
b
”die Wahrscheinlichkeit, dass γ(ϑ) im Intervall I(x)
= γ
b1 (x) , γ
b2 (x) liegt”
macht mathematisch keinen Sinn. Denn γ
b1 (x) und γ
b2 (x) sind konkrete Werte, z.B. die Werte 2.3 und 5.7.
Was aber sollte die Wahrscheinlichkeit für γ(ϑ) ∈ [ 2.3 , 5.7 ] sein ? Diese existiert nicht, da ja γ(ϑ) keine
Zufallsvariable, sondern eine unbekannte Konstante ist.
Beispiel: Normalverteilungsmodell mit bekannter Varianz
Seien X1 , X2 , . . . , Xn ∼ N(β, σ02 ) u.i.v. Zufallsvariablen, wobei β der Parameter ist; die Varianz σ02
soll hier bekannt, also kein Parameter sein. Ein (1 − α)-Konfidenzintervall für β (hier also γ(β) = β)
ist gegeben durch:
h
σ0
σ0 i
b
I(x)
= x − z1− α2 √ , x + z1− α2 √
, x = (x1 , . . . , xn ) ∈ Rn ,
n
n
¢
¡
wobei z1− α2 := Φ−1 1 − α2 das sog. (1 − α2 )-Quantil der Standard-Normalverteilung ist.
Zahlenbeispiel: Für n = 10 und σ0 = 0.23 ergaben die Daten x = (x1 , x2 , . . . , x10 ) : x = 2.57 .
Wir berechnen das 95%-Konfidenzintervall für β:
α = 0.05, 1 − α2 = 0.975, z0.975 = 1.96 ; damit:
b
I(x)
=
£
£
¤
0.23
0.23 ¤
2.57 − 1.96 · √ , 2.57 + 1.96 · √
= 2.43 , 2.71 .
10
10
Wir berechnen auch das 99%-Konfidenzintervall für β, (jetzt also α = 0.01) : Wir haben 1 −
z0.995 = 2.58 , und analoge Rechnung wie oben ergibt:
£
¤
b
I(x)
= 2.38 , 2.76
(99%-Konfidenzintervall für β) ,
α
2
= 0.995 ;
das natürlich breiter als das 95%-Konfidenzintervall ist.
Beispiel: Binomialmodell
Modell: X ∼ Bi(n, p) , p ∈ ( 0 , 1 ) der Parameter.Wir fragen nach einem (1 − α)-Konfidenzintervall
für p (hier also: γ(p) = p). Die Konstruktion eines solchen Konfidenzintervalls ist möglich, aber relativ
kompliziert. Wir beschränken uns auf die Herleitung eines approximativen (1 − α)-Konfidenzintervalls
für p, die auf der Asymptotik (n → ∞) und dem Zentralen Grenzwertsatz beruht. Für größere Werte
von n, (sagen wir n ≥ 20), ist dies als eine gute Näherung anzusehen.
Aus dem CLT (und Folgerungen) erhält man für großes n :
√
pb − p
np
pb(1 − pb)
³
´
:= Φ−1 1 − α2 daher:
Unter Pp :
Mit z1− α2
approx.
∼
N(0, 1) ,
wobei pb(x) =
³
´
√
pb − p
Pp −z1− α2 ≤ n p
≤ z1− α2 ≈ 1 − α
pb(1 − pb)
x
∀ x ∈ {0, 1, . . . , n} .
n
∀ p ∈ (0, 1) ,
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 7: Einführung in die mathematische Statistik
oder äquivalent umgeformt:
¡
¢
Pp pb1 ≤ p ≤ pb2 ≈ 1 − α ∀ p ∈ ( 0 , 1 ) ,
wobei:
r
r
pb(1 − pb)
pb(1 − pb)
pb1 = pb − z1− α2
und pb2 = pb + z1− α2
.
n
n
Also haben wir mit
Ib =
h
i
pb1 , pb2
ein approximatives (1 − α)-Konfidenzintervall für den Parameter p.
Zahlenbeispiel: Für n = 20 hat sich die Beobachtung x = 17 ergeben. Wir berechnen:
s
r
¡
¢
pb(x) 1 − pb(x)
17
0.85 · 0.15
pb(x) =
= 0.85 und
=
= 0.08 .
20
20
20
Das approximative 95%-Konfidenzintervall für den Parameter p ist daher (mit z0.975 = 1.96 ):
h
i
£
¤
b
I(x)
= 0.85 − 1.96 · 0.08 , 0.85 + 1.96 · 0.08 = 0.69 , 1.01 ,
was natürlich als Intervall [ 0.69 , 1 ) zu lesen ist.
7.6
Testprobleme und Signifikanztests
Gegeben sei wieder ein (parametrisches) statistisches Modell:
´
³
¡ ¢
M , A , Pϑ ϑ∈Θ .
Unter einem Testproblem versteht man eine Zerlegung des Parameterbereichs Θ in zwei disjunkte,
nicht-leere Teilmengen Θ0 und Θ1 :
Θ = Θ0 ∪ Θ1 ,
(Θ0 6= ∅ , Θ1 6= ∅ , Θ0 ∩ Θ1 = ∅ ) .
Damit verbunden ist die statistische Fragestellung, ob der wahre Wert des Parameters ϑ in der Teilmenge Θ0 oder in der (komplementären) Teilmenge Θ1 liegt. Als Schreibweise für diese Fragestellung
(eigentliches “Testproblem”) ist gebräuchlich:
H0 : ϑ ∈ Θ 0
gegen H1 : ϑ ∈ Θ1 ;
die mit H0 bezeichnete Möglichkeit nennt man die Nullhypothese und die alternative Möglichkeit H1
heißt die Alternativhypothese. Die Entscheidung zwischen den beiden Möglichkeiten (“Hypothesen”)
ist auf Grund einer Beobachtung x ∈ M zu treffen. Da die Beobachtung x zwar eine statistische
Information über den wahren Wert des Parameters ϑ enthält, so gut wie niemals aber eine vollständige
Information hierüber liefert, ist klar: Jede Entscheidung birgt die Möglichkeit einer Fehlentscheidung
in sich; prinzipiell bestehen zwei Möglichkeiten der Fehlentscheidung:
Eine Fehlentscheidung erster Art, kurz: Fehler erster Art, liegt vor, wenn die Entscheidung für
H1 erfolgt, in Wahrheit aber H0 gültig ist.
Eine Fehlentscheidung zweiter Art, kurz: Fehler zweiter Art, liegt vor, wenn die Entscheidung
für H0 erfolgt, in Wahrheit aber H1 gültig ist.
57
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 7: Einführung in die mathematische Statistik
58
Die statistische Sichtweise erstreckt sich wieder globaler auf eine eine Entscheidungsregel, in diesem
Kontext ein Test genannt:
Ein Test ist eine (messbare) Funktion
¡
¢
ϕ : (M, B) −→ {0, 1} , P({0, 1}) .
Die mit dem Test ϕ verbundene Entscheidungsregel über das Testproblem H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1
lautet :
½
Entscheidung für H0 ⇐⇒ ϕ(x) = 0
Wenn x ∈ M beobachtet, dann:
Entscheidung für H1 ⇐⇒ ϕ(x) = 1
Definition 7.6 (Fehlerwahrscheinlichkeiten eines Tests)
Sei ein Testproblem H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 gegeben. Für einen Test ϕ heißen die
Wahrscheinlichkeiten:
Pϑ ( ϕ = 1 )
für alle ϑ ∈ Θ0 :
Fehlerwahrscheinlichkeiten erster Art des Tests ϕ, und
Pϑ ( ϕ = 0 )
für alle ϑ ∈ Θ1 :
Fehlerwahrscheinlichkeiten zweiter Art des Tests ϕ.
Beispiel: Ein Binomialmodell
Modell: X ∼ Bi(10, p) , p ∈ [ 0 , 1 ] der Parameter. Testproblem:
H0 : p ≤ 0.6
gegen H1 : p > 0.6 ;
hier ist also: Θ = [ 0 , 1 ] , Θ0 = [ 0 , 0.6 ] und Θ1 = ( 0.6 , 1] . Als Test nehmen wir zum Beispiel:
½
1 , falls x ≥ 9
ϕ(x) =
, für alle x ∈ {0, 1, . . . , 10} .
0 , falls x ≤ 8
Wir berechnen:
µ ¶
µ ¶
10 9
10 10
Pp ( ϕ = 1 ) = Pp ( {9, 10} ) =
p (1 − p) +
p = 10p9 − 9p10 .
9
10
Daraus erhalten wir mit Pp (ϕ = 0) = 1 − Pp (ϕ = 1) die Fehlerwahrscheinlichkeiten erster und
zweiter Art des Tests (s. Abbildung).
Pp (ϕ = 1)
Fehlerw’keit
2. Art
1. Art
p
p
Insbesondere sehen wir: Die Fehlerwahrscheinlichkeiten erster Art sind alle recht klein (maximal 0.046),
während jene zweiter Art bis zu 1− 0.046 = 0.954 betragen können. Dieses Phänomen ist einigermaßen
typisch: Wenn ein Test kleine Fehlerwahrscheinlichkeiten erster Art hat, dann geht das in der Regel auf
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 7: Einführung in die mathematische Statistik
59
Kosten seiner Fehlerwahrscheinlichkeiten zweiter Art (die dann groß werden können). Das allgemein
verwendete Konzept der Signifikanztests (s. unten) erzwingt kleine Fehlerwahrscheinlichkeiten erster
Art.
Definition 7.7 (α-Signifikanztest)
Sei ein Testproblem H0 : ϑ ∈ Θ0 gegen H1 : ϑ ∈ Θ1 gegeben, und sei ein α ∈ ( 0 , 1 ) gewählt
(in der Regel klein, z. B. α = 0.05). Ein Test ϕ heißt ein α-Niveau-Signifikanztest, oder kürzer ein
α-Signifikanztest, für das Testproblem, wenn seine Fehlerwahrscheinlichkeiten erster Art höchstens
gleich α sind, d. h.
Pϑ ( ϕ = 1 ) ≤ α für alle ϑ ∈ Θ0 .
Interpretation eines α-Signifikanztests ϕ :
Wenn auf Grund der Beobachtung x der Test ϕ den Wert 1 liefert, also ϕ(x) = 1, dann ist die
Gültigkeit der Alternativhypothese H1 “statistisch” (zum Niveau α) nachgewiesen. Denn bei Gültigkeit
der Nullhypothese H0 (kurz: unter H0 ) hätte ja das Ereignis { ϕ = 1 } eine Wahrscheinlichkeit von
höchstens α (z. B. 5%), wäre also eher unwahrscheinlich. Nun ist dieses Ereignis eingetreten, was
“signifikant” gegen H0 und damit für H1 spricht.
Wenn hingegen auf Grund der Beobachtung x der Test ϕ den Wert 0 liefert, also ϕ(x) = 0, dann
erfolgt die Entscheidung zwar für die Nullhypothese H0 – aber nicht dem Sinne, dass ihre Gültigkeit
statistisch nachgewiesen wäre. Die Entscheidung fällt zwar für H0 , aber mit wenig Überzeugungskraft
und eher durch Konvention (vergleichbar mit dem juristischen Prinzip: Im Zweifel für die [angeklagte]
Nullhypothese).
Man beachte daher: Ein α-Signifikanztest eignet sich nur zum statistischen Nachweis der Gültigkeit
der Alternativhypothese H1 , nicht aber zum statistischen Nachweis der Nullhypothese H0 .
Beispiel: Normalverteilungsmodell mit bekannter Varianz: Gauß-Tests
Modell: X1 , . . . , Xn ∼ N(β, σ02 ) u.i.v. , β ∈ R der Parameter, σ0 > 0 fest. Interessant sind die
folgenden drei Testprobleme:
(TP1)
H0 : β ≤ β0
gegen H1 : β > β0 ,
(TP2)
H0 : β ≥ β0
gegen H1 : β < β0 ,
(TP3)
H0 : β = β0
gegen H1 : β 6= β0 .
Dabei ist jeweils β0 eine vorgegebene (also bekannte) reelle Zahl. (TP1) und (TP2) nennt man einseitige
Testprobleme und (TP3) ein zweiseitiges Testproblem.
Als “optimale” α-Signifikanztests für die genannten Testproblem (TP1), (TP2) und (TP3) ergeben
sich die sog. Gauß-Tests. Dabei bezeichnet
T (x) =
√ x − β0
n
,
σ0
n
x =
1X
xi ,
n
∀ x = (x1 , . . . , xn ) ∈ Rn ,
i=1
sowie zp := Φ−1 (p) (das p-Quantil von N(0, 1) ) für p ∈ ( 0 , 1 ) .
Gauß-Tests:
½
(TP1)
H0 : β ≤ β0
gg.
H1 : β > β0
ϕ1 (x) =
(TP2)
H0 : β ≥ β0
gg.
H1 : β < β0
ϕ2 (x) =
½
1
0
, falls T (x)
>
z
≤ 1−α
1
0
, falls T (x)
<
≥
− z1−α
Norbert Gaffke: Vorlesung “Einführung in die Wahrscheinlichkeitstheorie und Statistik”, Sommersemester 2010
Kapitel 7: Einführung in die mathematische Statistik
60
½
(TP3)
H0 : β = β0
gg.
H1 : β 6= β0
ϕ3 (x) =
1
0
, falls |T (x)|
>
z α
≤ 1− 2
Bemerkung: P-Value-Darstellung der Gauß-Tests
Eine andere (aber äquivalente) Darstellung der Gauß-Tests hat den Vorteil, dass sofort eine Übersicht über die
Entscheidungen der Tests für verschiedene Festlegungen des Niveaus α erhalten wird.
Z.B. für den Test ϕ1 für (TP1): Für x = (x1 , x2 , . . . , xn ) ∈ Rn sind äquivalent:
¡
¢
¡
¢
¡
¢
T (x) > z1−α ⇐⇒ Φ T (x) > Φ z1−α ⇐⇒ 1 − Φ T (x) < α .
| {z }
= 1−α
Wir können also den Test ϕ1 auch so darstellen:
½
¡
¢ <
1
ϕ1 (x) =
, falls 1 − Φ T (x)
α,
0
≥
wobei T (x) =
√
n
x − β0
.
σ0
¡
¢
Den Wert 1 − Φ T (x) nennt man den Probability-Value, kurz: P-Value, des Tests ϕ1 für (TP1) (zur Beobachtung x).
Analog lässt sich der Test ϕ2 umschreiben zu:
½
¡
¢ <
1
ϕ2 (x) =
, falls Φ T (x)
α.
0
≥
¡
¢
Den Wert Φ T (x) nennt man den P-Value des Test ϕ2 für (TP2) (zur Beobachtung x).
Und schließlich für ϕ3 :
½
³
¡
¢´ <
1
ϕ3 (x) =
, falls 2 1 − Φ |T (x)|
α.
0
≥
³
¡
¢´
Den Wert 2 1 − Φ |T (x)|
nennt man den P-Value des Tests ϕ3 für (TP3) (zur Beobachtung x).
Beispiel: Anwendung eines Gauß-Tests
Oft soll ein quantitativer Effekt (z. B. einer Behandlungsmethode) statistisch untersucht werden. Dabei werden
Beobachtungsdaten für die einzelnen Objekte/Individuen jeweils vor und nach der Behandlung erhoben. Es
liegen also paarige Beobachtungen (yi , zi ) (i = 1, . . . , n) vor.
Folgende Vorgehensweise ist dann verbreitet: Es werden die Differenzen xi := zi − yi (i = 1, . . . , n) gebildet und
diese als Werte von n u.i.v. normal-(β,σ 2 )-verteilten Zufallsvariablen X1 , X2 , . . . , Xn aufgefasst. Hier setzten
wir voraus, dass die Standardabweichung σ = σ0 bekannt ist. Soll nun statistisch nachgewiesen werden, dass die
Behandlung einen positiven Effekt hat, so lässt sich dies als Testproblem (TP1) mit β0 = 0 formulieren:
(TP1)
H0 : β ≤ 0 gegen
H1 : β > 0 .
Zahlenbeispiel:
Folgende Daten an n = 15 Objekten wurden in einer solchen Situation beobachtet.
yi
415
zi
441
xi = zi − yi 26
507 389 677
490 423 698
−17 34 21
560 359 402 500
550 394 472 510
−10 35 70 10
461 534
451 581
−10 47
540
495
−45
390 457 576 460
421 424 580 490
31 −33
4 30
Es sei σ0 = 31.29 . Wir wollen zum 5%-Niveau testen (also α = 0.05): z0.95 = 1.645 ; wir berechnen:
√
x = 12.87 ; T (x) = 15 x /σ0 = 1.59 .
Der Test ϕ1 ergibt die Entscheidung ϕ1 (x) = 0. Die vorliegenden Daten ergeben somit zum 5%-Niveau keine
¢
Signifikanz für H1 : β > 0. Als P-Value des Tests (auf Grund der vorliegenden Daten) ergibt sich 1 − Φ( 1.59 =
0.056. Der Test ϕ1 würde also erst bei einem Niveau α > 0.056 (also z. B. zum 6%-Niveau) die Signifikanz von
H1 : β > 0 liefern.