Stochastik Seminar (LA) Konfidenzintervalle und Hypothesentests

Stochastik Seminar (LA)
Konfidenzintervalle und
Hypothesentests
Alexander Schmalstieg
Betreuung: Dr. Sebastian Mentemeier
Lehrstuhl IV (Stochastik und Analysis)
Inhaltsverzeichnis
Einleitung
3
1 Konfidenzintervalle
1.1 Definition: Grundlagen und Schreibweisen . . . . . . . . . . . . . .
1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Definition: Konfidenzintervall . . . . . . . . . . . . . . . . . . . . .
1.4 Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5 Praktisches Vorgehen bei der Bestimmung eines Konfidenzintervalls
1.6 Beispiel: Normalverteilung mit unbekanntem Erwartungswert . . .
1.7 Beispiel: Binomialverteilung . . . . . . . . . . . . . . . . . . . . . .
1.8 Definition: Mehrdimensionale Konfidenzbereiche . . . . . . . . . .
1.9 Bemerkung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
4
4
5
5
5
5
5
6
8
8
.
.
.
.
.
.
.
9
9
9
10
11
12
14
14
2 Das Testen von Hypothesen
2.1 Motivation: VW-Skandal . . . . . . . . . . . . . . . . . . . .
2.2 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Bemerkung und Definition . . . . . . . . . . . . . . . . . . .
2.4 Praktisches Vorgehen beim Hypothesentest . . . . . . . . . .
2.5 Beispiel: Normalverteilung mit unbekanntem Erwartungswert
2.6 Beispiel: Binomialverteilung . . . . . . . . . . . . . . . . . . .
2.7 Beisiel: Schulbuchaufgabe, vgl. [LS] S. 407, Aufgabe 2 . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Abkürzungsverzeichnis
16
Literatur
17
2
Einleitung
In der vorliegenden Arbeit werden zwei wichtige Konzepte der beurteilenden Statistik
eingeführt. Dabei wird stets von einem parametrischen statistischen Modell ausgegangen,
d.h. für jedes θ aus einem geeigneten Parameterraum Θ ist Pθ eine Verteilung, die einer
gemessenen Stichprobe X zugrunde liegen kann. Der wahre Parameter θ0 ist unbekannt
und soll möglichst gut geschätzt werden.
Beim Schätzen des unbekannten Wertes durch einen Punktschätzer ist unklar, wie gut
die Schätzung ist. Im ersten Teil der Ausarbeitung geht es darum Bereiche zu finden, in
denen der wahre Wert mit hoher Wahrscheinlichkeit liegt, so genannte Konfidenzintervalle. Dabei gibt es den klassischen frequentistischen und den bayesianischen Ansatz [vgl.
1.4]. Wie Konfidenzintervalle in der Praxis konstruiert werden können wird allgemein in
[1.5] vorgestellt und dann für die Normalverteilung exakt und die Binomialverteilung
approximativ mit Hilfe des zentralen Grenzwertsatzes umgesetzt. Das Konzept der Konfidenzintervalle kann auch auf höhere Dimensionen verallgemeinert werden. Dabei wird
sich herausstellen, dass Produkte von Konfidenzintervallen solche Konfidenzbereiche liefern, aber zu einem geringeren Konfidenzniveau [vgl. 1.9].
Im zweiten Teil der Arbeit geht es um statistische Tests, mit deren Hilfe Hypothesen
überprüft werden sollen. Zu Beginn wird in Absatz [2.1] unter anderem die Philosophie empirischer Testverfahren vorgestellt (Stichwort: Falsifizierbarkeit). Die Begriffe
Hypothese, Test, Fehler & Testgüte werden in [2.2] mathematisch präzisiert. Nach einer
kurzen Diskussion dieser Begriffe [2.3] wird ein allgemeines Konstruktionsverfahren für
Hypothesentests vorgestellt und exakt auf die Normalverteilung und approximativ auf
die Binomialverteilung mit Hilfe des zentralen Grenzwertsatzes angewendet.
Da das Themenfeld Stochastik und insbesondere statistische Tests mittlerweile verpflichtender Bestandteil der Abiturprüfung sind (vgl. [NRW] S. 3), wird am Ende des Kapitels
zum Hypothesentest auch eine Beispielaufgabe aus einem Schulbuch [LS] vorgestellt.
Konfidenzintervalle hingegen sind kein ausdrücklicher Bestandteil der Obligatorik für
das Abitur in NRW.
Insgesamt folgt diese Arbeit der Darstellung in [CS]. Die Absätze zu den praktischen
Konstruktionen orientieren sich grob an den Vorlesungsskripten [SP] und [ZK].
3
1 Konfidenzintervalle
1 Konfidenzintervalle
Im Folgenden seien (Ω, Σ) ein Messraum, Θ ⊆ R und X1 , . . . , Xn : Ω → R unabhängige
identisch verteilte (u.i.v.) Zufallsvariablen. Falls man konkrete Daten x = (x1 , . . . , xn ) ∈
Rn einer Zufallsstichprobe (X1 , . . . , Xn ) beobachtet, so ist dies gleichbedeutend mit dem
Ereignis
{X = x} := {ω ∈ Ω | X(ω) = x} ∈ Σ.
Zufallsvariablen werden im weiteren Verlauf stets mit Großbuchstaben bezeichnet, während deren Realisierungen die entsprechenden Kleinbuchstaben zugewiesen werden. Im
Folgenden werden einige Grundlagen wiederholt und weitere Konventionen für den weiteren Verlauf festgelegt.
1.1 Definition: (Grundlagen und Schreibweisen)
a) Sei
M(Ω, Σ) := {P : Σ → [0, 1] | P ist Wahrscheinlichkeitsmaß}
die Menge aller Wahrscheinlichkeitsmaße auf (Ω, Σ).
b) Für eine Familie von Wahrscheinlichkeitsmaßen
P := {Pθ ∈ M(Ω, Σ) | θ ∈ Θ}
heißt (Ω, Σ, P) statistisches Modell zum Parameterraum Θ.
Ein statistisches Modell heißt regulär, falls eine der beiden folgenden Bedingungen erfüllt
ist:
(1) Alle Pθ , θ ∈ Θ sind stetig mit Dichtefunktion fθ .
(2) Alle Pθ , θ ∈ Θ sind diskret mit Wahrscheinlichkeitsfunktion (Zähldichte) fθ .
Im Folgenden wird stets von solchen regulären Modellen ausgegangen.
c) Sei g : Rn → R eine messbare Funktion. Dann heißt die Zufallsvariable
T := T (X) := T (X1 , . . . , Xn ) := g(X1 , . . . , Xn )
eine Statistik. Falls g den Parameterraum Θ als Wertebereich hat, bezeichnet man T als
(Punkt-) Schätzer. Schätzer sind also spezielle Statistiken. Eine Realisierung t := T (x) ∈
Θ eines Schätzers T heißt Schätzwert.
d) Für α ∈ (0, 1) sei qα das α-Quantil der Verteilung mit Verteilungsfunktion F , d.h.
die Lösung der Gleichung F (qα ) = α.1
e) Für die Verteilungsfunktion Φ der Normalverteilung gilt Φ(−x) = 1 − Φ(x). Daraus
folgt für die α-Quantile Φ(q1−α ) = 1 − α = 1 − Φ(qα ) = Φ(−qα ). Da die Verteilungsfunktion der Normalverteilung streng monoton wachsend ist, ist sie auch bijektiv und es
folgt
q1−α = −qα
(1)
1
Nach Voraussetzung 1.1 b) sind alle betrachteten Modelle regulär, d.h. F ist stetig, folglich existiert
für jedes α ∈ (0, 1) auch das zugehörige α-Quantil nach dem Zwischenwertsatz.
4
1 Konfidenzintervalle
1.2 Motivation:
Sei eine Stichprobe (X1 , . . . , Xn ) gegeben, wobei Xi ∼ Pθ ∈ P für einen Parameter
θ ∈ Θ. Mit Hilfe eines geeigneten Punktschätzers kann ein Schätzwert θ̂ für den „wahren“ Parameter θ angegeben werden. Man geht dann von θ = θ̂ oder zumindest θ ≈ θ̂
aus. Bei diesem Vorgehen hat man allerdings keine Information über die Verlässlichkeit
dieser Schätzung. Man ist in vielen Fällen also daran interessiert einen (möglichst kleinen) Bereich θ̂ ± ε anzugeben, der den tatsächlichen Wert mit hoher Wahrscheinlichkeit
überdeckt. Dies führt zum Konzept des Konfidenzintervalls.
1.3 Definition: (Konfidenzintervall)
Seien α ∈ (0, 1) und T − , T + : Rn → R zwei Statistiken mit T − ≤ T + . Das Zufallsintervall
[T − (X), T + (X)] heißt Konfidenzintervall zum Konfidenzniveau 1 − α, falls
Pθ (θ ∈ [T − (X), T + (X)]) ≥ 1 − α
für alle in Frage kommenden Parameter θ ∈ Θ gilt.
1.4 Bemerkungen:
a) Seien [T − (X), T + (X)] ein 1 − α Konfidenzintervall für θ und x eine Beobachtung des
zugrunde liegenden Zufallsexperiments. Die Aussage, „Der wahre Wert θ liegt mit einer
Wahrscheinlichkeit von 1−α im Intervall [T − (x), T + (x)].“, ist falsch, denn [T − (x), T + (x)]
und θ sind konkrete feste Werte und θ liegt in der Realisierung des Intervalls drin oder
nicht. Die korrekte Interpretation ist: „Hat man n Beobachtungen x1 , . . . , xn , so liegt der
echte Wert θ näherungsweise in n · (1 − α) Intervallen [T − (xi ), T + (xi )].“
b) Es gibt auch ein Konzept, bei dem die erste Interpretation korrekt ist. Bei so genannten Bayesianischen Intervallschätzern wird der Parameter θ als zufällig angenommen.
Dann kann unter der bedingten Verteilung θ|X = x eine Wahrscheinlichkeit dafür angegeben werden, ob θ in [T − (x), T + (x)] liegt (vgl. [CS] 5.1).
1.5 Praktisches Vorgehen bei der Bestimmung eines Konfidenzintervalls:
a) Suche eine Pivot-Statistik, d.h. eine Statistik T (X, θ), die von θ abhängt, deren Verteilung aber unabhängig von θ ist. Es soll also gelten
Pθ (T (X, θ) ≤ t) = F (t),
wobei F die von θ unabhängige Verteilungsfunktion von T ist.
b) Seien α1 + α2 = α ∈ (0, 1). Bestimme das 1 − α1 -Quantil und das α2 -Quantil. Dann
gilt offenbar für alle θ ∈ Θ:
1 − α = 1 − α1 − α2 = F q1−α1 − F qα2 = Pθ qα2 ≤ T (X, θ) ≤ q1−α1 .
(2)
c) Formt man diese Gleichung nach θ um, erhält man ein Konfidenzintervall für θ.
5
1 Konfidenzintervalle
1.6 Beispiel: (Normalverteilung mit unbekanntem Erwartungswert)
Seien σ 2 > 0 bekannt und X1 , . . . , Xn ∼ Nθ,σ2 unabhängig.
a) Betrachte den Standardschätzer für den Erwartungswert
n
1X
X=
Xk ∼ Nθ, σ2
n
n k=1
und die standardisierte Zufallsvariable
T (X, θ) =
X −θ
√σ
n
∼ N0,1 .
b) Seien α1 + α2 = α ∈ (0, 1). Dann gilt nach (2) für alle θ ∈ Θ = R
!
X −θ
σ
σ
1 − α = Pθ qα2 ≤ σ ≤ q1−α1 = Pθ X − √ q1−α1 ≤ θ ≤ X − √ qα2 .
√
n
n
n
Damit hat man das Konfidenzintervall
σ
σ
X − √ q1−α1 , X − √ qα2 .
n
n
1.7 Beispiel: (Binomialverteilung)
a) Seien X1 , . . . , Xn unabhängige B1,θ -verteilte Zufallsvariablen. Betrachte den Standardschätzer für den Parameter θ ∈ (0, 1)
n
1X
X=
Xk
n k=1
mit Erwartungswert θ und Varianz
riable
θ(1−θ)
.
n
Betrachte nun die standardisierte Zufallsva-
X −θ
T (X, θ) = q
.
θ(1−θ)
n
Nach dem zentralen Grenzwertsatz konvergiert die Verteilungsfunktion von T punktweise
gegen die der Normalverteilung (Konvergenz in Verteilung). Für α ∈ (0, 1) wird nun ein
approximatives symmetrisches Kofidenzintervall berechnet. Für alle θ ∈ (0, 1) gilt dann
nach (2)


X −θ
1 − α ≈ P θ q α ≤ q
≤ q1− α 
2
2
θ(1−θ)
n
6
1 Konfidenzintervalle


X −θ
= Pθ −q1− α ≤ q
≤ q1− α 
(1)
2
r
X − q1− α
= Pθ
2
θ(1−θ)
n
2
θ(1 − θ)
≤ θ ≤ X + q1− α
2
n
r
θ(1 − θ)
n
!
Diese Approximation ist gut, wenn2
min{nθ, n(1 − θ)} ≥ 5.
Man kann die zweite Zeile der obigen Rechnung so umformen, dass sich eine quadratische
Gleichung für θ ergibt, die leicht (mit etwas Rechenaufwand) gelöst werden kann. Im
Folgenden setze q := q1− α . Man erhält dann als Konfidenzintervall
2


X+
q2
2n
−
√q
n
q
X(1 − X) +
1+
q2
2n
q2
4n
X+
,
q2
2n
+
√q
n
q
X(1 − X) +
1+
q2
2n
q2
4n

.
(3)
Für hinreichend große n können die Terme mit n1 vernachlässigt werden und man erhält
das etwas einfachere Intervall


s
s
X − q X(1 − X) , X + q X(1 − X)  .
n
n
Ein sehr einfaches Intervall erhält man, wenn man in der letzten Zeile der obigen Rechnung die Abschätzung
(4)
θ(1 − θ) ≤ 41
verwendet
q
q
X− √ ≤θ≤X+ √ .
2 n
2 n
(5)
Natürlich vergrößert man dadurch das Konfidenzintervall zusätzlich.
b) Problem: Bei einer Wahlumfrage sollen n Personen befragt werden, ob sie eine Partei A wählen. Es soll ein Konfidenzintervall zum Konfidenzniveau 1 − α = 0.95 (also
α = 0, 05, d.h. 1 − α2 = 0, 975) für den Stimmenanteil θ ∈ (0, 1) konstruiert werden,
dessen Länge höchstens 0.02 sein soll. Wie viele Personen müssen dafür befragt werden?
Lösung: Die Befragung kann als n-malige unabhängige Wiederholung eines B1,θ Experiments mit θ ∈ (0, 1) modelliert werden. Besonders günstig ist in diesem Fall die
2
Diese Faustregel kann mit dem Satz von Berry-Esseen begründet werden (vgl. [CS] 5.1). Der Satz
von Berry-Esseen macht eine Aussage über die Güte der Konvergenz im Zentralen Grenzwertsatz.
Qualitativ ist die Konvergenz beim zentralen Grenzwertsatz wie √1n (vgl. [WIK]).
7
1 Konfidenzintervalle
Verwendung des Konfidenzintervalls aus (5). Damit folgt für die Intervalllänge
q0,975
q0,975
q0,975
⇒X+ √ − X− √
= √
≤ 0.02
2 n
2 n
n
2
q0,975
2
= 2500 · q0,975
≈ 2500 · 1, 962 ≈ 9604.
⇒n≥
0, 0004
Führt man dieselbe (aber nun deutlich aufwendigere) Rechnung mit dem komplizierten
Konfidenzintervall aus Gleichung (3) durch, so erhält man als Untergrenze für n dasselbe
Ergebnis (n ≥ 9063, 9996, im Laufe der Rechnung wurde auch die Abschätzung aus (4)
verwendet).
Das Konzept des Konfidenzintervalls lässt sich auch auf den mehrdimensionalen Fall
übertragen. Man spricht dann nicht mehr von einem Konfidenzintervall, sondern von
einem Konfidenzbereich.
1.8 Definition: (Mehrdimensionale Konfidenzbereiche)
Seien α ∈ (0, 1), θ ∈ Θ ⊆ Rm und Tj− , Tj+ : Rn → R Statistiken mit Tj− ≤ Tj+ für
j = 1, . . . , m. Der m-dimensionale Quader
Q(X) := {x ∈ Rm | Tj− (X) ≤ xj ≤ Tj+ (X), j = 1, . . . , m}
heißt Konfidenzbereich zum Konfidenzniveau 1 − α, falls
Pθ (θ ∈ Q(X)) ≥ 1 − α
für alle in Frage kommenden Parameter θ ∈ Θ gilt.
1.9 Bemerkung:
Seien Qj (X) := [Tj− (X), Tj+ (X)] jeweils 1 − αj Konfidenzintervalle für θj und alle
(Tj− (X), Tj+ (X)) für j = 1, . . . , m unabhängig. Dann gilt
Pθ ({θ ∈ Θ | θj ∈ Qj (X), j = 1, . . . , m}) =
m
Y
j=1
m
Y
Pθ ({θ ∈ Θ | θj ∈ Qj (X)}) ≥
(1 − αj ).
j=1
Also ist
Q(X) := Q1 (X) × · · · × Qm (X)
Q
ein Konfidenzbereich zum Niveau m
j=1 (1−αj ). Bei der Produktbildung von Konfidenzintervallen erhält man also wieder einen Konfidenzbereich (wenn die beteiligten Statistiken
unabhängig sind), allerdings zu einem geringeren Konfidenzniveau.
8
2 Das Testen von Hypothesen
2 Das Testen von Hypothesen
Es seien eine Zufallsstichprobe X = (X1 , . . . , Xn ) von unabhängigen, identisch verteilten Zufallsvariablen Xi und eine konkrete Stichprobe x = (x1 , . . . , xn ) ∈ Rn , die als
Realisierung von X interpretiert wird, gegeben. Sei Θ ⊆ R ein Parameterraum und
P := {Pθ | θ ∈ Θ} die Menge aller potentiellen Verteilungen, die der Stichprobe (d.h.
den Xi ) zugrunde liegen können. Ziel des statistischen Testens ist es, sich anhand der
Stichprobe zwischen Hypothesen über den wahren Parameter θ ∈ Θ zu entscheiden.
Dabei macht man zwangsläufig Fehler, da natürlich nur Wahrscheinlichkeitsaussagen
möglich sind. Als Anwender muss man dabei immer abwägen, welche Unsicherheit man
beim Test akzeptiert.
2.1 Motivation: (VW-Skandal)
Eine US-Bundesbehörde untersucht Abgaswerte für Autos. Sie möchte nachweisen, dass
der mittlere Abgaswert θ bei einer bekannten deutschen Automarke höher als der erlaubte Grenzwert θ0 ist. Dazu werden n ∈ N Autos untersucht. Der gemessene Abgaswert
jedes Autos wird dabei für θ ∈ Θ = R als Nθ,σ2 -verteilte Zufallsvariable Xi , i = 1, . . . , n
modelliert (zur Vereinfachung sei angenommen, dass die Standardabweichung σ bekannt
sei, z.B. durch Untersuchungen des Prüfstands). Sinnvolle Hypothesen zu dieser Untersuchung sind:
• H0 : Die Marke hält den Grenzwert ein, d.h. θ ≤ θ0 .
• H1 : Die Marke übersteigt den Grenzwert, d.h. θ > θ0 .
Bei der Durchführung der Untersuchung kann sich jetzt herausstellen, dass der gemessene
Abgaswert deutlich höher ist θ >> θ0 , dass er deutlich niedriger ist θ << θ0 oder, dass er
etwa dem Grenzwert entspricht θ ≈ θ0 . Im ersten Fall wäre man geneigt H0 zu verwerfen,
im zweiten Fall würde man H0 akzeptieren und im dritten Fall tut man sich schwer eine
Entscheidung zu treffen, da das Ergebnis der Stichprobe nur zufällig etwas höher oder
niedriger gewesen sein könnte. Es stellt sich jetzt die Frage:
Wieviel muss θ von θ0 abweichen, damit man H0 mit großer Sicherheit verwerfen kann?
Im Folgenden werden auf Wahrscheinlichkeitsaussagen basierende Entscheidungsregeln
für diese Problematik eingeführt und untersucht. Dabei ist stets zu beachten, dass sich
empirische Aussagen immer nur als falsch erweisen können (Stichwort: Falsifizierbarkeit). Man kann also auch von statistischen Tests nicht erwarten, dass sie besagen: Eine
Hypothese ist wahr. Es wird lediglich möglich sein, eine Hypothese zu verwerfen. Damit
einher geht aber auch immer ein gewisses Risiko, falsch zu liegen.
2.2 Definition:
a) Es seien Θ0 , Θ1 ⊆ Θ disjunkt mit Θ0 ∪ Θ1 = Θ. Dann heißt H0 : θ ∈ Θ0 die NullHypothese (von engl. to nullify = entkräften) und H1 : θ ∈ Θ1 die Alternative.
b) Eine messbare Funktion δ : Rn → [0, 1] heißt Test. Dabei bedeutet
9
2 Das Testen von Hypothesen
• δ(X) = 0: Die Null-Hypothese wird akzeptiert.
• δ(X) = 1: Die Null-Hypothese wird verworfen.
c) Fehlerarten:
H0 wahr
H1 wahr
H0 wird akzeptiert
kein Fehler
Fehler 2-ter Art
H0 wird verworfen
Fehler 1-ter Art
kein Fehler
d) Sei δ : Rn → [0, 1] ein Test. Dann heißt
Gδ : Θ → [0, 1], Gδ (θ) := Eθ (δ(X))
Gütefunktion für δ.
2.3 Bemerkung und Definition:
a) Tests mit Wertebereich {0, 1} heißen nichtrandomisierte Tests. Bei randomisierten
Tests kann auch δ(x) = p ∈ (0, 1) auftreten. Man generiert dann eine von X unabhängige Zufallsvariable Y ∼ B1,p mit Werten aus {0, 1} und verwirft H0 , falls Y = 1.
Randomisierte Tests heißen so, weil die Entscheidung neben den erhobenen Daten auch
von dem zusätzlichen B1,p Zufallsexperiment abhängt. Solche Tests sind hauptsächlich
von theoretischer Bedeutung für die Konstruktion „optimaler“ Tests. Im weiteren Verlauf dieser Arbeit werden nur nichtrandomisierte Tests betrachtet (im Folgenden einfach
nur Tests δ : Rn → {0, 1} genannt).
b) Sei δ : Rn → {0, 1} ein Test. Die Menge K0 := δ −1 ({0}) ⊆ Rn heißt Annahmebereich 3
für H0 und K1 := δ −1 ({1}) = Rn \K0 heißt Ablehnungsbereich für H0 . Man kann dann
den Test auch als charakteristische Funktion schreiben
δ(X) = 1K1 (X).
Damit ergibt sich für die Gütefunktion
Z
Z
Gδ (θ) = Eθ (δ(X)) = 1K1 (X) dPθ =
dPθ = Pθ (K1 ) = Pθ (δ(X) = 1).
Rn
(6)
K1
c) Für θ ∈ Θ0 (d.h. H0 ist wahr) ist Gδ (θ) nach Gleichung (6) gerade die Wahrscheinlichkeit für einen Fehler 1-er Art. Für θ ∈ Θ1 (d.h. H0 ist wahr) ist dieser Ausdruck
die Wahrscheinlichkeit dafür, dass der Test der Alternative, wenn sie tatsächlich zutrifft,
auch zustimmt. Die Bezeichnung Gütefunktion ist also sinnvoll.
Die Wahrscheinlichkeit für einen Fehler 2-ter Art ist ebenfalls nach Gleichung (6) gegeben durch 1 − Gδ (θ) für θ ∈ Θ1 .
3
Dabei bedeutet Annahmebereich nicht, dass H0 richtig ist, sondern nur, dass man bisher keinen
ausreichenden Nachweis dafür hat, H0 zu verwerfen.
10
2 Das Testen von Hypothesen
d) Für α ∈ (0, 1) und einen Test δ gelte
Gδ (θ) = Pθ (δ(X) = 1) ≤ α,
∀ θ ∈ Θ0 .
(7)
Dann heißt δ ein Test zum Signifikanzniveau α. Gilt in Gleichung (7) stets Gleichheit,
so spricht man von einem Level-α Test.
Man gibt eine obere Schranke für den Fehler erster Art an, damit man bei der Entscheidung für die Alternative H1 (falls der Test zu diesem Ergebnis kommt) sagen kann, dass
man mit Wahrscheinlichkeit 1 − α davon ausgeht, dass die Nullhypothese H0 falsch ist.
Typische Signifikanzniveaus sind etwa 5% oder 1%.
2.4 Praktisches Vorgehen beim Hypothesentest:
a) Wähle die Hypothese, die man „zeigen“ möchte als H1 und die, die man verwerfen
möchte als H0 .
b) Lege das Signifikanzniveau α ∈ (0, 1), d.h. eine Obergrenze für die Wahrscheinlichkeit
eines Fehlers 1-er Art, fest.
c) Finde eine geeignete Statistik T : Rn → R, deren Verteilung unabhängig von θ ist
und zwar ∀ θ ∈ Θ0 . Dann gilt für alle θ ∈ Θ0 und α1 + α2 = α ∈ (0, 1) stets
1 − α = 1 − α1 − α2 = F q1−α1 − F qα2 = Pθ qα2 ≤ T (X) ≤ q1−α1 .
Daraus folgt sofort
α = 1 − Pθ qα2 ≤ T (X) ≤ q1−α1 = Pθ T (X) ∈
/ qα2 , q1−α1 .
(8)
Mit K1 := R\ qα2 , q1−α1 ergibt sich daraus
α = Pθ (1K1 (T (X)) = 1) .
Also hat man mit δ(X) := 1K1 (T (X)) einen Level-α Test.
d) Seien I(X) := [T − (X), T + (X)] ein 1 − α Konfidenzintervall für θ und θ0 ∈ Θ fest.
Dann wird durch
δ(X) := 1R\I(X) (θ0 )
ein Test für H0 : θ = θ0 gegen H1 : θ 6= θ0 zum Signifikanzniveau α definiert, denn ähnlich
zu Teil c) folgert man: Für alle θ ∈ Θ gilt 1 − α ≤ Pθ (θ ∈ I(X)) also insbesondere auch
für θ0 . Daher hat man
1 − α ≤ Pθ0 (θ0 ∈ I(X)) = 1 − Pθ0 (θ0 ∈
/ I(X)).
Subtrahiert man auf beiden Seiten 1 und multipliziert mit −1, so erhält man
α ≥ Pθ0 (θ0 ∈
/ I(X)) = Pθ0 1R\I(X) (θ0 ) = 1 .
Man kann also aus einem Konfidenzintervall stets einen Test konstruieren. Ebenso kann
11
2 Das Testen von Hypothesen
man aus Tests unter entsprechenden Annahmen auch Konfidenzintervalle konstruieren
(vgl. [CS], 5.3.2)
2.5 Beispiel: (Normalverteilung mit unbekanntem Erwartungswert)
Seien σ 2 > 0 bekannt und X1 , . . . , Xn ∼ Nθ,σ2 unabhängig.
a) Für Θ0 , Θ1 ⊆ Θ = R disjunkt mit Θ0 ∪ Θ1 = R soll die Hypothese H0 : θ ∈ Θ0
gegen H1 : θ ∈ Θ1 getestet werden. Das Signifikanzniveau sei α ∈ (0, 1). Betrachte den
Standardschätzer für den Erwartungswert
n
1X
X=
Xk ∼ Nθ, σ2
n
n k=1
und als Teststatistik die standardisierte Zufallsvariable
T (X) =
X −θ
√σ
n
∼ N0,1 .
Seien α1 , α2 = α ∈ (0, 1). Dann gilt nach (8) für alle θ ∈ Θ0
σ
σ
α = Pθ T (X) ∈
/ qα2 , q1−α1 = Pθ X − θ ∈
/ qα2 √ , q1−α1 √
.
n
n
(9)
b) Zweiseitiger Test: Seien θ0 ∈ R fest und Θ0 = {θ0 }, sowie Θ1 = R\{θ0 }. Mit α1 =
α2 = α2 folgt nach (9):
σ
σ
σ
σ
(1)
= Pθ0 X − θ0 ∈
.
α = Pθ0 X − θ0 ∈
/ q α √ , q1− α √
/ −q1− α √ , q1− α √
2
2
2
2
n
n
n
n
h
i
σ
σ
√
√
Mit K1 := R\ θ0 − q1− α n , θ0 + q1− α n ergibt sich daraus der zweiseitige Level-α Test
2
2
δ(X) := 1K1 (X).
c) Einseitiger Test 1: Seien θ0 ∈ R fest und Θ0 = (−∞, θ0 ], sowie Θ1 = (θ0 , ∞). Mit
α1 = α und α2 = 0 folgt4 für θ ≤ θ0 nach (9):
σ
σ
α = Pθ X − θ ∈
/ −∞, q1−α √
= Pθ0 X − θ0 ∈
/ −∞, q1−α √
.
n
n
i Mit K1 := R\ −∞, θ0 + q1−α √σn = θ0 + q1−α √σn , ∞ ergibt sich daraus der einseitige
Level-α Test δ(X) := 1K1 (X) für das Anfangsbeispiel 2.1. D.h. für
σ
X ≤ θ0 + q1−α √
n
4
q0 = −∞
12
2 Das Testen von Hypothesen
kann keine Überschreitung des Grenzwerts nachgewiesen werden. Andererseits entscheidet man sich im Fall
σ
X > θ0 + q1−α √
n
dafür, dass der Abgaswert zu hoch ist.
d) Einseitiger Test 2: Seien θ0 ∈ R fest und Θ0 = [θ0 , ∞), sowie Θ1 = (−∞, θ0 ). Mit
α1 = 0 und α2 = α folgt5 für θ ≥ θ0 nach (9):
σ
σ
α = Pθ X − θ ∈
/ qα √ , ∞
= Pθ0 X − θ0 ∈
/ qα √ , ∞
.
n
n
h
σ
σ
√
√
Mit K1 := R\ θ0 + qα n , ∞ = −∞, θ0 + qα n ergibt sich daraus der einseitige
Level-α Test δ(X) := 1K1 (X) für das Anfangsbeispiel 2.1 bei Vertauschung der Hypothesen. Dieser Test entspricht dem Gegentest des Autounternehmens, das nachweisen
möchte, dass der Grenzwert eingehalten wird. Für
σ
X ≥ θ0 + qα √
n
kann nicht nachgewiesen werden, dass Grenzwert eingehalten wird. Andererseits entscheidet man sich im Fall
σ
X < θ 0 + qα √
n
dafür, dass der Abgaswert die Vorgaben erfüllt.
e) Konkretes Signifikanzniveau: Sei α = 5% = 0.05. Dann ergibt sich
q0,05 = −1, 645
1
und
q0,95 = q1−0,05 = 1, 645.
Beim den Tests aus c) und d) ergeben sich also die jeweiligen Annahmebereiche
σ
c) X ≤ θ0 + 1, 645 · √
n
σ
d) X ≥ θ0 − 1, 645 · √
n
bzw. Ablehnungsbereiche
σ
c) X > θ0 + 1, 645 · √
n
σ
d) X < θ0 − 1, 645 · √ .
n
Bei einem Messergebnis in
σ
σ
θ0 − 1, 645 · √ , θ0 + 1, 645 · √
n
n
kann die Behörde im Rahmen des Tests nicht nachweisen, dass der Wert überschritten
wird, während die Automarke nicht nachweisen kann, dass sie den Abgaswert einhält.
5
q1−0 = q1 = ∞
13
2 Das Testen von Hypothesen
Mit Hilfe des zentralen Grenzwertsatzes kann man wie auch bei Konfidenzintervallen
approximativ Tests konstruieren. Dies wird hier exemplarisch für die Binomialverteilung
vorgestellt.
2.6 Beispiel: (Binomialverteilung)
Seien X1 , . . . , Xn unabhängige B1,θ0 -verteilte Zufallsvariablen. Betrachte den Standardschätzer für den Parameter θ0 ∈ (0, 1)
n
X=
mit Erwartungswert θ0 und Varianz
variable
1X
Xk
n k=1
θ0 (1−θ0 )
.
n
Betrachte nun die standardisierte Zufalls-
X − θ0
T (X, θ) = q
.
θ0 (1−θ0 )
n
Nach dem zentralen Grenzwertsatz konvergiert die Verteilungsfunktion von T punktweise gegen die der Normalverteilung (Konvergenz in Verteilung). Im Folgenden wird
die Hypothese H0 : θ = θ0 gegen H1 : θ > θ0 getestet Für θ0 gilt dann nach (8) mit
α1 = α2 = α2
α ≈ Pθ0 T (X) ∈
/ qα , q α
1−
2
"2
#!
r
r
θ0 (1 − θ0 )
θ0 (1 − θ0 )
(1)
= Pθ0 X − θ0 ∈
/ −q α
,q α
1−
1−
n
n
2
2
"
#!
r
r
θ0 (1 − θ0 )
θ0 (1 − θ0 )
= Pθ 0 X ∈
/ θ0 − q α
, θ0 + q α
.
1−
1−
n
n
2
2
Man erhält als Ablehnungsbereich
"
K1 := (0, 1)\ θ0 − q
1−
r
α
2
θ0 (1 − θ0 )
, θ0 + q α
1−
n
2
r
#
θ0 (1 − θ0 )
.
n
Daraus ergibt sich
α = Pθ0 1K1 (X) = 1 .
Also hat man mit δ(X) := 1K1 (X) einen approximativen Level-α Test.6
2.7 Beisiel: (Schulbuchaufgabe, vgl. [LS] S. 407, Aufgabe 2)
Aufgabe: Pralinenbeutel werden mit einem Sollgewicht von µ = 500 g bei einer Standardabweichung von σ = 5 g befüllt. Bei einer Produktionskontrolle wird das Gewicht
6
Die Approximation ist gut, wenn gilt min{nθ, n(1 − θ)} ≥ 5 [vgl. 1.7].
14
2 Das Testen von Hypothesen
einer Stichrobe aus zehn Tüten kontrolliert. Das mittlere Gewicht betrug 495 g.
Muss man die Hypothese µ = 500 g verwerfen und die Maschine neu einstellen?
Lösung: Die Nullhypothese lautet H0 : µ = 500, die Alternative H1 : µ 6= 500. Das
Gewicht einer Tüte wird als N500,52 -verteilte Zufallsvariable modelliert. Dann ist auch
der Mittelwert aus zehn Gewichten normalverteilt mit Erwartungswert µ = 500 und
Standardabweichung σ = √510 . Zum Signifikanzniveau α = 0, 05 (wird in der Aufgabe
nicht angegeben, da im Buch stets von 5% Signifikanzniveau ausgegangen wird) ergibt
sich nach 2.5 b)
5
5
K1 = 500 − 1, 96 · √ , 500 + 1, 96 · √
≈ [496, 90; 503, 10] .
10
10
Für den gemessenen Wert von 495 g liefert der zugehörige Test also
δ(495) = 1R\[496,90;503,10] (495) = 1.
Die Nullhypothese wird also verworfen und die Maschine muss verstellt werden.
c) Anmerkungen: Vom vorliegenden Schulbuch wird die Lösung natürlich ohne den Test
δ und die Formalisierung der Hypothesen erwartet. Am Anfang des Kapitels über Tests
wird die Formel für den Annahmebereich eines 5% Tests angegeben. Alle Aufgaben
bestehen nur daraus, die gegebenen Werte für µ und σ einzusetzen und zu prüfen, ob
der angegebene Wert in dem zuvor berechneten Intervall liegt oder nicht. Andererseits
gibt es allerdings viele verschiedene Kontexte, die zum Teil sogar authentisch sind.
15
2 Das Testen von Hypothesen
Abkürzungsverzeichnis
X ∼ P : Die Zufallsvariable X ist P -verteilt
(
1, ω ∈ S
1S : Charakteristische Funktion 1S : Ω → {0, 1}, 1S (ω) =
0, ω ∈
/S
16
Literatur
Literatur
[CS]
Claudia Czado, Thorsten Schmidt: Mathematische Statistik. Springer. 2011.
[LS]
Lambacher Schweizer: Mathematik für Gymnasien - Qualifikationsphase, Leistungskurs, NRW. 1. Auflage. Klett. 2011.
[NRW]
Schulministerium NRW: Vorgaben zu den unterrichtlichen Voraussetzungen
für die schriftlichen Prüfungen im Abitur in der gymnasialen Oberstufe im Jahr
2016 - Vorgaben für das Fach Mathematik. https://www.standardsicherung.
schulministerium.nrw.de/abitur-gost/getfile.php?file=3404
[SP]
Evgeny Spodarev: Vorlesungsskript Statistik II. Universität Ulm. 2009
https://www.uni-ulm.de/fileadmin/website_uni_ulm/mawi.inst.110/
mitarbeiter/spodarev/publications/scripts/statistik.pdf
[WIK]
Wikipedia. Satz von Berry-Esseen. https://de.wikipedia.org/wiki/Satz_
von_Berry-Esseen
[ZK]
Zakhar Kabluchko: Vorlesungsskript Stochastik I (Statistik). Universität
Ulm. 2013 https://www.uni-ulm.de/fileadmin/website_uni_ulm/mawi.
inst.110/lehre/ss13/Stochastik_I/Skript_Stochastik_I.pdf
17