Sch tzen und Testen

Werbung
Kapitel 5
Schätzen und Testen
Die Schätzung von Verteilungsparametern und das Testen von Hypothesen gehören
zum Gebiet der induktiven Statistik oder, wie man heute mehr und mehr sagt, der
Inferenzstatistik. Die empirische Grundlage für jede statistische Arbeit bilden Daten, die meist Zufallsstichproben aus definierten Zielpopulationen sind. Methoden
zur Beschreibung der Verteilung von Stichprobenwerten und des Zusammenhangs
zwischen den Werten verschiedener Stichproben wurden bereits in den vorangehenden Kapiteln besprochen und werden im ersten Abschnitt dieses Kapitels weiter
ergänzt. Die Datenbeschreibung ist meist nur der erste Schritt einer statistischen
Auswertung, bei der es primär um Aussagen über die Zielpopulation geht. Diese
gewinnt man, in dem man versucht, die in Stichproben festgestellten Ergebnisse
und Sachverhalte auf die Zielpopulation zu übertragen oder Vermutungen über die
Zielpopulation mit den Beobachtungsdaten zu bestätigen. Das zuerst genannte Ziel
wird methodisch in der Parameterschätzung umgesetzt, das zweite im Rahmen von
Testverfahren. Die Parameterschätzung (in den Abschnitten 2 und 5) befasst sich
mit der Schätzung des Mittelwerts und der Varianz einer normalverteilten Zufallsvariablen, mit der Schätzung des Anstiegs einer Regressionsgeraden sowie mit der
Schätzung einer Wahrscheinlichkeit. Bei den Testverfahren (in den Abschnitten 4
und 5) geht es um Vergleiche mit Mittelwerten und Wahrscheinlichkeiten. Wie man
die Annahme einer normalverteilten Zielpopulation überprüft, wird im dritten Abschnitt ausgeführt.
5.1 Datenbeschreibung
5.1.1 Grundgesamtheit und Stichprobe
Es sei X ein quantitatives Merkmal, z.B. ein Messmerkmal oder ein Zählmerkmal.
Aussagen über die Verteilung des Merkmals in einer Zielpopulation (man bezeichnet diese auch als Grundgesamtheit) erhält man mit Hilfe von Zufallsstichproben.
301
302
5 Schätzen und Testen
Zur Veranschaulichung der Begriffe „Grundgesamtheit“ und „Zufallsstichprobe“
betrachten wir zwei typische Beispiele aus der Praxis.
Das erste Beispiel ist der Qualitätssicherung entnommen. Aus einem Produktionslos mit sehr großem Umfang N werden durch zufällige Ziehungen n N Produkte ausgewählt und die Qualität X eines jeden ausgewählten Produkts überprüft.
Ist das Produkt ohne Fehler, erhält X den Wert null, andernfalls den Wert eins. Die
Beobachtung der Qualität der ausgewählten Produkte führt auf eine aus den Zahlen
null und eins bestehende Folge, die eine Zufallsstichprobe bildet. Die Grundgesamtheit besteht aus allen Produkten des Loses. Wenn man sich auf das Merkmal
X beschränkt, kann jedes Produkt durch seinen Merkmalswert erfasst und folglich
die Grundgesamtheit auch als Gesamtheit aller Merkmalswerte angesehen werden.
Die Zufallsstichprobe ergibt sich dann durch Zufallsauswahl (Ziehen mit Zurücklegen oder Ziehen ohne Zurücklegen) von n Elementen aus dieser Gesamtheit. Bei
großem N lassen sich die Werte der Zufallsstichprobe als Realisierungen einer B1,p verteilten Zufallsvariablen mit einer gewissen Wahrscheinlichkeit p = P(X = 1) erzeugen und man spricht in diesem Fall von einer B1,p -verteilten Grundgesamtheit.
Im zweiten Beispiel geht es um die Messung einer Größe, von der wir annehmen,
dass sie den wahren Wert µ besitze. Bei der Messung überlagert sich dem wahren
Wert ein Messfehler E, den wir uns als eine mit dem Mittelwert null und der Fehlervarianz σE2 normalverteilte Zufallsvariable vorstellen. Somit setzt sich das Ergebnis
X der Messung aus dem wahren Wert µ und dem Messfehler E zusammen. Bezeichnen e1 , e2 , . . . en die Realisierungen von E bei n Messwiederholungen, so können die erhaltenen Messwerte durch xi = µ + ei (i = 1, 2, . . . , n) dargestellt werden.
Die Messwerte bilden eine Zufallsstichprobe aus der N(µ, σE2 )-verteilten Grundgesamtheit X. Diese kann man als Gesamtheit der Messergebnisse ansehen, die mit
der Modellgleichung X = µ + E generiert werden können.
In beiden Beispielen wird die Grundgesamtheit abstrakt durch eine Variable X
mit einer bestimmten Verteilungsfunktion dargestellt. Kennt man die Parameter der
Verteilungsfunktion, so lässt sich eine Zufallsstichprobe (d.h. eine Folge von Realisierungen) von X mit entsprechenden Zufallszahlengeneratoren erzeugen. Für die
Praxis bedeutsamer ist die Umkehraufgabe: Gegeben ist eine Zufallsstichprobe von
X und es soll mit den Stichprobewerten auf die unbekannten Parameter der Verteilungsfunktion zurück geschlossen werden. Informationen über die Stichprobe gewinnt man im Rahmen einer Datenbeschreibung. Speziell handelt es sich um eine 1-dimensionale oder unvariate Datenbeschreibung, wenn man Stichprobenwerte
von nur einer Variablen betrachtet bzw. bei mehreren Variablen jede Stichprobe für
sich alleine betrachtet. Die Stichprobenwerte einer Variablen X nennt man auch eine
Beobachtungs- oder Messreihe und schreibt sie allgemein in der Form x1 , x2 , . . . , xn
an.
5.1 Datenbeschreibung
303
5.1.2 Lage- und Streuungsmaße
Die Verteilung der Werte x1 , x2 , . . . , xn einer Stichprobe vom Umfang n wird in kompakter Form mit Hilfe von Kennzahlen beschrieben. Dabei ist es nützlich, sich die
Stichprobenwerte als Datenpunkte auf der Zahlengeraden vorzustellen. Das klassische Maß zur Kennzeichnung
des Zentrums der Punkte ist das arithmetische Mit
tel x̄ = ∑ni=1 xi /n. Die Streuung der Datenpunkte um ihr Zentrum, also um x̄, wird
meist durch die Standardabweichung
s
1 n
s=
∑ (xi − x̄)2
n − 1 i=1
bzw. durch die Varianz s2 ausgedrückt. Das arithmetische Mittel und die Standardabweichung – beide Kennzahlen wurden bereits in Abschnitt 1.1 eingeführt – sind
gut interpretierbare Maße für die mittlere Lage bzw. die Streuung der Stichprobenwerte, wenn die Grundgesamtheit annähernd normalverteilt ist und es keine extremen Stichprobenwerte gibt, die durch nicht kontrollierte Störeinflüsse zustande gekommen sind. Sind diese Voraussetzungen nicht erfüllt, verwendet man besser den
Median Q2 als mittleres Lagemaß und den Quartilabstand IQR als Streuungsmaß.
Wie in Abschnitt 1.1 ausgeführt wurde, kann der Median für rangskalierte Daten
(und damit im Besonderen auch für Messdaten) bestimmt werden. Für die Interpretation des Medians ist folgende Eigenschaft nützlich: Mindestens 50% der Stichprobenwerte sind kleiner oder gleich Q2 und mindestens 50% größer oder gleich
Q2 . Wegen dieser Eigenschaft nennt man den Median auch 50%-Quantil. Betrachtet man nur die Stichprobenwerte kleiner oder gleich Q2 und bestimmt für diese
Stichprobenwerte den Median, so erhält man das untere Quartil Q1 der Stichprobe.
Analog kann das obere Quartil Q3 als Median der Stichprobenwerte größer oder
gleich Q2 berechnet werden.1 Für das untere Quartil gilt, dass mindestens 25% der
Stichprobenwerte kleiner oder gleich Q1 und mindestens 75% größer oder gleich
Q1 sind. Für die Quartile sind auch die Bezeichnungen 25%- bzw. 75%-Quantil
gebräuchlich. Zwischen den Quartilen liegen also rund 50% der Stichprobenwerte. Der entsprechende Streubereich wird durch den Quartilabstand IQR = Q3 − Q1
(engl. inter quartile range) erfasst. Zusammen mit dem kleinsten Stichprobenwert
xmin und dem größten Stichprobenwert xmax bilden der Median und die beiden Quartile die sogenannte Fünf-Punkte-Zusammenfassung der Stichprobe. Besonders illustrativ ist, wenn man die Fünf-Punkte-Zusammenfassung in grafischer Form als
Boxplot wiedergibt. In Abb. 5.1 sind drei Boxplots in vertikaler Lage dargestellt.
Die rechteckige „Box“ wird jeweils unten und oben durch das untere bzw. obere
Quartil begrenzt. Die Strecken innerhalb der Rechtecke geben die Mediane wieder. Die Ausläufer nach unten und oben reichen bis zum Maximum von xmin und
Q1 − 1.5IQR bzw. bis zum Minimum von xmax und Q3 + 1.5IQR. Stichprobenwerte
1
Die so definierten Quartile werden als Angelpunkte (engl. hinges) der Stichprobe bezeichnet.
Man beachte, dass es auch andere Definitionen für die Quartile gibt, die zu geringfügig abweichenden Ergebnissen führen können.
304
5 Schätzen und Testen
0
−1
−3
−2
Variable X
1
2
jenseits der Ausläuferenden werden als isolierte Punkte dargestellt und dadurch als
extreme Stichprobenwerte ausgewiesen.2
Stichprobe 1
Stichprobe 2
Stichprobe 3
Abb. 5.1 Boxplots von drei Stichproben, jede mit dem Umfang 10. Die Zufallsstichproben wurden aus der N(0, 1)-verteilten Grundgesamtheit X mit der R-Funktion rnorm() generiert. Die
Ausläufer der zweiten und dritten Stichprobe gehen jeweils bis zu den kleinsten bzw. größten
Stichprobenwerten. In Stichprobe 1 ist der größte Wert mehr als 1.5 IQR vom oberen Quartil Q3
entfernt und als „ausreißerverdächtiger“ Punkt dem Boxplot hinzugefügt.
Beispiel 5.1.
Von einer normalverteilten Grundgesamtheit X liegt die Zufallsstichprobe
0.449, −0.846, −0.466, 0.084, 0.248, 0.222, 2.315, −0.884, 1.622, 0.058
vor. Wir beschreiben die Stichprobe mit den Kennzahlen xmin (kleinster Stichprobenwert), Q1 (unteres Quartil), Q2 (Median), Q3 (oberes Quartil) und xmax
(größter Stichprobenwert). Ferner bestimmen wir den Quartilabstand und stellen die Stichprobe grafisch durch ein Boxplot dar. Der nach aufsteigender Größe
geordneten Stichprobe
−0.884, −0.846, −0.466, 0.058, 0.084, 0.222, 0.248, 0.449, 1.622, 2.315
2
Die Wahrscheinlichkeit, dass eine normalverteilte Zufallsvariable X einen Wert annimmt, der das
obere Quartil um mehr als das 1.5-fache des Quartilabstandes übertrifft oder das untere Quartil um
den gleichen Betrag unterschreitet, ist klein; sie beträgt ca. 0.7% (vgl. Beispiel 2.23b). Wenn ein
derartiger Wert auftritt, besteht daher der Verdacht, dass er durch einen unerwünschten Störfaktor
verursacht wurde und es sich dabei um einen sogenannten „Ausreißer“ handelt.
5.1 Datenbeschreibung
305
entnimmt man unmittelbar xmin = −0.884, xmax = 2.315, Q2 = 12 (0.084 +
0.222) = 0.153. Das untere Quartil Q = −0.466 ist der Median der Stichprobenwerte, die kleiner oder gleich Q2 sind; das obere Quartil Q3 = 0.449 findet
man als Median der Stichprobenwerte größer oder gleich Q2 . Schließlich ist der
Quartilabstand IQR = Q3 − Q1 = 0.915. Wegen xmax > Q3 + 1.5IQR = 1.5255,
ist xmax als ein extremer Stichprobenwert anzusehen.
>
>
+
>
>
>
>
# Lö s u n g m i t R :
x1 <− c ( 0 . 4 4 9 , − 0 . 8 4 6 , − 0 . 4 6 6 , 0 . 0 8 4 , 0 . 2 4 8 ,
0.222 , 2.315 , −0.884 , 1.622 , 0.058)
xx <− f i v e n u m ( x1 ) # 5−P u n k t e −Zusammenfassung
min <− xx [ 1 ] ; Q1 <− xx [ 2 ] ; Q2 <− xx [ 3 ] ; Q3 <− xx [ 4 ]
max <− xx [ 5 ] ; i q r <− Q3−Q1
p r i n t ( c b i n d ( min , Q1 , Q2 , Q3 , max , i q r ) , d i g i t s = 4 )
min
Q1
Q2
Q3
max
iqr
[ 1 , ] −0.884 −0.466 0 . 1 5 3 0 . 4 4 9 2 . 3 1 5 0 . 9 1 5
> # B o x p l o t s d e r Abb . 5 . 1
> x2 <− c ( − 0 . 4 3 2 , − 0 . 1 2 5 , − 1 . 0 8 8 , − 1 . 3 7 0 , − 0 . 6 1 7 ,
+
0.172 , −0.402 , −1.757 , −0.058 , −1.734)
> x3 <− c ( − 2 . 0 8 9 , − 0 . 2 0 5 , 1 . 3 3 5 , 0 . 5 4 0 , − 1 . 4 5 6 ,
+
−0.162 , −3.533 , 0 . 2 1 0 , 0 . 0 2 0 , − 1 . 2 3 3 )
> x <− d a t a . f r a m e ( x1 , x2 , x3 )
> par ( cex . a x i s = 1. 3 , cex . l a b = 1 . 3 )
> b o x p l o t ( x , names=c ( " S t i c h p r o b e 1 " , " S t i c h p r o b e 2 " ,
+
" S t i c h p r o b e 3 " ) , y l a b =" V a r i a b l e X" , pch = 18 )
5.1.3 Histogrammschätzer
Wenn der Stichprobenumfang n klein ist, beschränkt sich die Datenbeschreibung im
Wesentlichen auf die Angabe der im vorangehenden Punkt behandelten Kennzahlen.
Bei größerem n (etwa ab n = 15) ist eine detailliertere Beschreibung der Variation
der Stichprobenwerte durch Häufigkeitstabellen und Histogramme angebracht.
Die Grundgesamtheit X sei stetig verteilt (z.B. normalverteilt) mit der Dichtefunktion f . Um eine Vorstellung über f zu erhalten, gehen wir von einer Zufallsstichprobe x1 , x2 , . . . , xn aus und zerlegen die X-Achse in k gleich lange, aneinandergrenzende Intervalle (Klassen) I1 , I2 , . . . , Ik . Zur Festlegung der Klassen bestimmen
wir eine passende Klassenbreite b; dies kann z.B. mit der auf Freedman & Diaconis
(1980) zurückgehenden Formel
IQR
b≈2 √
3
n
(5.1)
erfolgen. Als untere Grenze der ersten Klasse I1 wählen wir eine Zahl c0 derart,
dass c0 kleiner als alle Stichprobenwerte ist und in I1 wenigstens ein Stichprobenwert liegt. Die erste Klasse ist das links offene und rechts abgeschlossene Intervall (c0 , c1 ] mit c1 = c0 + b. Daran schließt die zweite Klasse I2 = (c1 , c2 ] mit
c2 = c1 + b an, daran die dritte Klasse I3 = (c2 , c3 ) mit c3 = c2 + b usw. So fort-
306
5 Schätzen und Testen
0.3
0.2
0.1
0.0
Klassenhäufigkeitsdichte
0.4
fahrend gelangt man schließlich zur letzte Klasse Ik = (ck−1 , ck ], die zumindest den
größten Stichprobenwert enthalten muss. Die Anzahl der Untersuchungseinheiten
in der Klasse Ii ist die absolute Klassenhäufigkeit Hi von Ii . Dividiert man Hi
durch den Stichprobenumfang n und die Klassenbreite b, folgt die KlassenhäuHi
der Klasse Ii . Ordnet man nun jedem Wert x der Klasse Ii
figkeitsdichte gi = nb
die Klassenhäufigkeitsdichte gi als Funktionswert zu, so erhält man den sogenannten Histogramm-Schätzer fˆ der Dichtefunktion f von X. Für x-Werte kleiner oder
gleich c0 oder x-Werte größer als ck verlangen wir zusätzlich fˆ(x) = 0. Man beachte,
dass der Inhalt der Fläche, die der Graph von fˆ und die X-Achse einschließen, durch
∑ki=1 gi b = ∑ki=1 Hi /n = 1 gegeben ist. Der Graph von fˆ wird meist als Histogramm
gezeichnet, d.h. als eine Folge von über den Intervallen Ii errichteten Rechtecken mit
den Höhen gi (i = 1, 2, . . . , k) (vgl. Abb. 5.2). Da die Summe der Rechteckflächen
gleich eins ist, spricht man auch von einem flächennormierten Histogramm.
−3
−2
−1
0
1
2
3
X
Abb. 5.2 Flächennormiertes Histogramm einer Stichprobe mit dem Umfang n = 25 aus einer standardnormalverteilten Grundgesamtheit X. Die Realisierungen von X wurden mit der R-Funktion
rnorm(25) erzeugt. Die Dichtekurve der N(0, 1)-Verteilung ist punktiert eingezeichnet.
Beispiel 5.2.
Mit einem Zufallszahlengenerator wurden n = 25 Realisierungen einer N(0, 1)verteilten Zufallsvariablen X erzeugt. Die nach aufsteigender Größe sortierte
Stichprobe ist:
−2.16, −1.50, −1.17, −1.03, −0.98, −0.91, −0.84, −0.51, −0.43, −0.42,
−0.39, −0.31, −0.24, −0.17, 0.13, 0.18, 0.37, 0.37, 0.50, 0.66,
0.87, 1.17, 1.25, 1.26, 2.88
5.1 Datenbeschreibung
307
Wir stellen die Variation der Stichprobenwerte durch ein Histogramm dar.
Dazu nehmen wir eine Klasseneinteilung vor und bestimmen zuerst die Klassenbreite b. Der sortierten Stichprobe entnimmt man den kleinsten Wert xmin =
−2.6, das 25%-Quantil (Median der ersten 13 Stichprobenwerte) Q2 = −0.84
und das 75%-Quantil Q4 =√
0.5. Daher ist der Quartilabstand IQR = 1.34 und die
Klassenbreite b = 2·1.34/ 3 25 = 0.92 ≈ 1. Mit der unteren Grenze c0 = −3 der
ersten Klasse ergeben sich die Klassen I1 = (−3, −2], I2 = (−2, −1], . . . , I6 =
(2, 3]. Die absoluten Klassenhäufigkeiten sind H1 = 1, H2 = 3, H3 = 10, H4 =
7, H5 = 3, H6 = 1. Die Klassenhäufigkeitsdichten sind g1 = 1/25 = 0.04, g2 =
3/25 = 0.12, g3 = 10/25 = 0.40, g4 = 7/25 = 0.28, g5 = 3/25 = 0.12, g6 =
1/25 = 0.04. Das damit erstellte Histogramm ist in Abb. 5.2 wiedergegeben.
> # Lö s u n g m i t R :
> x <− c ( − 2 . 1 6 , − 1 . 5 0 , − 1 . 1 7 , − 1 . 0 3 , − 0 . 9 8 ,
+
−0 . 9 1 , −0 . 8 4 , −0. 51 , −0. 43 , −0. 42 ,
+
−0 .3 9 , −0 . 31 , −0.24 , −0.17 , 0 . 1 3 ,
+
0.18 , 0.37 , 0.37 , 0.50 , 0.66 ,
+
0.87 , 1.17 , 1.25 , 1.26 , 2.88)
> n <− l e n g t h ( x ) ; i q r <− f i v e n u m ( x ) [ 4 ] − f i v e n u m ( x ) [ 2 ]
> b <− r o u n d ( 2 ∗ i q r / n ^ ( 1 / 3 ) ) ; b # K l a s s e n b r e i t e ( g e r u n d e t )
[1] 1
> r e s <− h i s t ( x , b r e a k s ="FD " , p l o t =F )
> c <− r e s $ b r e a k s ; p r i n t ( c ) # K l a s s e n g r e n z e n
[ 1 ] −3 −2 −1 0 1 2 3
> H <− r e s $ c o u n t s # a b s o l u t e K l a s s e n h ä u f i g k e i t e n
> g <− H / b / n
# Klassenh ä u f i g h k e i t s d i c h t e n
> p r i n t ( r b i n d (H, g ) )
[ ,1] [ ,2] [ ,3] [ ,4] [ ,5] [ ,6]
H 1.00 3.00 10.0 7.00 3.00 1.00
g 0.04 0.12 0.4 0.28 0.12 0.04
Aufgaben
1. Die wiederholte Messungen der Konzentration eines Wirkstoffes ergab im Rahmen eines Ringversuches für zwei Labors die folgenden Werte (Angaben in
mg/l):
Labor A : 2.51 2.36 3.09 2.82 2.42 2.65 2.77 2.34
Labor B : 3.05 2.86 3.41 3.13 3.59 2.83 2.53 3.04
Man vergleiche die Stichproben numerisch mit den Kennzahlen der 5-PunkteZusammenfassung und grafisch durch Boxplots.
2. Die Messgröße Y sei N(µ, σ 2 )-verteilt. Von Y liegt die folgende Messreihe vor
(Angaben in mg):
4.99, 5.40, 6.91, 5.49, 3.91, 4.55, 4.97, 5.11, 5.57, 6.19,
4.15, 4.84, 4.57, 5.20, 3.55, 4.48, 5.13, 4.52, 5.33, 5.65.
308
5 Schätzen und Testen
a) Man berechne auf der Grundlage einer geeigneten Klasseneinteilung die absoluten Klassenhäufigkeiten sowie die Klassenhäufigkeitsdichten und stelle
die Variation der Stichprobenwerte grafisch durch ein flächennormiertes Histogramm dar.
b) Man zeichne die Dichtekurve einer an die Stichprobenwerte angepassten
N(µ, σ 2 )-Verteilung in die Grafik mit dem Histogramm ein; die Anpassung
nehme man so vor, dass die Parameter µ und σ näherungsweise durch das
arithmetische Mittel x̄ bzw. die Standardabweichung s der Stichprobenwerte
ersetzt wird.
5.2 Parameterschätzung bei normalverteilter Grundgesamtheit
5.2.1 Stichprobenmittel und Stichprobenvarianz
Es sei X eine N(µ, σ 2 )-verteilte Grundgesamtheit. Schon die übereinstimmende
Benennung des Mittelwerts µ der Grundgesamtheit X und des Mittelwerts x̄n =
∑ni=1 xi /n einer Zufallsstichprobe x1 , x2 , . . . , xn aus X legt nahe, x̄n als einen Schätzwert für µ zu betrachten. Tatsächlich ist es vorteilhaft, µ durch x̄n zu schätzen.
Bevor wir uns mit der Frage befassen, wie man die Güte eines Schätzverfahrens beurteilen kann, ist es wichtig, x̄n als Realisierung einer Zufallsvariablen zu begreifen;
für diese Zufallsvariable schreiben wir X̄n und bezeichnen sie als Stichprobenmittel. Durch das Stichprobenmittel X̄n wird also jeder n-elementigen Zufallsstichprobe
aus X das arithmetische Mittel x̄n dieser Stichprobe zugeordnet. Um die Abhängigkeit von einer Stichprobe auszudrücken, nennt man das Stichprobenmittel daher
auch eine Stichprobenfunktion oder Schätzfunktion. Wir stellen uns nun sehr viele Zufallsstichproben x1 , x2 , . . . , xn aus der Grundgesamtheit X vor und berechnen
zu jeder Stichprobe das arithmetische Mittel. Dann kann man die Variation dieser
arithmetischen Mittelwerte durch ein Histogramm darstellen und damit die Dichtefunktion von X̄n schätzen. In Abb. 5.3 wurde diese Idee umgesetzt. Das Beispiel
lässt vermuten, dass das Stichprobenmittel wie die Grundgesamtheit mit demselben Mittelwert normalverteilt ist, die Standardabweichung des Stichprobenmittels
jedoch unter der Standardabweichung der Grundgesamtheit liegt.
Diese Vermutung gilt allgemein für jedes n > 1 und kann wie folgt präzisiert
werden:
• Bei einer mit dem Mittelwert µX und der Standardabweichung σX normalverteilter Grundgesamtheit X ist für jedes n > 1 auch das Stichprobenmittel X̄n
normalverteilt.3
• Für den Mittelwert und die Standardabweichung des Stichprobenmittels gilt:
3
Ist X nicht normalverteilt, so „nähert“ sich nach dem zentralen Grenzwertsatz die Verteilung von
X̄n mit wachsendem n einer Normalverteilung mit den durch (5.2) gegebenen Parametern.
0.0 0.5 1.0 1.5 2.0
Dichte
5.2 Parameterschätzung bei normalverteilter Grundgesamtheit
309
X9
X
0
1
2
3
4
X, X9
Abb. 5.3 Darstellung der Verteilung der arithmetischen Mittel von 10000 Zufallstichproben, jede
mit dem Umfang n = 9, aus der Grundgesamtheit X ∼ N(µ, σ 2 ) mit µ = 2 und σ = 0.7 durch ein
Histogramm. Die Grundgesamtheit X ist punktiert und die exakte Dichte des Stichprobenmittels
X̄9 strichliert eingezeichnet.
σX
µX̄n = µX und σX̄n = √ (n = 2, 3, . . .)
n
(5.2)
Das Ergebnis (5.2) ist von großer praktischer Bedeutung. Die erste Gleichung bringt
zum Ausdruck, das der Mittelwert µX̄n des Stichprobenmittels X̄n gleich dem Mittelwert µX der Grundgesamtheit X ist. Man bezeichnet diese Eigenschaft des Stichprobenmittels als erwartungstreu.4 Es ist üblich, die Güte der Schätzung des Mittelwertes µX mit dem Stichprobenmittel durch den mittleren quadratischen Fehler
MSE(X̄n ) (mean squared error) zu bewerten. Dieser ist gleich dem Mittelwert aus
dem Quadrat der Abweichung X̄n − µX des Stichprobenmittels vom Mittelwert µX
der Grundgesamtheit. Wenn MSE(X̄n ) klein ist, hat man eine hohe Wahrscheinlichkeit, dass das Stichprobenmittel einen Wert in einer kleinen Umgebung um µX
annimmt. Wegen (5.2) ist der mittlere quadratische Fehler des Stichprobenmittels
durch
σ2
MSE(X̄n ) = µ(X̄n −µX )2 = X
(5.3)
n
gegeben und geht mit wachsendem n gegen null. Eine Schätzfunktion, für die der
mittlere quadratische Fehler für n → ∞ verschwindet, wird konsistent im quadratischen Mittel genannt. Das Stichprobenmittel ist eine im quadratischen Mittel konsistente Schätzfunktion für µX . Die Wurzel aus dem mittleren
√ quadratischen Fehler
des Stichprobenmittels wird als Standardfehler σX̄ = σX / n des Mittelwerts bezeichnet.
4
Die Eigenschaft „erwartungstreu“ kann man anschaulich so umschreiben: Wählt man wiederholt Zufallsstichproben desselben Umfangs aus X aus und berechnet mit dem Stichprobenmittel
Schätzwerte für µX , so stimmt das arithmetische Mittel dieser Schätzwerte umso besser mit µX
überein, je größer die Zahl der Wiederholungen ist.
310
5 Schätzen und Testen
0.00
Dichte
0.04
0.08
0.12
Die (empirische) Varianz einer Zufallsstichprobe x1 , x2 , . . . , xn aus der Grund1
gesamtheit X wurde in Abschnitt 1.1 durch die Formel s2n = n−1
∑ni=1 (xi − x̄n )2
2
definiert. Analog zum arithmetischen Mittel x̄n ist auch sn als Realisierung einer
Zufallsvariablen zu sehen, die man als Stichprobenvarianz Sn2 bezeichnet. Durch
die Stichprobenvarianz wird jeder n-elementigen Zufallsstichprobe aus X die empirische Varianz s2n zugeordnet. Um eine Vorstellung von der Verteilung der Stichprobenvarianz zu erhalten, denken wir uns wieder eine große Anzahl von n-elementigen
Zufallsstichproben aus der Grundgesamtheit X und berechnen für jede dieser Stichproben die Varianz. Stellt man die Variation der erhaltenen Varianzen mit Hilfe eines
Histogramms dar, so erhält man eine Grafik von der Art der Abb. 5.4. In dieser Abbildung ist die Grundgesamtheit X als normalverteilt mit den Parametern µX = 2 und
σX2 = 0.7 angenommen und der Umfang der Zufallsstichproben mit n = 9 festgelegt.
Horizontal ist die mit (n−1)/σ 2 multiplizierte Stichprobenvarianz aufgetragen. Die
Verteilung der Größe (n − 1)Sn2 /σX2 kann exakt angegeben werden: Es handelt sich
dabei um die Chiquadrat-Verteilung mit n − 1 Freiheitsgraden.
0
5
10
(n − 1)S2 σ2
15
20
Abb. 5.4 Histogramm der mit dem Faktor (n − 1)/σX2 multiplizierten Varianzen von 10000 Zufallsstichproben (jede mit dem Umfang n = 9) aus der Grundgesamtheit X ∼ N(µX , σX2 ) mit µX = 2
und σX = 0.7. Die Dichtekurve der exakten χ82 -Verteilung ist strichliert eingezeichnet.
Die Chiquadrat-Verteilung gehört zu den grundlegenden theoretischen Verteilungen der Statistik. Sie besitzt einen Parameter, den man als Freiheitsgrad f bezeichnet. Der Mittelwert und die Varianz der Verteilung sind durch f bzw. 2 f gegeben.
Die Dichtefunktion ist nur für nichtnegative Argumente definiert. Die ChiquadratVerteilung mit f Freiheitsgraden wird kurz durch das Symbol χ 2f dargestellt. Für die
Anwendungen sind vor allem die Quantile die Verteilung wichtig. Das p-Quantil
einer χ 2f -verteilten Zufallsvariablen ist jene reelle Zahl χ 2f ,p , die von einer χ 2f verteilten Zufallsvariablen mit der Wahrscheinlichkeit p unterschritten wird.
Man kann zeigen, dass mit der Stichprobenvarianz S2 die Varianz σX2 der Grundgesamtheit erwartungstreu geschätzt wird, d.h. der Mittelwert von Sn2 stimmt mit
5.2 Parameterschätzung bei normalverteilter Grundgesamtheit
311
σX2 überein.5 Die Varianz der Stichprobenvarianz ist σS22 = 2σX4 /(n − 1). Damit erhält man als mittleren quadratischen Fehler der Stichprobenvarianz:
MSE(Sn2 ) = µ(Sn2 −σ 2 )2 =
X
2σX4
n−1
(5.4)
Dieser geht mit wachsendem n gegen null. Die Stichprobenvarianz ist eine im quadratischen Mittel konsistente Schätzfunktion für σX2 . Dies bedeutet, dass die Varianz
σX2 der Grundgesamtheit vor allem bei größerem n recht genau durch die empirische
Varianz s2n geschätzt werden kann. Als Schätzwert für die Standardabweichung σX
nimmt man meist die empirische Standardabweichung sn . Setzt man diese für σX√in
die Formeln 5.3 und 5.4 ein, ergibt sich der empirische Standardfehler
p σ̂X̄ = sn / n
des Stichprobenmittels bzw. der empirische Standardfehler σ̂S2 = s2n 2/(n − 1) der
Stichprobenvarianz.
Beispiel 5.3.
Im Zuge der Überwachung der Herstellung von Injektionsnadeln wurde aus der
laufenden Produktion eine Prüfstichprobe von n = 10 Nadeln entnommen und
die Außendurchmesser (in mm) 0.54, 0.53, 0.33, 0.52, 0.60, 0.50, 0.52, 0.40,
0.56, 0.45 gemessen. Wir bestimmen das arithmetische Mittel, die empirische
Varianz sowie den empirischen Standardfehler des arithmetischen Mittels und
der Varianz.
>
>
+
>
>
>
>
>
>
# Lö s u n g m i t R :
x <− c ( 0 . 5 4 , 0 . 5 3 , 0 . 3 3 , 0 . 5 2 , 0 . 6 0 ,
0.50 , 0.52 , 0.40 , 0.56 , 0.45)
n <− l e n g t h ( x ) # S t i c h p r o b e n u m f a n g
x q u e r <− mean ( x ) # a r i t h m e t i s c h e s M i t t e l
s 2 <− v a r ( x ) # emp . V a r i a n z
SE . x q u e r <− s q r t ( s 2 / n ) # emp . S t a n d a r d f e h l e r d . M i t t e l s
SE . s 2 <− s 2 ∗ s q r t ( 2 / ( n −1)) # emp . S t a n d a r d f e h l e r d . V a r i a n z
p r i n t ( c b i n d ( x q u e r , SE . x q u e r , s2 , SE . s 2 ) , d i g i t s = 3 )
x q u e r SE . x q u e r
s2
SE . s 2
[ 1 , ] 0.495
0.0254 0.00645 0.00304
5.2.2 Konfidenzintervalle für den Mittelwert und die Varianz
√
Die empirische Standardabweichung σ̂X̄ = sn / n ist ein einfaches Maß, mit dem
man die Genauigkeit des arithmetischen Mittels bei der Schätzung des Mittelwerts
µX der Grundgesamtheit X beurteilen kann. Ein kleiner Standardfehler bedeutet eine
höhere Genauigkeit als ein großer. Durch Erhöhung des Umfangs einer Stichprobe
wird der Standardfehler im Allgemeinen kleiner und folglich die Genauigkeit der
p
Dagegen stimmt der Mittelwert µSn der Stichproben-Standardabweichung Sn = Sn2 nicht mit
der Standardabweichung σX der Grundgesamtheit überein. Vielmehr ist µSn = kn σX mit kn < 1.
Z.B. ist k2 = 0.7979, k5 = 0.9400, k10 = 0.9727. Mit wachsendem n strebt kn gegen 1.
5
312
5 Schätzen und Testen
Schätzung größer. Eine präzisere Aussage über die Genauigkeit eines Schätzwertes
ist mit einem Konfidenzintervall möglich.
Zu einem (zweiseitigen) Konfidenzintervall für den Mittelwert µX der (als normalverteilt angenommenen) Grundgesamtheit X kommt man auf folgende Weise: Man gibt eine kleine Wahrscheinlichkeit α vor (z.B. α = 5%) und bestimmt
zwei Zufallsvariable U und O so, dass P(U > µX ) = P(O < µX ) = α/2 gilt. Die
Wahrscheinlichkeit, dass das Intervall [U, O] den Mittelwert µX überdeckt, d.h.
U ≤ µX ≤ O gilt, soll also 1 − α betragen. Die Größen U und O bilden die Grenzen des Konfidenzintervalls. Die Überdeckungswahrscheinlichkeit 1 − α wird auch
Konfidenzniveau genannt und zumeist mit 95% angenommen.
a) Konfidenzintervall für den Mittelwert bei bekannter Varianz. Die Bestimmung der Grenzen U und O nehmen wir zuerst für den Fall vor, das die Standard√X standardnormalverteilt und es gilt
abweichung σX bekannt ist. Dann ist X̄σn −µ
/ n
n
X̄n − µX
√ ≤ z1−α/2 = Φ(z1−α/2 ) − Φ(zα/2 ) = 1 − α.
P zα/2 ≤
σn / n
Hier sind z1−α/2 und zα/2 = −z1−α/2 das (1 − α/2)-Quantil bzw. das α/2-Quantil
der N(0, 1)-Verteilung. Nach einer einfachen Umformung der Ungleichungskette
auf der linken Seite erhält man daraus
P (X̄n + d ≥ µX ≥ X̄n − d) = 1 − α
σn
mit d = z1−α/2 √
. Somit ist die Wahrscheinlichkeit, dass µX von den Zufallsvan
riablen X̄n − d und X̄n + d eingeschlossen ist, gleich dem Konfidenzniveau 1 − α.
Genau das wird aber von den Grenzen U und O eines (1 − α)-Konfidenzintervalls
für µX verlangt, so dass wir
σX
U = X̄n − d, O = X̄n + d mit d = z1−α/2 √
n
(5.5a)
schreiben können. Hat man eine konkrete Zufallsstichprobe, kann man in (5.5a) für
das Stichprobenmittel das arithmetische Mittel x̄n einsetzen und erhält damit konkrete Realisierungen u und o der Grenzen U bzw. O. Man bezeichnet das mit diesen
Realisierungen gebildete Intervall [u, o] als ein empirisches Konfidenzintervall.
Der (unbekannte) Mittelwert µX wird von diesem Intervall entweder eingeschlossen oder nicht. Berechnet man mit einer großen Anzahl von Zufallsstichproben die
entsprechenden empirischen Konfidenzintervalle, so kann man erwarten, dass von
diesen der Anteil 1 − α den Mittelwert µX einschließt. Man kann den Sachverhalt
auch so ausdrücken: Die Wahrscheinlichkeit, mit einer Zufallsstichprobe ein empirisches Konfidenzintervall zu erhalten, das den Mittelwert µX einschließt, ist angenähert 1 − α.
Die halbe Breite d des Konfidenzintervalls wird oft zur Kennzeichnung der Genauigkeit der Schätzung herangezogen. Man beachte, dass d abnimmt, wenn n oder
5.2 Parameterschätzung bei normalverteilter Grundgesamtheit
313
α vergrößert wird.6 In der Regel gibt man bei einer Schätzung die Genauigkeit d
und die Sicherheit 1 − α vor und ermittelt den zur Einhaltung der Vorgaben erforderlichen Mindeststichprobenumfang. Dieser ist die kleinste ganze Zahl n∗ mit
der Eigenschaft
z1−α/2 σX 2
∗
.
(5.5b)
n ≥n=
d
Beispiel 5.4.
In einer Anlage soll ein Desinfektionsmittel in Flaschen mit 500ml abgefüllt
werden. Nach einer Störung und Neustellung der Anlage werden probeweise
20 Flachen abgefüllt. Dabei ergaben sich folgende Abfüllmengen (in ml):
501, 516, 498, 503, 518, 498, 479, 499, 502, 475,
505, 504, 491, 495, 505, 486, 494, 479, 502, 506.
Die Abfüllmenge X sei N(µX , σX2 )-verteilt mit dem (unbekannten) Mittelwert
µX . Als Standardabweichung wurde vom Anlagenbauer σX = 10 angegeben.
Um die Neueinstellung zu kontrollieren, schätzen wir mit der Stichprobe aus
dem Probebetrieb den Mittelwert µX und geben für µX ein 95%iges Konfidenzintervall an.
Der Stichprobe ist n = 10 und x̄ = 497.8 als Schätzwert für µX zu entnehmen. Mit α√= 1 − 0.95 = 0.05 und z1−α/2 = z0.975 = 1.96 ergibt sich
d = z1−α/2 σX / n = 1.96 · 10/4.47 = 4.38. Damit findet man die Grenzen
u = x̄ − d = 493.4 und o = x̄ + d = 502.2. Strebt man einer genauere Schätzung des Mittelwerts µX an, etwa eine Intervallschätzung mit d = 3, folgt bei
gleicher Sicherheit 1 − α = 0.95 aus Formel (5.5b) n = (1.96 · 10/3)2 = 42.7;
der erforderliche Mindeststichprobenumfang beträgt daher n∗ = 43.
>
>
+
>
>
>
>
>
>
>
>
>
# Lö s u n g m i t R :
x <− c ( 5 0 1 , 5 1 6 , 4 9 8 , 5 0 3 , 5 1 8 , 4 9 8 , 4 7 9 , 4 9 9 , 5 0 2 , 4 7 5 ,
505 , 504 , 491 , 495 , 505 , 486 , 494 , 479 , 502 , 506)
s i g m a <− 10 # S t a n d a r d a b w e i c h u n g
n <− l e n g t h ( x ) # S t i c h p r o b e n u m f a n g
# a ) Sch ä t z w e r t und 95%− K o n f i d e n z i n t e r v a l l
x q u e r <− mean ( x ) # a r i t h m e t i s c h e s M i t t e l
a l p h a <− 0 . 0 5 # G e g e n w a h r s c h e i n l i c h k e i t zum K o n f i d e n z n i v e a u
zq <− qnorm (1− a l p h a / 2 ) # (1− a l p h a /2) − Q u a n t i l d . N( 0 , 1 ) − V e r t .
d <− zq ∗ s i g m a / s q r t ( n ) # h a l b e I n t e r v a l l b r e i t e
u <− x q u e r −d ; o <− x q u e r +d # I n t e r v a l l g r e n z e n
p r i n t ( cbind ( xquer , d , u , o ) , d i g i t s =4)
xquer
d
u
o
[ 1 , ] 497.8 4.383 493.4 502.2
> # b ) e r f o r d e r l i c h e s M i n d e s t −n
> d <− 3 # G e n a u i g k e i t s v o r g a b e
> n s <− c e i l i n g ( ( zq ∗ s i g m a / d ) ^ 2 ) ; n s # M i n d e s t −n
[ 1 ] 43
6 Wenn α zunimmt, wird 1 − α/2 kleiner und damit auch das Quantil z
1−α/2 . Ein größeres α
bedeutet ein kleineres Konfidenzniveau 1 − α, das in diesem Zusammenhang auch als Sicherheit
der Schätzung bezeichnet wird.
314
5 Schätzen und Testen
b) Konfidenzintervall für den Mittelwert bei unbekannter Varianz. Im Allgemeinen ist die Varianz der Grundgesamtheit nicht bekannt. Um ein Konfidenzintervall für den Mittelwert µX bei unbekannter Varianz zu erhalten, müssen die Grenzen
(5.5a) auf
Sn
(5.6)
U = X̄n − D, O = X̄n + D mit D = tn−1,1−α/2 √
n
abgeändert werden. In dieser Formel ist Sn die Quadratwurzel der Stichprobenvarianz Sn2 . Mit dem Großbuchstaben D wird zum Ausdruck gebracht, dass die halbe Intervallbreite über Sn von der Zufallsstichprobe abhängt und folglich eine Zufallsvariable ist. Die Größe tn−1,1−α/2 bezeichnet das (1 − α/2)-Quantil der tn−1 Verteilung, die wie die Chiquadrat-Verteilung eine wichtige theoretische Verteilung
der Statistik darstellt.
Nach Abschnitt 5.2.1 ist das Stichprobenmittel X̄n bei N(µX , σX2 )-verteilter Grundgesamtheit
X normalverteilt mit dem Mittelwert
µX̄n = µX und der Varianz σX̄n =
√
√
man
σX / n. Es folgt, dass (X̄n − µX )/(σX / n) standardnormalverteilt ist. Schätzt√
σX im Nenner durch Sn , erhält man die Zufallsvariable X̄n∗ = (X̄n − µX )/(Sn / n),
deren Verteilung bei großem n praktisch mit der N(0, 1)-Verteilung zusammenfällt,
bei kleinem n aber deutlich abweicht. Die Verteilung von X̄n∗ ist eine t-Verteilung
mit f = n − 1 Freiheitsgraden (n = 2, 3, . . .), wofür man auch kurz X̄n∗ ∼ tn−1
schreibt. Abb. 5.5 zeigt beispielhaft die Verteilung von X̄n∗ für n = 3, die näherungsweise durch einen auf 10000 Zufallsstichproben basierenden Histogrammschätzer
und exakt durch die t2 -Verteilung dargestellt ist. Man erkennt, dass die Dichtekurve
symmetrisch um die Nullstelle verläuft. Dies gilt auch für jedes n > 2; mit wachsendem n nähert sich die Verteilung von X̄n∗ der N(0, 1)-Dichte.7 Die Varianz der
t f -Verteilung ist für f = 3, 4, · · · durch f /( f − 2) gegeben.
Beispiel 5.5.
Wir demonstrieren die Anwendung der Formel (5.6) an Hand der Zufallsstichprobe 10.07, 10.02, 9.99, 10.01, 9.98 aus einer N(µ, σ 2 )-verteilten Grundgesamtheit X und bestimmen damit eine Realisierung des 95%igen Konfidenzintervall für µ. Es ist n = 5, x̄ = 10.01 und s = 0.03507. Mit α = 1 − 0.95 =
0.05 und dem t-Quantil tn−1,1−α/2 = t4,0.975 = 2.776
√ erhält man als Realisierung der halben Intervallbreite d = tn−1,1−α/2 s/ n = 0.04355 und damit
die Grenzen u = x̄ − d = 9.97 und o = x̄ + d = 10.06 des empirischen 95%Konfidenzintervalls für µ.
>
>
>
>
# Lö s u n g m i t R :
x <− c ( 1 0 . 0 7 , 1 0 . 0 2 , 9 . 9 9 , 1 0 . 0 1 , 9 . 9 8 )
n <− l e n g t h ( x ) ; x q u e r <− mean ( x ) ; s <− s d ( x )
p r i n t ( cbind ( n , xquer , s ) , d i g i t s =4)
n xquer
s
[ 1 , ] 5 10.01 0.03507
> a l p h a <− 0 . 0 5
Die Verteilung von X̄n∗ wurde vom englischen Statistiker W. S. Gosset (1876-1937) untersucht,
der seine Ergebnisse unter dem Pseudonym „Student“ veröffentlichte. Die t-Verteilung wird daher
auch als Student-Verteilung und die Größe X̄n∗ wird als studentisiertes Stichprobenmittel bezeichnet.
7
315
0.0
0.1
Dichte
0.2 0.3
0.4
5.2 Parameterschätzung bei normalverteilter Grundgesamtheit
−3
−2
−1
0
X*
1
2
3
√
Abb. 5.5 Verteilung des studentisierten Stichprobenmittels X̄n∗ = (X̄n − µX )/(Sn / n): Aus der
Grundgesamtheit X ∼ N(µX , σX2 ) mit µX = 2 und σX = 0.7 wurden 10000 Zufallsstichproben
(jede mit dem Umfang n = 3) ausgewählt und die Variation der Realisierungen von X̄n∗ durch ein
flächennormiertes Histogramm dargestellt. Die Dichtekurve der exakten t2 -Verteilung ist strichliert
und die Standardnormalverteilungsdichte punktiert eingezeichnet.
q <− q t (1− a l p h a / 2 , n −1) # Q u a n t i l d . t −V e r t e i l u n g
s e <− s / s q r t ( n ) # S t a n d a r d f e h l e r d . S t i c h p r o b e n m i t t e l s
d <− q∗ s e # h a l b e Lä nge d e s K o n f i d e n z i n t e r v a l l s
u <− x q u e r −d ; o <− x q u e r +d # G r e n z e n d . K o n f i d e n z i n t e r v a l l s
p r i n t ( c b i n d ( a l p h a , q , se , d , u , o ) , d i g i t s = 4 )
alpha
q
se
d
u
o
[ 1 , ] 0.05 2.776 0.01568 0.04355 9.97 10.06
>
>
>
>
>
c) Konfidenzintervall für die Varianz. Wie bei der Mittelwertschätzung sei X normalverteilt mit dem Mittelwert µX und der Varianz σX2 . Bei der Bestimmung eines
(1 − α)-Konfidenzintervalles für die Varianz σX2 gehen wir davon aus, dass die mit
(n − 1)/σX2 multiplizierte Stichprobenvarianz Sn2 chiquadratverteilt ist mit dem Frei2
heitsgrad n − 1. Es folgt, dass die Größe (n − 1)Sn2 /σX2 die Quantile χn−1,α/2
und
2
χn−1,1−α/2 mit der Wahrscheinlichkeit α/2 unter- bzw. überschreitet. Dies bedeutet, dass (n − 1)Sn2 /σX2 mit der Wahrscheinlichkeit 1 − α einen Wert zwischen den
genannten Quantilen annimmt. Somit gilt:
(n − 1)Sn2
2
2
≤ χn−1,1−α/2
1 − α = P χn−1,α/2 ≤
σX2
!
1
σX2
1
=P
≥
≥ 2
2
(n − 1)Sn2
χn−1,α/2
χn−1,1−α/2
!
(n − 1)Sn2
(n − 1)Sn2
2
≥ σX ≥ 2
=P
2
χn−1,α/2
χn−1,1−α/2
Aus der zuletzt erhaltenen Beziehung lassen sich unmittelbar die Grenzen
316
5 Schätzen und Testen
Uσ 2 =
(n − 1)Sn2
(n − 1)Sn2
und Oσ 2 = 2
2
χn−1,1−α/2
χn−1,α/2
(5.7)
des gesuchten Konfidenzintervalls für die Varianz σX2 ablesen.8 Indem man für die
Stichprobenvarianz die aus einer Zufallsstichprobe des Umfangs n berechnete Realisierung s2n einsetzt, erhält man für σX2 ein empirisches (1 − α)-Konfidenzintervall.9 .
Beispiel 5.6.
Es sei 2.01, 2.15, 1.98, 1.95, 2.22, 1.98, 1.96, 1.88, 2.09, 1.92 eine Zufallsstichprobe aus einer normalverteilten Grundgesamtheit X. Die Stichprobe hat
den Umfang n = 10, das arithmetische Mittel x̄ = 2.014, die Standardabweichung s = 0.1069 und die Varianz s2 = 0.01143. Wir berechnen mit den Formeln (5.10) die Grenzen eines 95%igen Konfidenzintervalls für σX2 . Aus dem
vorgegebenen Konfidenzniveau 1 − α folgt α = 0.05. Für die untere Grenze
2
2
wird das Quantil χn−1,1−α/2
= χ9,0.975
= 19.02 benötigt, für die obere Gren2
2
ze das Quantil χn−1,α/2 = χ9,0.025 = 2.700. Indem man s2n = 0.01143 für Sn2 ,
n = 10 und die Werte für die Quantile in (5.7) einsetzt, ergeben sich die mit
unserer Stichprobe realisierten Grenzen uσ 2 = 0.0054 und oσ 2 = 0.038. Die
X
X
entsprechenden Grenzen eines 95%igen Konfidenzintervalls für die Standard√
√
abweichung σX sind uσ = uσ 2 = 0.0735 bzw. oσ = oσ 2 = 0.195.
Die im Beispiel verwendete Stichprobe mit dem Umfang n = 10 wurde mit
der R-Funktion rnorm(10, 2, 0.1) aus der normalverteilten Grundgesamtheit X (µX = 2, σX = 0.1) generiert. Der mit dieser Stichprobe berechnete
Schätzwert s2n = 0.01143 sowie die Grenzen des 95%igen Konfidenzintervalls
für σX2 sind im ersten Intervall von Abb. 5.6 dargestellt. Die anderen Intervalle der Abbildung wurden auf die gleiche Weise ermittelt. Wie man sieht, kann
ein empirisches Konfidenzintervall den wahren Parameter (hier σX2 ) einschließen oder nicht. Die Wahrscheinlichkeit, dass durch eine Zufallsstichprobe ein
Intervall realisiert wird, das den wahren Parameter einschließt, ist gleich dem
Konfidenzniveau 1 − α (hier 95%).
5.2.3 Konfidenzintervall für den Anstieg einer Regressionsgeraden
Im Abschnitt 2.1.3 wurden lineare Regressionsaufgaben betrachtet. Dabei ging es
um folgendes Problem: Von zwei Variablen x und Y ist eine Wertetabelle aus n
p
p
p
8 Wegen 1 − α = P U
2
Uσ 2 ≤ σX ≤ Oσ 2 sind Uσ = Uσ 2 und Oσ =
σ 2 ≤ σX ≤ Oσ 2 = P
p
Oσ 2 die Grenzen des entsprechenden Konfidenzintervalls für die Standardabweichung σX .
9 Beim Konfidenzintervall für den Mittelwert liegen die Grenzen symmetrisch um den Schätzwert
x̄n für µX . Im Gegensatz dazu liegt beim Konfidenzintervall für die Varianz der Schätzwert s2n für
σX2 nicht in der Mitte des Intervalls, sondern näher bei der unteren Grenze.
10
15
20
25
317
5
95%−Konfidenzintervalle für σ2X
5.2 Parameterschätzung bei normalverteilter Grundgesamtheit
0.00
0.02
0.04
Varianz
0.06
0.08
Abb. 5.6 Realisierungen des Konfidenzintervalls [Uσ 2 , Oσ 2 ] für die Varianz. Mit der R-Funktion
rnorm() wurden 25 Zufallsstichproben, jede mit dem Umfang n = 10, aus der mit µX = 2 und
σX2 = 0.01 normalverteilten Grundgesamtheit X erzeugt. Für jede Stichprobe sind die empirische
Varianz s2n (als Punkt) sowie das mit den Formeln (5.7) berechnete 95%ige Konfidenzintervall für
σX2 dargestellt. Die strichpunktierte Linie zeigt die Lage der wahren Varianz σX2 = 0.01 an. Man
beachte, dass 2 Intervalle die wahre Varianz nicht überdecken.
Wertepaaren (xi , yi ) (i = 1, 2, . . . , n) gegeben.10 Zur Erfassung der Abhängigkeit der
Variablen Y von x durch eine lineare Funktion denken wir uns die beobachteten
Y -Werte durch die Modellgleichung Y = f (x) + R mit f (x) = kx + d erzeugt. Der
lineare Term f (x) = kx + d mit den unbestimmten Konstanten k und d bildet den
Anteil von Y , der durch die Variable x erklärt werden kann. Diesem Anteil ist die
Zufallskomponente R überlagert, die wir als normalverteilt mit dem Mittelwert null
und einer gewissen Varianz σR2 annehmen wollen. Folglich ist auch Y für jedes feste x eine normalverteilte Zufallsvariable mit dem Mittelwert µY = f (x) = kx + d
und der Varianz σR2 . Die Regressionsfunktion f ordnet also jedem x den Mittelwert µY = f (x) = kx + d von Y zu. Man bezeichnet Y als abhängige Variable oder
Zielvariable, x als unabhängige Variable oder Einflussvariable und f als lineare Regressionsfunktion. Der Graph von f heißt Regressionsgerade mit dem Anstieg k und
dem y-Achsenabschnitt d.
Um mit der Modellgleichung Y = kx + d + R arbeiten zu können, müssen die
Konstanten k, d und σR2 mit Hilfe der gemessenen Variablenwerte geschätzt werden. Zur Bestimmung von Schätzwerten für die Geradenparameter werden zu jedem xi die Residuen ri = yi − f (xi ) = yi − kxi − d gebildet. Durch Minimierung der
von k und d abhängigen Summe der quadrierten Residuen erhält man die bereits in
Abschnitt 2.3.1 (Formel 2.4) angegebenen Kleinsten Quadrate-Schätzwerte
10
Mit dem Großbuchstaben Y wird nun deutlich gemacht, dass Y eine Zufallsvariable ist. Dagegen unterliegt x keiner Zufallsvariation. Vielmehr hat man sich unter x eine vom Beobachter
kontrollierte Variable (d.h. eine Variable mit vorgegebenen Werten) vorzustellen.
318
5 Schätzen und Testen
k̂ =
sxy
und dˆ = ȳ − k̂x̄
s2x
(5.8a)
für k bzw. d. Hier sind x̄ und ȳ die arithmetischen Mittel der xi - bzw. yi -Werte, s2x
ist die empirische Varianz der xi -Werte und sxy die empirische Kovarianz der beiden
Messreihen. Mit k̂ und dˆ kann man das Zielvariablenmittel µY durch ŷ = k̂x + dˆ in
Abhängigkeit von x schätzen.
Die dritte Modellkonstante σR2 wird durch die mit dem Nenner n − 2 gemittelte
Summe der Quadrate der Residuen ri = yi − k̂xi − dˆ geschätzt, also durch:11
σ̂R2 =
1
n−2
n
∑ ri2 =
i=1
s2y − k̂2 s2x
n−1
n−2
(5.8b)
Die Größe s2y ist die Varianz der yi -Werte. Für eine konkrete Stichprobe mit den
Wertepaaren (xi , yi ) (i = 1, 2, . . . , n) erhält man aus (5.8b) einen Schätzwert für σR2 .
Mit diesem Schätzwert lassen sich die Grenzen eines (1 − α)-Konfidenzintervalls
für den Anstieg k in der Form
uk = k̂ − tn−2,1−α/2 σ̂k̂ , ok = k̂ + tn−2,a−α/2 σ̂k̂ mit σ̂k̂ =
σ̂
√R
sx n − 1
(5.9)
anschreiben. Die Größe tn−2,1−α/2 ist das (1 − α/2)-Quantil der tn−2 -Verteilung.
Die Grenzen uk und ok sind als Realisierungen von zwei Zufallsvariablen Uk bzw.
Ok zu verstehen, die den (unbekannten) Anstieg k der Regressionsgeraden mit der
vorgegebenen Wahrscheinlichkeit 1 − α einschließen.
Mit dem Konfidenzintervalls [uk , ok ] kann man prüfen, ob die Variable Y im Rahmen des betrachteten linearen Modells Y = kx + d + R überhaupt von x abhängt.
Dies ist genau dann der Fall, wenn der Anstieg k der Regressionsgeraden von null
abweicht. Wir entscheiden uns für k 6= 0, wenn das Konfidenzintervall [uk , ok ] die
null nicht einschließt. Wendet man dieses Prüfkriterium an, hat man das Risiko α,
eine falsche Entscheidung zu treffen. Denn das Konfidenzintervall [uk , ok ] kann mit
der Wahrscheinlichkeit α rechts oder links vom wahren Anstieg k liegen.12 Die Abhängigkeitsprüfung sollte ein zentraler Bestandteil einer jeden Regressionsanalyse
sein. Kann man einen Anstieg k = 0 nicht ausschließen, macht es keinen Sinn, die
(nicht vorhandene) Abhängigkeit des Zielvariablenmittels von x durch Angabe der
11
Wegen ∑ ri = ∑ (yi − k̂xi − d) = ∑ yi − k̂ ∑ xi − nd = 0 ist das arithmetische Mittel r̄ = ∑ ri /n
der Residuen null (die Summation erstreckt sich jeweils von 1 bis n). Zur Schätzung von σR2 wird
also die Varianz der Residuen herangezogen. Die Division durch n − 2 sichert eine erwartungstreue
Schätzung der Varianz σR2 .
12 Die Abhängigkeitsprüfung kann auch mit einer Variante des t-Tests durchgeführt werden, die
äquivalent zur Entscheidungsfindung mit dem Konfidenzintervall für den Anstieg k ist. Vergleiche
mit dem t-Test werden in den kommenden Abschnitten behandelt. Man entscheidet
√ sich (mit dem
Irrtumsrisiko α) für k 6= 0, wenn die Testgröße tgn = k̂/σ̂k̂ mit σ̂k̂ = σ̂R /[sx n − 1] größer als
das (1 − α/2)-Quantil tn−2,1−α/2 der tn−2 -Verteilung ist. In der R-Funktion lm() ist dieser Test
standardmäßig lineare Regressionsaufgaben vorgesehen.
5.2 Parameterschätzung bei normalverteilter Grundgesamtheit
319
Geradengleichung ŷ = k̂x + dˆ zu dokumentieren, auch dann nicht, wenn der Schätzwert k̂ von null abweicht.
Beispiel 5.7.
Im Blutplasma wurde die Konzentrationen c (in ng/ml) eines Wirkstoffes in
Abhängigkeit von der Zeit t (in h) bestimmt. Für die Eliminationsphase ergaben
sich die folgenden Messwerte (der Index i läuft von 1 bis 10):
5
6
7
8
9 10 11 12 13 14
ti
ci 8.64 7.47 5.88 5.61 3.90 3.23 2.42 2.64 1.87 2.08
In der rechten Grafik von Abb. 5.7 sind die Datenpunkte (ti , ci ) dargestellt. Die
Grafik legt eine exponentielle Abnahme nach dem Zeitgesetz c = c0 e−βt nahe,
in dem c0 und β zwei positive Konstanten sind. Wir stellen uns die Aufgabe,
für die Konstante β einen Schätzwert und ein 95%iges Konfidenzintervall zu
bestimmen.
Durch Logarithmieren der Funktionsgleichung erhält man die lineare Beziehung y = kt + d mit y = ln c, k = −β und d = ln c0 . Diese stellt in der (t, y)Ebene eine Gerade dar. Wir schätzen den Anstieg dieser Geraden, in dem wir
die Gerade nach der Methode der kleinsten Quadrate an die Datenpunkte (ti , yi )
mit yi = ln ci anpassen. Die rechte Grafik in Abb. 5.7 zeigt das Streudiagramm
der Datenpunkte (ti , yi ) und die angepasste Regressionsgerade. Der Anstieg dieser Geraden kann mit (5.8a) berechnet werden. Die Varianz der Zeitwerte ist
st2 = 9.167, für die Kovarianz der y- und t-Werte erhalten wir syt = −1.624.
Damit ergibt sich der Schätzwert k̂ = syt /st2 = −0.1771 für k.
Das Konfidenzintervall wird mit (5.9) berechnet. Es ist α = 0.05, n = 10 und
tn−2,1−α/2 = t9,0.975 = 2.306. Für die Varianz der Reststreuung ergibt sich aus
(5.8b) der Schätzwert σ̂R2 = 0.01431. Mit σ̂k = 0.01317 folgen schließlich die
Grenzen uk = −0.2075 und ok = −0.1468. Offensichtlich liegt der Wert null
nicht im Intervall [uk , ok ]. Mit dem vorgegebenen Irrtumsrisiko α = 5% kann
daher geschlossen werden, dass der wahre Anstieg der Regressionsgeraden von
null verschieden ist. Wegen β = −k ist β̂ = 0.1771 ein Schätzwert für β und
[uβ , oβ ] mit uβ = 0.1468, oβ = 0.2075 ein 95%iges Konfidenzintervall für β .
>
>
>
+
>
>
>
>
>
>
>
>
# Lö s u n g m i t R :
t <− 5 : 1 4 # Z e i t ( i n h )
c <− c ( 8 . 6 4 , 7 . 4 7 , 5 . 8 8 , 5 . 6 1 , 3 . 9 0 ,
3 . 2 3 , 2 . 4 2 , 2 . 6 4 , 1 . 8 7 , 2 . 0 8 ) # K o n z e n t r a t i o n ( ng / ml )
y <− l o g ( c ) ; l i n r e g <− lm ( y ~ t )
# Sch ä t z w e r t kd u . 95%− K o n f i d e n z i n t e r v a l l [ uk , ok ] f ü r k
kd <− c o e f f i c i e n t s ( l i n r e g ) [ [ 2 ] ]
uk <− c o n f i n t ( l i n r e g ) [ [ 2 , 1 ] ]
ok <− c o n f i n t ( l i n r e g ) [ [ 2 , 2 ] ]
# Sch ä t z w e r t bd u . 95%− K o n f i d e n z i n t . [ ubd , obd ] f ü r b e t a
bd <− −kd ; ubd <− −ok ; obd <− −uk
p r i n t ( c b i n d ( kd , uk , ok , bd , ubd , obd ) , d i g i t s = 4 )
kd
uk
ok
bd
ubd
obd
[ 1 , ] −0.1771 −0.2075 −0.1468 0 . 1 7 7 1 0 . 1 4 6 8 0 . 2 0 7 5
5 Schätzen und Testen
y^ = − 0.1771t + 2.315
1.5
y = ln c
0.0
2
0.5
4
1.0
6
8
2.0
c^ = 10.13e−0.1771t
0
Konzentration c (in ng/ml)
10
2.5
320
6
8
10
Zeit t (in h)
12
14
6
8
10
12
14
Zeit t (in h)
Abb. 5.7 Exponentielle Abnahme der Konzentration eines Pharmakons im Blutplasma nach dem
Zeitgesetz c = c0 e−βt . Die Eliminationskonstante β kann nach logarithmischer Transformation der
Konzentrationswerte im Rahmen einer linearen Regressionanalyse geschätzt werden.
Aufgaben
1. Es sei X eine χ 2f -verteilte Zufallsvariable. Die Dichtekurve der ChiquadratVerteilung zeigt für alle Freiheitsgrade f eine rechtsschiefe Asymmetrie; die
Dichtekurve steigt für f = 3, 4, . . . links steiler an und fällt nach rechts flacher
ab. Eine Folge ist, dass das 75%-Quantil x0.75 vom Median x0.50 weiter entfernt
ist als das 25%-Quantil x0.25 . Man bestätige diese Behauptung für f = 10. Zur
Berechnung des p-Quantils der χ 2f -Verteilung verwende man die R-Funktion
qchisq(p, f).
2. Die Dichtekurve der t-Verteilung besitzt für jeden Freiheitsgrad f = 1, 2, . . .
einen um den Nullpunkt symmetrischen Verlauf. Im Vergleich zur N(0, 1)Dichtekurve ist die Dichtekurve der t-Verteilung „breiter“, so dass der Quartilabstand IQR f = x0.75 − x0.25 (also die Differenz des 75%- und 25%-Quantils)
größer ist als der entsprechende Quartilabstand IQR = z0.75 − z0.25 für eine
N(0, 1)-verteilte Zufallsvariable Z. Man bestätige die Behauptung für den Freiheitsgrad f = 5. Zur Berechnung des p-Quantils der t f -Verteilung verwende
man die R-Funktion qt(p, f) und zur Berechnung des p-Quantils der Standardnormalverteilung die R-Funktion qnorm(p).
3. Zur Sicherung der Produktqualität werden aus einer Fertigung laufend Stichproben entnommen und die zu überwachende Größe X gemessen. In einem Erhebungszeitpunkt ergaben sich die folgenden Werte der als normalverteilt vorausgesetzten Größe X (in mg/l): 2.00, 2.10, 2.02, 1.99, 2.16.
a) Man bestimme ein 95%iges Konfidenzintervall für den Mittelwert µ von X.
Wie groß müsste der Stichprobenumfang sein, damit man eine Schätzung
mit Konfidenzintervall erwarten kann, das nur 1/4 der Länge des ursprünglichen Intervalls aufweist?
5.3 Vergleich eines Mittelwerts mit einem Sollwert
321
b) Welche konkreten Grenzen ergeben sich mit den Stichprobenwerten für ein
95%iges Konfidenzintervalls für die Standardabweichung σ von X. Um wie
viel Prozent ist das 99%ige Konfidenzintervall für σ größer als das 95%ige
Intervall?
4. Nach dem statistischen Jahrbuch 2015 für Österreich ist der Prozentsatz der
täglich rauchenden Personen in der männlichen Bevölkerung (ab 16 Jahren) von
1972 bis 2006 wie folgt gesunken (in Klammern ist jeweils das Erhebungsjahr
angeführt): 38.7 (1972), 35.3 (1979), 34.6 (1986), 30.0 (1997), 27.5 (2006).
Man stelle die Abhängigkeit des Prozentsatzes von der Zeit durch ein lineares
Regressionsmodell dar und bestimme ein 95%iges Konfidenzintervall für den
Anstieg der Regressionsgeraden. (Der Anstieg kann als mittlere Änderung des
Prozentsatzes pro Jahr interpretiert werden.)
5.3 Vergleich eines Mittelwerts mit einem Sollwert
5.3.1 Der 1-Stichproben t-Test für 2-seitige Hypothesen
Von einer als N(µ, σ 2 )-verteilt angenommenen Variablen X liegen n Messwerte
x1 , x2 , . . . , xn mit dem arithmetischen Mittel x̄n und der empirischen Varianz s2n vor.
In diesem Abschnitt wird gezeigt, wie man mit Hilfe der Stichprobe entscheiden
kann, ob der Mittelwert µ von einem vorgegebenen Sollwert µ0 abweicht, also
µ 6= µ0 gilt. Die Aussage, die man nachweisen will, wird als Alternativhypothese in der Form H1 : µ 6= µ0 angeschrieben. Durch logische Verneinung der Alternativhypothese kommt man zur Nullhypothese H0 : µ = µ0 . Eine allfällige Entscheidung für die Alternativhypothese (und damit gegen die Nullhypothese) wird
mit einem statistischen Test herbeigeführt. Der klassische Test für den betrachteten
Mittelwertvergleich mit den Entscheidungsalternativen
H0 : µ = µ0 gegen H1 : µ 6= µ0
(5.10)
ist der 1-Stichproben t-Test. Bei diesem Test wird zur Entscheidung die von der
Zufallsstichprobe abhängige Variable
X̄n − µ0
T Gn = p
Sn2 /n
(5.11)
verwendet, in der X̄n und Sn2 das Stichprobenmittel bzw. die Stichprobenvarianz bedeuten. Die Größe (5.11) wird als Testgröße des 1-Stichproben t-Tests bezeichnet.
Die Testgröße nimmt für die durch die beobachtete Stichprobe realisierten Werte
322
5 Schätzen und Testen
p
x̄n und s2n von X̄n bzw. Sn2 den Wert tgn = (x̄n − µ0 )/ s2n /n an. Wenn H0 : µ = µ0
zutrifft, ist die Testgröße (5.11) tn−1 -verteilt.13
Wir nehmen nun an, dass H0 : µ = µ0 gilt. Dann wird das Stichprobenmittel X̄n
mit hoher Wahrscheinlichkeit einen Wert x̄n nahe bei µ0 annehmen und folglich
T Gn mit hoher Wahrscheinlichkeit nahe bei null liegen; stark von null abweichende
Testgrößenwerte sind dagegen nur mit geringer Wahrscheinlichkeit zu erwarten. Hat
man eine Realisierung tgn der Testgröße, so kann man die Wahrscheinlichkeit P des
Ereignisses berechnen, dass die Testgröße einen Wert annimmt, der zumindest so
stark von null abweicht wie die erhaltene Realisierung tgn . Diese Wahrscheinlichkeit – man bezeichnet sie kurz als P-Wert – ist durch
P = P(T Gn ≤ −|tgn |) + P(T Gn ≥ |tgn |) = 2[1 − Fn−1 (|tgn |)]
(5.12)
gegeben (vgl. Abb. 5.7); hier bezeichnet Fn−1 die Verteilungsfunktion der t-Verteilung mit n − 1 Freiheitsgraden.14 Der P-Wert ist also ein Maß für die Wahrscheinlichkeit, mit einer Zufallsstichprobe vom Umfang n eine Testgröße T Gn mit
|T Gn | ≥ |tgn | zu erhalten. Der P-Wert spielt bei der Testentscheidung eine zentrale
Rolle. Die Vorgangsweise ist dabei dem indirekten Beweis15 der Mathematik nachgebildet: Wir wollen wissen, ob H1 : µ 6= µ0 gilt, und nehmen an, dies ist nicht der
Fall. Wenn also H0 : µ = µ0 gilt, ist es unwahrscheinlich, dass eine der Grundgesamtheit entnommene Zufallsstichprobe zu einem von null „stark“ abweichenden
Testgrößenwert tgn führt. Tritt dieses (unwahrscheinliche) Ereignis aber ein, so interpretieren wir dies als ein Indiz gegen die angenommene Nullhypothese und entscheiden uns für H1 . Zu präzisieren ist noch, was eine von null “stark“ abweichende
Realisierung tgn ist. Es ist naheliegend, dafür den P-Wert (5.12) zu verwenden und
die Abweichung tgn der Testgröße von null dann als stark zu bezeichnen, wenn
der P-Wert eine vereinbarte kleine Schranke α unterschreitet. Wir entscheiden uns
demnach für H1 , wenn P < α ist. Wenn wir nach diesem Kriterium entscheiden, besteht natürlich ein Risiko, H0 irrtümlich abzulehnen. Man bezeichnet die irrtümliche
Ablehnung der Nullhypothese als Fehler erster Art oder α-Fehler. Die Wahrscheinlichkeit, H0 irrtümlich abzulehnen, ist aber nach oben durch α begrenzt. Man nennt
α das Signifikanzniveau oder Testniveau. Meist wird α = 5% angenommen.
Ein zu P < α äquivalentes Kriterium für die Ablehnung von H0 kann man auch
mit der Realisierung tgn der Testgröße formulieren. Wir bestimmen dazu jenen Testgrößenwert cα > 0, der die Forderung P = 2[1 − Fn−1 (cα )] = α erfüllt. Wegen
Fn−1 (cα ) = 1 − α/2 ist cα gleich dem (1 − α/2)-Quantil der tn−1 -Verteilung, d.h.
cα = tn−1,1−α/2 . Die Nullhypothese wird auf dem Signifikanzniveau α abgelehnt,
wenn |tgn | > cα = tn−1,1−α/2 gilt.
13
In diesem Fall stimmt nämlich T Gn mit dem im vorangehenden Abschnitt betrachteten studentisierten Stichprobenmittel X̄n∗ überein.
14 Man beachte, das die t
n−1 -Verteilung eine symmetrisch um null verlaufende Dichtekurve besitzt
und daher P(T Gn ≤ −|tgn |) = P(T Gn ≥ |tgn |) = 1 − Fn−1 (|tgn |) ist. Der Wert der Verteilungsfunktion Fn−1 an der Stelle x = |tgn | kann z.B. mit der R-Funktion pt(x, n-1) bestimmt werden.
15 Beim indirekten Beweis geht man von der Verneinung ¬A der zu beweisenden Aussage A aus.
Kommt man von ¬A durch eine logische Schlusskette zu einer offensichtlich falschen Aussage, so
muss ¬A falsch und die Verneinung von ¬A, also die Aussage A, richtig sein.
5.3 Vergleich eines Mittelwerts mit einem Sollwert
323
Dichte
tn−1
0.2
P(TGn <= −|tgn|)
P(TGn >= |tgn|)
−|tgn|
−3
−2
|tgn|
0.1
−1
0
1
2
TGn
Abb. 5.8 Berechnung des P-Werts beim 2-seitigen 1-Stichproben t-Test. Die Grafik verwendet die
Zufallsstichprobe mit dem Umfang n = 10 aus Beispiel 5.8. Die Größe tgn = 2.45 ist der mit diesen Daten realisierte Wert der Testgröße (5.11). Der P-Wert ist gleich der Wahrscheinlichkeit, dass
T Gn ≥ |tgn | oder T Gn ≤ −|tgn | gilt. Diese Wahrscheinlichkeiten entsprechen der „Überschreitungsfläche“ der Stelle |tgn | bzw. der „Unterschreitungsfläche“ der Stelle −|tgn |. Aus Symmetriegründen sind beide Flächen gleich groß, so dass der P-Wert aus P = 2P(T Gn ≤ −|tgn |) bestimmt
werden kann.
Der Mittelwertvergleich mit den Hypothesen (5.10) heißt 2-seitig, weil die Alternativhypothese H1 : µ = µ0 Abweichungen von dem in der Nullhypothese H0 : µ =
µ0 spezifizierten Sollwert nach beiden Seiten (d.h. Über- oder Unterschreitungen)
vorsieht.
Beispiel 5.8.
Es sei X ein N(µ, σ 2 )-verteiltes Qualitätsmerkmal, z.B. der Außendurchmesser
einer Kanüle in mm. Für µ ist ein Sollwert von µ0 = 1.2 vorgegeben. Zur Überprüfung der Vorgabe wurde aus einem Produktionslos die Zufallsstichprobe16
1.22, 1.41, 1.40, 1.30, 1.11, 1.35, 1.30, 1.22, 1.24, 1.19
entnommen. Wir prüfen mit dem 1-Stichproben t-Test, ob auf 5%igem Signifikanzniveau der Mittelwert µ vom Sollwert µ0 abweicht. Dem entsprechend
formulieren wir die Alternativhypothese H1 : µ 6= µ0 und die Nullhypothese
H0 : µ = µ0 .
Der Stichprobe entnimmt man n = 10, x̄ = 1.274 und s = 0.09571. Damit ergibt sich der Wert tgn = 2.445 der unter der Nullhypothese t9 -verteilten
Testgröße T Gn . Diese Verteilung ist in Abb. 5.7 gemeinsam mit der Realisierung |tgn | = 2.445 und dem am Nullpunkt gespiegelten Wert −|tgn | =
−2.445 dargestellt. Für den P-Wert benötigen wir den Wert der Verteilungsfunktion Fn−1 der tn−1 -Verteilung an der Stelle x = |tgn |. Diesen berechnen
16 Für das Beispiel wurde µ = 1.3 und σ = 0.1 angenommen und die Zufallsstichprobe mit der
R-Funktion rnorm(10, 1.3, 0.1) generiert.
324
5 Schätzen und Testen
wir mit Hilfe der R-Funktion pt(x, n-1) = 0.9815. Daher ist der P-Wert
P = 2[1 − Fn−1 (|tgn |)] = 0.03706. Wegen P ≈ 3.7% < 5% entscheiden wir uns
für H1 , d.h. die Abweichung des beobachteten arithmetischen Mittels x̄ = 1.274
vom Sollwert µ0 = 1.2 ist auf Testniveau α = 5% signifikant.
Einfacher ist es, wenn man die in einschlägigen statistischen Softwareprodukten bereit gestellten Funktionen nutzt. Die folgende Problemlösung zeigt
die Anwendung der R-Funktion t.test(). Die Ergebnisse enthalten nicht
nur den P-Wert (p-value), sondern darüber hinaus auch ein 95%iges Konfidenzintervall für µ, mit dem die Abweichung vom Sollwert beurteilt werden kann.
> # Lö s u n g m i t R :
> x <− c ( 1 . 2 2 , 1 . 4 1 , 1 . 4 0 , 1 . 3 0 , 1 . 1 1 ,
+
1.35 , 1.30 , 1.22 , 1.24 , 1.19)
> t . t e s t ( x , mu = 1 . 2 , c o n f . l e v e l = 0 . 9 5 )
One Sample t − t e s t
data : x
t = 2 . 4 4 5 , d f = 9 , p−v a l u e = 0 . 0 3 7 0 6
a l t e r n a t i v e h y p o t h e s i s : t r u e mean i s n o t e q u a l t o 1 . 2
95 p e r c e n t c o n f i d e n c e i n t e r v a l :
1.205535 1.342465
sample e s t i m a t e s :
mean o f x
1.274
5.3.2 Gütefunktion des 2-seitigen t-Tests
Nach dem vorangehenden Abschnitt wird die Nullhypothese H0 : µ = µ0 abgelehnt,
wenn P = 2P(T Gn < −|tgn |) < α bzw. |tgn | > tn−1,1−α/2 gilt. Wenn man mit einem
dieser Kriterien entscheidet, ist die Wahrscheinlichkeit, H0 irrtümlich abzulehnen,
durch
P(Ablehnung von H0 |µ = µ0 ) = P(T Gn < −tn−1,1−α/2 ) + P(T Gn > tn−1,1−α/2 )
= P(T Gn < tn−1,α/2 ) + 1 − P(T Gn ≤ tn−1,1−α/2 )
= α/2 + 1 − (1 − α/2) = α
(5.13a)
gegeben; dabei wurde verwendet, dass die Testgröße T Gn unter der Nullhypothese tn−1 -verteilt ist. Wenn H0 gilt, führt die Testentscheidung mit der geringen Irrtumswahrscheinlichkeit α zu einer (irrtümlichen) Ablehnung von H0 . Ist dagegen
µ 6= µ0 , so sollte die Testentscheidung mit hoher Wahrscheinlichkeit zu einer Ablehnung von H0 führen. Diese Wahrscheinlichkeit hängt wesentlich davon ab, wie
weit der Mittelwert µ vom Sollwert µ0 abweicht. Die Abhängigkeit von µ wird
durch die Gütefunktion G erfasst. Die Gütefunktion ordnet jedem reellen µ die
Wahrscheinlichkeit
5.3 Vergleich eines Mittelwerts mit einem Sollwert
325
G(µ) = P(Ablehnung von H0 |µ) = P(|T Gn | > tn−1,1−α/2 |µ)
= P(T Gn < −tn−1,1−α/2 |µ) + 1 − P(T Gn < tn−1,1−α/2 |µ)
(5.13b)
zu, mit der eine Zufallsstichprobe vom Umfang n aus der Grundgesamtheit X zu einer Ablehnung von H0 führt. Zur Berechnung der Wahrscheinlichkeiten in (5.13b)
benötigen wird die nichtzentrale t-Verteilung. Im Falle µ 6= µ0 ist nämlich die
Testgröße T G√
n nicht mehr t-verteilt, sondern mit den Parametern f = n − 1 und
λ = (µ − µ0 ) n/σ nichtzentral t-verteilt; f heißt wie bei der t-Verteilung Freiheitsgrad, λ ist der sogenannte Nichtzentralitätsparameter. Die Verteilungsfunktion
der Testgröße T Gn – wir bezeichnen sie mit Ff ,λ – ist in der oberen Grafik von Abb.
5.9 beispielhaft dargestellt; dabei wurde als Freiheitsgrad f = 9 und als Nichtzentralitätsparameter λ = 3.162 angenommen.17 Im Sonderfall λ = 0 fällt die Verteilungsfunktion Ff ,λ der nichtzentralen t-Verteilung mit der Verteilungsfunktion Ff
der t-Verteilung zusammen.
P(TG10 <= x)
1
λ=0
λ = 3.162
0.5
0
−2
−1
0
G*(ε)
1
1
2
x
3
4
5
6
G*(ε0)=0.96
0.5
n=10
n=30
G*(ε0)=0.51
G*(0) = α
0
−2
−1
ε0 = 0.7
0
Effektstärke ε
2
Abb. 5.9 Die obere Grafik zeigt die Verteilungsfunktion der Testgröße T Gn zum 1-Stichproben
t-Test in Beispiel 5.8. Die Testgröße ist nichtzentral t-verteilt mit den Parametern f = 9 und
λ = 3.162. Die strichlierte Linie ist die Verteilungsfunktion der t-Verteilung. In der unteren Grafik
ist die Gütefunktion (5.13d) für die Stichprobenumfänge n = 10 und n = 30 dargestellt. Bei gleichbleibendem n strebt die Gütefunktion vom Wert α an der Stelle ε = 0 mit wachsendem Betrag |ε|
gegen eins. Hält man ε fest, so kann man den Gütefunktionswert vergrößern, wenn man n erhöht.
17
Die Funktionswerte Ff ,λ (x) können mit der R-Funktion pt(x, df, ncp) bestimmt werden,
in der für df und ncp der Freiheitsgrad f bzw. der Nichzentralitätsparameter λ einzusetzen ist.
326
5 Schätzen und Testen
Mit Hilfe der Verteilungsfunktion Ff ,λ der nichtzentralen t-Verteilung kann man
die Wahrscheinlichkeiten P(T Gn < −tn−1,1−α/2 |µ) und P(T Gn < tn−1,1−α/2 |µ) in
(5.13b) durch Fn−1,λ (−tn−1,1−α/2 ) bzw. Fn−1,λ (tn−1,1−α/2 ) ausdrücken. Damit geht
(5.13b) in die Gleichung
G(µ) = Fn−1,λ (−tn−1,1−α/2 ) + 1 − Fn−1,λ (tn−1,1−α/2 ) mit λ =
µ − µ0
√ (5.13c)
σ/ n
über. Setzt man hier µ = µ0 , ergibt sich wegen λ = 0 und Fn−1,0 = Fn−1 die
schon in (5.13a) bestimmte Wahrscheinlichkeit G(µ0 ) = α. Bei der Diskussion
der Gütefunktion wird an Stelle von µ oft die dimensionslose Effektstärke ε verwendet. Diese ist als die auf die Standardabweichung σ bezogenen Abweichung
ε = (µ − µ0 )/σ des Mittelwerts µ vom Sollwert µ0 definiert. Offensichtlich ist
ε = 0, wenn H0 : µ = µ0 gilt, und ε 6= 0, wenn H1 : µ 6= µ0 gilt. Drückt man in
(5.13c) µ durch ε aus, folgt
G∗ (ε) = G(εσ + µ0 )
√
= Fn−1,λ (−tn−1,1−α/2 ) + 1 − Fn−1,λ (tn−1,1−α/2 ) mit λ = ε n
(5.13d)
Die untere Grafik von Abb. 5.9 zeigt, wie die Gütefunktion G∗ von der Effektstärke
ε abhängt. Dabei wurde α = 0.05 angenommen und als Stichprobenumfänge n =
10 bzw. n = 30 gewählt. Man erkennt, dass die Gütefunktion in der Umgebung
des Nullpunktes nur kleine Funktionswerte annimmt und vom Nullpunkt weg mit
wachsendem Abstand monoton gegen eins strebt.
Beispiel 5.9.
Um Werte der Gütefunktion G des 1-Stichproben t-Tests (Hypothesen H0 : µ =
µ0 gegen H1 : µ 6= µ0 , Signifikanzniveau α) mit Formel (5.13d) berechnen zu
können, müssen der Umfang n der Zufallsstichprobe sowie die Standardabweichung σ der als N(µ, σ 2 )-verteilt angenommenen Grundgesamtheit X bekannt
sein. Meist will man den Wert der Gütefunktion an einer Stelle µ = µ0 + δ wissen, die vom Sollwert um eine als relevant angesehene Differenz δ = µ − µ0
abweicht. Dividiert man diese Differenz durch σ , erhält man die Effektstärke
ε = δ /σ .
Z.B. erhält man mit den Daten α = 0.05, µ0 = 1.2, n = 10 aus Beispiel
5.8 und der bekannten Standardabweichung σ = 0.1 zur vorgegebenen relevanten Differenz δ√= 0.07 die Effektstärke ε = 0.7 und den Nichtzentralitätparameter λ = ε n = 2.214. Das (1 − α/2)-Quantil der tn−1 -Verteilung ist
tn−1,1−α/2 = t9,0.975 = 2.262. Setzt man in (5.13d) ein, ergibt sich der in Abb.
5.9 hervorgehobene Gütefunktionswert G(µ0 + δ ) = G∗ (0.7) = 0.5064 ≈ 51%.
Die numerische Berechnung ist der folgenden Lösung mit R zu entnehmen.
Im Allg. ist σ unbekannt und aus der Stichprobe zu schätzen. Mit den Daten
von Beispiel
5.8 erhält man σ ≈ s = 0.09571 und weiter ε ≈ δ /s = 0.7314,
√
λ = ε n = 2.313, G(µ0 + δ ) = G∗ (0.7314) = 0.5414 = 0.54%.
> # Lö s u n g m i t R :
> o p t i o n s ( d i g i t s =4)
5.3 Vergleich eines Mittelwerts mit einem Sollwert
327
>
>
>
>
>
>
>
mu0 <− 1 . 2 ; n <− 1 0 ; a l p h a <− 0 . 0 5 ; d e l t a <− 0 . 0 7
t q <− q t (1− a l p h a / 2 , n −1) # t −Q u a n t i l
# Bestimmung von G( mu0+ d e l t a ) m i t e x a k t e m s i g m a
s i g m a <− 0 . 1
e p s i l o n <− d e l t a / s i g m a ; lambda <− e p s i l o n ∗ s q r t ( n )
G <− p t (− t q , n −1 , lambda )+1− p t ( t q , n −1 , lambda )
p r i n t ( c b i n d ( sigma , e p s i l o n , lambda , G ) )
s i g m a e p s i l o n lambda
G
[1 ,]
0.1
0.7 2.214 0.5064
> # H i n w e i s : G( mu+ d e l t a ) ( = power ) kann d i r e k t m i t
> # power . t . t e s t ( ) b e r e c h n e t werden :
> power . t . t e s t ( n =10 , d e l t a = d e l t a , s d = sigma , s i g . l e v e l = 0 . 0 5 ,
+
t y p e =" one . s a m p l e " , s t r i c t =T )
One−s a m p l e
n
delta
sd
sig . level
power
alternative
t
=
=
=
=
=
=
t e s t power c a l c u l a t i o n
10
0.07
0.1
0.05
0.5064
two . s i d e d
> # Bestimmung von G( mu0+ d e l t a ) m i t g e s c h ä t z t e m s i g m a
> x <− c ( 1 . 2 2 , 1 . 4 1 , 1 . 4 0 , 1 . 3 0 , 1 . 1 1 ,
+
1.35 , 1.30 , 1.22 , 1.24 , 1.19)
> power . t . t e s t ( n =10 , d e l t a = d e l t a , s d = s d ( x ) , s i g . l e v e l = 0 . 0 5 ,
+
t y p e =" one . s a m p l e " , s t r i c t =T )
One−s a m p l e
n
delta
sd
sig . level
power
alternative
t
=
=
=
=
=
=
t e s t power c a l c u l a t i o n
10
0.07
0.09571
0.05
0.5414
two . s i d e d
Bei einer wenig von null abweichenden Effektstärke ε hat man nur eine geringe Wahrscheinlichkeit G∗ (ε) – oder wie man auch sagt, eine geringe Power, die
Nullhypothese H0 : µ = µ0 (d.h. ε = 0) abzulehnen. Kann bei einer von null verschiedenen Effektstärke (also bei einem Mittelwert µ 6= µ0 ) die Nullhypothese nicht
abgelehnt werden, so begeht man einen Fehler. Dieser Fehler wird als Fehler 2. Art
oder β -Fehler bezeichnet.18 Die Wahrscheinlichkeit, beim 2-seitigen Vergleich eines Mittelwerts mit einem Sollwert einen β -Fehler zu begehen, ist 1 − G∗ (ε). Um
die Wahrscheinlichkeit eines β -Fehlers klein zu halten, gibt man für 1 − G∗ (ε) eine
Fehlerschranke vor, die mit β bezeichnet wird. Häufig wird β = 10% verwendet,
β -Werte über 20% sind unüblich.
Die Forderung 1 − G∗ (ε) ≤ β erlaubt es, den Umfang der Zufallsstichprobe in
Verbindung mit dem 1-Stichproben t-Test planen. Das Planungsziel ist: Wenn µ
18 Der β -Fehler besteht darin, dass die Testentscheidung nicht zur Ablehnung von H führt, obwohl
0
H1 gilt. Davon zu unterscheiden ist der α-Fehler, bei dem H0 irrtümlich abgelehnt wird.
328
5 Schätzen und Testen
von µ0 um δ = σ ε > 0 oder mehr abweicht, soll die Wahrscheinlichkeit (Power)
mindestens 1−β betragen, dass der 1-Stichproben t-Test auf dem Niveau α zu einer
Ablehnung der Nullhypothese H0 : µ = µ0 führt. Der zur Erreichung dieses Ziels
erforderliche Mindeststichprobenumfang ergibt sich als Lösung n∗ der Gleichung
1 − G∗ (ε) = β oder ausführlicher
−Fn−1,ε √n (−tn−1,1−α/2 ) + Fn−1,ε √n (tn−1,1−α/2 ) = β
(5.14a)
Die Planung des Mindeststichprobenumfangs n∗ setzt also voraus, das man eine Abweichung δ = µ − µ0 = σ ε > 0 vorgibt, die man als relevant betrachtet und mit der
(hohen) Sicherheit 1 − β erkennen will.19 Die Bestimmung von n∗ aus (5.14a) ist
nur auf numerischen Wege möglich.20 Eine grobe Planung des Mindeststichprobenumfangs kann mit der Näherungsformel
n∗ ≈
σ2
(z
+ z )2
δ 2 1−α/2 1−β
(5.14b)
vorgenommen werden, so ferne n∗ groß genug (jedenfalls nicht kleiner als 10) ist
und ein Schätzwert für σ zur Verfügung steht; δ = µ − µ0 ist die relevante Abweichung des Mittelwerts vom Sollwert, z1−α/2 und z1−β sind Quantile der N(0, 1)Verteilung. Eine Begründung der Näherung (5.14b) findet sich in den Ergänzungen
(Abschnitt 5.7.1).
Beispiel 5.10.
Der erforderliche Mindestumfang n∗ einer Zufallsstichprobe soll so geplant
werden, dass wir eine Sicherheit von 1−β = 90% haben, mit dem 1-Stichproben
t-Test auf 5%igem Signifikanzniveau für H1 : µ 6= µ0 zu entscheiden, wenn µ
von µ0 um mindestens δ > 0 abweicht. Unter dem Untersuchungsmerkmal stelle man sich z.B. die Wirkstoffmenge X (in mg) in einer Filmtablette vor. Für den
Herstellungsprozess ist ein Sollwert von µ0 = 500 vorgegeben. Aus einer Voruntersuchung sei der Schätzwert s = 31.5 für die Standardabweichung der als
normalverteilt angenommenen Grundgesamtheit bekannt. Eine Sollwertabweichung größer oder gleich δ = 25 wird als relevant angesehen.
Wir bestimmen zuerst den Mindeststichprobenumfang mit der Näherungsformel (5.14b). Mit den Quantilen z1−α/2 = z0.975 = 1.96 und z1−β = z0.9 = 1.28
der Standardnormalverteilung erhält man:
n∗ ≈
2
31.52
1.96 + 1.28 = 16.68 ≈ 17
2
25
Die Lösung mit R liefert den exakten Wert n∗ = 18.71 ≈ 19.
19 In der Praxis ist es oft schwierig, Informationen über die relevante Abweichung ε zu finden bzw.
zu erhalten.
20 Z.B. mit der R-Funktion power.t.test(delta, sd, sig.level, power,
type=“one.sample", strict=T), in der für delta die als relevant betrachtete Abweichung δ = µ − µ0 , für sd ein Schätzwert für σ , für sig.level das Signifikanzniveau α und für
power die Sicherheit 1 − β einzusetzen ist.
5.3 Vergleich eines Mittelwerts mit einem Sollwert
329
> # Lö s u n g m i t R :
> o p t i o n s ( d i g i t s =4)
> power . t . t e s t ( d e l t a =25 , s d = 3 1 . 5 , s i g . l e v e l = 0 . 0 5 ,
+
power = 0 . 9 , t y p e =" one . s a m p l e " , s t r i c t =T )
One−s a m p l e
n
delta
sd
sig . level
power
alternative
t
=
=
=
=
=
=
t e s t power c a l c u l a t i o n
18.71
25
31.5
0.05
0.9
two . s i d e d
5.3.3 Der 1-Stichproben t-Test für 1-seitige Hypothesen
Neben den bisher betrachteten Testaufgaben mit 2-seitigen Hypothesen treten in
der Praxis auch 1-seitige Hypothesen auf. Will man wissen, ob der Mittelwert µ
einen vorgegebenen Sollwert µ0 (z.B. einen Grenzwert) überschreitet, setzt man als
Alternativhypothese H1 : µ > µ0 und als Nullhypothese H0 : µ ≤ µ0 an. Man spricht
nun von einem 1-seitigen Testproblem, weil bei Gültigkeit von H1 jedes µ auf der
Zahlengeraden „auf einer Seite“ (der rechten) von µ0 liegt. Wie beim 2-seitigen
Testproblem entscheiden wir uns auf dem Signifikanzniveau α für H1 , wenn der PWert kleiner als α ist. Der P-Wert des 1-seitigen t-Tests auf Überschreitung ist –
wie in den Ergänzungen (Abschnitt 5.7.1) gezeigt wird – durch
P = 1 − Fn−1 (tgn ) mit tgn =
x̄n − µ0
√
sn / n
(5.15a)
gegeben. Die Größen x̄n und sn sind das arithmetische Mittel bzw. die Standardabweichung der dem Test zugrunde liegenden Zufallsstichprobe mit dem Umfang n.
Fn−1 ist die Verteilungsfunktion der tn−1 -Verteilung. Den Wert der Gütefunktion an
der Stelle µ berechnet man wieder mit Hilfe der Verteilungsfunktion der nichtzentralen t-Verteilung analog zu (5.13c) aus:
G(µ) = 1 − Fn−1,λ (tn−1,1−α ) mit λ =
µ − µ0
√
σ/ n
(5.15b)
Gibt man in (5.15b) G(µ) = 1 − β vor, kann man den Mindeststichprobenumfang
n∗ in Abhängigkeit von δ = µ − µ0 > 0, σ und α ausrechnen. Durch n∗ wird sicher
gestellt, dass man bei einer Überschreitung des Sollwertes um δ eine Sicherheit
von 1 − β hat, mit dem auf dem Niveau α geführten Test H0 abzulehnen. Einen
Richtwert für n∗ erhält man mit der zu (5.14b) analoge Näherungsformel
n∗ ≈
σ2
(z1−α + z1−β )2
δ2
(5.15c)
330
5 Schätzen und Testen
Liegt ein 1-seitiges Testproblem mit der Alternativhypothese H1 : µ < µ0 und der
Nullhypothese H0 : µ ≥ µ0 vor, wendet man zur Entscheidungsfindung den 1Stichproben t-Test auf Unterschreitung an. Der P-Wert und die Gütefunktion sind
in diesem Fall:
x̄n − µ0
√ bzw.
sn / n
µ − µ0
√
G(µ) = Fn−1,λ (−tn−1,1−α ) mit λ =
σ/ n
P = Fn−1 (−tgn ) mit tgn =
(5.16a)
(5.16b)
Für eine Abschätzung des Mindeststichprobenumfangs kann wieder (5.15c) verwendet werden.
Beispiel 5.11.
Nach einer EU-Richtlinie ist für Blei in Nahrungsergänzungsmittel eine Höchstgrenze von 3 mg/kg festgelegt. Es soll für ein bestimmtes Produkt untersucht
werden, ob die gemessene Bleikonzentration X in mg/kg im Mittel die Höchstgrenze überschreitet. Dazu wird in einer Zufallsstichprobe aus n = 10 Proben
die Bleikonzentration bestimmt. Es ergaben sich die folgenden Messwerte (in
mg/kg): 3.24, 3.08, 3.46, 2.72, 2.95, 2.86, 3.15, 2.84, 3.64, 2.60.
Wir zeigen zuerst, dass man auf 5%igem Signifikanzniveau keine Überschreitung des Höchstwertes µ0 = 3 konstatieren kann. Die Variable X setzen
wir als normalverteilt mit dem Mittelwert µ voraus. Als Alternativ- und Nullhypothese formulieren wir H1 : µ > µ0 bzw. H0 : µ ≤ µ0 . Das arithmetische
Mittel und die Standardabweichung der Stichprobenwerte sind durch x̄ = 3.054
bzw. s = 0.3274 gegeben. Damit erhält mit den Formeln (5.15a) die Realisierung tgn = 0.5216 der Testgröße und den P-Wert P = 0.3073. Zur Berechnung des P-Werts wurde die R-Funktion pt(tgn, n-1) verwendet. Wegen
P ≥ α = 0.05 kann die Nullhypothese nicht abgelehnt werden. Einfacher ist es,
für die Testentscheidung gleich die R-Funktion t.test() zu verwenden:
>
>
>
>
# Lö s u n g m i t R :
x <− c ( 3 . 2 4 , 3 . 0 8 , 3 . 4 6 , 2 . 7 2 , 2 . 9 5 , 2 . 8 6 , 3 . 1 5 , 2 . 8 4 , 3 . 6 4 , 2 . 6 0 )
# H0 : mu <= 3 v s . H1 : mu > 3
t . t e s t ( x , mu=3 , a l t e r n a t i v e =" g r e a t e r " )
One Sample t − t e s t
data : x
t = 0 . 5 2 1 5 9 , d f = 9 , p−v a l u e = 0 . 3 0 7 3
a l t e r n a t i v e h y p o t h e s i s : t r u e mean i s g r e a t e r t h a n 3
95 p e r c e n t c o n f i d e n c e i n t e r v a l :
2.86422
Inf
sample e s t i m a t e s :
mean o f x
3.054
Wir nehmen nun an, dass eine Überschreitung δ des Höchstwertes um 10%
oder mehr als relevant anzusehen ist. Folglich wäre die Stichprobennahme (d.h.
der Stichprobenumfang) so zu planen, dass mit dem auf 5%igen Niveau geführten Test eine relevante Überschreitung mit der Sicherheit 1 − β als signifikant
5.3 Vergleich eines Mittelwerts mit einem Sollwert
331
erkannt wird. Gibt man die Sicherheit 1 − β = 0.9 vor und schätzt σ durch
die Standardabweichung s = 0.3274, folgt mit Formel (5.15c) die Näherung
n∗ ≈ 10.2, also ein Mindeststichprobenumfang von n∗ = 11. Die für die Berechnung notwendigen Quantile z1−α = z0.95 = 1.645 und z1−β = z0.9 = 1.282
wurden mit den R-Funktionen qnorm(0.95) bzw. qnorm(0.9) bestimmt.
Obwohl der Mindeststichprobenumfang recht klein ist, weicht der Näherungswert nur wenig vom exakten Wert 11.69 ≈ 12 ab. Diesen findet man mit der
R-Funktion power.t.test():
> power . t . t e s t ( d e l t a = 0 . 3 , s d = 0 . 3 2 7 4 , s i g . l e v e l = 0 . 0 5 ,
+
power = 0 . 9 , t y p e = " one . s a m p l e " ,
+
a l t e r n a t i v e = " one . s i d e d " )
One−s a m p l e
n
delta
sd
sig . level
power
alternative
t
=
=
=
=
=
=
t e s t power c a l c u l a t i o n
11.69311
0.3
0.3274
0.05
0.9
one . s i d e d
Aufgaben
1. Für Eisen im Trinkwasser wird ein Grenzwert von µ0 = 200 mg/l genannt. Eine
Überprüfung der Fe-Konzentration X ergab in einem Wohnhaus die folgenden
fünf Probenwerte (in mg/l): 213, 217, 191, 207, 228. Die Variable X möge zumindest näherungsweise normalverteilt sein.
a) Man zeige auf 5%igem Testniveau, dass das arithmetische Mittel der Probenwerte den Grenzwert nicht signifikant überschreitet.
b) Welche Sicherheit bietet eine Versuchsanlage mit n = 5, mit dem auf 5%igem
Testniveau geführten t-Test eine Überschreitung des Grenzwerts um δ = 20
mg/l als signifikant zu erkennen? Die Standardabweichung der Grundgesamtheit schätze man mit den gegebenen Probenwerten.
2. Einer Pressemeldung ist zu entnehmen, dass der „typische“ Österreicher eine
Körpergröße von µ0 = 178 cm aufweist. Von 10 Männern mit mehr als 50 Jahren wurden die folgenden Körpergrößen (in cm) bestimmt: 160, 175, 170, 165,
174, 173, 178, 181, 167, 180.
a) Kann den Stichprobenwerten entnommen werden, dass die Körpergröße von
über 50-jährigen Männern im Mittel von der typischen Körpergröße (178
cm) abweicht? Man prüfe diese Aussage mit dem t-Test auf 5%igem Signifikanzniveau. Dabei nehme man an, dass die Stichprobe eine zufällige
Auswahl aus der Gesamtheit der über 50-jährigen Österreicher sei und die
Körpergröße in dieser Gesamtheit eine näherungsqweise normalverteilte Zufallsvariable ist.
332
5 Schätzen und Testen
b) Welcher Stichprobenumfang müsste geplant werden, damit der 2-seitige tTest (α = 5%) mit 90%iger Sicherheit ein signifikantes Resultat anzeigt,
wenn der wahre Mittelwert von µ0 um mindestens 2% des Referenzwertes
µ0 abweicht. Die Standardabweichung σ setze man näherungsweise gleich
der mit den gegebenen Stichprobenwerten berechneten empirischen Standardabweichung.
5.4 Überprüfung der Normalverteilungsannahme
Wenn man den 1-Stichproben t-Test anwendet oder Konfidenzintervalle für den Mittelwert und die Varianz mit den Formeln (5.5a) bzw. (5.6) bestimmt, wird vorausgesetzt, dass die Grundgesamtheit wenigstens näherungsweise normalverteilt ist. Die
Überprüfung der Normalverteilungsannahme kann auf grafischem Wege oder mit
einem Testverfahren erfolgen. Dabei geht man von der Annahme aus, dass die betrachtete Grundgesamtheit X normalverteilt sei. Mit Hilfe einer Zufallsstichprobe
aus X wird dann entweder visuell mit einer Grafik oder mit einem statistischen Test
entschieden, ob die Beobachtungsdaten gegen die angenommene Normalverteilung
sprechen. Man macht gleichsam einen Falsifizierungsversuch mit einer Zufallsstichprobe. Weicht die Verteilung der Stichprobenwerte nur „wenig“ von der theoretischen Verteilung (der angenommenen Normalverteilung) ab, betrachtet man die
Grundgesamtheit als normalverteilt.
5.4.1 Normal-QQ-Plots
Das begrifflich einfachste Instrument zur Überprüfung der Normalverteilungsannahme ist das Normal-QQ-Plot. Wenn die Grundgesamtheit X mit dem Mittelwert
µ und der Varianz σ 2 normalverteilt ist, ist Z = X−µ
σ standardnormalverteilt. Zwischen dem p-Quantil x p (0 < p < 1) von X und dem p-Quantil z p von Z besteht
wegen
X −µ
p = P(Z ≤ z p ) = P
≤ z p = P(X ≤ µ + σ z p ) = P(X ≤ x p )
σ
der Zusammenhang x p = µ + σ z p . Trägt man in einem rechtwinkeligen Koordinatensystem horizontal die zu verschiedenen Werten von p bestimmten Quantile z p
auf und vertikal die entsprechenden Quantile x p , so liegen die Punkte (z p , x p ) auf
einer Geraden g mit dem Anstieg σ und dem y-Achsenabschnitt µ. Im Besonderen
gilt das für die Punkte (z0.25 , x0.25 ) und (z0.75 , x0.75 ). Die Koordinaten dieser Punkte
sind die unteren bzw. oberen Quartile von Z und X. Mit den unteren und oberen
Quartilen können die Geradenparameter σ und µ durch
5.4 Überprüfung der Normalverteilungsannahme
σ=
x0.25 z0.75 − x0.75 z0.25
x0.75 − x0.25
bzw. µ = x0.75 − σ z0.75 =
z0.75 − z0.25
z0.75 − z0.25
333
(5.17)
ausgedrückt werden. Beim Normal-QQ-Plot werden die Werte x1 , x2 , . . . , xn einer
Zufallsstichprobe als Quantile von X aufgefasst. Wir nehmen an, dass die Stichprobenwerte bereits nach aufsteigender Größe angeordnet sind. Das untere und obere
Quartil der Stichprobenwerte sei Q1 bzw. Q3 . Wenn Schätzwerte p̂i (i = 1, 2, . . . n)
für die Wahrscheinlichkeiten pi = P(X ≤ xi ) bekannt sind, können die den xi entsprechenden Quantile der Standardnormalverteilung mit Hilfe von Φ −1 ( p̂i ) geschätzt werden. Dabei ist Φ −1 die Quantilsfunktion der Standardnormalverteilung,
also die Umkehrfunktion der Verteilungsfunktion Φ von Z. Bei normalverteilter
Grundgesamtheit X ist zu erwarten, dass die Punkte Pi = Φ −1 ( p̂i ), xi in zufälliger Weise um die theoretische Gerade g streuen. Näherungswerte für den Anstieg
und den y-Achsenabschnitt von g findet man, indem man in (5.17) x0.25 durch Q1
und x0.75 durch Q3 ersetzt. Die durch die Näherungswerte bestimmte Gerade g∗ ist
für die Interpretation der Streuung der Punkte Pi nützlich und wird meist in das
Normal-QQ-Plot eingetragen.
Um ein Normal-QQ-Plot zeichnen zu können, brauchen wir noch ein Verfahren zur Schätzung der Wahrscheinlichkeiten pi = P(X ≤ xi ) (i = 1, 2, . . . , n). Es ist
naheliegend, diese Wahrscheinlichkeit näherungsweise gleich dem Anteil der Stichprobenwerte zu setzen, die kleiner oder gleich xi sind. Dies würde, da x1 ≤ x2 ≤
· · · ≤ xi ≤ · · · ≤ xn vorausgesetzt wurde, auf die Schätzwerte p̂i = ni für die pi führen. Im Folgenden werden Normal-QQ-Plots mit der R-Funktion qqnorm() aus
dem Paket ”extRemes” (Extreme Value Analysis) erstellt. Diese Funktion verwendet für die pi die Schätzwerte p̂i = i−0.5
und stellt zusätzlich simultane (d.h. für
n
alle pi zugleich geltende) 95%ige Konfidenzintervalle in der Gestalt p̂i ± k mit
0.895
k= √
√ + 0.85
n 1 − 0.01
n
n
(5.18)
zur Verfügung.21 Aus den Schätzwerten p̂i und den Grenzen p̂i ± k kann man für
die Quantile zi der Standardnormalverteilung die Schätzwerte ẑi = Φ −1 ( p̂i ) und die
Grenzen Φ −1 ( p̂i ± k) von simultanen, 95%-Konfidenzintervallen berechnen. Damit
lassen sich Normal-QQ-Plots mit Konfidenzbändern versehen, in dem man die unteren und oberen Intervallgrenzen durch Streckenzüge verbindet. Auf der Grundlage
eines derartigen Normal-QQ-Plots wird die Überprüfung der Normalverteilungsannahme folgendermaßen vorgenommen:
Wie oben ausgeführt, besteht zwischen den p-Quantilen x p einer normalverteilten Grundgesamtheit X und den p-Quantilen der standardisiserten Größe Z = X−µ
σ
ein linearer Zusammenhang, den wir in der (Z, X)-Ebene durch die Gerade g dargei−3/8
Zur Schätzung der Wahrscheinlichkeiten pi wird auch die Formel p̂i = n+1/4
verwendet (z.B.
in der R-Funktion shapiro.test() für den Shapiro-Wilk-Test zur Prüfung der Normalverteii−3/8
lungsannahme). Die R-Funktion qqnorm() arbeitet mit p̂i = n+1/4
für n ≤ 10 und mit p̂i = i−0.5
n
für n > 10. Diese Funktion steht in der Basisinstallation zur Verfügung und erzeugt Normal-QQPlots ohne eine Intervallschätzung.
21
334
5 Schätzen und Testen
stellt haben. Hat man eine Zufallsstichprobe x1 , x2 , . . . , xn aus X und zeichnet damit
ein Normal-QQ-Plot, so werden die Punkte (ẑi , xi ) mehr oder weniger von der (unbekannten) Geraden g abweichen. Sind die Abweichungen so groß, dass man in das
mit den xi bestimmte 95%ige Konfidenzband keine Gerade einzeichnen kann, die
vollständig innerhalb des Konfidenzbandes liegt, dann entscheiden wir uns gegen
die Normalverteilungsannahme. Bei diesem Entscheidungsverfahren hat man ein
Risiko von 5%, irrtümlich gegen die Normalverteilungsannahme zu entscheiden.
In der Regel wird den Normal-QQ-Plots auch die durch die Punkte (z0.25 , Q1 )
und (z0.75 , Q3 ) verlaufende Gerade g∗ zur Orientierung beigefügt. Diese Gerade
kann mit der R-Funktion qqline() erzeugt werden.
Beispiel 5.12.
Es sei X eine mit den Parametern µ = 2 und σ = 0.25 normalverteilte Grundgesamtheit. Mit der R-Funktion rnorm() wird aus X eine Zufallsstichprobe mit
dem Umfang n = 12 erzeugt. Die nach aufsteigender Größe angeordnete (auf 3
signifikante Stellen gerundete) Zufallsstichprobe ist:
1.56, 1.91, 1.93, 2.04, 2.07, 2.11, 2.18, 2.26, 2.28, 2.32, 2.49, 2.51
In Abb. 5.10 ist das mit dieser Stichprobe erstellte Normal-QQ-Plot dargestellt. Dazu wurde die R-Funktion qqnorm() aus dem Paket ”extRemes” verwendet. Wir rechnen die Koordinaten des Punktes (ẑ6 , x6 ) und die Grenzen
des entsprechenden 95%igen (simultanen) Konfidenzintervalls mit den angeführten Formeln nach. Das zum Stichprobenwert x6 = 2.11 gehörende Quantil ẑ6 der Standardnormalverteilung findet man, in dem man p̂6 = 5.5
15 berechnet und ẑ6 = Φ −1 ( p̂6 ) = −0.1046 mit der R-Funktion qnorm(5.5/15) bestimmt. Aus (5.18) ergibt sich k = 0.2419. Zum Schätzwert ẑ6 erhält man damit
das 95%ige Konfidenzintervall [u6 , o6 ] mit den Grenzen u6 = Φ −1 ( p̂6 − k) =
Φ −1 (0.2164) = −0.7844 und o6 = Φ −1 ( p̂6 + k) = Φ −1 (0.7003) = 0.5251.
Die Gerade g∗ ist im QQ-Plot der Abb. 5.10 durch die Punkte (z0.25 , Q1 ) und
(z0.75 , Q3 ) festgelegt. Die Quartile z0.25 = −0.6745 und z0.75 = −0.6745 der
Standardnormalverteilung findet man z.B. mit der R-Funktion qnorm(0.25)
bzw. qnorm(0.75). Die Quartile Q1 = x0.25 = 2.013 und Q3 = x0.75 = 2.29
der Stichprobenwerte wurden mit der R-Funktion quantile() bestimmt.22
Wie aus Abb. 5.10 ersichtlich ist, gibt es eine Gerade (z.B. g∗ ), die innerhalb des Konfidenzbandes liegt. Dies bedeutet, dass die Zufallsstichprobe mit
Normalverteilungsannahme vereinbar ist. (Tatsächlich wurde die Stichprobe ja
aus einer normalverteilten Grundgesamtheit ausgewählt.)
22 Die R-Anweisung zur Bestimmung von Q = x
1
0.25 lautet quantile(x, 0.25). Dabei ist x
der die Stichprobenwerte enthaltende Datenvektor. Man beachte, dass die mit quantile() berechneten Quartile geringfügig von den mit fivenum() bestimmten Quartilen abweichen, wenn
n gerade ist. Die R-Funktion quantile() verwendet zur Berechnung des p-Quantils x p einer
nach aufsteigender Größe angeordneten Stichprobe x1 , x2 , . . . , xn die Formel x p = (1 − v)x[u] +
vx[u]+1 mit u = 1 + (n − 1)p und v = u − [u]; der Klammerausdruck [u] bedeutet die größte ganze Zahl, die kleiner als oder gleich u ist. Ist z.B. p = 0.25, so ergibt sich für den betrachteten
Datenvektor u = 3.75, [u] = 3, v = 0.75 und x0.25 = 0.25x3 + 0.75x4 = 2.013.
335
2.2
2.4
g*
^ − k),x ))
(Φ−1(p
6
6
(z6,x6)
(z0.75,Q3)
2.0
^ + k),x ))
(Φ−1(p
6
6
1.8
(z0.25,Q1)
1.6
Stichprobenwerte xi (n=12)
5.4 Überprüfung der Normalverteilungsannahme
−2
−1
0
1
Quantile zi der N(0,1) − Verteilung
2
Abb. 5.10 Normal-QQ-Plot für eine Zufallsstichprobe mit dem Umfang n = 12 aus einer mit
den Parametern µ = 2 und σ = 0.25 normalverteilten Grundgesamtheit X. Die Grafik wurde mit
der im Paket ”extRemes” zur Verfügung gestellten R-Funktion qqnorm() erstellt. Das 95%ige
Konfidenzband wird durch die grau-strichlierten Streckenzüge begrenzt. Hervorgehoben ist der
Punkt (z6 , x6 ) und das 95%ige Konfidenzintervall für das entsprechende z-Quantil der N(0, 1)Verteilung. Die Gerade g∗ durch die Punkte (z0.25 , Q1 ) und (z0.75 , Q3 ) wurde mit der R-Funktion
qqline() hinzugefügt.
# Abb . 5 . 1 0 ( R−S k r i p t , ohne B e z e i c h n u n g e n ) :
l i b r a r y ( extRemes )
p a r ( mai=c ( 1 . 2 , 1 . 2 , 0 . 5 , 0 . 5 ) , c e x . a x i s = 1 . 2 , c e x . l a b = 1 . 2 )
xn <− c ( 1 . 5 6 , 1 . 9 1 , 1 . 9 3 , 2 . 0 4 , 2 . 0 7 , 2 . 1 1 ,
2.18 , 2.26 , 2.28 , 2.32 , 2.49 , 2.51)
qqxn <− qqnorm ( xn , pch =18 , c e x = 1 . 2 , x l i m =c ( −2 , 2 ) , x l a b =
e x p r e s s i o n ( " Q u a n t i l e "∗ z [ i ] ∗ " d e r N( 0 , 1 ) − V e r t e i l u n g " ) ,
y l a b = e x p r e s s i o n ( " S t i c h p r o b e n w e r t e "∗ x [ i ] ∗ " ( n = 1 2 ) " ) )
q q l i n e ( xn , lwd = 2 )
5.4.2 Schiefe und Kurtosis
Bei der Interpretation von Normal-QQ-Plots ist es nützlich zu wissen, wie sich die
Punkteanordnung verändert, wenn die Grundgesamtheit in markanten Eigenschaften von der Normalverteilung abweicht. Zu den markanten Eigenschaften der Normalverteilung zählen die Symmetrie der Dichtekurve um den Mittelwert und die
Wölbung der Dichtekurve. Die Asymmetrie und die Wölbung der Verteilung einer
stetigen Zufallsvariablen X mit der Dichtefunktion f wird durch Kennwerte erfasst,
die mit dem dritten bzw. vierten zentralen Moment der Verteilung gebildet werden.
Man bezeichnet den Mittelwert der Potenz (X − µX )k (k = 2, 3, . . .) als k-tes (zentrales) Moment und schreibt dafür:
336
5 Schätzen und Testen
Z
µk = µ(X−µX )k =
(X − µX )k f (x)dx
4
3
2
0
0.0
1
Dichte
0.2
0.4
xi (n=50)
5
0.6
6
Das Integral erstreckt sich über den Wertebereich von X. Für k = 2 erhält man die
Varianz σX2 als zweites zentrales Moment. Wenn man das dritte Moment µ3 durch
σ 3 dividiert, erhält man die sogenannte Schiefe γ1 = µ3 /σ 3 , die eine (dimensionslose) Kennzahl für die Asymmetrie einer Verteilung darstellt. Für die Normalverteilung (und jede andere Verteilung mit einer um µX symmetrischen Dichtefunktion)
ist γ1 = 0. Ist γ1 > 0, spricht man von einer linkssteilen (oder rechtsschiefen) Asymmetrie; die Dichtekurve zeigt links einen steileren Anstieg und fällt nach rechts flacher ab. Im Falle γ1 < 0 nennt man die Asymmetrie rechtssteil (oder linksschief),
die Dichtekurve steigt links flach an und fällt nach rechts steiler ab. Die klassische
Maßzahl für die Wölbung ist die (dimensionslose) Kurtosis γ2 = µ4 /σ 4 − 3. Die
Kurtosis ist null für für die Normalverteilung, für Dichtekurven mit einem flacheren
Gipfel als die Normalverteilungsdichte ist γ2 < 0 und für spitzgipfelige Dichtekurven gilt γ > 0.
Abb. 5.11 zeigt das Normal-QQ-Plot für eine Zufallsstichprobe aus einer linkssteilen Grundgesamtheit.23 Die Punkteverteilung im Normal-QQ-Plot der Stichprobe weist eine nach unten konvexe Anordnung auf. Demgegenüber hat die Punkteanordnung einer Zufallsstichprobe aus einer rechtssteilen Verteilung einen nach oben
konvexen Verlauf. Nach unten konvexe Punktemuster im Normal-QQ-Plot weisen
also auf eine linkssteil-asymmetrische Grundgesamtheit hin, nach oben konvexe
Punktemuster deuten eine rechtssteile Asymmetrie an.
0.0
0.5
1.0
X
1.5
2.0
−2 −1 0
1
2
Quantile der N(0,1) − Verteilung
Abb. 5.11 Normal-QQ-Plots für eine Zufallsstichprobe aus einer Grundgesamtheit mit linkssteiler
Asymmetrie. Bei linkssteiler Asymmetrie ist der Verlauf der Punkte nach unten konvex.
In Abb. 5.12 sind die Normal-QQ-Plots für zwei Zufallsstichproben aus Grundgesamtheiten dargestellt, die in der Wölbung von der Normalverteilung abweichen.
23
Als Beispiel einer linksteilen Grundgesamtheit wurde die mit den Parametern µ = 0 und σ = 1
logarithmisch normalverteilte Zufallsvariable X verwendet. Eine Zufallsvariable X heißt logarithmisch normalverteilt mit den Parametern µ und σ , wenn der (natürliche) Logarithmus von X
N(µ, σ 2 )-verteilt ist.
5.4 Überprüfung der Normalverteilungsannahme
337
Die in der linken oberen Grafik dargestellte Rechteckverteilung ist offensichtlich
flachgipfeliger als die Normalverteilung.24 Wie man am Normal-QQ-Plot einer Zufallsstichprobe aus einer über dem Intervall [−5, 5] uniform verteilten Grundgesamtheit erkennt, gibt es eine systematische Abweichung der Datenpunkte von g∗ am linken Ende nach oben und am rechten Ende nach unten. Die links unten dargestellte
Dichtekurve der Laplace-Verteilung ist sichtbar steilgipfeliger als die Normalverteilungsdichte.25 Im Normal-QQ-Plot bewirkt die größere Wölbung ein Wegdriften
der Datenpunkte von der Geraden g∗ am linken Ende nach unten und am rechten
Ende nach oben.
5.4.3 Der Shapiro-Wilk-Test
Zur Überprüfung der Normalverteilungsannahme gibt es einige Testverfahren wie
z.B. den Kolmogorov-Smirnov-Test (in der Fassung von Lilliefors), den AndersonDarling-Test oder den Shapiro-Wilk-Test.26 Die folgenden Ausführungen beschränken sich auf den Shapiro-Wilk-Test, der für Stichprobenumfänge ab n = 8 empfohlen wird und der sich durch seine Schärfe (Power) auszeichnet. Bei der Durchführung des Shapiro-Wilk-Tests wird die Normalverteilungsannahme als Nullhypothese H0 postuliert. Mit einer Zufallsstichprobe aus der Grundgesamtheit X wird dann
die Realisierung einer für den Test typischen Testgröße bestimmt. Schließlich berechnet man den P-Wert als Wahrscheinlichkeit, dass die Testgröße die beobachtete
Realisierung unterschreitet. Ist P kleiner als das vorgegebene Signifikanzniveau α,
wird H0 abgelehnt, andernfalls beibehalten.
Der Shapiro-Wilk-Test orientiert sich am Normal-QQ-Plot. Wenn die Grundgesamtheit X mit den Parametern µ und σ normalverteilt ist (das wird als Nullhypothese angenommen), dann besteht zwischen den Quantilen x p (0 ≤ p ≤ 1) von X
X
und den Quantilen z p der standardisierten Größe Z = X−µ
σX der lineare Zusammen24
Die Rechteckverteilung besitzt über dem reellen Intervall [a, b] mit b > a die konstante Dichte
1/(b − a) und sonst überall die Dichte null. Für die in Abb. 5.12 links oben dargestellte Rechteckverteilung ist b = −a = 5, γ1 = 0 und γ2 = −1.2. Zufallszahlen aus einer rechteckig-verteilten
Grundgesamtheit können mit der R-Funktion runif() erzeugt werden.
25 Eine Zufallsvariable X heißt Laplace-verteilt mit dem Lageparameter µ und dem Skalenparame
1
exp |x−µ|
bestimmt ist. Die
ter b > 0, wenn ihre Dichtefunktion f durch die Gleichung f (x) = 2b
b
Dichtekurve der Laplace-Verteilung ist symmetrisch um µ, die Kurtosis ist positiv (γ2 = 3). Für
die in Abb. 5.12 unten dargestellte Laplace-Verteilung ist µ = 0 und b = 1. Zufallszahlen aus einer Laplace-verteilten Grundgesamtheit können mit der R-Funktion rdoublex() aus dem Paket
”smoothmest” (Smoothed M-estimators for 1-dimensional location) erzeugt werden.
26 Vgl. Liliefors, H.W.: On the Kolmogorov-Smirnov Test for Normality with Mean and Variance
Unknown. J. American Statistal Association, 62, 299-402 (1967); Anderson, T. W., Darling, D.A.:
Asymptotic Theory of Certain ”Goodness of Fit” Criteria based on Stochastic Processes. The Annals of Mathematical Statistics, 23, 193-212 (1952); Shapiro, S. S., Wilk, M. B.: An analysis of
variance test for normality (complete samples). Biometrika, 52, 591-611 (1965). Für den ShapiroWilk-Test steht in der Basisinstallation von R die Funktion shapiro.test() zur Verfügung,
die Funktionen für die beiden anderen Testverfahren sind im Paket ”nortest” (Tests for Normality)
enthalten.
5 Schätzen und Testen
2
0
xi (n=50)
0.00
−4
−2
Dichte
0.05 0.10
4
0.15
338
0
X
5
−2
−1
0
1
2
Quantile der N(0,1) − Verteilung
0
−2
0.0
−4
Dichte
0.2
xi (n=50)
2
0.4
4
−5
−3
−2
−1
0
X
1
2
3
−2
−1
0
1
2
Quantile der N(0,1) − Verteilung
Abb. 5.12 Normal-QQ-Plots für Stichproben aus einer Grundgesamtheit mit einer im Vergleich
zur Normalverteilung flachgipfeligen Verteilung (obere Grafiken) sowie aus einer Grundgesamtheit mit steilgipfeliger Verteilung (untere Grafiken). Die Dichtekurve der Normalverteilung (mit
gleichem Mittelwert und gleicher Varianz) ist links jeweils punktiert eingezeichnet. Bei flachgipfeliger (steilgipefliger) Verteilung weichen die Datenpunkte von g∗ am linken Ende nach oben
(nach unten) und am rechten Ende nach unten (nach oben) ab.
hang x p = µ + σ z p . Im Normal-QQ-Plot mit horizontaler Z-Achse und vertikaler
X-Achse ist das die Gleichung einer Geraden, die wir mit g bezeichnet haben. Der
Anstieg der Geraden ist die Standardabweichung σ von X. Es seien xi (i = 1, 2, . . . n)
die Werte einer nach aufsteigender Größe angeordneten Zufallsstichprobe aus X
i−3/8
und ẑi = Φ −1 ( p̂i ) mit p̂i = n+1/4
Schätzwerte für die entsprechenden Quantile der
Standardnormalverteilung. Die Varianz σ 2 kann in der üblichen Weise durch die
1
Stichprobenvarianz n−1
∑ni=1 (xi − x̄)2 geschätzt werden. Wenn H0 gilt, ist auch das
Quadrat des Anstiegs der an die Punkte (ẑi , xi ) angepassten Ausgleichsgeraden ĝ
eine Schätzfunktion für die Varianz.27 Dividiert man den quadrierten Anstieg durch
die Stichprobenvarianz, erhält man die Testgröße W des Shapiro-Wilk-Tests.
Die Bestimmung der Testgröße W ist aufwändig. Da die Quantile der Standardnormalverteilung zu den nach aufsteigender Größe angeordneten Elementen der Zufallsstichprobe paarweise abhängig sind, ist eine Schätzung des Anstiegs der GeraDie Ausgleichsgerade wurde mit ĝ bezeichnet, um sie von der Orientierungsgeraden g∗ durch
die Punkte (z0.25 , Q1 ) und (z0.75 , Q3 ) zu unterscheiden.
27
5.4 Überprüfung der Normalverteilungsannahme
339
den g mit der Methode der kleinsten Quadrate (vgl. Abschnitt 2.1.3) nicht möglich.
Wir begnügen uns hier damit, die Anwendung der R-Funktion shapiro.test()
zu demonstrieren und die Testgröße W zu interpretieren. Ergänzend dazu wird der
Algorithmus, nach dem die Testgröße W und der P-Wert in der R-Funktion berechnet werden, in Abschnitt 5.8.2 dargestellt.
Beispiel 5.13.
In Beispiel 5.12 wurde an Hand eines Normal-QQ-Plots gezeigt, dass die Zufallsstichprobe
1.56, 1.91, 1.93, 2.04, 2.07, 2.11, 2.18, 2.26, 2.28, 2.32, 2.49, 2.51
nicht in Widerspruch zur Annahme einer normalverteilten Grundgesamtheit
steht. Wir bestätigen dieses Ergebnis mit Shapiro-Wilk-Test. Das Signifikanzniveau sei α = 5%.
# Lö s u n g m i t R :
> x <− c ( 1 . 5 6 , 1 . 9 1 , 1 . 9 3 , 2 . 0 4 , 2 . 0 7 , 2 . 1 1 ,
+
2.18 , 2.26 , 2.28 , 2.32 , 2.49 , 2.51)
> shapiro . test (x)
S h a p i r o −Wilk n o r m a l i t y t e s t
data : x
W = 0 . 9 5 7 3 6 , p−v a l u e = 0 . 7 4 5 6 2
Der Lösung mit R entnimmt man die Realisierung w = 0.95736 der Testgröße
und den P-Wert P = 74.56%. Die Wahrscheinlichkeit, dass bei Gültigkeit von
H0 (Normalverteilungsannahme) die Testgröße einen Wert kleiner oder gleich w
annimmt, ist also P = 74.56% ≥ α. Die Nullhypothese kann daher auf 5%igem
Testniveau nicht abgelehnt werden.
Wenn man die Abhängigkeit der Quantile der Standardnormalverteilung ignoriert und die Ausgleichsgerade ĝ mit der Methode der kleinsten Quadrate wie in
Abschnitt 2.1.3 schätzt, kann der Anstieg mit Formel 2.4 berechnet werden. Auf
diese Weise erhält man den Schätzwert k̂ = sẑx /s2ẑ . Dabei ist s2ẑ die Varianz der
Quantile ẑi (i = 1, 2, . . . , n), die den Stichprobenwerten xi entsprechen und sẑx die
Kovarianz der beiden Datenreihen. Indem man den Anstieg quadriert und durch die
Varianz s2x der xi -Werte dividiert, ergibt sich:
w0 =
k̂2
=
s2x
sẑx
sẑ sx
2
(5.19)
Das ist die Realisierung einer Testgröße (wir bezeichnen sie mit W 0 ), der sich – wie
man zeigen kann – die Testgröße W mit wachsendem Stichprobenumfang immer
mehr nähert. Mit der Testgröße W 0 arbeitet der Shapiro-Francia-Test zur Überprüfung der Normalverteilungsannahme.28
28
Vgl. Shapiro, S.S., Francia, R.S.: An approximate analysis of variance test for normality. Journal
of the American Statistical Association 67, 215-216 (1972). Der Test kann mit der R-Funktion
sf() im Paket ”nortest” ausgeführt werden.
340
5 Schätzen und Testen
Die Testgröße W 0 ist gut zu interpretieren. Man erkennt aus (5.19), dass W 0 gleich
dem Bestimmtheitsmaß B zwischen der (nach aufsteigender Größe) angeordneten
Zufallsstichprobe aus X und der Reihe der entsprechenden Quantile der Standardnormalverteilung ist. Damit ist W 0 ein Maß für die Abweichung der Datenpunkte
(ẑi , xi ) von ĝ im Normal-QQ-Plot. Liegen alle Datenpunkte auf ĝ, nimmt W 0 den
Maximalwert eins an. Je stärker die Punkte von ĝ abweichen, desto mehr nähert
sich W 0 dem Minimalwert null (und desto mehr sprechen die Daten gegen die Normalverteilungsannahme). Diese Interpretation kann grundsätzlich auch auf die Testgröße W übertragen werden. Auch W kann maximal den Wert eins annehmen und
nimmt ab, je stärker die Grundgesamtheit von der Normalverteilung abweicht (ohne
allerdings den Wert null zu erreichen).
Aufgaben
1. Man berechne das dritte und das vierte Moment
Z +∞
µ3 =
−∞
(x − µ)3 f (x)dx bzw. µ4 =
Z +∞
−∞
(x − µ)4 f (x)dx
2
√1 e−x /2 und zeige da2π
γ2 = µ4 /σ 4 − 3 gleich null
der Standardnormalverteilung mit der Dichte f (x) =
mit, dass die Schiefe γ1 = µ3 /σ 3 und die Kurtosis
sind.
2. Man stelle die in Beispiel 5.11 verwendete Zufallsstichprobe 3.24, 3.08, 3.46,
2.72, 2.95, 2.86, 3.15, 2.84, 3.64, 2.60 im Normal-QQ-Plot dar und überprüfe damit die Annahme einer normalverteilten Grundgesamtheit. Zu welchem
Ergebnis führt der Shapiro-Wilk-Test?
5.5 Unterschiedshypothesen mit zwei Mittelwerten
In diesem Abschnitt werden Prüfverfahren behandelt, mit denen man entscheiden
kann, ob zwei Mittelwerte ungleich sind oder der eine größer bzw. kleiner als der
andere ist. Bei den Mittelwerten handelt es sich oft um die Mittelwerte eines Untersuchungsmerkmals, das unter zwei Versuchsbedingungen betrachtet wird. Eine typische Fragestellung lautet z.B.: Kann durch Übergang zu einer neuen Nährlösung
der Ertrag einer Nutzpflanze gesteigert werden? Oder: Welche von zwei möglichen
Diäten führt zu einer höheren Senkung des Cholesterinspiegels? Da der Ertrag oder
der Cholesterinspiegel Zufallsvariable sind, führen unterschiedliche Wirkungen der
Versuchsbedingungen zu Unterschieden in den Verteilungsparametern. Wir setzen
in diesem Abschnitt normalverteilte Untersuchungsmerkmale voraus. Damit läuft
die Untersuchung des Einflusses der Versuchsbedingungen auf das jeweilige Untersuchungsmerkmal auf einen Vergleich von Mittelwerten oder Varianzen hinaus. In
5.5 Unterschiedshypothesen mit zwei Mittelwerten
341
diesem Abschnitt geht es primär um den Vergleich von Mittelwerten. Der Vergleich
hängt wesentlich von der Auswahl der Untersuchungseinheiten und dem damit verbundenen statistischen Modell ab.
5.5.1 Mittelwertvergleiche mit unabhängigen Stichproben
Eine häufig verwendete Versuchsanlage ist der Parallelversuch. Bei diesem wird
aus einer vorher festgelegten Grundgesamtheit eine Zufallsstichprobe mit N Untersuchungseinheiten ausgewählt und den beiden Versuchsbedingungen so zugeordnet,
dass zwei möglichst gleich große Gruppen (sogenannte Parallelgruppen) entstehen.
Durch eine zufällige Zuordnung wird sicher gestellt, dass die Gruppen „strukturgleich“ sind. In strukturgleichen Gruppen bewirken allfällige nicht geplante Einflussfaktoren keine systematischen Unterschiede. Bei der einen Gruppe handelt es
sich oft um eine Testgruppe, in der z.B. eine neue Behandlung angewendet wird,
und bei der zweiten Gruppe um die Kontrolle, die einer herkömmlichen Behandlung entspricht.29
Es sei Xi das Untersuchungsmerkmal unter der Bedingung i (i = 1, 2). Nach
Voraussetzung gilt Xi ∼ N(µi , σi2 ). Die an den Untersuchungseinheiten der ersten
Gruppe (Versuchsbedingung 1) gemessenen Variablenwerte seien x11 ,21 , . . . , xn1 ,1 .
Mit dem ersten Index werden die Elemente der ersten Gruppe durchnummeriert, der
zweite Index drückt die Zugehörigkeit zur Versuchsbedingung 1 aus. Entsprechend
werden die an den Untersuchungseinheiten der zweiten Gruppe (Versuchsbedingung 2) gemessenen Variablenwerte durch x12 ,22 , . . . , xn2 ,2 bezeichnet. Auf Grund
des Zuordnungsverfahrens können die Untersuchungseinheiten der einen Gruppe
nicht über eine gemeinsame Eigenschaft mit den Untersuchungseinheiten der anderen Gruppe verbunden werden. Eine derartige gemeinsame Eigenschaft könnte z.B.
die Abstammung zweier Versuchspflanzen von der selben Mutterpflanze oder die
Herkunft zweier Probanden aus der selben Familie sein. Gibt es eine gemeinsame
Eigenschaft, könnte man alle Untersuchungseinheiten in Paaren anordnen, in denen das erste Element aus Gruppe 1 und das zweite Element aus Gruppe 2 stammt.
Das ist in einem Parallelversuch nicht möglich. Vielmehr können hier die Untersuchungseinheiten der einen Gruppe völlig unabhängig von den Untersuchungseinheiten der anderen Gruppe angeordnet werden. Man nennt den Parallelversuch daher
auch einen Versuch mit unabhängigen Stichproben. Die Parallelgruppen müssen
auch nicht gleich lang sein, obwohl es (bei übereinstimmenden Varianzen) vorteilhaft ist, den Versuche mit n1 = n2 zu planen.
Um einen allfälligen Unterschied der Mittelwerte µ1 und µ2 der Test- bzw. Kontrollgruppe zu erkennen, werden die 2-seitigen Hypothesen
29
Die Parallelgruppen sollen sich idealerweise nur in den geplanten Versuchsbedingungen unterscheiden. Dann kann ein allfälliger Unterschied der Mittelwerte eines Untersuchungsmerkmals
auf die Versuchsbedingungen zurückgeführt werden. Die Methodik, nur einen einzigen Einflussfaktor zu variieren und alle anderen quasi „konstant“ zu halten, wird auch in anderen Disziplinen
angewendet und gelegentlich als „ceteris paribus“-Prinzip bezeichnet.
342
5 Schätzen und Testen
H0 : µ1 = µ2 , H1 : µ1 6= µ2
(5.20a)
formuliert. Will man wissen, ob der Mittelwert der Gruppe 1 den Mittelwert der
Gruppe 2 überschreitet, hat man ein 1-seitiges Testproblem mit den Hypothesen:30
H0 : µ1 ≤ µ2 , H1 : µ1 > µ2
(5.20b)
Die Prüfung der Hypothesen (5.20a, b) erfolgt bei normalverteilten Grundgesamtheiten meist mit dem t-Test. Der Welch-Test ist eine Variante des t-Tests, bei dem
die Gleichheit der Varianzen nicht vorausgesetzt werden muss. Weiß man, dass die
Varianzen gleich sind, wendet man den 2-Stichproben-t-Test an.31
5.5.2 Der Welch-Test
Der Welch-Test verwendet als Testgröße die durch ihre Standardabweichung geteilte Differenz der Stichprobenmittelwerte X̄1 und X̄2 in der Test- bzw. Kontrollgruppe:32
X̄1 − X̄2
(5.21a)
T Gn1 ,n2 = q
S12 /n1 + S22 /n2
Die Größen S12 und S22 bezeichnen die Stichprobenvarianzen der beiden Gruppen.
Setzt man für die Stichprobenmittelwerte die aus den Stichproben berechneten arithmetischen Mittel x̄1 bzw. x̄2 und für die Stichprobenvarianzen die empirischen Varianzen s21 bzw. s22 ein, erhält man eine mit tgn1 ,n2 bezeichnete Realisierung der Testgröße. Wie vom britischen Statistiker Bernhard Lewis Welch (1911-1989) gezeigt
30 Liegt ein 1-seitiges Testproblem mit den Hypothesen H : µ ≥ µ , H : µ < µ vor, kann man
0
1
2
1
1
2
durch Umbezeichnung der Gruppen stets ein Testproblem mit den Hypothesen (5.20b) erhalten.
31 Der Welch-Test ist im Gegensatz zum 2-Stichproben-t-Test universell einsetzbar. Obwohl die
Testgröße nur näherungsweise t-verteilt ist, besitzt dieser Test eine gute Performance hinsichtlich
des α-Fehlers, der nahe beim nominellen α-Fehler liegt, und eine akzeptable Güte (Power). Der
2-Stichproben-t-Test zeichnet sich durch eine (bei Varianzgleichheit) hohe Power aus. Simulationsstudien zeigen, dass der 2-Stichproben-t-Test robust gegenüber (moderaten) Abweichungen
von der Varianzgleichheit ist, wenn die Parallelstichproben gleich groß sind. Bei einer früher oft
praktizierten Vorgangsweise, zwei Mittelwerte zu vergleichen, wird dem t-Test ein Test (z.B. der
F-Test) zur Überprüfung der Varianzgleichheit vorangestellt und je nach Ausgang des Vortests der
Welch-Test oder der 2-Stichproben-t-Test eingesetzt. Dieser Weg kann vorteilhaft ein, wenn man
das Signifikanzniveau des Vortests höher (z.B. α = 10%) ansetzt. In einigen Softwareprodukten
werden daher beide Varianten des t-Tests (also der Welch-Test und der 2-Stichproben-t-Test) in
Verbindung mit einem Vortest zum Varianzvergleich angeboten. In der R-Funktion t.test() ist
der Welch-Test die voreingestellte Testvariante.
32 Um die Formeln leichter lesen zu können, wird im Folgenden beim Stichprobenmittel und der
Stichprobenvarianz die Kennzeichnung durch den Stichprobenumfang weggelassen. Wir schreiben
also für das Stichprobenmittel und die Stichprobenvarianz der ersten Stichprobe einfach X̄1 bzw.
S12 und analog X̄2 und S22 für die entsprechenden Größen der zweiten Stichprobe. Entsprechend
verfahren wir mit den Realisierungen dieser Größen.
5.5 Unterschiedshypothesen mit zwei Mittelwerten
343
wurde, ist (5.21a) bei Gültigkeit von H0 näherungsweise t f -verteilt mit dem Freiheitsgrad:
f=
s22
s21
(a1 + a2 )2
,
a
=
mit
a
=
2
1
n1
n2
a21 /(n1 − 1) + a22 /(n2 − 1)
(5.21b)
Beim 2-seitigen Testproblem (5.20a) wird die Nullhypothese auf dem Niveau α
abgelehnt, wenn der P-Wert P = 2Ff (−|tgn1 ,n2 |) kleiner als α ist. Die Größe Ff
bezeichnet die Verteilungsfunktion der t-Verteilung mit f Freiheitsgraden. Statt mit
dem P-Wert kann das Kriterium für die Ablehnung von H0 auch mit der Realisierung
tgn1 ,n2 der Testgröße formuliert werden: Der P-Wert ist genau dann kleiner als α,
wenn die Testgröße T Gn1 ,n2 entweder das Quantil t f ,α/2 = −t f ,1−α/2 unterschreitet
oder das Quantil t f ,1−α/2 überschreitet.
Eine nützliches Instrument bei der Planung von Mittelwertvergleichen mit dem
Welch-Test ist dessen Gütefunktion G. Diese gibt für jede vorgegebene Abweichung δ = µ1 − µ2 die auch als Power bezeichnete Wahrscheinlichkeit G(δ ) an, dass
der mit zwei unabhängigen Stichproben des Umfangs n1 bzw. n2 auf dem Niveau α
gerechnete Welch-Test zur einer Entscheidung für H1 führt. Die Wahrscheinlichkeit
G(δ ) kann für das 2-seitige Testproblem (5.20a) aus
G(δ ) = P T Gn1 ,n2 < −t f ,1−α/2 δ ) + P T Gn1 ,n2 > t f ,1−α/2 |δ
≈ Ff ,λ (−t f ,1−α/2 ) + 1 − Ff ,λ (t f ,1−α/2 )
(5.22a)
bestimmt werden. Die Größe Ff ,λ bedeutet die Verteilungsfunktion der nicht-zentralen t-Verteilung mit dem durch (5.21b) gegebenen Freiheitsgrad f und dem Nichtzentralitätsparameter
√
δ N
δ
=q
(5.22b)
λ=q
.
(1 + x) σ12 /x + σ22
σ12 /n1 + σ22 /n2
Dabei ist N = n1 + n2 der Gesamtumfang beider Stichproben und x = n1 /n2 > 0
das Verhältnis der Stichprobenumfänge.33 Um mit (5.22a) den Wert der Gütefunktion zu einem vorgegebenem δ zu berechnen, müssen das Testniveau α, die Stichprobenumfänge n1 und n2 und die Varianzen σ12 und σ22 bzw. Schätzwerte für die
Varianzen bekannt sein. Alternativ zu (5.22a) kann man die Power auch mit Hilfe
eines Simulationsexperimentes berechnen: Man erzeugt eine sehr große Anzahl B
von Parallelstichproben mit den Umfängen n1 bzw. n2 , den Mittelwerten µ1 bzw.
µ2 = µ1 − δ und den Varianzen σ12 ≈ s21 bzw. σ22 ≈ s22 . Für jedes erzeugte Paar von
Parallelstichproben wird sodann die Realisierung tgn1 ,n2 der Testgröße (5.21a) und
der P-Wert berechnet. Es sei A die Anzahl der Wiederholungen mit einem P-Wert
kleiner als α. Nach dem empirischen Gesetz der großen Zahlen ist A/B ein Näherungswert für die gesuchte Power (vgl. dazu Abschnitt 1.8.1).
33
Für x = 1 ergibt sich wegen n1 = Nx/(1 + x) und n2 = N/(1 + x) die symmetrische Versuchsanlage mit n1 = n2 = N/2. Bei vorgegebenem N nimmt λ (und damit auch die Gütefunktion) den
größten Wert an, wenn x = n1 /n2 = σ1 /σ2 ist.
344
5 Schätzen und Testen
Oft möchte man bei der Planung eines Mittelwertvergleichs wissen, wie groß
die erforderlichen Mindestumfänge der Parallelstichproben ein sollen, um mit
dem Welch-Test (auf dem Signifikanzniveau α) eine vorgegebene relevante Abweichung δ mit einer hohen Sicherheit (z.B. 90%) als signifikant zu erkennen. Für
die vorzugebende Sicherheit schreiben wir 1 − β . Dabei ist β die Wahrscheinlichkeit, einen nicht-signifikanten Testausgang zu erhalten. Da es meist nur um einen
Richtwert für die zu planenden Stichprobenumfänge geht, kann man sich auf den
symmetrischen Fall mit n1 = n2 = n beschränken. Zur Beantwortung der Frage nach
dem erforderlichen Mindestumfang n der Parallelstichproben greifen wir wieder auf
(5.22a) zurück und setzen G(δ ) = 1 − β . Die Berechnung des im Freiheitsgrad f
und im Nichtzentralitätsparameter λ vorkommenden n aus (5.22a) kann z.B. mit
der R-Funktion uniroot() vorgenommen werden. Eine grobe Abschätzung des
Mindeststichprobenumfangs erlaubt die Formel:
n ≈ n∗ =
2
1
2σ 2
z1−α/2 + z1−β
mit σ 2 = σ12 + σ22
2
δ
2
(5.22c)
Die Größen z1−α/2 und z1−β sind das (1 − α/2)- bzw. (1 − β )-Quantil der N(0, 1)Verteilung.
Beispiel 5.14.
Zum Vergleich von zwei Weizensorten (Combin, Camedo) wurde die erste auf
15 Versuchsflächen und die zweite auf 10 Versuchsflächen angebaut. Es ergaben
sich die folgenden Erträge (in dt/ha):
X1 (Gruppe1 : Combin) 91, 67, 96, 52, 47, 36, 71, 96, 35, 103, 70, 70, 55, 88, 66
X2 (Gruppe2 : Camedo) 58, 67, 63, 52, 63, 53, 48, 41, 60, 76
Wir zeigen, dass sich die Ertragsmittelwerte der Sorten auf 5%igem Testniveau
nicht signifikant unterscheiden. Zusätzlich bestimmen wir die Wahrscheinlichkeit (Power), dass wir mit der konkreten Versuchsanlage (n1 = 15, n2 = 10,
α = 5%) einen Unterschied zwischen den Mittelwerten im Ausmaß von 10%
des Mittelwertes der ersten Sorte als signifikant erkennen. Schließlich überlegen wir noch, wie groß der (für beide Sorten gleich angenommene) Mindeststichprobenumfang sein müsste, damit der Welch-Test (α = 5%) mit 90%iger
Sicherheit zu einem signifikantem Ergebnis führt, wenn der Mittelwertunterschied 10% des Mittelwertes der ersten Sorte beträgt.
a) Wir nehmen an, dass die Erträge X1 und X2 der beiden Weizensorten normalverteilt sind mit den Mittelwerten µ1 bzw. µ2 und den Varianzen σ12
bzw. σ22 (vgl. dazu Abb. 5.14). Zu prüfen sind die Hypothesen H1 : µ1 = µ2
gegen H1 : µ1 6= µ2 . Als Signifikanzniveau ist α = 5% vereinbart. Die Parallelstichproben haben die Umfänge n1 = 15 und n2 = 10, die arithmetischen Mittel x̄1 = 69.53 und x̄2 = 58.10 sowie die Standardabweichungen
s1 = 21.86 und s2 = 10.05. Als Realisierung der Testgröße (5.21a) und als
Freiheitsgrad (5.21b) erhält man tg15,10 = 1.765 bzw. f = 21.002. Das Kriterium für die Ablehnung von H0 lautet P = 2Ff (−|tgn1 ,n2 |) < α. Wegen
5.5 Unterschiedshypothesen mit zwei Mittelwerten
345
Combin
Camedo
100
90
80
70
60
Werte von X2 (Camedo,n=10)
40
50
100
90
80
70
60
50
40
40
50
60
70
80
Werte von X1 (Combin,n=15)
90
100
P = 2Ff (−|tgn1 ,n2 |) = 9.204% ≥ 5% ist das Kriterium nicht erfüllt, d.h. H0
kann auf 5%igem Testniveau nicht abgelehnt werden.
−2
−1
0
1
N(0,1)−Quantile
2
−2
−1
0
1
N(0,1)−Quantile
2
Abb. 5.13 Boxplots und Normal-QQ-Plots für die Parallelstichproben in Beispiel 5.13. Die Grafiken lassen keinen Widerspruch zur Annahme normalverteilter Grundgesamtheiten X1 und X2
erkennen.
> # Lö s u n g m i t R
> x1 <− c ( 9 1 , 6 7 , 9 6 , 5 2 , 4 7 , 3 6 , 7 1 , 9 6 , 3 5 , 1 0 3 ,
70 , 70 , 55 , 88 , 66)
> x2 <− c ( 5 8 , 6 7 , 6 3 , 5 2 , 6 3 , 5 3 , 4 8 , 4 1 , 6 0 , 7 6 )
> # H0 : mu1=mu2 v s H1 : mu1<>mu2
> t . t e s t ( x1 , x2 )
Welch Two Sample t − t e s t
d a t a : x1 and x2
t = 1 . 7 6 5 4 , d f = 2 1 . 0 0 2 , p−v a l u e = 0 . 0 9 2 0 4
alternative hypothesis :
t r u e d i f f e r e n c e i n means i s n o t e q u a l t o 0
95 p e r c e n t c o n f i d e n c e i n t e r v a l :
−2.035247 2 4 . 9 0 1 9 1 4
sample e s t i m a t e s :
mean o f x mean o f y
69.53333 58.10000
b) Wir berechnen zuerst die Power mit (5.22a). Mit der relevanten Abweichung
δ = 0.1x̄1 = 6.953 und den Näherungen σ1 ≈ s1 sowie σ2 ≈ s2 ergibt sich aus
(5.22b) der Nichtzentralitätsparameter λ = 1.0736. Das (1 − α/2)-Quantil
der t-Verteilung mit f Freiheitsgraden ist t f ,1−α/2 = t21.002,0.975 = 2.0796.
Den Funktionswert der nichtzentralen t-Verteilung Ff ,λ an der Stelle x findet man z.B. mit der R-Funktion pt(x, f, ncp) mit ncp= λ . Damit
erhält man aus (5.22a) für die gesuchte Power den Wert G(δ ) = 17.63%.
In der folgenden Lösung mit R wird die Power sowohl mit Formel (5.22a)
346
5 Schätzen und Testen
als auch im Rahmen eines Simulationsexperiments bestimmt, bei dem aus
den Grundgesamtheiten X1 und X2 wiederholt Parallelstichproben gezogen
werden. Die Power ist näherungsweise gleich der relativen Häufigkeit der
Wiederholungen, bei denen die Parallelstichproben auf dem Niveau α einen
signifikanten Mittelwertunterschied aufweisen. Auf diese Weise wurde bei
einem Simulationsexperiment mit B = 10000 Wiederholungen für die Power
der Wert 17.37% erhalten, der sich nur geringfügig von dem mit (5.22a) berechneten Ergebnis unterscheidet.
>
>
+
>
>
>
>
>
>
>
>
>
>
+
>
# Lö s u n g m i t R :
x1 <− c ( 9 1 , 6 7 , 9 6 , 5 2 , 4 7 , 3 6 , 7 1 , 9 6 , 3 5 , 1 0 3 ,
70 , 70 , 55 , 88 , 66)
x2 <− c ( 5 8 , 6 7 , 6 3 , 5 2 , 6 3 , 5 3 , 4 8 , 4 1 , 6 0 , 7 6 )
# B e r e c h n u n g d e r Power m i t Gl . ( 5 . 2 2 a )
n1 <− l e n g t h ( x1 ) ; n2 <− l e n g t h ( x2 )
x q u e r 1 <− mean ( x1 ) ; d e l t a <− x q u e r 1 ∗ 0 . 1
s 1 <− s d ( x1 ) ; s 2 <− s d ( x2 ) ; v a r 1 <− s 1 ^ 2 ; v a r 2 <− s 2 ^2
a l p h a <− 0 . 0 5 ; a <− v a r 1 / n1 ; b <− v a r 2 / n2
f <− ( a+b ) ^ 2 / ( a ^ 2 / ( n1 −1)+b ^ 2 / ( n2 −1))
t q u a n t i l <− q t (1− a l p h a / 2 , f )
lambda <− d e l t a / s q r t ( v a r 1 / n1+ v a r 2 / n2 )
power <− p t (− t q u a n t i l , f , ncp = lambda ) +
1− p t ( t q u a n t i l , f , ncp = lambda )
p r i n t ( c b i n d ( d e l t a , lambda , power ) , d i g i t s = 5 )
d e l t a lambda
power
[ 1 , ] 6.9533 1.0736 0.17633
> # B e r e c h n u n g d e r Power d u r c h S i m u l a t i o n
> w2 . power = f u n c t i o n ( n1 , n2 , B , mu1 , mu2 , sigma1 , sigma2 , a l p h a ) {
+
Ps = r e p l i c a t e ( B ,
+
t . t e s t ( rnorm ( n1 , mu1 , s i g m a 1 ) ,
+
rnorm ( n2 , mu2 , s i g m a 2 ) ) $p . v a l u e )
+
A <− sum ( Ps < a l p h a ) ; power <− A/ B
+
r e t u r n ( power ) }
> w2 . power ( 1 5 , 1 0 , 1 0 0 0 0 , 0 , − d e l t a , s1 , s2 , 0 . 0 5 )
[ 1 ] 0.1737
c) Bei der letzten Teilaufgabe geht es um die Bestimmung der Mindestumfänge der Parallelstichproben, die mit der Wahrscheinlichkeit 1 − β = 90%
sicherstellen, dass der Welch-Test (mit α = 5%) einen signifikanten Mittelwertunterschied anzeigt, wenn δ = µ1 − µ2 = 0.1x̄1 = 6.953 ist. Für
die Umfänge der Parallelstichproben mögen1 = n2 = n gelten. Mit den
Quantilen z1−α/2 = z0.975 = 1.96, z1−β = z0.9 = 1.2816 und den Varianzen σ12 ≈ s21 = 477.70, σ22 ≈ s22 = 100.99 erhält man aus (5.22c) den Näherungswert n ≈ 125.76 ≈ 126. Rechnet man genauer mit Formel (5.22a)
und bestimmt n aus der Gleichung (z.B. mit der R-Funktion uniroot())
Ff λ (−t f ,1−α/2 ) + 1 − Ff ,λ (t f ,1−α/2 ) = 1 − β ,
ergibt sich die Lösung n ≈ 127.14 ≈ 128. Man beachte dabei, dass n im
Freiheitsgrad f und im Nichtzentralitätsparameter λ enthalten ist. Die Formel (5.21b) geht im betrachteten Fall mit n1 = n2 = n in
5.5 Unterschiedshypothesen mit zwei Mittelwerten
347
2
2
σ12 + σ22 (n − 1)
s21 + s22 (n − 1)
f=
≈
= 1.4047(n − 1)
σ14 + σ24
s41 + s42
über, der Nichtzentralitätsparameter ist durch
√
√
√
δ n
δ n
≈q
= 0.28905 n
λ=q
σ12 + σ22
s21 + s22
gegeben.34
>
>
+
>
>
>
>
>
>
>
# Lö s u n g m i t R :
x1 <− c ( 9 1 , 6 7 , 9 6 , 5 2 , 4 7 , 3 6 , 7 1 , 9 6 , 3 5 , 1 0 3 ,
70 , 70 , 55 , 88 , 66)
x2 <− c ( 5 8 , 6 7 , 6 3 , 5 2 , 6 3 , 5 3 , 4 8 , 4 1 , 6 0 , 7 6 )
d e l t a <− mean ( x1 ) ∗ 0 . 1 ; a l p h a <− 0 . 0 5 ; b e t a <− 0 . 1
v a r 1 <− v a r ( x1 ) ; v a r 2 <− v a r ( x2 )
# M i n d e s t −n m i t ( 5 . 2 2 c )
z a <− qnorm (1− a l p h a / 2 ) ; zb <− qnorm (1− b e t a )
n <− ( v a r 1 + v a r 2 ) / d e l t a ^ 2 ∗ ( z a + zb ) ^ 2 ; n s <− c e i l i n g ( n )
p r i n t ( cbind ( d e l t a , alpha , beta , n , ns ) , d i g i t s =5)
delta alpha beta
n ns
[ 1 , ] 6 . 9 5 3 3 0 . 0 5 0 . 1 1 2 5 . 7 6 126
> # M i n d e s t −n a u s ( 5 . 2 2 a ) m i t u n i r o o t ( )
> c1 <− ( v a r 1 + v a r 2 ) ^ 2 / ( v a r 1 ^2+ v a r 2 ^ 2 )
> c2 <− d e l t a / s q r t ( v a r 1 + v a r 2 )
> r e s <− u n i r o o t ( f = f u n c t i o n ( n )
+
p t ( q t ( a l p h a / 2 , c1 ∗ ( n − 1 ) ) , d f = c1 ∗ ( n −1) , ncp = c2 ∗ s q r t ( n ))+1 −
+
p t ( q t (1− a l p h a / 2 , c1 ∗ ( n − 1 ) ) , d f = c1 ∗ ( n −1) , ncp = c2 ∗ s q r t ( n )) −
+
(1− b e t a ) , i n t e r v a l =c ( max ( ns −10 , 2 ) , n s + 1 0 ) )
> ng <− r e s $ r o o t ; n g s <− c e i l i n g ( ng )
> p r i n t ( c b i n d ( ng , n g s ) , d i g i t s = 4)
ng n g s
[ 1 , ] 1 2 7 . 1 128
Wir betrachten nun das 1-seitige Testproblem (5.20b) mit den Hypothesen
H0 : µ1 ≤ µ2 und H1 : µ1 > µ2 . Die Nullhypothese H0 wird auf dem Niveau α abgelehnt, falls
P = 1 − Ff (tgn1 ,n2 ) < α bzw. tgn1 ,n2 > t f ,1−α
gilt. Der Wert der Gütefunktion an der Stelle δ = µ1 − µ2 ist durch
G(δ ) = P T Gn1 ,n2 > t f ,1−α δ ) ≈ 1 − Ff ,λ (t f ,1−α )
(5.23a)
gegeben. Hier ist f der mit Formel (5.21b) zu berechnende Freiheitsgrad und λ
der Nichtzenralitätsparameter (5.22b). Um bei angenommener symmetrischer Ver34
Bei der Anwendung der Funktion uniroot() ist ein Intervall für die Lösung vorzugeben.
Dazu geht man am einfachsten von der mit (5.22c) bestimmten Näherungslösung n∗ aus und bildet
[n∗ − d, n∗ + d] mit z.B. d = 10. Dabei ist sicher zu stellen, das die untere Grenze positiv bleibt.
348
5 Schätzen und Testen
suchsanlage mit n1 = n2 = n den erforderlichen Mindeststichprobenumfang zu planen, geben wir vor: Das Signifikanzniveau α für den 1-seitigen Welch-Test und die
Sicherheit 1 − β , mit der die relevante Differenz δ > 0 als signifikant erkannt werden soll. Stehen zusätzlich Schätzwerte für die Varianzen σ12 und σ22 zur Verfügung,
kann der Mindeststichprobenumfang als Lösung der Gleichung
1 − Ff ,λ (t f ,1−α ) = 1 − β mit
2
√
σ12 + σ22 (n − 1)
δ n
und λ = q
f=
σ14 + σ24
σ12 + σ22
(5.23b)
bestimmt werden. Ein grober Richtwert für n ist:
n∗ =
2
σ2
1
mit σ 2 = σ12 + σ22
z1−α + z1−β
δ2
2
(5.23c)
Beispiel 5.15.
Wird in Beispiel 5.14 gefragt, ob die Sorte Combin einen größeren mittleren Ertrag aufweist als die Sorte Camedo, hat man das 1-seitige Testproblem mit den
Hypothesen H0 : µ1 ≤ µ2 und H1 : µ1 > µ2 . Wie der Lösung mit R entnommen
werden kann, ist der P-Wert 4.6% und dies bedeutet, dass H0 nun auf 5%igem
Testniveau abgelehnt werden kann. Die Differenz der Stichprobenmittelwerte
beträgt x̄1 − x̄2 = 11.43. Ist die wahre Mittelwertdifferenz δ = µ1 − µ2 = 6.9533
(d.h. 10% von x̄1 ), hat man eine Sicherheit (Power) von nur G(δ ) = 27.23%, mit
dem auf 5%igem Testniveau geführten 1-seitigen Welch-Test ein signifikantes
Resultat zu erhalten. Wie beim 2-seitigen Welch-Test wurde die Power auch mit
Hilfe eines Simulationsexperimentes bestimmt und der Wert 27.01% erhalten.
>
>
>
>
+
>
>
>
# Lö s u n g m i t R :
# 1− s e i t i g e r Welch−T e s t
# a ) T e s t e n t s c h e i d u n g H0 : mu1<=mu2 v s . H1 : mu1>mu2
x1 <− c ( 9 1 , 6 7 , 9 6 , 5 2 , 4 7 , 3 6 , 7 1 , 9 6 , 3 5 , 1 0 3 ,
70 , 70 , 55 , 88 , 66)
x2 <− c ( 5 8 , 6 7 , 6 3 , 5 2 , 6 3 , 5 3 , 4 8 , 4 1 , 6 0 , 7 6 )
# H0 : mu1<=mu2 v s H1 : mu1>mu2
t . t e s t ( x1 , x2 , a l t e r n a t i v e =" g r e a t e r " )
Welch Two Sample t − t e s t
d a t a : x1 and x2
t = 1 . 7 6 5 4 , d f = 2 1 . 0 0 2 , p−v a l u e = 0 . 0 4 6 0 2
alternative hypothesis :
t r u e d i f f e r e n c e i n means i s g r e a t e r t h a n 0
95 p e r c e n t c o n f i d e n c e i n t e r v a l :
0.2889602
Inf
sample e s t i m a t e s :
mean o f x mean o f y
69.53333 58.10000
> # b1 ) B e r e c h n u n g d e r Power m i t Gl . ( 5 . 2 3 a )
> n1 <− l e n g t h ( x1 ) ; n2 <− l e n g t h ( x2 )
5.5 Unterschiedshypothesen mit zwei Mittelwerten
349
x q u e r 1 <− mean ( x1 ) ; d e l t a <− x q u e r 1 ∗ 0 . 1
s 1 <− s d ( x1 ) ; s 2 <− s d ( x2 ) ; v a r 1 <− s 1 ^ 2 ; v a r 2 <− s 2 ^2
a l p h a <− 0 . 0 5 ; a <− v a r 1 / n1 ; b <− v a r 2 / n2
f <− ( a+b ) ^ 2 / ( a ^ 2 / ( n1 −1)+b ^ 2 / ( n2 −1))
t q u a n t i l <− q t (1− a l p h a , f )
lambda <− d e l t a / s q r t ( v a r 1 / n1+ v a r 2 / n2 )
power <− 1− p t ( t q u a n t i l , f , ncp = lambda )
p r i n t ( c b i n d ( d e l t a , lambda , power ) , d i g i t s = 5 )
d e l t a lambda
power
[ 1 , ] 6.9533 1.0736 0.27234
> # b2 ) B e r e c h n u n g d e r Power d u r c h S i m u l a t i o n
> w1 . power = f u n c t i o n ( n1 , n2 , B , mu1 , mu2 , sigma1 , sigma2 , a l p h a ) {
+
Ps = r e p l i c a t e ( B ,
+
t . t e s t ( rnorm ( n1 , mu1 , s i g m a 1 ) ,
+
rnorm ( n2 , mu2 , s i g m a 2 ) ,
+
a l t e r n a t i v e =" g r e a t e r " ) $p . v a l u e )
+
A <− sum ( Ps < a l p h a ) ; power <− A/ B
+
r e t u r n ( power ) }
> w1 . power ( 1 5 , 1 0 , 1 0 0 0 0 , d e l t a , 0 , s1 , s2 , 0 . 0 5 )
[ 1 ] 0.2701
>
>
>
>
>
>
>
>
5.5.3 Der 2-Stichproben t-Test
Der 2-Stichproben-t-Test setzt voraus, dass die betrachteten Untersuchungsmerkmale X1 und X2 mit gleichen Varianzen σ12 = σ22 = σ 2 normalverteilt sind.35 In
diesem Fall tritt an die Stelle von (5.21a) die Testgröße:
(n1 − 1)S12 + (n2 − 1)S22
X̄1 − X̄2
2
T Gn1 ,n2 = r mit
S
=
n1 + n2 − 2
S2 n11 + n12
(5.24)
Die Größe S2 ist der mit den Gewichten n1 − 1 bzw. n2 − 1 gebildete Mittelwert
der Stichprobenvarianzen S12 und S22 . Wie man zeigen kann, ist die Testgröße (5.24)
exakt t f -verteilt mit f = n1 + n2 − 2 Freiheitsgraden, wenn µ1 = µ2 gilt. Setzt man
die aus der X1 - und X2 -Stichprobe berechneten arithmetischen Mittel x̄1 , x̄2 und
Varianzen s21 , s22 für die Stichprobenmittel bzw. die Stichprobenvarianzen ein, erhält
man die Realisierung tgn1 n2 der Testgröße.
Der P-Wert für das 2-seitige Testproblem mit den Hypothesen H0 : µ1 = µ2
und H1 : µ1 6= µ2 ist P = 2Ff (−|tgn1 ,n2 |). Hier bezeichnet Ff die Verteilungsfunktion der t f -Verteilung mit f = n1 + n2 − 2 Freiheitsgraden. Ist P < α, wird H0
auf dem Signifikanzniveau α abgelehnt. Mit dem (1 − α/2)-Quantil t f ,1−α/2 der
t f -Verteilung kann als Kriterium für die Ablehnung von H0 auch die Bedingung
|tgn1 ,n2 | > t f ,1−α/2 verwendet werden. Will man wissen, mit welcher Wahrschein35
Wie man die Gleichheit der Varianzen überprüft, wird in den Ergänzungen (Abschnitt 5.7.3)
behandelt.
350
5 Schätzen und Testen
lichkeit die Nullhypothese abgelehnt wird, wenn die Mittelwertdifferenz µ1 − µ2
gleich δ ist, berechnet man den Wert der Gütefunktion G an der Stelle δ . Dieser
ist durch
G(δ ) = Ff ,λ (−t f ,1−α/2 ) + 1 − Ff ,λ (t f ,1−α/2 ) mit
δ
f = n1 + n2 − 2 und λ =
σ
q
1
n1
+ n12
(5.25a)
gegeben. Ff ,λ ist die Verteilungsfunktion der nichtzentralen t-Verteilung mit dem
Freiheitsgrad f und dem Nichtzentralitätsparameter λ . Bei festem α, δ , σ und
N = n1 + n2 ist G(δ ) am größten, wenn n1 = n2 gewählt wird. Es ist also zweckmäßig, die Umfänge der Parallelgruppen gleich groß zu planen, weil in diesem Fall
die Wahrscheinlichkeit G(δ ), einen vorhandenen Unterschied δ 6= 0 mit dem 2Stichproben-t-Test als signifikant zu erkennen, am größten ist.
Für Versuchsanlagen mit n1 = n2 = n kann zu vorgegebenem δ , G(δ ) = 1 − β ,
α und σ der erforderliche Mindeststichprobenumfang n aus der Gleichung
Ff ,λ (−t f ,1−α/2 ) + 1 − Ff ,λ (t f ,1−α/2 ) = 1 − β mit
√
δ n
f = 2(n − 1) und λ = √
σ 2
(5.25b)
berechnet werden. Dabei wird für 1 − β meist 90% angenommen und σ durch
das arithmetische Mittel der Varianzen s21 und s22 der Parallelstichproben geschätzt.
Einen groben Richtwert für den Mindeststichprobenumfang erhält man mit der Formel (z p bezeichnet das p-Quantil der Standardnormalverteilung):
n∗ =
2
2σ 2
z1−α/2 + z1−β
2
δ
(5.25c)
Beispiel 5.16.
Zur Überprüfung der Wirksamkeit eines neuen Antibiotikums (Versuchsbedingung A1 ) wurde ein Plattendiffusionstest verwendet und der Durchmesser der
Hemmzone für das neue Antibiotikum sowie für ein herkömmliches Produkt als
Kontrolle (Versuchsbedingung A2 ) bestimmt. In jeweils 10 Versuchen ergaben
sich die folgenden Messwerte (in mm):
X1 (Versuchsbedingung A1 ) 15, 21, 25, 18, 17, 18, 14, 17, 16, 20
X2 (Versuchsbedingung A2 ) 24, 26, 22, 20, 20, 23, 17, 16, 23, 18
Wir befassen uns zuerst mit der Frage, ob sich die Durchmesser von X1 und X2
im Mittel unterscheiden. Die zu prüfenden Hypothesen lauten H0 : µ1 = µ2 und
H1 : µ1 6= µ2 . Als Signifikanzniveau sei α = 5% vereinbart. Da nach Abb. 5.14
die Durchmesser als normalverteilt angesehen werden können, die Varianzen
s21 = 10.322 und s22 = 10.544 nahezu übereinstimmen und überdies die Stichprobenumfänge gleich groß sind, wenden wir den 2-Stichproben-t-Test an. Mit
5.5 Unterschiedshypothesen mit zwei Mittelwerten
351
26
A1
A2
22
18
20
Antibiotikum A2 (n=10)
22
20
18
16
14
14
16
16
18
20
22
Antibiotikum A1 (n=10)
24
24
24
26
n1 = n2 = 10, den arithmetischen Mittel x̄1 = 18.10, x̄2 = 20.9 und der gemittelten Varianz s2 = 10.433 ergibt sich die Realisierung tg10,10 = −1.9383 der
Testgröße (5.24). Die Testgröße ist t-verteilt mit f = 2(n − 1) = 18 Freiheitsgraden. Wegen P = 2F18 (−1.9383) = 6.84% ≥ 5% kann die Nullhypothese auf
5%igem Testniveau nicht abgelehnt werden.
−2
−1
0
1
N(0,1)−Quantile
2
−2
−1
0
1
N(0,1)−Quantile
2
Abb. 5.14 Überprüfung der Normalverteilung der Durchmesser in Beispiel 5.16. Die in den Boxplots und Normal-QQ-Plots dargestellten Parallelstichproben geben keinen Anlass, die Normalverteilungsannahme abzulehnen.
Als nächstes stellen wir einige Überlegungen zur Versuchsplanung an. Dazu muss die Mittelwertdifferenz δ = µ1 − µ2 spezifiziert werden. Nehmen wir
an, dass δ = 2 jene relevante Abweichung ist, die wir, wenn sie tatsächlich
vorliegt, mit dem auf 5%igen Niveau geführten 2-Stichproben-t-Test als signifikant erkennen möchte. Die Wahrscheinlichkeit, dass dies der Fall ist, kann mit
Hilfe der an der Stelle δ = 2 berechneten Gütefunktion bestimmt werden. Für
die Stichprobenumfänge n1 = n2 = 10 und α = 0.05 folgt t f ,1−α/2 = t18,0.975 =
√
2.101 und λ = 1.3845, wenn man s = 10.43 = 3.23 als Schätzwert für σ einsetzt. Damit ergibt sich aus (5.25a) die sehr kleine Power G(δ ) = 25.88% an
der Stelle δ = 2.
Die Power kann vergrößert werden, wenn man den Parallelversuch mit einem größeren n in beiden Stichproben plant. Wie groß n sein soll, um an der
Stelle δ = 2 eine Power von 1 − β = 90% zu erhalten, kann grob mit (5.25c)
bestimmt werden. Setzt man σ ≈ s, δ = 2, α = 0.05 und 1 − β = 0.9 ein, ergibt
sich n∗ = 54.8 ≈ 55. Das Resultat wird genauer, wenn man n als Lösung der
Gleichung (5.25b) bestimmt. Man erhält n = 55.79 ≈ 56.
> # Lö s u n g m i t R :
> o p t i o n s ( d i g i t s =5)
352
5 Schätzen und Testen
>
>
>
>
x1 <− c ( 1 5 , 2 1 , 2 5 , 1 8 , 1 7 , 1 8 , 1 4 , 1 7 , 1 6 , 2 0 )
x2 <− c ( 2 4 , 2 6 , 2 2 , 2 0 , 2 0 , 2 3 , 1 7 , 1 6 , 2 3 , 1 8 )
v a r 1 <− v a r ( x1 ) ; v a r 2 <− v a r ( x2 )
p r i n t ( cbind ( var1 , var2 ) )
var1
var2
[ 1 , ] 10.322 10.544
> # H0 : mu1 = mu2 v s . H1 : mu1 <> mu2
> t . t e s t ( x1 , x2 , v a r . e q u a l =T )
Two Sample t − t e s t
d a t a : x1 and x2
t = −1.94 , d f = 1 8 , p−v a l u e = 0 . 0 6 8
alternative hypothesis :
t r u e d i f f e r e n c e i n means i s n o t e q u a l t o 0
95 p e r c e n t c o n f i d e n c e i n t e r v a l :
−5.83484 0 . 2 3 4 8 4
sample e s t i m a t e s :
mean o f x mean o f y
18.1
20.9
> # Power an d e r S t e l l e d e l t a =2
> s <− s q r t ( ( v a r 1 + v a r 2 ) / 2 )
> power . t . t e s t ( n =10 , d e l t a =2 , s d =s , s i g . l e v e l = 0 . 0 5 ,
+
t y p e =" two . s a m p l e " , a l t e r n a t i v e =" two . s i d e d " , s t r i c t =T )
Two−s a m p l e t
n =
delta =
sd =
sig . level =
power =
alternative =
NOTE : n i s number
t e s t power c a l c u l a t i o n
10
2
3.2301
0.05
0.25879
two . s i d e d
in ∗ each ∗ group
> # M i n d e s t −n a u s ( 5 . 2 5 c )
> d e l t a <− 2 ; a l p h a <− 0 . 0 5 ; b e t a <− 0 . 1
> z a l p h a <− qnorm (1− a l p h a / 2 ) ; z b e t a <− qnorm (1− b e t a )
> n s <− 2∗ s ^ 2 / d e l t a ^ 2 ∗ ( z a l p h a + z b e t a ) ^ 2 ; n s
[ 1 ] 54.814
> # M i n d e s t −n m i t power . t . t e s t ( )
> power . t . t e s t ( d e l t a =2 , s d =s , s i g . l e v e l = 0 . 0 5 , power = 0 . 9 ,
+
t y p e =" two . s a m p l e " , a l t e r n a t i v e =" two . s i d e d " , s t r i c t =T )
Two−s a m p l e t
n =
delta =
sd =
sig . level =
power =
alternative =
NOTE : n i s number
t e s t power c a l c u l a t i o n
55.792
2
3.2301
0.05
0.9
two . s i d e d
in ∗ each ∗ group
Wenn das Testproblem 1-seitig ist mit den Hypothesen H0 : µ1 ≤ µ2 und H1 : µ1 >
µ2 , berechnet man die Testgröße wieder mit (5.24) und lehnt H0 ab, wenn P =
5.5 Unterschiedshypothesen mit zwei Mittelwerten
353
1 − Ff (tgn1 ,n2 ) < α gilt. Hier ist wie im 2-seitigen Fall Ff die Verteilungsfunktion
der t-Verteilung mit f = n1 + n2 − 2 Freiheitsgraden und tgn1 ,n2 die Realisierung der
Testgröße durch die Parallelstichproben. An die Stelle der Gütefunktion in (5.25a)
tritt nun G(δ ) = 1 − Ff ,λ (t f ,1−α ) und an Stelle der Gleichung für den Mindeststichprobenumfang in (5.25b) die Beziehung Ff ,λ (t f ,1−α ) = β . Schließlich hat man für
1-seitige Hypothesen statt (5.25c) die Formel:
n∗ =
2
σ2
z1−α + z1−β
2
δ
(5.26)
5.5.4 Der t-Test für abhängige Stichproben
Mittelwertvergleiche können auch mit “abhängigen Stichproben“ geplant werden.
Oft hat man neben der Zielvariablen (das ist das primär interessierende Untersuchungsmerkmal) noch weitere Merkmale (sogenannte Begleitvariable) erfasst. Bei
einem Plattendiffusionstest können z.B. die Agarplatten von verschiedenen Herstellern stammen. Beim Vergleich der mittleren Durchmesser der Hemmzonen, die
durch zwei Antibiotika bewirkt werden, ist dann der Hersteller eine Begleitvariable.
Statt die Agarplatten vollständig randomisiert den Versuchsbedingungen (den Antibiotika) zuzuordnen, kann es vorteilhaft sein, die Zufallsauswahl jeweils auf die
Produkte eines Herstellers einzuschränken. Auf diese Weise erhält man zwei (über
den Hersteller) abhängige Stichproben, die sich aus „Blöcken“ zusammensetzen. Jeder Block enthält ein Messwertpaar (nämlich die Durchmesser der Hemmzonen auf
zwei Agarplatten desselben Herstellers). Man spricht daher auch von einer randomisierten Blockanlage. Eine besondere Form einer Versuchsanlage mit abhängigen
Stichproben sind selbstkontrollierte Versuche. Bei diesen erhalten die Probanden
zwei Behandlungen in einem gewissen zeitlichen Abstand. Wendet man die Behandlungen so an, dass etwa die Hälfte der Probanden die Behandlungen in umgekehrter
Reihenfolge erhält, liegt ein sogenanntes Crossover-Design vor.36
Es sei X j die Zielvariable unter der Versuchsbedingung j ( j = 1, 2) mit dem Mittelwert µ j . Von X1 und X2 liegen n Messwertpaare (x11 , x12 ), (x21 , x22 ), . . . , (xn1 , xn2 )
vor. Die Werte eines jeden Messwertpaares zeichnen sich dadurch aus, dass die Untersuchungseinheiten, an denen die Zielvariablen gemessen wurden, aus demselben
Block i ausgewählt wurden. Beim Vergleich der Mittelwerte µ1 und µ2 mit abhängigen Stichproben gehen wir von der Modellgleichung xi j = µ j + βi + ei j aus. Danach
setzt sich jeder Messwert xi j aus drei Summanden zusammen: Der erste Summand
ist der von der Versuchsbedingung j abhängige Mittelwert µ j . Mit der Größe βi wird
ein allfälliger Effekt des Blocks i erfasst. Die Größe ei j ist ein von der Versuchsbe36
Bei einem selbstkontrollierten Versuchen muss sicher gestellt sein, dass der Zustand der Probanden bei der zweiten Behandlung im Wesentlichen der gleiche ist wie bei der ersten Behandlung.
Das ist z.B. nicht der Fall, wenn Übertragungseffekte auftreten, d.h. die erste Behandlung auf die
zweite nachwirkt. In diesem Fall wird man Mittelwertvergleiche mit unabhängigen Stichproben
bevorzugen.
354
5 Schätzen und Testen
dingung j und vom Block i abhängiger Restterm, den wir als Realisierung einer
um null normalverteilten Zufallsvariablen annehmen. Bildet man die Paardifferenzen di = xi1 − xi2 , so kürzt sich der Blockeffekt heraus. Die Differenz D = X1 − X2
der Zielvariablen ist dann eine normalverteilte Zufallsvariable mit dem Mittelwert
µ1 − µ2 und einer von der Blockwirkung bereinigten Varianz.
Offensichtlich gilt µ1 = µ2 genau dann, wenn µD = µ1 − µ2 = 0 ist. Der Mittelwertvergleich mit zwei abhängigen Stichproben kann daher auf einen Vergleich
des Mittelwerts der Differenzstichprobe mit dem Referenzwert null zurückgeführt
werden. Das entsprechende Instrument dafür ist der in Abschnitt 5.3 behandelte 1Stichproben-t-Test. Es sei d¯ = x̄1 − x̄2 das arithmetischen Mittel und s2d die empirische Varianz der Differenzstichprobe d1 , d2 , . . . , dn mit di = xi1 − xi2 (i = 1, 2, . . . , n).
Damit ergibt sich die Realisierung
tgn = q
d¯
(5.27)
s2d /n
der Testgröße (5.11). Die Nullhypothese des 2-seitigen Testproblems H0 : µd =
0 gegen H1 : µd 6= 0 wird auf dem Testniveau α abgelehnt, wenn P = 2[1 −
Fn−1 (|tgn |)] < α gilt. Ein damit gleichwertiges Kriterium für die Ablehnung von
H0 ist |tgn | > tn−1,1−α/2 . Die Größen Fn−1 und tn−1,1−α/2 bezeichnen die Verteilungsfunktion bzw. das (1 − α/2)-Quantil der tn−1 -Verteilung.37
Beispiel 5.17.
Bei der Überprüfung der Qualität eines neuen Labors L1 wurden 10 Proben
eines Magnesium-Präparats ausgewählt, jede Probe geteilt und die Teilproben
an das Labor L1 und ein Kontrolllabor L2 geschickt. Die Messungen der Labors
ergaben die folgenden Analysenwerte (in mg):
X1 (Labor L1 ) 219 196 213 203 218 212 205 191 206 219
X2 (Labor L2 ) 232 201 232 234 209 210 222 202 205 225
D = X1 − X2
−13 −5 −19 −31
9
2 −17 −11
1 −6
Da sich die übereinander stehenden X1 - und X2 -Werte auf dieselbe Probe beziehen, betrachten wir die Stichproben als abhängig. In der letzten Zeile sind
die Differenzen der von den Labors an jeder Probe gemessenen Mg-Werte angeführt. Die Frage ist, ob sich die Analysenwerte des Labors L1 im Mittel von
denen des Kontrolllabors L2 unterscheiden. Als Signifikanzniveau sei α = 5%
vereinbart.
37 Die Varianz der Differenzstichprobe kann auch mit der Formel s2 = s2 + s2 − 2s s r berechnet
1 2 12
1
2
d
werden, in der s21 und s22 die empirischen Varianzen der X1 - bzw. X2 -Stichprobe und r12 die Produktmomentkorrelation der X1 - und X2 -Stichprobe bedeuten (vgl. Abschnitt 2.1.3). Diese Darstellung
zeigt, dass s2d klein und folglich tgn groß wird, wenn r12 > 0 ist. Positiv korrelierte Stichproben
führen also beim t-Test für abhängige Stichproben zu einem größeren Testgrößenwert, und in der
Folge häufig zu einem signifikantem Testausgang.
5.5 Unterschiedshypothesen mit zwei Mittelwerten
355
Zur Beantwortung der Frage formulieren wir die Hypothesen H0 : µD =
µ1 − µ2 = 0 und H1 : µD 6= 0. Dabei ist µi der Mittelwert der im Labor Li gemessenen Größe Xi (i = 1, 2). Die Werte der Differenzstichprobe können nach Abb.
5.15 als Realisierungen einer normalverteilten Variablen D = X1 − X2 betrachtet werden. Wir schätzen den Mittelwert µD und die Varianz σD2 von D durch
d¯ = −9 bzw. s2d = 137.56 und berechnen damit die Realisierung tg10 = −2.427
der Testgröße. Wegen P = 2[1−Fn−1 (|tg10 |)] = 3.82% < 5% ist H0 auf 5%igem
Testniveau abzulehnen.
Auch die Gütefunktion des t-Tests für abhängige Stichproben kann mit den
in Abschnitt 5.3 bereitgestellten Formeln berechnet werden.
Wegen µ0 = 0 ist
√
der Nichtzentralitätsparameter in (5.13c) nun λ = µD n/σD . Setzt man z.B.
µD = d,¯ σ = sd und n = 10 ergibt sich λ = −2.427. Zum angenommenen Signifikanzniveau α = 5% ist tn−1,1−α/2 = t9,0.975 = 2.262. Damit erhält man aus
(5.13c) den Wert
G(−9) = Fn−1,λ (−tn−1,1−α/2 ) + 1 − Fn−1,λ (tn−1,1−α/2 ) = 58.1%
10
0
−10
di = xi1 − xi2 (i=1,2,...,10)
−20
−30
0
−10
−20
−30
di = xi1 − xi2 (i=1,2,...,10)
10
der Gütefunktion an der Stelle µD = d¯ = −9. Mit dieser Wahrscheinlichkeit
können wir also einen signifikanten Testausgang erwarten, wenn die wahre Mittelwertdifferenz µD gleich der beobachteten Differenz d¯ ist.
−2
−1 0
1
2
N(0,1)−Quantile
Abb. 5.15 Boxplot und Normal-QQ-Plot mit 5%igen Konfidenzbändern für die Differenzstichprobe in Beispiel 5.17. Aus den Grafiken lässt sich kein Widerspruch zur Normalverteilungsannahme
ablesen.
>
>
>
>
>
>
# Lö s u n g m i t R :
x1 <− c ( 2 1 9 , 1 9 6 , 2 1 3 , 2 0 3 , 2 1 8 , 2 1 2 , 2 0 5 , 1 9 1 , 2 0 6 , 2 1 9 )
x2 <− c ( 2 3 2 , 2 0 1 , 2 3 2 , 2 3 4 , 2 0 9 , 2 1 0 , 2 2 2 , 2 0 2 , 2 0 5 , 2 2 5 )
d <− x1−x2
# H0 : muD =0 v s . H1 : muD <> 0
t . t e s t ( d , mu= 0 )
356
5 Schätzen und Testen
One Sample t − t e s t
data : d
t = −2.4266 , d f = 9 , p−v a l u e = 0 . 0 3 8 1 9
a l t e r n a t i v e h y p o t h e s i s : t r u e mean i s n o t e q u a l t o 0
95 p e r c e n t c o n f i d e n c e i n t e r v a l :
−17.3899977 −0.6100023
sample e s t i m a t e s :
mean o f x
−9
> # Gü t e f u n k t i o n an d e r S t e l l e muD= d q u e r
> d q u e r <− mean ( d ) ; v a r d <− v a r ( d )
> power . t . t e s t ( n =10 , d e l t a = d q u e r , s d = s q r t ( v a r d ) ,
+
s i g . l e v e l = 0 . 0 5 , t y p e =" one . s a m p l e " ,
+
a l t e r n a t i v e =" two . s i d e d " , s t r i c t =T )
One−s a m p l e
n
delta
sd
sig . level
power
alternative
t
=
=
=
=
=
=
t e s t power c a l c u l a t i o n
10
9
11.72841
0.05
0.5810022
two . s i d e d
Aufgaben
1. Von zwei Präparaten P1 und P2 wurde an je 10 Probanden die Halbwertszeit X1
bzw. X2 bestimmt, mit der die Wirkstoffkonzentration im Blut abnimmt. Die
beobachteten Messwerte (in h) sind:
X1 (P1 ) 0.51, 0.60, 1.09, 1.07, 1.30, 1.27, 0.90, 0.46, 0.31
X2 (P2 ) 1.00, 1.15, 1.17, 0.88, 0.94, 0.63, 1.37, 0.62, 1.37
a) Man prüfe auf 5%igem Testniveau, ob sich die arithmetischen Mittel der
Halbwertszeiten signifikant unterscheiden.
b) Mit welchem Mindeststichprobenumfang müsste die Studie geplant werden,
damit man eine Sicherheit von 90% hat, einen Unterschied der mittleren
Halbwertszeiten im Ausmaß einer Viertelstunde mit dem Welch-Test (α =
5%) zu erkennen?
2. Die wiederholte Messung der Konzentration eines Wirkstoffes X ergab im Rahmen eines Ringversuches für die Labors L1 und L2 die folgenden Werte (Angaben in mg/l):
X1 (Labor L1 ) 5.36, 6.07, 6.48, 5.75, 5.99, 6.54, 5.52, 4.95, 5.74, 5.51
X2 (Labor L2 ) 7.87, 2.95, 5.38, 5.89, 3.66, 0.10, 3.95, 2.69, 2.15, 3.10
5.6 Vergleiche mit Wahrscheinlichkeiten
357
a) Man untersuche unter der Annahme, dass X1 und X2 mit gleichen Varianzen
normalverteilt sind und die Messungen als Parallelversuch geplant wurden,
ob sich die arithmetischen Mittel der Messgrößen auf 5%igem Testniveau
signifikant unterscheiden.
b) Mit welcher Wahrscheinlichkeit ist ein signifikanter Ausgang des 2-Stichproben-t-Tests zu erwarten, wenn sich die wahren Mittelwerte der Messgrößen um δ = 1.5 unterscheiden.
3. In einer Studie über die Langzeitwirkung eines blutdrucksenkenden Präparats
wurden 10 an Bluthochdruck leidende Personen gebeten, den systolischen Blutdruck 2 Stunden nach Einnahme des Präparats (Variable X1 ) und 12 Stunden
danach (Variable X2 ) jeweils im Sitzen zu messen. Die Messwerte (in mm Hg)
sind:
X1 120, 125, 121, 135, 125, 135, 139, 146, 114, 109
X2 130, 131, 143, 141, 144, 132, 144, 149, 128, 137
a) Zeigen Sie mit dem t-Test für abhängige Stichproben, dass sich das arithmetische Mittel des Blutdrucks von der ersten Messung zur zweiten auf
5%igem Testniveau signifikant geändert hat.
b) Überprüfen Sie mit dem Normal-QQ-Plot, ob die Daten gegen die Annahme
einer normalverteilten Differenzvariablen D = X1 − X2 sprechen.
c) Berechnen Sie die Wahrscheinlichkeit, mit dem t-Test für abhängige Stichproben ein auf 5%igem Niveau signifikantes Ergebnis zu erhalten, wenn sich
die Mittelwerte von X1 und X2 um µ1 − µ2 = −10 mm Hg unterscheiden.
Verwenden Sie dabei die empirische Standardabweichung der Differenzstichprobe als Schätzwert für die Standardabweichung von D.
5.6 Vergleiche mit Wahrscheinlichkeiten
5.6.1 Der P-Wert des exakten Binomialtests
Es sei p die Wahrscheinlichkeit eines Ereignisses, z.B., dass bei einer Therapie eine Verbesserung eintritt, oder dass bei einem Herstellungsverfahren ein defektes
Produkt erzeugt wird. Die Anwendung einer Therapie auf eine Person oder die Herstellung eines Produktes ist statistisch als Zufallsexperiment zu sehen. Bei diesem
haben wir einen interessierenden Ausgang E (nämlich das Ereignis „Verbesserung“
oder „defektes Produkt“) und einen zweiten Ausgang E c (nämlich den, dass das interessierende Ereignis nicht eintritt). Ein derartiges Experiment wurde in Abschnitt
2.4 als Bernoulli-Experiment bezeichnet und seine Ausgänge mit einer Zufallsvariablen erfasst, die den Wert eins annimmt, wenn E eintritt, andernfalls den Wert
null. Wir führen das Bernoulli-Experiment n-mal so aus, dass der Ausgang einer
358
5 Schätzen und Testen
jeden Wiederholung unabhängig von den Ausgängen der anderen Wiederholungen
ist. Jeder Ausführung i (i = 1, 2, . . . , n) wird die Zufallsvariable Xi mit der durch
P(Xi = 1) = p, P(Xi = 0) = 1 − p und P(Xi = x) = 0 für x ∈
/ {0, 1} gegebenen
Wahrscheinlichkeitsfunktion zugeordnet. Die Summe H = X1 + X2 + · · · + Xn ist
die Anzahl der Wiederholungen (bei insgesamt n Wiederholungen), bei denen E
eintritt. Nach Abschnitt 2.5.2 ist H eine mit den Parametern n und p binomialverteilte Zufallsvariable. Ihr Mittelwert ist µH = np. Setzt man µH gleich der konkret
beobachteten Anzahl h von Wiederholungen mit dem Ausgang E, erhält man den
Schätzwert p̂ = h/n für die Wahrscheinlichkeit p.
Soll festgestellt werden, ob die Wahrscheinlichkeit p einen vorgegebenen Sollwert p0 überschreitet, wird das 1-seitige Testproblem H0 : p ≤ p0 gegen H1 : p >
p0 formuliert. Der exakte Binomialtest verwendet als Testgröße die Anzahl H der
Experimente mit dem interessierenden Versuchsausgang. Für die konkret vorliegende Stichprobe möge H den Wert h besitzen. Wenn H0 gilt, ist µH = np0 . Weicht
die Realisierung h der Testgröße davon „extrem“ nach oben ab, spricht dies für die
Gültigkeit von H1 . Umso mehr gilt das für die Testgrößenwerte h + 1, h + 2, . . . , n,
die in diesem Sinne als „extremer“ als h zu betrachten sind. Die Wahrscheinlichkeit
dafür, dass die Testgröße H einen Werte annimmt, der zumindest genau so extrem
liegt wie die konkret beobachtete Realisierung h, wird mit dem P-Wert
P = P(H ≥ h) = 1 − P(H < h) = 1 − P(H ≤ h − 1) = 1 − FB (h − 1)
(5.28a)
erfasst. Die Größe FB bezeichnet die Verteilungsfunktion der Bn,p0 -Verteilung. Zur
Berechnung von Werten dieser Verteilungsfunktion verwendet man zweckmäßigerweise einschlägige Funktionen aus einer Statistik-Software (z.B. die Funktion
pbinom() in R). Ist der P-Wert kleiner als das vorgegebene Testniveau α, wird
H0 auf dem Niveau α abgelehnt. Andernfalls bleibt die Nullhypothese aufrecht.
Mit dem betrachteten 1-seitigen Binomialtest wird eine allfällige Überschreitung
des Sollwerts p0 geprüft. Beim Binomialtest auf Unterschreitung geht es um die
Hypothesen H0 : p ≥ p0 gegen H1 : p < p0 . Zur Berechnung des P-Werts verwendet
man an Stelle von (5.28a) die Formel
P = P(H ≤ h) = FB (h)
(5.28b)
und lehnt H0 auf dem Niveau α ab, wenn P < α ist.
Komplexer ist die Bestimmung des P-Werts für das 2-seitige Testproblem
H0 : p = p0 gegen H1 : p 6= p0 . Betrachtet man z.B. den Fall h > np0 , sind jedenfalls die Testgrößenwerte h + 1, h + 2, . . . , n extremer als die beobachtete Realisierung h. Für jeden extremen Wert xr gilt Bn,p0 (xr ) ≤ Bn,p0 (h). Die Wahrscheinlichkeit dass die Testgröße einen Wert gleich oder größer als h annimmt, ist durch
P(H ≥ h) = Bn,p0 (h) + Bn,p0 (h + 1) + · · · + Bn,p0 (n) gegeben. Bei der Berechnung
des P-Werts sind aber auch extreme Testgrößenwerte links von np0 zu berücksichtigen. Wir bezeichnen einen links von np0 liegenden Werte xl als extrem, wenn wie
bei den rechts liegenden Werten Bn,p0 (xl ) ≤ Bn,p0 (h) gilt. Diese Überlegung führt
dazu, den P-Wert des 2-seitigen Binomialtests folgendermaßen zu bestimmen: Wir
berechnen die Wahrscheinlichkeiten P(H = x) = Bn,p0 (x), dass die Testgröße H bei
5.6 Vergleiche mit Wahrscheinlichkeiten
359
Gültigkeit von H0 : p = p0 die möglichen Werte x = 0, 1, . . . , n annimmt. Die Summe
n
1 falls Bn,p0 ≤ Bn,p0 (h)
P = ∑ Bn,p0 (x)Ix mit Ix =
(5.28c)
0
falls Bn,p0 > Bn,p0 (h)
x=0
der Binomialwahrscheinlichkeiten mit der Eigenschaft Bn,p0 (x) ≤ Bn,p0 (h) ist der
gesuchte P-Wert. Die Nullhypothese wird in der gewohnten Weise abgelehnt, wenn
der P-Wert kleiner als das vorgegebene Testniveau α ist.
Beispiel 5.18.
Von einer Erbsenpflanze erhielt Gregor Mendel insgesamt 62 Samen von denen
44 gelb und 18 grün gefärbt waren.38 Wir zeigen auf dem Testniveau α = 5%,
dass das Verhältnis 44:18 der beobachteten Anzahlen nicht signifikant vom
theoretischen Aufspaltungsverhältnis 3:1 abweicht.
Die Samenfarbe kann als Bernoulli-Variable mit den Werten eins (für gelb)
und null (für grün) gesehen werden. Die Wahrscheinlichkeit für die Ausbildung
eines gelben Samens sei p. Zu prüfen sind die Hypothesen H0 : p = p0 = 3/4
gegen H1 : p 6= 3/4. Von den insgesamt n = 62 betrachteten Samen zeigten
h = 44 eine gelbe Farbe. Aus den Daten ergibt sich der Schätzwert p̂ = h/n =
0.7097 für p. Die Testgröße H ist die Anzahl der gelb gefärbten Samen in einer Zufallsstichprobe vom Umfang n. Unter H0 ist H binomialverteilt mit den
Parametern n = 62 und p = p0 = 3/4. Zur Bestimmung des P-Werts werden
die Binomialwahrscheinlichkeiten Bn,p0 (x) (x = 0, 1, . . . , n) berechnet und jene
aufsummiert, die kleiner oder gleich Bn,p0 (s) = 0.08562 sind. Die Summe ist
der gesuchte P-Wert P = 46.45%, der deutlich größer als das vorgegebene Testniveau α = 5% ist. Die Nullhypothese kann daher nicht abgelehnt werden. In
der folgenden Lösung mit R wird der P-Wert so wie beschrieben bestimmt. Zusätzlich wird der P-Wert mit der in R bereitgestellte Funktion binom.test()
ermittelt.
>
>
>
>
>
>
>
+
+
>
# Lö s u n g m i t R :
n <− 6 2 ; p0 <− 0 . 7 5 ; h <− 44
# H0 : p=p0 g e g e n H1 : p <> p0
# B e r e c h n u n g von P m i t den B i n o m i a l w a h r s c h e i n l i c h k e i t e n
Bh <− dbinom ( h , n , p0 ) # B i n o m i a l −Ws f ü r T e s t g r öß e n w e r t h
Pc <− 0
for ( x in 0: n ){
Bx <− dbinom ( x , n , p0 )
i f ( Bx > Bh ) { Pc <− Pc+Bx}}
P <− 1−Pc ; p r i n t ( c b i n d ( Bh , P ) , d i g i t s = 4 )
Bh
P
[ 1 , ] 0.08562 0.4645
> # B e r e c h n u n g von P m i t d e r F u n k t i o n binom . t e s t ( )
> binom . t e s t ( h , n , p0 )
38
Gregor Mendel (1822-1884) wirkte als Augustinermönch und Naturforscher in Brünn. Nach
Experimenten mit ausgewählten Sorten der Erbse veröffentlichte er die nach ihm benannten Vererbungsregeln unter dem Titel „Versuche über Pflanzenhybriden“ im Jahre 1865. Die Originalarbeit
findet man u.a. unter http://www.gutenberg.org/ebooks/40854.
360
5 Schätzen und Testen
Exact binomial t e s t
d a t a : h and n
number o f s u c c e s s e s = 4 4 , number o f t r i a l s = 6 2 ,
p−v a l u e = 0 . 4 6 4 5
alternative hypothesis :
t r u e p r o b a b i l i t y of success i s not equal to 0.75
95 p e r c e n t c o n f i d e n c e i n t e r v a l :
0.5805098 0.8180060
sample e s t i m a t e s :
p r o b a b i l i t y of success
0.7096774
5.6.2 Näherungsweise Bestimmung der Gütefunktion des
Binomialtests
Die Anzahl H der Wiederholungen von n, voneinander unabhängig ausgeführten
Bernoulli-Experimenten mit dem Ausgang E (dieser möge mit der Wahrscheinlichkeit p eintreten) ist binomialverteilt mit den Parametern n und p. Dividiert man H
durch n, erhält man eine Schätzfunktion für
p p. Wir nehmen von H/n die Quadratwurzel und bilden die Größe Y = 2 arcsin H/n. Hier steht arcsin für Arkussinussinus.39 Man kann zeigen, dass sich die Verteilung von Y mit wachsendem n der
√
Normalverteilung mit dem Mittelwert µ = 2 arcsin p und der Varianz σ 2 = 1/n
nähert. Wir nehmen nun (näherungsweise) Y als N(µ, σ 2 )-verteilt mit der von n abhängigen Varianz an. Im Rahmen dieser Näherung könnte der Vergleich der Wahrscheinlichkeit p mit dem Sollwert p0 auch als Vergleich des Mittelwerts µ mit dem
√
Sollwert µ0 = 2 arcsin p0 geführt werden. Dafür besteht aber keine Veranlassung,
da der Vergleich mit dem im vorangehenden Abschnitt besprochenen Binomialtest
ohne großen Aufwand exakt durchgeführt werden kann. Wir verwenden die Näherung, um die Power, also den Wert der Gütefunktion für ein festes µ, und eine
Formel für den Mindeststichprobenumfang anzugeben.
Der Wert G(µ) der Gütefunktion des 2-seitigen Binomialtest mit den Hypothesen
H0 : p = p0 gegen H1 : p 6= p0 kann an der Stelle p näherungsweise aus
√ √ G(p) = Φ −z1−α/2 − δ n + Φ −z1−α/2 + δ n
(5.29a)
berechnet werden.40 Hier ist Φ die Verteilungsfunktion und z1−α/2 das (1 − α/2)√
Quantil der N(0, 1)-Verteilung; die Größe δ steht abkürzend für δ = 2 arcsin p −
√
2 arcsin p0 . Gibt man die Power G(p) = 1 − β vor, kann aus (5.29a) der erforderliche Mindeststichprobenumfang n∗ bestimmt werden. Einen Richtwert liefert die
39 Der Arkussinus einer reellen Zahl z aus dem Intervall [−1, 1] ist die im Intervall [−π/2, π/2]
liegende Lösung x (im Bogenmaß) der Gleichung sin x = z. Z.B. ist arcsin 1 = π/2 (wegen
sin π/2 = 1) oder arcsin 0 = 0 (wegen sin 0 = 0).
40 Eine Begründung der Formel (5.29a) findet man in den Ergänzungen (Abschnitt 5.7.4a).
5.6 Vergleiche mit Wahrscheinlichkeiten
361
Formel:
2
1
z
+z
(5.29b)
δ 2 1−α/2 1−β
Man erhält sie aus (5.29a), wenn man auf der linken Seite im Falle δ > 0 (δ < 0) den
ersten (zweiten) Term vernachlässigt. Plant man den Vergleich mit dem Stichprobenumfang n∗ , hat man die Sicherheit 1 − β , mit dem auf dem Niveau α geführten
Binomialtest eine Abweichung von p0 in der vorgegebenen Höhe p − p0 als signifikant zu erkennen.
n∗ ≈
Beispiel 5.19.
In Beispiel 5.18 ging es um das Testproblem mit den Hypothesen H0 : p = p0 =
0.75 gegen H1 : p 6= p0 . Mit dem auf 5%igem Niveau geführten 2-seitige Binomialtest konnte H0 nicht abgelehnt werden. Ergänzend dazu berechnen wir nun
die Wahrscheinlichkeit G(p), dass der Test zu einem signifikanten Ausgang (also zu H1 ) führt, wenn das wahre Aufspaltungsverhältnis mit 1 : 1 angenommen
wird, also p = 0.5 ist. Setzt man z1−α/2 = z0.975 = 1.96, n = 62 und
√
√
δ = 2 arcsin 0.5 − 2 arcsin 0.75 = −0.5236
in (5.29a) ein, folgt:
G(p) = G(0.5) = Φ(2.1629) + Φ(−6.0828) = 98.47%
Begnügt man sich mit einer Sicherheit G(p) von 1 − β = 90%, erhält man mit
z1−β = 1.2816 aus (5.29b) den für einen signifikanten Testausgang erforderlichen Mindeststichprobenumfang
n∗ ≈
>
>
>
>
>
>
>
2
1
1.96 + 1.2816 = 38.33 ≈ 39.
2
0.5236
# Lö s u n g m i t R :
n <− 6 2 ; p0 <− 0 . 7 5 ; p <− 0 . 5 0 ; a l p h a <− 0 . 0 5
# Nä h e r u n g s w e i s e B e r e c h n u n g d e r Power m i t F o r m e l ( 5 . 2 9 a )
l i b r a r y ( pwr )
d e l t a <− 2∗ a s i n ( s q r t ( p ) ) − 2∗ a s i n ( s q r t ( p0 ) )
power <− pwr . p . t e s t ( d e l t a , n , a l p h a ) $power
p r i n t ( c b i n d ( n , p0 , p , d e l t a , power ) , d i g i t s = 4 )
n
p0
p
d e l t a power
[ 1 , ] 62 0 . 7 5 0 . 5 −0.5236 0 . 9 8 4 7
> # Powerberechnung durch S i m u l a t i o n ( e x a k t e r B i n o m i a l t e s t )
> binom . power = f u n c t i o n ( n , N, p , p0 , a l p h a ) {
+ # n= S t i c h p r o b e n u m f a n g
+ # N= A n z a h l d e r ausgew ä h l t e n Z u f a l l s s t i c h p r o b e n
+ # p= wahre W a h r s c h e i n l i c h k e i t , p0= S o l l w e r t , a l p h a = T e s t n i v e a u
+
P <− c ( )
+
f o r ( b i n 1 :N) {
+
s <− sum ( s a m p l e ( c ( 1 , 0 ) , n , r e p l a c e =T , p r o b =c ( p , 1−p ) ) )
+
P <− a p p e n d ( P , binom . t e s t ( s , n , p=p0 ) $p . v a l u e ) }
+
A <− sum ( P < a l p h a ) ; power <− A/N
362
5 Schätzen und Testen
+
r e t u r n ( c b i n d (A, N, power ) ) }
> binom . power ( n , 5 0 0 0 , p , p0 , a l p h a )
A
N power
[ 1 , ] 4917 5000 0 . 9 8 3 4
> # M i n d e s t −n m i t F o r m e l ( 5 . 2 9 b )
> z a l p h a <− qnorm (1− a l p h a / 2 ) ; b e t a <− 0 . 1
> z b e t a <− qnorm (1− b e t a )
> n s <− ( z a l p h a + z b e t a ) ^ 2 / d e l t a ^ 2 ; p r i n t ( ns , d i g i t s =4 )
[1] 38.33
Für das 1-seitige Testproblem H0 : p ≤ p0 gegen H1 : p > p0 (Test auf Überschreitung) und das 1-seitige Testproblem H0 : p ≥ p0 gegen H1 : p < p0 (Test auf
Unterschreitung) tritt an die Stelle von (5.29a) die Formel:
√ √ G(p) = 1 − Φ z1−α − δ n = Φ z1−α + δ n bzw.
√ G(p) = Φ −z1−α − δ n
(5.30)
Ersetzt man in (5.29b) das Quantil z1−α/2 durch z1−α , kann man damit für beide Varianten des 1-seitigen Binomialtest den erforderlichen Mindeststichprobenumfangs
abschätzen.
5.6.3 Konfidenzintervall für eine Wahrscheinlichkeit
Es gehört zur guten Praxis des Testens, nicht nur den P-Wert und die damit herbeigeführte Testentscheidung anzugeben, sondern detaillierter über den zu prüfenden Parameter zu berichten. So enthält z.B. die Ausgabe der R-Funktion binom.test()
zusätzlich zum P-Wert auch noch einen Schätzwert und ein Konfidenzintervall für
die unbekannte Wahrscheinlichkeit p (vgl. Beispiel 5.18). Damit kann die Abweichung der Wahrscheinlichkeit p vom Sollwert p0 auch mit dem Konfidenzintervall
beurteilt werden. Die Nullhypothese wird genau dann auf 5%igem Testniveau abgelehnt, wenn p0 nicht im 95%igem Konfidenzintervall für p liegt.
Bei der Schätzung einer Wahrscheinlichkeit liegt i. Allg. folgende Situation vor:
Bei einem Zufallsexperiment tritt ein Ereignis E ein, dessen Wahrscheinlichkeit p
bestimmt werden soll. Indem man alle anderen möglichen Ausgänge des Zufallsexperimentes in dem zu E komplementären Ereignis E c zusammenfasst, hat man
ein Bernoulli-Experiment mit den Ausgängen E und E c , die mit den Wahrscheinlichkeiten p bzw. 1 − p eintreten. Das Zufallsexperiment wird n-mal so ausgeführt,
dass jede Ausführung unbeeinflusst von den anderen stattfindet. Die Anzahl H der
Experimente mit dem Ergebnis E ist nach Abschnitt 2.5 binomialverteilt mit dem
Mittelwert np und der Varianz np(1 − p). Wird der Ausgang E bei einer konkreten
Serie von n Experimenten insgesamt h-mal beobachtet, ergibt sich aus h = np der
Schätzwert p̂ = h/n für den Parameter p.
Es seien nun U und O die untere bzw. obere Grenze eines (1 − α)-Konfidenzintervalls für die (unbekannte) Wahrscheinlichkeit p. Von den Grenzen wird gefordert,
5.6 Vergleiche mit Wahrscheinlichkeiten
363
dass die Überdeckungswahrscheinlichkeit C = P(U ≤ p ≤ O) mit dem nominellen
Konfidenzniveau 1 − α übereinstimmt oder zumindest nicht stark von diesem abweicht. Zu einem Konfidenzintervall für p mit einer guten Performance hinsichtlich
der Überdeckungswahrscheinlichkeit gelangt man auf folgende Weise: Wir setzen
voraus, dass n nicht zu „klein“ und p nicht zu nahe bei null oder eins liegt. Als Kriterium dafür kann die Ungleichung np(1 − p) ≈ n p̂(1 − p̂) > 9 verwendet
p werden.
Unter dieser Voraussetzung ist die standardisierte Anzahl (H − np)/ np(1 − p)
mit vertretbarer Genauigkeit N(0, 1)-verteilt. Im Rahmen der Approximation gilt:
1 − α = Φ(z1−α/2 ) − Φ(zα/2 )
!
H − np
≈ P zα/2 ≤ p
≤ z1−α/2
n(p(1 − p)
r
H
p(1 − p)
H
−d ≤ p ≤ +d
mit d = z1−α/2
=P
n
n
n
Ersetzt man hier die Wahrscheinlichkeit p im Ausdruck für d durch die Schätzfunktion H/n, erhält man die Grenzen
r
r
H(1 − H)
H(1 − H)
US = H − z1−α/2
und OS = +z1−α/2
n
n
eines approximativen (1 − α)-Konfidenzintervalls für p. Dieses Konfidenzintervall
wird als Standardintervall bezeichnet. Wie durch Simulationsexperimente gezeigt
werden konnte, kann die Überdeckungswahrscheinlichkeit des Standardintervalls
selbst für mittlere Werte von p und große n erheblich vom nominellen Wert 1 − α
abweichen. Es wurde daher versucht, durch Abänderungen des Standardardintervalls ein Intervall finden, bei dem die Überdeckungswahrscheinlichkeit besser mit
1 − α übereinstimmt. Ein solches Intervall ist das Agresti-Coull-Intervall mit den
Grenzen:41
UA = M − L und OA = M + L mit
s
H + 12 z21−α/2
M(1 − M)
M=
und L =
2
n + z1−α/2
n + z21−α/2
(5.31)
Unter der Voraussetzung n p̂(1 − p̂) > 9 ist das Konfidenzintervall (5.31) eine gute Wahl. Ist die Voraussetzung nicht erfüllt, kann man das in den Ergänzungen
dargestellte Clopper-Pearson-Intervall verwenden, mit dem auch die R-Funktion
binom.test() arbeitet.
Beispiel 5.20.
Wir greifen nochmals die Beobachtungsdaten h = 44 und n = 62 von Beispiel
5.18 auf und berechnen das durch diese Daten realisierte Agresti-Coull-Intervall
41
Agresti, A., Coull, B.A.: Approximate Is Better than “Exact” for Interval Estimation of Binomial
Proportions. The American Statistician, 52, 119-126 (1998).
364
5 Schätzen und Testen
zum Konfidenzniveau 1 − α = 0.95. Mit z1−α/2 = z0.975 = 1.96 erhält man für
die Intervallmitte M den Wert m = 0.6974 und für die halbe Intervalllänge L
den Wert l = 0.1110. Damit ergeben sich die Grenzen uA = m − l = 0.5865 und
oA = m+l = 0.8084. Die folgende Lösung mit R wurde mit Formel (5.31) sowie
mit der Funktion binom.confint() aus dem Paket "binom"gerechnet.
> # Lö s u n g m i t R :
> h <− 4 4 ; n <− 6 2 ; pd <− h / n
> n∗ pd ∗(1− pd ) >9 # V o r a u s s . f . N o r m a l v e r t e i l u n g s a p p r o x i m a t i o n
[ 1 ] TRUE
> # Berechnung mit Formel ( 5 . 3 1 )
> a l p h a <− 0 . 0 5 ; z a l p h a <− qnorm (1− a l p h a / 2 )
> m <− ( h+ z a l p h a ^ 2 / 2 ) / ( n+ z a l p h a ^ 2 )
> l <− z a l p h a ∗ s q r t (m∗(1−m ) / ( n+ z a l p h a ^ 2 ) )
> uA <− m−l ; oA <− m+ l
> p r i n t ( c b i n d ( pd , z a l p h a , m, l , uA , oA ) , d i g i t s = 4 )
pd z a l p h a
m
l
uA
oA
[ 1 , ] 0.7097
1.96 0.6974 0.111 0.5865 0.8084
> # B e r e c h n u n g m i t binom . c o n f i n t ( ) im P a k e t " binom "
> l i b r a r y ( binom )
> p r i n t ( binom . c o n f i n t ( h , n , c o n f . l e v e l = 0 . 9 5 , m e t h o d s =" a c " ) ,
+
d i g i t s =4)
method x n
mean l o w e r u p p e r
1 a g r e s t i −c o u l l 44 62 0 . 7 0 9 7 0 . 5 8 6 5 0 . 8 0 8 4
5.6.4 Vergleich von zwei Wahrscheinlichkeiten
a) Der exakte Test von Fisher. Beim Vergleich von zwei Wahrscheinlichkeiten ist
wie beim Vergleich von zwei Mittelwerten zwischen Versuchsanlagen mit unabhängigen und abhängigen Stichproben zu unterscheiden. Wir betrachten zuerst den Vergleich mit unabhängigen Stichproben. Wir denken uns wieder ein Zufallsexperiment
mit nur zwei Ausgängen, denen wir die Werte a1 bzw. a2 einer binären Zufallsvariablen A zuordnen. Das Zufallsexperiment kann z.B. die Abfüllung einer Formulierung mit den Ausgängen „steril“ bzw. „nicht steril“ sein. Das Experiment möge
nun unter zwei Versuchsbedingungen durchgeführt werden. Auch die Versuchsbedingung kann als eine Variable B mit zwei Werten b1 und b2 dargestellt werden.
Der Wert b1 bedeutet die Versuchsbedingung 1 und b2 die Versuchsbedingung 2. Im
Gegensatz zur Zielvariablen A hat B die Bedeutung eines Gliederungsmerkmals. Im
vorhin angeführten Beispiel kann b1 die Abfüllung mit einem neuen Verfahren und
b2 die Abfüllung mit einer herkömmlichen Verfahren bedeuten.
Das Experiment wird n1 -mal unter der Bedingung 1 und n2 -mal unter der Bedingung 2 durchgeführt. Die Ergebnisse der Versuchsausführungen fassen wir in
zwei Stichproben zusammen. In der ersten Stichprobe (also unter der Bedingung 1)
möge h11 -mal der Wert A = a1 und (n1 − h11 )-mal der Wert A = a2 aufscheinen.
Die entsprechenden Werte der zweiten Stichprobe (Bedingung 2) seien h12 bzw.
n2 − h12 . Die beobachteten Häufigkeiten werden meist in einer Vierfeldertafel (vgl.
5.6 Vergleiche mit Wahrscheinlichkeiten
365
Tabelle 5.1a) zusammengefasst. Die Wahrscheinlichkeiten p1 = P(A = a1 |B = b1 )
und p2 = P(A = a1 |B = b2 ) sind unbekannt. Schätzwerte für p1 und p2 sind die
relativen Häufigkeiten p̂1 = h11 /n1 bzw. p̂2 = h12 /n2 . Will man wissen, ob sich
die Wahrscheinlichkeiten p1 und p2 unterscheiden, formuliert man die 2-seitigen
Hypothesen H0 : p1 = p2 gegen H1 : p1 6= p2 .
Beim exakten Test von Fisher werden in Tabelle 5.1a nicht nur die Spaltensummen, sondern auch die Zeilensummen als vorgegeben betrachtet. Unter dieser Voraussetzung sind z.B. durch das Element h11 und die Randsummen die übrigen Elemente der Vierfeldertafel bestimmt (vgl. Tabelle 5.1b). Wenn H0 gilt, also p1 = p2
ist, können die Spalten zu den Versuchsbedingungen B = b1 und B = b2 in einer
Summenspalte zusammengefasst werden. Diese repräsentiert die Gesamtstichprobe mit insgesamt n = n1 + n2 Werten. Unter diesen tritt h1. -mal der Wert a1 und
h2. -mal der Wert a2 auf. Durch zufälliges Ziehen (ohne Zurücklegen) werden n1
Elemente aus der Gesamtstichprobe ausgewählt. Die Anzahl H11 der auf diese Weise ausgewählten a1 -Elemente ist nach Abschnitt 2.5.3 hypergeometrisch verteilt mit
den Parametern h1. , n − h1. und n1 . Ersetzt man in (2.32) die Größen a, N − 1 und n
durch h1. , n − h1. bzw. n1 , erhält man die Formel
h n−h 1.
P(H11 = x) =
x
1.
n1 −x
n
n1
(5.32)
zur Bestimmung der Wahrscheinlichkeitsfunktion von H11 . Als Werte von H11 kommen alle ganzen Zahlen x aus dem Intervall [hmin , hmax ] mit hmin = max(0, h1. − n2 )
und hmax = min(n1 , h1. ) in Frage. Die Intervallgrenzen folgen aus der Forderung,
dass alle Zellenelemente der Vierfeldertafel in Tabelle 5.1b größer oder gleich null
sind.
Mit Hilfe von (5.32) kann beurteilt werden, wie wahrscheinlich es ist, dass H11
den unter der Versuchsbedingung 1 beobachteten Wert h11 oder einen „extremeren“
Wert annimmt. Wir gehen bei der Bestimmung des P-Werts wie beim Binomialtest
vor. Zuerst wird mit Hilfe von (5.32) die Wahrscheinlichkeit Hs = P(H11 = h11 ) berechnet, dass der Testgrößenwert gleich der beobachteten Anzahl h11 ist. Jeder Wert
x von H11 mit der Eigenschaft P(H11 = x) ≤ Hs gilt als gleich extrem oder extremer
als der beobachtete H11 -Wert. In dem man die Wahrscheinlichkeiten P(H11 = x)
über alle extremen Werte x summiert, erhält man den P-Wert
hmax
P=
∑
x=hmin
P(H11 = x)Ix mit Ix =
1 falls P(H11 = x) ≤ Hs
0 falls P(H11 = x) > Hs
(5.33a)
des 2-seitigen exakten Tests von Fisher. Liegt ein 1-seitiges Testproblem mit den
Hypothesen H0 : p1 ≥ p2 gegen H1 : p1 < p2 vor, tritt an die Stelle von (5.33a) die
Formel:42
42 Diese Formel ist auch auf das 1-seitige Testproblem H : p ≤ p gegen H : p > p anwendbar,
0
1
2
1
1
2
wenn man es durch Umbezeichnung der Versuchsbedingungen in das Testproblem H0 : p1 ≥ p2
gegen H1 : p1 < p2 überführt.
366
5 Schätzen und Testen
Tabelle 5.1 Vierfeldertafel mit dem binären Untersuchungsmerkmal A und dem gleichfalls binären
Gliederungsmerkmal B. Die Werte von A sind a1 und a2 , die Werte von B sind b1 und b2 . Zusätzlich
zu den Zellenhäufigkeiten sind die Zeilensummen h1. und h2. , die Spaltensummen n1 und n2 sowie
die Gesamtsumme n = n1 + n2 = h1. + h2. angegeben. Bei vorgegebenen Randhäufigkeiten n1 , n2
und h1. ist nur eine Zellenhäufigkeit (z.B. h11 wie in Tabelle b) frei wählbar.
a) Allgemeines Schema einer Vierfeldertafel
ZielFaktor B
variable A
b1
b2
a1
h11
h12
a2
n1 − h11 n2 − h12
n1
n2
∑
∑
h1.
h2.
n
b) Vierfeldertafel zum exakten Test von Fisher
Zielvariable A
a1
a2
∑
Faktor B
b1
b2
h11
h1. − h11
n1 − h11 n2 − h1. + h11
n1
n2
∑
h1.
h2.
n
h11
P = P(H11 ≤ h11 ) =
∑
P(H11 = x)
(5.33b)
x=hmin
Beispiel 5.21.
In einer Studie wurde festgestellt, dass bei einem neuen Medikament M1 eine
Nebenwirkung NW bei 9 von 32 Probanden auftritt. In einer Kontrollgruppe
mit 30 Probanden wurde die Behandlung mit einem herkömmlichen Präparat
M2 durchgeführt. Nun gab es bei 15 Probanden die Nebenwirkung NW . Es
soll festgestellt werden, ob sich die Wahrscheinlichkeiten p1 und p2 für das
Auftreten der Nebenwirkung NW zwischen den Behandlungen mit M1 bzw. M2
unterscheiden.
Offensichtlich sind die Schätzwerte p̂1 = 9/32 = 0.2812 und p̂2 = 15/30 =
0.5 verschieden. Um fest zu stellen, ob sich diese Aussage verallgemeinern
lässt, wenden wir den exakten Test von Fisher mit H0 : p1 = p2 gegen H1 : p1 6=
p2 an. Als Testniveau sei α = 5% vereinbart. Zur Berechnung des P-Werts wird
p1 = p2 angenommen. Mit h11 = 9, n1 = 32, n = 62 und h1. = 9 + 15 = 24
ergibt sich
Hs = P(H11 = 9) =
24
9
38
23
62
32
= 0.04486
für die Wahrscheinlichkeit, dass die Testgröße H11 den Wert h11 = 9 annimmt.
Die möglichen Testgrößenwerte sind die ganzen Zahlen von max(0, 24 − 30) =
0 bis min(32, 24) = 24. Der P-Wert P ist die Summe über alle möglichen H11 Werte ξ mit der Eigenschaft P(H11 = ξ ) ≤ Hs . Der folgenden Lösung mit R
5.6 Vergleiche mit Wahrscheinlichkeiten
367
entnimmt man dafür P = 11.73%. Wegen P ≥ α kann die Nullhypothese auf
dem vereinbarten Testniveau nicht abgelehnt werden.
>
>
>
>
# Lö s u n g m i t R :
n1 <− 3 2 ; n2 <− 3 0 ; h11 <− 9 ; h12 <− 15
pd1 <− h11 / n1 ; pd2 <− h12 / n2 # Sch ä t z w e r t e f ü r p1 und p2
p r i n t ( c b i n d ( pd1 , pd2 ) , d i g i t s = 4 )
pd1 pd2
[ 1 , ] 0.2812 0.5
> # H0 : p1=p2 g e g e n H1 : p1 <>p2
> # B e r e c h n u n g von P
> h1p <− h11+h12 ; n <− n1+n2
> Hh <− d h y p e r ( h11 , h1p , n−h1p , n1 ) # Hh=P ( H11=h11 )
> hmin <− max ( 0 , h1p−n2 ) ; hmax <− min ( n1 , h1p ) ;
> h i n t <− hmin : hmax # W e r t e b e r e i c h von H11
> Pc <− 0
> for ( x in h i n t ){
+
Hx <− d h y p e r ( x , h1p , n−h1p , n1 )
+
i f ( Hx > Hh ) { Pc=Pc+Hx}}
> P <− 1−Pc ; p r i n t ( c b i n d ( hmin , hmax , Hh , P ) , d i g i t s = 4 )
hmin hmax
Hh
P
[1 ,]
0
24 0 . 0 4 4 8 6 0 . 1 1 7 3
> # B e r e c h n u n g d e s P−W e r t s m i t d e r F u n k t i o n f i s h e r . t e s t ( )
> V <− m a t r i x ( c ( h11 , n1−h11 , h12 , n2−h12 ) , n c o l = 2)
> c o l n a m e s (V) = c ( "M1" , "M2" )
> rownames (V) <− c ( "NW j a " , "NW n e i n " ) ; V
M1 M2
NW j a
9 15
NW n e i n 23 15
> PP <− f i s h e r . t e s t (V) $p . v a l u e ; p r i n t ( PP , d i g i t s = 4 )
[ 1 ] 0.1173
Wie beim exakten Binomialtest kann die Power zu vorgegebenen Werten
von n1 , n2 , p1 , p2 und α durch zufällige Auswahl einer großen Anzahl von
Stichproben unter den beiden Versuchsbedingungen bestimmt werden. Für jede zufällig erzeugte Vierfeldertafel rechnet man den exakten Test von Fisher
und bestimmt den Anteil der Vierfeldertafeln mit P < α. Dieser Anteil ist ein
Schätzwert für die gesuchte Power.
b) Vergleich von zwei Wahrscheinlichkeiten bei großen Stichproben. Bei
großem n1 und n2 ist ein anderer Zugang zum Vergleich von zwei Wahrscheinlichkeiten vorteilhaft. Dieser Zugang erlaubt es, Formeln zur näherungsweisen Berechnung des erforderlichen Mindeststichprobenumfangs anzugeben. Wir denken uns
die Beobachtungsdaten durch wiederholte Ausführung von Bernoulli-Experimenten
generiert. Konkret möge die Stichprobe zur Versuchsbedingung i (i = 1, 2) aus
einem ni -mal ausgeführten Experiment resultieren, das mit der Wahrscheinlichkeit pi zum Ergebnis a1 führt. Die Anzahl H1i der a1 -Werte in der so erzeugten
Stichprobe ist nach Abschnitt 2.5.2 binomialverteilt mitpden Parametern ni und
pi . Von H1i gehen wir zur Zufallsvariablen Yi = 2 arcsin H1i /ni über. Diese ist,
wenn n1 und n2 „groß“ sind, näherungsweise normalverteilt mit dem Mittelwert
√
µYi = 2 arcsin pi und der Varianz σYi = 1/ni . Die Differenz Y1 − Y2 der vonein-
368
5 Schätzen und Testen
ander unabhängigen Zufallsvariablen Y1 und Y2 ist wieder normalverteilt mit dem
Mittelwert µY1 −Y2 = µY1 − µY2 und der Varianz σY21 −Y2 = σY21 + σY22 = 1/n1 + 1/n2 .
Bei Gültigkeit von H0 : p1 = p2 ist µY1 −Y2 = 0. Daher ist unter der Voraussetzung
p1 = p2 die Größe
p
p
2 arcsin H11 /n1 − 2 arcsin H12 /n2
Y1 −Y2
p
(5.34)
=
T Gn1 ,n2 =
σY
1/n1 + 1/n2
standardnormalverteilt. Wir verwenden (5.34) als Testgröße für ein Näherungsverfahren zum Vergleich der Wahrscheinlichkeiten p1 und p2 . Setzt man für H11 und
H12 die beobachteten Anzahlen h11 bzw. h12 aus der Vierfeldertafel (5.1a) ein, erhält
man die Realisierung tgn1 ,n2 der Testgröße.43
Wir betrachten zuerst das 2-seitige Testproblem mit den Hypothesen H0 : p1 = p2
gegen H1 : p1 6= p2 . Die Testentscheidung kann entweder durch Vergleich des PWerts mit dem Testniveau α oder durch Vergleich des Testgrößenwerts tgn1 ,n2 mit
dem (1 − α/2)-Quantil z1−α/2 der N(0, 1)-Verteilung erfolgen. Die Nullhypothese
wird auf dem Testniveau α abgelehnt, wenn
P = 2 1 − Φ(|tgn1 ,n2 |) < α bzw. |tgn1 ,n2 | > z1−α/2
(5.35a)
gilt. Die Größe Φ bezeichnet die Verteilungsfunktion der N(0, 1)-Verteilung. Im
Rahmen der Näherung kann man den Wert G(p1 , p2 ) der Gütefunktion in Abhängigkeit von den wahren Wahrscheinlichkeiten p1 und p2 aus
δ
δ
+ Φ −z1−α/2 + p
G(p1 , p2 ) = Φ −z1−α/2 − p
1/n1 + 1/n2
1/n1 + 1/n2
√
√
(5.35b)
mit δ = 2 arcsin p1 − 2 arcsin p2
bestimmen. Gibt man für die Gütefunktion eine gewünschte Power 1 − β vor, kann
(5.35b) im Falle n1 = n2 = n näherungsweise nach n aufgelöst werden. Die Näherungslösung
2(z1−α/2 + z1−β )2
n∗ =
(5.35c)
δ2
ist der erforderliche Mindeststichprobenumfang, der mit der Wahrscheinlichkeit
1 − β sicherstellt, dass der auf dem Niveau α geführte Test zu einem signifikanten Resultat führt, wenn p1 und p2 die wahren Wahrscheinlichkeiten sind.
Wenn die Wahrscheinlichkeiten 1-seitig mit den Hypothesen H0 : p1 ≥ p2 gegen H1 : p1 < p2 verglichen werden sollen, treten an die Stelle von (5.35a-c) die
43 Man beachte, das die Testgröße nur näherungsweise N(0, 1)-verteilt ist. Die Näherung ist umso besser, je größer n1 und n2 ist. Nach einer Empfehlung in Sachs & Hedderich (2006) soll
min(n1 , n2 ) ≥ 25, n p̂ ≥ 1 und n(1 − p̂) ≥ 1 sein. Dabei ist p̂ = (h11 + h12 )/(n1 + n2 ). Die Approximation wird verbessert, wenn man eine sogenannte Stetigkeitskorrektur vornimmt. Diese besteht
darin, dass man bei der Berechnung von tgn1 ,n2 die Häufigkeiten h11 und h12 durch h11 + 0.5 bzw.
h12 − 0.5 ersetzt, wenn h11 /n1 < h12 /n2 ist. Ist dagegen h11 /n1 > h12 /n2 setzt man statt h11 und
h12 die korrigierten Werte h11 − 0.5 bzw. h12 + 0.5 ein.
5.6 Vergleiche mit Wahrscheinlichkeiten
369
Formeln:
P = Φ(tgn1 ,n2 ) < α bzw. tgn1 ,n2 < z1−α ,
δ
G(p1 , p2 ) = Φ −z1−α/2 − p
und
1/n1 + 1/n2
n∗ =
2(z1−α + z1−β )2
δ2
(5.36a)
(5.36b)
(5.36c)
Beispiel 5.22.
Die Kräuselkrankheit ist eine Pilzerkrankung, die u.a. an Pfirsichbäumen zu beobachten ist. In einer Studie wurden zur Bekämpfung des Pilzbefalls zwei Produkte M1 und M2 eingesetzt. Mit dem Produkt M1 konnten der Befall an 178
von 265 Bäumen gestoppt werden. Der Einsatz des Mittels M2 war in 226 von
304 Fällen erfolgreich. Wir prüfen auf 5%igem Niveau, ob das Mittel M1 weniger erfolgreich ist als das Mittel M2 . Dazu werden die Hypothesen H0 : p1 ≥ p2
gegen H1 : p1 < p2 formuliert, in denen p1 und p2 die Erfolgswahrscheinlichkeiten der Spritzmittel M1 bzw. M2 sind.
Der Angabe entnimmt man n1 = 265, h11 = 178, n2 = 304, h12 = 226. Damit
findet man die Schätzwerte p̂1 = h11 /n1 = 0.6717 und p̂2 = h12 /n2 = 0.7434
für die Wahrscheinlichkeiten p1 bzw. p2 . Die Stetigkeitskorrektur verlangt, wegen p̂1 < p̂2 die Häufigkeit h11 auf h11 + 0.5 = 178.5 zu vergrößern und die
Häufigkeit h12 auf h12 − 0.5 = 225.5 zu verkleinern. Mit den so veränderten
Häufigkeiten berechnet man die Realisierung tgn1 ,n2 = −1.787. Der P-Wert ist
P = Φ(tgn1 ,n2 ) = 3.70%. Somit kann H0 wegen P < α = 5% auf 5%igem Testniveau abgelehnt und eine Entscheidung für H1 getroffen werden.
Der beobachtete Anteil der mit dem Mittel M1 erfolgreich behandelten Bäume war um | p̂1 − p̂2 | = 0.1579 kleiner als der entsprechende, mit M2 behandelte
Anteil. Nehmen wir an, dass M2 das Kontrollpräparat und M1 das Testpräparat
ist. Wir wollen wissen, welche Sicherheit die Versuchsanlage (2 Parallelstichproben mit n1 = 265 bzw. n2 = 304) bietet, mit dem auf 5%igem Niveau geführten Test eine kleinere Unterschreitung der Erfolgswahrscheinlichkeit p2 , z.B.
die Unterschreitung |p1 − p2 | = 0.05 zu erkennen. Dazu schätzen wir p2 durch
p̂2 = 0.7434 und setzen p1 = p̂2 − δ = 0.6934. Setzt man α = 0.05, n1 = 265,
√
√
n2 = 304 und δ = 2 arcsin p1 − 2 arcsin p2 = −0.1113 in (5.36b) ein, folgt
die (geringe) Power G(p1 , p2 ) = 37.41%. Die Umfänge der Parallelstichproben
müssten auf n1 = n2 = 1000 erhöht werden, um eine Power von über 80% zu
erhalten.
In der folgenden Lösung mit R wurde der P-Wert mit (5.36a) und zusätzlich mit der R-Funktion prop.test() bestimmt. Die Berechnung der Power
erfolgte mit (5.36b) sowie mit der R-Funktion pwr.2p2n.test() aus dem
Paket “pwr” (Basic Functions for Power Analysis).
>
>
>
>
# Lö s u n g m i t R :
n1 <− 2 6 5 ; n2 <− 3 0 4 ; h11 <− 1 7 8 ; h12 <− 226
pd1 <− h11 / n1 ; pd2 <− h12 / n2 # Sch ä t z w e r t e f ü r p1 und p2
n <− n1+n2 ; pd <− ( h11+h12 ) / n
370
5 Schätzen und Testen
> p r i n t ( c b i n d ( pd1 , pd2 , pd ) , d i g i t s = 4 )
pd1
pd2
pd
[ 1 , ] 0.6717 0.7434 0.71
> # H0 : p1 >= p2 v s . H1 : p1 < p2
> # B e r e c h n u n g d e s P−W e r t s m i t ( 5 . 3 6 a )
> # Üb e r p r ü f u n g d e r V o r a u s s e t z u n g
> min ( n1 , n2 ) >=25 & n∗pd >1 & n∗(1− pd ) >1
[ 1 ] TRUE
> # Stetigkeitskorrektur
> i f ( pd1 < pd2 ) { h11 <− h11 + 0 . 5 ; h12 <− h12 −0.5}
> i f ( pd1 > pd2 ) { h11 <− h11 − 0 . 5 ; h12 <− h12 + 0 . 5 }
> mu1d <− 2∗ a s i n ( s q r t ( h11 / n1 ) ) ; mu2d <− 2∗ a s i n ( s q r t ( h12 / n2 ) )
> t g <− ( mu1d−mu2d ) / s q r t ( 1 / n1 + 1 / n2 ) ; P <− pnorm ( t g )
> # B e r e c h n u n g d e s P−W e r t s m i t p r o p . t e s t ( )
> h11 <− 1 7 8 ; h12 <− 226
> V <− m a t r i x ( c ( h11 , n1−h11 , h12 , n2−h12 ) , n c o l = 2)
> P p r o p <− p r o p . t e s t (V, a l t e r n a t i v e =" l e s s " ) $p . v a l u e
> p r i n t ( cbind ( tg , P , Pprop ) , d i g i t s =4)
tg
P
Pprop
[ 1 , ] −1.787 0 . 0 3 6 9 9 0 . 0 3 6 8 7
> # B e r e c h n u n g d e r Power m i t ( 5 . 3 6 b )
> # Verwendete Parameter
> n1 <− n2 <− 1 0 0 0 ; p1 <− pd2 − 0 . 0 5 ; p2 <− pd2 ; a l p h a <− 0 . 0 5
> z a l p h a <− qnorm (1− a l p h a )
> d e l t a <− 2∗ a s i n ( s q r t ( p1 )) −2∗ a s i n ( s q r t ( p2 ) )
> G <− pnorm(− z a l p h a −d e l t a / s q r t ( 1 / n1 + 1 / n2 ) )
> # B e r e c h n u n g m i t d e r Power m i t pwr . 2 p2n . t e s t ( )
> l i b r a r y ( pwr )
> d e l t a <−ES . h ( p1 , p2 )
> Gpwr<−pwr . 2 p2n . t e s t ( h = d e l t a , n1 = n1 , n2 = n2 ,
+
s i g . l e v e l = 0 . 0 5 , a l t e r n a t i v e = " l e s s " ) $power
> p r i n t ( c b i n d ( d e l t a , G, Gpwr ) , d i g i t s = 4 )
delta
G
Gpwr
[ 1 , ] −0.1113 0 . 8 0 0 4 0 . 8 0 0 4
c) Vergleich von zwei Wahrscheinlichkeiten mit abhängigen Stichproben. Es
sei A wieder ein binäres Merkmal mit den Werten a1 und a2 . Das Merkmal kann
z.B. das Auftreten einer Nebenwirkung und die Merkmalswerte „ja“ bzw. „nein“
bedeuten. Im Unterschied zu den in den Punkten a) und b) betrachteten Versuchsanlagen, wird das Merkmal zweimal an n Untersuchungseinheiten beobachtet, einmal
unter der Versuchsbedingung 1 und dann unter der Versuchsbedingung 2. Die Versuchsbedingungen können zwei verschiedene Behandlungen (z.B. zwei Präparate)
oder zwei Zustände (z.B. vor und nach einer Behandlung) sein. Das Merkmal A
unter den Versuchsbedingungen 1 und 2 bezeichnen wir mit A1 bzw. A2 .
Das statistische Modell zur Generierung der Merkmalswerte besteht nun aus
zwei voneinander abhängigen Experimenten mit jeweils zwei Ausgängen. Die Ausgänge des ersten und zweiten Experimentes entsprechen den Ereignissen A1 = a1
und A1 = a2 bzw. A2 = a1 und A2 = a2 . Der Ausgang beider Experimente kann kurz
durch eines der möglichen Wertepaare (a1 , a1 ), (a1 , a2 ), (a2 , a1 ), (a2 , a2 ) dargestellt
werden, in denen der erste Wert zu A1 und der zweite zu A2 gehört. Das Wertepaar
(ai , a j ) (i, j = 1, 2) möge mit der Wahrscheinlichkeit pi j = P(A1 = ai ∩ A2 = a j )
5.6 Vergleiche mit Wahrscheinlichkeiten
371
auftreten. Die Wahrscheinlichkeiten pi j sind in Tabelle 5.2a in einer Vierfeldertafel zusammengefasst. Die Experimente werden n-mal ausgeführt. Dabei werden die
absoluten Häufigkeiten hi j (i, j = 1, 2) der Wertepaare (ai , a j ) beobachtet. Diese
werden meist in Form der Vierfeldertafel in Tabelle 5.2b angeschrieben.
Tabelle 5.2 Vierfeldertafeln zum Vergleich der Wahrscheinlichkeiten p1. und p.1 mit abhängigen
Stichproben. In der Tabelle a) sind die Wahrscheinlichkeiten der Ausgänge (ai , a j ) (i, j = 1, 2) mit
den Zeilen- und Spaltensummen dargestellt. Die Tabelle b) enthält die beobachteten Häufigkeiten
der insgesamt n Wertepaare.
a) Wahrscheinlichkeiten
b) Häufigkeiten
A2
A1
a1
a2
Σ
a1
p11
p21
p.1
a2
p12
p22
p.2
Σ
p1.
p2.
1
A1
a1
a2
A2
a1 a2
h11 h12
h21 h22
Mit einem geeigneten Test soll geprüft werden, ob sich die Wahrscheinlichkeiten p1. = P(A1 = a1 ) = p11 + p12 und p.1 = P(A2 = a1 ) = p11 + p21 unterscheiden.
Dementsprechend werden die Hypothesen H0 : p1. = p.1 gegen H1 : p1. 6= p.1 formuliert. Die Nullhypothese ist genau dann erfüllt, wenn p11 + p12 = p11 + p21 , d.h.
p12 = p21 oder p∗12 = p∗21 mit p∗12 = p12 /(p12 + p21 ) und p∗21 = p21 /(p12 + p21 )
gilt. Dabei bedeuten p∗12 und p∗21 die Wahrscheinlichkeiten der Ergebnisse (a1 , a2 )
bzw. (a2 , a1 ) unter Beschränkung auf die Ausgänge (a1 , a2 ) und (a2 , a1 ). Wegen
p∗12 + p∗21 = 1 ist p∗12 = p∗21 gleichwertig mit p∗12 = 1/2. Somit kann das ursprüngliche Testproblem mit den Hypothesen H0 : p1. = p.1 gegen H1 : p1. 6= p.1 auf einen
Vergleich der Wahrscheinlichkeit p∗12 mit dem Sollwert p0 = 1/2 zurückgeführt
werden.
Wir nehmen die Prüfung der Hypothesen H0 : p∗12 = 1/2 gegen H1 : p∗12 6= 1/2
mit dem 2-seitig geführten, exakten Binomialtest vor. Die Testgröße ist die Häufigkeit H12 des Wertepaares (a1 , a2 ). Die Beobachtungsdaten bestehen aus n Wertepaaren der Variablen A1 und A2 . Unter der Nullhypothese ist H12 binomialverteilt
mit den Parametern n∗ und p∗12 = 1/2. Der Parameter n∗ ist gleich der beobachteten Anzahl h12 + h21 von Wertepaaren mit ungleichen Elementen. Nach Abschnitt
5.4.1 ist der P-Wert gleich der Summe der Binomialwahrscheinlichkeiten Bn∗ ,0.5 (x)
(x = 1, 2, . . . , n∗ ), die gleich oder kleiner als Bn∗ ,0.5 (h12 ) sind. Die Nullhypothese
wird auf dem Testniveau α abgelehnt, wenn P < α gilt.
Bei großem n∗ kann die Berechnung des P-Werts näherungsweise mit der Formel
|h12 − h21 | − 1
P = 1 − F1 (tgn∗ ) mit tgn∗ =
h12 + h21
∗
2
(5.37)
372
5 Schätzen und Testen
erfolgen. Hier ist F1 die Verteilungsfunktion der χ 2 -Verteilung mit einem Freiheitsgrad. Die Testentscheidung mit dem P-Wert (5.37) wird als McNemar-Test bezeichnet.44
Beispiel 5.23.
Zur Feststellung einer Erkrankung stehen zwei diagnostische Verfahren V1 und
V2 zur Verfügung. In einer Vergleichsstudie wurden die Verfahren auf 250 Patienten aus einer bestimmten Zielpopulation angewendet. Von diesen wurden
175 Personen in beiden Verfahren positiv und 23 Personen negativ getestet. Ein
positives Ergebnis bei V1 und ein negatives bei V2 trat bei 34 Personen auf, ein
negatives bei V1 und ein positives bei V2 bei 18 Personen.
Es seien p1. und p.1 die Wahrscheinlichkeiten, dass der Test V1 bzw. V2 positiv ausfällt. Will man wissen, ob sich diese Wahrscheinlichkeiten unterscheiden,
formuliert man die Hypothesen H0 : p1. = p.1 gegen H1 : p1. 6= p.1 und legt das
Testniveau α (z.B. α = 5%) fest. Mit den gegebenen Häufigkeiten h12 = 34
und h21 = 18 erhält man n∗ = 52 und Bn∗ ,0.5 (h12 ) = 0.009475. Indem man von
den Binomialwahrscheinlichkeiten Bn∗ ,0.5 (x) (x = 0, 1, . . . , n∗ ) jene summiert,
die kleiner oder gleich Bn∗ ,0.5 (h12 ) sind, ergibt sich P = 0.03648. Somit kann
die Annahme gleicher Wahrscheinlichkeiten p1. und p.1 auf 5%igem Testniveau
verworfen werden.
Die Voraussetzung n∗ > 36 für die Lösung des Testproblems mit dem
McNemar-Test ist (knapp) nicht erfüllt. Zum Vergleich berechnen wir trotzdem den P-Wert näherungsweise mit (5.37). Mit tgn∗ = 4.327 erhält man
P∗ = 0.3751. Der näherungsweise P-Wert ist um knapp 3% kleiner als der exakte.
>
>
>
>
>
>
# Lö s u n g m i t R :
h11 <− 1 7 5 ; h22 <− 2 3 ; h12 <− 3 4 ; h21 <− 18
n s <− h12+h21 ; n <− n s +h11+h22
# H0 : p s 1 2 = 0 . 5 g e g e n H1 : p s 1 2 <> 0 . 5
# E x a k t e B e r e c h n u n g von P m i t d e r F u n k t i o n binom . t e s t ( )
binom . t e s t ( h12 , ns , 0 . 5 )
Exact binomial t e s t
d a t a : h12 and n s
number o f s u c c e s s e s = 3 4 , number o f t r i a l s = 5 2 ,
p−v a l u e = 0 . 0 3 6 4 8
alternative hypothesis :
t r u e p r o b a b i l i t y of success i s not equal to 0.5
95 p e r c e n t c o n f i d e n c e i n t e r v a l :
0.5091439 0.7803421
sample e s t i m a t e s :
p r o b a b i l i t y of success
0.6538462
> # B e r e c h n u n g von P∗ m i t d e r F u n k t i o n mnemar . t e s t ( )
> V <− m a t r i x ( c ( h11 , h21 , h12 , h22 ) , n c o l = 2)
> c o l n a m e s (V) = c ( " A2= a1 " , "A2= a2 " )
44 In R wird der McNemar-Test mit der Funktion mcnemar() ausgeführt. Die Abweichung des
P-Werts (5.37) vom exakten P-Wert bleibt in vertretbaren Grenzen, wenn n∗ > 36 ist.
5.7 Ergänzungen
373
> rownames (V) <− c ( " A1= a1 " , "A1= a2 " ) ; V
A2= a1 A2= a2
A1= a1
175
34
A1= a2
18
23
> mcnemar . t e s t (V)
McNemar ’ s Chi−s q u a r e d t e s t w i t h c o n t i n u i t y c o r r e c t i o n
data : V
McNemar ’ s c h i −s q u a r e d = 4 . 3 2 6 9 , d f = 1 , p−v a l u e = 0 . 0 3 7 5 1
Aufgaben
1. Ein Medikament gegen Kopfschmerzen führt in 55% der Anwendungsfälle innerhalb einer halben Stunde zu einem Erfolg. Ein neues Präparat wurde an 20
zufällig ausgewählten Personen erprobt, von denen 15 innerhalb einer halben Stunde schmerzfrei wurden. Auf Grund der Daten wurde behauptet, dass
sich die Erfolgswahrscheinlichkeit des neuen Präparates von der des alten unterscheidet. Man prüfe die Behauptung auf 5%igem Testniveau.
2. Man bestimme mit Hilfe eine Simulationsexperimentes die Power (also die
Wahrscheinlichkeit eines signifikanten Testergebnisses) für die Versuchsanlage
in Beispiel 5.21 (n1 = 32, n2 = 30, α = 5%), wenn die wahren Wahrscheinlichkeiten p1 = 0.3 und p2 = 0.5 vorgegeben sind.
3. In einer Studie ist am Beginn und am Ende einer Behandlung ein Blutbild vorgesehen. Für einen Parameter ergab sich, dass bei 32 Probanden der Wert vor
und nach Ende der Studie im Normbereich (NB) lag, bei 22 Probanden lag der
Wert vorher im NB und nachher außerhalb, bei 9 Probanden vorher außerhalb
und nachher im NB und bei 7 vorher und nachher außerhalb des NB. Man prüfe, ob sich die Wahrscheinlichkeit, dass der Parameter im Normbereich liegt,
im Verlaufe der Behandlung geändert hat. Als Signifikanzniveau nehme man
α = 5% an.
5.7 Ergänzungen
5.7.1 Ergänzungen zum 1-Stichproben t-Test
a) Die Näherungsformel (5.14b) für den Mindeststichprobenumfang. Der Wert
Ff ,λ (x) der Verteilungsfunktion der nichtzentralen t-Verteilung an der Stelle x kann
näherungsweise mit der Formel
Ff ,λ (x) = Φ(x0 ) mit x0 =
x(1 − 0.25/ f ) − λ
p
1 + 0.5x2 / f
374
5 Schätzen und Testen
bestimmt werden, in der Φ die Verteilungsfunktion der N(0, 1)-Verteilung bezeichnet (vgl. Abramowitz & Stegun 1964, S. 949, Formel 26.7.10). Bei großem
Stichprobenumfang und folglich großem Freiheitsgrad f = n − 1 vereinfacht sich
die Näherung weiter und man erhält Ff ,λ (x) ≈ Φ(x − λ ). Ferner ist es vertretbar, das Quantil tn−1,1−α/2 der t-Verteilung näherungsweise
durch das Quantil
√
n
positiv
ist, in (5.14a) den
z1−α/2 der N(0, 1)-Verteilung zu ersetzen und, wenn
ε
√
Term Fn−1,ε √n (−tn−1,1−α/2 ) ≈ Φ(−z1−α/2 − ε n) zu vernachlässigen. Damit geht
√
√
(5.14a) in Φ(z1−α/2 −ε n) ≈ β über. Es folgt z1−α/2 −ε n ≈ zβ = −z1−β , woraus
sich unter Beachtung von δ = εσ unmittelbar die Näherungsformel (5.14b) ergibt.
b) Der P-Wert beim 1-Stichproben t-Test auf Überschreitung. Beim 2-seitigen
t-Test wurde mit dem P-Wert zum Ausdruck gebracht, wie wahrscheinlich es unter
der Annahme H0 : µ = µ0 ist, die beobachtete Realisierung x̄n des Stichprobenmittel
X̄n oder eine weiter von µ0 entfernte zu erhalten. Beim 1-seitigen t-Test mit den
Hypothesen H0 : µ ≤ µ0 gegen H1 : µ > µ0 wird der P-Wert als Wahrscheinlichkeit
berechnet, dass X̄n gleich oder größer als x̄n ist. Dabei ist die Gültigkeit von H0
vorauszusetzen. Dementsprechend nehmen wir an, dass µ irgendein Wert kleiner
oder gleich µ0 ist. Dann ist der (von µ abhängige) P-Wert:
X̄n − µ
x̄ − µ
x̄n − µ
√ ≥ n √
√
P(µ) = P(X̄n ≥ x̄n ) = P
= 1 − Fn−1
Sn / n sn / n
sn / n
Hier sind x̄n und sn das arithmetische Mittel bzw. die Standardabweichung der konkret beobachteten Zufallsstichprobe vom Umfang n. Wenn die Grundgesamtheit X
mit den Parametern µ und σ 2 normalverteilt ist, ist Fn−1 die Verteilungsfunktion
der t-Verteilung mit f = n − 1 Freiheitsgraden. Mit wachsendem µ nimmt die Verteilungsfunktion Fn−1 monoton ab und folglich der P-Wert monoton zu. Der P-Wert
ist also am größten, wenn µ den oberen Randwert µ0 der unter H0 zulässigen Werte annimmt. Für die Testentscheidung bedeutet dies, dass wir die Nullhypothese
H0 : µ ≤ µ0 auf dem Signifikanzniveau α ablehnen können, wenn P = P(µ0 ) < α
gilt. Damit kann die Nullhypothese beim t-Test auf Überschreitung auf die einfache
Hypothese H0 : µ = µ0 (also auf den ungünstigsten Fall) reduziert werden.
5.7.2 Ein Algorithmus zur Berechnung der Testgröße und des
P-Werts des Shapiro-Wilk-Tests
In der R-Funktion shapiro.test() kommt ein Algorithmus zur Anwendung,
der von P. Royston vorgeschlagen wurde.45 Es sei xi (i = 1, 2, . . . , n) eine (nach aufsteigender Größe angeordnete) Zufallsstichprobe aus der Grundgesamtheit X. Nach
dem Algorithmus von Royston wird die Realisierung der Shapiro-Wilk-Testgröße
W durch die Zufallsstichprobe in der Form
45
Vgl. Royston, P.: Approximating the Shapiro-Wilk W-test for normality. Statistics and Computing 2, 117-119 (1992)
5.7 Ergänzungen
375
2
∑ni=1 ai xi
w= n
∑i=1 (xi − x̄)2
(5.38)
angesetzt. Hier ist x̄ das arithmetische Mittel der Stichprobenwerte. Die ai sind Konstante, die für n > 5 näherungsweise mit den folgenden Formeln bestimmt werden:
an = −a1 = cn + 0.221157u − 0.147981u2 − 2.071190u3
+ 4.434685u4 − 2.706056u5 ,
an−1 = −a2 = cn−1 + 0.042981u − 0.293762u2 − 1.752461u3
+ 5.682633u4 − 3.582663u5 ,
s
1 − 2a2n − 2a2n−1
ai = ci
(i = 3, 4, . . . , n − 2)
1 − 2c2n − 2c2n−1
(5.39a)
√
Dabei ist u = 1/ n und
ẑi
mit ẑi = Φ
ci = q
∑nj=1 ẑ2j
−1
i − 0.375
n + 0.25
(i = 1, 2, . . . , n).
Die Größen ẑi sind also die Quantile der Standardnormalverteilung zu den Wahrscheinlichkeiten p̂i = (i − 0.375)/(n + 0.25). Die Testgröße W ist nicht normalverteilt. Bei „großem“ Stichprobenumfang (n ≥ 12) kann man aber die Verteilung von
Wg = ln(1 −W ) und bei „kleinem“ Stichprobenumfang (4 ≤ n ≤ 11) die Verteilung
von Wk = − ln [−2.273 + 0.459n − ln (1 −W )] durch eine Normalverteilung approximieren, wenn die Verteilungsparameter wie folgt gewählt werden (v = ln n):
µWg = −1.5861 − 0.31082v − 0.083751v2 + 0.0038915v3
σWg = exp −0.4803 − 0.082676v + 0.0030302v2
µWk = 0.5440 − 0.39978n + 0.025054n2 − 0.0006714n3
σWk = exp 1.3822 − 0.77857n + 0.062767n2 − 0.0020322n3
(5.39b)
Die Normalverteilungsapproximation erlaubt es, den P-Wert näherungsweise im
Falle n ≥ 12 als Funktionswert Fg (wg ) der Verteilungsfunktion Fg der N(µg , σg2 )Verteilung an der Stelle wg = ln(1 − w) zu berechnen. Analog ist der P-Wert im
Falle 4 ≤ n ≤ 11 gleich dem Wert Fk (wk ) der Verteilungsfunktion Fk der N(µk , σk2 )Verteilung an der Stelle wk = − ln [−2.273 + 0.459n − ln (1 − w)].
Beispiel 5.24.
Wir rechnen mit den Formeln (5.39a, b) den im Beispiel 5.13 mit der RFunktion shapiro.test ermittelten Wert der Testgröße W sowie den P-Wert
nach. Die (bereits nach aufsteigender Größe geordnete) Zufallsstichprobe ist:
1.56, 1.91, 1.93, 2.04, 2.07, 2.11, 2.18, 2.26, 2.28, 2.32, 2.49, 2.51
376
5 Schätzen und Testen
> # Lö s u n g m i t R :
> o p t i o n s ( d i g i t s =5)
> x <− s o r t ( c ( 1 . 5 6 , 1 . 9 1 , 1 . 9 3 , 2 . 0 4 , 2 . 0 7 , 2 . 1 1 ,
+
2.18 , 2.26 , 2.28 , 2.32 , 2.49 , 2.51))
> # B e r e c h n u n g von W
> n <− l e n g t h ( x ) # V o r a u s s e t z u n g n > 5
> x q u e r <− mean ( x )
> i <− 1 : n ; pd <− ( i − 0 . 3 7 5 ) / ( n + 0 . 2 5 )
> zd <− qnorm ( pd ) # Q u a n t i l e d e r N( 0 ,1 ) − V e r t e i l u n g
> sumzd2 <− sum ( zd ^ 2 ) # Summe d e r Q u a d r a t e d e r Q u a n t i l e
> u <− 1 / s q r t ( n ) # H i l f s g r öß e u
> c <− zd / s q r t ( sumzd2 ) # V e k t o r m i t den c _ i
> an <− c [ n ] + 0 . 2 2 1 1 5 7 ∗ u −0.147981∗ u ^2 −2.071190∗ u ^3+
+
4 . 4 3 4 6 8 5 ∗ u ^4 −2.706056∗ u ^5
> anm1 <− c [ n −1]+0.042981∗ u −0.293762∗ u ^2 −1.752461∗ u ^3+
+
5 . 6 8 2 6 3 3 ∗ u ^4 −3.582663∗ u ^5
> i f ( n > 5) {
+
a = c ∗ s q r t ((1 −2∗ an ^2−2∗anm1 ^ 2 ) / ( 1 − 2 ∗ c [ n ]^2 −2∗ c [ n − 1 ] ^ 2 ) )
+
a [ n −1] <−anm1 ; a [ 2 ] <− −anm1 ; a [ n ] <−an ; a [ 1 ] <−−an
+
W <− ( a %∗% x ) ^ 2 / ( v a r ( x ) ∗ ( n −1)) # R e a l i s i e r u n g von W
+
# B e r e c h n u n g d e s P−W e r t s
+
i f ( n >=12) {
+
w t r a n s <− l o g (1−W) # t r a n s f o r m i e r t e s W
+
u <− l o g ( n )
+
mu <− −1.5861 −0.31082∗ u −0.083751∗ u ^ 2 + 0 . 0 0 3 8 9 1 5 ∗ u ^3
+
s i g m a <− exp ( −0.4803 −0.082676∗ u + 0 . 0 0 3 0 3 0 2 ∗ u ^ 2 )
+
} else {
+
w t r a n s <− −l o g ( − 2 . 2 7 3 + 0 . 4 5 9 ∗ n−l o g (1−W) ) # t r a n s f o r m .W
+
mu <− 0. 5 44 0 −0.39978∗ n + 0 . 0 2 5 0 5 4 ∗ n ^2 −0.0006714∗ n ^3
+
s i g m a <− exp ( 1 . 3 8 2 2 − 0 . 7 7 8 5 7 ∗ n + 0 . 0 6 2 7 6 7 ∗ n^2−
+
0.0020322∗ n ^3)}
+
P <− 1−pnorm ( w t r a n s , mu , s i g m a ) # P−Wert
+
c a t ( " T e s t g r ö ß e W = " , W, " P−Wert = " , P )
+
} else {
+
p r i n t ( " V o r a u s s e t z u n g n >5 n i c h t e r f ü l l t ! " ) }
T e s t g r ö ß e W = 0 . 9 5 7 3 6 P−Wert = 0 . 7 4 5 6 2
5.7.3 Überprüfung der Varianzhomogenität
a) Der F-Test. Es seien X1 und X2 zwei normalverteilte Zufallsvariable mit den
Varianzen σ12 bzw. σ22 . Gilt σ12 = σ22 , spricht man von Varianzhomogenität. Der
klassische Test zum Vergleich von zwei Varianzen ist der F-Test. Von X1 und X2
mögen zwei unabhängige Stichproben mit den Umfängen n1 bzw. n2 vorliegen. Der
F-Test verwendet das mit den Stichprobenvarianzen S12 und S22 gebildete Verhältnis
T Gn1 ,n2 =
S12 S22
:
σ12 σ22
(5.40)
5.7 Ergänzungen
377
0.0
0.2
Dichte
0.4
0.6
0.8
als Testgröße. Eine Vorstellung über die Verteilung der Testgröße im Fall σ12 = σ22
vermittelt Abb. 5.16. Aus zwei mit gleicher Varianz normalverteilten Grundgesamtheiten X1 und X2 wurde eine große Anzahl B von Parallelstichproben (jeweils mit
den Umfängen n1 bzw. n2 ) erzeugt. Für jede dieser Parallelstichproben werden die
empirischen Varianzen s21 und s22 berechnet und damit das Varianzverhältnis s21 /s22
gebildet. Die Verteilung der so erhaltenen B Varianzverhältnisse lässt sich dann
wie in Abb. 5.16 durch ein Histogramm darstellen. Man erkennt die gute Übereinstimmung mit der strichliert eingezeichneten Kurve, die die Dichtekurve der FVerteilung mit den Parametern f1 = n1 − 1 und f2 = n2 − 1 ist.46 Die F-Verteilung
ist neben der χ 2 - und t-Verteilung die dritte theoretische Verteilung, die bei der Lösung von grundlegenden Schätz- und Testproblemen auftritt. Die Parameter f1 und
f2 der F-Verteilung werden meist erster bzw. zweiter Freiheitsgrad genannt und die
F-Verteilung (bzw. deren Verteilungsfunktion) mit diesen Parametern kurz durch
Ff1 , f2 ausgedrückt.
0
1
2
S12 S22
3
4
5
Abb. 5.16 Histogramm der Varianzverhältnisse von 10000 Parallelstichproben (jeweils mit dem
Umfang n1 = 7 bzw. n2 = 10) aus den Grundgesamtheiten X1 ∼ N(µ1 , σ 2 ) bzw. X2 ∼ N(µ2 , σ 2 )
mit µ1 = 1, µ2 = 2 und σ = 0.7. Die Dichtekurve der F-Verteilung mit den Freiheitsgraden f1 = 6
und f2 = 9 ist strichliert eingezeichnet.
Es seien s21 und s22 die empirischen Varianzen von zwei Parallelstichproben
mit den Umfängen n1 bzw. n2 und tgn1 ,n2 = s21 /s22 die Realisierung der Testgröße T Gn1 ,n2 = S12 /S22 . Der P-Wert des 2-seitigen Testproblems H0 : σ12 = σ22 ge46 Die F-Verteilung mit den Freiheitsgraden f und f ist allgemein als Verhältnis (V / f ) : (V / f )
1
2
1 1
2 2
von zwei, auf die Freiheitsgrade bezogenen Zufallsvariablen V1 ∼ χ 2f1 und V2 ∼ χ 2f2 definiert.
Nach Abschnitt 5.2.1 folgt die mit einer Zufallsstichprobe des Umfangs n1 aus X1 ∼ N(µ1 , σ12 )
gebildete Größe (n1 − 1)S12 /σ12 einer Chiquadratverteilung mit f1 = n1 − 1 Freiheitsgraden. Analog gilt für die mit einer Zufallsstichprobe des Umfangs n2 aus X2 ∼ N(µ2 , σ22 ) gebildete Größe
(n2 −1)S22 /σ22 ∼ χ 2f2 mit f2 = n2 −1. Somit (S12 /σ12 ) : (S22 /σ22 ), also die Testgröße (5.40), F-verteilt
mit den Freiheitsgraden f1 und f2 . Die F-Verteilung wurde nach dem englischen Statistiker Ronald
A. Fisher (1890-1962) benannt, der als einer der Begründer der modernen Statistik gilt.
378
5 Schätzen und Testen
gen H1 : σ12 6= σ22 ist durch P = 2[1 − Fn1 −1,n2 −1 (tgn1 ,n2 )] gegeben, wenn s21 > s22
ist, andernfalls durch P = 2Fn1 −1,n2 −1 (tgn1 ,n2 ). Die Größe Fn1 −1,n2 −1 bezeichnet
die Verteilungsfunktion der F-Verteilung mit den Freiheitsgraden f1 = n1 − 1 und
f2 = n2 − 1. Ist das so berechnete P < α, wird die Nullhypothese auf dem Niveau
α abgelehnt. Beim 1-seitigen F-Test mit den Hypothesen des H0 : σ12 ≤ σ22 gegen
H1 : σ12 > σ22 ist der P-Wert durch P = 1 − Fn1 −1,n2 −1 (tgn1 ,n2 ) gegeben. Das Kriterium für die Ablehnung von H0 (auf dem Testniveau α) ist wie beim 2-seitigen
F-Test P < α.
Beispiel 5.25.
Im Beispiel 5.16 wurden zwei Mittelwerte mit dem 2-Stichproben-t-Test verglichen und dabei vorausgesetzt, dass die Varianzen σ12 und σ22 der Grundgesamtheiten X1 bzw. X2 gleich sind. Wir überprüfen nun die Varianzhomogenität
mit dem F-Test. Dabei hat wie bei der Überprüfung der Normalverteilungsannahme der Test den Charakter eines Falsifizierungsversuchs: Die Gleichheit der
Varianzen wird als Nullhypothese H0 : σ12 = σ22 formuliert. Kann sie mit den
gegebenen Daten auf dem spezifizierten Testniveau α (z.B. α = 10%) nicht
abgelehnt werden, behalten wir H0 bei. Aus (5.40) erhält man bei Gültigkeit
von H0 die Realisierung tg10,10 = s21 /s22 = 0.97893 < 1. Als P- Wert erhält man
P = 2Fn1 −1,n2 −1 (tg) = F9,9 (0.97893) = 97.52%. Der P-Wert ist deutlich größer
als α = 10%. Die Daten sprechen nicht gegen die angenommene Gleichheit der
Varianzen.
>
>
>
>
>
# Lö s u n g m i t R :
x1 <− c ( 1 5 , 2 1 , 2 5 , 1 8 , 1 7 , 1 8 , 1 4 , 1 7 , 1 6 , 2 0 )
x2 <− c ( 2 4 , 2 6 , 2 2 , 2 0 , 2 0 , 2 3 , 1 7 , 1 6 , 2 3 , 1 8 )
# H0 : s i g m a 1 ^2 = s i g m a 2 ^2 v s . H1 : s i g m a 1 ^2 <> s i g m a 2 ^2
v a r . t e s t ( x1 , x2 )
F t e s t t o compare two v a r i a n c e s
d a t a : x1 and x2
F = 0 . 9 7 8 9 3 , num d f = 9 , denom d f = 9 , p−v a l u e = 0 . 9 7 5 2
alternative hypothesis :
t r u e r a t i o of v a r i a n c e s i s not equal to 1
95 p e r c e n t c o n f i d e n c e i n t e r v a l :
0.2431512 3.9411471
sample e s t i m a t e s :
r a t i o of v a r i a n c e s
0.9789252
b) Vergleich zweier Mittelwerte mit dem F-Test. Die Bedeutung des F-Tests
liegt weniger darin, dass er als Vortest in Verbindung mit dem 2-Stichproben-t-Test
eingesetzt wird.47 Vielmehr können mit dem (1-seitigen) F-Test auch Mittelwerte
von (mit gleichen Varianzen) normalverteilten Zufallsvariablen verglichen werden.
47
Wenn man überhaupt einen Vortest zur Überprüfung der Varianzhomogenität durchführt und im
Zweifelsfalle nicht gleich den Welch-Test anwendet, wird heute dafür der Levene-Test wegen seiner Robustheit gegenüber Abweichungen von der Normalverteilung empfohlen. Dieser Test wird
im nächsten Unterpunkt behandelt.
5.7 Ergänzungen
379
Wie man das macht, sei an Hand des Vergleichs der Mittelwerte µ1 und µ2 von zwei
Zufallsvariablen gezeigt. Die zu prüfenden Hypothesen mögen also H0 : µ1 = µ2
und H1 : µ1 6= µ2 lauten.
Den Ausgangspunkt bildet die Testgröße (5.24) des 2-Stichproben-t-Tests. Das
Quadrat der Testgröße kann auf die Gestalt
T G2n1 ,n2
=
n1 n2
n1 +n2
X̄1 − X̄2
S2
2
=
n1 (X̄1 − X̄)2 + n2 (X̄2 − X̄)2
S2
(5.41)
gebracht werden. Die Größe X̄ = (n1 X̄1 + n2 X̄2 )/(n1 + n2 ) ist das Stichprobenmittel
aus beiden Parallelstichproben. Die Umformung lässt erkennen, dass die quadrierte
Testgröße T G2n1 ,n2 als Verhältnis von zwei Varianzen dargestellt werden kann. Im
Nenner steht das mit den Gewichten n1 − 1 und n2 − 1 gebildete Mittel
S2 =
(n1 − 1)S12 + (n2 − 1)S22
n1 + n2 − 2
der Stichprobenvarianzen S12 und S22 . Den Zähler kann man als Streuung der in die jeweiligen Gruppenmittel verlegten Stichprobenwerte beider Parallelstichproben um
das Gesamtmittel interpretieren. Wie man zeigen kann, ist der Mittelwert der Nennervarianz gleich der Varianz σ 2 der Grundgesamtheit. Dagegen ist der Mittelwert
der Zählervarianz durch
2
n1 n2
σ2 +
µ1 − µ2
n1 + n2
gegeben, also gleich σ 2 , wenn H0 gilt, andernfalls größer als σ 2 . Unter H0 ist daher
eine nur wenig von eins abweichende Realisierung tg2n1 ,n2 der Testgröße (5.41) zu
erwarten. Liegt tg2n1 ,n2 deutlich über eins, so weist dies auf voneinander verschiedene Mittelwerte der Grundgesamtheit hin. Wann eine Überschreitung tg2n1 ,n2 > 1 als
deutlich zu betrachten ist, wird mit dem P-Wert P = 1−Ff1 , f2 (tg2n1 ,n2 ) des 1-seitigen
F-Tests entschieden. Dabei ist für den ersten Freiheitsgrad f1 = 1 und für den zweiten Freiheitsgrad f2 = n1 + n2 − 2 zu setzen. Die Nullhypothese H0 : µ1 = µ2 wird
auf dem Testniveau α abgelehnt, wenn P < α gilt.
Beispiel 5.26.
Zur Demonstration des Vergleichs zweier Mittelwerte mit dem 1-seitigen FTest greifen wir wieder auf die Daten des Beispiels 5.16 zurück. Dort wurde
mit dem 2-Stichproben-t-Test auf 5%igem Testniveau festgestellt, dass sich die
Hemmzonen der Antibiotika A1 und A2 hinsichtlich der arithmetischen Mittel
der gemessenen Durchmesser nicht signifikant unterscheiden. Wir zeigen, dass
der 1-seitige F-Test mit der Testgröße (5.41) zum selben P-Wert und daher
zur selben Testentscheidung wie der 2-Stichproben-t-Test führt. Es ist tg210,10 =
(−1.938)2 = 3.757, f1 = 1, f2 = 18 und P < −1 − F9,9 (3.757) = 0.06843 >
0.05.
> # Lö s u n g m i t R :
> x1 <− c ( 1 5 , 2 1 , 2 5 , 1 8 , 1 7 , 1 8 , 1 4 , 1 7 , 1 6 , 2 0 )
380
5 Schätzen und Testen
>
>
>
>
>
>
>
>
>
x2 <− c ( 2 4 , 2 6 , 2 2 , 2 0 , 2 0 , 2 3 , 1 7 , 1 6 , 2 3 , 1 8 )
# H0 : mu1 = mu2 v s . H1 : mu1 <> mu2
n1 <− l e n g t h ( x1 ) ; n2 <− l e n g t h ( x2 ) ; f 1 <− 1 ; f 2 <− n1+n2−2
x q u e r 1 <− mean ( x1 ) ; x q u e r 2 <− mean ( x2 )
v a r 1 <− v a r ( x1 ) ; v a r 2 <− v a r ( x2 )
s 2 <− ( ( n1 −1)∗ v a r 1 + ( n2 −1)∗ v a r 2 ) / f 2
t g 2 <− n1 ∗ n2 / ( n1+n2 ) ∗ ( x q u e r 1 −x q u e r 2 ) ^ 2 / s 2
P <− 1− p f ( t g 2 , f1 , f 2 )
p r i n t ( cbind ( xquer1 , xquer2 , tg2 , P ) , d i g i t s =4)
xquer1 xquer2
tg2
P
[1 ,]
18.1
20.9 3.757 0.06843
Der Ansatz, mit dem F-Test zwei Mittelwerte zu vergleichen, kann auch auf den
Vergleich von mehr als zwei Mittelwerten übertragen werden. Dies erfolgt im Rahmen des Globaltests der 1-faktoriellen Varianzanalyse, die ein wichtiges Instrument
der Versuchsplanung ist.
c) Der Levene-Test. Prüft man in Verbindung mit dem 2-Stichproben-t-Test die
Homogenität der Varianzen, so verwendet man dazu meist den Levene-Test, der robuster gegenüber Abweichungen von der Normalverteilungsannahme ist als der FTest.48 Die Durchführung ist einfach. Es seien x11 , x21 , . . . , xn1 1 und x12 , x22 , . . . , xn2 2
die gemessenen Werte der Parallelstichproben unter der Versuchsbedingung 1 bzw.
2. Wir bestimmen die arithmetischen Mittel x̄1 und x̄2 der Parallelstichproben und
bilden die Stichproben zi1 = |xi1 − x̄1 | und zi2 = |xi2 − x̄2 | (i = 1, 2, . . . , ni ), in dem wir
von jedem Einzelwert den entsprechenden Gruppenmittelwert abziehen und davon
den Betrag nehmen. Die arithmetischen Mittel z̄1 und z̄2 der z-Stichproben kann man
als Maß für die mittlere Streuung der Originalwerte um den jeweiligen Gruppenmittelwert ansehen. Gibt es zwischen den Varianzen der Originalstichproben einen
deutlichen Unterschied, werden sich auch die arithmetischen Mittel z̄1 und z̄2 unterscheiden. Ob der Unterschied auf einem vorgegebenem Niveau α signifikant ist,
kann mit dem auf die z-Stichproben angewandten 2-Stichproben-t-Test entschieden
werden.
Beispiel 5.27.
Die folgende Lösung mit R zeigt die Durchführung des Levene-Tests als 2Stichproben-t-Test mit den z-Stichproben, also den mit den jeweiligen Gruppenmittelwerten zentrierten und absolut genommenen Stichprobenwerten. Die
Originalstichproben sind die gleichen wie im Beispiel 5.25, als Testniveau sei
α = 10% vereinbart. Wegen P = 0.6649 ≥ 0.1 wird die angenommene Varianzhomogenität beibehalten.
>
>
>
>
>
>
48
# Lö s u n g m i t R :
x1 <− c ( 1 5 , 2 1 , 2 5 , 1 8 , 1 7 , 1 8 , 1 4 , 1 7 , 1 6 , 2 0 )
x2 <− c ( 2 4 , 2 6 , 2 2 , 2 0 , 2 0 , 2 3 , 1 7 , 1 6 , 2 3 , 1 8 )
# H0 : s i g m a 1 ^2 = s i g m a 2 ^2 v s . H1 : s i g m a 1 ^2 <> s i g m a 2 ^2
z1 <− a b s ( x1−mean ( x1 ) ) ; z2 <− a b s ( x2−mean ( x2 ) )
P <− t . t e s t ( z1 , z2 , v a r . e q u a l =T ) $p . v a l u e
Der Test ist nach dem US-amerikanischen Biostatistiker und Genetiker Howard Levene
(1914–2003) benannt.
5.7 Ergänzungen
381
> p r i n t ( P , d i g i t s =4)
[ 1 ] 0.6649
5.7.4 Ergänzungen zum Binomialtest
a) Herleitung der Formel (5.29a). Es sei H die Anzahl der Versuchsausgänge
mit dem Ergebnis E bei n Bernoulli-Experimenten.
Wie in Abschnitt 5.6.2 ausp
geführt wurde, ist die Größe Y = 2 arcsin H/n eine näherungsweise N(µ, σ 2 )√
verteilte Zufallvariable mit dem Mittelwert µ = µ(p) = 2 arcsin p und der Varianz
σ 2 = 1/n. Das 2-seitige Testproblem H0 : p = p0 gegen H1 : p 6= p0 kann im Rahmen dieser Näherung in einen Mittelwertvergleich mit den Hypothesen H0 : µ = µ0
√
gegen H1 : µ 6= µ0 übergeführt werden. Dabei ist µ0 = µ0 (p0 ) = 2 arcsin p0 .
Zum Vergleich des Mittelwerts µ von Y mit dem Sollwert µ0 wird die Testgröße
T Gn =
√
Yn − µ0
= Y − µ0 n
σ
(5.42a)
verwendet. Diese ist bei Gültigkeit von H0 : µ = µ0 standardnormalverteilt. Mit dem
konkret beobachteten Wert h von H ergibt sich als Realisierung der Testgröße:
p
√ √
tgn = 2 arcsin h/n − 2 arcsin p0 n
Den P-Wert berechnet man aus:
P = P T Gn < −|tgn | + P T Gn > |tgn
= Φ −|tgn | + 1 − Φ |tgn | = 2 1 − Φ |tgn |
(5.42b)
Φ bezeichnet die Verteilungsfunktion der N(0, 1)-Verteilung. Zu vorgegebenem α
wird H0 : µ = µ0 zugunsten H1 : µ 6= µ0 abgelehnt, wenn P < α ist. Ein damit
gleichwertiges Kriterium für die Ablehnung von H0 ist |tgn | > z1−α/2 . Die Größe
z1−α/2 ist das (1 − α/2)-Quantil der Standardnormalverteilung.49
Der Wert G(p) der Gütefunktion des 2-seitigen Binomialtest an der Stelle p ist
gleich der Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn der wahre Mittelwert gleich p ist:
G(p) = P(T Gn < −z1−α/2 ) + P(T Gn > z1−α/2 )
√ √
= P [Y − µ(p)] n < −z1−α/2 − [µ(p) − µ0 (p0 )] n
√
√ + P [Y − µ(p)] n > z1−α/2 − [µ(p) − µ0 (p)] n
√ √ = Φ −z1−α/2 − [µ(p) − µ0 (p0 )] n + 1 − Φ z1−α/2 − [µ(p) − µ0 (p0 )] n
√ √ = Φ −z1−α/2 − [µ(p) − µ0 (p0 )] n + Φ −z1−α/2 + [µ(p) − µ0 (p0 )] n
49 Setzt man in (5.42b) P = α, ergibt sich Φ(|tg |) = 1 − α/2, d.h. |tg | = z
n
n
1−α/2 . Es ist |tgn | >
z1−α/2 genau dann, wenn P < α.
382
5 Schätzen und Testen
Schreibt man hier δ für µ(p) − µ0 (p0 ) = 2 arcsin
√
p − 2 arcsin
√
p0 , folgt (5.29a).
b) Das Clopper-Pearson-Konfidenzintervall für p. Ergänzend zum P-Wert wird
in der R-Funktion binom.test() das Clopper-Pearson-Konfidenzintervall angegeben.50 Bei diesem sind die untere Grenze UC und die obere Grenze OC so gewählt,
dass die Überdeckungswahrscheinlichkeit C = P(UC ≤ p ≤ OC ) für kein zulässiges p das nominelle Konfidenzniveau 1 − α unterschreitet. Das Niveau kann sogar
deutlich überschritten werden. Eine Folge der höheren Sicherheit ist aber, dass das
Konfidenzintervall größer wird und damit die Genauigkeit der Schätzung kleiner.
Zu vorgegebenem h, n und α erhält man die Realisierungen der Grenzen aus:
hqu
mit qu = F2h,2(n−h+1),α/2 bzw.
n − h + 1 + hqu
(h + 1)qo
mit qo = F2(h+1),2(n−h),1−α/2
oC =
n − h + (h + 1)qo
uC =
(5.43)
Die Größe F2h,2(n−h+1),α/2 ist das α/2-Quantil der F-Verteilung mit den Freiheitsgraden f1 = 2h und f2 = 2(n − h + 1). Analoges gilt für F2(h+1),2(n−h),1−α/2 .
Beispiel 5.28.
Wir rechnen das in Beispiel 5.18 mit der R-Funktion binom.test(h,n)
bestimmte Clopper-Pearson-Intervall zum Konfidenzniveau 1 − α = 0.95 nach.
Es ist h = 44 und n = 62. Als α/2-Quantil der F88,38 -Verteilung erhält man qu =
0.5976 und als (1 − α/2)-Quantil der F90,36 -Verteilung qo = 1.798. Aus (5.43)
ergeben sich damit die Grenzen uC = 0.5805 und oC = 0.8180 des 95%igen
Konfidenzintervalls für die Wahrscheinlichkeit p der Ausbildung eines gelben
Samens.
>
>
>
>
>
>
>
# Lö s u n g m i t R :
h <− 4 4 ; n <− 6 2 ; pd <− h / n ; a l p h a <− 0 . 0 5
qu <− q f ( a l p h a / 2 , 2 ∗ h , 2 ∗ ( n−h + 1 ) )
qo <− q f (1− a l p h a / 2 , 2 ∗ ( h + 1 ) , 2 ∗ ( n−h ) )
uC <− h∗ qu / ( n−h+1+h∗ qu )
oC <− ( h +1)∗ qo / ( n−h + ( h +1)∗ qo )
p r i n t ( c b i n d ( pd , qu , qo , uC , oC ) , d i g i t s = 4 )
pd
qu
qo
uC
oC
[ 1 , ] 0.7097 0.5976 1.798 0.5805 0.818
50
Vgl. Clopper, C.J., Pearson, E.S.: The Use of Confidence or Fiducial Limits Illustrated in the
Case of the Binomial. Biometrika, Vol. 26, No. 4. (1934).
Herunterladen