Kapitel 5 Schätzen und Testen Die Schätzung von Verteilungsparametern und das Testen von Hypothesen gehören zum Gebiet der induktiven Statistik oder, wie man heute mehr und mehr sagt, der Inferenzstatistik. Die empirische Grundlage für jede statistische Arbeit bilden Daten, die meist Zufallsstichproben aus definierten Zielpopulationen sind. Methoden zur Beschreibung der Verteilung von Stichprobenwerten und des Zusammenhangs zwischen den Werten verschiedener Stichproben wurden bereits in den vorangehenden Kapiteln besprochen und werden im ersten Abschnitt dieses Kapitels weiter ergänzt. Die Datenbeschreibung ist meist nur der erste Schritt einer statistischen Auswertung, bei der es primär um Aussagen über die Zielpopulation geht. Diese gewinnt man, in dem man versucht, die in Stichproben festgestellten Ergebnisse und Sachverhalte auf die Zielpopulation zu übertragen oder Vermutungen über die Zielpopulation mit den Beobachtungsdaten zu bestätigen. Das zuerst genannte Ziel wird methodisch in der Parameterschätzung umgesetzt, das zweite im Rahmen von Testverfahren. Die Parameterschätzung (in den Abschnitten 2 und 5) befasst sich mit der Schätzung des Mittelwerts und der Varianz einer normalverteilten Zufallsvariablen, mit der Schätzung des Anstiegs einer Regressionsgeraden sowie mit der Schätzung einer Wahrscheinlichkeit. Bei den Testverfahren (in den Abschnitten 4 und 5) geht es um Vergleiche mit Mittelwerten und Wahrscheinlichkeiten. Wie man die Annahme einer normalverteilten Zielpopulation überprüft, wird im dritten Abschnitt ausgeführt. 5.1 Datenbeschreibung 5.1.1 Grundgesamtheit und Stichprobe Es sei X ein quantitatives Merkmal, z.B. ein Messmerkmal oder ein Zählmerkmal. Aussagen über die Verteilung des Merkmals in einer Zielpopulation (man bezeichnet diese auch als Grundgesamtheit) erhält man mit Hilfe von Zufallsstichproben. 301 302 5 Schätzen und Testen Zur Veranschaulichung der Begriffe „Grundgesamtheit“ und „Zufallsstichprobe“ betrachten wir zwei typische Beispiele aus der Praxis. Das erste Beispiel ist der Qualitätssicherung entnommen. Aus einem Produktionslos mit sehr großem Umfang N werden durch zufällige Ziehungen n N Produkte ausgewählt und die Qualität X eines jeden ausgewählten Produkts überprüft. Ist das Produkt ohne Fehler, erhält X den Wert null, andernfalls den Wert eins. Die Beobachtung der Qualität der ausgewählten Produkte führt auf eine aus den Zahlen null und eins bestehende Folge, die eine Zufallsstichprobe bildet. Die Grundgesamtheit besteht aus allen Produkten des Loses. Wenn man sich auf das Merkmal X beschränkt, kann jedes Produkt durch seinen Merkmalswert erfasst und folglich die Grundgesamtheit auch als Gesamtheit aller Merkmalswerte angesehen werden. Die Zufallsstichprobe ergibt sich dann durch Zufallsauswahl (Ziehen mit Zurücklegen oder Ziehen ohne Zurücklegen) von n Elementen aus dieser Gesamtheit. Bei großem N lassen sich die Werte der Zufallsstichprobe als Realisierungen einer B1,p verteilten Zufallsvariablen mit einer gewissen Wahrscheinlichkeit p = P(X = 1) erzeugen und man spricht in diesem Fall von einer B1,p -verteilten Grundgesamtheit. Im zweiten Beispiel geht es um die Messung einer Größe, von der wir annehmen, dass sie den wahren Wert µ besitze. Bei der Messung überlagert sich dem wahren Wert ein Messfehler E, den wir uns als eine mit dem Mittelwert null und der Fehlervarianz σE2 normalverteilte Zufallsvariable vorstellen. Somit setzt sich das Ergebnis X der Messung aus dem wahren Wert µ und dem Messfehler E zusammen. Bezeichnen e1 , e2 , . . . en die Realisierungen von E bei n Messwiederholungen, so können die erhaltenen Messwerte durch xi = µ + ei (i = 1, 2, . . . , n) dargestellt werden. Die Messwerte bilden eine Zufallsstichprobe aus der N(µ, σE2 )-verteilten Grundgesamtheit X. Diese kann man als Gesamtheit der Messergebnisse ansehen, die mit der Modellgleichung X = µ + E generiert werden können. In beiden Beispielen wird die Grundgesamtheit abstrakt durch eine Variable X mit einer bestimmten Verteilungsfunktion dargestellt. Kennt man die Parameter der Verteilungsfunktion, so lässt sich eine Zufallsstichprobe (d.h. eine Folge von Realisierungen) von X mit entsprechenden Zufallszahlengeneratoren erzeugen. Für die Praxis bedeutsamer ist die Umkehraufgabe: Gegeben ist eine Zufallsstichprobe von X und es soll mit den Stichprobewerten auf die unbekannten Parameter der Verteilungsfunktion zurück geschlossen werden. Informationen über die Stichprobe gewinnt man im Rahmen einer Datenbeschreibung. Speziell handelt es sich um eine 1-dimensionale oder unvariate Datenbeschreibung, wenn man Stichprobenwerte von nur einer Variablen betrachtet bzw. bei mehreren Variablen jede Stichprobe für sich alleine betrachtet. Die Stichprobenwerte einer Variablen X nennt man auch eine Beobachtungs- oder Messreihe und schreibt sie allgemein in der Form x1 , x2 , . . . , xn an. 5.1 Datenbeschreibung 303 5.1.2 Lage- und Streuungsmaße Die Verteilung der Werte x1 , x2 , . . . , xn einer Stichprobe vom Umfang n wird in kompakter Form mit Hilfe von Kennzahlen beschrieben. Dabei ist es nützlich, sich die Stichprobenwerte als Datenpunkte auf der Zahlengeraden vorzustellen. Das klassische Maß zur Kennzeichnung des Zentrums der Punkte ist das arithmetische Mit tel x̄ = ∑ni=1 xi /n. Die Streuung der Datenpunkte um ihr Zentrum, also um x̄, wird meist durch die Standardabweichung s 1 n s= ∑ (xi − x̄)2 n − 1 i=1 bzw. durch die Varianz s2 ausgedrückt. Das arithmetische Mittel und die Standardabweichung – beide Kennzahlen wurden bereits in Abschnitt 1.1 eingeführt – sind gut interpretierbare Maße für die mittlere Lage bzw. die Streuung der Stichprobenwerte, wenn die Grundgesamtheit annähernd normalverteilt ist und es keine extremen Stichprobenwerte gibt, die durch nicht kontrollierte Störeinflüsse zustande gekommen sind. Sind diese Voraussetzungen nicht erfüllt, verwendet man besser den Median Q2 als mittleres Lagemaß und den Quartilabstand IQR als Streuungsmaß. Wie in Abschnitt 1.1 ausgeführt wurde, kann der Median für rangskalierte Daten (und damit im Besonderen auch für Messdaten) bestimmt werden. Für die Interpretation des Medians ist folgende Eigenschaft nützlich: Mindestens 50% der Stichprobenwerte sind kleiner oder gleich Q2 und mindestens 50% größer oder gleich Q2 . Wegen dieser Eigenschaft nennt man den Median auch 50%-Quantil. Betrachtet man nur die Stichprobenwerte kleiner oder gleich Q2 und bestimmt für diese Stichprobenwerte den Median, so erhält man das untere Quartil Q1 der Stichprobe. Analog kann das obere Quartil Q3 als Median der Stichprobenwerte größer oder gleich Q2 berechnet werden.1 Für das untere Quartil gilt, dass mindestens 25% der Stichprobenwerte kleiner oder gleich Q1 und mindestens 75% größer oder gleich Q1 sind. Für die Quartile sind auch die Bezeichnungen 25%- bzw. 75%-Quantil gebräuchlich. Zwischen den Quartilen liegen also rund 50% der Stichprobenwerte. Der entsprechende Streubereich wird durch den Quartilabstand IQR = Q3 − Q1 (engl. inter quartile range) erfasst. Zusammen mit dem kleinsten Stichprobenwert xmin und dem größten Stichprobenwert xmax bilden der Median und die beiden Quartile die sogenannte Fünf-Punkte-Zusammenfassung der Stichprobe. Besonders illustrativ ist, wenn man die Fünf-Punkte-Zusammenfassung in grafischer Form als Boxplot wiedergibt. In Abb. 5.1 sind drei Boxplots in vertikaler Lage dargestellt. Die rechteckige „Box“ wird jeweils unten und oben durch das untere bzw. obere Quartil begrenzt. Die Strecken innerhalb der Rechtecke geben die Mediane wieder. Die Ausläufer nach unten und oben reichen bis zum Maximum von xmin und Q1 − 1.5IQR bzw. bis zum Minimum von xmax und Q3 + 1.5IQR. Stichprobenwerte 1 Die so definierten Quartile werden als Angelpunkte (engl. hinges) der Stichprobe bezeichnet. Man beachte, dass es auch andere Definitionen für die Quartile gibt, die zu geringfügig abweichenden Ergebnissen führen können. 304 5 Schätzen und Testen 0 −1 −3 −2 Variable X 1 2 jenseits der Ausläuferenden werden als isolierte Punkte dargestellt und dadurch als extreme Stichprobenwerte ausgewiesen.2 Stichprobe 1 Stichprobe 2 Stichprobe 3 Abb. 5.1 Boxplots von drei Stichproben, jede mit dem Umfang 10. Die Zufallsstichproben wurden aus der N(0, 1)-verteilten Grundgesamtheit X mit der R-Funktion rnorm() generiert. Die Ausläufer der zweiten und dritten Stichprobe gehen jeweils bis zu den kleinsten bzw. größten Stichprobenwerten. In Stichprobe 1 ist der größte Wert mehr als 1.5 IQR vom oberen Quartil Q3 entfernt und als „ausreißerverdächtiger“ Punkt dem Boxplot hinzugefügt. Beispiel 5.1. Von einer normalverteilten Grundgesamtheit X liegt die Zufallsstichprobe 0.449, −0.846, −0.466, 0.084, 0.248, 0.222, 2.315, −0.884, 1.622, 0.058 vor. Wir beschreiben die Stichprobe mit den Kennzahlen xmin (kleinster Stichprobenwert), Q1 (unteres Quartil), Q2 (Median), Q3 (oberes Quartil) und xmax (größter Stichprobenwert). Ferner bestimmen wir den Quartilabstand und stellen die Stichprobe grafisch durch ein Boxplot dar. Der nach aufsteigender Größe geordneten Stichprobe −0.884, −0.846, −0.466, 0.058, 0.084, 0.222, 0.248, 0.449, 1.622, 2.315 2 Die Wahrscheinlichkeit, dass eine normalverteilte Zufallsvariable X einen Wert annimmt, der das obere Quartil um mehr als das 1.5-fache des Quartilabstandes übertrifft oder das untere Quartil um den gleichen Betrag unterschreitet, ist klein; sie beträgt ca. 0.7% (vgl. Beispiel 2.23b). Wenn ein derartiger Wert auftritt, besteht daher der Verdacht, dass er durch einen unerwünschten Störfaktor verursacht wurde und es sich dabei um einen sogenannten „Ausreißer“ handelt. 5.1 Datenbeschreibung 305 entnimmt man unmittelbar xmin = −0.884, xmax = 2.315, Q2 = 12 (0.084 + 0.222) = 0.153. Das untere Quartil Q = −0.466 ist der Median der Stichprobenwerte, die kleiner oder gleich Q2 sind; das obere Quartil Q3 = 0.449 findet man als Median der Stichprobenwerte größer oder gleich Q2 . Schließlich ist der Quartilabstand IQR = Q3 − Q1 = 0.915. Wegen xmax > Q3 + 1.5IQR = 1.5255, ist xmax als ein extremer Stichprobenwert anzusehen. > > + > > > > # Lö s u n g m i t R : x1 <− c ( 0 . 4 4 9 , − 0 . 8 4 6 , − 0 . 4 6 6 , 0 . 0 8 4 , 0 . 2 4 8 , 0.222 , 2.315 , −0.884 , 1.622 , 0.058) xx <− f i v e n u m ( x1 ) # 5−P u n k t e −Zusammenfassung min <− xx [ 1 ] ; Q1 <− xx [ 2 ] ; Q2 <− xx [ 3 ] ; Q3 <− xx [ 4 ] max <− xx [ 5 ] ; i q r <− Q3−Q1 p r i n t ( c b i n d ( min , Q1 , Q2 , Q3 , max , i q r ) , d i g i t s = 4 ) min Q1 Q2 Q3 max iqr [ 1 , ] −0.884 −0.466 0 . 1 5 3 0 . 4 4 9 2 . 3 1 5 0 . 9 1 5 > # B o x p l o t s d e r Abb . 5 . 1 > x2 <− c ( − 0 . 4 3 2 , − 0 . 1 2 5 , − 1 . 0 8 8 , − 1 . 3 7 0 , − 0 . 6 1 7 , + 0.172 , −0.402 , −1.757 , −0.058 , −1.734) > x3 <− c ( − 2 . 0 8 9 , − 0 . 2 0 5 , 1 . 3 3 5 , 0 . 5 4 0 , − 1 . 4 5 6 , + −0.162 , −3.533 , 0 . 2 1 0 , 0 . 0 2 0 , − 1 . 2 3 3 ) > x <− d a t a . f r a m e ( x1 , x2 , x3 ) > par ( cex . a x i s = 1. 3 , cex . l a b = 1 . 3 ) > b o x p l o t ( x , names=c ( " S t i c h p r o b e 1 " , " S t i c h p r o b e 2 " , + " S t i c h p r o b e 3 " ) , y l a b =" V a r i a b l e X" , pch = 18 ) 5.1.3 Histogrammschätzer Wenn der Stichprobenumfang n klein ist, beschränkt sich die Datenbeschreibung im Wesentlichen auf die Angabe der im vorangehenden Punkt behandelten Kennzahlen. Bei größerem n (etwa ab n = 15) ist eine detailliertere Beschreibung der Variation der Stichprobenwerte durch Häufigkeitstabellen und Histogramme angebracht. Die Grundgesamtheit X sei stetig verteilt (z.B. normalverteilt) mit der Dichtefunktion f . Um eine Vorstellung über f zu erhalten, gehen wir von einer Zufallsstichprobe x1 , x2 , . . . , xn aus und zerlegen die X-Achse in k gleich lange, aneinandergrenzende Intervalle (Klassen) I1 , I2 , . . . , Ik . Zur Festlegung der Klassen bestimmen wir eine passende Klassenbreite b; dies kann z.B. mit der auf Freedman & Diaconis (1980) zurückgehenden Formel IQR b≈2 √ 3 n (5.1) erfolgen. Als untere Grenze der ersten Klasse I1 wählen wir eine Zahl c0 derart, dass c0 kleiner als alle Stichprobenwerte ist und in I1 wenigstens ein Stichprobenwert liegt. Die erste Klasse ist das links offene und rechts abgeschlossene Intervall (c0 , c1 ] mit c1 = c0 + b. Daran schließt die zweite Klasse I2 = (c1 , c2 ] mit c2 = c1 + b an, daran die dritte Klasse I3 = (c2 , c3 ) mit c3 = c2 + b usw. So fort- 306 5 Schätzen und Testen 0.3 0.2 0.1 0.0 Klassenhäufigkeitsdichte 0.4 fahrend gelangt man schließlich zur letzte Klasse Ik = (ck−1 , ck ], die zumindest den größten Stichprobenwert enthalten muss. Die Anzahl der Untersuchungseinheiten in der Klasse Ii ist die absolute Klassenhäufigkeit Hi von Ii . Dividiert man Hi durch den Stichprobenumfang n und die Klassenbreite b, folgt die KlassenhäuHi der Klasse Ii . Ordnet man nun jedem Wert x der Klasse Ii figkeitsdichte gi = nb die Klassenhäufigkeitsdichte gi als Funktionswert zu, so erhält man den sogenannten Histogramm-Schätzer fˆ der Dichtefunktion f von X. Für x-Werte kleiner oder gleich c0 oder x-Werte größer als ck verlangen wir zusätzlich fˆ(x) = 0. Man beachte, dass der Inhalt der Fläche, die der Graph von fˆ und die X-Achse einschließen, durch ∑ki=1 gi b = ∑ki=1 Hi /n = 1 gegeben ist. Der Graph von fˆ wird meist als Histogramm gezeichnet, d.h. als eine Folge von über den Intervallen Ii errichteten Rechtecken mit den Höhen gi (i = 1, 2, . . . , k) (vgl. Abb. 5.2). Da die Summe der Rechteckflächen gleich eins ist, spricht man auch von einem flächennormierten Histogramm. −3 −2 −1 0 1 2 3 X Abb. 5.2 Flächennormiertes Histogramm einer Stichprobe mit dem Umfang n = 25 aus einer standardnormalverteilten Grundgesamtheit X. Die Realisierungen von X wurden mit der R-Funktion rnorm(25) erzeugt. Die Dichtekurve der N(0, 1)-Verteilung ist punktiert eingezeichnet. Beispiel 5.2. Mit einem Zufallszahlengenerator wurden n = 25 Realisierungen einer N(0, 1)verteilten Zufallsvariablen X erzeugt. Die nach aufsteigender Größe sortierte Stichprobe ist: −2.16, −1.50, −1.17, −1.03, −0.98, −0.91, −0.84, −0.51, −0.43, −0.42, −0.39, −0.31, −0.24, −0.17, 0.13, 0.18, 0.37, 0.37, 0.50, 0.66, 0.87, 1.17, 1.25, 1.26, 2.88 5.1 Datenbeschreibung 307 Wir stellen die Variation der Stichprobenwerte durch ein Histogramm dar. Dazu nehmen wir eine Klasseneinteilung vor und bestimmen zuerst die Klassenbreite b. Der sortierten Stichprobe entnimmt man den kleinsten Wert xmin = −2.6, das 25%-Quantil (Median der ersten 13 Stichprobenwerte) Q2 = −0.84 und das 75%-Quantil Q4 =√ 0.5. Daher ist der Quartilabstand IQR = 1.34 und die Klassenbreite b = 2·1.34/ 3 25 = 0.92 ≈ 1. Mit der unteren Grenze c0 = −3 der ersten Klasse ergeben sich die Klassen I1 = (−3, −2], I2 = (−2, −1], . . . , I6 = (2, 3]. Die absoluten Klassenhäufigkeiten sind H1 = 1, H2 = 3, H3 = 10, H4 = 7, H5 = 3, H6 = 1. Die Klassenhäufigkeitsdichten sind g1 = 1/25 = 0.04, g2 = 3/25 = 0.12, g3 = 10/25 = 0.40, g4 = 7/25 = 0.28, g5 = 3/25 = 0.12, g6 = 1/25 = 0.04. Das damit erstellte Histogramm ist in Abb. 5.2 wiedergegeben. > # Lö s u n g m i t R : > x <− c ( − 2 . 1 6 , − 1 . 5 0 , − 1 . 1 7 , − 1 . 0 3 , − 0 . 9 8 , + −0 . 9 1 , −0 . 8 4 , −0. 51 , −0. 43 , −0. 42 , + −0 .3 9 , −0 . 31 , −0.24 , −0.17 , 0 . 1 3 , + 0.18 , 0.37 , 0.37 , 0.50 , 0.66 , + 0.87 , 1.17 , 1.25 , 1.26 , 2.88) > n <− l e n g t h ( x ) ; i q r <− f i v e n u m ( x ) [ 4 ] − f i v e n u m ( x ) [ 2 ] > b <− r o u n d ( 2 ∗ i q r / n ^ ( 1 / 3 ) ) ; b # K l a s s e n b r e i t e ( g e r u n d e t ) [1] 1 > r e s <− h i s t ( x , b r e a k s ="FD " , p l o t =F ) > c <− r e s $ b r e a k s ; p r i n t ( c ) # K l a s s e n g r e n z e n [ 1 ] −3 −2 −1 0 1 2 3 > H <− r e s $ c o u n t s # a b s o l u t e K l a s s e n h ä u f i g k e i t e n > g <− H / b / n # Klassenh ä u f i g h k e i t s d i c h t e n > p r i n t ( r b i n d (H, g ) ) [ ,1] [ ,2] [ ,3] [ ,4] [ ,5] [ ,6] H 1.00 3.00 10.0 7.00 3.00 1.00 g 0.04 0.12 0.4 0.28 0.12 0.04 Aufgaben 1. Die wiederholte Messungen der Konzentration eines Wirkstoffes ergab im Rahmen eines Ringversuches für zwei Labors die folgenden Werte (Angaben in mg/l): Labor A : 2.51 2.36 3.09 2.82 2.42 2.65 2.77 2.34 Labor B : 3.05 2.86 3.41 3.13 3.59 2.83 2.53 3.04 Man vergleiche die Stichproben numerisch mit den Kennzahlen der 5-PunkteZusammenfassung und grafisch durch Boxplots. 2. Die Messgröße Y sei N(µ, σ 2 )-verteilt. Von Y liegt die folgende Messreihe vor (Angaben in mg): 4.99, 5.40, 6.91, 5.49, 3.91, 4.55, 4.97, 5.11, 5.57, 6.19, 4.15, 4.84, 4.57, 5.20, 3.55, 4.48, 5.13, 4.52, 5.33, 5.65. 308 5 Schätzen und Testen a) Man berechne auf der Grundlage einer geeigneten Klasseneinteilung die absoluten Klassenhäufigkeiten sowie die Klassenhäufigkeitsdichten und stelle die Variation der Stichprobenwerte grafisch durch ein flächennormiertes Histogramm dar. b) Man zeichne die Dichtekurve einer an die Stichprobenwerte angepassten N(µ, σ 2 )-Verteilung in die Grafik mit dem Histogramm ein; die Anpassung nehme man so vor, dass die Parameter µ und σ näherungsweise durch das arithmetische Mittel x̄ bzw. die Standardabweichung s der Stichprobenwerte ersetzt wird. 5.2 Parameterschätzung bei normalverteilter Grundgesamtheit 5.2.1 Stichprobenmittel und Stichprobenvarianz Es sei X eine N(µ, σ 2 )-verteilte Grundgesamtheit. Schon die übereinstimmende Benennung des Mittelwerts µ der Grundgesamtheit X und des Mittelwerts x̄n = ∑ni=1 xi /n einer Zufallsstichprobe x1 , x2 , . . . , xn aus X legt nahe, x̄n als einen Schätzwert für µ zu betrachten. Tatsächlich ist es vorteilhaft, µ durch x̄n zu schätzen. Bevor wir uns mit der Frage befassen, wie man die Güte eines Schätzverfahrens beurteilen kann, ist es wichtig, x̄n als Realisierung einer Zufallsvariablen zu begreifen; für diese Zufallsvariable schreiben wir X̄n und bezeichnen sie als Stichprobenmittel. Durch das Stichprobenmittel X̄n wird also jeder n-elementigen Zufallsstichprobe aus X das arithmetische Mittel x̄n dieser Stichprobe zugeordnet. Um die Abhängigkeit von einer Stichprobe auszudrücken, nennt man das Stichprobenmittel daher auch eine Stichprobenfunktion oder Schätzfunktion. Wir stellen uns nun sehr viele Zufallsstichproben x1 , x2 , . . . , xn aus der Grundgesamtheit X vor und berechnen zu jeder Stichprobe das arithmetische Mittel. Dann kann man die Variation dieser arithmetischen Mittelwerte durch ein Histogramm darstellen und damit die Dichtefunktion von X̄n schätzen. In Abb. 5.3 wurde diese Idee umgesetzt. Das Beispiel lässt vermuten, dass das Stichprobenmittel wie die Grundgesamtheit mit demselben Mittelwert normalverteilt ist, die Standardabweichung des Stichprobenmittels jedoch unter der Standardabweichung der Grundgesamtheit liegt. Diese Vermutung gilt allgemein für jedes n > 1 und kann wie folgt präzisiert werden: • Bei einer mit dem Mittelwert µX und der Standardabweichung σX normalverteilter Grundgesamtheit X ist für jedes n > 1 auch das Stichprobenmittel X̄n normalverteilt.3 • Für den Mittelwert und die Standardabweichung des Stichprobenmittels gilt: 3 Ist X nicht normalverteilt, so „nähert“ sich nach dem zentralen Grenzwertsatz die Verteilung von X̄n mit wachsendem n einer Normalverteilung mit den durch (5.2) gegebenen Parametern. 0.0 0.5 1.0 1.5 2.0 Dichte 5.2 Parameterschätzung bei normalverteilter Grundgesamtheit 309 X9 X 0 1 2 3 4 X, X9 Abb. 5.3 Darstellung der Verteilung der arithmetischen Mittel von 10000 Zufallstichproben, jede mit dem Umfang n = 9, aus der Grundgesamtheit X ∼ N(µ, σ 2 ) mit µ = 2 und σ = 0.7 durch ein Histogramm. Die Grundgesamtheit X ist punktiert und die exakte Dichte des Stichprobenmittels X̄9 strichliert eingezeichnet. σX µX̄n = µX und σX̄n = √ (n = 2, 3, . . .) n (5.2) Das Ergebnis (5.2) ist von großer praktischer Bedeutung. Die erste Gleichung bringt zum Ausdruck, das der Mittelwert µX̄n des Stichprobenmittels X̄n gleich dem Mittelwert µX der Grundgesamtheit X ist. Man bezeichnet diese Eigenschaft des Stichprobenmittels als erwartungstreu.4 Es ist üblich, die Güte der Schätzung des Mittelwertes µX mit dem Stichprobenmittel durch den mittleren quadratischen Fehler MSE(X̄n ) (mean squared error) zu bewerten. Dieser ist gleich dem Mittelwert aus dem Quadrat der Abweichung X̄n − µX des Stichprobenmittels vom Mittelwert µX der Grundgesamtheit. Wenn MSE(X̄n ) klein ist, hat man eine hohe Wahrscheinlichkeit, dass das Stichprobenmittel einen Wert in einer kleinen Umgebung um µX annimmt. Wegen (5.2) ist der mittlere quadratische Fehler des Stichprobenmittels durch σ2 MSE(X̄n ) = µ(X̄n −µX )2 = X (5.3) n gegeben und geht mit wachsendem n gegen null. Eine Schätzfunktion, für die der mittlere quadratische Fehler für n → ∞ verschwindet, wird konsistent im quadratischen Mittel genannt. Das Stichprobenmittel ist eine im quadratischen Mittel konsistente Schätzfunktion für µX . Die Wurzel aus dem mittleren √ quadratischen Fehler des Stichprobenmittels wird als Standardfehler σX̄ = σX / n des Mittelwerts bezeichnet. 4 Die Eigenschaft „erwartungstreu“ kann man anschaulich so umschreiben: Wählt man wiederholt Zufallsstichproben desselben Umfangs aus X aus und berechnet mit dem Stichprobenmittel Schätzwerte für µX , so stimmt das arithmetische Mittel dieser Schätzwerte umso besser mit µX überein, je größer die Zahl der Wiederholungen ist. 310 5 Schätzen und Testen 0.00 Dichte 0.04 0.08 0.12 Die (empirische) Varianz einer Zufallsstichprobe x1 , x2 , . . . , xn aus der Grund1 gesamtheit X wurde in Abschnitt 1.1 durch die Formel s2n = n−1 ∑ni=1 (xi − x̄n )2 2 definiert. Analog zum arithmetischen Mittel x̄n ist auch sn als Realisierung einer Zufallsvariablen zu sehen, die man als Stichprobenvarianz Sn2 bezeichnet. Durch die Stichprobenvarianz wird jeder n-elementigen Zufallsstichprobe aus X die empirische Varianz s2n zugeordnet. Um eine Vorstellung von der Verteilung der Stichprobenvarianz zu erhalten, denken wir uns wieder eine große Anzahl von n-elementigen Zufallsstichproben aus der Grundgesamtheit X und berechnen für jede dieser Stichproben die Varianz. Stellt man die Variation der erhaltenen Varianzen mit Hilfe eines Histogramms dar, so erhält man eine Grafik von der Art der Abb. 5.4. In dieser Abbildung ist die Grundgesamtheit X als normalverteilt mit den Parametern µX = 2 und σX2 = 0.7 angenommen und der Umfang der Zufallsstichproben mit n = 9 festgelegt. Horizontal ist die mit (n−1)/σ 2 multiplizierte Stichprobenvarianz aufgetragen. Die Verteilung der Größe (n − 1)Sn2 /σX2 kann exakt angegeben werden: Es handelt sich dabei um die Chiquadrat-Verteilung mit n − 1 Freiheitsgraden. 0 5 10 (n − 1)S2 σ2 15 20 Abb. 5.4 Histogramm der mit dem Faktor (n − 1)/σX2 multiplizierten Varianzen von 10000 Zufallsstichproben (jede mit dem Umfang n = 9) aus der Grundgesamtheit X ∼ N(µX , σX2 ) mit µX = 2 und σX = 0.7. Die Dichtekurve der exakten χ82 -Verteilung ist strichliert eingezeichnet. Die Chiquadrat-Verteilung gehört zu den grundlegenden theoretischen Verteilungen der Statistik. Sie besitzt einen Parameter, den man als Freiheitsgrad f bezeichnet. Der Mittelwert und die Varianz der Verteilung sind durch f bzw. 2 f gegeben. Die Dichtefunktion ist nur für nichtnegative Argumente definiert. Die ChiquadratVerteilung mit f Freiheitsgraden wird kurz durch das Symbol χ 2f dargestellt. Für die Anwendungen sind vor allem die Quantile die Verteilung wichtig. Das p-Quantil einer χ 2f -verteilten Zufallsvariablen ist jene reelle Zahl χ 2f ,p , die von einer χ 2f verteilten Zufallsvariablen mit der Wahrscheinlichkeit p unterschritten wird. Man kann zeigen, dass mit der Stichprobenvarianz S2 die Varianz σX2 der Grundgesamtheit erwartungstreu geschätzt wird, d.h. der Mittelwert von Sn2 stimmt mit 5.2 Parameterschätzung bei normalverteilter Grundgesamtheit 311 σX2 überein.5 Die Varianz der Stichprobenvarianz ist σS22 = 2σX4 /(n − 1). Damit erhält man als mittleren quadratischen Fehler der Stichprobenvarianz: MSE(Sn2 ) = µ(Sn2 −σ 2 )2 = X 2σX4 n−1 (5.4) Dieser geht mit wachsendem n gegen null. Die Stichprobenvarianz ist eine im quadratischen Mittel konsistente Schätzfunktion für σX2 . Dies bedeutet, dass die Varianz σX2 der Grundgesamtheit vor allem bei größerem n recht genau durch die empirische Varianz s2n geschätzt werden kann. Als Schätzwert für die Standardabweichung σX nimmt man meist die empirische Standardabweichung sn . Setzt man diese für σX√in die Formeln 5.3 und 5.4 ein, ergibt sich der empirische Standardfehler p σ̂X̄ = sn / n des Stichprobenmittels bzw. der empirische Standardfehler σ̂S2 = s2n 2/(n − 1) der Stichprobenvarianz. Beispiel 5.3. Im Zuge der Überwachung der Herstellung von Injektionsnadeln wurde aus der laufenden Produktion eine Prüfstichprobe von n = 10 Nadeln entnommen und die Außendurchmesser (in mm) 0.54, 0.53, 0.33, 0.52, 0.60, 0.50, 0.52, 0.40, 0.56, 0.45 gemessen. Wir bestimmen das arithmetische Mittel, die empirische Varianz sowie den empirischen Standardfehler des arithmetischen Mittels und der Varianz. > > + > > > > > > # Lö s u n g m i t R : x <− c ( 0 . 5 4 , 0 . 5 3 , 0 . 3 3 , 0 . 5 2 , 0 . 6 0 , 0.50 , 0.52 , 0.40 , 0.56 , 0.45) n <− l e n g t h ( x ) # S t i c h p r o b e n u m f a n g x q u e r <− mean ( x ) # a r i t h m e t i s c h e s M i t t e l s 2 <− v a r ( x ) # emp . V a r i a n z SE . x q u e r <− s q r t ( s 2 / n ) # emp . S t a n d a r d f e h l e r d . M i t t e l s SE . s 2 <− s 2 ∗ s q r t ( 2 / ( n −1)) # emp . S t a n d a r d f e h l e r d . V a r i a n z p r i n t ( c b i n d ( x q u e r , SE . x q u e r , s2 , SE . s 2 ) , d i g i t s = 3 ) x q u e r SE . x q u e r s2 SE . s 2 [ 1 , ] 0.495 0.0254 0.00645 0.00304 5.2.2 Konfidenzintervalle für den Mittelwert und die Varianz √ Die empirische Standardabweichung σ̂X̄ = sn / n ist ein einfaches Maß, mit dem man die Genauigkeit des arithmetischen Mittels bei der Schätzung des Mittelwerts µX der Grundgesamtheit X beurteilen kann. Ein kleiner Standardfehler bedeutet eine höhere Genauigkeit als ein großer. Durch Erhöhung des Umfangs einer Stichprobe wird der Standardfehler im Allgemeinen kleiner und folglich die Genauigkeit der p Dagegen stimmt der Mittelwert µSn der Stichproben-Standardabweichung Sn = Sn2 nicht mit der Standardabweichung σX der Grundgesamtheit überein. Vielmehr ist µSn = kn σX mit kn < 1. Z.B. ist k2 = 0.7979, k5 = 0.9400, k10 = 0.9727. Mit wachsendem n strebt kn gegen 1. 5 312 5 Schätzen und Testen Schätzung größer. Eine präzisere Aussage über die Genauigkeit eines Schätzwertes ist mit einem Konfidenzintervall möglich. Zu einem (zweiseitigen) Konfidenzintervall für den Mittelwert µX der (als normalverteilt angenommenen) Grundgesamtheit X kommt man auf folgende Weise: Man gibt eine kleine Wahrscheinlichkeit α vor (z.B. α = 5%) und bestimmt zwei Zufallsvariable U und O so, dass P(U > µX ) = P(O < µX ) = α/2 gilt. Die Wahrscheinlichkeit, dass das Intervall [U, O] den Mittelwert µX überdeckt, d.h. U ≤ µX ≤ O gilt, soll also 1 − α betragen. Die Größen U und O bilden die Grenzen des Konfidenzintervalls. Die Überdeckungswahrscheinlichkeit 1 − α wird auch Konfidenzniveau genannt und zumeist mit 95% angenommen. a) Konfidenzintervall für den Mittelwert bei bekannter Varianz. Die Bestimmung der Grenzen U und O nehmen wir zuerst für den Fall vor, das die Standard√X standardnormalverteilt und es gilt abweichung σX bekannt ist. Dann ist X̄σn −µ / n n X̄n − µX √ ≤ z1−α/2 = Φ(z1−α/2 ) − Φ(zα/2 ) = 1 − α. P zα/2 ≤ σn / n Hier sind z1−α/2 und zα/2 = −z1−α/2 das (1 − α/2)-Quantil bzw. das α/2-Quantil der N(0, 1)-Verteilung. Nach einer einfachen Umformung der Ungleichungskette auf der linken Seite erhält man daraus P (X̄n + d ≥ µX ≥ X̄n − d) = 1 − α σn mit d = z1−α/2 √ . Somit ist die Wahrscheinlichkeit, dass µX von den Zufallsvan riablen X̄n − d und X̄n + d eingeschlossen ist, gleich dem Konfidenzniveau 1 − α. Genau das wird aber von den Grenzen U und O eines (1 − α)-Konfidenzintervalls für µX verlangt, so dass wir σX U = X̄n − d, O = X̄n + d mit d = z1−α/2 √ n (5.5a) schreiben können. Hat man eine konkrete Zufallsstichprobe, kann man in (5.5a) für das Stichprobenmittel das arithmetische Mittel x̄n einsetzen und erhält damit konkrete Realisierungen u und o der Grenzen U bzw. O. Man bezeichnet das mit diesen Realisierungen gebildete Intervall [u, o] als ein empirisches Konfidenzintervall. Der (unbekannte) Mittelwert µX wird von diesem Intervall entweder eingeschlossen oder nicht. Berechnet man mit einer großen Anzahl von Zufallsstichproben die entsprechenden empirischen Konfidenzintervalle, so kann man erwarten, dass von diesen der Anteil 1 − α den Mittelwert µX einschließt. Man kann den Sachverhalt auch so ausdrücken: Die Wahrscheinlichkeit, mit einer Zufallsstichprobe ein empirisches Konfidenzintervall zu erhalten, das den Mittelwert µX einschließt, ist angenähert 1 − α. Die halbe Breite d des Konfidenzintervalls wird oft zur Kennzeichnung der Genauigkeit der Schätzung herangezogen. Man beachte, dass d abnimmt, wenn n oder 5.2 Parameterschätzung bei normalverteilter Grundgesamtheit 313 α vergrößert wird.6 In der Regel gibt man bei einer Schätzung die Genauigkeit d und die Sicherheit 1 − α vor und ermittelt den zur Einhaltung der Vorgaben erforderlichen Mindeststichprobenumfang. Dieser ist die kleinste ganze Zahl n∗ mit der Eigenschaft z1−α/2 σX 2 ∗ . (5.5b) n ≥n= d Beispiel 5.4. In einer Anlage soll ein Desinfektionsmittel in Flaschen mit 500ml abgefüllt werden. Nach einer Störung und Neustellung der Anlage werden probeweise 20 Flachen abgefüllt. Dabei ergaben sich folgende Abfüllmengen (in ml): 501, 516, 498, 503, 518, 498, 479, 499, 502, 475, 505, 504, 491, 495, 505, 486, 494, 479, 502, 506. Die Abfüllmenge X sei N(µX , σX2 )-verteilt mit dem (unbekannten) Mittelwert µX . Als Standardabweichung wurde vom Anlagenbauer σX = 10 angegeben. Um die Neueinstellung zu kontrollieren, schätzen wir mit der Stichprobe aus dem Probebetrieb den Mittelwert µX und geben für µX ein 95%iges Konfidenzintervall an. Der Stichprobe ist n = 10 und x̄ = 497.8 als Schätzwert für µX zu entnehmen. Mit α√= 1 − 0.95 = 0.05 und z1−α/2 = z0.975 = 1.96 ergibt sich d = z1−α/2 σX / n = 1.96 · 10/4.47 = 4.38. Damit findet man die Grenzen u = x̄ − d = 493.4 und o = x̄ + d = 502.2. Strebt man einer genauere Schätzung des Mittelwerts µX an, etwa eine Intervallschätzung mit d = 3, folgt bei gleicher Sicherheit 1 − α = 0.95 aus Formel (5.5b) n = (1.96 · 10/3)2 = 42.7; der erforderliche Mindeststichprobenumfang beträgt daher n∗ = 43. > > + > > > > > > > > > # Lö s u n g m i t R : x <− c ( 5 0 1 , 5 1 6 , 4 9 8 , 5 0 3 , 5 1 8 , 4 9 8 , 4 7 9 , 4 9 9 , 5 0 2 , 4 7 5 , 505 , 504 , 491 , 495 , 505 , 486 , 494 , 479 , 502 , 506) s i g m a <− 10 # S t a n d a r d a b w e i c h u n g n <− l e n g t h ( x ) # S t i c h p r o b e n u m f a n g # a ) Sch ä t z w e r t und 95%− K o n f i d e n z i n t e r v a l l x q u e r <− mean ( x ) # a r i t h m e t i s c h e s M i t t e l a l p h a <− 0 . 0 5 # G e g e n w a h r s c h e i n l i c h k e i t zum K o n f i d e n z n i v e a u zq <− qnorm (1− a l p h a / 2 ) # (1− a l p h a /2) − Q u a n t i l d . N( 0 , 1 ) − V e r t . d <− zq ∗ s i g m a / s q r t ( n ) # h a l b e I n t e r v a l l b r e i t e u <− x q u e r −d ; o <− x q u e r +d # I n t e r v a l l g r e n z e n p r i n t ( cbind ( xquer , d , u , o ) , d i g i t s =4) xquer d u o [ 1 , ] 497.8 4.383 493.4 502.2 > # b ) e r f o r d e r l i c h e s M i n d e s t −n > d <− 3 # G e n a u i g k e i t s v o r g a b e > n s <− c e i l i n g ( ( zq ∗ s i g m a / d ) ^ 2 ) ; n s # M i n d e s t −n [ 1 ] 43 6 Wenn α zunimmt, wird 1 − α/2 kleiner und damit auch das Quantil z 1−α/2 . Ein größeres α bedeutet ein kleineres Konfidenzniveau 1 − α, das in diesem Zusammenhang auch als Sicherheit der Schätzung bezeichnet wird. 314 5 Schätzen und Testen b) Konfidenzintervall für den Mittelwert bei unbekannter Varianz. Im Allgemeinen ist die Varianz der Grundgesamtheit nicht bekannt. Um ein Konfidenzintervall für den Mittelwert µX bei unbekannter Varianz zu erhalten, müssen die Grenzen (5.5a) auf Sn (5.6) U = X̄n − D, O = X̄n + D mit D = tn−1,1−α/2 √ n abgeändert werden. In dieser Formel ist Sn die Quadratwurzel der Stichprobenvarianz Sn2 . Mit dem Großbuchstaben D wird zum Ausdruck gebracht, dass die halbe Intervallbreite über Sn von der Zufallsstichprobe abhängt und folglich eine Zufallsvariable ist. Die Größe tn−1,1−α/2 bezeichnet das (1 − α/2)-Quantil der tn−1 Verteilung, die wie die Chiquadrat-Verteilung eine wichtige theoretische Verteilung der Statistik darstellt. Nach Abschnitt 5.2.1 ist das Stichprobenmittel X̄n bei N(µX , σX2 )-verteilter Grundgesamtheit X normalverteilt mit dem Mittelwert µX̄n = µX und der Varianz σX̄n = √ √ man σX / n. Es folgt, dass (X̄n − µX )/(σX / n) standardnormalverteilt ist. Schätzt√ σX im Nenner durch Sn , erhält man die Zufallsvariable X̄n∗ = (X̄n − µX )/(Sn / n), deren Verteilung bei großem n praktisch mit der N(0, 1)-Verteilung zusammenfällt, bei kleinem n aber deutlich abweicht. Die Verteilung von X̄n∗ ist eine t-Verteilung mit f = n − 1 Freiheitsgraden (n = 2, 3, . . .), wofür man auch kurz X̄n∗ ∼ tn−1 schreibt. Abb. 5.5 zeigt beispielhaft die Verteilung von X̄n∗ für n = 3, die näherungsweise durch einen auf 10000 Zufallsstichproben basierenden Histogrammschätzer und exakt durch die t2 -Verteilung dargestellt ist. Man erkennt, dass die Dichtekurve symmetrisch um die Nullstelle verläuft. Dies gilt auch für jedes n > 2; mit wachsendem n nähert sich die Verteilung von X̄n∗ der N(0, 1)-Dichte.7 Die Varianz der t f -Verteilung ist für f = 3, 4, · · · durch f /( f − 2) gegeben. Beispiel 5.5. Wir demonstrieren die Anwendung der Formel (5.6) an Hand der Zufallsstichprobe 10.07, 10.02, 9.99, 10.01, 9.98 aus einer N(µ, σ 2 )-verteilten Grundgesamtheit X und bestimmen damit eine Realisierung des 95%igen Konfidenzintervall für µ. Es ist n = 5, x̄ = 10.01 und s = 0.03507. Mit α = 1 − 0.95 = 0.05 und dem t-Quantil tn−1,1−α/2 = t4,0.975 = 2.776 √ erhält man als Realisierung der halben Intervallbreite d = tn−1,1−α/2 s/ n = 0.04355 und damit die Grenzen u = x̄ − d = 9.97 und o = x̄ + d = 10.06 des empirischen 95%Konfidenzintervalls für µ. > > > > # Lö s u n g m i t R : x <− c ( 1 0 . 0 7 , 1 0 . 0 2 , 9 . 9 9 , 1 0 . 0 1 , 9 . 9 8 ) n <− l e n g t h ( x ) ; x q u e r <− mean ( x ) ; s <− s d ( x ) p r i n t ( cbind ( n , xquer , s ) , d i g i t s =4) n xquer s [ 1 , ] 5 10.01 0.03507 > a l p h a <− 0 . 0 5 Die Verteilung von X̄n∗ wurde vom englischen Statistiker W. S. Gosset (1876-1937) untersucht, der seine Ergebnisse unter dem Pseudonym „Student“ veröffentlichte. Die t-Verteilung wird daher auch als Student-Verteilung und die Größe X̄n∗ wird als studentisiertes Stichprobenmittel bezeichnet. 7 315 0.0 0.1 Dichte 0.2 0.3 0.4 5.2 Parameterschätzung bei normalverteilter Grundgesamtheit −3 −2 −1 0 X* 1 2 3 √ Abb. 5.5 Verteilung des studentisierten Stichprobenmittels X̄n∗ = (X̄n − µX )/(Sn / n): Aus der Grundgesamtheit X ∼ N(µX , σX2 ) mit µX = 2 und σX = 0.7 wurden 10000 Zufallsstichproben (jede mit dem Umfang n = 3) ausgewählt und die Variation der Realisierungen von X̄n∗ durch ein flächennormiertes Histogramm dargestellt. Die Dichtekurve der exakten t2 -Verteilung ist strichliert und die Standardnormalverteilungsdichte punktiert eingezeichnet. q <− q t (1− a l p h a / 2 , n −1) # Q u a n t i l d . t −V e r t e i l u n g s e <− s / s q r t ( n ) # S t a n d a r d f e h l e r d . S t i c h p r o b e n m i t t e l s d <− q∗ s e # h a l b e Lä nge d e s K o n f i d e n z i n t e r v a l l s u <− x q u e r −d ; o <− x q u e r +d # G r e n z e n d . K o n f i d e n z i n t e r v a l l s p r i n t ( c b i n d ( a l p h a , q , se , d , u , o ) , d i g i t s = 4 ) alpha q se d u o [ 1 , ] 0.05 2.776 0.01568 0.04355 9.97 10.06 > > > > > c) Konfidenzintervall für die Varianz. Wie bei der Mittelwertschätzung sei X normalverteilt mit dem Mittelwert µX und der Varianz σX2 . Bei der Bestimmung eines (1 − α)-Konfidenzintervalles für die Varianz σX2 gehen wir davon aus, dass die mit (n − 1)/σX2 multiplizierte Stichprobenvarianz Sn2 chiquadratverteilt ist mit dem Frei2 heitsgrad n − 1. Es folgt, dass die Größe (n − 1)Sn2 /σX2 die Quantile χn−1,α/2 und 2 χn−1,1−α/2 mit der Wahrscheinlichkeit α/2 unter- bzw. überschreitet. Dies bedeutet, dass (n − 1)Sn2 /σX2 mit der Wahrscheinlichkeit 1 − α einen Wert zwischen den genannten Quantilen annimmt. Somit gilt: (n − 1)Sn2 2 2 ≤ χn−1,1−α/2 1 − α = P χn−1,α/2 ≤ σX2 ! 1 σX2 1 =P ≥ ≥ 2 2 (n − 1)Sn2 χn−1,α/2 χn−1,1−α/2 ! (n − 1)Sn2 (n − 1)Sn2 2 ≥ σX ≥ 2 =P 2 χn−1,α/2 χn−1,1−α/2 Aus der zuletzt erhaltenen Beziehung lassen sich unmittelbar die Grenzen 316 5 Schätzen und Testen Uσ 2 = (n − 1)Sn2 (n − 1)Sn2 und Oσ 2 = 2 2 χn−1,1−α/2 χn−1,α/2 (5.7) des gesuchten Konfidenzintervalls für die Varianz σX2 ablesen.8 Indem man für die Stichprobenvarianz die aus einer Zufallsstichprobe des Umfangs n berechnete Realisierung s2n einsetzt, erhält man für σX2 ein empirisches (1 − α)-Konfidenzintervall.9 . Beispiel 5.6. Es sei 2.01, 2.15, 1.98, 1.95, 2.22, 1.98, 1.96, 1.88, 2.09, 1.92 eine Zufallsstichprobe aus einer normalverteilten Grundgesamtheit X. Die Stichprobe hat den Umfang n = 10, das arithmetische Mittel x̄ = 2.014, die Standardabweichung s = 0.1069 und die Varianz s2 = 0.01143. Wir berechnen mit den Formeln (5.10) die Grenzen eines 95%igen Konfidenzintervalls für σX2 . Aus dem vorgegebenen Konfidenzniveau 1 − α folgt α = 0.05. Für die untere Grenze 2 2 wird das Quantil χn−1,1−α/2 = χ9,0.975 = 19.02 benötigt, für die obere Gren2 2 ze das Quantil χn−1,α/2 = χ9,0.025 = 2.700. Indem man s2n = 0.01143 für Sn2 , n = 10 und die Werte für die Quantile in (5.7) einsetzt, ergeben sich die mit unserer Stichprobe realisierten Grenzen uσ 2 = 0.0054 und oσ 2 = 0.038. Die X X entsprechenden Grenzen eines 95%igen Konfidenzintervalls für die Standard√ √ abweichung σX sind uσ = uσ 2 = 0.0735 bzw. oσ = oσ 2 = 0.195. Die im Beispiel verwendete Stichprobe mit dem Umfang n = 10 wurde mit der R-Funktion rnorm(10, 2, 0.1) aus der normalverteilten Grundgesamtheit X (µX = 2, σX = 0.1) generiert. Der mit dieser Stichprobe berechnete Schätzwert s2n = 0.01143 sowie die Grenzen des 95%igen Konfidenzintervalls für σX2 sind im ersten Intervall von Abb. 5.6 dargestellt. Die anderen Intervalle der Abbildung wurden auf die gleiche Weise ermittelt. Wie man sieht, kann ein empirisches Konfidenzintervall den wahren Parameter (hier σX2 ) einschließen oder nicht. Die Wahrscheinlichkeit, dass durch eine Zufallsstichprobe ein Intervall realisiert wird, das den wahren Parameter einschließt, ist gleich dem Konfidenzniveau 1 − α (hier 95%). 5.2.3 Konfidenzintervall für den Anstieg einer Regressionsgeraden Im Abschnitt 2.1.3 wurden lineare Regressionsaufgaben betrachtet. Dabei ging es um folgendes Problem: Von zwei Variablen x und Y ist eine Wertetabelle aus n p p p 8 Wegen 1 − α = P U 2 Uσ 2 ≤ σX ≤ Oσ 2 sind Uσ = Uσ 2 und Oσ = σ 2 ≤ σX ≤ Oσ 2 = P p Oσ 2 die Grenzen des entsprechenden Konfidenzintervalls für die Standardabweichung σX . 9 Beim Konfidenzintervall für den Mittelwert liegen die Grenzen symmetrisch um den Schätzwert x̄n für µX . Im Gegensatz dazu liegt beim Konfidenzintervall für die Varianz der Schätzwert s2n für σX2 nicht in der Mitte des Intervalls, sondern näher bei der unteren Grenze. 10 15 20 25 317 5 95%−Konfidenzintervalle für σ2X 5.2 Parameterschätzung bei normalverteilter Grundgesamtheit 0.00 0.02 0.04 Varianz 0.06 0.08 Abb. 5.6 Realisierungen des Konfidenzintervalls [Uσ 2 , Oσ 2 ] für die Varianz. Mit der R-Funktion rnorm() wurden 25 Zufallsstichproben, jede mit dem Umfang n = 10, aus der mit µX = 2 und σX2 = 0.01 normalverteilten Grundgesamtheit X erzeugt. Für jede Stichprobe sind die empirische Varianz s2n (als Punkt) sowie das mit den Formeln (5.7) berechnete 95%ige Konfidenzintervall für σX2 dargestellt. Die strichpunktierte Linie zeigt die Lage der wahren Varianz σX2 = 0.01 an. Man beachte, dass 2 Intervalle die wahre Varianz nicht überdecken. Wertepaaren (xi , yi ) (i = 1, 2, . . . , n) gegeben.10 Zur Erfassung der Abhängigkeit der Variablen Y von x durch eine lineare Funktion denken wir uns die beobachteten Y -Werte durch die Modellgleichung Y = f (x) + R mit f (x) = kx + d erzeugt. Der lineare Term f (x) = kx + d mit den unbestimmten Konstanten k und d bildet den Anteil von Y , der durch die Variable x erklärt werden kann. Diesem Anteil ist die Zufallskomponente R überlagert, die wir als normalverteilt mit dem Mittelwert null und einer gewissen Varianz σR2 annehmen wollen. Folglich ist auch Y für jedes feste x eine normalverteilte Zufallsvariable mit dem Mittelwert µY = f (x) = kx + d und der Varianz σR2 . Die Regressionsfunktion f ordnet also jedem x den Mittelwert µY = f (x) = kx + d von Y zu. Man bezeichnet Y als abhängige Variable oder Zielvariable, x als unabhängige Variable oder Einflussvariable und f als lineare Regressionsfunktion. Der Graph von f heißt Regressionsgerade mit dem Anstieg k und dem y-Achsenabschnitt d. Um mit der Modellgleichung Y = kx + d + R arbeiten zu können, müssen die Konstanten k, d und σR2 mit Hilfe der gemessenen Variablenwerte geschätzt werden. Zur Bestimmung von Schätzwerten für die Geradenparameter werden zu jedem xi die Residuen ri = yi − f (xi ) = yi − kxi − d gebildet. Durch Minimierung der von k und d abhängigen Summe der quadrierten Residuen erhält man die bereits in Abschnitt 2.3.1 (Formel 2.4) angegebenen Kleinsten Quadrate-Schätzwerte 10 Mit dem Großbuchstaben Y wird nun deutlich gemacht, dass Y eine Zufallsvariable ist. Dagegen unterliegt x keiner Zufallsvariation. Vielmehr hat man sich unter x eine vom Beobachter kontrollierte Variable (d.h. eine Variable mit vorgegebenen Werten) vorzustellen. 318 5 Schätzen und Testen k̂ = sxy und dˆ = ȳ − k̂x̄ s2x (5.8a) für k bzw. d. Hier sind x̄ und ȳ die arithmetischen Mittel der xi - bzw. yi -Werte, s2x ist die empirische Varianz der xi -Werte und sxy die empirische Kovarianz der beiden Messreihen. Mit k̂ und dˆ kann man das Zielvariablenmittel µY durch ŷ = k̂x + dˆ in Abhängigkeit von x schätzen. Die dritte Modellkonstante σR2 wird durch die mit dem Nenner n − 2 gemittelte Summe der Quadrate der Residuen ri = yi − k̂xi − dˆ geschätzt, also durch:11 σ̂R2 = 1 n−2 n ∑ ri2 = i=1 s2y − k̂2 s2x n−1 n−2 (5.8b) Die Größe s2y ist die Varianz der yi -Werte. Für eine konkrete Stichprobe mit den Wertepaaren (xi , yi ) (i = 1, 2, . . . , n) erhält man aus (5.8b) einen Schätzwert für σR2 . Mit diesem Schätzwert lassen sich die Grenzen eines (1 − α)-Konfidenzintervalls für den Anstieg k in der Form uk = k̂ − tn−2,1−α/2 σ̂k̂ , ok = k̂ + tn−2,a−α/2 σ̂k̂ mit σ̂k̂ = σ̂ √R sx n − 1 (5.9) anschreiben. Die Größe tn−2,1−α/2 ist das (1 − α/2)-Quantil der tn−2 -Verteilung. Die Grenzen uk und ok sind als Realisierungen von zwei Zufallsvariablen Uk bzw. Ok zu verstehen, die den (unbekannten) Anstieg k der Regressionsgeraden mit der vorgegebenen Wahrscheinlichkeit 1 − α einschließen. Mit dem Konfidenzintervalls [uk , ok ] kann man prüfen, ob die Variable Y im Rahmen des betrachteten linearen Modells Y = kx + d + R überhaupt von x abhängt. Dies ist genau dann der Fall, wenn der Anstieg k der Regressionsgeraden von null abweicht. Wir entscheiden uns für k 6= 0, wenn das Konfidenzintervall [uk , ok ] die null nicht einschließt. Wendet man dieses Prüfkriterium an, hat man das Risiko α, eine falsche Entscheidung zu treffen. Denn das Konfidenzintervall [uk , ok ] kann mit der Wahrscheinlichkeit α rechts oder links vom wahren Anstieg k liegen.12 Die Abhängigkeitsprüfung sollte ein zentraler Bestandteil einer jeden Regressionsanalyse sein. Kann man einen Anstieg k = 0 nicht ausschließen, macht es keinen Sinn, die (nicht vorhandene) Abhängigkeit des Zielvariablenmittels von x durch Angabe der 11 Wegen ∑ ri = ∑ (yi − k̂xi − d) = ∑ yi − k̂ ∑ xi − nd = 0 ist das arithmetische Mittel r̄ = ∑ ri /n der Residuen null (die Summation erstreckt sich jeweils von 1 bis n). Zur Schätzung von σR2 wird also die Varianz der Residuen herangezogen. Die Division durch n − 2 sichert eine erwartungstreue Schätzung der Varianz σR2 . 12 Die Abhängigkeitsprüfung kann auch mit einer Variante des t-Tests durchgeführt werden, die äquivalent zur Entscheidungsfindung mit dem Konfidenzintervall für den Anstieg k ist. Vergleiche mit dem t-Test werden in den kommenden Abschnitten behandelt. Man entscheidet √ sich (mit dem Irrtumsrisiko α) für k 6= 0, wenn die Testgröße tgn = k̂/σ̂k̂ mit σ̂k̂ = σ̂R /[sx n − 1] größer als das (1 − α/2)-Quantil tn−2,1−α/2 der tn−2 -Verteilung ist. In der R-Funktion lm() ist dieser Test standardmäßig lineare Regressionsaufgaben vorgesehen. 5.2 Parameterschätzung bei normalverteilter Grundgesamtheit 319 Geradengleichung ŷ = k̂x + dˆ zu dokumentieren, auch dann nicht, wenn der Schätzwert k̂ von null abweicht. Beispiel 5.7. Im Blutplasma wurde die Konzentrationen c (in ng/ml) eines Wirkstoffes in Abhängigkeit von der Zeit t (in h) bestimmt. Für die Eliminationsphase ergaben sich die folgenden Messwerte (der Index i läuft von 1 bis 10): 5 6 7 8 9 10 11 12 13 14 ti ci 8.64 7.47 5.88 5.61 3.90 3.23 2.42 2.64 1.87 2.08 In der rechten Grafik von Abb. 5.7 sind die Datenpunkte (ti , ci ) dargestellt. Die Grafik legt eine exponentielle Abnahme nach dem Zeitgesetz c = c0 e−βt nahe, in dem c0 und β zwei positive Konstanten sind. Wir stellen uns die Aufgabe, für die Konstante β einen Schätzwert und ein 95%iges Konfidenzintervall zu bestimmen. Durch Logarithmieren der Funktionsgleichung erhält man die lineare Beziehung y = kt + d mit y = ln c, k = −β und d = ln c0 . Diese stellt in der (t, y)Ebene eine Gerade dar. Wir schätzen den Anstieg dieser Geraden, in dem wir die Gerade nach der Methode der kleinsten Quadrate an die Datenpunkte (ti , yi ) mit yi = ln ci anpassen. Die rechte Grafik in Abb. 5.7 zeigt das Streudiagramm der Datenpunkte (ti , yi ) und die angepasste Regressionsgerade. Der Anstieg dieser Geraden kann mit (5.8a) berechnet werden. Die Varianz der Zeitwerte ist st2 = 9.167, für die Kovarianz der y- und t-Werte erhalten wir syt = −1.624. Damit ergibt sich der Schätzwert k̂ = syt /st2 = −0.1771 für k. Das Konfidenzintervall wird mit (5.9) berechnet. Es ist α = 0.05, n = 10 und tn−2,1−α/2 = t9,0.975 = 2.306. Für die Varianz der Reststreuung ergibt sich aus (5.8b) der Schätzwert σ̂R2 = 0.01431. Mit σ̂k = 0.01317 folgen schließlich die Grenzen uk = −0.2075 und ok = −0.1468. Offensichtlich liegt der Wert null nicht im Intervall [uk , ok ]. Mit dem vorgegebenen Irrtumsrisiko α = 5% kann daher geschlossen werden, dass der wahre Anstieg der Regressionsgeraden von null verschieden ist. Wegen β = −k ist β̂ = 0.1771 ein Schätzwert für β und [uβ , oβ ] mit uβ = 0.1468, oβ = 0.2075 ein 95%iges Konfidenzintervall für β . > > > + > > > > > > > > # Lö s u n g m i t R : t <− 5 : 1 4 # Z e i t ( i n h ) c <− c ( 8 . 6 4 , 7 . 4 7 , 5 . 8 8 , 5 . 6 1 , 3 . 9 0 , 3 . 2 3 , 2 . 4 2 , 2 . 6 4 , 1 . 8 7 , 2 . 0 8 ) # K o n z e n t r a t i o n ( ng / ml ) y <− l o g ( c ) ; l i n r e g <− lm ( y ~ t ) # Sch ä t z w e r t kd u . 95%− K o n f i d e n z i n t e r v a l l [ uk , ok ] f ü r k kd <− c o e f f i c i e n t s ( l i n r e g ) [ [ 2 ] ] uk <− c o n f i n t ( l i n r e g ) [ [ 2 , 1 ] ] ok <− c o n f i n t ( l i n r e g ) [ [ 2 , 2 ] ] # Sch ä t z w e r t bd u . 95%− K o n f i d e n z i n t . [ ubd , obd ] f ü r b e t a bd <− −kd ; ubd <− −ok ; obd <− −uk p r i n t ( c b i n d ( kd , uk , ok , bd , ubd , obd ) , d i g i t s = 4 ) kd uk ok bd ubd obd [ 1 , ] −0.1771 −0.2075 −0.1468 0 . 1 7 7 1 0 . 1 4 6 8 0 . 2 0 7 5 5 Schätzen und Testen y^ = − 0.1771t + 2.315 1.5 y = ln c 0.0 2 0.5 4 1.0 6 8 2.0 c^ = 10.13e−0.1771t 0 Konzentration c (in ng/ml) 10 2.5 320 6 8 10 Zeit t (in h) 12 14 6 8 10 12 14 Zeit t (in h) Abb. 5.7 Exponentielle Abnahme der Konzentration eines Pharmakons im Blutplasma nach dem Zeitgesetz c = c0 e−βt . Die Eliminationskonstante β kann nach logarithmischer Transformation der Konzentrationswerte im Rahmen einer linearen Regressionanalyse geschätzt werden. Aufgaben 1. Es sei X eine χ 2f -verteilte Zufallsvariable. Die Dichtekurve der ChiquadratVerteilung zeigt für alle Freiheitsgrade f eine rechtsschiefe Asymmetrie; die Dichtekurve steigt für f = 3, 4, . . . links steiler an und fällt nach rechts flacher ab. Eine Folge ist, dass das 75%-Quantil x0.75 vom Median x0.50 weiter entfernt ist als das 25%-Quantil x0.25 . Man bestätige diese Behauptung für f = 10. Zur Berechnung des p-Quantils der χ 2f -Verteilung verwende man die R-Funktion qchisq(p, f). 2. Die Dichtekurve der t-Verteilung besitzt für jeden Freiheitsgrad f = 1, 2, . . . einen um den Nullpunkt symmetrischen Verlauf. Im Vergleich zur N(0, 1)Dichtekurve ist die Dichtekurve der t-Verteilung „breiter“, so dass der Quartilabstand IQR f = x0.75 − x0.25 (also die Differenz des 75%- und 25%-Quantils) größer ist als der entsprechende Quartilabstand IQR = z0.75 − z0.25 für eine N(0, 1)-verteilte Zufallsvariable Z. Man bestätige die Behauptung für den Freiheitsgrad f = 5. Zur Berechnung des p-Quantils der t f -Verteilung verwende man die R-Funktion qt(p, f) und zur Berechnung des p-Quantils der Standardnormalverteilung die R-Funktion qnorm(p). 3. Zur Sicherung der Produktqualität werden aus einer Fertigung laufend Stichproben entnommen und die zu überwachende Größe X gemessen. In einem Erhebungszeitpunkt ergaben sich die folgenden Werte der als normalverteilt vorausgesetzten Größe X (in mg/l): 2.00, 2.10, 2.02, 1.99, 2.16. a) Man bestimme ein 95%iges Konfidenzintervall für den Mittelwert µ von X. Wie groß müsste der Stichprobenumfang sein, damit man eine Schätzung mit Konfidenzintervall erwarten kann, das nur 1/4 der Länge des ursprünglichen Intervalls aufweist? 5.3 Vergleich eines Mittelwerts mit einem Sollwert 321 b) Welche konkreten Grenzen ergeben sich mit den Stichprobenwerten für ein 95%iges Konfidenzintervalls für die Standardabweichung σ von X. Um wie viel Prozent ist das 99%ige Konfidenzintervall für σ größer als das 95%ige Intervall? 4. Nach dem statistischen Jahrbuch 2015 für Österreich ist der Prozentsatz der täglich rauchenden Personen in der männlichen Bevölkerung (ab 16 Jahren) von 1972 bis 2006 wie folgt gesunken (in Klammern ist jeweils das Erhebungsjahr angeführt): 38.7 (1972), 35.3 (1979), 34.6 (1986), 30.0 (1997), 27.5 (2006). Man stelle die Abhängigkeit des Prozentsatzes von der Zeit durch ein lineares Regressionsmodell dar und bestimme ein 95%iges Konfidenzintervall für den Anstieg der Regressionsgeraden. (Der Anstieg kann als mittlere Änderung des Prozentsatzes pro Jahr interpretiert werden.) 5.3 Vergleich eines Mittelwerts mit einem Sollwert 5.3.1 Der 1-Stichproben t-Test für 2-seitige Hypothesen Von einer als N(µ, σ 2 )-verteilt angenommenen Variablen X liegen n Messwerte x1 , x2 , . . . , xn mit dem arithmetischen Mittel x̄n und der empirischen Varianz s2n vor. In diesem Abschnitt wird gezeigt, wie man mit Hilfe der Stichprobe entscheiden kann, ob der Mittelwert µ von einem vorgegebenen Sollwert µ0 abweicht, also µ 6= µ0 gilt. Die Aussage, die man nachweisen will, wird als Alternativhypothese in der Form H1 : µ 6= µ0 angeschrieben. Durch logische Verneinung der Alternativhypothese kommt man zur Nullhypothese H0 : µ = µ0 . Eine allfällige Entscheidung für die Alternativhypothese (und damit gegen die Nullhypothese) wird mit einem statistischen Test herbeigeführt. Der klassische Test für den betrachteten Mittelwertvergleich mit den Entscheidungsalternativen H0 : µ = µ0 gegen H1 : µ 6= µ0 (5.10) ist der 1-Stichproben t-Test. Bei diesem Test wird zur Entscheidung die von der Zufallsstichprobe abhängige Variable X̄n − µ0 T Gn = p Sn2 /n (5.11) verwendet, in der X̄n und Sn2 das Stichprobenmittel bzw. die Stichprobenvarianz bedeuten. Die Größe (5.11) wird als Testgröße des 1-Stichproben t-Tests bezeichnet. Die Testgröße nimmt für die durch die beobachtete Stichprobe realisierten Werte 322 5 Schätzen und Testen p x̄n und s2n von X̄n bzw. Sn2 den Wert tgn = (x̄n − µ0 )/ s2n /n an. Wenn H0 : µ = µ0 zutrifft, ist die Testgröße (5.11) tn−1 -verteilt.13 Wir nehmen nun an, dass H0 : µ = µ0 gilt. Dann wird das Stichprobenmittel X̄n mit hoher Wahrscheinlichkeit einen Wert x̄n nahe bei µ0 annehmen und folglich T Gn mit hoher Wahrscheinlichkeit nahe bei null liegen; stark von null abweichende Testgrößenwerte sind dagegen nur mit geringer Wahrscheinlichkeit zu erwarten. Hat man eine Realisierung tgn der Testgröße, so kann man die Wahrscheinlichkeit P des Ereignisses berechnen, dass die Testgröße einen Wert annimmt, der zumindest so stark von null abweicht wie die erhaltene Realisierung tgn . Diese Wahrscheinlichkeit – man bezeichnet sie kurz als P-Wert – ist durch P = P(T Gn ≤ −|tgn |) + P(T Gn ≥ |tgn |) = 2[1 − Fn−1 (|tgn |)] (5.12) gegeben (vgl. Abb. 5.7); hier bezeichnet Fn−1 die Verteilungsfunktion der t-Verteilung mit n − 1 Freiheitsgraden.14 Der P-Wert ist also ein Maß für die Wahrscheinlichkeit, mit einer Zufallsstichprobe vom Umfang n eine Testgröße T Gn mit |T Gn | ≥ |tgn | zu erhalten. Der P-Wert spielt bei der Testentscheidung eine zentrale Rolle. Die Vorgangsweise ist dabei dem indirekten Beweis15 der Mathematik nachgebildet: Wir wollen wissen, ob H1 : µ 6= µ0 gilt, und nehmen an, dies ist nicht der Fall. Wenn also H0 : µ = µ0 gilt, ist es unwahrscheinlich, dass eine der Grundgesamtheit entnommene Zufallsstichprobe zu einem von null „stark“ abweichenden Testgrößenwert tgn führt. Tritt dieses (unwahrscheinliche) Ereignis aber ein, so interpretieren wir dies als ein Indiz gegen die angenommene Nullhypothese und entscheiden uns für H1 . Zu präzisieren ist noch, was eine von null “stark“ abweichende Realisierung tgn ist. Es ist naheliegend, dafür den P-Wert (5.12) zu verwenden und die Abweichung tgn der Testgröße von null dann als stark zu bezeichnen, wenn der P-Wert eine vereinbarte kleine Schranke α unterschreitet. Wir entscheiden uns demnach für H1 , wenn P < α ist. Wenn wir nach diesem Kriterium entscheiden, besteht natürlich ein Risiko, H0 irrtümlich abzulehnen. Man bezeichnet die irrtümliche Ablehnung der Nullhypothese als Fehler erster Art oder α-Fehler. Die Wahrscheinlichkeit, H0 irrtümlich abzulehnen, ist aber nach oben durch α begrenzt. Man nennt α das Signifikanzniveau oder Testniveau. Meist wird α = 5% angenommen. Ein zu P < α äquivalentes Kriterium für die Ablehnung von H0 kann man auch mit der Realisierung tgn der Testgröße formulieren. Wir bestimmen dazu jenen Testgrößenwert cα > 0, der die Forderung P = 2[1 − Fn−1 (cα )] = α erfüllt. Wegen Fn−1 (cα ) = 1 − α/2 ist cα gleich dem (1 − α/2)-Quantil der tn−1 -Verteilung, d.h. cα = tn−1,1−α/2 . Die Nullhypothese wird auf dem Signifikanzniveau α abgelehnt, wenn |tgn | > cα = tn−1,1−α/2 gilt. 13 In diesem Fall stimmt nämlich T Gn mit dem im vorangehenden Abschnitt betrachteten studentisierten Stichprobenmittel X̄n∗ überein. 14 Man beachte, das die t n−1 -Verteilung eine symmetrisch um null verlaufende Dichtekurve besitzt und daher P(T Gn ≤ −|tgn |) = P(T Gn ≥ |tgn |) = 1 − Fn−1 (|tgn |) ist. Der Wert der Verteilungsfunktion Fn−1 an der Stelle x = |tgn | kann z.B. mit der R-Funktion pt(x, n-1) bestimmt werden. 15 Beim indirekten Beweis geht man von der Verneinung ¬A der zu beweisenden Aussage A aus. Kommt man von ¬A durch eine logische Schlusskette zu einer offensichtlich falschen Aussage, so muss ¬A falsch und die Verneinung von ¬A, also die Aussage A, richtig sein. 5.3 Vergleich eines Mittelwerts mit einem Sollwert 323 Dichte tn−1 0.2 P(TGn <= −|tgn|) P(TGn >= |tgn|) −|tgn| −3 −2 |tgn| 0.1 −1 0 1 2 TGn Abb. 5.8 Berechnung des P-Werts beim 2-seitigen 1-Stichproben t-Test. Die Grafik verwendet die Zufallsstichprobe mit dem Umfang n = 10 aus Beispiel 5.8. Die Größe tgn = 2.45 ist der mit diesen Daten realisierte Wert der Testgröße (5.11). Der P-Wert ist gleich der Wahrscheinlichkeit, dass T Gn ≥ |tgn | oder T Gn ≤ −|tgn | gilt. Diese Wahrscheinlichkeiten entsprechen der „Überschreitungsfläche“ der Stelle |tgn | bzw. der „Unterschreitungsfläche“ der Stelle −|tgn |. Aus Symmetriegründen sind beide Flächen gleich groß, so dass der P-Wert aus P = 2P(T Gn ≤ −|tgn |) bestimmt werden kann. Der Mittelwertvergleich mit den Hypothesen (5.10) heißt 2-seitig, weil die Alternativhypothese H1 : µ = µ0 Abweichungen von dem in der Nullhypothese H0 : µ = µ0 spezifizierten Sollwert nach beiden Seiten (d.h. Über- oder Unterschreitungen) vorsieht. Beispiel 5.8. Es sei X ein N(µ, σ 2 )-verteiltes Qualitätsmerkmal, z.B. der Außendurchmesser einer Kanüle in mm. Für µ ist ein Sollwert von µ0 = 1.2 vorgegeben. Zur Überprüfung der Vorgabe wurde aus einem Produktionslos die Zufallsstichprobe16 1.22, 1.41, 1.40, 1.30, 1.11, 1.35, 1.30, 1.22, 1.24, 1.19 entnommen. Wir prüfen mit dem 1-Stichproben t-Test, ob auf 5%igem Signifikanzniveau der Mittelwert µ vom Sollwert µ0 abweicht. Dem entsprechend formulieren wir die Alternativhypothese H1 : µ 6= µ0 und die Nullhypothese H0 : µ = µ0 . Der Stichprobe entnimmt man n = 10, x̄ = 1.274 und s = 0.09571. Damit ergibt sich der Wert tgn = 2.445 der unter der Nullhypothese t9 -verteilten Testgröße T Gn . Diese Verteilung ist in Abb. 5.7 gemeinsam mit der Realisierung |tgn | = 2.445 und dem am Nullpunkt gespiegelten Wert −|tgn | = −2.445 dargestellt. Für den P-Wert benötigen wir den Wert der Verteilungsfunktion Fn−1 der tn−1 -Verteilung an der Stelle x = |tgn |. Diesen berechnen 16 Für das Beispiel wurde µ = 1.3 und σ = 0.1 angenommen und die Zufallsstichprobe mit der R-Funktion rnorm(10, 1.3, 0.1) generiert. 324 5 Schätzen und Testen wir mit Hilfe der R-Funktion pt(x, n-1) = 0.9815. Daher ist der P-Wert P = 2[1 − Fn−1 (|tgn |)] = 0.03706. Wegen P ≈ 3.7% < 5% entscheiden wir uns für H1 , d.h. die Abweichung des beobachteten arithmetischen Mittels x̄ = 1.274 vom Sollwert µ0 = 1.2 ist auf Testniveau α = 5% signifikant. Einfacher ist es, wenn man die in einschlägigen statistischen Softwareprodukten bereit gestellten Funktionen nutzt. Die folgende Problemlösung zeigt die Anwendung der R-Funktion t.test(). Die Ergebnisse enthalten nicht nur den P-Wert (p-value), sondern darüber hinaus auch ein 95%iges Konfidenzintervall für µ, mit dem die Abweichung vom Sollwert beurteilt werden kann. > # Lö s u n g m i t R : > x <− c ( 1 . 2 2 , 1 . 4 1 , 1 . 4 0 , 1 . 3 0 , 1 . 1 1 , + 1.35 , 1.30 , 1.22 , 1.24 , 1.19) > t . t e s t ( x , mu = 1 . 2 , c o n f . l e v e l = 0 . 9 5 ) One Sample t − t e s t data : x t = 2 . 4 4 5 , d f = 9 , p−v a l u e = 0 . 0 3 7 0 6 a l t e r n a t i v e h y p o t h e s i s : t r u e mean i s n o t e q u a l t o 1 . 2 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 1.205535 1.342465 sample e s t i m a t e s : mean o f x 1.274 5.3.2 Gütefunktion des 2-seitigen t-Tests Nach dem vorangehenden Abschnitt wird die Nullhypothese H0 : µ = µ0 abgelehnt, wenn P = 2P(T Gn < −|tgn |) < α bzw. |tgn | > tn−1,1−α/2 gilt. Wenn man mit einem dieser Kriterien entscheidet, ist die Wahrscheinlichkeit, H0 irrtümlich abzulehnen, durch P(Ablehnung von H0 |µ = µ0 ) = P(T Gn < −tn−1,1−α/2 ) + P(T Gn > tn−1,1−α/2 ) = P(T Gn < tn−1,α/2 ) + 1 − P(T Gn ≤ tn−1,1−α/2 ) = α/2 + 1 − (1 − α/2) = α (5.13a) gegeben; dabei wurde verwendet, dass die Testgröße T Gn unter der Nullhypothese tn−1 -verteilt ist. Wenn H0 gilt, führt die Testentscheidung mit der geringen Irrtumswahrscheinlichkeit α zu einer (irrtümlichen) Ablehnung von H0 . Ist dagegen µ 6= µ0 , so sollte die Testentscheidung mit hoher Wahrscheinlichkeit zu einer Ablehnung von H0 führen. Diese Wahrscheinlichkeit hängt wesentlich davon ab, wie weit der Mittelwert µ vom Sollwert µ0 abweicht. Die Abhängigkeit von µ wird durch die Gütefunktion G erfasst. Die Gütefunktion ordnet jedem reellen µ die Wahrscheinlichkeit 5.3 Vergleich eines Mittelwerts mit einem Sollwert 325 G(µ) = P(Ablehnung von H0 |µ) = P(|T Gn | > tn−1,1−α/2 |µ) = P(T Gn < −tn−1,1−α/2 |µ) + 1 − P(T Gn < tn−1,1−α/2 |µ) (5.13b) zu, mit der eine Zufallsstichprobe vom Umfang n aus der Grundgesamtheit X zu einer Ablehnung von H0 führt. Zur Berechnung der Wahrscheinlichkeiten in (5.13b) benötigen wird die nichtzentrale t-Verteilung. Im Falle µ 6= µ0 ist nämlich die Testgröße T G√ n nicht mehr t-verteilt, sondern mit den Parametern f = n − 1 und λ = (µ − µ0 ) n/σ nichtzentral t-verteilt; f heißt wie bei der t-Verteilung Freiheitsgrad, λ ist der sogenannte Nichtzentralitätsparameter. Die Verteilungsfunktion der Testgröße T Gn – wir bezeichnen sie mit Ff ,λ – ist in der oberen Grafik von Abb. 5.9 beispielhaft dargestellt; dabei wurde als Freiheitsgrad f = 9 und als Nichtzentralitätsparameter λ = 3.162 angenommen.17 Im Sonderfall λ = 0 fällt die Verteilungsfunktion Ff ,λ der nichtzentralen t-Verteilung mit der Verteilungsfunktion Ff der t-Verteilung zusammen. P(TG10 <= x) 1 λ=0 λ = 3.162 0.5 0 −2 −1 0 G*(ε) 1 1 2 x 3 4 5 6 G*(ε0)=0.96 0.5 n=10 n=30 G*(ε0)=0.51 G*(0) = α 0 −2 −1 ε0 = 0.7 0 Effektstärke ε 2 Abb. 5.9 Die obere Grafik zeigt die Verteilungsfunktion der Testgröße T Gn zum 1-Stichproben t-Test in Beispiel 5.8. Die Testgröße ist nichtzentral t-verteilt mit den Parametern f = 9 und λ = 3.162. Die strichlierte Linie ist die Verteilungsfunktion der t-Verteilung. In der unteren Grafik ist die Gütefunktion (5.13d) für die Stichprobenumfänge n = 10 und n = 30 dargestellt. Bei gleichbleibendem n strebt die Gütefunktion vom Wert α an der Stelle ε = 0 mit wachsendem Betrag |ε| gegen eins. Hält man ε fest, so kann man den Gütefunktionswert vergrößern, wenn man n erhöht. 17 Die Funktionswerte Ff ,λ (x) können mit der R-Funktion pt(x, df, ncp) bestimmt werden, in der für df und ncp der Freiheitsgrad f bzw. der Nichzentralitätsparameter λ einzusetzen ist. 326 5 Schätzen und Testen Mit Hilfe der Verteilungsfunktion Ff ,λ der nichtzentralen t-Verteilung kann man die Wahrscheinlichkeiten P(T Gn < −tn−1,1−α/2 |µ) und P(T Gn < tn−1,1−α/2 |µ) in (5.13b) durch Fn−1,λ (−tn−1,1−α/2 ) bzw. Fn−1,λ (tn−1,1−α/2 ) ausdrücken. Damit geht (5.13b) in die Gleichung G(µ) = Fn−1,λ (−tn−1,1−α/2 ) + 1 − Fn−1,λ (tn−1,1−α/2 ) mit λ = µ − µ0 √ (5.13c) σ/ n über. Setzt man hier µ = µ0 , ergibt sich wegen λ = 0 und Fn−1,0 = Fn−1 die schon in (5.13a) bestimmte Wahrscheinlichkeit G(µ0 ) = α. Bei der Diskussion der Gütefunktion wird an Stelle von µ oft die dimensionslose Effektstärke ε verwendet. Diese ist als die auf die Standardabweichung σ bezogenen Abweichung ε = (µ − µ0 )/σ des Mittelwerts µ vom Sollwert µ0 definiert. Offensichtlich ist ε = 0, wenn H0 : µ = µ0 gilt, und ε 6= 0, wenn H1 : µ 6= µ0 gilt. Drückt man in (5.13c) µ durch ε aus, folgt G∗ (ε) = G(εσ + µ0 ) √ = Fn−1,λ (−tn−1,1−α/2 ) + 1 − Fn−1,λ (tn−1,1−α/2 ) mit λ = ε n (5.13d) Die untere Grafik von Abb. 5.9 zeigt, wie die Gütefunktion G∗ von der Effektstärke ε abhängt. Dabei wurde α = 0.05 angenommen und als Stichprobenumfänge n = 10 bzw. n = 30 gewählt. Man erkennt, dass die Gütefunktion in der Umgebung des Nullpunktes nur kleine Funktionswerte annimmt und vom Nullpunkt weg mit wachsendem Abstand monoton gegen eins strebt. Beispiel 5.9. Um Werte der Gütefunktion G des 1-Stichproben t-Tests (Hypothesen H0 : µ = µ0 gegen H1 : µ 6= µ0 , Signifikanzniveau α) mit Formel (5.13d) berechnen zu können, müssen der Umfang n der Zufallsstichprobe sowie die Standardabweichung σ der als N(µ, σ 2 )-verteilt angenommenen Grundgesamtheit X bekannt sein. Meist will man den Wert der Gütefunktion an einer Stelle µ = µ0 + δ wissen, die vom Sollwert um eine als relevant angesehene Differenz δ = µ − µ0 abweicht. Dividiert man diese Differenz durch σ , erhält man die Effektstärke ε = δ /σ . Z.B. erhält man mit den Daten α = 0.05, µ0 = 1.2, n = 10 aus Beispiel 5.8 und der bekannten Standardabweichung σ = 0.1 zur vorgegebenen relevanten Differenz δ√= 0.07 die Effektstärke ε = 0.7 und den Nichtzentralitätparameter λ = ε n = 2.214. Das (1 − α/2)-Quantil der tn−1 -Verteilung ist tn−1,1−α/2 = t9,0.975 = 2.262. Setzt man in (5.13d) ein, ergibt sich der in Abb. 5.9 hervorgehobene Gütefunktionswert G(µ0 + δ ) = G∗ (0.7) = 0.5064 ≈ 51%. Die numerische Berechnung ist der folgenden Lösung mit R zu entnehmen. Im Allg. ist σ unbekannt und aus der Stichprobe zu schätzen. Mit den Daten von Beispiel 5.8 erhält man σ ≈ s = 0.09571 und weiter ε ≈ δ /s = 0.7314, √ λ = ε n = 2.313, G(µ0 + δ ) = G∗ (0.7314) = 0.5414 = 0.54%. > # Lö s u n g m i t R : > o p t i o n s ( d i g i t s =4) 5.3 Vergleich eines Mittelwerts mit einem Sollwert 327 > > > > > > > mu0 <− 1 . 2 ; n <− 1 0 ; a l p h a <− 0 . 0 5 ; d e l t a <− 0 . 0 7 t q <− q t (1− a l p h a / 2 , n −1) # t −Q u a n t i l # Bestimmung von G( mu0+ d e l t a ) m i t e x a k t e m s i g m a s i g m a <− 0 . 1 e p s i l o n <− d e l t a / s i g m a ; lambda <− e p s i l o n ∗ s q r t ( n ) G <− p t (− t q , n −1 , lambda )+1− p t ( t q , n −1 , lambda ) p r i n t ( c b i n d ( sigma , e p s i l o n , lambda , G ) ) s i g m a e p s i l o n lambda G [1 ,] 0.1 0.7 2.214 0.5064 > # H i n w e i s : G( mu+ d e l t a ) ( = power ) kann d i r e k t m i t > # power . t . t e s t ( ) b e r e c h n e t werden : > power . t . t e s t ( n =10 , d e l t a = d e l t a , s d = sigma , s i g . l e v e l = 0 . 0 5 , + t y p e =" one . s a m p l e " , s t r i c t =T ) One−s a m p l e n delta sd sig . level power alternative t = = = = = = t e s t power c a l c u l a t i o n 10 0.07 0.1 0.05 0.5064 two . s i d e d > # Bestimmung von G( mu0+ d e l t a ) m i t g e s c h ä t z t e m s i g m a > x <− c ( 1 . 2 2 , 1 . 4 1 , 1 . 4 0 , 1 . 3 0 , 1 . 1 1 , + 1.35 , 1.30 , 1.22 , 1.24 , 1.19) > power . t . t e s t ( n =10 , d e l t a = d e l t a , s d = s d ( x ) , s i g . l e v e l = 0 . 0 5 , + t y p e =" one . s a m p l e " , s t r i c t =T ) One−s a m p l e n delta sd sig . level power alternative t = = = = = = t e s t power c a l c u l a t i o n 10 0.07 0.09571 0.05 0.5414 two . s i d e d Bei einer wenig von null abweichenden Effektstärke ε hat man nur eine geringe Wahrscheinlichkeit G∗ (ε) – oder wie man auch sagt, eine geringe Power, die Nullhypothese H0 : µ = µ0 (d.h. ε = 0) abzulehnen. Kann bei einer von null verschiedenen Effektstärke (also bei einem Mittelwert µ 6= µ0 ) die Nullhypothese nicht abgelehnt werden, so begeht man einen Fehler. Dieser Fehler wird als Fehler 2. Art oder β -Fehler bezeichnet.18 Die Wahrscheinlichkeit, beim 2-seitigen Vergleich eines Mittelwerts mit einem Sollwert einen β -Fehler zu begehen, ist 1 − G∗ (ε). Um die Wahrscheinlichkeit eines β -Fehlers klein zu halten, gibt man für 1 − G∗ (ε) eine Fehlerschranke vor, die mit β bezeichnet wird. Häufig wird β = 10% verwendet, β -Werte über 20% sind unüblich. Die Forderung 1 − G∗ (ε) ≤ β erlaubt es, den Umfang der Zufallsstichprobe in Verbindung mit dem 1-Stichproben t-Test planen. Das Planungsziel ist: Wenn µ 18 Der β -Fehler besteht darin, dass die Testentscheidung nicht zur Ablehnung von H führt, obwohl 0 H1 gilt. Davon zu unterscheiden ist der α-Fehler, bei dem H0 irrtümlich abgelehnt wird. 328 5 Schätzen und Testen von µ0 um δ = σ ε > 0 oder mehr abweicht, soll die Wahrscheinlichkeit (Power) mindestens 1−β betragen, dass der 1-Stichproben t-Test auf dem Niveau α zu einer Ablehnung der Nullhypothese H0 : µ = µ0 führt. Der zur Erreichung dieses Ziels erforderliche Mindeststichprobenumfang ergibt sich als Lösung n∗ der Gleichung 1 − G∗ (ε) = β oder ausführlicher −Fn−1,ε √n (−tn−1,1−α/2 ) + Fn−1,ε √n (tn−1,1−α/2 ) = β (5.14a) Die Planung des Mindeststichprobenumfangs n∗ setzt also voraus, das man eine Abweichung δ = µ − µ0 = σ ε > 0 vorgibt, die man als relevant betrachtet und mit der (hohen) Sicherheit 1 − β erkennen will.19 Die Bestimmung von n∗ aus (5.14a) ist nur auf numerischen Wege möglich.20 Eine grobe Planung des Mindeststichprobenumfangs kann mit der Näherungsformel n∗ ≈ σ2 (z + z )2 δ 2 1−α/2 1−β (5.14b) vorgenommen werden, so ferne n∗ groß genug (jedenfalls nicht kleiner als 10) ist und ein Schätzwert für σ zur Verfügung steht; δ = µ − µ0 ist die relevante Abweichung des Mittelwerts vom Sollwert, z1−α/2 und z1−β sind Quantile der N(0, 1)Verteilung. Eine Begründung der Näherung (5.14b) findet sich in den Ergänzungen (Abschnitt 5.7.1). Beispiel 5.10. Der erforderliche Mindestumfang n∗ einer Zufallsstichprobe soll so geplant werden, dass wir eine Sicherheit von 1−β = 90% haben, mit dem 1-Stichproben t-Test auf 5%igem Signifikanzniveau für H1 : µ 6= µ0 zu entscheiden, wenn µ von µ0 um mindestens δ > 0 abweicht. Unter dem Untersuchungsmerkmal stelle man sich z.B. die Wirkstoffmenge X (in mg) in einer Filmtablette vor. Für den Herstellungsprozess ist ein Sollwert von µ0 = 500 vorgegeben. Aus einer Voruntersuchung sei der Schätzwert s = 31.5 für die Standardabweichung der als normalverteilt angenommenen Grundgesamtheit bekannt. Eine Sollwertabweichung größer oder gleich δ = 25 wird als relevant angesehen. Wir bestimmen zuerst den Mindeststichprobenumfang mit der Näherungsformel (5.14b). Mit den Quantilen z1−α/2 = z0.975 = 1.96 und z1−β = z0.9 = 1.28 der Standardnormalverteilung erhält man: n∗ ≈ 2 31.52 1.96 + 1.28 = 16.68 ≈ 17 2 25 Die Lösung mit R liefert den exakten Wert n∗ = 18.71 ≈ 19. 19 In der Praxis ist es oft schwierig, Informationen über die relevante Abweichung ε zu finden bzw. zu erhalten. 20 Z.B. mit der R-Funktion power.t.test(delta, sd, sig.level, power, type=“one.sample", strict=T), in der für delta die als relevant betrachtete Abweichung δ = µ − µ0 , für sd ein Schätzwert für σ , für sig.level das Signifikanzniveau α und für power die Sicherheit 1 − β einzusetzen ist. 5.3 Vergleich eines Mittelwerts mit einem Sollwert 329 > # Lö s u n g m i t R : > o p t i o n s ( d i g i t s =4) > power . t . t e s t ( d e l t a =25 , s d = 3 1 . 5 , s i g . l e v e l = 0 . 0 5 , + power = 0 . 9 , t y p e =" one . s a m p l e " , s t r i c t =T ) One−s a m p l e n delta sd sig . level power alternative t = = = = = = t e s t power c a l c u l a t i o n 18.71 25 31.5 0.05 0.9 two . s i d e d 5.3.3 Der 1-Stichproben t-Test für 1-seitige Hypothesen Neben den bisher betrachteten Testaufgaben mit 2-seitigen Hypothesen treten in der Praxis auch 1-seitige Hypothesen auf. Will man wissen, ob der Mittelwert µ einen vorgegebenen Sollwert µ0 (z.B. einen Grenzwert) überschreitet, setzt man als Alternativhypothese H1 : µ > µ0 und als Nullhypothese H0 : µ ≤ µ0 an. Man spricht nun von einem 1-seitigen Testproblem, weil bei Gültigkeit von H1 jedes µ auf der Zahlengeraden „auf einer Seite“ (der rechten) von µ0 liegt. Wie beim 2-seitigen Testproblem entscheiden wir uns auf dem Signifikanzniveau α für H1 , wenn der PWert kleiner als α ist. Der P-Wert des 1-seitigen t-Tests auf Überschreitung ist – wie in den Ergänzungen (Abschnitt 5.7.1) gezeigt wird – durch P = 1 − Fn−1 (tgn ) mit tgn = x̄n − µ0 √ sn / n (5.15a) gegeben. Die Größen x̄n und sn sind das arithmetische Mittel bzw. die Standardabweichung der dem Test zugrunde liegenden Zufallsstichprobe mit dem Umfang n. Fn−1 ist die Verteilungsfunktion der tn−1 -Verteilung. Den Wert der Gütefunktion an der Stelle µ berechnet man wieder mit Hilfe der Verteilungsfunktion der nichtzentralen t-Verteilung analog zu (5.13c) aus: G(µ) = 1 − Fn−1,λ (tn−1,1−α ) mit λ = µ − µ0 √ σ/ n (5.15b) Gibt man in (5.15b) G(µ) = 1 − β vor, kann man den Mindeststichprobenumfang n∗ in Abhängigkeit von δ = µ − µ0 > 0, σ und α ausrechnen. Durch n∗ wird sicher gestellt, dass man bei einer Überschreitung des Sollwertes um δ eine Sicherheit von 1 − β hat, mit dem auf dem Niveau α geführten Test H0 abzulehnen. Einen Richtwert für n∗ erhält man mit der zu (5.14b) analoge Näherungsformel n∗ ≈ σ2 (z1−α + z1−β )2 δ2 (5.15c) 330 5 Schätzen und Testen Liegt ein 1-seitiges Testproblem mit der Alternativhypothese H1 : µ < µ0 und der Nullhypothese H0 : µ ≥ µ0 vor, wendet man zur Entscheidungsfindung den 1Stichproben t-Test auf Unterschreitung an. Der P-Wert und die Gütefunktion sind in diesem Fall: x̄n − µ0 √ bzw. sn / n µ − µ0 √ G(µ) = Fn−1,λ (−tn−1,1−α ) mit λ = σ/ n P = Fn−1 (−tgn ) mit tgn = (5.16a) (5.16b) Für eine Abschätzung des Mindeststichprobenumfangs kann wieder (5.15c) verwendet werden. Beispiel 5.11. Nach einer EU-Richtlinie ist für Blei in Nahrungsergänzungsmittel eine Höchstgrenze von 3 mg/kg festgelegt. Es soll für ein bestimmtes Produkt untersucht werden, ob die gemessene Bleikonzentration X in mg/kg im Mittel die Höchstgrenze überschreitet. Dazu wird in einer Zufallsstichprobe aus n = 10 Proben die Bleikonzentration bestimmt. Es ergaben sich die folgenden Messwerte (in mg/kg): 3.24, 3.08, 3.46, 2.72, 2.95, 2.86, 3.15, 2.84, 3.64, 2.60. Wir zeigen zuerst, dass man auf 5%igem Signifikanzniveau keine Überschreitung des Höchstwertes µ0 = 3 konstatieren kann. Die Variable X setzen wir als normalverteilt mit dem Mittelwert µ voraus. Als Alternativ- und Nullhypothese formulieren wir H1 : µ > µ0 bzw. H0 : µ ≤ µ0 . Das arithmetische Mittel und die Standardabweichung der Stichprobenwerte sind durch x̄ = 3.054 bzw. s = 0.3274 gegeben. Damit erhält mit den Formeln (5.15a) die Realisierung tgn = 0.5216 der Testgröße und den P-Wert P = 0.3073. Zur Berechnung des P-Werts wurde die R-Funktion pt(tgn, n-1) verwendet. Wegen P ≥ α = 0.05 kann die Nullhypothese nicht abgelehnt werden. Einfacher ist es, für die Testentscheidung gleich die R-Funktion t.test() zu verwenden: > > > > # Lö s u n g m i t R : x <− c ( 3 . 2 4 , 3 . 0 8 , 3 . 4 6 , 2 . 7 2 , 2 . 9 5 , 2 . 8 6 , 3 . 1 5 , 2 . 8 4 , 3 . 6 4 , 2 . 6 0 ) # H0 : mu <= 3 v s . H1 : mu > 3 t . t e s t ( x , mu=3 , a l t e r n a t i v e =" g r e a t e r " ) One Sample t − t e s t data : x t = 0 . 5 2 1 5 9 , d f = 9 , p−v a l u e = 0 . 3 0 7 3 a l t e r n a t i v e h y p o t h e s i s : t r u e mean i s g r e a t e r t h a n 3 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 2.86422 Inf sample e s t i m a t e s : mean o f x 3.054 Wir nehmen nun an, dass eine Überschreitung δ des Höchstwertes um 10% oder mehr als relevant anzusehen ist. Folglich wäre die Stichprobennahme (d.h. der Stichprobenumfang) so zu planen, dass mit dem auf 5%igen Niveau geführten Test eine relevante Überschreitung mit der Sicherheit 1 − β als signifikant 5.3 Vergleich eines Mittelwerts mit einem Sollwert 331 erkannt wird. Gibt man die Sicherheit 1 − β = 0.9 vor und schätzt σ durch die Standardabweichung s = 0.3274, folgt mit Formel (5.15c) die Näherung n∗ ≈ 10.2, also ein Mindeststichprobenumfang von n∗ = 11. Die für die Berechnung notwendigen Quantile z1−α = z0.95 = 1.645 und z1−β = z0.9 = 1.282 wurden mit den R-Funktionen qnorm(0.95) bzw. qnorm(0.9) bestimmt. Obwohl der Mindeststichprobenumfang recht klein ist, weicht der Näherungswert nur wenig vom exakten Wert 11.69 ≈ 12 ab. Diesen findet man mit der R-Funktion power.t.test(): > power . t . t e s t ( d e l t a = 0 . 3 , s d = 0 . 3 2 7 4 , s i g . l e v e l = 0 . 0 5 , + power = 0 . 9 , t y p e = " one . s a m p l e " , + a l t e r n a t i v e = " one . s i d e d " ) One−s a m p l e n delta sd sig . level power alternative t = = = = = = t e s t power c a l c u l a t i o n 11.69311 0.3 0.3274 0.05 0.9 one . s i d e d Aufgaben 1. Für Eisen im Trinkwasser wird ein Grenzwert von µ0 = 200 mg/l genannt. Eine Überprüfung der Fe-Konzentration X ergab in einem Wohnhaus die folgenden fünf Probenwerte (in mg/l): 213, 217, 191, 207, 228. Die Variable X möge zumindest näherungsweise normalverteilt sein. a) Man zeige auf 5%igem Testniveau, dass das arithmetische Mittel der Probenwerte den Grenzwert nicht signifikant überschreitet. b) Welche Sicherheit bietet eine Versuchsanlage mit n = 5, mit dem auf 5%igem Testniveau geführten t-Test eine Überschreitung des Grenzwerts um δ = 20 mg/l als signifikant zu erkennen? Die Standardabweichung der Grundgesamtheit schätze man mit den gegebenen Probenwerten. 2. Einer Pressemeldung ist zu entnehmen, dass der „typische“ Österreicher eine Körpergröße von µ0 = 178 cm aufweist. Von 10 Männern mit mehr als 50 Jahren wurden die folgenden Körpergrößen (in cm) bestimmt: 160, 175, 170, 165, 174, 173, 178, 181, 167, 180. a) Kann den Stichprobenwerten entnommen werden, dass die Körpergröße von über 50-jährigen Männern im Mittel von der typischen Körpergröße (178 cm) abweicht? Man prüfe diese Aussage mit dem t-Test auf 5%igem Signifikanzniveau. Dabei nehme man an, dass die Stichprobe eine zufällige Auswahl aus der Gesamtheit der über 50-jährigen Österreicher sei und die Körpergröße in dieser Gesamtheit eine näherungsqweise normalverteilte Zufallsvariable ist. 332 5 Schätzen und Testen b) Welcher Stichprobenumfang müsste geplant werden, damit der 2-seitige tTest (α = 5%) mit 90%iger Sicherheit ein signifikantes Resultat anzeigt, wenn der wahre Mittelwert von µ0 um mindestens 2% des Referenzwertes µ0 abweicht. Die Standardabweichung σ setze man näherungsweise gleich der mit den gegebenen Stichprobenwerten berechneten empirischen Standardabweichung. 5.4 Überprüfung der Normalverteilungsannahme Wenn man den 1-Stichproben t-Test anwendet oder Konfidenzintervalle für den Mittelwert und die Varianz mit den Formeln (5.5a) bzw. (5.6) bestimmt, wird vorausgesetzt, dass die Grundgesamtheit wenigstens näherungsweise normalverteilt ist. Die Überprüfung der Normalverteilungsannahme kann auf grafischem Wege oder mit einem Testverfahren erfolgen. Dabei geht man von der Annahme aus, dass die betrachtete Grundgesamtheit X normalverteilt sei. Mit Hilfe einer Zufallsstichprobe aus X wird dann entweder visuell mit einer Grafik oder mit einem statistischen Test entschieden, ob die Beobachtungsdaten gegen die angenommene Normalverteilung sprechen. Man macht gleichsam einen Falsifizierungsversuch mit einer Zufallsstichprobe. Weicht die Verteilung der Stichprobenwerte nur „wenig“ von der theoretischen Verteilung (der angenommenen Normalverteilung) ab, betrachtet man die Grundgesamtheit als normalverteilt. 5.4.1 Normal-QQ-Plots Das begrifflich einfachste Instrument zur Überprüfung der Normalverteilungsannahme ist das Normal-QQ-Plot. Wenn die Grundgesamtheit X mit dem Mittelwert µ und der Varianz σ 2 normalverteilt ist, ist Z = X−µ σ standardnormalverteilt. Zwischen dem p-Quantil x p (0 < p < 1) von X und dem p-Quantil z p von Z besteht wegen X −µ p = P(Z ≤ z p ) = P ≤ z p = P(X ≤ µ + σ z p ) = P(X ≤ x p ) σ der Zusammenhang x p = µ + σ z p . Trägt man in einem rechtwinkeligen Koordinatensystem horizontal die zu verschiedenen Werten von p bestimmten Quantile z p auf und vertikal die entsprechenden Quantile x p , so liegen die Punkte (z p , x p ) auf einer Geraden g mit dem Anstieg σ und dem y-Achsenabschnitt µ. Im Besonderen gilt das für die Punkte (z0.25 , x0.25 ) und (z0.75 , x0.75 ). Die Koordinaten dieser Punkte sind die unteren bzw. oberen Quartile von Z und X. Mit den unteren und oberen Quartilen können die Geradenparameter σ und µ durch 5.4 Überprüfung der Normalverteilungsannahme σ= x0.25 z0.75 − x0.75 z0.25 x0.75 − x0.25 bzw. µ = x0.75 − σ z0.75 = z0.75 − z0.25 z0.75 − z0.25 333 (5.17) ausgedrückt werden. Beim Normal-QQ-Plot werden die Werte x1 , x2 , . . . , xn einer Zufallsstichprobe als Quantile von X aufgefasst. Wir nehmen an, dass die Stichprobenwerte bereits nach aufsteigender Größe angeordnet sind. Das untere und obere Quartil der Stichprobenwerte sei Q1 bzw. Q3 . Wenn Schätzwerte p̂i (i = 1, 2, . . . n) für die Wahrscheinlichkeiten pi = P(X ≤ xi ) bekannt sind, können die den xi entsprechenden Quantile der Standardnormalverteilung mit Hilfe von Φ −1 ( p̂i ) geschätzt werden. Dabei ist Φ −1 die Quantilsfunktion der Standardnormalverteilung, also die Umkehrfunktion der Verteilungsfunktion Φ von Z. Bei normalverteilter Grundgesamtheit X ist zu erwarten, dass die Punkte Pi = Φ −1 ( p̂i ), xi in zufälliger Weise um die theoretische Gerade g streuen. Näherungswerte für den Anstieg und den y-Achsenabschnitt von g findet man, indem man in (5.17) x0.25 durch Q1 und x0.75 durch Q3 ersetzt. Die durch die Näherungswerte bestimmte Gerade g∗ ist für die Interpretation der Streuung der Punkte Pi nützlich und wird meist in das Normal-QQ-Plot eingetragen. Um ein Normal-QQ-Plot zeichnen zu können, brauchen wir noch ein Verfahren zur Schätzung der Wahrscheinlichkeiten pi = P(X ≤ xi ) (i = 1, 2, . . . , n). Es ist naheliegend, diese Wahrscheinlichkeit näherungsweise gleich dem Anteil der Stichprobenwerte zu setzen, die kleiner oder gleich xi sind. Dies würde, da x1 ≤ x2 ≤ · · · ≤ xi ≤ · · · ≤ xn vorausgesetzt wurde, auf die Schätzwerte p̂i = ni für die pi führen. Im Folgenden werden Normal-QQ-Plots mit der R-Funktion qqnorm() aus dem Paket ”extRemes” (Extreme Value Analysis) erstellt. Diese Funktion verwendet für die pi die Schätzwerte p̂i = i−0.5 und stellt zusätzlich simultane (d.h. für n alle pi zugleich geltende) 95%ige Konfidenzintervalle in der Gestalt p̂i ± k mit 0.895 k= √ √ + 0.85 n 1 − 0.01 n n (5.18) zur Verfügung.21 Aus den Schätzwerten p̂i und den Grenzen p̂i ± k kann man für die Quantile zi der Standardnormalverteilung die Schätzwerte ẑi = Φ −1 ( p̂i ) und die Grenzen Φ −1 ( p̂i ± k) von simultanen, 95%-Konfidenzintervallen berechnen. Damit lassen sich Normal-QQ-Plots mit Konfidenzbändern versehen, in dem man die unteren und oberen Intervallgrenzen durch Streckenzüge verbindet. Auf der Grundlage eines derartigen Normal-QQ-Plots wird die Überprüfung der Normalverteilungsannahme folgendermaßen vorgenommen: Wie oben ausgeführt, besteht zwischen den p-Quantilen x p einer normalverteilten Grundgesamtheit X und den p-Quantilen der standardisiserten Größe Z = X−µ σ ein linearer Zusammenhang, den wir in der (Z, X)-Ebene durch die Gerade g dargei−3/8 Zur Schätzung der Wahrscheinlichkeiten pi wird auch die Formel p̂i = n+1/4 verwendet (z.B. in der R-Funktion shapiro.test() für den Shapiro-Wilk-Test zur Prüfung der Normalverteii−3/8 lungsannahme). Die R-Funktion qqnorm() arbeitet mit p̂i = n+1/4 für n ≤ 10 und mit p̂i = i−0.5 n für n > 10. Diese Funktion steht in der Basisinstallation zur Verfügung und erzeugt Normal-QQPlots ohne eine Intervallschätzung. 21 334 5 Schätzen und Testen stellt haben. Hat man eine Zufallsstichprobe x1 , x2 , . . . , xn aus X und zeichnet damit ein Normal-QQ-Plot, so werden die Punkte (ẑi , xi ) mehr oder weniger von der (unbekannten) Geraden g abweichen. Sind die Abweichungen so groß, dass man in das mit den xi bestimmte 95%ige Konfidenzband keine Gerade einzeichnen kann, die vollständig innerhalb des Konfidenzbandes liegt, dann entscheiden wir uns gegen die Normalverteilungsannahme. Bei diesem Entscheidungsverfahren hat man ein Risiko von 5%, irrtümlich gegen die Normalverteilungsannahme zu entscheiden. In der Regel wird den Normal-QQ-Plots auch die durch die Punkte (z0.25 , Q1 ) und (z0.75 , Q3 ) verlaufende Gerade g∗ zur Orientierung beigefügt. Diese Gerade kann mit der R-Funktion qqline() erzeugt werden. Beispiel 5.12. Es sei X eine mit den Parametern µ = 2 und σ = 0.25 normalverteilte Grundgesamtheit. Mit der R-Funktion rnorm() wird aus X eine Zufallsstichprobe mit dem Umfang n = 12 erzeugt. Die nach aufsteigender Größe angeordnete (auf 3 signifikante Stellen gerundete) Zufallsstichprobe ist: 1.56, 1.91, 1.93, 2.04, 2.07, 2.11, 2.18, 2.26, 2.28, 2.32, 2.49, 2.51 In Abb. 5.10 ist das mit dieser Stichprobe erstellte Normal-QQ-Plot dargestellt. Dazu wurde die R-Funktion qqnorm() aus dem Paket ”extRemes” verwendet. Wir rechnen die Koordinaten des Punktes (ẑ6 , x6 ) und die Grenzen des entsprechenden 95%igen (simultanen) Konfidenzintervalls mit den angeführten Formeln nach. Das zum Stichprobenwert x6 = 2.11 gehörende Quantil ẑ6 der Standardnormalverteilung findet man, in dem man p̂6 = 5.5 15 berechnet und ẑ6 = Φ −1 ( p̂6 ) = −0.1046 mit der R-Funktion qnorm(5.5/15) bestimmt. Aus (5.18) ergibt sich k = 0.2419. Zum Schätzwert ẑ6 erhält man damit das 95%ige Konfidenzintervall [u6 , o6 ] mit den Grenzen u6 = Φ −1 ( p̂6 − k) = Φ −1 (0.2164) = −0.7844 und o6 = Φ −1 ( p̂6 + k) = Φ −1 (0.7003) = 0.5251. Die Gerade g∗ ist im QQ-Plot der Abb. 5.10 durch die Punkte (z0.25 , Q1 ) und (z0.75 , Q3 ) festgelegt. Die Quartile z0.25 = −0.6745 und z0.75 = −0.6745 der Standardnormalverteilung findet man z.B. mit der R-Funktion qnorm(0.25) bzw. qnorm(0.75). Die Quartile Q1 = x0.25 = 2.013 und Q3 = x0.75 = 2.29 der Stichprobenwerte wurden mit der R-Funktion quantile() bestimmt.22 Wie aus Abb. 5.10 ersichtlich ist, gibt es eine Gerade (z.B. g∗ ), die innerhalb des Konfidenzbandes liegt. Dies bedeutet, dass die Zufallsstichprobe mit Normalverteilungsannahme vereinbar ist. (Tatsächlich wurde die Stichprobe ja aus einer normalverteilten Grundgesamtheit ausgewählt.) 22 Die R-Anweisung zur Bestimmung von Q = x 1 0.25 lautet quantile(x, 0.25). Dabei ist x der die Stichprobenwerte enthaltende Datenvektor. Man beachte, dass die mit quantile() berechneten Quartile geringfügig von den mit fivenum() bestimmten Quartilen abweichen, wenn n gerade ist. Die R-Funktion quantile() verwendet zur Berechnung des p-Quantils x p einer nach aufsteigender Größe angeordneten Stichprobe x1 , x2 , . . . , xn die Formel x p = (1 − v)x[u] + vx[u]+1 mit u = 1 + (n − 1)p und v = u − [u]; der Klammerausdruck [u] bedeutet die größte ganze Zahl, die kleiner als oder gleich u ist. Ist z.B. p = 0.25, so ergibt sich für den betrachteten Datenvektor u = 3.75, [u] = 3, v = 0.75 und x0.25 = 0.25x3 + 0.75x4 = 2.013. 335 2.2 2.4 g* ^ − k),x )) (Φ−1(p 6 6 (z6,x6) (z0.75,Q3) 2.0 ^ + k),x )) (Φ−1(p 6 6 1.8 (z0.25,Q1) 1.6 Stichprobenwerte xi (n=12) 5.4 Überprüfung der Normalverteilungsannahme −2 −1 0 1 Quantile zi der N(0,1) − Verteilung 2 Abb. 5.10 Normal-QQ-Plot für eine Zufallsstichprobe mit dem Umfang n = 12 aus einer mit den Parametern µ = 2 und σ = 0.25 normalverteilten Grundgesamtheit X. Die Grafik wurde mit der im Paket ”extRemes” zur Verfügung gestellten R-Funktion qqnorm() erstellt. Das 95%ige Konfidenzband wird durch die grau-strichlierten Streckenzüge begrenzt. Hervorgehoben ist der Punkt (z6 , x6 ) und das 95%ige Konfidenzintervall für das entsprechende z-Quantil der N(0, 1)Verteilung. Die Gerade g∗ durch die Punkte (z0.25 , Q1 ) und (z0.75 , Q3 ) wurde mit der R-Funktion qqline() hinzugefügt. # Abb . 5 . 1 0 ( R−S k r i p t , ohne B e z e i c h n u n g e n ) : l i b r a r y ( extRemes ) p a r ( mai=c ( 1 . 2 , 1 . 2 , 0 . 5 , 0 . 5 ) , c e x . a x i s = 1 . 2 , c e x . l a b = 1 . 2 ) xn <− c ( 1 . 5 6 , 1 . 9 1 , 1 . 9 3 , 2 . 0 4 , 2 . 0 7 , 2 . 1 1 , 2.18 , 2.26 , 2.28 , 2.32 , 2.49 , 2.51) qqxn <− qqnorm ( xn , pch =18 , c e x = 1 . 2 , x l i m =c ( −2 , 2 ) , x l a b = e x p r e s s i o n ( " Q u a n t i l e "∗ z [ i ] ∗ " d e r N( 0 , 1 ) − V e r t e i l u n g " ) , y l a b = e x p r e s s i o n ( " S t i c h p r o b e n w e r t e "∗ x [ i ] ∗ " ( n = 1 2 ) " ) ) q q l i n e ( xn , lwd = 2 ) 5.4.2 Schiefe und Kurtosis Bei der Interpretation von Normal-QQ-Plots ist es nützlich zu wissen, wie sich die Punkteanordnung verändert, wenn die Grundgesamtheit in markanten Eigenschaften von der Normalverteilung abweicht. Zu den markanten Eigenschaften der Normalverteilung zählen die Symmetrie der Dichtekurve um den Mittelwert und die Wölbung der Dichtekurve. Die Asymmetrie und die Wölbung der Verteilung einer stetigen Zufallsvariablen X mit der Dichtefunktion f wird durch Kennwerte erfasst, die mit dem dritten bzw. vierten zentralen Moment der Verteilung gebildet werden. Man bezeichnet den Mittelwert der Potenz (X − µX )k (k = 2, 3, . . .) als k-tes (zentrales) Moment und schreibt dafür: 336 5 Schätzen und Testen Z µk = µ(X−µX )k = (X − µX )k f (x)dx 4 3 2 0 0.0 1 Dichte 0.2 0.4 xi (n=50) 5 0.6 6 Das Integral erstreckt sich über den Wertebereich von X. Für k = 2 erhält man die Varianz σX2 als zweites zentrales Moment. Wenn man das dritte Moment µ3 durch σ 3 dividiert, erhält man die sogenannte Schiefe γ1 = µ3 /σ 3 , die eine (dimensionslose) Kennzahl für die Asymmetrie einer Verteilung darstellt. Für die Normalverteilung (und jede andere Verteilung mit einer um µX symmetrischen Dichtefunktion) ist γ1 = 0. Ist γ1 > 0, spricht man von einer linkssteilen (oder rechtsschiefen) Asymmetrie; die Dichtekurve zeigt links einen steileren Anstieg und fällt nach rechts flacher ab. Im Falle γ1 < 0 nennt man die Asymmetrie rechtssteil (oder linksschief), die Dichtekurve steigt links flach an und fällt nach rechts steiler ab. Die klassische Maßzahl für die Wölbung ist die (dimensionslose) Kurtosis γ2 = µ4 /σ 4 − 3. Die Kurtosis ist null für für die Normalverteilung, für Dichtekurven mit einem flacheren Gipfel als die Normalverteilungsdichte ist γ2 < 0 und für spitzgipfelige Dichtekurven gilt γ > 0. Abb. 5.11 zeigt das Normal-QQ-Plot für eine Zufallsstichprobe aus einer linkssteilen Grundgesamtheit.23 Die Punkteverteilung im Normal-QQ-Plot der Stichprobe weist eine nach unten konvexe Anordnung auf. Demgegenüber hat die Punkteanordnung einer Zufallsstichprobe aus einer rechtssteilen Verteilung einen nach oben konvexen Verlauf. Nach unten konvexe Punktemuster im Normal-QQ-Plot weisen also auf eine linkssteil-asymmetrische Grundgesamtheit hin, nach oben konvexe Punktemuster deuten eine rechtssteile Asymmetrie an. 0.0 0.5 1.0 X 1.5 2.0 −2 −1 0 1 2 Quantile der N(0,1) − Verteilung Abb. 5.11 Normal-QQ-Plots für eine Zufallsstichprobe aus einer Grundgesamtheit mit linkssteiler Asymmetrie. Bei linkssteiler Asymmetrie ist der Verlauf der Punkte nach unten konvex. In Abb. 5.12 sind die Normal-QQ-Plots für zwei Zufallsstichproben aus Grundgesamtheiten dargestellt, die in der Wölbung von der Normalverteilung abweichen. 23 Als Beispiel einer linksteilen Grundgesamtheit wurde die mit den Parametern µ = 0 und σ = 1 logarithmisch normalverteilte Zufallsvariable X verwendet. Eine Zufallsvariable X heißt logarithmisch normalverteilt mit den Parametern µ und σ , wenn der (natürliche) Logarithmus von X N(µ, σ 2 )-verteilt ist. 5.4 Überprüfung der Normalverteilungsannahme 337 Die in der linken oberen Grafik dargestellte Rechteckverteilung ist offensichtlich flachgipfeliger als die Normalverteilung.24 Wie man am Normal-QQ-Plot einer Zufallsstichprobe aus einer über dem Intervall [−5, 5] uniform verteilten Grundgesamtheit erkennt, gibt es eine systematische Abweichung der Datenpunkte von g∗ am linken Ende nach oben und am rechten Ende nach unten. Die links unten dargestellte Dichtekurve der Laplace-Verteilung ist sichtbar steilgipfeliger als die Normalverteilungsdichte.25 Im Normal-QQ-Plot bewirkt die größere Wölbung ein Wegdriften der Datenpunkte von der Geraden g∗ am linken Ende nach unten und am rechten Ende nach oben. 5.4.3 Der Shapiro-Wilk-Test Zur Überprüfung der Normalverteilungsannahme gibt es einige Testverfahren wie z.B. den Kolmogorov-Smirnov-Test (in der Fassung von Lilliefors), den AndersonDarling-Test oder den Shapiro-Wilk-Test.26 Die folgenden Ausführungen beschränken sich auf den Shapiro-Wilk-Test, der für Stichprobenumfänge ab n = 8 empfohlen wird und der sich durch seine Schärfe (Power) auszeichnet. Bei der Durchführung des Shapiro-Wilk-Tests wird die Normalverteilungsannahme als Nullhypothese H0 postuliert. Mit einer Zufallsstichprobe aus der Grundgesamtheit X wird dann die Realisierung einer für den Test typischen Testgröße bestimmt. Schließlich berechnet man den P-Wert als Wahrscheinlichkeit, dass die Testgröße die beobachtete Realisierung unterschreitet. Ist P kleiner als das vorgegebene Signifikanzniveau α, wird H0 abgelehnt, andernfalls beibehalten. Der Shapiro-Wilk-Test orientiert sich am Normal-QQ-Plot. Wenn die Grundgesamtheit X mit den Parametern µ und σ normalverteilt ist (das wird als Nullhypothese angenommen), dann besteht zwischen den Quantilen x p (0 ≤ p ≤ 1) von X X und den Quantilen z p der standardisierten Größe Z = X−µ σX der lineare Zusammen24 Die Rechteckverteilung besitzt über dem reellen Intervall [a, b] mit b > a die konstante Dichte 1/(b − a) und sonst überall die Dichte null. Für die in Abb. 5.12 links oben dargestellte Rechteckverteilung ist b = −a = 5, γ1 = 0 und γ2 = −1.2. Zufallszahlen aus einer rechteckig-verteilten Grundgesamtheit können mit der R-Funktion runif() erzeugt werden. 25 Eine Zufallsvariable X heißt Laplace-verteilt mit dem Lageparameter µ und dem Skalenparame 1 exp |x−µ| bestimmt ist. Die ter b > 0, wenn ihre Dichtefunktion f durch die Gleichung f (x) = 2b b Dichtekurve der Laplace-Verteilung ist symmetrisch um µ, die Kurtosis ist positiv (γ2 = 3). Für die in Abb. 5.12 unten dargestellte Laplace-Verteilung ist µ = 0 und b = 1. Zufallszahlen aus einer Laplace-verteilten Grundgesamtheit können mit der R-Funktion rdoublex() aus dem Paket ”smoothmest” (Smoothed M-estimators for 1-dimensional location) erzeugt werden. 26 Vgl. Liliefors, H.W.: On the Kolmogorov-Smirnov Test for Normality with Mean and Variance Unknown. J. American Statistal Association, 62, 299-402 (1967); Anderson, T. W., Darling, D.A.: Asymptotic Theory of Certain ”Goodness of Fit” Criteria based on Stochastic Processes. The Annals of Mathematical Statistics, 23, 193-212 (1952); Shapiro, S. S., Wilk, M. B.: An analysis of variance test for normality (complete samples). Biometrika, 52, 591-611 (1965). Für den ShapiroWilk-Test steht in der Basisinstallation von R die Funktion shapiro.test() zur Verfügung, die Funktionen für die beiden anderen Testverfahren sind im Paket ”nortest” (Tests for Normality) enthalten. 5 Schätzen und Testen 2 0 xi (n=50) 0.00 −4 −2 Dichte 0.05 0.10 4 0.15 338 0 X 5 −2 −1 0 1 2 Quantile der N(0,1) − Verteilung 0 −2 0.0 −4 Dichte 0.2 xi (n=50) 2 0.4 4 −5 −3 −2 −1 0 X 1 2 3 −2 −1 0 1 2 Quantile der N(0,1) − Verteilung Abb. 5.12 Normal-QQ-Plots für Stichproben aus einer Grundgesamtheit mit einer im Vergleich zur Normalverteilung flachgipfeligen Verteilung (obere Grafiken) sowie aus einer Grundgesamtheit mit steilgipfeliger Verteilung (untere Grafiken). Die Dichtekurve der Normalverteilung (mit gleichem Mittelwert und gleicher Varianz) ist links jeweils punktiert eingezeichnet. Bei flachgipfeliger (steilgipefliger) Verteilung weichen die Datenpunkte von g∗ am linken Ende nach oben (nach unten) und am rechten Ende nach unten (nach oben) ab. hang x p = µ + σ z p . Im Normal-QQ-Plot mit horizontaler Z-Achse und vertikaler X-Achse ist das die Gleichung einer Geraden, die wir mit g bezeichnet haben. Der Anstieg der Geraden ist die Standardabweichung σ von X. Es seien xi (i = 1, 2, . . . n) die Werte einer nach aufsteigender Größe angeordneten Zufallsstichprobe aus X i−3/8 und ẑi = Φ −1 ( p̂i ) mit p̂i = n+1/4 Schätzwerte für die entsprechenden Quantile der Standardnormalverteilung. Die Varianz σ 2 kann in der üblichen Weise durch die 1 Stichprobenvarianz n−1 ∑ni=1 (xi − x̄)2 geschätzt werden. Wenn H0 gilt, ist auch das Quadrat des Anstiegs der an die Punkte (ẑi , xi ) angepassten Ausgleichsgeraden ĝ eine Schätzfunktion für die Varianz.27 Dividiert man den quadrierten Anstieg durch die Stichprobenvarianz, erhält man die Testgröße W des Shapiro-Wilk-Tests. Die Bestimmung der Testgröße W ist aufwändig. Da die Quantile der Standardnormalverteilung zu den nach aufsteigender Größe angeordneten Elementen der Zufallsstichprobe paarweise abhängig sind, ist eine Schätzung des Anstiegs der GeraDie Ausgleichsgerade wurde mit ĝ bezeichnet, um sie von der Orientierungsgeraden g∗ durch die Punkte (z0.25 , Q1 ) und (z0.75 , Q3 ) zu unterscheiden. 27 5.4 Überprüfung der Normalverteilungsannahme 339 den g mit der Methode der kleinsten Quadrate (vgl. Abschnitt 2.1.3) nicht möglich. Wir begnügen uns hier damit, die Anwendung der R-Funktion shapiro.test() zu demonstrieren und die Testgröße W zu interpretieren. Ergänzend dazu wird der Algorithmus, nach dem die Testgröße W und der P-Wert in der R-Funktion berechnet werden, in Abschnitt 5.8.2 dargestellt. Beispiel 5.13. In Beispiel 5.12 wurde an Hand eines Normal-QQ-Plots gezeigt, dass die Zufallsstichprobe 1.56, 1.91, 1.93, 2.04, 2.07, 2.11, 2.18, 2.26, 2.28, 2.32, 2.49, 2.51 nicht in Widerspruch zur Annahme einer normalverteilten Grundgesamtheit steht. Wir bestätigen dieses Ergebnis mit Shapiro-Wilk-Test. Das Signifikanzniveau sei α = 5%. # Lö s u n g m i t R : > x <− c ( 1 . 5 6 , 1 . 9 1 , 1 . 9 3 , 2 . 0 4 , 2 . 0 7 , 2 . 1 1 , + 2.18 , 2.26 , 2.28 , 2.32 , 2.49 , 2.51) > shapiro . test (x) S h a p i r o −Wilk n o r m a l i t y t e s t data : x W = 0 . 9 5 7 3 6 , p−v a l u e = 0 . 7 4 5 6 2 Der Lösung mit R entnimmt man die Realisierung w = 0.95736 der Testgröße und den P-Wert P = 74.56%. Die Wahrscheinlichkeit, dass bei Gültigkeit von H0 (Normalverteilungsannahme) die Testgröße einen Wert kleiner oder gleich w annimmt, ist also P = 74.56% ≥ α. Die Nullhypothese kann daher auf 5%igem Testniveau nicht abgelehnt werden. Wenn man die Abhängigkeit der Quantile der Standardnormalverteilung ignoriert und die Ausgleichsgerade ĝ mit der Methode der kleinsten Quadrate wie in Abschnitt 2.1.3 schätzt, kann der Anstieg mit Formel 2.4 berechnet werden. Auf diese Weise erhält man den Schätzwert k̂ = sẑx /s2ẑ . Dabei ist s2ẑ die Varianz der Quantile ẑi (i = 1, 2, . . . , n), die den Stichprobenwerten xi entsprechen und sẑx die Kovarianz der beiden Datenreihen. Indem man den Anstieg quadriert und durch die Varianz s2x der xi -Werte dividiert, ergibt sich: w0 = k̂2 = s2x sẑx sẑ sx 2 (5.19) Das ist die Realisierung einer Testgröße (wir bezeichnen sie mit W 0 ), der sich – wie man zeigen kann – die Testgröße W mit wachsendem Stichprobenumfang immer mehr nähert. Mit der Testgröße W 0 arbeitet der Shapiro-Francia-Test zur Überprüfung der Normalverteilungsannahme.28 28 Vgl. Shapiro, S.S., Francia, R.S.: An approximate analysis of variance test for normality. Journal of the American Statistical Association 67, 215-216 (1972). Der Test kann mit der R-Funktion sf() im Paket ”nortest” ausgeführt werden. 340 5 Schätzen und Testen Die Testgröße W 0 ist gut zu interpretieren. Man erkennt aus (5.19), dass W 0 gleich dem Bestimmtheitsmaß B zwischen der (nach aufsteigender Größe) angeordneten Zufallsstichprobe aus X und der Reihe der entsprechenden Quantile der Standardnormalverteilung ist. Damit ist W 0 ein Maß für die Abweichung der Datenpunkte (ẑi , xi ) von ĝ im Normal-QQ-Plot. Liegen alle Datenpunkte auf ĝ, nimmt W 0 den Maximalwert eins an. Je stärker die Punkte von ĝ abweichen, desto mehr nähert sich W 0 dem Minimalwert null (und desto mehr sprechen die Daten gegen die Normalverteilungsannahme). Diese Interpretation kann grundsätzlich auch auf die Testgröße W übertragen werden. Auch W kann maximal den Wert eins annehmen und nimmt ab, je stärker die Grundgesamtheit von der Normalverteilung abweicht (ohne allerdings den Wert null zu erreichen). Aufgaben 1. Man berechne das dritte und das vierte Moment Z +∞ µ3 = −∞ (x − µ)3 f (x)dx bzw. µ4 = Z +∞ −∞ (x − µ)4 f (x)dx 2 √1 e−x /2 und zeige da2π γ2 = µ4 /σ 4 − 3 gleich null der Standardnormalverteilung mit der Dichte f (x) = mit, dass die Schiefe γ1 = µ3 /σ 3 und die Kurtosis sind. 2. Man stelle die in Beispiel 5.11 verwendete Zufallsstichprobe 3.24, 3.08, 3.46, 2.72, 2.95, 2.86, 3.15, 2.84, 3.64, 2.60 im Normal-QQ-Plot dar und überprüfe damit die Annahme einer normalverteilten Grundgesamtheit. Zu welchem Ergebnis führt der Shapiro-Wilk-Test? 5.5 Unterschiedshypothesen mit zwei Mittelwerten In diesem Abschnitt werden Prüfverfahren behandelt, mit denen man entscheiden kann, ob zwei Mittelwerte ungleich sind oder der eine größer bzw. kleiner als der andere ist. Bei den Mittelwerten handelt es sich oft um die Mittelwerte eines Untersuchungsmerkmals, das unter zwei Versuchsbedingungen betrachtet wird. Eine typische Fragestellung lautet z.B.: Kann durch Übergang zu einer neuen Nährlösung der Ertrag einer Nutzpflanze gesteigert werden? Oder: Welche von zwei möglichen Diäten führt zu einer höheren Senkung des Cholesterinspiegels? Da der Ertrag oder der Cholesterinspiegel Zufallsvariable sind, führen unterschiedliche Wirkungen der Versuchsbedingungen zu Unterschieden in den Verteilungsparametern. Wir setzen in diesem Abschnitt normalverteilte Untersuchungsmerkmale voraus. Damit läuft die Untersuchung des Einflusses der Versuchsbedingungen auf das jeweilige Untersuchungsmerkmal auf einen Vergleich von Mittelwerten oder Varianzen hinaus. In 5.5 Unterschiedshypothesen mit zwei Mittelwerten 341 diesem Abschnitt geht es primär um den Vergleich von Mittelwerten. Der Vergleich hängt wesentlich von der Auswahl der Untersuchungseinheiten und dem damit verbundenen statistischen Modell ab. 5.5.1 Mittelwertvergleiche mit unabhängigen Stichproben Eine häufig verwendete Versuchsanlage ist der Parallelversuch. Bei diesem wird aus einer vorher festgelegten Grundgesamtheit eine Zufallsstichprobe mit N Untersuchungseinheiten ausgewählt und den beiden Versuchsbedingungen so zugeordnet, dass zwei möglichst gleich große Gruppen (sogenannte Parallelgruppen) entstehen. Durch eine zufällige Zuordnung wird sicher gestellt, dass die Gruppen „strukturgleich“ sind. In strukturgleichen Gruppen bewirken allfällige nicht geplante Einflussfaktoren keine systematischen Unterschiede. Bei der einen Gruppe handelt es sich oft um eine Testgruppe, in der z.B. eine neue Behandlung angewendet wird, und bei der zweiten Gruppe um die Kontrolle, die einer herkömmlichen Behandlung entspricht.29 Es sei Xi das Untersuchungsmerkmal unter der Bedingung i (i = 1, 2). Nach Voraussetzung gilt Xi ∼ N(µi , σi2 ). Die an den Untersuchungseinheiten der ersten Gruppe (Versuchsbedingung 1) gemessenen Variablenwerte seien x11 ,21 , . . . , xn1 ,1 . Mit dem ersten Index werden die Elemente der ersten Gruppe durchnummeriert, der zweite Index drückt die Zugehörigkeit zur Versuchsbedingung 1 aus. Entsprechend werden die an den Untersuchungseinheiten der zweiten Gruppe (Versuchsbedingung 2) gemessenen Variablenwerte durch x12 ,22 , . . . , xn2 ,2 bezeichnet. Auf Grund des Zuordnungsverfahrens können die Untersuchungseinheiten der einen Gruppe nicht über eine gemeinsame Eigenschaft mit den Untersuchungseinheiten der anderen Gruppe verbunden werden. Eine derartige gemeinsame Eigenschaft könnte z.B. die Abstammung zweier Versuchspflanzen von der selben Mutterpflanze oder die Herkunft zweier Probanden aus der selben Familie sein. Gibt es eine gemeinsame Eigenschaft, könnte man alle Untersuchungseinheiten in Paaren anordnen, in denen das erste Element aus Gruppe 1 und das zweite Element aus Gruppe 2 stammt. Das ist in einem Parallelversuch nicht möglich. Vielmehr können hier die Untersuchungseinheiten der einen Gruppe völlig unabhängig von den Untersuchungseinheiten der anderen Gruppe angeordnet werden. Man nennt den Parallelversuch daher auch einen Versuch mit unabhängigen Stichproben. Die Parallelgruppen müssen auch nicht gleich lang sein, obwohl es (bei übereinstimmenden Varianzen) vorteilhaft ist, den Versuche mit n1 = n2 zu planen. Um einen allfälligen Unterschied der Mittelwerte µ1 und µ2 der Test- bzw. Kontrollgruppe zu erkennen, werden die 2-seitigen Hypothesen 29 Die Parallelgruppen sollen sich idealerweise nur in den geplanten Versuchsbedingungen unterscheiden. Dann kann ein allfälliger Unterschied der Mittelwerte eines Untersuchungsmerkmals auf die Versuchsbedingungen zurückgeführt werden. Die Methodik, nur einen einzigen Einflussfaktor zu variieren und alle anderen quasi „konstant“ zu halten, wird auch in anderen Disziplinen angewendet und gelegentlich als „ceteris paribus“-Prinzip bezeichnet. 342 5 Schätzen und Testen H0 : µ1 = µ2 , H1 : µ1 6= µ2 (5.20a) formuliert. Will man wissen, ob der Mittelwert der Gruppe 1 den Mittelwert der Gruppe 2 überschreitet, hat man ein 1-seitiges Testproblem mit den Hypothesen:30 H0 : µ1 ≤ µ2 , H1 : µ1 > µ2 (5.20b) Die Prüfung der Hypothesen (5.20a, b) erfolgt bei normalverteilten Grundgesamtheiten meist mit dem t-Test. Der Welch-Test ist eine Variante des t-Tests, bei dem die Gleichheit der Varianzen nicht vorausgesetzt werden muss. Weiß man, dass die Varianzen gleich sind, wendet man den 2-Stichproben-t-Test an.31 5.5.2 Der Welch-Test Der Welch-Test verwendet als Testgröße die durch ihre Standardabweichung geteilte Differenz der Stichprobenmittelwerte X̄1 und X̄2 in der Test- bzw. Kontrollgruppe:32 X̄1 − X̄2 (5.21a) T Gn1 ,n2 = q S12 /n1 + S22 /n2 Die Größen S12 und S22 bezeichnen die Stichprobenvarianzen der beiden Gruppen. Setzt man für die Stichprobenmittelwerte die aus den Stichproben berechneten arithmetischen Mittel x̄1 bzw. x̄2 und für die Stichprobenvarianzen die empirischen Varianzen s21 bzw. s22 ein, erhält man eine mit tgn1 ,n2 bezeichnete Realisierung der Testgröße. Wie vom britischen Statistiker Bernhard Lewis Welch (1911-1989) gezeigt 30 Liegt ein 1-seitiges Testproblem mit den Hypothesen H : µ ≥ µ , H : µ < µ vor, kann man 0 1 2 1 1 2 durch Umbezeichnung der Gruppen stets ein Testproblem mit den Hypothesen (5.20b) erhalten. 31 Der Welch-Test ist im Gegensatz zum 2-Stichproben-t-Test universell einsetzbar. Obwohl die Testgröße nur näherungsweise t-verteilt ist, besitzt dieser Test eine gute Performance hinsichtlich des α-Fehlers, der nahe beim nominellen α-Fehler liegt, und eine akzeptable Güte (Power). Der 2-Stichproben-t-Test zeichnet sich durch eine (bei Varianzgleichheit) hohe Power aus. Simulationsstudien zeigen, dass der 2-Stichproben-t-Test robust gegenüber (moderaten) Abweichungen von der Varianzgleichheit ist, wenn die Parallelstichproben gleich groß sind. Bei einer früher oft praktizierten Vorgangsweise, zwei Mittelwerte zu vergleichen, wird dem t-Test ein Test (z.B. der F-Test) zur Überprüfung der Varianzgleichheit vorangestellt und je nach Ausgang des Vortests der Welch-Test oder der 2-Stichproben-t-Test eingesetzt. Dieser Weg kann vorteilhaft ein, wenn man das Signifikanzniveau des Vortests höher (z.B. α = 10%) ansetzt. In einigen Softwareprodukten werden daher beide Varianten des t-Tests (also der Welch-Test und der 2-Stichproben-t-Test) in Verbindung mit einem Vortest zum Varianzvergleich angeboten. In der R-Funktion t.test() ist der Welch-Test die voreingestellte Testvariante. 32 Um die Formeln leichter lesen zu können, wird im Folgenden beim Stichprobenmittel und der Stichprobenvarianz die Kennzeichnung durch den Stichprobenumfang weggelassen. Wir schreiben also für das Stichprobenmittel und die Stichprobenvarianz der ersten Stichprobe einfach X̄1 bzw. S12 und analog X̄2 und S22 für die entsprechenden Größen der zweiten Stichprobe. Entsprechend verfahren wir mit den Realisierungen dieser Größen. 5.5 Unterschiedshypothesen mit zwei Mittelwerten 343 wurde, ist (5.21a) bei Gültigkeit von H0 näherungsweise t f -verteilt mit dem Freiheitsgrad: f= s22 s21 (a1 + a2 )2 , a = mit a = 2 1 n1 n2 a21 /(n1 − 1) + a22 /(n2 − 1) (5.21b) Beim 2-seitigen Testproblem (5.20a) wird die Nullhypothese auf dem Niveau α abgelehnt, wenn der P-Wert P = 2Ff (−|tgn1 ,n2 |) kleiner als α ist. Die Größe Ff bezeichnet die Verteilungsfunktion der t-Verteilung mit f Freiheitsgraden. Statt mit dem P-Wert kann das Kriterium für die Ablehnung von H0 auch mit der Realisierung tgn1 ,n2 der Testgröße formuliert werden: Der P-Wert ist genau dann kleiner als α, wenn die Testgröße T Gn1 ,n2 entweder das Quantil t f ,α/2 = −t f ,1−α/2 unterschreitet oder das Quantil t f ,1−α/2 überschreitet. Eine nützliches Instrument bei der Planung von Mittelwertvergleichen mit dem Welch-Test ist dessen Gütefunktion G. Diese gibt für jede vorgegebene Abweichung δ = µ1 − µ2 die auch als Power bezeichnete Wahrscheinlichkeit G(δ ) an, dass der mit zwei unabhängigen Stichproben des Umfangs n1 bzw. n2 auf dem Niveau α gerechnete Welch-Test zur einer Entscheidung für H1 führt. Die Wahrscheinlichkeit G(δ ) kann für das 2-seitige Testproblem (5.20a) aus G(δ ) = P T Gn1 ,n2 < −t f ,1−α/2 δ ) + P T Gn1 ,n2 > t f ,1−α/2 |δ ≈ Ff ,λ (−t f ,1−α/2 ) + 1 − Ff ,λ (t f ,1−α/2 ) (5.22a) bestimmt werden. Die Größe Ff ,λ bedeutet die Verteilungsfunktion der nicht-zentralen t-Verteilung mit dem durch (5.21b) gegebenen Freiheitsgrad f und dem Nichtzentralitätsparameter √ δ N δ =q (5.22b) λ=q . (1 + x) σ12 /x + σ22 σ12 /n1 + σ22 /n2 Dabei ist N = n1 + n2 der Gesamtumfang beider Stichproben und x = n1 /n2 > 0 das Verhältnis der Stichprobenumfänge.33 Um mit (5.22a) den Wert der Gütefunktion zu einem vorgegebenem δ zu berechnen, müssen das Testniveau α, die Stichprobenumfänge n1 und n2 und die Varianzen σ12 und σ22 bzw. Schätzwerte für die Varianzen bekannt sein. Alternativ zu (5.22a) kann man die Power auch mit Hilfe eines Simulationsexperimentes berechnen: Man erzeugt eine sehr große Anzahl B von Parallelstichproben mit den Umfängen n1 bzw. n2 , den Mittelwerten µ1 bzw. µ2 = µ1 − δ und den Varianzen σ12 ≈ s21 bzw. σ22 ≈ s22 . Für jedes erzeugte Paar von Parallelstichproben wird sodann die Realisierung tgn1 ,n2 der Testgröße (5.21a) und der P-Wert berechnet. Es sei A die Anzahl der Wiederholungen mit einem P-Wert kleiner als α. Nach dem empirischen Gesetz der großen Zahlen ist A/B ein Näherungswert für die gesuchte Power (vgl. dazu Abschnitt 1.8.1). 33 Für x = 1 ergibt sich wegen n1 = Nx/(1 + x) und n2 = N/(1 + x) die symmetrische Versuchsanlage mit n1 = n2 = N/2. Bei vorgegebenem N nimmt λ (und damit auch die Gütefunktion) den größten Wert an, wenn x = n1 /n2 = σ1 /σ2 ist. 344 5 Schätzen und Testen Oft möchte man bei der Planung eines Mittelwertvergleichs wissen, wie groß die erforderlichen Mindestumfänge der Parallelstichproben ein sollen, um mit dem Welch-Test (auf dem Signifikanzniveau α) eine vorgegebene relevante Abweichung δ mit einer hohen Sicherheit (z.B. 90%) als signifikant zu erkennen. Für die vorzugebende Sicherheit schreiben wir 1 − β . Dabei ist β die Wahrscheinlichkeit, einen nicht-signifikanten Testausgang zu erhalten. Da es meist nur um einen Richtwert für die zu planenden Stichprobenumfänge geht, kann man sich auf den symmetrischen Fall mit n1 = n2 = n beschränken. Zur Beantwortung der Frage nach dem erforderlichen Mindestumfang n der Parallelstichproben greifen wir wieder auf (5.22a) zurück und setzen G(δ ) = 1 − β . Die Berechnung des im Freiheitsgrad f und im Nichtzentralitätsparameter λ vorkommenden n aus (5.22a) kann z.B. mit der R-Funktion uniroot() vorgenommen werden. Eine grobe Abschätzung des Mindeststichprobenumfangs erlaubt die Formel: n ≈ n∗ = 2 1 2σ 2 z1−α/2 + z1−β mit σ 2 = σ12 + σ22 2 δ 2 (5.22c) Die Größen z1−α/2 und z1−β sind das (1 − α/2)- bzw. (1 − β )-Quantil der N(0, 1)Verteilung. Beispiel 5.14. Zum Vergleich von zwei Weizensorten (Combin, Camedo) wurde die erste auf 15 Versuchsflächen und die zweite auf 10 Versuchsflächen angebaut. Es ergaben sich die folgenden Erträge (in dt/ha): X1 (Gruppe1 : Combin) 91, 67, 96, 52, 47, 36, 71, 96, 35, 103, 70, 70, 55, 88, 66 X2 (Gruppe2 : Camedo) 58, 67, 63, 52, 63, 53, 48, 41, 60, 76 Wir zeigen, dass sich die Ertragsmittelwerte der Sorten auf 5%igem Testniveau nicht signifikant unterscheiden. Zusätzlich bestimmen wir die Wahrscheinlichkeit (Power), dass wir mit der konkreten Versuchsanlage (n1 = 15, n2 = 10, α = 5%) einen Unterschied zwischen den Mittelwerten im Ausmaß von 10% des Mittelwertes der ersten Sorte als signifikant erkennen. Schließlich überlegen wir noch, wie groß der (für beide Sorten gleich angenommene) Mindeststichprobenumfang sein müsste, damit der Welch-Test (α = 5%) mit 90%iger Sicherheit zu einem signifikantem Ergebnis führt, wenn der Mittelwertunterschied 10% des Mittelwertes der ersten Sorte beträgt. a) Wir nehmen an, dass die Erträge X1 und X2 der beiden Weizensorten normalverteilt sind mit den Mittelwerten µ1 bzw. µ2 und den Varianzen σ12 bzw. σ22 (vgl. dazu Abb. 5.14). Zu prüfen sind die Hypothesen H1 : µ1 = µ2 gegen H1 : µ1 6= µ2 . Als Signifikanzniveau ist α = 5% vereinbart. Die Parallelstichproben haben die Umfänge n1 = 15 und n2 = 10, die arithmetischen Mittel x̄1 = 69.53 und x̄2 = 58.10 sowie die Standardabweichungen s1 = 21.86 und s2 = 10.05. Als Realisierung der Testgröße (5.21a) und als Freiheitsgrad (5.21b) erhält man tg15,10 = 1.765 bzw. f = 21.002. Das Kriterium für die Ablehnung von H0 lautet P = 2Ff (−|tgn1 ,n2 |) < α. Wegen 5.5 Unterschiedshypothesen mit zwei Mittelwerten 345 Combin Camedo 100 90 80 70 60 Werte von X2 (Camedo,n=10) 40 50 100 90 80 70 60 50 40 40 50 60 70 80 Werte von X1 (Combin,n=15) 90 100 P = 2Ff (−|tgn1 ,n2 |) = 9.204% ≥ 5% ist das Kriterium nicht erfüllt, d.h. H0 kann auf 5%igem Testniveau nicht abgelehnt werden. −2 −1 0 1 N(0,1)−Quantile 2 −2 −1 0 1 N(0,1)−Quantile 2 Abb. 5.13 Boxplots und Normal-QQ-Plots für die Parallelstichproben in Beispiel 5.13. Die Grafiken lassen keinen Widerspruch zur Annahme normalverteilter Grundgesamtheiten X1 und X2 erkennen. > # Lö s u n g m i t R > x1 <− c ( 9 1 , 6 7 , 9 6 , 5 2 , 4 7 , 3 6 , 7 1 , 9 6 , 3 5 , 1 0 3 , 70 , 70 , 55 , 88 , 66) > x2 <− c ( 5 8 , 6 7 , 6 3 , 5 2 , 6 3 , 5 3 , 4 8 , 4 1 , 6 0 , 7 6 ) > # H0 : mu1=mu2 v s H1 : mu1<>mu2 > t . t e s t ( x1 , x2 ) Welch Two Sample t − t e s t d a t a : x1 and x2 t = 1 . 7 6 5 4 , d f = 2 1 . 0 0 2 , p−v a l u e = 0 . 0 9 2 0 4 alternative hypothesis : t r u e d i f f e r e n c e i n means i s n o t e q u a l t o 0 95 p e r c e n t c o n f i d e n c e i n t e r v a l : −2.035247 2 4 . 9 0 1 9 1 4 sample e s t i m a t e s : mean o f x mean o f y 69.53333 58.10000 b) Wir berechnen zuerst die Power mit (5.22a). Mit der relevanten Abweichung δ = 0.1x̄1 = 6.953 und den Näherungen σ1 ≈ s1 sowie σ2 ≈ s2 ergibt sich aus (5.22b) der Nichtzentralitätsparameter λ = 1.0736. Das (1 − α/2)-Quantil der t-Verteilung mit f Freiheitsgraden ist t f ,1−α/2 = t21.002,0.975 = 2.0796. Den Funktionswert der nichtzentralen t-Verteilung Ff ,λ an der Stelle x findet man z.B. mit der R-Funktion pt(x, f, ncp) mit ncp= λ . Damit erhält man aus (5.22a) für die gesuchte Power den Wert G(δ ) = 17.63%. In der folgenden Lösung mit R wird die Power sowohl mit Formel (5.22a) 346 5 Schätzen und Testen als auch im Rahmen eines Simulationsexperiments bestimmt, bei dem aus den Grundgesamtheiten X1 und X2 wiederholt Parallelstichproben gezogen werden. Die Power ist näherungsweise gleich der relativen Häufigkeit der Wiederholungen, bei denen die Parallelstichproben auf dem Niveau α einen signifikanten Mittelwertunterschied aufweisen. Auf diese Weise wurde bei einem Simulationsexperiment mit B = 10000 Wiederholungen für die Power der Wert 17.37% erhalten, der sich nur geringfügig von dem mit (5.22a) berechneten Ergebnis unterscheidet. > > + > > > > > > > > > > + > # Lö s u n g m i t R : x1 <− c ( 9 1 , 6 7 , 9 6 , 5 2 , 4 7 , 3 6 , 7 1 , 9 6 , 3 5 , 1 0 3 , 70 , 70 , 55 , 88 , 66) x2 <− c ( 5 8 , 6 7 , 6 3 , 5 2 , 6 3 , 5 3 , 4 8 , 4 1 , 6 0 , 7 6 ) # B e r e c h n u n g d e r Power m i t Gl . ( 5 . 2 2 a ) n1 <− l e n g t h ( x1 ) ; n2 <− l e n g t h ( x2 ) x q u e r 1 <− mean ( x1 ) ; d e l t a <− x q u e r 1 ∗ 0 . 1 s 1 <− s d ( x1 ) ; s 2 <− s d ( x2 ) ; v a r 1 <− s 1 ^ 2 ; v a r 2 <− s 2 ^2 a l p h a <− 0 . 0 5 ; a <− v a r 1 / n1 ; b <− v a r 2 / n2 f <− ( a+b ) ^ 2 / ( a ^ 2 / ( n1 −1)+b ^ 2 / ( n2 −1)) t q u a n t i l <− q t (1− a l p h a / 2 , f ) lambda <− d e l t a / s q r t ( v a r 1 / n1+ v a r 2 / n2 ) power <− p t (− t q u a n t i l , f , ncp = lambda ) + 1− p t ( t q u a n t i l , f , ncp = lambda ) p r i n t ( c b i n d ( d e l t a , lambda , power ) , d i g i t s = 5 ) d e l t a lambda power [ 1 , ] 6.9533 1.0736 0.17633 > # B e r e c h n u n g d e r Power d u r c h S i m u l a t i o n > w2 . power = f u n c t i o n ( n1 , n2 , B , mu1 , mu2 , sigma1 , sigma2 , a l p h a ) { + Ps = r e p l i c a t e ( B , + t . t e s t ( rnorm ( n1 , mu1 , s i g m a 1 ) , + rnorm ( n2 , mu2 , s i g m a 2 ) ) $p . v a l u e ) + A <− sum ( Ps < a l p h a ) ; power <− A/ B + r e t u r n ( power ) } > w2 . power ( 1 5 , 1 0 , 1 0 0 0 0 , 0 , − d e l t a , s1 , s2 , 0 . 0 5 ) [ 1 ] 0.1737 c) Bei der letzten Teilaufgabe geht es um die Bestimmung der Mindestumfänge der Parallelstichproben, die mit der Wahrscheinlichkeit 1 − β = 90% sicherstellen, dass der Welch-Test (mit α = 5%) einen signifikanten Mittelwertunterschied anzeigt, wenn δ = µ1 − µ2 = 0.1x̄1 = 6.953 ist. Für die Umfänge der Parallelstichproben mögen1 = n2 = n gelten. Mit den Quantilen z1−α/2 = z0.975 = 1.96, z1−β = z0.9 = 1.2816 und den Varianzen σ12 ≈ s21 = 477.70, σ22 ≈ s22 = 100.99 erhält man aus (5.22c) den Näherungswert n ≈ 125.76 ≈ 126. Rechnet man genauer mit Formel (5.22a) und bestimmt n aus der Gleichung (z.B. mit der R-Funktion uniroot()) Ff λ (−t f ,1−α/2 ) + 1 − Ff ,λ (t f ,1−α/2 ) = 1 − β , ergibt sich die Lösung n ≈ 127.14 ≈ 128. Man beachte dabei, dass n im Freiheitsgrad f und im Nichtzentralitätsparameter λ enthalten ist. Die Formel (5.21b) geht im betrachteten Fall mit n1 = n2 = n in 5.5 Unterschiedshypothesen mit zwei Mittelwerten 347 2 2 σ12 + σ22 (n − 1) s21 + s22 (n − 1) f= ≈ = 1.4047(n − 1) σ14 + σ24 s41 + s42 über, der Nichtzentralitätsparameter ist durch √ √ √ δ n δ n ≈q = 0.28905 n λ=q σ12 + σ22 s21 + s22 gegeben.34 > > + > > > > > > > # Lö s u n g m i t R : x1 <− c ( 9 1 , 6 7 , 9 6 , 5 2 , 4 7 , 3 6 , 7 1 , 9 6 , 3 5 , 1 0 3 , 70 , 70 , 55 , 88 , 66) x2 <− c ( 5 8 , 6 7 , 6 3 , 5 2 , 6 3 , 5 3 , 4 8 , 4 1 , 6 0 , 7 6 ) d e l t a <− mean ( x1 ) ∗ 0 . 1 ; a l p h a <− 0 . 0 5 ; b e t a <− 0 . 1 v a r 1 <− v a r ( x1 ) ; v a r 2 <− v a r ( x2 ) # M i n d e s t −n m i t ( 5 . 2 2 c ) z a <− qnorm (1− a l p h a / 2 ) ; zb <− qnorm (1− b e t a ) n <− ( v a r 1 + v a r 2 ) / d e l t a ^ 2 ∗ ( z a + zb ) ^ 2 ; n s <− c e i l i n g ( n ) p r i n t ( cbind ( d e l t a , alpha , beta , n , ns ) , d i g i t s =5) delta alpha beta n ns [ 1 , ] 6 . 9 5 3 3 0 . 0 5 0 . 1 1 2 5 . 7 6 126 > # M i n d e s t −n a u s ( 5 . 2 2 a ) m i t u n i r o o t ( ) > c1 <− ( v a r 1 + v a r 2 ) ^ 2 / ( v a r 1 ^2+ v a r 2 ^ 2 ) > c2 <− d e l t a / s q r t ( v a r 1 + v a r 2 ) > r e s <− u n i r o o t ( f = f u n c t i o n ( n ) + p t ( q t ( a l p h a / 2 , c1 ∗ ( n − 1 ) ) , d f = c1 ∗ ( n −1) , ncp = c2 ∗ s q r t ( n ))+1 − + p t ( q t (1− a l p h a / 2 , c1 ∗ ( n − 1 ) ) , d f = c1 ∗ ( n −1) , ncp = c2 ∗ s q r t ( n )) − + (1− b e t a ) , i n t e r v a l =c ( max ( ns −10 , 2 ) , n s + 1 0 ) ) > ng <− r e s $ r o o t ; n g s <− c e i l i n g ( ng ) > p r i n t ( c b i n d ( ng , n g s ) , d i g i t s = 4) ng n g s [ 1 , ] 1 2 7 . 1 128 Wir betrachten nun das 1-seitige Testproblem (5.20b) mit den Hypothesen H0 : µ1 ≤ µ2 und H1 : µ1 > µ2 . Die Nullhypothese H0 wird auf dem Niveau α abgelehnt, falls P = 1 − Ff (tgn1 ,n2 ) < α bzw. tgn1 ,n2 > t f ,1−α gilt. Der Wert der Gütefunktion an der Stelle δ = µ1 − µ2 ist durch G(δ ) = P T Gn1 ,n2 > t f ,1−α δ ) ≈ 1 − Ff ,λ (t f ,1−α ) (5.23a) gegeben. Hier ist f der mit Formel (5.21b) zu berechnende Freiheitsgrad und λ der Nichtzenralitätsparameter (5.22b). Um bei angenommener symmetrischer Ver34 Bei der Anwendung der Funktion uniroot() ist ein Intervall für die Lösung vorzugeben. Dazu geht man am einfachsten von der mit (5.22c) bestimmten Näherungslösung n∗ aus und bildet [n∗ − d, n∗ + d] mit z.B. d = 10. Dabei ist sicher zu stellen, das die untere Grenze positiv bleibt. 348 5 Schätzen und Testen suchsanlage mit n1 = n2 = n den erforderlichen Mindeststichprobenumfang zu planen, geben wir vor: Das Signifikanzniveau α für den 1-seitigen Welch-Test und die Sicherheit 1 − β , mit der die relevante Differenz δ > 0 als signifikant erkannt werden soll. Stehen zusätzlich Schätzwerte für die Varianzen σ12 und σ22 zur Verfügung, kann der Mindeststichprobenumfang als Lösung der Gleichung 1 − Ff ,λ (t f ,1−α ) = 1 − β mit 2 √ σ12 + σ22 (n − 1) δ n und λ = q f= σ14 + σ24 σ12 + σ22 (5.23b) bestimmt werden. Ein grober Richtwert für n ist: n∗ = 2 σ2 1 mit σ 2 = σ12 + σ22 z1−α + z1−β δ2 2 (5.23c) Beispiel 5.15. Wird in Beispiel 5.14 gefragt, ob die Sorte Combin einen größeren mittleren Ertrag aufweist als die Sorte Camedo, hat man das 1-seitige Testproblem mit den Hypothesen H0 : µ1 ≤ µ2 und H1 : µ1 > µ2 . Wie der Lösung mit R entnommen werden kann, ist der P-Wert 4.6% und dies bedeutet, dass H0 nun auf 5%igem Testniveau abgelehnt werden kann. Die Differenz der Stichprobenmittelwerte beträgt x̄1 − x̄2 = 11.43. Ist die wahre Mittelwertdifferenz δ = µ1 − µ2 = 6.9533 (d.h. 10% von x̄1 ), hat man eine Sicherheit (Power) von nur G(δ ) = 27.23%, mit dem auf 5%igem Testniveau geführten 1-seitigen Welch-Test ein signifikantes Resultat zu erhalten. Wie beim 2-seitigen Welch-Test wurde die Power auch mit Hilfe eines Simulationsexperimentes bestimmt und der Wert 27.01% erhalten. > > > > + > > > # Lö s u n g m i t R : # 1− s e i t i g e r Welch−T e s t # a ) T e s t e n t s c h e i d u n g H0 : mu1<=mu2 v s . H1 : mu1>mu2 x1 <− c ( 9 1 , 6 7 , 9 6 , 5 2 , 4 7 , 3 6 , 7 1 , 9 6 , 3 5 , 1 0 3 , 70 , 70 , 55 , 88 , 66) x2 <− c ( 5 8 , 6 7 , 6 3 , 5 2 , 6 3 , 5 3 , 4 8 , 4 1 , 6 0 , 7 6 ) # H0 : mu1<=mu2 v s H1 : mu1>mu2 t . t e s t ( x1 , x2 , a l t e r n a t i v e =" g r e a t e r " ) Welch Two Sample t − t e s t d a t a : x1 and x2 t = 1 . 7 6 5 4 , d f = 2 1 . 0 0 2 , p−v a l u e = 0 . 0 4 6 0 2 alternative hypothesis : t r u e d i f f e r e n c e i n means i s g r e a t e r t h a n 0 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 0.2889602 Inf sample e s t i m a t e s : mean o f x mean o f y 69.53333 58.10000 > # b1 ) B e r e c h n u n g d e r Power m i t Gl . ( 5 . 2 3 a ) > n1 <− l e n g t h ( x1 ) ; n2 <− l e n g t h ( x2 ) 5.5 Unterschiedshypothesen mit zwei Mittelwerten 349 x q u e r 1 <− mean ( x1 ) ; d e l t a <− x q u e r 1 ∗ 0 . 1 s 1 <− s d ( x1 ) ; s 2 <− s d ( x2 ) ; v a r 1 <− s 1 ^ 2 ; v a r 2 <− s 2 ^2 a l p h a <− 0 . 0 5 ; a <− v a r 1 / n1 ; b <− v a r 2 / n2 f <− ( a+b ) ^ 2 / ( a ^ 2 / ( n1 −1)+b ^ 2 / ( n2 −1)) t q u a n t i l <− q t (1− a l p h a , f ) lambda <− d e l t a / s q r t ( v a r 1 / n1+ v a r 2 / n2 ) power <− 1− p t ( t q u a n t i l , f , ncp = lambda ) p r i n t ( c b i n d ( d e l t a , lambda , power ) , d i g i t s = 5 ) d e l t a lambda power [ 1 , ] 6.9533 1.0736 0.27234 > # b2 ) B e r e c h n u n g d e r Power d u r c h S i m u l a t i o n > w1 . power = f u n c t i o n ( n1 , n2 , B , mu1 , mu2 , sigma1 , sigma2 , a l p h a ) { + Ps = r e p l i c a t e ( B , + t . t e s t ( rnorm ( n1 , mu1 , s i g m a 1 ) , + rnorm ( n2 , mu2 , s i g m a 2 ) , + a l t e r n a t i v e =" g r e a t e r " ) $p . v a l u e ) + A <− sum ( Ps < a l p h a ) ; power <− A/ B + r e t u r n ( power ) } > w1 . power ( 1 5 , 1 0 , 1 0 0 0 0 , d e l t a , 0 , s1 , s2 , 0 . 0 5 ) [ 1 ] 0.2701 > > > > > > > > 5.5.3 Der 2-Stichproben t-Test Der 2-Stichproben-t-Test setzt voraus, dass die betrachteten Untersuchungsmerkmale X1 und X2 mit gleichen Varianzen σ12 = σ22 = σ 2 normalverteilt sind.35 In diesem Fall tritt an die Stelle von (5.21a) die Testgröße: (n1 − 1)S12 + (n2 − 1)S22 X̄1 − X̄2 2 T Gn1 ,n2 = r mit S = n1 + n2 − 2 S2 n11 + n12 (5.24) Die Größe S2 ist der mit den Gewichten n1 − 1 bzw. n2 − 1 gebildete Mittelwert der Stichprobenvarianzen S12 und S22 . Wie man zeigen kann, ist die Testgröße (5.24) exakt t f -verteilt mit f = n1 + n2 − 2 Freiheitsgraden, wenn µ1 = µ2 gilt. Setzt man die aus der X1 - und X2 -Stichprobe berechneten arithmetischen Mittel x̄1 , x̄2 und Varianzen s21 , s22 für die Stichprobenmittel bzw. die Stichprobenvarianzen ein, erhält man die Realisierung tgn1 n2 der Testgröße. Der P-Wert für das 2-seitige Testproblem mit den Hypothesen H0 : µ1 = µ2 und H1 : µ1 6= µ2 ist P = 2Ff (−|tgn1 ,n2 |). Hier bezeichnet Ff die Verteilungsfunktion der t f -Verteilung mit f = n1 + n2 − 2 Freiheitsgraden. Ist P < α, wird H0 auf dem Signifikanzniveau α abgelehnt. Mit dem (1 − α/2)-Quantil t f ,1−α/2 der t f -Verteilung kann als Kriterium für die Ablehnung von H0 auch die Bedingung |tgn1 ,n2 | > t f ,1−α/2 verwendet werden. Will man wissen, mit welcher Wahrschein35 Wie man die Gleichheit der Varianzen überprüft, wird in den Ergänzungen (Abschnitt 5.7.3) behandelt. 350 5 Schätzen und Testen lichkeit die Nullhypothese abgelehnt wird, wenn die Mittelwertdifferenz µ1 − µ2 gleich δ ist, berechnet man den Wert der Gütefunktion G an der Stelle δ . Dieser ist durch G(δ ) = Ff ,λ (−t f ,1−α/2 ) + 1 − Ff ,λ (t f ,1−α/2 ) mit δ f = n1 + n2 − 2 und λ = σ q 1 n1 + n12 (5.25a) gegeben. Ff ,λ ist die Verteilungsfunktion der nichtzentralen t-Verteilung mit dem Freiheitsgrad f und dem Nichtzentralitätsparameter λ . Bei festem α, δ , σ und N = n1 + n2 ist G(δ ) am größten, wenn n1 = n2 gewählt wird. Es ist also zweckmäßig, die Umfänge der Parallelgruppen gleich groß zu planen, weil in diesem Fall die Wahrscheinlichkeit G(δ ), einen vorhandenen Unterschied δ 6= 0 mit dem 2Stichproben-t-Test als signifikant zu erkennen, am größten ist. Für Versuchsanlagen mit n1 = n2 = n kann zu vorgegebenem δ , G(δ ) = 1 − β , α und σ der erforderliche Mindeststichprobenumfang n aus der Gleichung Ff ,λ (−t f ,1−α/2 ) + 1 − Ff ,λ (t f ,1−α/2 ) = 1 − β mit √ δ n f = 2(n − 1) und λ = √ σ 2 (5.25b) berechnet werden. Dabei wird für 1 − β meist 90% angenommen und σ durch das arithmetische Mittel der Varianzen s21 und s22 der Parallelstichproben geschätzt. Einen groben Richtwert für den Mindeststichprobenumfang erhält man mit der Formel (z p bezeichnet das p-Quantil der Standardnormalverteilung): n∗ = 2 2σ 2 z1−α/2 + z1−β 2 δ (5.25c) Beispiel 5.16. Zur Überprüfung der Wirksamkeit eines neuen Antibiotikums (Versuchsbedingung A1 ) wurde ein Plattendiffusionstest verwendet und der Durchmesser der Hemmzone für das neue Antibiotikum sowie für ein herkömmliches Produkt als Kontrolle (Versuchsbedingung A2 ) bestimmt. In jeweils 10 Versuchen ergaben sich die folgenden Messwerte (in mm): X1 (Versuchsbedingung A1 ) 15, 21, 25, 18, 17, 18, 14, 17, 16, 20 X2 (Versuchsbedingung A2 ) 24, 26, 22, 20, 20, 23, 17, 16, 23, 18 Wir befassen uns zuerst mit der Frage, ob sich die Durchmesser von X1 und X2 im Mittel unterscheiden. Die zu prüfenden Hypothesen lauten H0 : µ1 = µ2 und H1 : µ1 6= µ2 . Als Signifikanzniveau sei α = 5% vereinbart. Da nach Abb. 5.14 die Durchmesser als normalverteilt angesehen werden können, die Varianzen s21 = 10.322 und s22 = 10.544 nahezu übereinstimmen und überdies die Stichprobenumfänge gleich groß sind, wenden wir den 2-Stichproben-t-Test an. Mit 5.5 Unterschiedshypothesen mit zwei Mittelwerten 351 26 A1 A2 22 18 20 Antibiotikum A2 (n=10) 22 20 18 16 14 14 16 16 18 20 22 Antibiotikum A1 (n=10) 24 24 24 26 n1 = n2 = 10, den arithmetischen Mittel x̄1 = 18.10, x̄2 = 20.9 und der gemittelten Varianz s2 = 10.433 ergibt sich die Realisierung tg10,10 = −1.9383 der Testgröße (5.24). Die Testgröße ist t-verteilt mit f = 2(n − 1) = 18 Freiheitsgraden. Wegen P = 2F18 (−1.9383) = 6.84% ≥ 5% kann die Nullhypothese auf 5%igem Testniveau nicht abgelehnt werden. −2 −1 0 1 N(0,1)−Quantile 2 −2 −1 0 1 N(0,1)−Quantile 2 Abb. 5.14 Überprüfung der Normalverteilung der Durchmesser in Beispiel 5.16. Die in den Boxplots und Normal-QQ-Plots dargestellten Parallelstichproben geben keinen Anlass, die Normalverteilungsannahme abzulehnen. Als nächstes stellen wir einige Überlegungen zur Versuchsplanung an. Dazu muss die Mittelwertdifferenz δ = µ1 − µ2 spezifiziert werden. Nehmen wir an, dass δ = 2 jene relevante Abweichung ist, die wir, wenn sie tatsächlich vorliegt, mit dem auf 5%igen Niveau geführten 2-Stichproben-t-Test als signifikant erkennen möchte. Die Wahrscheinlichkeit, dass dies der Fall ist, kann mit Hilfe der an der Stelle δ = 2 berechneten Gütefunktion bestimmt werden. Für die Stichprobenumfänge n1 = n2 = 10 und α = 0.05 folgt t f ,1−α/2 = t18,0.975 = √ 2.101 und λ = 1.3845, wenn man s = 10.43 = 3.23 als Schätzwert für σ einsetzt. Damit ergibt sich aus (5.25a) die sehr kleine Power G(δ ) = 25.88% an der Stelle δ = 2. Die Power kann vergrößert werden, wenn man den Parallelversuch mit einem größeren n in beiden Stichproben plant. Wie groß n sein soll, um an der Stelle δ = 2 eine Power von 1 − β = 90% zu erhalten, kann grob mit (5.25c) bestimmt werden. Setzt man σ ≈ s, δ = 2, α = 0.05 und 1 − β = 0.9 ein, ergibt sich n∗ = 54.8 ≈ 55. Das Resultat wird genauer, wenn man n als Lösung der Gleichung (5.25b) bestimmt. Man erhält n = 55.79 ≈ 56. > # Lö s u n g m i t R : > o p t i o n s ( d i g i t s =5) 352 5 Schätzen und Testen > > > > x1 <− c ( 1 5 , 2 1 , 2 5 , 1 8 , 1 7 , 1 8 , 1 4 , 1 7 , 1 6 , 2 0 ) x2 <− c ( 2 4 , 2 6 , 2 2 , 2 0 , 2 0 , 2 3 , 1 7 , 1 6 , 2 3 , 1 8 ) v a r 1 <− v a r ( x1 ) ; v a r 2 <− v a r ( x2 ) p r i n t ( cbind ( var1 , var2 ) ) var1 var2 [ 1 , ] 10.322 10.544 > # H0 : mu1 = mu2 v s . H1 : mu1 <> mu2 > t . t e s t ( x1 , x2 , v a r . e q u a l =T ) Two Sample t − t e s t d a t a : x1 and x2 t = −1.94 , d f = 1 8 , p−v a l u e = 0 . 0 6 8 alternative hypothesis : t r u e d i f f e r e n c e i n means i s n o t e q u a l t o 0 95 p e r c e n t c o n f i d e n c e i n t e r v a l : −5.83484 0 . 2 3 4 8 4 sample e s t i m a t e s : mean o f x mean o f y 18.1 20.9 > # Power an d e r S t e l l e d e l t a =2 > s <− s q r t ( ( v a r 1 + v a r 2 ) / 2 ) > power . t . t e s t ( n =10 , d e l t a =2 , s d =s , s i g . l e v e l = 0 . 0 5 , + t y p e =" two . s a m p l e " , a l t e r n a t i v e =" two . s i d e d " , s t r i c t =T ) Two−s a m p l e t n = delta = sd = sig . level = power = alternative = NOTE : n i s number t e s t power c a l c u l a t i o n 10 2 3.2301 0.05 0.25879 two . s i d e d in ∗ each ∗ group > # M i n d e s t −n a u s ( 5 . 2 5 c ) > d e l t a <− 2 ; a l p h a <− 0 . 0 5 ; b e t a <− 0 . 1 > z a l p h a <− qnorm (1− a l p h a / 2 ) ; z b e t a <− qnorm (1− b e t a ) > n s <− 2∗ s ^ 2 / d e l t a ^ 2 ∗ ( z a l p h a + z b e t a ) ^ 2 ; n s [ 1 ] 54.814 > # M i n d e s t −n m i t power . t . t e s t ( ) > power . t . t e s t ( d e l t a =2 , s d =s , s i g . l e v e l = 0 . 0 5 , power = 0 . 9 , + t y p e =" two . s a m p l e " , a l t e r n a t i v e =" two . s i d e d " , s t r i c t =T ) Two−s a m p l e t n = delta = sd = sig . level = power = alternative = NOTE : n i s number t e s t power c a l c u l a t i o n 55.792 2 3.2301 0.05 0.9 two . s i d e d in ∗ each ∗ group Wenn das Testproblem 1-seitig ist mit den Hypothesen H0 : µ1 ≤ µ2 und H1 : µ1 > µ2 , berechnet man die Testgröße wieder mit (5.24) und lehnt H0 ab, wenn P = 5.5 Unterschiedshypothesen mit zwei Mittelwerten 353 1 − Ff (tgn1 ,n2 ) < α gilt. Hier ist wie im 2-seitigen Fall Ff die Verteilungsfunktion der t-Verteilung mit f = n1 + n2 − 2 Freiheitsgraden und tgn1 ,n2 die Realisierung der Testgröße durch die Parallelstichproben. An die Stelle der Gütefunktion in (5.25a) tritt nun G(δ ) = 1 − Ff ,λ (t f ,1−α ) und an Stelle der Gleichung für den Mindeststichprobenumfang in (5.25b) die Beziehung Ff ,λ (t f ,1−α ) = β . Schließlich hat man für 1-seitige Hypothesen statt (5.25c) die Formel: n∗ = 2 σ2 z1−α + z1−β 2 δ (5.26) 5.5.4 Der t-Test für abhängige Stichproben Mittelwertvergleiche können auch mit “abhängigen Stichproben“ geplant werden. Oft hat man neben der Zielvariablen (das ist das primär interessierende Untersuchungsmerkmal) noch weitere Merkmale (sogenannte Begleitvariable) erfasst. Bei einem Plattendiffusionstest können z.B. die Agarplatten von verschiedenen Herstellern stammen. Beim Vergleich der mittleren Durchmesser der Hemmzonen, die durch zwei Antibiotika bewirkt werden, ist dann der Hersteller eine Begleitvariable. Statt die Agarplatten vollständig randomisiert den Versuchsbedingungen (den Antibiotika) zuzuordnen, kann es vorteilhaft sein, die Zufallsauswahl jeweils auf die Produkte eines Herstellers einzuschränken. Auf diese Weise erhält man zwei (über den Hersteller) abhängige Stichproben, die sich aus „Blöcken“ zusammensetzen. Jeder Block enthält ein Messwertpaar (nämlich die Durchmesser der Hemmzonen auf zwei Agarplatten desselben Herstellers). Man spricht daher auch von einer randomisierten Blockanlage. Eine besondere Form einer Versuchsanlage mit abhängigen Stichproben sind selbstkontrollierte Versuche. Bei diesen erhalten die Probanden zwei Behandlungen in einem gewissen zeitlichen Abstand. Wendet man die Behandlungen so an, dass etwa die Hälfte der Probanden die Behandlungen in umgekehrter Reihenfolge erhält, liegt ein sogenanntes Crossover-Design vor.36 Es sei X j die Zielvariable unter der Versuchsbedingung j ( j = 1, 2) mit dem Mittelwert µ j . Von X1 und X2 liegen n Messwertpaare (x11 , x12 ), (x21 , x22 ), . . . , (xn1 , xn2 ) vor. Die Werte eines jeden Messwertpaares zeichnen sich dadurch aus, dass die Untersuchungseinheiten, an denen die Zielvariablen gemessen wurden, aus demselben Block i ausgewählt wurden. Beim Vergleich der Mittelwerte µ1 und µ2 mit abhängigen Stichproben gehen wir von der Modellgleichung xi j = µ j + βi + ei j aus. Danach setzt sich jeder Messwert xi j aus drei Summanden zusammen: Der erste Summand ist der von der Versuchsbedingung j abhängige Mittelwert µ j . Mit der Größe βi wird ein allfälliger Effekt des Blocks i erfasst. Die Größe ei j ist ein von der Versuchsbe36 Bei einem selbstkontrollierten Versuchen muss sicher gestellt sein, dass der Zustand der Probanden bei der zweiten Behandlung im Wesentlichen der gleiche ist wie bei der ersten Behandlung. Das ist z.B. nicht der Fall, wenn Übertragungseffekte auftreten, d.h. die erste Behandlung auf die zweite nachwirkt. In diesem Fall wird man Mittelwertvergleiche mit unabhängigen Stichproben bevorzugen. 354 5 Schätzen und Testen dingung j und vom Block i abhängiger Restterm, den wir als Realisierung einer um null normalverteilten Zufallsvariablen annehmen. Bildet man die Paardifferenzen di = xi1 − xi2 , so kürzt sich der Blockeffekt heraus. Die Differenz D = X1 − X2 der Zielvariablen ist dann eine normalverteilte Zufallsvariable mit dem Mittelwert µ1 − µ2 und einer von der Blockwirkung bereinigten Varianz. Offensichtlich gilt µ1 = µ2 genau dann, wenn µD = µ1 − µ2 = 0 ist. Der Mittelwertvergleich mit zwei abhängigen Stichproben kann daher auf einen Vergleich des Mittelwerts der Differenzstichprobe mit dem Referenzwert null zurückgeführt werden. Das entsprechende Instrument dafür ist der in Abschnitt 5.3 behandelte 1Stichproben-t-Test. Es sei d¯ = x̄1 − x̄2 das arithmetischen Mittel und s2d die empirische Varianz der Differenzstichprobe d1 , d2 , . . . , dn mit di = xi1 − xi2 (i = 1, 2, . . . , n). Damit ergibt sich die Realisierung tgn = q d¯ (5.27) s2d /n der Testgröße (5.11). Die Nullhypothese des 2-seitigen Testproblems H0 : µd = 0 gegen H1 : µd 6= 0 wird auf dem Testniveau α abgelehnt, wenn P = 2[1 − Fn−1 (|tgn |)] < α gilt. Ein damit gleichwertiges Kriterium für die Ablehnung von H0 ist |tgn | > tn−1,1−α/2 . Die Größen Fn−1 und tn−1,1−α/2 bezeichnen die Verteilungsfunktion bzw. das (1 − α/2)-Quantil der tn−1 -Verteilung.37 Beispiel 5.17. Bei der Überprüfung der Qualität eines neuen Labors L1 wurden 10 Proben eines Magnesium-Präparats ausgewählt, jede Probe geteilt und die Teilproben an das Labor L1 und ein Kontrolllabor L2 geschickt. Die Messungen der Labors ergaben die folgenden Analysenwerte (in mg): X1 (Labor L1 ) 219 196 213 203 218 212 205 191 206 219 X2 (Labor L2 ) 232 201 232 234 209 210 222 202 205 225 D = X1 − X2 −13 −5 −19 −31 9 2 −17 −11 1 −6 Da sich die übereinander stehenden X1 - und X2 -Werte auf dieselbe Probe beziehen, betrachten wir die Stichproben als abhängig. In der letzten Zeile sind die Differenzen der von den Labors an jeder Probe gemessenen Mg-Werte angeführt. Die Frage ist, ob sich die Analysenwerte des Labors L1 im Mittel von denen des Kontrolllabors L2 unterscheiden. Als Signifikanzniveau sei α = 5% vereinbart. 37 Die Varianz der Differenzstichprobe kann auch mit der Formel s2 = s2 + s2 − 2s s r berechnet 1 2 12 1 2 d werden, in der s21 und s22 die empirischen Varianzen der X1 - bzw. X2 -Stichprobe und r12 die Produktmomentkorrelation der X1 - und X2 -Stichprobe bedeuten (vgl. Abschnitt 2.1.3). Diese Darstellung zeigt, dass s2d klein und folglich tgn groß wird, wenn r12 > 0 ist. Positiv korrelierte Stichproben führen also beim t-Test für abhängige Stichproben zu einem größeren Testgrößenwert, und in der Folge häufig zu einem signifikantem Testausgang. 5.5 Unterschiedshypothesen mit zwei Mittelwerten 355 Zur Beantwortung der Frage formulieren wir die Hypothesen H0 : µD = µ1 − µ2 = 0 und H1 : µD 6= 0. Dabei ist µi der Mittelwert der im Labor Li gemessenen Größe Xi (i = 1, 2). Die Werte der Differenzstichprobe können nach Abb. 5.15 als Realisierungen einer normalverteilten Variablen D = X1 − X2 betrachtet werden. Wir schätzen den Mittelwert µD und die Varianz σD2 von D durch d¯ = −9 bzw. s2d = 137.56 und berechnen damit die Realisierung tg10 = −2.427 der Testgröße. Wegen P = 2[1−Fn−1 (|tg10 |)] = 3.82% < 5% ist H0 auf 5%igem Testniveau abzulehnen. Auch die Gütefunktion des t-Tests für abhängige Stichproben kann mit den in Abschnitt 5.3 bereitgestellten Formeln berechnet werden. Wegen µ0 = 0 ist √ der Nichtzentralitätsparameter in (5.13c) nun λ = µD n/σD . Setzt man z.B. µD = d,¯ σ = sd und n = 10 ergibt sich λ = −2.427. Zum angenommenen Signifikanzniveau α = 5% ist tn−1,1−α/2 = t9,0.975 = 2.262. Damit erhält man aus (5.13c) den Wert G(−9) = Fn−1,λ (−tn−1,1−α/2 ) + 1 − Fn−1,λ (tn−1,1−α/2 ) = 58.1% 10 0 −10 di = xi1 − xi2 (i=1,2,...,10) −20 −30 0 −10 −20 −30 di = xi1 − xi2 (i=1,2,...,10) 10 der Gütefunktion an der Stelle µD = d¯ = −9. Mit dieser Wahrscheinlichkeit können wir also einen signifikanten Testausgang erwarten, wenn die wahre Mittelwertdifferenz µD gleich der beobachteten Differenz d¯ ist. −2 −1 0 1 2 N(0,1)−Quantile Abb. 5.15 Boxplot und Normal-QQ-Plot mit 5%igen Konfidenzbändern für die Differenzstichprobe in Beispiel 5.17. Aus den Grafiken lässt sich kein Widerspruch zur Normalverteilungsannahme ablesen. > > > > > > # Lö s u n g m i t R : x1 <− c ( 2 1 9 , 1 9 6 , 2 1 3 , 2 0 3 , 2 1 8 , 2 1 2 , 2 0 5 , 1 9 1 , 2 0 6 , 2 1 9 ) x2 <− c ( 2 3 2 , 2 0 1 , 2 3 2 , 2 3 4 , 2 0 9 , 2 1 0 , 2 2 2 , 2 0 2 , 2 0 5 , 2 2 5 ) d <− x1−x2 # H0 : muD =0 v s . H1 : muD <> 0 t . t e s t ( d , mu= 0 ) 356 5 Schätzen und Testen One Sample t − t e s t data : d t = −2.4266 , d f = 9 , p−v a l u e = 0 . 0 3 8 1 9 a l t e r n a t i v e h y p o t h e s i s : t r u e mean i s n o t e q u a l t o 0 95 p e r c e n t c o n f i d e n c e i n t e r v a l : −17.3899977 −0.6100023 sample e s t i m a t e s : mean o f x −9 > # Gü t e f u n k t i o n an d e r S t e l l e muD= d q u e r > d q u e r <− mean ( d ) ; v a r d <− v a r ( d ) > power . t . t e s t ( n =10 , d e l t a = d q u e r , s d = s q r t ( v a r d ) , + s i g . l e v e l = 0 . 0 5 , t y p e =" one . s a m p l e " , + a l t e r n a t i v e =" two . s i d e d " , s t r i c t =T ) One−s a m p l e n delta sd sig . level power alternative t = = = = = = t e s t power c a l c u l a t i o n 10 9 11.72841 0.05 0.5810022 two . s i d e d Aufgaben 1. Von zwei Präparaten P1 und P2 wurde an je 10 Probanden die Halbwertszeit X1 bzw. X2 bestimmt, mit der die Wirkstoffkonzentration im Blut abnimmt. Die beobachteten Messwerte (in h) sind: X1 (P1 ) 0.51, 0.60, 1.09, 1.07, 1.30, 1.27, 0.90, 0.46, 0.31 X2 (P2 ) 1.00, 1.15, 1.17, 0.88, 0.94, 0.63, 1.37, 0.62, 1.37 a) Man prüfe auf 5%igem Testniveau, ob sich die arithmetischen Mittel der Halbwertszeiten signifikant unterscheiden. b) Mit welchem Mindeststichprobenumfang müsste die Studie geplant werden, damit man eine Sicherheit von 90% hat, einen Unterschied der mittleren Halbwertszeiten im Ausmaß einer Viertelstunde mit dem Welch-Test (α = 5%) zu erkennen? 2. Die wiederholte Messung der Konzentration eines Wirkstoffes X ergab im Rahmen eines Ringversuches für die Labors L1 und L2 die folgenden Werte (Angaben in mg/l): X1 (Labor L1 ) 5.36, 6.07, 6.48, 5.75, 5.99, 6.54, 5.52, 4.95, 5.74, 5.51 X2 (Labor L2 ) 7.87, 2.95, 5.38, 5.89, 3.66, 0.10, 3.95, 2.69, 2.15, 3.10 5.6 Vergleiche mit Wahrscheinlichkeiten 357 a) Man untersuche unter der Annahme, dass X1 und X2 mit gleichen Varianzen normalverteilt sind und die Messungen als Parallelversuch geplant wurden, ob sich die arithmetischen Mittel der Messgrößen auf 5%igem Testniveau signifikant unterscheiden. b) Mit welcher Wahrscheinlichkeit ist ein signifikanter Ausgang des 2-Stichproben-t-Tests zu erwarten, wenn sich die wahren Mittelwerte der Messgrößen um δ = 1.5 unterscheiden. 3. In einer Studie über die Langzeitwirkung eines blutdrucksenkenden Präparats wurden 10 an Bluthochdruck leidende Personen gebeten, den systolischen Blutdruck 2 Stunden nach Einnahme des Präparats (Variable X1 ) und 12 Stunden danach (Variable X2 ) jeweils im Sitzen zu messen. Die Messwerte (in mm Hg) sind: X1 120, 125, 121, 135, 125, 135, 139, 146, 114, 109 X2 130, 131, 143, 141, 144, 132, 144, 149, 128, 137 a) Zeigen Sie mit dem t-Test für abhängige Stichproben, dass sich das arithmetische Mittel des Blutdrucks von der ersten Messung zur zweiten auf 5%igem Testniveau signifikant geändert hat. b) Überprüfen Sie mit dem Normal-QQ-Plot, ob die Daten gegen die Annahme einer normalverteilten Differenzvariablen D = X1 − X2 sprechen. c) Berechnen Sie die Wahrscheinlichkeit, mit dem t-Test für abhängige Stichproben ein auf 5%igem Niveau signifikantes Ergebnis zu erhalten, wenn sich die Mittelwerte von X1 und X2 um µ1 − µ2 = −10 mm Hg unterscheiden. Verwenden Sie dabei die empirische Standardabweichung der Differenzstichprobe als Schätzwert für die Standardabweichung von D. 5.6 Vergleiche mit Wahrscheinlichkeiten 5.6.1 Der P-Wert des exakten Binomialtests Es sei p die Wahrscheinlichkeit eines Ereignisses, z.B., dass bei einer Therapie eine Verbesserung eintritt, oder dass bei einem Herstellungsverfahren ein defektes Produkt erzeugt wird. Die Anwendung einer Therapie auf eine Person oder die Herstellung eines Produktes ist statistisch als Zufallsexperiment zu sehen. Bei diesem haben wir einen interessierenden Ausgang E (nämlich das Ereignis „Verbesserung“ oder „defektes Produkt“) und einen zweiten Ausgang E c (nämlich den, dass das interessierende Ereignis nicht eintritt). Ein derartiges Experiment wurde in Abschnitt 2.4 als Bernoulli-Experiment bezeichnet und seine Ausgänge mit einer Zufallsvariablen erfasst, die den Wert eins annimmt, wenn E eintritt, andernfalls den Wert null. Wir führen das Bernoulli-Experiment n-mal so aus, dass der Ausgang einer 358 5 Schätzen und Testen jeden Wiederholung unabhängig von den Ausgängen der anderen Wiederholungen ist. Jeder Ausführung i (i = 1, 2, . . . , n) wird die Zufallsvariable Xi mit der durch P(Xi = 1) = p, P(Xi = 0) = 1 − p und P(Xi = x) = 0 für x ∈ / {0, 1} gegebenen Wahrscheinlichkeitsfunktion zugeordnet. Die Summe H = X1 + X2 + · · · + Xn ist die Anzahl der Wiederholungen (bei insgesamt n Wiederholungen), bei denen E eintritt. Nach Abschnitt 2.5.2 ist H eine mit den Parametern n und p binomialverteilte Zufallsvariable. Ihr Mittelwert ist µH = np. Setzt man µH gleich der konkret beobachteten Anzahl h von Wiederholungen mit dem Ausgang E, erhält man den Schätzwert p̂ = h/n für die Wahrscheinlichkeit p. Soll festgestellt werden, ob die Wahrscheinlichkeit p einen vorgegebenen Sollwert p0 überschreitet, wird das 1-seitige Testproblem H0 : p ≤ p0 gegen H1 : p > p0 formuliert. Der exakte Binomialtest verwendet als Testgröße die Anzahl H der Experimente mit dem interessierenden Versuchsausgang. Für die konkret vorliegende Stichprobe möge H den Wert h besitzen. Wenn H0 gilt, ist µH = np0 . Weicht die Realisierung h der Testgröße davon „extrem“ nach oben ab, spricht dies für die Gültigkeit von H1 . Umso mehr gilt das für die Testgrößenwerte h + 1, h + 2, . . . , n, die in diesem Sinne als „extremer“ als h zu betrachten sind. Die Wahrscheinlichkeit dafür, dass die Testgröße H einen Werte annimmt, der zumindest genau so extrem liegt wie die konkret beobachtete Realisierung h, wird mit dem P-Wert P = P(H ≥ h) = 1 − P(H < h) = 1 − P(H ≤ h − 1) = 1 − FB (h − 1) (5.28a) erfasst. Die Größe FB bezeichnet die Verteilungsfunktion der Bn,p0 -Verteilung. Zur Berechnung von Werten dieser Verteilungsfunktion verwendet man zweckmäßigerweise einschlägige Funktionen aus einer Statistik-Software (z.B. die Funktion pbinom() in R). Ist der P-Wert kleiner als das vorgegebene Testniveau α, wird H0 auf dem Niveau α abgelehnt. Andernfalls bleibt die Nullhypothese aufrecht. Mit dem betrachteten 1-seitigen Binomialtest wird eine allfällige Überschreitung des Sollwerts p0 geprüft. Beim Binomialtest auf Unterschreitung geht es um die Hypothesen H0 : p ≥ p0 gegen H1 : p < p0 . Zur Berechnung des P-Werts verwendet man an Stelle von (5.28a) die Formel P = P(H ≤ h) = FB (h) (5.28b) und lehnt H0 auf dem Niveau α ab, wenn P < α ist. Komplexer ist die Bestimmung des P-Werts für das 2-seitige Testproblem H0 : p = p0 gegen H1 : p 6= p0 . Betrachtet man z.B. den Fall h > np0 , sind jedenfalls die Testgrößenwerte h + 1, h + 2, . . . , n extremer als die beobachtete Realisierung h. Für jeden extremen Wert xr gilt Bn,p0 (xr ) ≤ Bn,p0 (h). Die Wahrscheinlichkeit dass die Testgröße einen Wert gleich oder größer als h annimmt, ist durch P(H ≥ h) = Bn,p0 (h) + Bn,p0 (h + 1) + · · · + Bn,p0 (n) gegeben. Bei der Berechnung des P-Werts sind aber auch extreme Testgrößenwerte links von np0 zu berücksichtigen. Wir bezeichnen einen links von np0 liegenden Werte xl als extrem, wenn wie bei den rechts liegenden Werten Bn,p0 (xl ) ≤ Bn,p0 (h) gilt. Diese Überlegung führt dazu, den P-Wert des 2-seitigen Binomialtests folgendermaßen zu bestimmen: Wir berechnen die Wahrscheinlichkeiten P(H = x) = Bn,p0 (x), dass die Testgröße H bei 5.6 Vergleiche mit Wahrscheinlichkeiten 359 Gültigkeit von H0 : p = p0 die möglichen Werte x = 0, 1, . . . , n annimmt. Die Summe n 1 falls Bn,p0 ≤ Bn,p0 (h) P = ∑ Bn,p0 (x)Ix mit Ix = (5.28c) 0 falls Bn,p0 > Bn,p0 (h) x=0 der Binomialwahrscheinlichkeiten mit der Eigenschaft Bn,p0 (x) ≤ Bn,p0 (h) ist der gesuchte P-Wert. Die Nullhypothese wird in der gewohnten Weise abgelehnt, wenn der P-Wert kleiner als das vorgegebene Testniveau α ist. Beispiel 5.18. Von einer Erbsenpflanze erhielt Gregor Mendel insgesamt 62 Samen von denen 44 gelb und 18 grün gefärbt waren.38 Wir zeigen auf dem Testniveau α = 5%, dass das Verhältnis 44:18 der beobachteten Anzahlen nicht signifikant vom theoretischen Aufspaltungsverhältnis 3:1 abweicht. Die Samenfarbe kann als Bernoulli-Variable mit den Werten eins (für gelb) und null (für grün) gesehen werden. Die Wahrscheinlichkeit für die Ausbildung eines gelben Samens sei p. Zu prüfen sind die Hypothesen H0 : p = p0 = 3/4 gegen H1 : p 6= 3/4. Von den insgesamt n = 62 betrachteten Samen zeigten h = 44 eine gelbe Farbe. Aus den Daten ergibt sich der Schätzwert p̂ = h/n = 0.7097 für p. Die Testgröße H ist die Anzahl der gelb gefärbten Samen in einer Zufallsstichprobe vom Umfang n. Unter H0 ist H binomialverteilt mit den Parametern n = 62 und p = p0 = 3/4. Zur Bestimmung des P-Werts werden die Binomialwahrscheinlichkeiten Bn,p0 (x) (x = 0, 1, . . . , n) berechnet und jene aufsummiert, die kleiner oder gleich Bn,p0 (s) = 0.08562 sind. Die Summe ist der gesuchte P-Wert P = 46.45%, der deutlich größer als das vorgegebene Testniveau α = 5% ist. Die Nullhypothese kann daher nicht abgelehnt werden. In der folgenden Lösung mit R wird der P-Wert so wie beschrieben bestimmt. Zusätzlich wird der P-Wert mit der in R bereitgestellte Funktion binom.test() ermittelt. > > > > > > > + + > # Lö s u n g m i t R : n <− 6 2 ; p0 <− 0 . 7 5 ; h <− 44 # H0 : p=p0 g e g e n H1 : p <> p0 # B e r e c h n u n g von P m i t den B i n o m i a l w a h r s c h e i n l i c h k e i t e n Bh <− dbinom ( h , n , p0 ) # B i n o m i a l −Ws f ü r T e s t g r öß e n w e r t h Pc <− 0 for ( x in 0: n ){ Bx <− dbinom ( x , n , p0 ) i f ( Bx > Bh ) { Pc <− Pc+Bx}} P <− 1−Pc ; p r i n t ( c b i n d ( Bh , P ) , d i g i t s = 4 ) Bh P [ 1 , ] 0.08562 0.4645 > # B e r e c h n u n g von P m i t d e r F u n k t i o n binom . t e s t ( ) > binom . t e s t ( h , n , p0 ) 38 Gregor Mendel (1822-1884) wirkte als Augustinermönch und Naturforscher in Brünn. Nach Experimenten mit ausgewählten Sorten der Erbse veröffentlichte er die nach ihm benannten Vererbungsregeln unter dem Titel „Versuche über Pflanzenhybriden“ im Jahre 1865. Die Originalarbeit findet man u.a. unter http://www.gutenberg.org/ebooks/40854. 360 5 Schätzen und Testen Exact binomial t e s t d a t a : h and n number o f s u c c e s s e s = 4 4 , number o f t r i a l s = 6 2 , p−v a l u e = 0 . 4 6 4 5 alternative hypothesis : t r u e p r o b a b i l i t y of success i s not equal to 0.75 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 0.5805098 0.8180060 sample e s t i m a t e s : p r o b a b i l i t y of success 0.7096774 5.6.2 Näherungsweise Bestimmung der Gütefunktion des Binomialtests Die Anzahl H der Wiederholungen von n, voneinander unabhängig ausgeführten Bernoulli-Experimenten mit dem Ausgang E (dieser möge mit der Wahrscheinlichkeit p eintreten) ist binomialverteilt mit den Parametern n und p. Dividiert man H durch n, erhält man eine Schätzfunktion für p p. Wir nehmen von H/n die Quadratwurzel und bilden die Größe Y = 2 arcsin H/n. Hier steht arcsin für Arkussinussinus.39 Man kann zeigen, dass sich die Verteilung von Y mit wachsendem n der √ Normalverteilung mit dem Mittelwert µ = 2 arcsin p und der Varianz σ 2 = 1/n nähert. Wir nehmen nun (näherungsweise) Y als N(µ, σ 2 )-verteilt mit der von n abhängigen Varianz an. Im Rahmen dieser Näherung könnte der Vergleich der Wahrscheinlichkeit p mit dem Sollwert p0 auch als Vergleich des Mittelwerts µ mit dem √ Sollwert µ0 = 2 arcsin p0 geführt werden. Dafür besteht aber keine Veranlassung, da der Vergleich mit dem im vorangehenden Abschnitt besprochenen Binomialtest ohne großen Aufwand exakt durchgeführt werden kann. Wir verwenden die Näherung, um die Power, also den Wert der Gütefunktion für ein festes µ, und eine Formel für den Mindeststichprobenumfang anzugeben. Der Wert G(µ) der Gütefunktion des 2-seitigen Binomialtest mit den Hypothesen H0 : p = p0 gegen H1 : p 6= p0 kann an der Stelle p näherungsweise aus √ √ G(p) = Φ −z1−α/2 − δ n + Φ −z1−α/2 + δ n (5.29a) berechnet werden.40 Hier ist Φ die Verteilungsfunktion und z1−α/2 das (1 − α/2)√ Quantil der N(0, 1)-Verteilung; die Größe δ steht abkürzend für δ = 2 arcsin p − √ 2 arcsin p0 . Gibt man die Power G(p) = 1 − β vor, kann aus (5.29a) der erforderliche Mindeststichprobenumfang n∗ bestimmt werden. Einen Richtwert liefert die 39 Der Arkussinus einer reellen Zahl z aus dem Intervall [−1, 1] ist die im Intervall [−π/2, π/2] liegende Lösung x (im Bogenmaß) der Gleichung sin x = z. Z.B. ist arcsin 1 = π/2 (wegen sin π/2 = 1) oder arcsin 0 = 0 (wegen sin 0 = 0). 40 Eine Begründung der Formel (5.29a) findet man in den Ergänzungen (Abschnitt 5.7.4a). 5.6 Vergleiche mit Wahrscheinlichkeiten 361 Formel: 2 1 z +z (5.29b) δ 2 1−α/2 1−β Man erhält sie aus (5.29a), wenn man auf der linken Seite im Falle δ > 0 (δ < 0) den ersten (zweiten) Term vernachlässigt. Plant man den Vergleich mit dem Stichprobenumfang n∗ , hat man die Sicherheit 1 − β , mit dem auf dem Niveau α geführten Binomialtest eine Abweichung von p0 in der vorgegebenen Höhe p − p0 als signifikant zu erkennen. n∗ ≈ Beispiel 5.19. In Beispiel 5.18 ging es um das Testproblem mit den Hypothesen H0 : p = p0 = 0.75 gegen H1 : p 6= p0 . Mit dem auf 5%igem Niveau geführten 2-seitige Binomialtest konnte H0 nicht abgelehnt werden. Ergänzend dazu berechnen wir nun die Wahrscheinlichkeit G(p), dass der Test zu einem signifikanten Ausgang (also zu H1 ) führt, wenn das wahre Aufspaltungsverhältnis mit 1 : 1 angenommen wird, also p = 0.5 ist. Setzt man z1−α/2 = z0.975 = 1.96, n = 62 und √ √ δ = 2 arcsin 0.5 − 2 arcsin 0.75 = −0.5236 in (5.29a) ein, folgt: G(p) = G(0.5) = Φ(2.1629) + Φ(−6.0828) = 98.47% Begnügt man sich mit einer Sicherheit G(p) von 1 − β = 90%, erhält man mit z1−β = 1.2816 aus (5.29b) den für einen signifikanten Testausgang erforderlichen Mindeststichprobenumfang n∗ ≈ > > > > > > > 2 1 1.96 + 1.2816 = 38.33 ≈ 39. 2 0.5236 # Lö s u n g m i t R : n <− 6 2 ; p0 <− 0 . 7 5 ; p <− 0 . 5 0 ; a l p h a <− 0 . 0 5 # Nä h e r u n g s w e i s e B e r e c h n u n g d e r Power m i t F o r m e l ( 5 . 2 9 a ) l i b r a r y ( pwr ) d e l t a <− 2∗ a s i n ( s q r t ( p ) ) − 2∗ a s i n ( s q r t ( p0 ) ) power <− pwr . p . t e s t ( d e l t a , n , a l p h a ) $power p r i n t ( c b i n d ( n , p0 , p , d e l t a , power ) , d i g i t s = 4 ) n p0 p d e l t a power [ 1 , ] 62 0 . 7 5 0 . 5 −0.5236 0 . 9 8 4 7 > # Powerberechnung durch S i m u l a t i o n ( e x a k t e r B i n o m i a l t e s t ) > binom . power = f u n c t i o n ( n , N, p , p0 , a l p h a ) { + # n= S t i c h p r o b e n u m f a n g + # N= A n z a h l d e r ausgew ä h l t e n Z u f a l l s s t i c h p r o b e n + # p= wahre W a h r s c h e i n l i c h k e i t , p0= S o l l w e r t , a l p h a = T e s t n i v e a u + P <− c ( ) + f o r ( b i n 1 :N) { + s <− sum ( s a m p l e ( c ( 1 , 0 ) , n , r e p l a c e =T , p r o b =c ( p , 1−p ) ) ) + P <− a p p e n d ( P , binom . t e s t ( s , n , p=p0 ) $p . v a l u e ) } + A <− sum ( P < a l p h a ) ; power <− A/N 362 5 Schätzen und Testen + r e t u r n ( c b i n d (A, N, power ) ) } > binom . power ( n , 5 0 0 0 , p , p0 , a l p h a ) A N power [ 1 , ] 4917 5000 0 . 9 8 3 4 > # M i n d e s t −n m i t F o r m e l ( 5 . 2 9 b ) > z a l p h a <− qnorm (1− a l p h a / 2 ) ; b e t a <− 0 . 1 > z b e t a <− qnorm (1− b e t a ) > n s <− ( z a l p h a + z b e t a ) ^ 2 / d e l t a ^ 2 ; p r i n t ( ns , d i g i t s =4 ) [1] 38.33 Für das 1-seitige Testproblem H0 : p ≤ p0 gegen H1 : p > p0 (Test auf Überschreitung) und das 1-seitige Testproblem H0 : p ≥ p0 gegen H1 : p < p0 (Test auf Unterschreitung) tritt an die Stelle von (5.29a) die Formel: √ √ G(p) = 1 − Φ z1−α − δ n = Φ z1−α + δ n bzw. √ G(p) = Φ −z1−α − δ n (5.30) Ersetzt man in (5.29b) das Quantil z1−α/2 durch z1−α , kann man damit für beide Varianten des 1-seitigen Binomialtest den erforderlichen Mindeststichprobenumfangs abschätzen. 5.6.3 Konfidenzintervall für eine Wahrscheinlichkeit Es gehört zur guten Praxis des Testens, nicht nur den P-Wert und die damit herbeigeführte Testentscheidung anzugeben, sondern detaillierter über den zu prüfenden Parameter zu berichten. So enthält z.B. die Ausgabe der R-Funktion binom.test() zusätzlich zum P-Wert auch noch einen Schätzwert und ein Konfidenzintervall für die unbekannte Wahrscheinlichkeit p (vgl. Beispiel 5.18). Damit kann die Abweichung der Wahrscheinlichkeit p vom Sollwert p0 auch mit dem Konfidenzintervall beurteilt werden. Die Nullhypothese wird genau dann auf 5%igem Testniveau abgelehnt, wenn p0 nicht im 95%igem Konfidenzintervall für p liegt. Bei der Schätzung einer Wahrscheinlichkeit liegt i. Allg. folgende Situation vor: Bei einem Zufallsexperiment tritt ein Ereignis E ein, dessen Wahrscheinlichkeit p bestimmt werden soll. Indem man alle anderen möglichen Ausgänge des Zufallsexperimentes in dem zu E komplementären Ereignis E c zusammenfasst, hat man ein Bernoulli-Experiment mit den Ausgängen E und E c , die mit den Wahrscheinlichkeiten p bzw. 1 − p eintreten. Das Zufallsexperiment wird n-mal so ausgeführt, dass jede Ausführung unbeeinflusst von den anderen stattfindet. Die Anzahl H der Experimente mit dem Ergebnis E ist nach Abschnitt 2.5 binomialverteilt mit dem Mittelwert np und der Varianz np(1 − p). Wird der Ausgang E bei einer konkreten Serie von n Experimenten insgesamt h-mal beobachtet, ergibt sich aus h = np der Schätzwert p̂ = h/n für den Parameter p. Es seien nun U und O die untere bzw. obere Grenze eines (1 − α)-Konfidenzintervalls für die (unbekannte) Wahrscheinlichkeit p. Von den Grenzen wird gefordert, 5.6 Vergleiche mit Wahrscheinlichkeiten 363 dass die Überdeckungswahrscheinlichkeit C = P(U ≤ p ≤ O) mit dem nominellen Konfidenzniveau 1 − α übereinstimmt oder zumindest nicht stark von diesem abweicht. Zu einem Konfidenzintervall für p mit einer guten Performance hinsichtlich der Überdeckungswahrscheinlichkeit gelangt man auf folgende Weise: Wir setzen voraus, dass n nicht zu „klein“ und p nicht zu nahe bei null oder eins liegt. Als Kriterium dafür kann die Ungleichung np(1 − p) ≈ n p̂(1 − p̂) > 9 verwendet p werden. Unter dieser Voraussetzung ist die standardisierte Anzahl (H − np)/ np(1 − p) mit vertretbarer Genauigkeit N(0, 1)-verteilt. Im Rahmen der Approximation gilt: 1 − α = Φ(z1−α/2 ) − Φ(zα/2 ) ! H − np ≈ P zα/2 ≤ p ≤ z1−α/2 n(p(1 − p) r H p(1 − p) H −d ≤ p ≤ +d mit d = z1−α/2 =P n n n Ersetzt man hier die Wahrscheinlichkeit p im Ausdruck für d durch die Schätzfunktion H/n, erhält man die Grenzen r r H(1 − H) H(1 − H) US = H − z1−α/2 und OS = +z1−α/2 n n eines approximativen (1 − α)-Konfidenzintervalls für p. Dieses Konfidenzintervall wird als Standardintervall bezeichnet. Wie durch Simulationsexperimente gezeigt werden konnte, kann die Überdeckungswahrscheinlichkeit des Standardintervalls selbst für mittlere Werte von p und große n erheblich vom nominellen Wert 1 − α abweichen. Es wurde daher versucht, durch Abänderungen des Standardardintervalls ein Intervall finden, bei dem die Überdeckungswahrscheinlichkeit besser mit 1 − α übereinstimmt. Ein solches Intervall ist das Agresti-Coull-Intervall mit den Grenzen:41 UA = M − L und OA = M + L mit s H + 12 z21−α/2 M(1 − M) M= und L = 2 n + z1−α/2 n + z21−α/2 (5.31) Unter der Voraussetzung n p̂(1 − p̂) > 9 ist das Konfidenzintervall (5.31) eine gute Wahl. Ist die Voraussetzung nicht erfüllt, kann man das in den Ergänzungen dargestellte Clopper-Pearson-Intervall verwenden, mit dem auch die R-Funktion binom.test() arbeitet. Beispiel 5.20. Wir greifen nochmals die Beobachtungsdaten h = 44 und n = 62 von Beispiel 5.18 auf und berechnen das durch diese Daten realisierte Agresti-Coull-Intervall 41 Agresti, A., Coull, B.A.: Approximate Is Better than “Exact” for Interval Estimation of Binomial Proportions. The American Statistician, 52, 119-126 (1998). 364 5 Schätzen und Testen zum Konfidenzniveau 1 − α = 0.95. Mit z1−α/2 = z0.975 = 1.96 erhält man für die Intervallmitte M den Wert m = 0.6974 und für die halbe Intervalllänge L den Wert l = 0.1110. Damit ergeben sich die Grenzen uA = m − l = 0.5865 und oA = m+l = 0.8084. Die folgende Lösung mit R wurde mit Formel (5.31) sowie mit der Funktion binom.confint() aus dem Paket "binom"gerechnet. > # Lö s u n g m i t R : > h <− 4 4 ; n <− 6 2 ; pd <− h / n > n∗ pd ∗(1− pd ) >9 # V o r a u s s . f . N o r m a l v e r t e i l u n g s a p p r o x i m a t i o n [ 1 ] TRUE > # Berechnung mit Formel ( 5 . 3 1 ) > a l p h a <− 0 . 0 5 ; z a l p h a <− qnorm (1− a l p h a / 2 ) > m <− ( h+ z a l p h a ^ 2 / 2 ) / ( n+ z a l p h a ^ 2 ) > l <− z a l p h a ∗ s q r t (m∗(1−m ) / ( n+ z a l p h a ^ 2 ) ) > uA <− m−l ; oA <− m+ l > p r i n t ( c b i n d ( pd , z a l p h a , m, l , uA , oA ) , d i g i t s = 4 ) pd z a l p h a m l uA oA [ 1 , ] 0.7097 1.96 0.6974 0.111 0.5865 0.8084 > # B e r e c h n u n g m i t binom . c o n f i n t ( ) im P a k e t " binom " > l i b r a r y ( binom ) > p r i n t ( binom . c o n f i n t ( h , n , c o n f . l e v e l = 0 . 9 5 , m e t h o d s =" a c " ) , + d i g i t s =4) method x n mean l o w e r u p p e r 1 a g r e s t i −c o u l l 44 62 0 . 7 0 9 7 0 . 5 8 6 5 0 . 8 0 8 4 5.6.4 Vergleich von zwei Wahrscheinlichkeiten a) Der exakte Test von Fisher. Beim Vergleich von zwei Wahrscheinlichkeiten ist wie beim Vergleich von zwei Mittelwerten zwischen Versuchsanlagen mit unabhängigen und abhängigen Stichproben zu unterscheiden. Wir betrachten zuerst den Vergleich mit unabhängigen Stichproben. Wir denken uns wieder ein Zufallsexperiment mit nur zwei Ausgängen, denen wir die Werte a1 bzw. a2 einer binären Zufallsvariablen A zuordnen. Das Zufallsexperiment kann z.B. die Abfüllung einer Formulierung mit den Ausgängen „steril“ bzw. „nicht steril“ sein. Das Experiment möge nun unter zwei Versuchsbedingungen durchgeführt werden. Auch die Versuchsbedingung kann als eine Variable B mit zwei Werten b1 und b2 dargestellt werden. Der Wert b1 bedeutet die Versuchsbedingung 1 und b2 die Versuchsbedingung 2. Im Gegensatz zur Zielvariablen A hat B die Bedeutung eines Gliederungsmerkmals. Im vorhin angeführten Beispiel kann b1 die Abfüllung mit einem neuen Verfahren und b2 die Abfüllung mit einer herkömmlichen Verfahren bedeuten. Das Experiment wird n1 -mal unter der Bedingung 1 und n2 -mal unter der Bedingung 2 durchgeführt. Die Ergebnisse der Versuchsausführungen fassen wir in zwei Stichproben zusammen. In der ersten Stichprobe (also unter der Bedingung 1) möge h11 -mal der Wert A = a1 und (n1 − h11 )-mal der Wert A = a2 aufscheinen. Die entsprechenden Werte der zweiten Stichprobe (Bedingung 2) seien h12 bzw. n2 − h12 . Die beobachteten Häufigkeiten werden meist in einer Vierfeldertafel (vgl. 5.6 Vergleiche mit Wahrscheinlichkeiten 365 Tabelle 5.1a) zusammengefasst. Die Wahrscheinlichkeiten p1 = P(A = a1 |B = b1 ) und p2 = P(A = a1 |B = b2 ) sind unbekannt. Schätzwerte für p1 und p2 sind die relativen Häufigkeiten p̂1 = h11 /n1 bzw. p̂2 = h12 /n2 . Will man wissen, ob sich die Wahrscheinlichkeiten p1 und p2 unterscheiden, formuliert man die 2-seitigen Hypothesen H0 : p1 = p2 gegen H1 : p1 6= p2 . Beim exakten Test von Fisher werden in Tabelle 5.1a nicht nur die Spaltensummen, sondern auch die Zeilensummen als vorgegeben betrachtet. Unter dieser Voraussetzung sind z.B. durch das Element h11 und die Randsummen die übrigen Elemente der Vierfeldertafel bestimmt (vgl. Tabelle 5.1b). Wenn H0 gilt, also p1 = p2 ist, können die Spalten zu den Versuchsbedingungen B = b1 und B = b2 in einer Summenspalte zusammengefasst werden. Diese repräsentiert die Gesamtstichprobe mit insgesamt n = n1 + n2 Werten. Unter diesen tritt h1. -mal der Wert a1 und h2. -mal der Wert a2 auf. Durch zufälliges Ziehen (ohne Zurücklegen) werden n1 Elemente aus der Gesamtstichprobe ausgewählt. Die Anzahl H11 der auf diese Weise ausgewählten a1 -Elemente ist nach Abschnitt 2.5.3 hypergeometrisch verteilt mit den Parametern h1. , n − h1. und n1 . Ersetzt man in (2.32) die Größen a, N − 1 und n durch h1. , n − h1. bzw. n1 , erhält man die Formel h n−h 1. P(H11 = x) = x 1. n1 −x n n1 (5.32) zur Bestimmung der Wahrscheinlichkeitsfunktion von H11 . Als Werte von H11 kommen alle ganzen Zahlen x aus dem Intervall [hmin , hmax ] mit hmin = max(0, h1. − n2 ) und hmax = min(n1 , h1. ) in Frage. Die Intervallgrenzen folgen aus der Forderung, dass alle Zellenelemente der Vierfeldertafel in Tabelle 5.1b größer oder gleich null sind. Mit Hilfe von (5.32) kann beurteilt werden, wie wahrscheinlich es ist, dass H11 den unter der Versuchsbedingung 1 beobachteten Wert h11 oder einen „extremeren“ Wert annimmt. Wir gehen bei der Bestimmung des P-Werts wie beim Binomialtest vor. Zuerst wird mit Hilfe von (5.32) die Wahrscheinlichkeit Hs = P(H11 = h11 ) berechnet, dass der Testgrößenwert gleich der beobachteten Anzahl h11 ist. Jeder Wert x von H11 mit der Eigenschaft P(H11 = x) ≤ Hs gilt als gleich extrem oder extremer als der beobachtete H11 -Wert. In dem man die Wahrscheinlichkeiten P(H11 = x) über alle extremen Werte x summiert, erhält man den P-Wert hmax P= ∑ x=hmin P(H11 = x)Ix mit Ix = 1 falls P(H11 = x) ≤ Hs 0 falls P(H11 = x) > Hs (5.33a) des 2-seitigen exakten Tests von Fisher. Liegt ein 1-seitiges Testproblem mit den Hypothesen H0 : p1 ≥ p2 gegen H1 : p1 < p2 vor, tritt an die Stelle von (5.33a) die Formel:42 42 Diese Formel ist auch auf das 1-seitige Testproblem H : p ≤ p gegen H : p > p anwendbar, 0 1 2 1 1 2 wenn man es durch Umbezeichnung der Versuchsbedingungen in das Testproblem H0 : p1 ≥ p2 gegen H1 : p1 < p2 überführt. 366 5 Schätzen und Testen Tabelle 5.1 Vierfeldertafel mit dem binären Untersuchungsmerkmal A und dem gleichfalls binären Gliederungsmerkmal B. Die Werte von A sind a1 und a2 , die Werte von B sind b1 und b2 . Zusätzlich zu den Zellenhäufigkeiten sind die Zeilensummen h1. und h2. , die Spaltensummen n1 und n2 sowie die Gesamtsumme n = n1 + n2 = h1. + h2. angegeben. Bei vorgegebenen Randhäufigkeiten n1 , n2 und h1. ist nur eine Zellenhäufigkeit (z.B. h11 wie in Tabelle b) frei wählbar. a) Allgemeines Schema einer Vierfeldertafel ZielFaktor B variable A b1 b2 a1 h11 h12 a2 n1 − h11 n2 − h12 n1 n2 ∑ ∑ h1. h2. n b) Vierfeldertafel zum exakten Test von Fisher Zielvariable A a1 a2 ∑ Faktor B b1 b2 h11 h1. − h11 n1 − h11 n2 − h1. + h11 n1 n2 ∑ h1. h2. n h11 P = P(H11 ≤ h11 ) = ∑ P(H11 = x) (5.33b) x=hmin Beispiel 5.21. In einer Studie wurde festgestellt, dass bei einem neuen Medikament M1 eine Nebenwirkung NW bei 9 von 32 Probanden auftritt. In einer Kontrollgruppe mit 30 Probanden wurde die Behandlung mit einem herkömmlichen Präparat M2 durchgeführt. Nun gab es bei 15 Probanden die Nebenwirkung NW . Es soll festgestellt werden, ob sich die Wahrscheinlichkeiten p1 und p2 für das Auftreten der Nebenwirkung NW zwischen den Behandlungen mit M1 bzw. M2 unterscheiden. Offensichtlich sind die Schätzwerte p̂1 = 9/32 = 0.2812 und p̂2 = 15/30 = 0.5 verschieden. Um fest zu stellen, ob sich diese Aussage verallgemeinern lässt, wenden wir den exakten Test von Fisher mit H0 : p1 = p2 gegen H1 : p1 6= p2 an. Als Testniveau sei α = 5% vereinbart. Zur Berechnung des P-Werts wird p1 = p2 angenommen. Mit h11 = 9, n1 = 32, n = 62 und h1. = 9 + 15 = 24 ergibt sich Hs = P(H11 = 9) = 24 9 38 23 62 32 = 0.04486 für die Wahrscheinlichkeit, dass die Testgröße H11 den Wert h11 = 9 annimmt. Die möglichen Testgrößenwerte sind die ganzen Zahlen von max(0, 24 − 30) = 0 bis min(32, 24) = 24. Der P-Wert P ist die Summe über alle möglichen H11 Werte ξ mit der Eigenschaft P(H11 = ξ ) ≤ Hs . Der folgenden Lösung mit R 5.6 Vergleiche mit Wahrscheinlichkeiten 367 entnimmt man dafür P = 11.73%. Wegen P ≥ α kann die Nullhypothese auf dem vereinbarten Testniveau nicht abgelehnt werden. > > > > # Lö s u n g m i t R : n1 <− 3 2 ; n2 <− 3 0 ; h11 <− 9 ; h12 <− 15 pd1 <− h11 / n1 ; pd2 <− h12 / n2 # Sch ä t z w e r t e f ü r p1 und p2 p r i n t ( c b i n d ( pd1 , pd2 ) , d i g i t s = 4 ) pd1 pd2 [ 1 , ] 0.2812 0.5 > # H0 : p1=p2 g e g e n H1 : p1 <>p2 > # B e r e c h n u n g von P > h1p <− h11+h12 ; n <− n1+n2 > Hh <− d h y p e r ( h11 , h1p , n−h1p , n1 ) # Hh=P ( H11=h11 ) > hmin <− max ( 0 , h1p−n2 ) ; hmax <− min ( n1 , h1p ) ; > h i n t <− hmin : hmax # W e r t e b e r e i c h von H11 > Pc <− 0 > for ( x in h i n t ){ + Hx <− d h y p e r ( x , h1p , n−h1p , n1 ) + i f ( Hx > Hh ) { Pc=Pc+Hx}} > P <− 1−Pc ; p r i n t ( c b i n d ( hmin , hmax , Hh , P ) , d i g i t s = 4 ) hmin hmax Hh P [1 ,] 0 24 0 . 0 4 4 8 6 0 . 1 1 7 3 > # B e r e c h n u n g d e s P−W e r t s m i t d e r F u n k t i o n f i s h e r . t e s t ( ) > V <− m a t r i x ( c ( h11 , n1−h11 , h12 , n2−h12 ) , n c o l = 2) > c o l n a m e s (V) = c ( "M1" , "M2" ) > rownames (V) <− c ( "NW j a " , "NW n e i n " ) ; V M1 M2 NW j a 9 15 NW n e i n 23 15 > PP <− f i s h e r . t e s t (V) $p . v a l u e ; p r i n t ( PP , d i g i t s = 4 ) [ 1 ] 0.1173 Wie beim exakten Binomialtest kann die Power zu vorgegebenen Werten von n1 , n2 , p1 , p2 und α durch zufällige Auswahl einer großen Anzahl von Stichproben unter den beiden Versuchsbedingungen bestimmt werden. Für jede zufällig erzeugte Vierfeldertafel rechnet man den exakten Test von Fisher und bestimmt den Anteil der Vierfeldertafeln mit P < α. Dieser Anteil ist ein Schätzwert für die gesuchte Power. b) Vergleich von zwei Wahrscheinlichkeiten bei großen Stichproben. Bei großem n1 und n2 ist ein anderer Zugang zum Vergleich von zwei Wahrscheinlichkeiten vorteilhaft. Dieser Zugang erlaubt es, Formeln zur näherungsweisen Berechnung des erforderlichen Mindeststichprobenumfangs anzugeben. Wir denken uns die Beobachtungsdaten durch wiederholte Ausführung von Bernoulli-Experimenten generiert. Konkret möge die Stichprobe zur Versuchsbedingung i (i = 1, 2) aus einem ni -mal ausgeführten Experiment resultieren, das mit der Wahrscheinlichkeit pi zum Ergebnis a1 führt. Die Anzahl H1i der a1 -Werte in der so erzeugten Stichprobe ist nach Abschnitt 2.5.2 binomialverteilt mitpden Parametern ni und pi . Von H1i gehen wir zur Zufallsvariablen Yi = 2 arcsin H1i /ni über. Diese ist, wenn n1 und n2 „groß“ sind, näherungsweise normalverteilt mit dem Mittelwert √ µYi = 2 arcsin pi und der Varianz σYi = 1/ni . Die Differenz Y1 − Y2 der vonein- 368 5 Schätzen und Testen ander unabhängigen Zufallsvariablen Y1 und Y2 ist wieder normalverteilt mit dem Mittelwert µY1 −Y2 = µY1 − µY2 und der Varianz σY21 −Y2 = σY21 + σY22 = 1/n1 + 1/n2 . Bei Gültigkeit von H0 : p1 = p2 ist µY1 −Y2 = 0. Daher ist unter der Voraussetzung p1 = p2 die Größe p p 2 arcsin H11 /n1 − 2 arcsin H12 /n2 Y1 −Y2 p (5.34) = T Gn1 ,n2 = σY 1/n1 + 1/n2 standardnormalverteilt. Wir verwenden (5.34) als Testgröße für ein Näherungsverfahren zum Vergleich der Wahrscheinlichkeiten p1 und p2 . Setzt man für H11 und H12 die beobachteten Anzahlen h11 bzw. h12 aus der Vierfeldertafel (5.1a) ein, erhält man die Realisierung tgn1 ,n2 der Testgröße.43 Wir betrachten zuerst das 2-seitige Testproblem mit den Hypothesen H0 : p1 = p2 gegen H1 : p1 6= p2 . Die Testentscheidung kann entweder durch Vergleich des PWerts mit dem Testniveau α oder durch Vergleich des Testgrößenwerts tgn1 ,n2 mit dem (1 − α/2)-Quantil z1−α/2 der N(0, 1)-Verteilung erfolgen. Die Nullhypothese wird auf dem Testniveau α abgelehnt, wenn P = 2 1 − Φ(|tgn1 ,n2 |) < α bzw. |tgn1 ,n2 | > z1−α/2 (5.35a) gilt. Die Größe Φ bezeichnet die Verteilungsfunktion der N(0, 1)-Verteilung. Im Rahmen der Näherung kann man den Wert G(p1 , p2 ) der Gütefunktion in Abhängigkeit von den wahren Wahrscheinlichkeiten p1 und p2 aus δ δ + Φ −z1−α/2 + p G(p1 , p2 ) = Φ −z1−α/2 − p 1/n1 + 1/n2 1/n1 + 1/n2 √ √ (5.35b) mit δ = 2 arcsin p1 − 2 arcsin p2 bestimmen. Gibt man für die Gütefunktion eine gewünschte Power 1 − β vor, kann (5.35b) im Falle n1 = n2 = n näherungsweise nach n aufgelöst werden. Die Näherungslösung 2(z1−α/2 + z1−β )2 n∗ = (5.35c) δ2 ist der erforderliche Mindeststichprobenumfang, der mit der Wahrscheinlichkeit 1 − β sicherstellt, dass der auf dem Niveau α geführte Test zu einem signifikanten Resultat führt, wenn p1 und p2 die wahren Wahrscheinlichkeiten sind. Wenn die Wahrscheinlichkeiten 1-seitig mit den Hypothesen H0 : p1 ≥ p2 gegen H1 : p1 < p2 verglichen werden sollen, treten an die Stelle von (5.35a-c) die 43 Man beachte, das die Testgröße nur näherungsweise N(0, 1)-verteilt ist. Die Näherung ist umso besser, je größer n1 und n2 ist. Nach einer Empfehlung in Sachs & Hedderich (2006) soll min(n1 , n2 ) ≥ 25, n p̂ ≥ 1 und n(1 − p̂) ≥ 1 sein. Dabei ist p̂ = (h11 + h12 )/(n1 + n2 ). Die Approximation wird verbessert, wenn man eine sogenannte Stetigkeitskorrektur vornimmt. Diese besteht darin, dass man bei der Berechnung von tgn1 ,n2 die Häufigkeiten h11 und h12 durch h11 + 0.5 bzw. h12 − 0.5 ersetzt, wenn h11 /n1 < h12 /n2 ist. Ist dagegen h11 /n1 > h12 /n2 setzt man statt h11 und h12 die korrigierten Werte h11 − 0.5 bzw. h12 + 0.5 ein. 5.6 Vergleiche mit Wahrscheinlichkeiten 369 Formeln: P = Φ(tgn1 ,n2 ) < α bzw. tgn1 ,n2 < z1−α , δ G(p1 , p2 ) = Φ −z1−α/2 − p und 1/n1 + 1/n2 n∗ = 2(z1−α + z1−β )2 δ2 (5.36a) (5.36b) (5.36c) Beispiel 5.22. Die Kräuselkrankheit ist eine Pilzerkrankung, die u.a. an Pfirsichbäumen zu beobachten ist. In einer Studie wurden zur Bekämpfung des Pilzbefalls zwei Produkte M1 und M2 eingesetzt. Mit dem Produkt M1 konnten der Befall an 178 von 265 Bäumen gestoppt werden. Der Einsatz des Mittels M2 war in 226 von 304 Fällen erfolgreich. Wir prüfen auf 5%igem Niveau, ob das Mittel M1 weniger erfolgreich ist als das Mittel M2 . Dazu werden die Hypothesen H0 : p1 ≥ p2 gegen H1 : p1 < p2 formuliert, in denen p1 und p2 die Erfolgswahrscheinlichkeiten der Spritzmittel M1 bzw. M2 sind. Der Angabe entnimmt man n1 = 265, h11 = 178, n2 = 304, h12 = 226. Damit findet man die Schätzwerte p̂1 = h11 /n1 = 0.6717 und p̂2 = h12 /n2 = 0.7434 für die Wahrscheinlichkeiten p1 bzw. p2 . Die Stetigkeitskorrektur verlangt, wegen p̂1 < p̂2 die Häufigkeit h11 auf h11 + 0.5 = 178.5 zu vergrößern und die Häufigkeit h12 auf h12 − 0.5 = 225.5 zu verkleinern. Mit den so veränderten Häufigkeiten berechnet man die Realisierung tgn1 ,n2 = −1.787. Der P-Wert ist P = Φ(tgn1 ,n2 ) = 3.70%. Somit kann H0 wegen P < α = 5% auf 5%igem Testniveau abgelehnt und eine Entscheidung für H1 getroffen werden. Der beobachtete Anteil der mit dem Mittel M1 erfolgreich behandelten Bäume war um | p̂1 − p̂2 | = 0.1579 kleiner als der entsprechende, mit M2 behandelte Anteil. Nehmen wir an, dass M2 das Kontrollpräparat und M1 das Testpräparat ist. Wir wollen wissen, welche Sicherheit die Versuchsanlage (2 Parallelstichproben mit n1 = 265 bzw. n2 = 304) bietet, mit dem auf 5%igem Niveau geführten Test eine kleinere Unterschreitung der Erfolgswahrscheinlichkeit p2 , z.B. die Unterschreitung |p1 − p2 | = 0.05 zu erkennen. Dazu schätzen wir p2 durch p̂2 = 0.7434 und setzen p1 = p̂2 − δ = 0.6934. Setzt man α = 0.05, n1 = 265, √ √ n2 = 304 und δ = 2 arcsin p1 − 2 arcsin p2 = −0.1113 in (5.36b) ein, folgt die (geringe) Power G(p1 , p2 ) = 37.41%. Die Umfänge der Parallelstichproben müssten auf n1 = n2 = 1000 erhöht werden, um eine Power von über 80% zu erhalten. In der folgenden Lösung mit R wurde der P-Wert mit (5.36a) und zusätzlich mit der R-Funktion prop.test() bestimmt. Die Berechnung der Power erfolgte mit (5.36b) sowie mit der R-Funktion pwr.2p2n.test() aus dem Paket “pwr” (Basic Functions for Power Analysis). > > > > # Lö s u n g m i t R : n1 <− 2 6 5 ; n2 <− 3 0 4 ; h11 <− 1 7 8 ; h12 <− 226 pd1 <− h11 / n1 ; pd2 <− h12 / n2 # Sch ä t z w e r t e f ü r p1 und p2 n <− n1+n2 ; pd <− ( h11+h12 ) / n 370 5 Schätzen und Testen > p r i n t ( c b i n d ( pd1 , pd2 , pd ) , d i g i t s = 4 ) pd1 pd2 pd [ 1 , ] 0.6717 0.7434 0.71 > # H0 : p1 >= p2 v s . H1 : p1 < p2 > # B e r e c h n u n g d e s P−W e r t s m i t ( 5 . 3 6 a ) > # Üb e r p r ü f u n g d e r V o r a u s s e t z u n g > min ( n1 , n2 ) >=25 & n∗pd >1 & n∗(1− pd ) >1 [ 1 ] TRUE > # Stetigkeitskorrektur > i f ( pd1 < pd2 ) { h11 <− h11 + 0 . 5 ; h12 <− h12 −0.5} > i f ( pd1 > pd2 ) { h11 <− h11 − 0 . 5 ; h12 <− h12 + 0 . 5 } > mu1d <− 2∗ a s i n ( s q r t ( h11 / n1 ) ) ; mu2d <− 2∗ a s i n ( s q r t ( h12 / n2 ) ) > t g <− ( mu1d−mu2d ) / s q r t ( 1 / n1 + 1 / n2 ) ; P <− pnorm ( t g ) > # B e r e c h n u n g d e s P−W e r t s m i t p r o p . t e s t ( ) > h11 <− 1 7 8 ; h12 <− 226 > V <− m a t r i x ( c ( h11 , n1−h11 , h12 , n2−h12 ) , n c o l = 2) > P p r o p <− p r o p . t e s t (V, a l t e r n a t i v e =" l e s s " ) $p . v a l u e > p r i n t ( cbind ( tg , P , Pprop ) , d i g i t s =4) tg P Pprop [ 1 , ] −1.787 0 . 0 3 6 9 9 0 . 0 3 6 8 7 > # B e r e c h n u n g d e r Power m i t ( 5 . 3 6 b ) > # Verwendete Parameter > n1 <− n2 <− 1 0 0 0 ; p1 <− pd2 − 0 . 0 5 ; p2 <− pd2 ; a l p h a <− 0 . 0 5 > z a l p h a <− qnorm (1− a l p h a ) > d e l t a <− 2∗ a s i n ( s q r t ( p1 )) −2∗ a s i n ( s q r t ( p2 ) ) > G <− pnorm(− z a l p h a −d e l t a / s q r t ( 1 / n1 + 1 / n2 ) ) > # B e r e c h n u n g m i t d e r Power m i t pwr . 2 p2n . t e s t ( ) > l i b r a r y ( pwr ) > d e l t a <−ES . h ( p1 , p2 ) > Gpwr<−pwr . 2 p2n . t e s t ( h = d e l t a , n1 = n1 , n2 = n2 , + s i g . l e v e l = 0 . 0 5 , a l t e r n a t i v e = " l e s s " ) $power > p r i n t ( c b i n d ( d e l t a , G, Gpwr ) , d i g i t s = 4 ) delta G Gpwr [ 1 , ] −0.1113 0 . 8 0 0 4 0 . 8 0 0 4 c) Vergleich von zwei Wahrscheinlichkeiten mit abhängigen Stichproben. Es sei A wieder ein binäres Merkmal mit den Werten a1 und a2 . Das Merkmal kann z.B. das Auftreten einer Nebenwirkung und die Merkmalswerte „ja“ bzw. „nein“ bedeuten. Im Unterschied zu den in den Punkten a) und b) betrachteten Versuchsanlagen, wird das Merkmal zweimal an n Untersuchungseinheiten beobachtet, einmal unter der Versuchsbedingung 1 und dann unter der Versuchsbedingung 2. Die Versuchsbedingungen können zwei verschiedene Behandlungen (z.B. zwei Präparate) oder zwei Zustände (z.B. vor und nach einer Behandlung) sein. Das Merkmal A unter den Versuchsbedingungen 1 und 2 bezeichnen wir mit A1 bzw. A2 . Das statistische Modell zur Generierung der Merkmalswerte besteht nun aus zwei voneinander abhängigen Experimenten mit jeweils zwei Ausgängen. Die Ausgänge des ersten und zweiten Experimentes entsprechen den Ereignissen A1 = a1 und A1 = a2 bzw. A2 = a1 und A2 = a2 . Der Ausgang beider Experimente kann kurz durch eines der möglichen Wertepaare (a1 , a1 ), (a1 , a2 ), (a2 , a1 ), (a2 , a2 ) dargestellt werden, in denen der erste Wert zu A1 und der zweite zu A2 gehört. Das Wertepaar (ai , a j ) (i, j = 1, 2) möge mit der Wahrscheinlichkeit pi j = P(A1 = ai ∩ A2 = a j ) 5.6 Vergleiche mit Wahrscheinlichkeiten 371 auftreten. Die Wahrscheinlichkeiten pi j sind in Tabelle 5.2a in einer Vierfeldertafel zusammengefasst. Die Experimente werden n-mal ausgeführt. Dabei werden die absoluten Häufigkeiten hi j (i, j = 1, 2) der Wertepaare (ai , a j ) beobachtet. Diese werden meist in Form der Vierfeldertafel in Tabelle 5.2b angeschrieben. Tabelle 5.2 Vierfeldertafeln zum Vergleich der Wahrscheinlichkeiten p1. und p.1 mit abhängigen Stichproben. In der Tabelle a) sind die Wahrscheinlichkeiten der Ausgänge (ai , a j ) (i, j = 1, 2) mit den Zeilen- und Spaltensummen dargestellt. Die Tabelle b) enthält die beobachteten Häufigkeiten der insgesamt n Wertepaare. a) Wahrscheinlichkeiten b) Häufigkeiten A2 A1 a1 a2 Σ a1 p11 p21 p.1 a2 p12 p22 p.2 Σ p1. p2. 1 A1 a1 a2 A2 a1 a2 h11 h12 h21 h22 Mit einem geeigneten Test soll geprüft werden, ob sich die Wahrscheinlichkeiten p1. = P(A1 = a1 ) = p11 + p12 und p.1 = P(A2 = a1 ) = p11 + p21 unterscheiden. Dementsprechend werden die Hypothesen H0 : p1. = p.1 gegen H1 : p1. 6= p.1 formuliert. Die Nullhypothese ist genau dann erfüllt, wenn p11 + p12 = p11 + p21 , d.h. p12 = p21 oder p∗12 = p∗21 mit p∗12 = p12 /(p12 + p21 ) und p∗21 = p21 /(p12 + p21 ) gilt. Dabei bedeuten p∗12 und p∗21 die Wahrscheinlichkeiten der Ergebnisse (a1 , a2 ) bzw. (a2 , a1 ) unter Beschränkung auf die Ausgänge (a1 , a2 ) und (a2 , a1 ). Wegen p∗12 + p∗21 = 1 ist p∗12 = p∗21 gleichwertig mit p∗12 = 1/2. Somit kann das ursprüngliche Testproblem mit den Hypothesen H0 : p1. = p.1 gegen H1 : p1. 6= p.1 auf einen Vergleich der Wahrscheinlichkeit p∗12 mit dem Sollwert p0 = 1/2 zurückgeführt werden. Wir nehmen die Prüfung der Hypothesen H0 : p∗12 = 1/2 gegen H1 : p∗12 6= 1/2 mit dem 2-seitig geführten, exakten Binomialtest vor. Die Testgröße ist die Häufigkeit H12 des Wertepaares (a1 , a2 ). Die Beobachtungsdaten bestehen aus n Wertepaaren der Variablen A1 und A2 . Unter der Nullhypothese ist H12 binomialverteilt mit den Parametern n∗ und p∗12 = 1/2. Der Parameter n∗ ist gleich der beobachteten Anzahl h12 + h21 von Wertepaaren mit ungleichen Elementen. Nach Abschnitt 5.4.1 ist der P-Wert gleich der Summe der Binomialwahrscheinlichkeiten Bn∗ ,0.5 (x) (x = 1, 2, . . . , n∗ ), die gleich oder kleiner als Bn∗ ,0.5 (h12 ) sind. Die Nullhypothese wird auf dem Testniveau α abgelehnt, wenn P < α gilt. Bei großem n∗ kann die Berechnung des P-Werts näherungsweise mit der Formel |h12 − h21 | − 1 P = 1 − F1 (tgn∗ ) mit tgn∗ = h12 + h21 ∗ 2 (5.37) 372 5 Schätzen und Testen erfolgen. Hier ist F1 die Verteilungsfunktion der χ 2 -Verteilung mit einem Freiheitsgrad. Die Testentscheidung mit dem P-Wert (5.37) wird als McNemar-Test bezeichnet.44 Beispiel 5.23. Zur Feststellung einer Erkrankung stehen zwei diagnostische Verfahren V1 und V2 zur Verfügung. In einer Vergleichsstudie wurden die Verfahren auf 250 Patienten aus einer bestimmten Zielpopulation angewendet. Von diesen wurden 175 Personen in beiden Verfahren positiv und 23 Personen negativ getestet. Ein positives Ergebnis bei V1 und ein negatives bei V2 trat bei 34 Personen auf, ein negatives bei V1 und ein positives bei V2 bei 18 Personen. Es seien p1. und p.1 die Wahrscheinlichkeiten, dass der Test V1 bzw. V2 positiv ausfällt. Will man wissen, ob sich diese Wahrscheinlichkeiten unterscheiden, formuliert man die Hypothesen H0 : p1. = p.1 gegen H1 : p1. 6= p.1 und legt das Testniveau α (z.B. α = 5%) fest. Mit den gegebenen Häufigkeiten h12 = 34 und h21 = 18 erhält man n∗ = 52 und Bn∗ ,0.5 (h12 ) = 0.009475. Indem man von den Binomialwahrscheinlichkeiten Bn∗ ,0.5 (x) (x = 0, 1, . . . , n∗ ) jene summiert, die kleiner oder gleich Bn∗ ,0.5 (h12 ) sind, ergibt sich P = 0.03648. Somit kann die Annahme gleicher Wahrscheinlichkeiten p1. und p.1 auf 5%igem Testniveau verworfen werden. Die Voraussetzung n∗ > 36 für die Lösung des Testproblems mit dem McNemar-Test ist (knapp) nicht erfüllt. Zum Vergleich berechnen wir trotzdem den P-Wert näherungsweise mit (5.37). Mit tgn∗ = 4.327 erhält man P∗ = 0.3751. Der näherungsweise P-Wert ist um knapp 3% kleiner als der exakte. > > > > > > # Lö s u n g m i t R : h11 <− 1 7 5 ; h22 <− 2 3 ; h12 <− 3 4 ; h21 <− 18 n s <− h12+h21 ; n <− n s +h11+h22 # H0 : p s 1 2 = 0 . 5 g e g e n H1 : p s 1 2 <> 0 . 5 # E x a k t e B e r e c h n u n g von P m i t d e r F u n k t i o n binom . t e s t ( ) binom . t e s t ( h12 , ns , 0 . 5 ) Exact binomial t e s t d a t a : h12 and n s number o f s u c c e s s e s = 3 4 , number o f t r i a l s = 5 2 , p−v a l u e = 0 . 0 3 6 4 8 alternative hypothesis : t r u e p r o b a b i l i t y of success i s not equal to 0.5 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 0.5091439 0.7803421 sample e s t i m a t e s : p r o b a b i l i t y of success 0.6538462 > # B e r e c h n u n g von P∗ m i t d e r F u n k t i o n mnemar . t e s t ( ) > V <− m a t r i x ( c ( h11 , h21 , h12 , h22 ) , n c o l = 2) > c o l n a m e s (V) = c ( " A2= a1 " , "A2= a2 " ) 44 In R wird der McNemar-Test mit der Funktion mcnemar() ausgeführt. Die Abweichung des P-Werts (5.37) vom exakten P-Wert bleibt in vertretbaren Grenzen, wenn n∗ > 36 ist. 5.7 Ergänzungen 373 > rownames (V) <− c ( " A1= a1 " , "A1= a2 " ) ; V A2= a1 A2= a2 A1= a1 175 34 A1= a2 18 23 > mcnemar . t e s t (V) McNemar ’ s Chi−s q u a r e d t e s t w i t h c o n t i n u i t y c o r r e c t i o n data : V McNemar ’ s c h i −s q u a r e d = 4 . 3 2 6 9 , d f = 1 , p−v a l u e = 0 . 0 3 7 5 1 Aufgaben 1. Ein Medikament gegen Kopfschmerzen führt in 55% der Anwendungsfälle innerhalb einer halben Stunde zu einem Erfolg. Ein neues Präparat wurde an 20 zufällig ausgewählten Personen erprobt, von denen 15 innerhalb einer halben Stunde schmerzfrei wurden. Auf Grund der Daten wurde behauptet, dass sich die Erfolgswahrscheinlichkeit des neuen Präparates von der des alten unterscheidet. Man prüfe die Behauptung auf 5%igem Testniveau. 2. Man bestimme mit Hilfe eine Simulationsexperimentes die Power (also die Wahrscheinlichkeit eines signifikanten Testergebnisses) für die Versuchsanlage in Beispiel 5.21 (n1 = 32, n2 = 30, α = 5%), wenn die wahren Wahrscheinlichkeiten p1 = 0.3 und p2 = 0.5 vorgegeben sind. 3. In einer Studie ist am Beginn und am Ende einer Behandlung ein Blutbild vorgesehen. Für einen Parameter ergab sich, dass bei 32 Probanden der Wert vor und nach Ende der Studie im Normbereich (NB) lag, bei 22 Probanden lag der Wert vorher im NB und nachher außerhalb, bei 9 Probanden vorher außerhalb und nachher im NB und bei 7 vorher und nachher außerhalb des NB. Man prüfe, ob sich die Wahrscheinlichkeit, dass der Parameter im Normbereich liegt, im Verlaufe der Behandlung geändert hat. Als Signifikanzniveau nehme man α = 5% an. 5.7 Ergänzungen 5.7.1 Ergänzungen zum 1-Stichproben t-Test a) Die Näherungsformel (5.14b) für den Mindeststichprobenumfang. Der Wert Ff ,λ (x) der Verteilungsfunktion der nichtzentralen t-Verteilung an der Stelle x kann näherungsweise mit der Formel Ff ,λ (x) = Φ(x0 ) mit x0 = x(1 − 0.25/ f ) − λ p 1 + 0.5x2 / f 374 5 Schätzen und Testen bestimmt werden, in der Φ die Verteilungsfunktion der N(0, 1)-Verteilung bezeichnet (vgl. Abramowitz & Stegun 1964, S. 949, Formel 26.7.10). Bei großem Stichprobenumfang und folglich großem Freiheitsgrad f = n − 1 vereinfacht sich die Näherung weiter und man erhält Ff ,λ (x) ≈ Φ(x − λ ). Ferner ist es vertretbar, das Quantil tn−1,1−α/2 der t-Verteilung näherungsweise durch das Quantil √ n positiv ist, in (5.14a) den z1−α/2 der N(0, 1)-Verteilung zu ersetzen und, wenn ε √ Term Fn−1,ε √n (−tn−1,1−α/2 ) ≈ Φ(−z1−α/2 − ε n) zu vernachlässigen. Damit geht √ √ (5.14a) in Φ(z1−α/2 −ε n) ≈ β über. Es folgt z1−α/2 −ε n ≈ zβ = −z1−β , woraus sich unter Beachtung von δ = εσ unmittelbar die Näherungsformel (5.14b) ergibt. b) Der P-Wert beim 1-Stichproben t-Test auf Überschreitung. Beim 2-seitigen t-Test wurde mit dem P-Wert zum Ausdruck gebracht, wie wahrscheinlich es unter der Annahme H0 : µ = µ0 ist, die beobachtete Realisierung x̄n des Stichprobenmittel X̄n oder eine weiter von µ0 entfernte zu erhalten. Beim 1-seitigen t-Test mit den Hypothesen H0 : µ ≤ µ0 gegen H1 : µ > µ0 wird der P-Wert als Wahrscheinlichkeit berechnet, dass X̄n gleich oder größer als x̄n ist. Dabei ist die Gültigkeit von H0 vorauszusetzen. Dementsprechend nehmen wir an, dass µ irgendein Wert kleiner oder gleich µ0 ist. Dann ist der (von µ abhängige) P-Wert: X̄n − µ x̄ − µ x̄n − µ √ ≥ n √ √ P(µ) = P(X̄n ≥ x̄n ) = P = 1 − Fn−1 Sn / n sn / n sn / n Hier sind x̄n und sn das arithmetische Mittel bzw. die Standardabweichung der konkret beobachteten Zufallsstichprobe vom Umfang n. Wenn die Grundgesamtheit X mit den Parametern µ und σ 2 normalverteilt ist, ist Fn−1 die Verteilungsfunktion der t-Verteilung mit f = n − 1 Freiheitsgraden. Mit wachsendem µ nimmt die Verteilungsfunktion Fn−1 monoton ab und folglich der P-Wert monoton zu. Der P-Wert ist also am größten, wenn µ den oberen Randwert µ0 der unter H0 zulässigen Werte annimmt. Für die Testentscheidung bedeutet dies, dass wir die Nullhypothese H0 : µ ≤ µ0 auf dem Signifikanzniveau α ablehnen können, wenn P = P(µ0 ) < α gilt. Damit kann die Nullhypothese beim t-Test auf Überschreitung auf die einfache Hypothese H0 : µ = µ0 (also auf den ungünstigsten Fall) reduziert werden. 5.7.2 Ein Algorithmus zur Berechnung der Testgröße und des P-Werts des Shapiro-Wilk-Tests In der R-Funktion shapiro.test() kommt ein Algorithmus zur Anwendung, der von P. Royston vorgeschlagen wurde.45 Es sei xi (i = 1, 2, . . . , n) eine (nach aufsteigender Größe angeordnete) Zufallsstichprobe aus der Grundgesamtheit X. Nach dem Algorithmus von Royston wird die Realisierung der Shapiro-Wilk-Testgröße W durch die Zufallsstichprobe in der Form 45 Vgl. Royston, P.: Approximating the Shapiro-Wilk W-test for normality. Statistics and Computing 2, 117-119 (1992) 5.7 Ergänzungen 375 2 ∑ni=1 ai xi w= n ∑i=1 (xi − x̄)2 (5.38) angesetzt. Hier ist x̄ das arithmetische Mittel der Stichprobenwerte. Die ai sind Konstante, die für n > 5 näherungsweise mit den folgenden Formeln bestimmt werden: an = −a1 = cn + 0.221157u − 0.147981u2 − 2.071190u3 + 4.434685u4 − 2.706056u5 , an−1 = −a2 = cn−1 + 0.042981u − 0.293762u2 − 1.752461u3 + 5.682633u4 − 3.582663u5 , s 1 − 2a2n − 2a2n−1 ai = ci (i = 3, 4, . . . , n − 2) 1 − 2c2n − 2c2n−1 (5.39a) √ Dabei ist u = 1/ n und ẑi mit ẑi = Φ ci = q ∑nj=1 ẑ2j −1 i − 0.375 n + 0.25 (i = 1, 2, . . . , n). Die Größen ẑi sind also die Quantile der Standardnormalverteilung zu den Wahrscheinlichkeiten p̂i = (i − 0.375)/(n + 0.25). Die Testgröße W ist nicht normalverteilt. Bei „großem“ Stichprobenumfang (n ≥ 12) kann man aber die Verteilung von Wg = ln(1 −W ) und bei „kleinem“ Stichprobenumfang (4 ≤ n ≤ 11) die Verteilung von Wk = − ln [−2.273 + 0.459n − ln (1 −W )] durch eine Normalverteilung approximieren, wenn die Verteilungsparameter wie folgt gewählt werden (v = ln n): µWg = −1.5861 − 0.31082v − 0.083751v2 + 0.0038915v3 σWg = exp −0.4803 − 0.082676v + 0.0030302v2 µWk = 0.5440 − 0.39978n + 0.025054n2 − 0.0006714n3 σWk = exp 1.3822 − 0.77857n + 0.062767n2 − 0.0020322n3 (5.39b) Die Normalverteilungsapproximation erlaubt es, den P-Wert näherungsweise im Falle n ≥ 12 als Funktionswert Fg (wg ) der Verteilungsfunktion Fg der N(µg , σg2 )Verteilung an der Stelle wg = ln(1 − w) zu berechnen. Analog ist der P-Wert im Falle 4 ≤ n ≤ 11 gleich dem Wert Fk (wk ) der Verteilungsfunktion Fk der N(µk , σk2 )Verteilung an der Stelle wk = − ln [−2.273 + 0.459n − ln (1 − w)]. Beispiel 5.24. Wir rechnen mit den Formeln (5.39a, b) den im Beispiel 5.13 mit der RFunktion shapiro.test ermittelten Wert der Testgröße W sowie den P-Wert nach. Die (bereits nach aufsteigender Größe geordnete) Zufallsstichprobe ist: 1.56, 1.91, 1.93, 2.04, 2.07, 2.11, 2.18, 2.26, 2.28, 2.32, 2.49, 2.51 376 5 Schätzen und Testen > # Lö s u n g m i t R : > o p t i o n s ( d i g i t s =5) > x <− s o r t ( c ( 1 . 5 6 , 1 . 9 1 , 1 . 9 3 , 2 . 0 4 , 2 . 0 7 , 2 . 1 1 , + 2.18 , 2.26 , 2.28 , 2.32 , 2.49 , 2.51)) > # B e r e c h n u n g von W > n <− l e n g t h ( x ) # V o r a u s s e t z u n g n > 5 > x q u e r <− mean ( x ) > i <− 1 : n ; pd <− ( i − 0 . 3 7 5 ) / ( n + 0 . 2 5 ) > zd <− qnorm ( pd ) # Q u a n t i l e d e r N( 0 ,1 ) − V e r t e i l u n g > sumzd2 <− sum ( zd ^ 2 ) # Summe d e r Q u a d r a t e d e r Q u a n t i l e > u <− 1 / s q r t ( n ) # H i l f s g r öß e u > c <− zd / s q r t ( sumzd2 ) # V e k t o r m i t den c _ i > an <− c [ n ] + 0 . 2 2 1 1 5 7 ∗ u −0.147981∗ u ^2 −2.071190∗ u ^3+ + 4 . 4 3 4 6 8 5 ∗ u ^4 −2.706056∗ u ^5 > anm1 <− c [ n −1]+0.042981∗ u −0.293762∗ u ^2 −1.752461∗ u ^3+ + 5 . 6 8 2 6 3 3 ∗ u ^4 −3.582663∗ u ^5 > i f ( n > 5) { + a = c ∗ s q r t ((1 −2∗ an ^2−2∗anm1 ^ 2 ) / ( 1 − 2 ∗ c [ n ]^2 −2∗ c [ n − 1 ] ^ 2 ) ) + a [ n −1] <−anm1 ; a [ 2 ] <− −anm1 ; a [ n ] <−an ; a [ 1 ] <−−an + W <− ( a %∗% x ) ^ 2 / ( v a r ( x ) ∗ ( n −1)) # R e a l i s i e r u n g von W + # B e r e c h n u n g d e s P−W e r t s + i f ( n >=12) { + w t r a n s <− l o g (1−W) # t r a n s f o r m i e r t e s W + u <− l o g ( n ) + mu <− −1.5861 −0.31082∗ u −0.083751∗ u ^ 2 + 0 . 0 0 3 8 9 1 5 ∗ u ^3 + s i g m a <− exp ( −0.4803 −0.082676∗ u + 0 . 0 0 3 0 3 0 2 ∗ u ^ 2 ) + } else { + w t r a n s <− −l o g ( − 2 . 2 7 3 + 0 . 4 5 9 ∗ n−l o g (1−W) ) # t r a n s f o r m .W + mu <− 0. 5 44 0 −0.39978∗ n + 0 . 0 2 5 0 5 4 ∗ n ^2 −0.0006714∗ n ^3 + s i g m a <− exp ( 1 . 3 8 2 2 − 0 . 7 7 8 5 7 ∗ n + 0 . 0 6 2 7 6 7 ∗ n^2− + 0.0020322∗ n ^3)} + P <− 1−pnorm ( w t r a n s , mu , s i g m a ) # P−Wert + c a t ( " T e s t g r ö ß e W = " , W, " P−Wert = " , P ) + } else { + p r i n t ( " V o r a u s s e t z u n g n >5 n i c h t e r f ü l l t ! " ) } T e s t g r ö ß e W = 0 . 9 5 7 3 6 P−Wert = 0 . 7 4 5 6 2 5.7.3 Überprüfung der Varianzhomogenität a) Der F-Test. Es seien X1 und X2 zwei normalverteilte Zufallsvariable mit den Varianzen σ12 bzw. σ22 . Gilt σ12 = σ22 , spricht man von Varianzhomogenität. Der klassische Test zum Vergleich von zwei Varianzen ist der F-Test. Von X1 und X2 mögen zwei unabhängige Stichproben mit den Umfängen n1 bzw. n2 vorliegen. Der F-Test verwendet das mit den Stichprobenvarianzen S12 und S22 gebildete Verhältnis T Gn1 ,n2 = S12 S22 : σ12 σ22 (5.40) 5.7 Ergänzungen 377 0.0 0.2 Dichte 0.4 0.6 0.8 als Testgröße. Eine Vorstellung über die Verteilung der Testgröße im Fall σ12 = σ22 vermittelt Abb. 5.16. Aus zwei mit gleicher Varianz normalverteilten Grundgesamtheiten X1 und X2 wurde eine große Anzahl B von Parallelstichproben (jeweils mit den Umfängen n1 bzw. n2 ) erzeugt. Für jede dieser Parallelstichproben werden die empirischen Varianzen s21 und s22 berechnet und damit das Varianzverhältnis s21 /s22 gebildet. Die Verteilung der so erhaltenen B Varianzverhältnisse lässt sich dann wie in Abb. 5.16 durch ein Histogramm darstellen. Man erkennt die gute Übereinstimmung mit der strichliert eingezeichneten Kurve, die die Dichtekurve der FVerteilung mit den Parametern f1 = n1 − 1 und f2 = n2 − 1 ist.46 Die F-Verteilung ist neben der χ 2 - und t-Verteilung die dritte theoretische Verteilung, die bei der Lösung von grundlegenden Schätz- und Testproblemen auftritt. Die Parameter f1 und f2 der F-Verteilung werden meist erster bzw. zweiter Freiheitsgrad genannt und die F-Verteilung (bzw. deren Verteilungsfunktion) mit diesen Parametern kurz durch Ff1 , f2 ausgedrückt. 0 1 2 S12 S22 3 4 5 Abb. 5.16 Histogramm der Varianzverhältnisse von 10000 Parallelstichproben (jeweils mit dem Umfang n1 = 7 bzw. n2 = 10) aus den Grundgesamtheiten X1 ∼ N(µ1 , σ 2 ) bzw. X2 ∼ N(µ2 , σ 2 ) mit µ1 = 1, µ2 = 2 und σ = 0.7. Die Dichtekurve der F-Verteilung mit den Freiheitsgraden f1 = 6 und f2 = 9 ist strichliert eingezeichnet. Es seien s21 und s22 die empirischen Varianzen von zwei Parallelstichproben mit den Umfängen n1 bzw. n2 und tgn1 ,n2 = s21 /s22 die Realisierung der Testgröße T Gn1 ,n2 = S12 /S22 . Der P-Wert des 2-seitigen Testproblems H0 : σ12 = σ22 ge46 Die F-Verteilung mit den Freiheitsgraden f und f ist allgemein als Verhältnis (V / f ) : (V / f ) 1 2 1 1 2 2 von zwei, auf die Freiheitsgrade bezogenen Zufallsvariablen V1 ∼ χ 2f1 und V2 ∼ χ 2f2 definiert. Nach Abschnitt 5.2.1 folgt die mit einer Zufallsstichprobe des Umfangs n1 aus X1 ∼ N(µ1 , σ12 ) gebildete Größe (n1 − 1)S12 /σ12 einer Chiquadratverteilung mit f1 = n1 − 1 Freiheitsgraden. Analog gilt für die mit einer Zufallsstichprobe des Umfangs n2 aus X2 ∼ N(µ2 , σ22 ) gebildete Größe (n2 −1)S22 /σ22 ∼ χ 2f2 mit f2 = n2 −1. Somit (S12 /σ12 ) : (S22 /σ22 ), also die Testgröße (5.40), F-verteilt mit den Freiheitsgraden f1 und f2 . Die F-Verteilung wurde nach dem englischen Statistiker Ronald A. Fisher (1890-1962) benannt, der als einer der Begründer der modernen Statistik gilt. 378 5 Schätzen und Testen gen H1 : σ12 6= σ22 ist durch P = 2[1 − Fn1 −1,n2 −1 (tgn1 ,n2 )] gegeben, wenn s21 > s22 ist, andernfalls durch P = 2Fn1 −1,n2 −1 (tgn1 ,n2 ). Die Größe Fn1 −1,n2 −1 bezeichnet die Verteilungsfunktion der F-Verteilung mit den Freiheitsgraden f1 = n1 − 1 und f2 = n2 − 1. Ist das so berechnete P < α, wird die Nullhypothese auf dem Niveau α abgelehnt. Beim 1-seitigen F-Test mit den Hypothesen des H0 : σ12 ≤ σ22 gegen H1 : σ12 > σ22 ist der P-Wert durch P = 1 − Fn1 −1,n2 −1 (tgn1 ,n2 ) gegeben. Das Kriterium für die Ablehnung von H0 (auf dem Testniveau α) ist wie beim 2-seitigen F-Test P < α. Beispiel 5.25. Im Beispiel 5.16 wurden zwei Mittelwerte mit dem 2-Stichproben-t-Test verglichen und dabei vorausgesetzt, dass die Varianzen σ12 und σ22 der Grundgesamtheiten X1 bzw. X2 gleich sind. Wir überprüfen nun die Varianzhomogenität mit dem F-Test. Dabei hat wie bei der Überprüfung der Normalverteilungsannahme der Test den Charakter eines Falsifizierungsversuchs: Die Gleichheit der Varianzen wird als Nullhypothese H0 : σ12 = σ22 formuliert. Kann sie mit den gegebenen Daten auf dem spezifizierten Testniveau α (z.B. α = 10%) nicht abgelehnt werden, behalten wir H0 bei. Aus (5.40) erhält man bei Gültigkeit von H0 die Realisierung tg10,10 = s21 /s22 = 0.97893 < 1. Als P- Wert erhält man P = 2Fn1 −1,n2 −1 (tg) = F9,9 (0.97893) = 97.52%. Der P-Wert ist deutlich größer als α = 10%. Die Daten sprechen nicht gegen die angenommene Gleichheit der Varianzen. > > > > > # Lö s u n g m i t R : x1 <− c ( 1 5 , 2 1 , 2 5 , 1 8 , 1 7 , 1 8 , 1 4 , 1 7 , 1 6 , 2 0 ) x2 <− c ( 2 4 , 2 6 , 2 2 , 2 0 , 2 0 , 2 3 , 1 7 , 1 6 , 2 3 , 1 8 ) # H0 : s i g m a 1 ^2 = s i g m a 2 ^2 v s . H1 : s i g m a 1 ^2 <> s i g m a 2 ^2 v a r . t e s t ( x1 , x2 ) F t e s t t o compare two v a r i a n c e s d a t a : x1 and x2 F = 0 . 9 7 8 9 3 , num d f = 9 , denom d f = 9 , p−v a l u e = 0 . 9 7 5 2 alternative hypothesis : t r u e r a t i o of v a r i a n c e s i s not equal to 1 95 p e r c e n t c o n f i d e n c e i n t e r v a l : 0.2431512 3.9411471 sample e s t i m a t e s : r a t i o of v a r i a n c e s 0.9789252 b) Vergleich zweier Mittelwerte mit dem F-Test. Die Bedeutung des F-Tests liegt weniger darin, dass er als Vortest in Verbindung mit dem 2-Stichproben-t-Test eingesetzt wird.47 Vielmehr können mit dem (1-seitigen) F-Test auch Mittelwerte von (mit gleichen Varianzen) normalverteilten Zufallsvariablen verglichen werden. 47 Wenn man überhaupt einen Vortest zur Überprüfung der Varianzhomogenität durchführt und im Zweifelsfalle nicht gleich den Welch-Test anwendet, wird heute dafür der Levene-Test wegen seiner Robustheit gegenüber Abweichungen von der Normalverteilung empfohlen. Dieser Test wird im nächsten Unterpunkt behandelt. 5.7 Ergänzungen 379 Wie man das macht, sei an Hand des Vergleichs der Mittelwerte µ1 und µ2 von zwei Zufallsvariablen gezeigt. Die zu prüfenden Hypothesen mögen also H0 : µ1 = µ2 und H1 : µ1 6= µ2 lauten. Den Ausgangspunkt bildet die Testgröße (5.24) des 2-Stichproben-t-Tests. Das Quadrat der Testgröße kann auf die Gestalt T G2n1 ,n2 = n1 n2 n1 +n2 X̄1 − X̄2 S2 2 = n1 (X̄1 − X̄)2 + n2 (X̄2 − X̄)2 S2 (5.41) gebracht werden. Die Größe X̄ = (n1 X̄1 + n2 X̄2 )/(n1 + n2 ) ist das Stichprobenmittel aus beiden Parallelstichproben. Die Umformung lässt erkennen, dass die quadrierte Testgröße T G2n1 ,n2 als Verhältnis von zwei Varianzen dargestellt werden kann. Im Nenner steht das mit den Gewichten n1 − 1 und n2 − 1 gebildete Mittel S2 = (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 der Stichprobenvarianzen S12 und S22 . Den Zähler kann man als Streuung der in die jeweiligen Gruppenmittel verlegten Stichprobenwerte beider Parallelstichproben um das Gesamtmittel interpretieren. Wie man zeigen kann, ist der Mittelwert der Nennervarianz gleich der Varianz σ 2 der Grundgesamtheit. Dagegen ist der Mittelwert der Zählervarianz durch 2 n1 n2 σ2 + µ1 − µ2 n1 + n2 gegeben, also gleich σ 2 , wenn H0 gilt, andernfalls größer als σ 2 . Unter H0 ist daher eine nur wenig von eins abweichende Realisierung tg2n1 ,n2 der Testgröße (5.41) zu erwarten. Liegt tg2n1 ,n2 deutlich über eins, so weist dies auf voneinander verschiedene Mittelwerte der Grundgesamtheit hin. Wann eine Überschreitung tg2n1 ,n2 > 1 als deutlich zu betrachten ist, wird mit dem P-Wert P = 1−Ff1 , f2 (tg2n1 ,n2 ) des 1-seitigen F-Tests entschieden. Dabei ist für den ersten Freiheitsgrad f1 = 1 und für den zweiten Freiheitsgrad f2 = n1 + n2 − 2 zu setzen. Die Nullhypothese H0 : µ1 = µ2 wird auf dem Testniveau α abgelehnt, wenn P < α gilt. Beispiel 5.26. Zur Demonstration des Vergleichs zweier Mittelwerte mit dem 1-seitigen FTest greifen wir wieder auf die Daten des Beispiels 5.16 zurück. Dort wurde mit dem 2-Stichproben-t-Test auf 5%igem Testniveau festgestellt, dass sich die Hemmzonen der Antibiotika A1 und A2 hinsichtlich der arithmetischen Mittel der gemessenen Durchmesser nicht signifikant unterscheiden. Wir zeigen, dass der 1-seitige F-Test mit der Testgröße (5.41) zum selben P-Wert und daher zur selben Testentscheidung wie der 2-Stichproben-t-Test führt. Es ist tg210,10 = (−1.938)2 = 3.757, f1 = 1, f2 = 18 und P < −1 − F9,9 (3.757) = 0.06843 > 0.05. > # Lö s u n g m i t R : > x1 <− c ( 1 5 , 2 1 , 2 5 , 1 8 , 1 7 , 1 8 , 1 4 , 1 7 , 1 6 , 2 0 ) 380 5 Schätzen und Testen > > > > > > > > > x2 <− c ( 2 4 , 2 6 , 2 2 , 2 0 , 2 0 , 2 3 , 1 7 , 1 6 , 2 3 , 1 8 ) # H0 : mu1 = mu2 v s . H1 : mu1 <> mu2 n1 <− l e n g t h ( x1 ) ; n2 <− l e n g t h ( x2 ) ; f 1 <− 1 ; f 2 <− n1+n2−2 x q u e r 1 <− mean ( x1 ) ; x q u e r 2 <− mean ( x2 ) v a r 1 <− v a r ( x1 ) ; v a r 2 <− v a r ( x2 ) s 2 <− ( ( n1 −1)∗ v a r 1 + ( n2 −1)∗ v a r 2 ) / f 2 t g 2 <− n1 ∗ n2 / ( n1+n2 ) ∗ ( x q u e r 1 −x q u e r 2 ) ^ 2 / s 2 P <− 1− p f ( t g 2 , f1 , f 2 ) p r i n t ( cbind ( xquer1 , xquer2 , tg2 , P ) , d i g i t s =4) xquer1 xquer2 tg2 P [1 ,] 18.1 20.9 3.757 0.06843 Der Ansatz, mit dem F-Test zwei Mittelwerte zu vergleichen, kann auch auf den Vergleich von mehr als zwei Mittelwerten übertragen werden. Dies erfolgt im Rahmen des Globaltests der 1-faktoriellen Varianzanalyse, die ein wichtiges Instrument der Versuchsplanung ist. c) Der Levene-Test. Prüft man in Verbindung mit dem 2-Stichproben-t-Test die Homogenität der Varianzen, so verwendet man dazu meist den Levene-Test, der robuster gegenüber Abweichungen von der Normalverteilungsannahme ist als der FTest.48 Die Durchführung ist einfach. Es seien x11 , x21 , . . . , xn1 1 und x12 , x22 , . . . , xn2 2 die gemessenen Werte der Parallelstichproben unter der Versuchsbedingung 1 bzw. 2. Wir bestimmen die arithmetischen Mittel x̄1 und x̄2 der Parallelstichproben und bilden die Stichproben zi1 = |xi1 − x̄1 | und zi2 = |xi2 − x̄2 | (i = 1, 2, . . . , ni ), in dem wir von jedem Einzelwert den entsprechenden Gruppenmittelwert abziehen und davon den Betrag nehmen. Die arithmetischen Mittel z̄1 und z̄2 der z-Stichproben kann man als Maß für die mittlere Streuung der Originalwerte um den jeweiligen Gruppenmittelwert ansehen. Gibt es zwischen den Varianzen der Originalstichproben einen deutlichen Unterschied, werden sich auch die arithmetischen Mittel z̄1 und z̄2 unterscheiden. Ob der Unterschied auf einem vorgegebenem Niveau α signifikant ist, kann mit dem auf die z-Stichproben angewandten 2-Stichproben-t-Test entschieden werden. Beispiel 5.27. Die folgende Lösung mit R zeigt die Durchführung des Levene-Tests als 2Stichproben-t-Test mit den z-Stichproben, also den mit den jeweiligen Gruppenmittelwerten zentrierten und absolut genommenen Stichprobenwerten. Die Originalstichproben sind die gleichen wie im Beispiel 5.25, als Testniveau sei α = 10% vereinbart. Wegen P = 0.6649 ≥ 0.1 wird die angenommene Varianzhomogenität beibehalten. > > > > > > 48 # Lö s u n g m i t R : x1 <− c ( 1 5 , 2 1 , 2 5 , 1 8 , 1 7 , 1 8 , 1 4 , 1 7 , 1 6 , 2 0 ) x2 <− c ( 2 4 , 2 6 , 2 2 , 2 0 , 2 0 , 2 3 , 1 7 , 1 6 , 2 3 , 1 8 ) # H0 : s i g m a 1 ^2 = s i g m a 2 ^2 v s . H1 : s i g m a 1 ^2 <> s i g m a 2 ^2 z1 <− a b s ( x1−mean ( x1 ) ) ; z2 <− a b s ( x2−mean ( x2 ) ) P <− t . t e s t ( z1 , z2 , v a r . e q u a l =T ) $p . v a l u e Der Test ist nach dem US-amerikanischen Biostatistiker und Genetiker Howard Levene (1914–2003) benannt. 5.7 Ergänzungen 381 > p r i n t ( P , d i g i t s =4) [ 1 ] 0.6649 5.7.4 Ergänzungen zum Binomialtest a) Herleitung der Formel (5.29a). Es sei H die Anzahl der Versuchsausgänge mit dem Ergebnis E bei n Bernoulli-Experimenten. Wie in Abschnitt 5.6.2 ausp geführt wurde, ist die Größe Y = 2 arcsin H/n eine näherungsweise N(µ, σ 2 )√ verteilte Zufallvariable mit dem Mittelwert µ = µ(p) = 2 arcsin p und der Varianz σ 2 = 1/n. Das 2-seitige Testproblem H0 : p = p0 gegen H1 : p 6= p0 kann im Rahmen dieser Näherung in einen Mittelwertvergleich mit den Hypothesen H0 : µ = µ0 √ gegen H1 : µ 6= µ0 übergeführt werden. Dabei ist µ0 = µ0 (p0 ) = 2 arcsin p0 . Zum Vergleich des Mittelwerts µ von Y mit dem Sollwert µ0 wird die Testgröße T Gn = √ Yn − µ0 = Y − µ0 n σ (5.42a) verwendet. Diese ist bei Gültigkeit von H0 : µ = µ0 standardnormalverteilt. Mit dem konkret beobachteten Wert h von H ergibt sich als Realisierung der Testgröße: p √ √ tgn = 2 arcsin h/n − 2 arcsin p0 n Den P-Wert berechnet man aus: P = P T Gn < −|tgn | + P T Gn > |tgn = Φ −|tgn | + 1 − Φ |tgn | = 2 1 − Φ |tgn | (5.42b) Φ bezeichnet die Verteilungsfunktion der N(0, 1)-Verteilung. Zu vorgegebenem α wird H0 : µ = µ0 zugunsten H1 : µ 6= µ0 abgelehnt, wenn P < α ist. Ein damit gleichwertiges Kriterium für die Ablehnung von H0 ist |tgn | > z1−α/2 . Die Größe z1−α/2 ist das (1 − α/2)-Quantil der Standardnormalverteilung.49 Der Wert G(p) der Gütefunktion des 2-seitigen Binomialtest an der Stelle p ist gleich der Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn der wahre Mittelwert gleich p ist: G(p) = P(T Gn < −z1−α/2 ) + P(T Gn > z1−α/2 ) √ √ = P [Y − µ(p)] n < −z1−α/2 − [µ(p) − µ0 (p0 )] n √ √ + P [Y − µ(p)] n > z1−α/2 − [µ(p) − µ0 (p)] n √ √ = Φ −z1−α/2 − [µ(p) − µ0 (p0 )] n + 1 − Φ z1−α/2 − [µ(p) − µ0 (p0 )] n √ √ = Φ −z1−α/2 − [µ(p) − µ0 (p0 )] n + Φ −z1−α/2 + [µ(p) − µ0 (p0 )] n 49 Setzt man in (5.42b) P = α, ergibt sich Φ(|tg |) = 1 − α/2, d.h. |tg | = z n n 1−α/2 . Es ist |tgn | > z1−α/2 genau dann, wenn P < α. 382 5 Schätzen und Testen Schreibt man hier δ für µ(p) − µ0 (p0 ) = 2 arcsin √ p − 2 arcsin √ p0 , folgt (5.29a). b) Das Clopper-Pearson-Konfidenzintervall für p. Ergänzend zum P-Wert wird in der R-Funktion binom.test() das Clopper-Pearson-Konfidenzintervall angegeben.50 Bei diesem sind die untere Grenze UC und die obere Grenze OC so gewählt, dass die Überdeckungswahrscheinlichkeit C = P(UC ≤ p ≤ OC ) für kein zulässiges p das nominelle Konfidenzniveau 1 − α unterschreitet. Das Niveau kann sogar deutlich überschritten werden. Eine Folge der höheren Sicherheit ist aber, dass das Konfidenzintervall größer wird und damit die Genauigkeit der Schätzung kleiner. Zu vorgegebenem h, n und α erhält man die Realisierungen der Grenzen aus: hqu mit qu = F2h,2(n−h+1),α/2 bzw. n − h + 1 + hqu (h + 1)qo mit qo = F2(h+1),2(n−h),1−α/2 oC = n − h + (h + 1)qo uC = (5.43) Die Größe F2h,2(n−h+1),α/2 ist das α/2-Quantil der F-Verteilung mit den Freiheitsgraden f1 = 2h und f2 = 2(n − h + 1). Analoges gilt für F2(h+1),2(n−h),1−α/2 . Beispiel 5.28. Wir rechnen das in Beispiel 5.18 mit der R-Funktion binom.test(h,n) bestimmte Clopper-Pearson-Intervall zum Konfidenzniveau 1 − α = 0.95 nach. Es ist h = 44 und n = 62. Als α/2-Quantil der F88,38 -Verteilung erhält man qu = 0.5976 und als (1 − α/2)-Quantil der F90,36 -Verteilung qo = 1.798. Aus (5.43) ergeben sich damit die Grenzen uC = 0.5805 und oC = 0.8180 des 95%igen Konfidenzintervalls für die Wahrscheinlichkeit p der Ausbildung eines gelben Samens. > > > > > > > # Lö s u n g m i t R : h <− 4 4 ; n <− 6 2 ; pd <− h / n ; a l p h a <− 0 . 0 5 qu <− q f ( a l p h a / 2 , 2 ∗ h , 2 ∗ ( n−h + 1 ) ) qo <− q f (1− a l p h a / 2 , 2 ∗ ( h + 1 ) , 2 ∗ ( n−h ) ) uC <− h∗ qu / ( n−h+1+h∗ qu ) oC <− ( h +1)∗ qo / ( n−h + ( h +1)∗ qo ) p r i n t ( c b i n d ( pd , qu , qo , uC , oC ) , d i g i t s = 4 ) pd qu qo uC oC [ 1 , ] 0.7097 0.5976 1.798 0.5805 0.818 50 Vgl. Clopper, C.J., Pearson, E.S.: The Use of Confidence or Fiducial Limits Illustrated in the Case of the Binomial. Biometrika, Vol. 26, No. 4. (1934).