§9 Konfidenzintervalle pfad ô SetDirectory@ "C:\Dokumente und Einstellungen\Administrator\Desktop\Stochastik mit Mathematica 6.0\Statistik\Datenordner"D; << HypothesisTesting`; ScoreTest@stichprobe_, verteilungsgesetz_, options___D := Module@8z, n, p<, z = Sort@stichprobeD; n = Length@stichprobeD; p = Table@8i, CDF@verteilungsgesetz, zPiTD<, 8i, 1, n<D; ListPlot@p, optionsDD Konfidenzintervall@m_, s_, n_, b_D := Module@8x, mx, sx, q, a, b, p1, p2, p3, p4, p5, t1, t2, t3<, x = RandomReal@NormalDistribution@m, sD, 8n<D; mx = Mean@xD; sx = StandardDeviation@xD; q = Quantile@StudentTDistribution@n - 1D, H1 + bL ê 2D; a = mx - q sx ê Sqrt@nD; b = mx + q sx ê Sqrt@nD; p1 = ListPlot@Thread@8x, 0<D, PlotStyle Æ [email protected]; p2 = Graphics@[email protected], Blue, Line@88a, 0<, 8b, 0<<D<D; p3 = Graphics@[email protected], Red, Arrow@88m, s ê 20<, 8m, 0<<D<D; p4 = Graphics@[email protected], Blue, Arrow@88a, -s ê 20<, 8a, 0<<D<D; p5 = Graphics@[email protected], Blue, Arrow@88b, -s ê 20<, 8b, 0<<D<D; t1 = Graphics@8Red, Text@"m", 8m, s ê 15<D<D; t2 = Graphics@8Blue, Text@"a", 8a, -s ê 15<D<D; t3 = Graphics@8Blue, Text@"b", 8b, -s ê 15<D<D; Show@8p3, p4, p5, p2, p1, t1, t2, t3<, Axes Æ 8True, None<, AspectRatio Æ 0.2DD InverseQuantileBinomialDistribution@n_, q_, k_D := p ê. FindRoot@CDF@BinomialDistribution@n, pD, kD ä q, 8p, 0.01, 0.99<D ProbabilityCI@stich_, cl_D := Module@8n, k, b<, n = Length@stichD; k = Apply@Plus, stichD; b = ConfidenceLevel ê. 8cl<; 8InverseQuantileBinomialDistribution@n, H1 + bL ê 2, kD, InverseQuantileBinomialDistribution@n, H1 - bL ê 2, k - 1D<D InverseQuantilePoissonDistribution@n_, q_, k_D := l ê. FindRoot@CDF@PoissonDistribution@n lD, kD ä q, 8l, 0.001, 1000<D PoissonCI@stich_, cl_D := Module@8n, k, b<, n = Length@stichD; k = Apply@Plus, stichD; b = ConfidenceLevel ê. 8cl<; 8InverseQuantilePoissonDistribution@n, H1 + bL ê 2, kD, InverseQuantilePoissonDistribution@n, H1 - bL ê 2, k - 1D<D 09_Konfidenzintervalle.nb 2 ExponentialCI@stich_, cl_D := Module@8n, k, b<, n = Length@stichD; k = Apply@Plus, stichD; b = ConfidenceLevel ê. 8cl<; 8Quantile@ChiSquareDistribution@2 nD, H1 - bL ê 2D ê H2 kL, Quantile@ChiSquareDistribution@2 nD, H1 + bL ê 2D ê H2 kL<D ExponentialRatioCI@xstich_, ystich_, cl_D := Module@8n, m, mx, my, b<, n = Length@xstichD; m = Length@ystichD; mx = Mean@xstichD; my = Mean@ystichD; b = ConfidenceLevel ê. 8cl<; 8Hmy ê mxL Quantile@FRatioDistribution@2 n, 2 mD, H1 - bL ê 2D, Hmy ê mxL Quantile@FRatioDistribution@2 n, 2 mD, H1 Im Rahmen der Schätztheorie haben wir uns mit der Frage befasst, einen unbekannten Parameter möglichst gut zu schätzen. Da bekanntlich der Schätzwert für einen Parameter vom zu schätzenden Wert stets mehr oder weniger stark abweicht, ist es oft sinnvoller, an Stelle eines Schätzwertes ein (von der vorliegenden Stichprobe abhängiges) Intervall anzugeben, von dem behauptet werden kann, dass der unbekannte Parameter mit einer vorgegebenen Wahrscheinlichkeit in diesem Intervall liegt. Wie wir sehen werden, ist diese Aufgabe über das sogenannte Dualitätsprinzip sehr eng mit der Testtheorie verknüpft: Kennt man nämlich einen Test für den zu schätzenden Parameter, so lässt sich daraus auf sehr einfache Weise ein Konfidenzintervall für diesen Parameter konstruieren. Wir werden daher nur für einige wenige Parameter die zugehörigen Konfidenzintervalle explizit konstruieren und die Konfidenzintervalle für die restlichen Parameter ohne Herleitung anführen. 9.1 Die Aufgabe der Theorie der Konfidenzintervalle Die Theorie der Konfidenzintervalle befasst sich mit der folgenden Fragestellung: 9.1.1 Aufgabe der Theorie der Konfidenzintervalle: Sei X = 8@JD ˝ J = 8J1 , J2 , …, Jk < œ Q< ein kparametrisches a-priori Modell für die Verteilung der Zufallsvariablen X (von der Verteilung X der Zufallsvariablen X ist also nur bekannt, dass sie ein Element der Menge X ist; es ist aber nicht bekannt, für welches spezielle J œ Q tatsächlich X = @JD gilt). Die Aufgabe der Theorie der Konfidenzintervalle besteht darin, aufgrund einer nach dem Verteilungsgesetz X ausgewählten konkreten Stichprobe x = 8x1 , x2 , …, xn < vom Umfang n ein Intervall anzugeben, welches den unbekannten Parameter q = q@JD mit einer vorgegebenen Wahrscheinlichkeit b enthält. Mit dem Befehl Konfidenzintervall@m, s, n, bD lässt sich diese Aufgabenstellung für eine typische Standardsituation graphisch veranschaulichen: Zuerst wird eine @m, sD-verteilte Stichprobe x vom Umfang n simuliert und durch schwarze Punkte veranschaulicht. Ausgehend von dieser Stichprobe wird ein Intervall @a, bD gezeichnet, welches den - nun als unbekannt anzusehenden - Parameter m mit der vorgegebenen Wahrscheinlichkeit b enthält. Konfidenzintervall@2, 3, 30, 0.90D m -2 0 2 a 4 6 8 b Das folgende Beispiel soll diese Aufgabenstellung auch rechnerisch verdeutlichen: 9.1.2 Beispiel: Ein Berg wurde von n = 6 Triangulationspunkten aus angepeilt und dessen Höhe bestimmt. 09_Konfidenzintervalle.nb 3 Ein Berg wurde von n 6 Triangulationspunkten aus angepeilt und dessen Höhe bestimmt. Dabei ergaben sich die Meßwerte x1 = 2345, x2 = 2347, x3 = 2343, x4 = 2342, x5 = 2344, x6 = 2349. Aus Erfahrung weiß man, dass derartige Messungen zwar keinen systematischen Fehler aufweisen, man aber durch Ungenauigkeiten beim Messvorgang mit einer Streuung von s0 = 1.5 rechnen muss. Man ermittle ein Intervall, welches die tatsächliche Höhe dieses Berges in 99 von 100 gleich gelagerten Fällen enthält. (Man beachte dabei, dass natürlich nicht die Höhe des Berges, wohl aber die von den fehlerhaften Höhenmessungen abhängigen Intervallgrenzen zufällig sind.) ô Lösung: Die Zufallsvariable X beschreibe das Ergebnis einer derartigen Höhenmessung. Wir können wie üblich annehmen, dass X normalverteilt ist, also ist X = 8@m, s0 D ˝ m œ < mit s0 = 1.5 ein passendes a-priori Modell der Verteilung von X. Unsere Aufgabe besteht darin, ein Intervall, dessen Grenzen von der vorliegenden Stichprobe x = 8x1 , x2 , x3 , x4 , x5 , x6 < abhängen, zu finden, welches den unbekannten Parameter m mit einer Wahrscheinlichkeit von b = 0.99 enthält. Da bekanntlich X HnL ein guter Schätzer für den unbekannten Parameter m der Normalverteilung ist und die Normalverteilung obendrein symmetrisch ist, können wir davon ausgehen, dass das von uns gesuchte Intervall die Form @X HnL - c, X HnL + cD besitzt, wobei der Wert c noch passend zu wählen ist. Nun gilt aber für alle m œ @8X HnL - c § m § X HnL + c<; @m, s0 DD = @8 X HnL - m § c<; @m, s0 DD = X HnL - m s0 = @8 n § c s0 n <; @m, s0 DD = f@ c s0 n D - f@- c s0 nD wobei f wie üblich die Verteilungsfunktion der @0, 1D-Verteilung bezeichnet. Um zu erreichen, dass diese Wahrscheinlichkeit gleich b = 0.99 ist, muss man für c den Wert c= s0 n 0.995 = 1.72792 verwenden. Wie die folgende Rechnung zeigt, liegt die tatsächliche Höhe des angepeilten Berges somit in 99 von 100 gleich gelagerten Fällen im Intervall @2343.42, 2346.58D: höhen = 82345, 2347, 2343, 2342, 2344, 2349<; s0 = 1.5; b = 0.99; c = s0 Quantile@NormalDistribution@0, 1D, H1 + bL ê 2D ê Sqrt@Length@höhenDD; Print@"Konfidenzintervall für die Höhe des Berges: ", 8Mean@höhenD - c, Mean@höhenD + c<D Clear@höhen, s0, b, cD Konfidenzintervall für die Höhe des Berges: 82343.42, 2346.58< Nach diesen Veranschaulichungen sind wir für die folgenden Begriffsbildungen vorbereitet: 9.1.3 Definition: Sei X = 8@JD ˝ J = 8J1 , J2 , …, Jk < œ Q< ein k-parametrisches a-priori Modell für die Verteilung der Zufallsvariablen X, sei X = 8X1 , X2 , …, Xn < eine nach dem Verteilungsgesetz X ausgewählte mathematische Stichprobe vom Umfang n und bezeichnet q = q@JD den uns interessierenden Parameter. a) Jedes zufällige Intervall der Form @S, SD = @s@X1 , X2 , …, Xn D, s@X1 , X2 , …, Xn DD nennt man ein Konfidenzintervall für den Parameter q = q@JD. b) Ein Konfidenzintervall @S, SD für den Parameter q = q@JD besitzt das Konfidenzniveau b, wenn die Wahrscheinlichkeit dafür, dass der Parameter q = q@JD im Intervall @S, SD liegt, mindestens b ist, wenn also für alle J œ Q die Beziehung 09_Konfidenzintervalle.nb 4 @8S § q@JD § S<; @JDD ¥ b gilt. In Zukunft werden wir einfach von einem Konfidenzintervall mit Niveau b reden. c) Sind @S, SD und @T, T D zwei Konfidenzintervalle für den Parameter q = q@JD mit Niveau b, so nennt man @S, SD kürzer als @T, T D, wenn die mittlere Länge des Intervalls @S, SD stets kleiner ist als die mittlere Länge des Intervalls @T, T D, wenn also für alle J œ Q die Beziehung @S - S; @JDD § @T - T; @JDD gilt. 9.2 Das Dualitätsprinzip Zwischen Konfidenzintervallen und Tests besteht ein enger Zusammenhang, der durch das sogenannte Dualitätsprinzip beschrieben wird: 9.2.1 Dualitätsprinzip: Ist X = 8@JD ˝ J = 8J1 , J2 , …, Jk < œ Q< ein k-parametrisches a-priori Modell für die Verteilung von X und bezeichnet q = q@JD den uns interessierenden Parameter so gilt: Ist für jedes h œ q@QD die Statistik Th ein Test für die Hypothese 0 = 8@JD ˝ q@JD = h< gegen die Alternative 1 = 8@JD ˝ q@JD ∫ h< mit Signifikanz a, so ist das zufällige Intervall @S, SD mit S = Min@h œ q@QD ˝ Th = 0D und S = Max@h œ q@QD ˝ Th = 0D ein Konfidenzintervall für den Parameter q = q@JD mit Niveau b = 1 - a. ô Beweis: Für alle J œ Q gilt offenbar 8T q@JD = 0< Œ 8Min@h œ q@QD ˝ Th = 0D § q@JD § Max@h œ q@QD ˝ Th = 0D< = 8S § q@JD § S< und damit @8S § q@JD § S<; @JDD ¥ @8T q@JD = 0<; @JDD ¥ 1 - a = b Wir demonstrieren dieses Dualitätsprinzip an einigen Beispielen: 9.2.2 Beispiel: Unter Verwendung des Dualitätsprinzips konstruiere man Konfidenzintervalle mit Niveau b für die Parameter m und s2 der Normalverteilung. ô Lösung: In die Sprache des Dualitätsprinzips übersetzt, lautet unsere Fragestellung: Gegeben ist das zweiparametrische a-priori Modell X = 8@m, sD ˝ m œ , s > 0< Gesucht sind Konfidenzintervalle mit Niveau b für die Parameter q1 @8m, s<D = m bzw q2 @8m, s<D = s2 . a) Für alle h œ (in unserem Beispiel ist Q = µD 0, ¶@ und damit q1 @QD = ) ist der t-Test für eine Grundgesamtheit mit dem Annahmebereich 09_Konfidenzintervalle.nb X HnL - h S HnL X 5 n § n-1;1-aê2 ein Test für die Hypothese 0 = 8@m, sD ˝ m = h, s > 0< gegen die Alternative 1 = 8@m, sD ˝ m ∫ h, s > 0< mit Signifikanz a. Nach dem Dualitätsprinzip ist damit das zufällige Intervall @S, SD mit S = Min@h œ ˝ X HnL - h S = Max@h œ ˝ S HnL X X HnL - h S HnL X = = n § n-1;1-aê2 D = X HnL - n § n-1;1-aê2 D = X HnL + S HnL X n S HnL X n n-1;H1+bLê2 n-1;H1+bLê2 ein Konfidenzintervall für den unbekannten Parameter m mit Niveau b = 1 - a. b) Für alle h > 0 (in unserem Beispiel ist Q = µD 0, ¶@ und damit q2 @QD =D 0, ¶@) ist der Chi-Quadrat-Varianztest mit dem Annahmebereich HnL cn-1;aê2 § Hn - 1L V X êh § cn-1;1-aê2 ein Test für die Hypothese 0 = 8@m, sD ˝ m œ , s2 = h< gegen die Alternative 1 = 8@m, sD ˝ m œ , s2 ∫ h< mit Signifikanz a. Nach dem Dualitätsprinzip ist damit das zufällige Intervall @S, SD mit Hn - 1L HnL HnL S = Min@h > 0 ˝ n-1;aê2 § Hn - 1L V X ê h § n-1;1-aê2 D = V X n-1;H1+bLê2 Hn - 1L HnL HnL S = Max@h > 0 ˝ n-1;aê2 § Hn - 1L V X ê h § n-1;1-aê2 D = V X n-1;H1-bLê2 ein Konfidenzintervall für den unbekannten Parameter s2 mit Niveau b = 1 - a. 9.2.3 Beispiel: Von einem Poissonprozess wurden die Längen der ersten n Pausen bestimmt. Aus diesen Daten bestimme man ein Konfidenzintervall mit Niveau b für die unbekannte Intensität l. ô Lösung: Die Pausen X1 , X2 , … eines Poissonprozesses mit Intensität l sind bekanntlich vollständig unabhängig und @lD-verteilt. In die Sprache des Dualitätsprinzips übersetzt lautet unsere Fragestellung somit: Gegeben ist das ein-parametrische a-priori Modell X = 8@lD ˝ l > 0< Gesucht ist ein Konfidenzintervall mit Niveau b für den Parameter q@lD = l. Für alle h > 0 ist der Exponentialtest für eine Grundgesamtheit mit dem Annahmebereich 2 n;aê2 § 2 h n X HnL § 2 n;1-aê2 ein Test für die Hypothese 0 = 8@lD ˝ l > h< gegen die Alternative 1 = 8@lD ˝ l ∫ h< mit Signifikanz a. Nach dem Dualitätsprinzip ist damit das zufällige Intervall AS, SE mit S = Min@h > 0 ˝ 2 n;aê2 § 2 h n X HnL § 2 n;1-aê2 D = 2 n;H1-bLê2 2 n X HnL 09_Konfidenzintervalle.nb 6 S = Max@h > 0 ˝ 2 n;aê2 § 2 h n X HnL § 2 n;1-aê2 D = 2 n;H1+bLê2 2 n X HnL ein Konfidenzintervall für den unbekannten Parameter l mit Niveau b = 1 - a. 9.2.4 Beispiel: Das Datenmaterial ertrag enthält die Ernteerträge von n = 12 mit Kunstdünger und m = 10 ohne Kunstdünger behandelten Weizenfeldern. Man bestimme ein 95% Konfidenzintervall für die Differenz der durchschnittlichen Erträge. ô Lösung: Die Zufallsvariablen X bzw Y beschreiben den Ernteertrag eines zufällig ausgewählten Weizenfeldes, welches mit bzw ohne Kunstdünger behandelt wurde. Wie üblich kann man annehmen, dass diese beiden Zufallsvariablen normalverteilt sind. Außerdem ist es sinnvoll anzunehmen, dass die Streuungen dieser beiden Zufallsvariablen übereinstimmen. Damit ist X µY = 88@m x , sD, @m y , sD< ˝ m x , m y œ , s > 0< ein geeignetes Modell der a-priori möglichen Verteilungen von X und Y. Unsere Aufgabe besteht nun darin, ein Konfidenzintervall mit Niveau 0.95 für den Parameter q@m x , m y , sD = m x - m y zu bestimmen. Für alle h œ (in unserem Beispiel ist Q = µ µD 0, ¶@ und damit q@QD = ) ist der t-Test für zwei Grundgesamtheiten mit dem Annahmebereich X HnL - Y HmL - h S Hn,mL X ,Y,pooled § n+m-2;1-aê2 ein Test für die Hypothese 0 … m x - m y = h; s > 0 gegen die Alternative 1 … m x - m y ∫ h; s > 0 mit Signifikanz a. Nach dem Dualitätsprinzip ist damit das zufällige Intervall @S, SD mit S = Min@h œ ˝ S = Max@h œ ˝ X HnL - Y HmL - h S Hn,mL X ,Y,pooled X HnL - Y HmL - h S Hn,mL X ,Y,pooled § n+m-2;1-aê2 D = X HnL - Y HmL - S Hn,mL X ,Y,pooled n+m-2;H1+bLê2 § n+m-2;1-aê2 D = X HnL - Y HmL + S Hn,mL X ,Y,pooled n+m-2;H1+bLê2 ein Konfidenzintervall für den unbekannten Parameter m x - m y mit Niveau b = 1 - a. Speziell ergibt sich damit für unser Datenmaterial das 95% Konfidenzintervall @0.829057, 1.11411D für die Differenz m x - m y der durchschnittlichen Ernteerträge: b = 0.95; x = Part@Cases@<< ertragfile, 8mit, _<D, All, 2D; y = Part@Cases@<< ertragfile, 8ohne, _<D, All, 2D; n = Length@xD; m = Length@yD; s = Sqrt@1 ê n + 1 ê mD Sqrt@Hn - 1L ê Hn + m - 2L Variance@xD + Hm - 1L ê Hn + m - 2L Variance@yDD; q = Quantile@StudentTDistribution@n + m - 2D, H1 + bL ê 2D; Print@"Konfidenzintervall für die Differenz der mittleren Ernteerträge: ", 8Mean@xD - Mean@yD - s q, Mean@xD - Mean@xD + s q<D Clear@ b, x, y, n, m, s, qD Konfidenzintervall für die Differenz der mittleren Ernteerträge: 80.829057, 1.11411< 09_Konfidenzintervalle.nb 7 9.3 Konfidenzintervalle für die wichtigsten Parameter In diesem Abschnitten stellen wir die mit dem Dualitätsprinzip ermittelten Konfidenzintervalle für die Parameter der wichtigsten Verteilungen tabellarisch zusammen und beschreiben, wie sich diese Konfidenzintervalle mit Hilfe von Mathematica ermitteln lassen. à KI für die Parameter der Normalverteilung Aus dem Dualitätsprinzip folgt unmittelbar (man vergleiche dazu Beispiel 9.2.2): 9.3.1 Konfidenzintervalle mit Niveau b für die Parameter der Normalverteilung: X Parameter Konfidenzintervall 8@m, s0 D ˝ m œ < m X HnL - H1+bLê2 8@m, sD ˝ m œ , s > 0< m X HnL - n-1;H1+bLê2 8@m, sD ˝ m œ , s > 0< s2 HnL VX s0 n S HnL X n § m § X HnL +H1+bLê2 s0 n § m § X HnL + n-1;H1+bLê2 S HnL X n Hn - 1L HnL § s2 § V X n-1;H1+bLê2 n-1;H1-bLê2 Hn - 1L Dabei bezeichnet das -Quantil der @0, 1D-Verteilung, n; das -Quantil der @nD-Verteilung und n; das -Quantil der hi@nD-Verteilung. Diese Konfidenzintervalle sind in Mathematica implementiert. Man lade dazu zuerst das Paket HypothesisTesting` und verwende die Befehle MeanCI bzw VarianceCI: HypothesisTesting` ladet das Paket HypothesisTesting`. à MeanCI@stich, ConfidenceLevel Ø bD berechnet für die normalverteilte Stichprobe stich das Konfidenzintervall mit Niveau b für den Mittelwert m, wobei angenommen wird, dass die Streuung s nicht bekannt ist. Kennt man diese Streuung s0 , so verwende man die Option KnownVariance Ø s0 2 . à VarianceCI@stich, ConfidenceLevel Ø bD berechnet für die normalverteilte Stichprobe stich das Konfidenzintervall mit Niveau b für die Varianz s2 . 9.3.2 Beispiel: Von wievielen Triangulationspunkten n muss ein Berg angepeilt werden, um für die tatsächliche Höhe dieses Berges ein Konfidenzintervall vom Niveau b = 0.95 mit einer Länge von l = 1 angeben zu können, wenn bekannt ist, dass auf Grund von Ungenauigkeiten jede dieser Messung mit einer Streuung von s0 = 1.5 behaftet ist (man vergleiche dazu Beispiel 9.1.2)? ô 9.3.3 Beispiel: Für das Datenmaterial stahl ermittle man Konfidenzintervalle mit Niveau b = 0.90 für die mittleren Zugfestigkeiten m A , mB und mC von Stahlblechen der Sorten A, B und C. ô Lösung: a) Wir lesen das im Datenordner abgelegte Datenfile stahlfile ein, wählen mit Hilfe von Cases Stahlbleche der Sorten A bzw B bzw C aus, rufen mittels Part deren Zugfestigkeiten (dritte Spalte) auf und überzeugen uns mit Hilfe des Score Tests davon, dass es sich bei diesen Zugfestigkeiten um normalverteilte Daten handelt: 09_Konfidenzintervalle.nb 8 Hilfe des Score Tests davon, dass es sich bei diesen Zugfestigkeiten um normalverteilte Daten handelt: zugA = Part@Cases@<< stahlfile, 8A, x_, y_<D, All, 3D; mA = Mean@zugAD; sA = StandardDeviation@zugAD; zugB = Part@Cases@<< stahlfile, 8B, x_, y_<D, All, 3D; mB = Mean@zugBD; sB = StandardDeviation@zugBD; zugC = Part@Cases@<< stahlfile, 8C, x_, y_<D, All, 3D; mC = Mean@zugCD; sC = StandardDeviation@zugCD; pA = ScoreTest@zugA, NormalDistribution@mA, sAD, PlotStyle Æ [email protected], PlotLabel Æ "Score Test für Sorte A"D; pB = ScoreTest@zugB, NormalDistribution@mB, sBD, PlotStyle Æ [email protected], PlotLabel Æ "Score Test für Sorte B"D; pC = ScoreTest@zugC, NormalDistribution@mC, sCD, PlotStyle Æ [email protected], PlotLabel Æ "Score Test für Sorte C"D; GraphicsRow@8pA, pB, pC<D Score Test für Sorte A Score Test für Sorte B 1.0 0.8 0.6 0.4 0.2 0.8 0.6 0.4 0.2 5 10 15 20 25 30 Score Test 0.8 0.6 0.4 0.2 5 10 15 20 5 10 b) Die gesuchten Konfidenzintervalle für die mittleren Zugfestigkeiten lassen sich daher mit dem Befehl MeanCI ermitteln, wobei die Streuungen nicht bekannt sind: b = 0.90; PrintA"Konfidenzintervall für mA : ", MeanCI@zugA, ConfidenceLevel Æ bDE PrintA"Konfidenzintervall für mB : ", MeanCI@zugB, ConfidenceLevel Æ bDE PrintA"Konfidenzintervall für mC : ", MeanCI@zugC, ConfidenceLevel Æ bDE Clear@zugA, mA, sA, zugB, mB, sB, zugC, mC, sC, pA, pB, pC, pbD Konfidenzintervall für µA : 8705.057, 731.006< Konfidenzintervall für µB : 8713.099, 744.553< Konfidenzintervall für µC : 8689.484, 718.065< à KI für den Vergleich der Parameter zweier Normalverteilungen Ebenfalls aus dem Dualitätsprinzip folgt unmittelbar (man vergleiche dazu Beispiel 9.2.4): 09_Konfidenzintervalle.nb 9 9.3.4 Konfidenzintervalle mit Niveau b für den Vergleich der Parameter zweier Normalverteilungen: X µ X Parameter Konfidenzintervall 88@m x , s x D, @m y , s y D< ˝ m x , m y œ < 88@m x , sD, @m y , sD< ˝ m x , m y œ , s > 0< 88@m x , s x D, @m y , s y D< ˝ m x , m y œ , s x , s y > 0< X HnL -Y HmL -H1+bLê2 sHn,mL x,y § m x - m y mx - m y mx - m y mx - m y m x - m y § X HnL -Y HmL +H1+bLê2 sHn,mL x,y X HnL - Y HmL - n+m-2;H1+bLê2 S Hn,mL X ,Y,pooled § m x - m y m x - m y § X HnL -Y HmL + n+m-2;H1+bLê2 S Hn,mL X ,Y,pooled X HnL - Y HmL - Hn,mL N X ,Y,mod S Hn,mL § mx - m y ;H1+bLê2 X ,Y,mod m x - m y § X HnL -Y HmL + Hn,mL N X ,Y,mod 88@m x , s x D, @m y , s y D< ˝ m x , m y œ , s x , s y > 0< s2x ê s2y HnL VX n-1,m-1;H1-bLê2 § s2x ê s2y § S Hn,mL ;H1+bLê2 X ,Y,mod HnL VX n-1,m-1;H1+bLê2 VYHmL VYHmL Dabei bezeichnet das -Quantil der @0, 1D-Verteilung, n; das -Quantil der @nD-Verteilung und n,m; das -Quantil der @n, mD-Verteilung. Außerdem verwenden wir die bereits bei den entsprechenden Tests eingeführten Abkürzungen Hn,mL s x,y = sx 2 ë n + s y 2 ë m n-1 m-1 HnL HmL V + V n+m-2 X n+m-2 Y S Hn,mL X ,Y,pooled = = S Hn,mL X ,Y,mod HnL ê n + V HmL êm VX Y und 1 ên + 1 êm Hn,mL NX = ,Y,mod HnL ê n + V HmL ê mL2 HV X Y HnL HV X ênL2 êHn - 1L + HVYHmL ê mL2 ê Hm - 1L Diese Konfidenzintervalle sind ebenfalls in Mathematica implementiert. Man lade dazu zuerst das Paket HypothesisTesting` und verwende die Befehle MeanDifferenceCI bzw VarianceRatioCI: HypothesisTesting` ladet das Paket HypothesisTesting`. à MeanDifferenceCI@xstich, ystich, ConfidenceLevel Ø bD berechnet für die beiden normalverteilten Stichproben xstich und ystich das Konfidenzintervall mit Niveau b für die Differenz m x - m y der beiden Mittelwerte m x und m y , wobei angenommen wird, dass die beiden Streuungen s x und s y unbekannt sind. Sind diese Streuungen zwar unbekannt, kann man aber annehmen, dass sie annähernd gleich sind, so verwende man die Option EqualVariances Ø True; sind hingegen die beiden Streuungen s x und s y bekannt, so verwende man die Option KnownVariances Ø 8s2x , s2y <. à VarianceRatioCI@xstich, ystich, ConfidenceLevel Ø bD berechnet für die beiden normalverteilten Stichproben xstich und ystich das Konfidenzintervall mit Niveau b für den Quotient s2x ês2y der Varianzen s2x und s2y . 09_Konfidenzintervalle.nb 10 9.3.5 Beispiel: Im Datenmaterial score sind die von einigen zufällig ausgewählten Universitäten im Südosten bzw Westen der USA bei einem Uni-Ranking erzielten Punkte aufgelistet. Man ermittle ein Konfidenzintervall mit Niveau b = 0.90 für den Quotient der Varianzen der von diesen Universitäten erzielten Punkte. ô Lösung: Wir lesen das im Datenordner abgelegte Datenfile scorefile ein, wählen mit Hilfe von Cases die Universitäten im Südosten bzw Westen der USA aus, rufen mit Hilfe von Part die von diesen Universitäten erzielten Punkte (dritte Spalte) auf und ermitteln von diesem Datenmaterial unter Verwendung des Befehls VarianceRatioCI das gesuchte Konfidenzintervall für den Quotient der beiden Varianzen: SO = Part@Cases@<< scorefile, 8x_, SO, y_<D, All, 3D; WE = Part@Cases@<< scorefile, 8x_, W, y_<D, All, 3D; Print@"Konfidenzintervall für den Quotient der Varianzen: ", VarianceRatioCI@SO, WE, ConfidenceLevel Æ 0.9DD Clear@SO, WED Konfidenzintervall für den Quotient der Varianzen: 80.0706333, 1.1487< à KI für die Wahrscheinlichkeit eines Ereignisses Aus dem Dualitätsprinzip zusammen mit dem Probability-Test für eine Grundgesamtheit folgt unmittelbar: 9.3.6 Konfidenzintervall mit Niveau b für die Wahrscheinlichkeit eines Ereignisses: X Parameter Konfidenzintervall 8@1, pD ˝ 0 p 1< p HnL -1 HnL - 1D -1 n,ä;H1+bLê2 @n X D § p § n,ä;H1-bLê2 @n X Dabei bezeichnet -1 n,ä; @kD jenes eindeutig bestimmte p œ @0, 1D mit der Eigenschaft n, p; = k, wobei n, p; wie üblich das -Quantil der @n, pD-Verteilung bezeichnet. Mit dem Befehl InverseQuantileBinomialDistribution lässt sich -1 n,ä; @kD für beliebige Werte von n œ , 0 1 und k œ 81, 2, …, n< berechnen; mit ProbabilityCI wird ein Konfidenzintervall für die Wahrscheinlichkeit eines Ereignisses ermittelt: à InverseQuantileBinomialDistribution@n, , kD berechnet für beliebige Werte von n œ , 0 1 und k œ 80, 1, 2, …, n< den Ausdruck -1 n,ä; @kD. à ProbabilityCI@stich, ConfidenceLevel Ø bD berechnet für die @1, pD-verteilte Stichprobe stich das Konfidenzintervall mit Niveau b für die Wahrscheinlichkeit p. 9.3.7 Beispiel: Bei einer Prüfung von n = 30 Werkstücken wurden k = 10 Ausfälle beobachtet. Gesucht ist ein Konfidenzintervall mit Niveau b = 0.95 für die Wahrscheinlichkeit p, mit der Werkstücke ausfallen. ô Lösung: In die Sprache der Konfidenzintervalle übersetzt, lautet unsere Fragestellung: Für das a-priori Modell X = 8@1, pD ˝ 0 p 1< 09_Konfidenzintervalle.nb 11 ist ein Konfidenzintervall mit Niveau b = 0.95 für den unbekannten Parameter p gesucht, wobei eine Stichprobe x vom Umfang n = 30 mit k = n xHnL = 10 vorliegt. Für dieses Konfidenzintervall gilt somit n = 30; b = 0.95; k = 10; li = InverseQuantileBinomialDistribution@n, H1 + bL ê 2, kD; re = InverseQuantileBinomialDistribution@n, H1 - bL ê 2, k - 1D; Print@"Konfidenzintervall für die Ausfallswahrscheinlichkeit: ", 8li, re<D Clear@n, b, k, li, reD Konfidenzintervall für die Ausfallswahrscheinlichkeit: 80.199299, 0.493959< Man beachte, dass dieses Konfidenzintervall eigentlich sehr lang ist, was bei dem eher kleinen Stichprobenumfang von n = 30 letztlich aber nicht verwunderlich ist. 9.3.8 Beispiel: Auf der Basis des Datenmaterials waschmittel ermittle man Konfidenzintervalle mit Niveau b = 0.9 für die Wahrscheinlichkeiten pde bzw pit , mit welcher Hausfrauen aus Deutschland bzw Italien das Waschmittel X gegen das Waschmittel Y eintauschen würden. ô Lösung: Wir lesen das im Datenordner abgelegte Datenfile waschmittelfile ein, wählen mit Hilfe von Cases und Part die Antworten der Hausfrauen aus Deutschland bzw Italien aus und ermitteln unter Verwendung von ProbabilityCI die gesuchten Konfidenzintervalle für die Wahrscheinlichkeiten pde bzw pit , mit denen Hausfrauen aus Deutschland bzw Italien das Waschmittel X gegen das Waschmittel Y eintauschen würden: deutschland = Part@Cases@<< waschmittelfile, 8x_, Deutschland, y_<D, All, 3D; italien = Part@Cases@<< waschmittelfile, 8x_, Italien, y_<D, All, 3D; PrintA"Konfidenzintervall für pde : ", ProbabilityCI@deutschland, ConfidenceLevel Æ 0.9DE PrintA"Konfidenzintervall für pit : ", ProbabilityCI@italien, ConfidenceLevel Æ 0.9DE Clear@deutschland, italienD Konfidenzintervall für pde : 80.575826, 0.652297< Konfidenzintervall für pit : 80.649424, 0.716385< à KI für die Differenz der Wahrscheinlichkeiten zweier Ereignisse Im Gegensatz zum Konfidenzintervall für die Wahrscheinlichkeit eines Ereignisses müssen wir nun voraussetzen, dass die beiden Stichprobenumfänge n und m groß sind. Aus dem Dualitätsprinzip zusammen mit dem ProbabilityTest für zwei Grundgesamtheiten folgt dann unmittelbar: 9.3.9 Konfidenzintervall mit Niveau b für die Differenz der Wahrscheinlichkeiten zweier Ereignisse: X µY Parameter Konfidenzintervall 88@1, p x D, @1, p y D< ˝ 0 p x , p y 1< px - p y X HnL -Y HmL - H1+bLê2 S Hn,mL X ,Y § p x - p y p x - p y § X HnL -Y HmL + H1+bLê2 S Hn,mL X ,Y Dabei bezeichnet wie üblich das -Quantil der @0, 1D-Verteilung und S Hn,mL X ,Y die Statistik S Hn,mL X ,Y = ô X HnL H1 - X HnL L ên + Y HmL H1 - Y HmL L êm 09_Konfidenzintervalle.nb 12 Da bei der Ermittlung der Verteilung der Teststatistik Approximationen verwendet wurden, besitzt dieses Konfidenzintervall somit nur annähernd das vorgegebene Niveau b. Natürlich lässt sich leicht ein Mathematica-Befehl erzeugen, mit dem sich das Konfidenzintervall für die Differenz der Wahrscheinlichkeiten zweier Ereignisse berechnen lässt. Da jedoch das auf dem modifizierten t-Test für zwei Grundgesamtheiten aufbauende Konfidenzintervall für die Differenz der Mittelwerte zweier Normalverteilungen stets zu ganz ähnlichen Ergebnissen führt, wollen wir darauf aber verzichten und statt dessen ein konkretes Beispiel behandeln: 9.3.10 Beispiel: Auf der Basis des Datenmaterials waschmittel ermittle man ein Konfidenzintervall mit Niveau b = 0.9 für die Differenz pde - pit der Wahrscheinlichkeiten, mit denen Hausfrauen aus Deutschland bzw Italien das Waschmittel X gegen das Waschmittel Y eintauschen würden: ô Lösung: Wir lesen das im Datenordner abgelegte Datenfile waschmittelfile ein, wählen mit Hilfe von Cases und Part die Antworten der Hausfrauen aus Deutschland bzw Italien aus und wenden auf diese beiden Stichproben "deutschland" bzw "italien" den Befehl MeanDifferenceCI an: deutschland = Part@Cases@<< waschmittelfile, 8x_, Deutschland, y_<D, All, 3D; italien = Part@Cases@<< waschmittelfile, 8x_, Italien, y_<D, All, 3D; PrintA"Konfidenzintervall für die Differenz pde -pit :", MeanDifferenceCI@deutschland, italien, ConfidenceLevel Æ 0.9DE; Clear@deutschland, italienD Konfidenzintervall für die Differenz pde −pit :8−0.121664, −0.0164145< à KI für den Parameter der Poissonverteilung Unter Verwendung des Poissontests für eine Grundgesamtheit ergibt sich aus dem Dualitätsprinzip: 9.3.11 Konfidenzintervall mit Niveau b für den Parameter der Poissonverteilung: X Parameter Konfidenzintervall 8@lD ˝ l > 0< l HnL -1 HnL - 1D -1 n,ä;H1+bLê2 @n X D § l § n,ä;H1-bLê2 @n X Dabei bezeichnet -1 n,ä; @kD jenes eindeutig bestimmte l > 0 mit der Eigenschaft n l; = k, wobei n l; wie üblich das -Quantil der @n lD-Verteilung bezeichnet. Mit dem Befehl InverseQuantilePoissonDistribution lässt sich -1 n,ä; @kD für beliebige Werte von n œ , 0 1 und k œ 80, 1, 2, …< berechnen; mit PoissonCI wird ein Konfidenzintervall für den Parameter l der Poissonverteilung ermittelt: à InverseQuantilePoissonDistribution@n, , kD berechnet für beliebige Werte von n œ , 0 1 und k œ 80, 1, 2, …< den Ausdruck -1 n,ä; @kD. à PoisonCI@stich, ConfidenceLevel Ø bD berechnet für die @lD-verteilte Stichprobe stich das Konfidenzintervall mit Niveau b für den Parameter l. 9.3.12 Beispiel: Der Physiker RUTHERFORD beobachtete in seinem berühmten Versuch n = 2608 mal, wieviele a-Teilchen während eines Zeitintervalls mit einer Länge von 7.5 Sekunden von einem Zählgerät 09_Konfidenzintervalle.nb 13 wieviele -Teilchen während eines Zeitintervalls mit einer Länge von 7.5 Sekunden von einem Zählgerät registriert wurden. Die Ergebnisse dieses Versuches sind im Datenmaterial rutherford aufgelistet. Man bestimme ein Konfidenzintervall mit Niveau b = 0.99 für die mittlere Anzahl l der pro Sekunde vom Zähler registrierten Teilchen. ô Lösung: Die Anzahl X der während eines Zeitintervalls der Länge T registrierten Teilchen ist bekanntlich poissonverteilt mit dem Parameter l T. In die Sprache der Konfidenzintervalle übersetzt, lautet unsere Fragestellung: Für das a-priori Modell X = 8@l TD ˝ l > 0< ist ein Konfidenzintervall mit Niveau b = 0.99 für den unbekannten Parameter l gesucht, wobei eine Stichprobe x vom Umfang n = 2608 vorliegt, für die n xHnL = k bekannt ist. n = 2608; b = 0.99; T = 7.5; k = Part@Rest@<< rutherfordfileD, All, 1D.Part@Rest@<< RutherfordfileD, All, 2D; li = InverseQuantilePoissonDistribution@n, H1 + bL ê 2, kD ê T; re = InverseQuantilePoissonDistribution@n, H1 - bL ê 2, k - 1D ê T; Print@"Konfidenzintervall für den Parameter l: ", 8li, re<D Clear@n, b, T, k, li, reD Konfidenzintervall für den Parameter λ: 80.502565, 0.528966< Man beachte, dass die Länge dieses Konfidenzintervalls mit unserer Faustregel gut vereinbar ist. à KI für die Differenz der Parameter zweier Poissonverteilungen Im Gegensatz zum Konfidenzintervall für den Parameter der Poissonverteilung müssen wir nun voraussetzen, dass die beiden Stichprobenumfänge n und m groß sind. Unter Verwendung des Poissontests für zwei Grundgesamtheiten folgt dann aus dem Dualitätsprinzip: 9.3.13 Konfidenzintervall mit Niveau b für die Differenz der Parameter zweier Poissonverteilungen: X µY Parameter Konfidenzintervall Hn,mL 88@l x D, @l y D< ˝ l x , l y > 0< lx - l y X HnL -Y HmL - H1+bLê2 S X ,Y § l x - l y Hn,mL l x - l y § X HnL -Y HmL + H1+bLê2 S X ,Y Hn,mL Dabei bezeichnet das -Quantil der @0, 1D-Verteilung und S X ,Y die Statistik Hn,mL S X ,Y = X HnL ê n + Y HmL êm ô Da bei der Ermittlung der Verteilung der Teststatistik Approximationen verwendet wurden, besitzt dieses Konfidenzintervall somit nur annähernd das vorgegebene Niveau b. Natürlich lässt sich leicht ein Mathematica-Befehl erzeugen, mit dem sich das Konfidenzintervall für die Differenz der Parameter zweier Poissonverteilungen berechnen lässt. Da jedoch das auf dem modifizierten t-Test für zwei Grundgesamtheiten aufbauende Konfidenzintervall für die Differenz der Mittelwerte zweier Normalverteilungen stets zu ganz ähnlichen Ergebnissen führt, wollen wir darauf aber verzichten und nur ein konkretes Beispiel behandeln: 9.3.14 Beispiel: Auf Basis des Datenmaterials tippfehler bestimme man ein Konfidenzintervall mit Niveau b = 0.95 für die Differenz l x - l y der mittleren Anzahl der Tippfehler, welche den beiden Schreibkräften A 09_Konfidenzintervalle.nb 14 und B je Seite unterlaufen. ô Lösung: Die Anzahl X bzw Y der Tippfehler, welche den beiden Schreibkräfte A und B je Seite unterlaufen, ist bekanntlich poissonverteilt mit den Parametern l x bzw l y . In die Sprache der Konfidenzintervalle übersetzt, lautet unsere Fragestellung damit: Für das a-priori Modell X µY = 88@l x D, @l y D< ˝ l > 0< ist ein Konfidenzintervall mit Niveau b = 0.95 für die Differenz l x - l y der beiden Parameter l x und l y gesucht. Wir erzeugen dazu in der üblichen Weise die Stichproben x bzw y der den beiden Schreibkräften unterlaufenen Tippfehler und wenden darauf den Befehl MeanDifferenceCI an: xstich = Part@Cases@<< tippfehlerfile, 8A, x_<D, All, 2D; ystich = Part@Cases@<< tippfehlerfile, 8B, x_<D, All, 2D; Print@"Konfidenzintervall für die Differenz lx -ly : ", MeanDifferenceCI@xstich, ystich, ConfidenceLevel Æ 0.95DD Konfidenzintervall für die Differenz λx −λy : 8−2.48038, 0.442877< à KI für den Parameter der Exponentialverteilung Unter Verwendung des Exponentialtests für eine Grundgesamtheit ergibt sich aus dem Dualitätsprinzip: 9.3.15 Konfidenzintervall mit Niveau b für den Parameter der Exponentialverteilung: X Parameter Konfidenzintervall 8@lD ˝ l > 0< l 1 1 2 n;H1-bLê2 § l § 2 n;H1+bLê2 2 n X HnL 2 n X HnL Dabei bezeichnet n; das -Quantil der hi@nD-Verteilung. Mit dem Befehl ExponentialCI lässt sich ein Konfidenzintervall für den Parameter l der Exponentialverteilung ermitteln: à ExponentialCI@stich, ConfidenceLevel Ø bD berechnet für die @lD-verteilte Stichprobe stich das Konfidenzintervall mit Niveau b für den Parameter l. 9.3.16 Beispiel: Für die im Datenmaterial lebensdauer angeführten exponentialverteilten Lebensdauern von elektronischen Bauteilen bestimme man ein Konfidenzintervall mit Niveau b = 0.95 für den unbekannten Parameter l (man beachte, dass der Parameter 1 ê l der mittleren Lebensdauer dieser Bauteile entspricht). ô Lösung: Wir erzeugen in der üblichen Weise die Stichprobe x der Lebensdauern dieser elektronischen Bauteile und wenden darauf den Befehl ExponentialCI an: stich = Part@Rest@<< lebensdauerfileD, All, 2D; Print@"Konfidenzintervall für den Parameter l: ", ExponentialCI@stich, ConfidenceLevel Æ 0.95DD Clear@stichD Konfidenzintervall für den Parameter λ: 80.00611835, 0.00937174< 09_Konfidenzintervalle.nb 15 à KI für den Quotient der Parameter zweier Exponentialverteilungen Da der Exponentialtest für zwei Grundgesamtheiten ein exakter Test ist, müssen wir nicht voraussetzen, dass die Stichprobenumfänge groß sind. Unter Verwendung dieses Tests folgt nämlich aus dem Dualitätsprinzip: 9.3.17 Konfidenzintervall mit Niveau b für den Quotient der Parameter zweier Exponentialverteilungen: X µY Parameter Konfidenzintervall Y HmL Y HmL 2 n,2 m;H1-bLê2 § l x êl y § HnL 2 n,2 m;H1+bLê2 HnL X X Dabei bezeichnet n,m; das -Quantil der @n, mD-Verteilung. 88@l x D, @l y D< ˝ l x , l y > 0< l x êl y Mit dem Befehl ExponentialRatioCI lässt sich mühelos ein Konfidenzintervall für den Quotient l x êl y der Parameter zweier Exponentialverteilungen ermitteln: à ExponentialRatioCI@xstich, ystich, ConfidenceLevel Ø bD berechnet für die beiden @l x D bzw @l y D-verteilten Stichproben xstich bzw ystich das Konfidenzintervall mit Niveau b für den Quotient l x êl y der beiden Parameter l x und l y . 9.3.18 Beispiel: Wir betrachten das folgende einfache Bedienungssystem: Bei einem Server mit @mDverteilter Bedienungszeit treffen Forderungen gemäß einem Poissonprozess mit Parameter l ein. In der Bedienungstheorie ist der Quotient r = l ê m von fundamentaler Bedeutung. Auf der Basis des Datenmaterials bedienungssystem ermittle man ein Konfidenzintervall mit Niveau b = 0.90 für diesen Quotienten r. ô Lösung: Wir rufen in der üblichen Weise die Stichproben x der Zwischenankunftszeiten und y der Bedienzeiten auf und wenden darauf den Befehl ExponentialRatioCI an: xstich = Part@Rest@<< bedienungssystemfileD, All, 2D; ystich = Part@Rest@<< bedienungssystemfileD, All, 3D; Print@"Konfidenzintervall für den Quotient r: ", ExponentialRatioCI@xstich, ystich, ConfidenceLevel Æ 0.9DD Clear@xstich, ystichD Konfidenzintervall für den Quotient ρ: 80.659924, 1.05202<