9 Konfidenzintervallepfad

Werbung
§9 Konfidenzintervalle pfad
ô
SetDirectory@
"C:\Dokumente und Einstellungen\Administrator\Desktop\Stochastik mit Mathematica
6.0\Statistik\Datenordner"D;
<< HypothesisTesting`;
ScoreTest@stichprobe_, verteilungsgesetz_, options___D := Module@8z, n, p<,
z = Sort@stichprobeD;
n = Length@stichprobeD;
p = Table@8i, CDF@verteilungsgesetz, zPiTD<, 8i, 1, n<D; ListPlot@p, optionsDD
Konfidenzintervall@m_, s_, n_, b_D := Module@8x, mx, sx, q, a, b, p1, p2, p3, p4, p5, t1, t2, t3<,
x = RandomReal@NormalDistribution@m, sD, 8n<D;
mx = Mean@xD;
sx = StandardDeviation@xD;
q = Quantile@StudentTDistribution@n - 1D, H1 + bL ê 2D;
a = mx - q sx ê Sqrt@nD;
b = mx + q sx ê Sqrt@nD;
p1 = ListPlot@Thread@8x, 0<D, PlotStyle Æ [email protected];
p2 = Graphics@[email protected], Blue, Line@88a, 0<, 8b, 0<<D<D;
p3 = Graphics@[email protected], Red, Arrow@88m, s ê 20<, 8m, 0<<D<D;
p4 = Graphics@[email protected], Blue, Arrow@88a, -s ê 20<, 8a, 0<<D<D;
p5 = Graphics@[email protected], Blue, Arrow@88b, -s ê 20<, 8b, 0<<D<D;
t1 = Graphics@8Red, Text@"m", 8m, s ê 15<D<D;
t2 = Graphics@8Blue, Text@"a", 8a, -s ê 15<D<D;
t3 = Graphics@8Blue, Text@"b", 8b, -s ê 15<D<D;
Show@8p3, p4, p5, p2, p1, t1, t2, t3<, Axes Æ 8True, None<, AspectRatio Æ 0.2DD
InverseQuantileBinomialDistribution@n_, q_, k_D :=
p ê. FindRoot@CDF@BinomialDistribution@n, pD, kD ä q, 8p, 0.01, 0.99<D
ProbabilityCI@stich_, cl_D := Module@8n, k, b<,
n = Length@stichD;
k = Apply@Plus, stichD;
b = ConfidenceLevel ê. 8cl<;
8InverseQuantileBinomialDistribution@n, H1 + bL ê 2, kD,
InverseQuantileBinomialDistribution@n, H1 - bL ê 2, k - 1D<D
InverseQuantilePoissonDistribution@n_, q_, k_D :=
l ê. FindRoot@CDF@PoissonDistribution@n lD, kD ä q, 8l, 0.001, 1000<D
PoissonCI@stich_, cl_D := Module@8n, k, b<,
n = Length@stichD;
k = Apply@Plus, stichD;
b = ConfidenceLevel ê. 8cl<;
8InverseQuantilePoissonDistribution@n, H1 + bL ê 2, kD,
InverseQuantilePoissonDistribution@n, H1 - bL ê 2, k - 1D<D
09_Konfidenzintervalle.nb
2
ExponentialCI@stich_, cl_D := Module@8n, k, b<,
n = Length@stichD;
k = Apply@Plus, stichD;
b = ConfidenceLevel ê. 8cl<;
8Quantile@ChiSquareDistribution@2 nD, H1 - bL ê 2D ê H2 kL, Quantile@ChiSquareDistribution@2 nD, H1 + bL ê 2D ê H2 kL<D
ExponentialRatioCI@xstich_, ystich_, cl_D := Module@8n, m, mx, my, b<,
n = Length@xstichD;
m = Length@ystichD;
mx = Mean@xstichD;
my = Mean@ystichD;
b = ConfidenceLevel ê. 8cl<;
8Hmy ê mxL Quantile@FRatioDistribution@2 n, 2 mD, H1 - bL ê 2D, Hmy ê mxL Quantile@FRatioDistribution@2 n, 2 mD, H1
Im Rahmen der Schätztheorie haben wir uns mit der Frage befasst, einen unbekannten Parameter möglichst gut
zu schätzen. Da bekanntlich der Schätzwert für einen Parameter vom zu schätzenden Wert stets mehr oder
weniger stark abweicht, ist es oft sinnvoller, an Stelle eines Schätzwertes ein (von der vorliegenden Stichprobe
abhängiges) Intervall anzugeben, von dem behauptet werden kann, dass der unbekannte Parameter mit einer
vorgegebenen Wahrscheinlichkeit in diesem Intervall liegt.
Wie wir sehen werden, ist diese Aufgabe über das sogenannte Dualitätsprinzip sehr eng mit der Testtheorie
verknüpft: Kennt man nämlich einen Test für den zu schätzenden Parameter, so lässt sich daraus auf sehr
einfache Weise ein Konfidenzintervall für diesen Parameter konstruieren. Wir werden daher nur für einige
wenige Parameter die zugehörigen Konfidenzintervalle explizit konstruieren und die Konfidenzintervalle für die
restlichen Parameter ohne Herleitung anführen.
9.1 Die Aufgabe der Theorie der Konfidenzintervalle
Die Theorie der Konfidenzintervalle befasst sich mit der folgenden Fragestellung:
9.1.1 Aufgabe der Theorie der Konfidenzintervalle: Sei X = 8@JD ˝ J = 8J1 , J2 , …, Jk < œ Q< ein kparametrisches a-priori Modell für die Verteilung der Zufallsvariablen X (von der Verteilung X der
Zufallsvariablen X ist also nur bekannt, dass sie ein Element der Menge X ist; es ist aber nicht bekannt, für
welches spezielle J œ Q tatsächlich X = @JD gilt). Die Aufgabe der Theorie der Konfidenzintervalle besteht
darin, aufgrund einer nach dem Verteilungsgesetz X ausgewählten konkreten Stichprobe x = 8x1 , x2 , …, xn <
vom Umfang n ein Intervall anzugeben, welches den unbekannten Parameter q = q@JD mit einer vorgegebenen
Wahrscheinlichkeit b enthält.
Mit dem Befehl Konfidenzintervall@m, s, n, bD lässt sich diese Aufgabenstellung für eine typische Standardsituation graphisch veranschaulichen: Zuerst wird eine @m, sD-verteilte Stichprobe x vom Umfang n simuliert und
durch schwarze Punkte veranschaulicht. Ausgehend von dieser Stichprobe wird ein Intervall @a, bD gezeichnet,
welches den - nun als unbekannt anzusehenden - Parameter m mit der vorgegebenen Wahrscheinlichkeit b enthält.
Konfidenzintervall@2, 3, 30, 0.90D
m
-2
0
2
a
4
6
8
b
Das folgende Beispiel soll diese Aufgabenstellung auch rechnerisch verdeutlichen:
9.1.2 Beispiel: Ein Berg wurde von n = 6 Triangulationspunkten aus angepeilt und dessen Höhe bestimmt.
09_Konfidenzintervalle.nb
3
Ein Berg wurde von n 6 Triangulationspunkten aus angepeilt und dessen Höhe bestimmt.
Dabei ergaben sich die Meßwerte x1 = 2345, x2 = 2347, x3 = 2343, x4 = 2342, x5 = 2344, x6 = 2349. Aus
Erfahrung weiß man, dass derartige Messungen zwar keinen systematischen Fehler aufweisen, man aber durch
Ungenauigkeiten beim Messvorgang mit einer Streuung von s0 = 1.5 rechnen muss. Man ermittle ein
Intervall, welches die tatsächliche Höhe dieses Berges in 99 von 100 gleich gelagerten Fällen enthält. (Man
beachte dabei, dass natürlich nicht die Höhe des Berges, wohl aber die von den fehlerhaften Höhenmessungen
abhängigen Intervallgrenzen zufällig sind.)
ô
Lösung: Die Zufallsvariable X beschreibe das Ergebnis einer derartigen Höhenmessung. Wir können wie üblich
annehmen, dass X normalverteilt ist, also ist
X = 8@m, s0 D ˝ m œ <
mit s0 = 1.5 ein passendes a-priori Modell der Verteilung von X. Unsere Aufgabe besteht darin, ein Intervall,
dessen Grenzen von der vorliegenden Stichprobe x = 8x1 , x2 , x3 , x4 , x5 , x6 < abhängen, zu finden, welches den
unbekannten Parameter m mit einer Wahrscheinlichkeit von b = 0.99 enthält.
Da bekanntlich X HnL ein guter Schätzer für den unbekannten Parameter m der Normalverteilung ist und die Normalverteilung obendrein symmetrisch ist, können wir davon ausgehen, dass das von uns gesuchte Intervall die Form
@X HnL - c, X HnL + cD besitzt, wobei der Wert c noch passend zu wählen ist. Nun gilt aber für alle m œ @8X HnL - c § m § X HnL + c<; @m, s0 DD = @8 X HnL - m § c<; @m, s0 DD =
X HnL - m
s0
= @8
n §
c
s0
n <; @m, s0 DD = f@
c
s0
n D - f@-
c
s0
nD
wobei f wie üblich die Verteilungsfunktion der @0, 1D-Verteilung bezeichnet. Um zu erreichen, dass diese
Wahrscheinlichkeit gleich b = 0.99 ist, muss man für c den Wert
c=
s0
n
0.995 = 1.72792
verwenden. Wie die folgende Rechnung zeigt, liegt die tatsächliche Höhe des angepeilten Berges somit in 99 von
100 gleich gelagerten Fällen im Intervall @2343.42, 2346.58D:
höhen = 82345, 2347, 2343, 2342, 2344, 2349<; s0 = 1.5; b = 0.99;
c = s0 Quantile@NormalDistribution@0, 1D, H1 + bL ê 2D ê Sqrt@Length@höhenDD;
Print@"Konfidenzintervall für die Höhe des Berges: ", 8Mean@höhenD - c, Mean@höhenD + c<D
Clear@höhen, s0, b, cD
Konfidenzintervall für die Höhe des Berges: 82343.42, 2346.58<
Nach diesen Veranschaulichungen sind wir für die folgenden Begriffsbildungen vorbereitet:
9.1.3 Definition: Sei X = 8@JD ˝ J = 8J1 , J2 , …, Jk < œ Q< ein k-parametrisches a-priori Modell für die
Verteilung der Zufallsvariablen X, sei X = 8X1 , X2 , …, Xn < eine nach dem Verteilungsgesetz X ausgewählte
mathematische Stichprobe vom Umfang n und bezeichnet q = q@JD den uns interessierenden Parameter.
a) Jedes zufällige Intervall der Form
@S, SD = @s@X1 , X2 , …, Xn D, s@X1 , X2 , …, Xn DD
nennt man ein Konfidenzintervall für den Parameter q = q@JD.
b) Ein Konfidenzintervall @S, SD für den Parameter q = q@JD besitzt das Konfidenzniveau b, wenn die
Wahrscheinlichkeit dafür, dass der Parameter q = q@JD im Intervall @S, SD liegt, mindestens b ist, wenn also für
alle J œ Q die Beziehung
09_Konfidenzintervalle.nb
4
@8S § q@JD § S<; @JDD ¥ b
gilt. In Zukunft werden wir einfach von einem Konfidenzintervall mit Niveau b reden.
c) Sind @S, SD und @T, T D zwei Konfidenzintervalle für den Parameter q = q@JD mit Niveau b, so nennt man
@S, SD kürzer als @T, T D, wenn die mittlere Länge des Intervalls @S, SD stets kleiner ist als die mittlere Länge
des Intervalls @T, T D, wenn also für alle J œ Q die Beziehung
@S - S; @JDD § @T - T; @JDD
gilt.
9.2 Das Dualitätsprinzip
Zwischen Konfidenzintervallen und Tests besteht ein enger Zusammenhang, der durch das sogenannte Dualitätsprinzip beschrieben wird:
9.2.1 Dualitätsprinzip: Ist X = 8@JD ˝ J = 8J1 , J2 , …, Jk < œ Q< ein k-parametrisches a-priori Modell für die
Verteilung von X und bezeichnet q = q@JD den uns interessierenden Parameter so gilt: Ist für jedes h œ q@QD die
Statistik Th ein Test für die Hypothese 0 = 8@JD ˝ q@JD = h< gegen die Alternative 1 = 8@JD ˝ q@JD ∫ h< mit
Signifikanz a, so ist das zufällige Intervall @S, SD mit
S = Min@h œ q@QD ˝ Th = 0D
und
S = Max@h œ q@QD ˝ Th = 0D
ein Konfidenzintervall für den Parameter q = q@JD mit Niveau b = 1 - a.
ô
Beweis: Für alle J œ Q gilt offenbar
8T
q@JD
= 0< Œ 8Min@h œ q@QD ˝ Th = 0D § q@JD § Max@h œ q@QD ˝ Th = 0D< = 8S § q@JD § S<
und damit
@8S § q@JD § S<; @JDD ¥ @8T
q@JD
= 0<; @JDD ¥ 1 - a = b
Wir demonstrieren dieses Dualitätsprinzip an einigen Beispielen:
9.2.2 Beispiel: Unter Verwendung des Dualitätsprinzips konstruiere man Konfidenzintervalle mit Niveau b
für die Parameter m und s2 der Normalverteilung.
ô
Lösung: In die Sprache des Dualitätsprinzips übersetzt, lautet unsere Fragestellung: Gegeben ist das zweiparametrische a-priori Modell
X = 8@m, sD ˝ m œ , s > 0<
Gesucht sind Konfidenzintervalle mit Niveau b für die Parameter q1 @8m, s<D = m bzw q2 @8m, s<D = s2 .
a) Für alle h œ (in unserem Beispiel ist Q = µD 0, ¶@ und damit q1 @QD = ) ist der t-Test für eine Grundgesamtheit mit dem Annahmebereich
09_Konfidenzintervalle.nb
X HnL - h
S HnL
X
5
n § n-1;1-aê2
ein Test für die Hypothese 0 = 8@m, sD ˝ m = h, s > 0< gegen die Alternative 1 = 8@m, sD ˝ m ∫ h, s > 0< mit
Signifikanz a. Nach dem Dualitätsprinzip ist damit das zufällige Intervall @S, SD mit
S = Min@h œ ˝
X HnL - h
S = Max@h œ ˝
S HnL
X
X HnL - h
S HnL
X
=
=
n § n-1;1-aê2 D = X HnL -
n § n-1;1-aê2 D = X HnL +
S HnL
X
n
S HnL
X
n
n-1;H1+bLê2
n-1;H1+bLê2
ein Konfidenzintervall für den unbekannten Parameter m mit Niveau b = 1 - a.
b) Für alle h > 0 (in unserem Beispiel ist Q = µD 0, ¶@ und damit q2 @QD =D 0, ¶@) ist der Chi-Quadrat-Varianztest
mit dem Annahmebereich
HnL
cn-1;aê2 § Hn - 1L V X êh § cn-1;1-aê2
ein Test für die Hypothese 0 = 8@m, sD ˝ m œ , s2 = h< gegen die Alternative 1 = 8@m, sD ˝ m œ , s2 ∫ h<
mit Signifikanz a. Nach dem Dualitätsprinzip ist damit das zufällige Intervall @S, SD mit
Hn - 1L
HnL
HnL
S = Min@h > 0 ˝ n-1;aê2 § Hn - 1L V X ê h § n-1;1-aê2 D = V X n-1;H1+bLê2
Hn - 1L
HnL
HnL
S = Max@h > 0 ˝ n-1;aê2 § Hn - 1L V X ê h § n-1;1-aê2 D = V X n-1;H1-bLê2
ein Konfidenzintervall für den unbekannten Parameter s2 mit Niveau b = 1 - a.
9.2.3 Beispiel: Von einem Poissonprozess wurden die Längen der ersten n Pausen bestimmt. Aus diesen
Daten bestimme man ein Konfidenzintervall mit Niveau b für die unbekannte Intensität l.
ô
Lösung: Die Pausen X1 , X2 , … eines Poissonprozesses mit Intensität l sind bekanntlich vollständig unabhängig
und @lD-verteilt. In die Sprache des Dualitätsprinzips übersetzt lautet unsere Fragestellung somit: Gegeben ist das
ein-parametrische a-priori Modell
X = 8@lD ˝ l > 0<
Gesucht ist ein Konfidenzintervall mit Niveau b für den Parameter q@lD = l.
Für alle h > 0 ist der Exponentialtest für eine Grundgesamtheit mit dem Annahmebereich
2 n;aê2 § 2 h n X HnL § 2 n;1-aê2
ein Test für die Hypothese 0 = 8@lD ˝ l > h< gegen die Alternative 1 = 8@lD ˝ l ∫ h< mit Signifikanz a. Nach
dem Dualitätsprinzip ist damit das zufällige Intervall AS, SE mit
S = Min@h > 0 ˝ 2 n;aê2 § 2 h n X HnL § 2 n;1-aê2 D =
2 n;H1-bLê2
2 n X HnL
09_Konfidenzintervalle.nb
6
S = Max@h > 0 ˝ 2 n;aê2 § 2 h n X HnL § 2 n;1-aê2 D =
2 n;H1+bLê2
2 n X HnL
ein Konfidenzintervall für den unbekannten Parameter l mit Niveau b = 1 - a.
9.2.4 Beispiel: Das Datenmaterial ertrag enthält die Ernteerträge von n = 12 mit Kunstdünger und m = 10
ohne Kunstdünger behandelten Weizenfeldern. Man bestimme ein 95% Konfidenzintervall für die Differenz
der durchschnittlichen Erträge.
ô
Lösung: Die Zufallsvariablen X bzw Y beschreiben den Ernteertrag eines zufällig ausgewählten Weizenfeldes,
welches mit bzw ohne Kunstdünger behandelt wurde. Wie üblich kann man annehmen, dass diese beiden Zufallsvariablen normalverteilt sind. Außerdem ist es sinnvoll anzunehmen, dass die Streuungen dieser beiden Zufallsvariablen übereinstimmen. Damit ist
X µY = 88@m x , sD, @m y , sD< ˝ m x , m y œ , s > 0<
ein geeignetes Modell der a-priori möglichen Verteilungen von X und Y. Unsere Aufgabe besteht nun darin, ein
Konfidenzintervall mit Niveau 0.95 für den Parameter q@m x , m y , sD = m x - m y zu bestimmen.
Für alle h œ (in unserem Beispiel ist Q = µ µD 0, ¶@ und damit q@QD = ) ist der t-Test für zwei Grundgesamtheiten mit dem Annahmebereich
X HnL - Y HmL - h
S Hn,mL
X ,Y,pooled
§ n+m-2;1-aê2
ein Test für die Hypothese 0 … m x - m y = h; s > 0 gegen die Alternative 1 … m x - m y ∫ h; s > 0 mit Signifikanz a. Nach dem Dualitätsprinzip ist damit das zufällige Intervall @S, SD mit
S = Min@h œ ˝
S = Max@h œ ˝
X HnL - Y HmL - h
S Hn,mL
X ,Y,pooled
X HnL - Y HmL - h
S Hn,mL
X ,Y,pooled
§ n+m-2;1-aê2 D = X HnL - Y HmL - S Hn,mL
X ,Y,pooled n+m-2;H1+bLê2
§ n+m-2;1-aê2 D = X HnL - Y HmL + S Hn,mL
X ,Y,pooled n+m-2;H1+bLê2
ein Konfidenzintervall für den unbekannten Parameter m x - m y mit Niveau b = 1 - a. Speziell ergibt sich damit für
unser Datenmaterial das 95% Konfidenzintervall @0.829057, 1.11411D für die Differenz m x - m y der durchschnittlichen Ernteerträge:
b = 0.95;
x = Part@Cases@<< ertragfile, 8mit, _<D, All, 2D;
y = Part@Cases@<< ertragfile, 8ohne, _<D, All, 2D;
n = Length@xD;
m = Length@yD;
s = Sqrt@1 ê n + 1 ê mD Sqrt@Hn - 1L ê Hn + m - 2L Variance@xD + Hm - 1L ê Hn + m - 2L Variance@yDD;
q = Quantile@StudentTDistribution@n + m - 2D, H1 + bL ê 2D;
Print@"Konfidenzintervall für die Differenz der mittleren Ernteerträge: ",
8Mean@xD - Mean@yD - s q, Mean@xD - Mean@xD + s q<D
Clear@ b, x, y, n, m, s, qD
Konfidenzintervall für die Differenz der mittleren Ernteerträge: 80.829057, 1.11411<
09_Konfidenzintervalle.nb
7
9.3 Konfidenzintervalle für die wichtigsten Parameter
In diesem Abschnitten stellen wir die mit dem Dualitätsprinzip ermittelten Konfidenzintervalle für die Parameter
der wichtigsten Verteilungen tabellarisch zusammen und beschreiben, wie sich diese Konfidenzintervalle mit Hilfe
von Mathematica ermitteln lassen.
à KI für die Parameter der Normalverteilung
Aus dem Dualitätsprinzip folgt unmittelbar (man vergleiche dazu Beispiel 9.2.2):
9.3.1 Konfidenzintervalle mit Niveau b für die Parameter der Normalverteilung:
X
Parameter
Konfidenzintervall
8@m, s0 D ˝ m œ <
m
X HnL - H1+bLê2
8@m, sD ˝ m œ , s > 0<
m
X HnL - n-1;H1+bLê2
8@m, sD ˝ m œ , s > 0<
s2
HnL
VX
s0
n
S HnL
X
n
§ m § X HnL +H1+bLê2
s0
n
§ m § X HnL + n-1;H1+bLê2
S HnL
X
n
Hn - 1L
HnL
§ s2 § V X n-1;H1+bLê2
n-1;H1-bLê2
Hn - 1L
Dabei bezeichnet das -Quantil der @0, 1D-Verteilung, n; das -Quantil der @nD-Verteilung und n;
das -Quantil der hi@nD-Verteilung.
Diese Konfidenzintervalle sind in Mathematica implementiert. Man lade dazu zuerst das Paket HypothesisTesting`
und verwende die Befehle MeanCI bzw VarianceCI:
 HypothesisTesting`
ladet das Paket HypothesisTesting`.
à MeanCI@stich, ConfidenceLevel Ø bD
berechnet für die normalverteilte Stichprobe stich das Konfidenzintervall mit Niveau b für den Mittelwert m,
wobei angenommen wird, dass die Streuung s nicht bekannt ist. Kennt man diese Streuung s0 , so verwende
man die Option KnownVariance Ø s0 2 .
à VarianceCI@stich, ConfidenceLevel Ø bD
berechnet für die normalverteilte Stichprobe stich das Konfidenzintervall mit Niveau b für die Varianz s2 .
9.3.2 Beispiel: Von wievielen Triangulationspunkten n muss ein Berg angepeilt werden, um für die
tatsächliche Höhe dieses Berges ein Konfidenzintervall vom Niveau b = 0.95 mit einer Länge von l = 1
angeben zu können, wenn bekannt ist, dass auf Grund von Ungenauigkeiten jede dieser Messung mit einer
Streuung von s0 = 1.5 behaftet ist (man vergleiche dazu Beispiel 9.1.2)?
ô
9.3.3 Beispiel: Für das Datenmaterial stahl ermittle man Konfidenzintervalle mit Niveau b = 0.90 für die
mittleren Zugfestigkeiten m A , mB und mC von Stahlblechen der Sorten A, B und C.
ô
Lösung: a) Wir lesen das im Datenordner abgelegte Datenfile stahlfile ein, wählen mit Hilfe von Cases Stahlbleche
der Sorten A bzw B bzw C aus, rufen mittels Part deren Zugfestigkeiten (dritte Spalte) auf und überzeugen uns mit
Hilfe des Score Tests davon, dass es sich bei diesen Zugfestigkeiten um normalverteilte Daten handelt:
09_Konfidenzintervalle.nb
8
Hilfe des Score Tests davon, dass es sich bei diesen Zugfestigkeiten um normalverteilte Daten handelt:
zugA = Part@Cases@<< stahlfile, 8A, x_, y_<D, All, 3D; mA = Mean@zugAD; sA = StandardDeviation@zugAD;
zugB = Part@Cases@<< stahlfile, 8B, x_, y_<D, All, 3D; mB = Mean@zugBD; sB = StandardDeviation@zugBD;
zugC = Part@Cases@<< stahlfile, 8C, x_, y_<D, All, 3D; mC = Mean@zugCD; sC = StandardDeviation@zugCD;
pA = ScoreTest@zugA, NormalDistribution@mA, sAD, PlotStyle Æ [email protected],
PlotLabel Æ "Score Test für Sorte A"D;
pB = ScoreTest@zugB, NormalDistribution@mB, sBD, PlotStyle Æ [email protected],
PlotLabel Æ "Score Test für Sorte B"D;
pC = ScoreTest@zugC, NormalDistribution@mC, sCD, PlotStyle Æ [email protected],
PlotLabel Æ "Score Test für Sorte C"D;
GraphicsRow@8pA, pB, pC<D
Score Test für Sorte A
Score Test für Sorte B
1.0
0.8
0.6
0.4
0.2
0.8
0.6
0.4
0.2
5
10 15 20 25 30
Score Test
0.8
0.6
0.4
0.2
5
10
15
20
5
10
b) Die gesuchten Konfidenzintervalle für die mittleren Zugfestigkeiten lassen sich daher mit dem Befehl MeanCI
ermitteln, wobei die Streuungen nicht bekannt sind:
b = 0.90;
PrintA"Konfidenzintervall für mA : ", MeanCI@zugA, ConfidenceLevel Æ bDE
PrintA"Konfidenzintervall für mB : ", MeanCI@zugB, ConfidenceLevel Æ bDE
PrintA"Konfidenzintervall für mC : ", MeanCI@zugC, ConfidenceLevel Æ bDE
Clear@zugA, mA, sA, zugB, mB, sB, zugC, mC, sC, pA, pB, pC, pbD
Konfidenzintervall für µA : 8705.057, 731.006<
Konfidenzintervall für µB : 8713.099, 744.553<
Konfidenzintervall für µC : 8689.484, 718.065<
à KI für den Vergleich der Parameter zweier Normalverteilungen
Ebenfalls aus dem Dualitätsprinzip folgt unmittelbar (man vergleiche dazu Beispiel 9.2.4):
09_Konfidenzintervalle.nb
9
9.3.4 Konfidenzintervalle mit Niveau b für den Vergleich der Parameter zweier Normalverteilungen:
X µ X
Parameter
Konfidenzintervall
88@m x , s x D, @m y , s y D< ˝
m x , m y œ <
88@m x , sD, @m y , sD< ˝
m x , m y œ , s > 0<
88@m x , s x D, @m y , s y D< ˝
m x , m y œ , s x , s y > 0<
X HnL -Y HmL -H1+bLê2 sHn,mL
x,y § m x - m y
mx - m y
mx - m y
mx - m y
m x - m y § X HnL -Y HmL +H1+bLê2 sHn,mL
x,y
X HnL - Y HmL - n+m-2;H1+bLê2 S Hn,mL
X ,Y,pooled § m x - m y
m x - m y § X HnL -Y HmL + n+m-2;H1+bLê2 S Hn,mL
X ,Y,pooled
X HnL - Y HmL - Hn,mL
N
X ,Y,mod
S Hn,mL
§ mx - m y
;H1+bLê2 X ,Y,mod
m x - m y § X HnL -Y HmL + Hn,mL
N
X ,Y,mod
88@m x , s x D, @m y , s y D< ˝
m x , m y œ , s x , s y > 0<
s2x ê s2y
HnL
VX
n-1,m-1;H1-bLê2 § s2x ê s2y §
S Hn,mL
;H1+bLê2 X ,Y,mod
HnL
VX
n-1,m-1;H1+bLê2
VYHmL
VYHmL
Dabei bezeichnet das -Quantil der @0, 1D-Verteilung, n; das -Quantil der @nD-Verteilung und n,m;
das -Quantil der @n, mD-Verteilung. Außerdem verwenden wir die bereits bei den entsprechenden Tests
eingeführten Abkürzungen
Hn,mL
s x,y
=
sx 2 ë n + s y 2 ë m
n-1
m-1
HnL
HmL
V +
V
n+m-2 X
n+m-2 Y
S Hn,mL
X ,Y,pooled =
=
S Hn,mL
X ,Y,mod
HnL ê n + V HmL êm
VX
Y
und
1 ên + 1 êm
Hn,mL
NX
=
,Y,mod
HnL ê n + V HmL ê mL2
HV X
Y
HnL
HV X ênL2 êHn - 1L + HVYHmL ê mL2 ê Hm - 1L
Diese Konfidenzintervalle sind ebenfalls in Mathematica implementiert. Man lade dazu zuerst das Paket
HypothesisTesting` und verwende die Befehle MeanDifferenceCI bzw VarianceRatioCI:
 HypothesisTesting`
ladet das Paket HypothesisTesting`.
à MeanDifferenceCI@xstich, ystich, ConfidenceLevel Ø bD
berechnet für die beiden normalverteilten Stichproben xstich und ystich das Konfidenzintervall mit Niveau b
für die Differenz m x - m y der beiden Mittelwerte m x und m y , wobei angenommen wird, dass die beiden Streuungen s x und s y unbekannt sind. Sind diese Streuungen zwar unbekannt, kann man aber annehmen, dass sie
annähernd gleich sind, so verwende man die Option EqualVariances Ø True; sind hingegen die beiden Streuungen s x und s y bekannt, so verwende man die Option KnownVariances Ø 8s2x , s2y <.
à VarianceRatioCI@xstich, ystich, ConfidenceLevel Ø bD
berechnet für die beiden normalverteilten Stichproben xstich und ystich das Konfidenzintervall mit Niveau b
für den Quotient s2x ês2y der Varianzen s2x und s2y .
09_Konfidenzintervalle.nb
10
9.3.5 Beispiel: Im Datenmaterial score sind die von einigen zufällig ausgewählten Universitäten im Südosten
bzw Westen der USA bei einem Uni-Ranking erzielten Punkte aufgelistet. Man ermittle ein
Konfidenzintervall mit Niveau b = 0.90 für den Quotient der Varianzen der von diesen Universitäten erzielten
Punkte.
ô
Lösung: Wir lesen das im Datenordner abgelegte Datenfile scorefile ein, wählen mit Hilfe von Cases die Universitäten im Südosten bzw Westen der USA aus, rufen mit Hilfe von Part die von diesen Universitäten erzielten
Punkte (dritte Spalte) auf und ermitteln von diesem Datenmaterial unter Verwendung des Befehls VarianceRatioCI
das gesuchte Konfidenzintervall für den Quotient der beiden Varianzen:
SO = Part@Cases@<< scorefile, 8x_, SO, y_<D, All, 3D;
WE = Part@Cases@<< scorefile, 8x_, W, y_<D, All, 3D;
Print@"Konfidenzintervall für den Quotient der Varianzen: ",
VarianceRatioCI@SO, WE, ConfidenceLevel Æ 0.9DD
Clear@SO, WED
Konfidenzintervall für den Quotient der Varianzen: 80.0706333, 1.1487<
à KI für die Wahrscheinlichkeit eines Ereignisses
Aus dem Dualitätsprinzip zusammen mit dem Probability-Test für eine Grundgesamtheit folgt unmittelbar:
9.3.6 Konfidenzintervall mit Niveau b für die Wahrscheinlichkeit eines Ereignisses:
X
Parameter
Konfidenzintervall
8@1, pD ˝ 0  p  1<
p
HnL
-1
HnL - 1D
-1
n,ä;H1+bLê2 @n X D § p § n,ä;H1-bLê2 @n X
Dabei bezeichnet -1
n,ä; @kD jenes eindeutig bestimmte p œ @0, 1D mit der Eigenschaft n, p; = k, wobei n, p;
wie üblich das -Quantil der @n, pD-Verteilung bezeichnet.
Mit dem Befehl InverseQuantileBinomialDistribution lässt sich -1
n,ä; @kD für beliebige Werte von n œ , 0   1
und k œ 81, 2, …, n< berechnen; mit ProbabilityCI wird ein Konfidenzintervall für die Wahrscheinlichkeit eines
Ereignisses ermittelt:
à InverseQuantileBinomialDistribution@n, , kD
berechnet für beliebige Werte von n œ , 0   1 und k œ 80, 1, 2, …, n< den Ausdruck -1
n,ä; @kD.
à ProbabilityCI@stich, ConfidenceLevel Ø bD
berechnet für die @1, pD-verteilte Stichprobe stich das Konfidenzintervall mit Niveau b für die Wahrscheinlichkeit p.
9.3.7 Beispiel: Bei einer Prüfung von n = 30 Werkstücken wurden k = 10 Ausfälle beobachtet. Gesucht ist ein
Konfidenzintervall mit Niveau b = 0.95 für die Wahrscheinlichkeit p, mit der Werkstücke ausfallen.
ô
Lösung: In die Sprache der Konfidenzintervalle übersetzt, lautet unsere Fragestellung: Für das a-priori Modell
X = 8@1, pD ˝ 0  p  1<
09_Konfidenzintervalle.nb
11
ist ein Konfidenzintervall mit Niveau b = 0.95 für den unbekannten Parameter p gesucht, wobei eine Stichprobe x
vom Umfang n = 30 mit k = n xHnL = 10 vorliegt. Für dieses Konfidenzintervall gilt somit
n = 30; b = 0.95; k = 10;
li = InverseQuantileBinomialDistribution@n, H1 + bL ê 2, kD;
re = InverseQuantileBinomialDistribution@n, H1 - bL ê 2, k - 1D;
Print@"Konfidenzintervall für die Ausfallswahrscheinlichkeit: ", 8li, re<D
Clear@n, b, k, li, reD
Konfidenzintervall für die Ausfallswahrscheinlichkeit: 80.199299, 0.493959<
Man beachte, dass dieses Konfidenzintervall eigentlich sehr lang ist, was bei dem eher kleinen Stichprobenumfang
von n = 30 letztlich aber nicht verwunderlich ist.
9.3.8 Beispiel: Auf der Basis des Datenmaterials waschmittel ermittle man Konfidenzintervalle mit Niveau
b = 0.9 für die Wahrscheinlichkeiten pde bzw pit , mit welcher Hausfrauen aus Deutschland bzw Italien das
Waschmittel X gegen das Waschmittel Y eintauschen würden.
ô
Lösung: Wir lesen das im Datenordner abgelegte Datenfile waschmittelfile ein, wählen mit Hilfe von Cases und
Part die Antworten der Hausfrauen aus Deutschland bzw Italien aus und ermitteln unter Verwendung von ProbabilityCI die gesuchten Konfidenzintervalle für die Wahrscheinlichkeiten pde bzw pit , mit denen Hausfrauen aus
Deutschland bzw Italien das Waschmittel X gegen das Waschmittel Y eintauschen würden:
deutschland = Part@Cases@<< waschmittelfile, 8x_, Deutschland, y_<D, All, 3D;
italien = Part@Cases@<< waschmittelfile, 8x_, Italien, y_<D, All, 3D;
PrintA"Konfidenzintervall für pde : ", ProbabilityCI@deutschland, ConfidenceLevel Æ 0.9DE
PrintA"Konfidenzintervall für pit : ", ProbabilityCI@italien, ConfidenceLevel Æ 0.9DE
Clear@deutschland, italienD
Konfidenzintervall für pde : 80.575826, 0.652297<
Konfidenzintervall für pit : 80.649424, 0.716385<
à KI für die Differenz der Wahrscheinlichkeiten zweier Ereignisse
Im Gegensatz zum Konfidenzintervall für die Wahrscheinlichkeit eines Ereignisses müssen wir nun voraussetzen,
dass die beiden Stichprobenumfänge n und m groß sind. Aus dem Dualitätsprinzip zusammen mit dem ProbabilityTest für zwei Grundgesamtheiten folgt dann unmittelbar:
9.3.9 Konfidenzintervall mit Niveau b für die Differenz der Wahrscheinlichkeiten zweier Ereignisse:
X µY
Parameter
Konfidenzintervall
88@1, p x D, @1, p y D< ˝ 0  p x , p y  1<
px - p y
X HnL -Y HmL - H1+bLê2 S Hn,mL
X ,Y § p x - p y
p x - p y § X HnL -Y HmL + H1+bLê2 S Hn,mL
X ,Y
Dabei bezeichnet wie üblich das -Quantil der @0, 1D-Verteilung und S Hn,mL
X ,Y die Statistik
S Hn,mL
X ,Y =
ô
X HnL H1 - X HnL L ên + Y HmL H1 - Y HmL L êm
09_Konfidenzintervalle.nb
12
Da bei der Ermittlung der Verteilung der Teststatistik Approximationen verwendet wurden, besitzt dieses Konfidenzintervall somit nur annähernd das vorgegebene Niveau b.
Natürlich lässt sich leicht ein Mathematica-Befehl erzeugen, mit dem sich das Konfidenzintervall für die Differenz
der Wahrscheinlichkeiten zweier Ereignisse berechnen lässt. Da jedoch das auf dem modifizierten t-Test für zwei
Grundgesamtheiten aufbauende Konfidenzintervall für die Differenz der Mittelwerte zweier Normalverteilungen
stets zu ganz ähnlichen Ergebnissen führt, wollen wir darauf aber verzichten und statt dessen ein konkretes Beispiel
behandeln:
9.3.10 Beispiel: Auf der Basis des Datenmaterials waschmittel ermittle man ein Konfidenzintervall mit
Niveau b = 0.9 für die Differenz pde - pit der Wahrscheinlichkeiten, mit denen Hausfrauen aus Deutschland
bzw Italien das Waschmittel X gegen das Waschmittel Y eintauschen würden:
ô
Lösung: Wir lesen das im Datenordner abgelegte Datenfile waschmittelfile ein, wählen mit Hilfe von Cases und
Part die Antworten der Hausfrauen aus Deutschland bzw Italien aus und wenden auf diese beiden Stichproben
"deutschland" bzw "italien" den Befehl MeanDifferenceCI an:
deutschland = Part@Cases@<< waschmittelfile, 8x_, Deutschland, y_<D, All, 3D;
italien = Part@Cases@<< waschmittelfile, 8x_, Italien, y_<D, All, 3D;
PrintA"Konfidenzintervall für die Differenz pde -pit :",
MeanDifferenceCI@deutschland, italien, ConfidenceLevel Æ 0.9DE;
Clear@deutschland, italienD
Konfidenzintervall für die Differenz pde −pit :8−0.121664, −0.0164145<
à KI für den Parameter der Poissonverteilung
Unter Verwendung des Poissontests für eine Grundgesamtheit ergibt sich aus dem Dualitätsprinzip:
9.3.11 Konfidenzintervall mit Niveau b für den Parameter der Poissonverteilung:
X
Parameter
Konfidenzintervall
8@lD ˝ l > 0<
l
HnL
-1
HnL - 1D
-1
n,ä;H1+bLê2 @n X D § l § n,ä;H1-bLê2 @n X
Dabei bezeichnet -1
n,ä; @kD jenes eindeutig bestimmte l > 0 mit der Eigenschaft n l; = k, wobei n l; wie
üblich das -Quantil der @n lD-Verteilung bezeichnet.
Mit dem Befehl InverseQuantilePoissonDistribution lässt sich -1
n,ä; @kD für beliebige Werte von n œ , 0   1
und k œ 80, 1, 2, …< berechnen; mit PoissonCI wird ein Konfidenzintervall für den Parameter l der Poissonverteilung ermittelt:
à InverseQuantilePoissonDistribution@n, , kD
berechnet für beliebige Werte von n œ , 0   1 und k œ 80, 1, 2, …< den Ausdruck -1
n,ä; @kD.
à PoisonCI@stich, ConfidenceLevel Ø bD
berechnet für die @lD-verteilte Stichprobe stich das Konfidenzintervall mit Niveau b für den Parameter l.
9.3.12 Beispiel: Der Physiker RUTHERFORD beobachtete in seinem berühmten Versuch n = 2608 mal,
wieviele a-Teilchen während eines Zeitintervalls mit einer Länge von 7.5 Sekunden von einem Zählgerät
09_Konfidenzintervalle.nb
13
wieviele -Teilchen während eines Zeitintervalls mit einer Länge von 7.5 Sekunden von einem Zählgerät
registriert wurden. Die Ergebnisse dieses Versuches sind im Datenmaterial rutherford aufgelistet. Man
bestimme ein Konfidenzintervall mit Niveau b = 0.99 für die mittlere Anzahl l der pro Sekunde vom Zähler
registrierten Teilchen.
ô
Lösung: Die Anzahl X der während eines Zeitintervalls der Länge T registrierten Teilchen ist bekanntlich poissonverteilt mit dem Parameter l T. In die Sprache der Konfidenzintervalle übersetzt, lautet unsere Fragestellung: Für
das a-priori Modell
X = 8@l TD ˝ l > 0<
ist ein Konfidenzintervall mit Niveau b = 0.99 für den unbekannten Parameter l gesucht, wobei eine Stichprobe x
vom Umfang n = 2608 vorliegt, für die n xHnL = k bekannt ist.
n = 2608; b = 0.99; T = 7.5;
k = Part@Rest@<< rutherfordfileD, All, 1D.Part@Rest@<< RutherfordfileD, All, 2D;
li = InverseQuantilePoissonDistribution@n, H1 + bL ê 2, kD ê T;
re = InverseQuantilePoissonDistribution@n, H1 - bL ê 2, k - 1D ê T;
Print@"Konfidenzintervall für den Parameter l: ", 8li, re<D
Clear@n, b, T, k, li, reD
Konfidenzintervall für den Parameter λ: 80.502565, 0.528966<
Man beachte, dass die Länge dieses Konfidenzintervalls mit unserer Faustregel gut vereinbar ist.
à KI für die Differenz der Parameter zweier Poissonverteilungen
Im Gegensatz zum Konfidenzintervall für den Parameter der Poissonverteilung müssen wir nun voraussetzen, dass
die beiden Stichprobenumfänge n und m groß sind. Unter Verwendung des Poissontests für zwei Grundgesamtheiten folgt dann aus dem Dualitätsprinzip:
9.3.13 Konfidenzintervall mit Niveau b für die Differenz der Parameter zweier Poissonverteilungen:
X µY
Parameter
Konfidenzintervall
Hn,mL
88@l x D, @l y D< ˝ l x , l y > 0<
lx - l y
X HnL -Y HmL - H1+bLê2 S X ,Y § l x - l y
Hn,mL
l x - l y § X HnL -Y HmL + H1+bLê2 S X ,Y
Hn,mL
Dabei bezeichnet das -Quantil der @0, 1D-Verteilung und S X ,Y die Statistik
Hn,mL
S X ,Y =
X HnL ê n + Y HmL êm
ô
Da bei der Ermittlung der Verteilung der Teststatistik Approximationen verwendet wurden, besitzt dieses Konfidenzintervall somit nur annähernd das vorgegebene Niveau b.
Natürlich lässt sich leicht ein Mathematica-Befehl erzeugen, mit dem sich das Konfidenzintervall für die Differenz
der Parameter zweier Poissonverteilungen berechnen lässt. Da jedoch das auf dem modifizierten t-Test für zwei
Grundgesamtheiten aufbauende Konfidenzintervall für die Differenz der Mittelwerte zweier Normalverteilungen
stets zu ganz ähnlichen Ergebnissen führt, wollen wir darauf aber verzichten und nur ein konkretes Beispiel
behandeln:
9.3.14 Beispiel: Auf Basis des Datenmaterials tippfehler bestimme man ein Konfidenzintervall mit Niveau
b = 0.95 für die Differenz l x - l y der mittleren Anzahl der Tippfehler, welche den beiden Schreibkräften A
09_Konfidenzintervalle.nb
14
und B je Seite unterlaufen.
ô
Lösung: Die Anzahl X bzw Y der Tippfehler, welche den beiden Schreibkräfte A und B je Seite unterlaufen, ist
bekanntlich poissonverteilt mit den Parametern l x bzw l y . In die Sprache der Konfidenzintervalle übersetzt, lautet
unsere Fragestellung damit: Für das a-priori Modell
X µY = 88@l x D, @l y D< ˝ l > 0<
ist ein Konfidenzintervall mit Niveau b = 0.95 für die Differenz l x - l y der beiden Parameter l x und l y gesucht.
Wir erzeugen dazu in der üblichen Weise die Stichproben x bzw y der den beiden Schreibkräften unterlaufenen
Tippfehler und wenden darauf den Befehl MeanDifferenceCI an:
xstich = Part@Cases@<< tippfehlerfile, 8A, x_<D, All, 2D;
ystich = Part@Cases@<< tippfehlerfile, 8B, x_<D, All, 2D;
Print@"Konfidenzintervall für die Differenz lx -ly : ",
MeanDifferenceCI@xstich, ystich, ConfidenceLevel Æ 0.95DD
Konfidenzintervall für die Differenz λx −λy : 8−2.48038, 0.442877<
à KI für den Parameter der Exponentialverteilung
Unter Verwendung des Exponentialtests für eine Grundgesamtheit ergibt sich aus dem Dualitätsprinzip:
9.3.15 Konfidenzintervall mit Niveau b für den Parameter der Exponentialverteilung:
X
Parameter
Konfidenzintervall
8@lD ˝ l > 0<
l
1
1
2 n;H1-bLê2 § l §
2 n;H1+bLê2
2 n X HnL
2 n X HnL
Dabei bezeichnet n; das -Quantil der hi@nD-Verteilung.
Mit dem Befehl ExponentialCI lässt sich ein Konfidenzintervall für den Parameter l der Exponentialverteilung
ermitteln:
à ExponentialCI@stich, ConfidenceLevel Ø bD
berechnet für die @lD-verteilte Stichprobe stich das Konfidenzintervall mit Niveau b für den Parameter l.
9.3.16 Beispiel: Für die im Datenmaterial lebensdauer angeführten exponentialverteilten Lebensdauern von
elektronischen Bauteilen bestimme man ein Konfidenzintervall mit Niveau b = 0.95 für den unbekannten
Parameter l (man beachte, dass der Parameter 1 ê l der mittleren Lebensdauer dieser Bauteile entspricht).
ô
Lösung: Wir erzeugen in der üblichen Weise die Stichprobe x der Lebensdauern dieser elektronischen Bauteile
und wenden darauf den Befehl ExponentialCI an:
stich = Part@Rest@<< lebensdauerfileD, All, 2D;
Print@"Konfidenzintervall für den Parameter l: ", ExponentialCI@stich, ConfidenceLevel Æ 0.95DD
Clear@stichD
Konfidenzintervall für den Parameter λ: 80.00611835, 0.00937174<
09_Konfidenzintervalle.nb
15
à KI für den Quotient der Parameter zweier Exponentialverteilungen
Da der Exponentialtest für zwei Grundgesamtheiten ein exakter Test ist, müssen wir nicht voraussetzen, dass die
Stichprobenumfänge groß sind. Unter Verwendung dieses Tests folgt nämlich aus dem Dualitätsprinzip:
9.3.17 Konfidenzintervall mit Niveau b für den Quotient der Parameter zweier Exponentialverteilungen:
X µY
Parameter
Konfidenzintervall
Y HmL
Y HmL
2 n,2 m;H1-bLê2 § l x êl y § HnL 2 n,2 m;H1+bLê2
HnL
X
X
Dabei bezeichnet n,m; das -Quantil der @n, mD-Verteilung.
88@l x D, @l y D< ˝ l x , l y > 0<
l x êl y
Mit dem Befehl ExponentialRatioCI lässt sich mühelos ein Konfidenzintervall für den Quotient l x êl y der Parameter zweier Exponentialverteilungen ermitteln:
à ExponentialRatioCI@xstich, ystich, ConfidenceLevel Ø bD
berechnet für die beiden @l x D bzw @l y D-verteilten Stichproben xstich bzw ystich das Konfidenzintervall mit
Niveau b für den Quotient l x êl y der beiden Parameter l x und l y .
9.3.18 Beispiel: Wir betrachten das folgende einfache Bedienungssystem: Bei einem Server mit @mDverteilter Bedienungszeit treffen Forderungen gemäß einem Poissonprozess mit Parameter l ein. In der
Bedienungstheorie ist der Quotient r = l ê m von fundamentaler Bedeutung. Auf der Basis des Datenmaterials
bedienungssystem ermittle man ein Konfidenzintervall mit Niveau b = 0.90 für diesen Quotienten r.
ô
Lösung: Wir rufen in der üblichen Weise die Stichproben x der Zwischenankunftszeiten und y der Bedienzeiten
auf und wenden darauf den Befehl ExponentialRatioCI an:
xstich = Part@Rest@<< bedienungssystemfileD, All, 2D;
ystich = Part@Rest@<< bedienungssystemfileD, All, 3D;
Print@"Konfidenzintervall für den Quotient r: ", ExponentialRatioCI@xstich, ystich, ConfidenceLevel Æ 0.9DD
Clear@xstich, ystichD
Konfidenzintervall für den Quotient ρ: 80.659924, 1.05202<
Herunterladen