Druckansicht

Werbung
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfindenzintervall für My - Sigma unbekannt
Konfindenzintervall für My - Sigma unbekannt
Worum geht es in diesem Modul?
Ausgangspunkt
t-Verteilung
Herleitung des Konfidenzintervalls
Breite des Konfidenzintervalls
Simulation: Vergleich der Konfidenzintervalle (Sigma bekannt / unbekannt)
Worum geht es in diesem Modul?
In diesem Modul beschäftigen wir uns erneut mit dem Konfidenzintervall für den
Parameter
der Normalverteilung. Dabei werden wir das Konfidenzintervall so
modifizieren, dass wir es auch angeben können, wenn wir realistischerweise davon
ausgehen, dass uns der zweite Parameter der Normalverteilung - die
Standardabweichung
- nicht bekannt ist. Im Rahmen der Herleitung dieser
Modifikation wird ein neues Verteilungsmodell (die t-Verteilung) vorgestellt und
erklärt, die für das Kapitel "Testen" vorausgesetzt wird.
Ausgangspunkt
In haben wir das Konfidenzintervall für den Parameter
der Normalverteilung
hergeleitet und untersucht. Wir haben dazu folgende Annahmen gemacht:
1.
sind unabhängige, identisch verteilte Zufallsvariablen; es gilt
, für
2.
.
ist bekannt.
Voraussetzung für unsere Schätzung ist also, dass wir die Varianz
der
Zufallsvariablen kennen. Aus Sicht der Praxis ist diese Voraussetzung
wirklichkeitsfremd - warum sollte man
kennen, wenn man versucht,
Page 1
zu
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfindenzintervall für My - Sigma unbekannt
schätzen? Tatsächlich sind bei praktisch allen realen Schätzproblemen beide Parameter
(also
und
) des unterstellten Normalverteilungsmodells unbekannt. Während
die unbekannte Varianz bei der Punktschätzung nicht unmittelbar ein Problem darstellt schließlich können wir unseren Punktschätzer
berechnen, ohne
zu
kennen -, benötigen wir die Varianz bei der Konfidenzschätzung von
mit dem
Konfidenzintervall
.
Wir wollen daher nun im zweiten Schritt die Voraussetzung fallen lassen, dass die
Standardabweichung
der normalverteilten Zufallsvariablen
bekannt ist, und
fragen wieder nach einem Konfidenzintervall für
.
t-Verteilung
Basisausdruck für unsere Herleitung des Konfidenzintervalls bei bekanntem
Zufallsvariable
war die
.
Es liegt nahe, in dem Ausdruck die jetzt unbekannte Standardabweichung
durch
einen Schätzer für
zu ersetzen. Wir wählen den besten Schätzer, den wir für dieses
Schätzproblem kennen (vgl. ), nämlich die Stichprobenstandardabweichung
.
Während
ein fester Parameter ist, ist
Durch die Schätzung von
eine Zufallsvariable, die um
streut.
kommt also eine zusätzliche Streuung in den Ausdruck
hinein, d.h. die Zufallsvariable
ist nicht mehr standardisiert normalverteilt. Sie folgt
einer Wahrscheinlichkeitsverteilung, deren Gestalt der standardisierten
Normalverteilung ähnlich ist: Sie hat wie diese den Erwartungswert
, aber
eine größere Varianz
,
wobei
Page 2
die Anzahl der sog. "Freiheitsgrade" von
bzw.
ist. Der
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfindenzintervall für My - Sigma unbekannt
Name rührt daher, dass in der Gleichung für die Varianz,
,
genau
der Abweichungen
frei wählbar sind und sich daraus die n-te
Abweichung über die Bedingung
ergibt.
Das ist auch der Grund dafür, warum man
durch
durch
(und nicht
) dividieren muss (vgl. Modul Vorstellung weiterer Schätzer), um mit
einen erwartungstreuen Schätzer für
Die Verteilung von
zu erhalten.
ist symmetrisch und glockenförmig.
Dichte der t-Verteilung in Abhängigkeit der Freiheitsgrade
Die Verteilung, deren Wahrscheinlichkeitsdichte durch
gegeben ist, heißt Student-Verteilung oder auch t-Verteilung, weil ihre Herleitung von
W. S. Gosset (1876-1937) im Jahre 1908 unter dem Pseudonym Student veröffentlicht
wurde und Gosset darin das Symbol verwendet hat.
ist die sog.
"Gamma-Funktion" mit
.
Page 3
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfindenzintervall für My - Sigma unbekannt
W. S. Gosset (1876-1937)
Wie wir sehen, handelt es sich nicht um eine einzige Verteilung, sondern um eine Schar
von Verteilungen, die vom Parameter
(gesprochen: "Nü"; mit
)
abhängig ist. Für
geht die t-Verteilung in die standardisierte
Normalverteilung über (dann strebt ja auch
gegen
und wir sind bei dem
Sachverhalt, den wir im vorherigen Modul unterstellt haben (s. ).
Beachtenswert und für das weitere ganz wesentlich ist, dass die t-Verteilung als
Wahrscheinlichkeitsverteilung der Zufallsvariablen
nicht von den Parametern
und
der zugrunde liegenden Normalverteilung
abhängt!
Anhand des
Applet t-Verteilung (b2d.jar)
kann die Veränderung der Dichtekurve in Abhängigkeit von der Wahl der
Freiheitsgrade beobachtet werden.
Erzeugen Sie in dieser Übung mit dem Statistiklabor ( b42.zmpf ) normalverteilte
Zufallszahlen und standardisieren Sie diese. Unterstellen Sie bei der Standardisierung
zunächst bekannte Varianzen und verwenden Sie dann im zweiten Schritt geschätzte
Varianzen.
Herleitung des Konfidenzintervalls
Wir gehen nun ganz analog zu unserem Vorgehen in der Situation mit bekanntem
vor: Das zentrale (
)-Schwankungsintervall für
ist dementsprechend
,
Page 4
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfindenzintervall für My - Sigma unbekannt
wobei und
das (
)-Quantil und das
()-Quantil von sind. Das
Applet Quantile der t-Verteilung (b70.jar)
veranschaulicht die Bestimmung der Quantile anhand der Dichtefunktion der
t-Verteilung.
Setzen wir
ein, dann folgt
,
und dieser Ausdruck muss nun nur noch nach aufgelöst werden:
.
Die Grenzen des Intervalls für ,
und
,
sind Zufallsvariablen; das zufällige Intervall zwischen ihnen überdeckt mit der
Wahrscheinlichkeit den Erwartungswert . Setzen wir in
für die Zufallsvariablen
und die Stichprobenwerte
und
ein,
dann erhalten wir die Grenzen
,
des konkreten Konfidenzintervalls für .
Satz - Konfidenzintervall für My bei Normalverteilung (Sigma unbekannt):
Ist eine konkrete Stichprobe vom Umfang aus einer Normalverteilung (d.h. sind
Realisierungen der Zufallsvariablen , die unabhängig identisch normalverteilt sind) mit
unbekanntem Erwartungswert und unbekannter Varianz und sind und arithmetischer
Mittelwert und Standardabweichung der Stichprobe, dann ist mit
und
ein zweiseitiges symmetrisches Konfidenzintervall für zum Konfidenzniveau ; dabei ist
das ()-Quantil der t-Verteilung mit Freiheitsgraden.
Beispiel: Marktpotenzial einer Produktinnovation
Im Lebensmitteleinzelhandel ist seit Jahren eine starke Konzentration zu beobachten.
Dies hat Unternehmen wie Metro, Rewe oder Aldi eine beträchtliche Marktmacht
gegenüber den Anbietern von Lebensmitteln verschafft. Insbesondere
Produktinnovationen werden nur dann platziert und durch verkaufsfördernde
Maßnahmen unterstützt, wenn gute Marktchancen nachgewiesen werden können. Zur
Page 5
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfindenzintervall für My - Sigma unbekannt
Beurteilung der Marktchancen werden daher meist umfangreiche Markttests
durchgeführt.
Ein Lebensmittelkonzern, der eine neue Bio-Milch-Produktlinie einführen will, hat auf
einem Testmarkt den Marketing-Mix nachgebildet und beobachtet die Verkaufszahlen.
Zusätzlich werden Personen aus der Test-Region zufällig ausgewählt und zum Produkt
bzw. zum Marketing-Mix befragt. Für jede befragte Person wird aus den gegebenen
Antworten ein Scoring-Wert berechnet, der Werte zwischen 0 und 100 annehmen kann.
Werte nahe 100 deuten auf hohe Kaufbereitschaft und eine sehr positive Einstellung
zum Produkt hin.
Aufgrund der hohen Aggregation der Antworten wird der Scoring-Wert als stetig
skaliert behandelt. Es wird ein Normalverteilungsmodell unterstellt (vgl. Abbildung).
Scoring-Werte aus 100 Befragungen zu den Bio-Milch-Produkten im Histogramm
Aus der Stichprobe ( c38.txt ) vom Umfang soll ein Konfidenzintervall für zum
Konfidenzniveau aufgestellt werden:
Als Quantil der t-Verteilung ergibt sich
,
so dass wir das Konfidenzintervall
erhalten. Um eine Entscheidung hinsichtlich der Marktchancen der Produktlinie fällen
zu können, sollte man dieses Ergebnis in Relation zu den Scoring-Werten in den Markt
eingeführter Produkte setzen.
Der uns aus dem vorherigen Modul (s. ) bekannte Betrieb, der Bierflaschen abfüllt hat
seine Maschinen jetzt geeicht. Während des Routinebetriebs soll trotzdem eine kleine
Anzahl an Flaschen nach dem Abfüllen geprüft werden. Dazu wird täglich eine
Stichprobe von 15 Flaschen verwendet. Bestimmen Sie für die Stichproben aus dem
letzten Quartal im Statistiklabor ( c6c.zmpf ) Konfidenzintervalle und prüfen Sie die
Überdeckungshäufigkeit.
Breite des Konfidenzintervalls
Die Breite des Konfidenzintervalls,
,
ist (im Gegensatz zu der Situation bei bekanntem ) eine Zufallsvariable, weil S eine
Zufallsvariable ist. Wegen (vgl. ), ist der Erwartungswert von
.
Vergleichen wir diese erwartete Breite mit der Breite des entsprechenden
Page 6
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfindenzintervall für My - Sigma unbekannt
,
,
stellen wir fest, dass größer ist als , weil
größer ist als das entsprechende .
Beim Konfidenzintervall für bei unbekanntem ist - unter sonst unveränderten
Bedingungen - die Breite des Konfidenzintervalls durchschnittlich größer als in der
Situation mit bekanntem . Diese geringere Präzision ist der Preis dafür, dass
unbekannt ist und durch
aus der Stichprobe geschätzt wird.
Im konkreten Einzelfall muss diese Relation nicht gelten: Auch wenn das Quantil der
t-Verteilung für endliche Stichprobenumfänge immer größer ist als das der
Standardnormalverteilung zum selben -Niveau, kann es sein, dass in der konkreten
Stichprobe der Schätzwert
die Standardabweichung
so stark
unterschätzt, dass das resultierende Intervall schmaler wird als das bei bekanntem
.
Das
Applet KI für My [Sigma unbekannt] (cd8.jar)
veranschaulicht den Einfluss dieser Faktoren auf die Intervallbreite.
Simulation: Vergleich der Konfidenzintervalle (Sigma bekannt / unbekannt)
Wir wollen eine Simulation anstellen, um die Unterschiede zwischen dem
Konfidenzintervall für bei bekanntem und unbekanntem zu visualisieren. Dazu ziehen
wir
Stichproben vom Umfang aus . Für jede der 100
Stichproben bestimmen wir das Konfidenzintervall für bei bekanntem und unbekanntem
zum Konfidenzniveau .
Konfidenzintervalle für My (Sigma bekannt/unbekannt) für k=100 Stichproben vom Umfang n=10 aus N(50, 10^2)
Überdeckung(tatsächlich /
erwartet)
Breite(tatsächlich / erwartet)
bekannt
94% / 95%
12.40 / 12.40
unbekannt
97% / 95%
15.07 / 14.31
Sowohl die Intervalle für den Fall bekannt als auch die Intervalle für den Fall unbekannt
halten das Konfidenzniveau von im Rahmen zufälliger Schwankungen ein. Auch
bezüglich der Breite der Intervalle bestätigen sich unsere aus der Theorie abgeleiteten
Aussagen: Im Vergleich zu den Intervallen mit bekanntem sind die Konfidenzintervalle
bei unbekanntem im Durchschnitt breiter ( Siehe oben ) - die Präzision der Schätzung
ist im Mittel etwas geringer.
Page 7
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfindenzintervall für My - Sigma unbekannt
Diese Simulation kann im Statistiklabor ( d58.spf ) nachvollzogen und modifiziert
werden.
Beim Konfidenzintervall für ( bekannt) (vgl. ) haben wir eine ausführliche
Untersuchung des Einflusses verschiedener Faktoren auf die Präzision der Schätzung
(Breite des Intervalls) vorgenommen. Führen Sie eine analoge Untersuchung über das
Konfidenzintervall für bei unbekanntem in Bezug auf folgende Faktoren durch:
- Konfidenzniveau
- Stichprobenumfang
- Varianz bzw. Standardabweichung
Hinweis: Während sich die Breite des Konfidenzintervalls für
in
der Situation bei bekannter Standardabweichung einfach nach der Formel
bestimmen lässt, müssen wir in der Situation bei unbekannter Standardabweichung mit
der erwarteten Breite arbeiten:
mit ( Siehe oben ), denn die Breite selbst ist eine Zufallsvariable!
Die Theorie sagt voraus, dass durch die Schätzung von die Präzision der Schätzung von
im Vergleich zur Situation mit bekanntem abnimmt; unsere Simulation bestätigt diesen
Effekt. Wir wissen jedoch, dass wir die Präzision der Schätzung durch eine
Vergrößerung des Stichprobenumfangs erhöhen können.
Bezeichnen wir die Breite des Konfidenzintervalls für in der Situation mit bekannter
Standardabweichung und dem Stichprobenumfang
zum Konfidenzniveau als . Wie groß muss
der Stichprobenumfang
gewählt werden, um ein Konfidenzintervall für die Situation
mit unbekannter Standardabweichung zu erhalten, das ebenfalls die Breite hat?
bekanntes
unbekanntes
(erwartete) Intervallbreite
Die Lösung des Problems auf theoretischem Weg überfordert uns, weil ebenfalls von
abhängt (wegen ). Versuchen Sie, das Problem stattdessen durch Probieren (z.B. im
Statistiklabor ( e17.zmpf ) ) für feste zu lösen. Was stellen Sie fest, wenn Sie die
Quotienten betrachten?
Page 8
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfindenzintervall für My - Sigma unbekannt
In Modul Konfidenzintervall für My - Sigma unbekannt haben wir ein
Konfidenzintervall für unter Normalverteilung aufgestellt. Dabei haben wir die
Standardabweichung als bekannt vorausgesetzt. Aus Sicht der Praxis hat dieses
Konfidenzintervall allenfalls didaktischen Wert, denn bei realen Schätzproblemen ist
die Standardabweichung praktisch immer unbekannt.
Es erscheint einleuchtend, die Standardabweichung einfach durch einen Schätzer - die
Stichprobenstandardabweichung - zu ersetzen. Dadurch kommt jedoch zusätzliche
Unsicherheit ins Spiel, die dazu führt, dass wir ein anderes Verteilungsmodell
verwenden müssen. Die t-Verteilung ist eigentlich eine Schar von Verteilungen mit dem
Parameter , der sog. Zahl von Freiheitsgraden. Sie ähnelt der Standardnormalverteilung,
hat jedoch (insbesondere bei einer kleinen Zahl von Freiheitsgraden) im Vergleich eine
größere Varianz und mehr Wahrscheinlichkeitsmasse in den Rändern.
Das Konfidenzintervall für den Parameter der Normalverteilung bei unbekannter
Standardabweichung reagiert in Bezug auf Änderungen von Konfidenzniveau,
Standardabweichung und Stichprobenumfang grundsätzlich so, wie sein Pendant in der
Situation bei bekannter Standardabweichung. Wir erwarten jedoch, dass das Intervall
bei unbekanntem breiter ist als das bei bekanntem und zwar um so mehr, je kleiner der
Stichprobenumfang ist.
Konfidenzintervall für My (Sigma unbekannt)
Erklärungt-Verteilung
Erklärung
(c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme
Kontakt: http://www.neuestatistik.de
Page 9
Herunterladen