Konfidenzintervall für Sigma

Werbung
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfidenzintervall für Sigma
Konfidenzintervall für Sigma
Worum geht es in diesem Modul?
Ausgangspunkt
Chi^2-Verteilung
Herleitung des Konfidenzintervalls
Modifikation des Konfidenzintervalls
Simulation: Konfidenzintervall für Sigma
Breite des Konfidenzintervalls
Worum geht es in diesem Modul?
Aufbauend auf den bisher vorgestellten Konfidenzintervallen wird das
Konfidenzintervall für
(bzw.
) bei Normalverteilung nach dem bekannten
Schema eingeführt. Parallel dazu wird die
-Verteilung vorgestellt, die für das
Kapitel "Testen" vorausgesetzt wird. Das Modul wird durch einen kurzen Ausblick auf
Robustheitsaspekte bei Konfidenzintervallen abgeschlossen.
Ausgangspunkt
Als Einführung in die Konfidenzschätzung (s. ) haben wir das Konfidenzintervall für
bei Normalverteilung hergeleitet. Dabei haben wir zunächst die Varianz
als
bekannt vorausgesetzt (um eine Vereinfachung der Herleitung zu erreichen), diese
praxisfremde Annahme dann aber im folgenden Modul aufgegeben.
Wie bereits angekündigt wollen wir uns nun dem zweiten Parameter der
Normalverteilung, nämlich der Varianz
, widmen. Die Herleitung des
Konfidenzintervalls erfolgt dabei exakt nach dem gleichen Schema wie bisher. Wir
wollen daher etwas abkürzen und gleich die Formel für das Konfidenzintervall für
bei Normalverteilung bestimmen (auf die grafische Ableitung verzichten wir). Als Basis
für die Ableitung wählen wir den Punktschätzer
, der - wie wir bereits wissen - der
Page 1
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfidenzintervall für Sigma
unter Normalverteilung ist (vgl. ).
Chi^2-Verteilung
Um dem vertrauten Herleitungs-Schema folgen zu können, benötigen wir eine
Zufallsvariable mit uns bekannter Verteilung, die
enthält - dann können wir wieder
eine entsprechende Wahrscheinlichkeitsaussage formulieren.
Karl Pearson (1857-1936) und Friedrich Robert Helmert (1841-1917)
Dazu machen wir davon Gebrauch, dass F. Robert Helmert (1876) und Karl Pearson
(1900) die Wahrscheinlichkeitsverteilung der Zufallsvariablen
hergeleitet haben, wobei die Zufallsvariable
Stichprobe von
unabhängig mit Erwartungswert
normalverteilten Zufallsvariablen
-Verteilung ("Chiquadrat"-Verteilung,
Wahrscheinlichkeitsdichte
Page 2
die empirische Varianz einer
und Varianz
ist. Die Verteilung von
identisch
heißt
ist das griechische "Chi") und hat die
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfidenzintervall für Sigma
wobei der Parameter
haben kann;
- die Anzahl der Freiheitsgrade - die Werte
ist die sog. "Gamma-Funktion". Für
,
und
ist
die Dichtefunktion in der Abbildung dargestellt.
Dichtekurven der Chi^2-Verteilung für verschiedene Freiheitsgrade
Weil
nicht negativ sein kann, ist die Wahrscheinlichkeitsdichte der
für negative Werte
-Verteilung
gleich null. Das hat auch zur Folge, dass die Verteilung nicht
symmetrisch ist; allerdings nähert sie sich für
der symmetrischen
Glockenform der Normalverteilung. Mit Hilfe des folgenden
Applet Chi-Verteilung (aa5.jar)
kann die Dichte der
-Verteilung in Abhängigkeit von den Freiheitsgraden
betrachtet werden.
Herleitung des Konfidenzintervalls
Das weitere Vorgehen zur Gewinnung eines Konfidenzintervalls für
entspricht
unserem bisherigen Vorgehen bei der Ableitung der Konfidenzintervalle für
Zunächst stellen wir das zentrale (
)-Schwankungsintervall für
.
auf:
;
dabei sind
)-Quantil der
und
das (
-Verteilung mit
)-Quantil und das (
Freiheitsgraden. Eine
Symmetriegleichung, die es uns gestattet, das (
)-Quantil durch das (
)-Quantil auszudrücken (wie bei
), gibt es wegen der fehlenden
Symmetrie der
-Verteilung nicht.
Setzen wir
in unsere letzte Gleichung ein, dann folgt
,
wobei
ist.
Würden wir den Ausdruck nach
Page 3
auflösen, dann hätten wir ein zentrales
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfidenzintervall für Sigma
Schwankungsintervall für
müssen wir nach
. Um ein Konfidenzintervall für
zu bekommen,
auflösen. Aus
folgt
,
und aus
folgt
.
Zusammengesetzt ergibt das
.
Die Grenzen des Intervalls für
und
in dieser Gleichung,
,
sind Zufallsvariablen; das zufällige Intervall zwischen ihnen überdeckt mit der
Wahrscheinlichkeit
die Varianz
. Setzt man in die Gleichung für die
Zufallsvariable
den Stichprobenwert
ein, dann erhält man die Grenzen
und
des konkreten Konfidenzintervalls für
.
Satz - Konfidenzintervall für
bei Normalverteilung:
Ist
(d.h.
Page 4
eine konkrete Stichprobe vom Umfang
sind Realisierungen der Zufallsvariablen
aus einer Normalverteilung
, die
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfidenzintervall für Sigma
unabhängig identisch normalverteilt sind) mit unbekannter Varianz
Stichprobenvarianz, dann ist
und ist
die
mit
und
ein zweiseitiges Konfidenzintervall für
und
(
-Verteilung mit
zum Konfidenzniveau
)-Quantil und (
; dabei sind
)-Quantil der
Freiheitsgraden.
Modifikation des Konfidenzintervalls
Wir haben ein Konfidenzintervall für die Varianz
bei Normalverteilung
hergeleitet. Aus der Punktschätzung wissen wir, dass neben der Varianz
auch
häufig nach der Standardabweichung
- der Wurzel der Varianz - gefragt wird. Diese
hat dieselbe Einheit wie die Realisierungen
und ist daher besser zu
veranschaulichen. Wir wollen deshalb auch das Konfidenzintervall für
Normalverteilung bestimmen:
bei
Wenn wir in der Ungleichung
die Wurzel ziehen, so dass
in der Mitte steht, bleibt die Wahrscheinlichkeitsaussage
unverändert. Daher ergibt sich ein zweiseitiges Konfidenzintervall für
zum
Konfidenzniveau
sehr einfach aus dem entsprechenden Konfidenzintervall für
. Das Konfidenzintervall für
hat die Grenzen
und
mit
.
Beispiel: Streuung der Nettokaltmieten in Berliner Bezirken
Page 5
mit
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfidenzintervall für Sigma
An dieser Stelle wird das Beispiel aus dem Modul aufgegriffen. Es ging um die
Streuung der Nettokaltmieten für 2-Zimmer-Wohnungen in den Berliner Bezirken
Zehlendorf und Neukölln. Folgende Daten standen zur Verfügung (Angaben in Euro):
Zehlend
487
orf
650
582
714
1041
862
647
836
575
802
Neuköll
191
n
351
290
555
181
420
320
650
725
455
Die Stichprobenstandardabweichung hatten wir bereits ermittelt:
und
.
Es sollen jetzt die Konfidenzintervalle zum Konfidenzniveau
für die
Mietpreise bestimmt werden. Dazu benötigen wir die Quantile der
-Verteilung mit
Freiheitsgraden:
und
.
Einsetzen in
ergibt für Zehlendorf
.
Für Neukölln erhalten wir entsprechend
.
Obwohl die Punktschätzwerte den Eindruck erwecken, dass die Mietpreise in Neukölln
deutlich stärker streuen, wird anhand der Konfidenzintervalle deutlich, wie gering die
Page 6
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfidenzintervall für Sigma
Präzision der Schätzung bei einem Stichprobenumfang von ist. Die Unterschiede
könnten durchaus zufallsbedingt sein. Es wäre in jedem Fall sinnvoll, eine Nachziehung
vorzunehmen, um den Stichprobenumfang (und damit die Präzision) zu vergrößern.
Überlegungen zur Bestimmung eines adäquaten Stichprobenumfangs finden sich weiter
unten .
Beispiel: Kapitalmarkttheorie
Im Rahmen der Kapitalmarkttheorie kommt der Bewertung der Risiken von Wertpapieren (Aktien, Derivaten, etc.) eine zentrale
Rolle zu. Ein Maß für die Risikoträchtigkeit einer solchen Anlage ist die Standardabweichung (auch Volatilität genannt) der
Renditen dieser Anlage. Eine hohe Volatilität impliziert dabei hohe Gewinnchancen und hohe Verlustrisiken gleichermaßen. Ob
eine hohe Volatilität für einen Investor wünschenswert ist oder nicht, hängt von seinen Präferenzen, also seiner Risikobereitschaft,
ab.
Viele Kapitalmarktmodelle (z.B. das "Capital Asset Pricing Model", kurz: CAPM)
unterstellen, dass die Renditen normalverteilt sind. Diverse empirische Untersuchungen
(z.B. am DAX) konnten das allerdings nicht bestätigen. Sie deuten darauf hin, dass
stattdessen die logarithmierten Renditen normalverteilt sind (sog. Log-Normal-Modell)
oder eine Verteilung mit mehr Wahrscheinlichkeitsmasse in den Flanken ("long tailed")
die Empirie besser abbildet. Der Einfachheit halber unterstellen wir im Folgenden
dennoch normalverteilte Renditen.
Zur Schätzung der Standardabweichung wurden die Renditen einer Aktie (bezogen auf
einen Zeitraum von einem Tag) der letzten 250 Handelstage beobachtet. Es ergab sich .
Wie hoch ist die Präzision dieser Schätzung beurteilt anhand des Konfidenzintervalls
für
zum Konfidenzniveau ?
,
,,,
Einsetzen in
ergibt
.
Zum Konfidenzniveau 95% erhalten wir für unsere Renditenschätzung
als Konfidenzintervall. Die Präzision der Schätzung liegt im Promille-Bereich.
Die Kunden einer Spedition beschweren sich in letzter Zeit vermehrt über zu lange
Transportzeiten ihrer Waren in die USA. Bisher wurde als einziges Maß zur Kontrolle
der Transportzeit lediglich die mittlere Transportdauer beobachtet.
Ein findiger Mitarbeiter kommt auf Idee, dass zwar möglicherweise die mittlere
Transportdauer der gegenüber den Kunden kommunizierten ungefähren Transportzeit
entspricht, es aber sehr starke Schwankungen gibt, die zu den Beschwerden führen. Um
dies zu prüfen, soll ein Konfidenzintervall für die Standardabweichung der
Transportzeit aufgestellt werden. Lösen Sie diese Aufgabe im Statistiklabor ( cf8.zmpf
).
Simulation: Konfidenzintervall für Sigma
Wir ziehen Stichproben vom Umfang aus einer Normalverteilung
Page 7
und berechnen
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfidenzintervall für Sigma
jeweils das Konfidenzintervall für die Standardabweichung zum Konfidenzniveau und .
k=100 Konfidenzintervalle für Sigma zum Konfidenzniveau 95% bzw. 99% (Stichproben vom Umfang n=10 aus N(50,10^2)
Konfidenzniveau ()
Überdeckung (in %)
Breite
95%
96%
11.04
99%
99%
16.11
Das vorgegebene Konfidenzniveau wird eingehalten. Wie erwartet, führt ein höheres
Konfidenzniveau zu breiteren Intervallen (also zu geringerer Präzision der Schätzung).
Mit der Breite der Konfidenzintervalle wollen wir uns im Folgenden ausführlicher
beschäftigen.
Die Simulation kann im Statistiklabor ( d54.spf ) nachvollzogen und modifiziert
werden.
Stellen Sie selbstständig im Statistiklabor ( d5b.zmpf ) eine Simulation an, in der sie
die Übereinstimmung der empirischen Überdeckungshäufigkeit mit Konfidenzniveau
untersuchen.
Breite des Konfidenzintervalls
Die absolute Breite des Konfidenzintervalls für ,
ist eine Zufallsvariable, weil S eine Zufallsvariable ist. Es ist leicht ersichtlich, dass ein
höheres Konfidenzniveau (kleineres ) verkleinert und vergrößert. Dadurch wird in der
Differenz der erste Wurzelterm größer und der zweite kleiner, so dass die erwartete
Breite des Konfidenzintervalls zunimmt. Das bestätigt auch die Simulation .
Die relative Breite, , wie auch die relativen Abstände der Konfidenzgrenzen von ,
und ,
sind aber keine Zufallsvariablen, d.h. die relative Präzision unserer Konfidenzaussage
über hängt nur vom Stichprobenumfang und vom Konfidenzniveau ab. Daher ist es
möglich, bei vorgegebenem Konfidenzniveau den Stichprobenumfang so festzulegen,
dass einen vorgegebenen Wert nicht übersteigt, d.h. dass die obere Konfidenzgrenze für
um nicht mehr als den Faktor von abweicht. Der Stichprobenumfang ergibt sich aus der
Forderung
oder
,
d.h. es ist so zu bestimmen, dass die Ungleichung erfüllt ist. Das folgende Beispiel
erläutert die Berechnung.
Beispiel: Stichprobenumfang bei vorgegebener relativer Präzision
Der Stichprobenumfang soll so groß sein, dass die obere Grenze des
Page 8
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfidenzintervall für Sigma
Konfidenzintervalls für zum Konfidenzniveau um nicht mehr als 30% größer ist als ,
dass also nicht mehr als das 1,3fache von beträgt. Es ist und daher ist das kleinste zu
bestimmen, für das
gilt. Da mit wachsendem wächst, berechnet man diesen Quotienten für , bis das
ermittelt ist, für das die Ungleichung erfüllt ist. Daraus ergibt sich dann der gesuchte
Stichprobenumfang als .
Im vorliegenden Fall erhalten wir folgende Tabelle:
Relation
1
0.001
0.5917
2
0.051
0.5917
3
0.216
0.5917
...
...
34
0.583
0.5917
35
0.588
0.5917
36
0.593
0.5917
...
...
Für ergibt sich erstmals ein Wert, der größer ist als . Also ist der gesuchte
Stichprobenumfang .
Wir wollen das Ergebnis durch eine Simulation untermauern und ziehen dazu 5
Stichproben vom Umfang aus einer Normalverteilung .
5 Konfidenzintervalle für Sigma zum Konfidenzniveau 95% (Stichproben vom Umfang n=37 aus N(50,10^2)
Wir prüfen anhand des ersten Konfidenzintervalls, ob die Vorgaben bzgl. relativer
Abstände der Konfidenzgrenzen von eingehalten wurden:
Page 9
12.396
7.761
9.543
9.543
1.299
0.813
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfidenzintervall für Sigma
Wie wir sehen, ist die relative Abweichung der oberen Intervallgrenze mit - wie
gefordert - kleiner als 30%. Es wird außerdem deutlich, dass wir die untere Grenze
vernachlässigen können, weil sie durch die asymmetrische Form des
Konfidenzintervalls immer näher an liegt als .
Im Beispiel haben wir bereits Konfidenzintervalle für die Standardabweichung der
Nettokaltmieten in den Berliner Bezirken Zehlendorf und Neukölln aufgestellt und
festgestellt, dass die Präzision der Intervallschätzung nicht unseren Anforderungen
entsprach. Die obere Intervallgrenze wich um 82,6% vom entsprechenden
Punktschätzwert bzw. ab. Wir wollen die relative Abweichung auf 10% begrenzen. Wie
groß muss der Stichprobenumfang mindestens gewählt werden?
Hinweis: Die Lösung erhält man durch Probieren, wenn man die Quantile der
-Verteilung in einer Tabelle nachschlägt oder automatisiert mit Hilfe des
Statistiklabors ( f68.zmpf ) .
Dem Robustheitsaspekt haben wir im Rahmen der Punktschätzung ein eignes gewidmet.
Wie wir festgestellt haben, ist die Robustheit eines Schätzers für die Forschungspraxis
eine ganz wesentliche Eigenschaft.
Daher soll an dieser Stelle exemplarisch die Robustheit eines Intervallschätzers
thematisiert werden. Wir beschränken uns darauf zu untersuchen, wie das
Konfidenzintervall für auf einzelne in die Stichprobe eingestreute Extremwerte reagiert,
wie sie z.B. durch Mess-, Eingabe- oder Übertragungsfehler entstehen können.
Zur Generierung der verschmutzen Stichproben verwenden wir das aus dem Modul
Robustheit bekannte Verfahren: Wir ziehen Stichproben vom Umfang aus einer
Normalverteilung. Nach einem Zufallsverfahren wird im Durchschnitt eine der 10
Beobachtungen in jeder Stichprobe ausgewählt und durch einen Wert, der um ca.
abweicht, ersetzt.
k=100 Konfidenzintervalle für Sigma aus "verschmutzen" Stichproben vom Umfang n=10 aus N(50, 10^2), Verschmutzungsgrad
ca. 10%
Obwohl im Durchschnitt jede Stichprobe nur einen Extremwert enthält, überdecken nur
noch 35% der Intervalle (Breite 17.18) das wahre ; das Konfidenzniveau von wird bei
weitem nicht eingehalten.
Das Konfidenzintervall für ist ein besonders extremes Beispiel (wie wir wissen, ist auch
kein robuster Schätzer für , vgl. ). Dennoch sollte die Robustheit auch bei
Intervallschätzern nie vernachlässigt werden. Eine Verletzung der Modellannahmen
kann bei Konfidenzintervallen zu einer Nichteinhaltung des Konfidenzniveaus führen,
die bisweilen so extrem ausfallen kann wie in dieser Simulation. Nicht nur
Extremwerte, sondern z.B. auch eine Verletzung der Verteilungsannahme oder der
Unabhängigkeitsvoraussetzung kann derartige Folgen haben.
Die Simulation kann im Statistiklabor ( fac.spf ) nachvollzogen und modifiziert
werden.
In diesem Modul haben wir ein Konfidenzintervall für (bzw.) unter Normalverteilung
abgeleitet. Während die Breite des Konfidenzintervalls für eine Zufallsvariable ist, ist
die relative Breite des Konfidenzintervalls eine Konstante. Die relative Breite erhält
man durch Division der Breite durch den Schätzer . Analog ergeben sich die relativen
Page 10
(c) Projekt Neue Statistik 2003 - Lernmodul: Konfidenzintervall für Sigma
Abweichungen der Intervallgrenzen von als und. Durch diese Herangehensweise lässt
sich der Stichprobenumfang so bestimmen, dass ein vorgegebener relativer
Maximalabstand der oberen Intervallgrenze von nicht überschritten wird. Im Gegensatz
zu den Konfidenzintervallen, die wir bisher kennengelernt haben, ist das
Konfidenzintervall für nicht symmetrisch. Die obere Grenze des Intervalls weicht weiter
vom Punktschätzwert ab als die untere.
Im Rahmen der Herleitung des Konfidenzintervalls haben wir die -Verteilung
kennengelernt, deren Quantile wir für die Bestimmung der Intervallgrenzen und
benötigen. Die -Verteilung hat ebenso wie die t-Verteilung einen Parameter - die
Anzahl der Freiheitsgrade, die sich aus ergeben. Die -Verteilung ist eine asymmetrische
(genauer gesagt eine rechtsschiefe) Verteilung.
Wie sich im Exkurs zur Robustheit gezeigt hat, ist das hergeleitete Konfidenzintervall
wenig robust. Befinden sich Extremwerte in der Stichprobe, wird das
Konfidenzintervall unbrauchbar, da das vorgegebene Konfidenzniveau nicht
eingehalten wird. Um auch in derartigen Fällen solide Intervallschätzungen zu
ermöglichen, könnte man z.B. ein Konfidenzintervall mit dem korrigierten bzw. (vgl. )
konstruieren.
Mit diesem Modul werden unsere Betrachtungen zu Konfidenzintervallen für die
Parameter der Normalverteilung abgeschlossen.
Chi^2-Verteilung
ErklärungKonfidenzintervall für Sigma
ErklärungKonfidenzintervall für Sigma^2
ErklärungPräzision, relative
Erklärung
(c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme
Kontakt: http://www.neuestatistik.de
Page 11
Herunterladen