Inhaltsverzeichnis Grundidee der schließenden Statistik

Werbung
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Inhaltsverzeichnis
(Ausschnitt)
2
Wiederholung statistischer Grundlagen
Deskriptive Statistik
Wahrscheinlichkeitsrechnung
Schließende Statistik
Ökonometrie (SS 2014)
Folie 53
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Grundidee der schließenden Statistik
Ziel der schließenden Statistik/induktiven Statistik:
Ziehen von Rückschlüssen auf die
Verteilung einer (größeren) Grundgesamtheit auf Grundlage der
Beobachtung einer (kleineren) Stichprobe.
Rückschlüsse auf die Verteilung können sich auch beschränken auf spezielle
Eigenschaften/Kennzahlen der Verteilung, z.B. den Erwartungswert.
Fundament“: Drei Grundannahmen
”
1
2
3
Der interessierende Umweltausschnitt kann durch eine (ein- oder
mehrdimensionale) Zufallsvariable Y beschrieben werden.
Man kann eine Menge W von Wahrscheinlichkeitsverteilungen angeben, zu der
die unbekannte wahre Verteilung von Y gehört.
Man beobachtet Realisationen x1 , . . . , xn von (Stichproben-)Zufallsvariablen
X1 , . . . , Xn , deren gemeinsame Verteilung in vollständig bekannter Weise von
der Verteilung von Y abhängt.
Ziel ist es also, aus der Beobachtung der n Werte x1 , . . . , xn mit Hilfe des
bekannten Zusammenhangs zwischen den Verteilungen von X1 , . . . , Xn und Y
Aussagen über die Verteilung von Y zu treffen.
Ökonometrie (SS 2014)
Folie 54
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Veranschaulichung“ der schließenden Statistik
”
Grundgesamtheit
Ziehungsverfahren
induziert
Zufallsvariable Y
Verteilung von
Stichprobe
Zufallsvariablen
X1, …, Xn
(konkrete)
Auswahl der
führt
Rückschluss auf
Verteilung/Kenngrößen
Ziehung/
Stichprobe
zu
Realisationen
x1, …, xn
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 55
Schließende Statistik 2.3
Bemerkungen zu den 3 Grundannahmen
Die 1. Grundannahme umfasst insbesondere die Situation, in der die
Zufallsvariable Y einem numerischen Merkmal auf einer endlichen Menge von
Merkmalsträgern entspricht, wenn man mit der Zufallsvariable Y das
Feststellen des Merkmalswerts eines rein zufällig (gleichwahrscheinlich)
ausgewählten Merkmalsträgers beschreibt.
In diesem Fall interessiert man sich häufig für bestimmte Kennzahlen von Y ,
z.B. den Erwartungswert von Y , der dann mit dem arithmetischen Mittel
aller Merkmalswerte übereinstimmt.
Die Menge W von Verteilungen aus der 2. Grundannahme ist häufig eine
parametrische Verteilungsfamilie, zum Beispiel die Menge aller
Normalverteilungen mit Varianz σ 2 = 22 .
Wir beschränken uns auf sehr einfache Zusammenhänge zwischen der
Verteilung der interessierenden Zufallsvariablen Y und der Verteilung der
Zufallsvariablen X1 , . . . , Xn .
Ökonometrie (SS 2014)
Folie 56
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einfache (Zufalls-)Stichprobe
Einfachster“ Zusammenhang zwischen X1 , . . . , Xn und Y :
”
I
I
Alle Zufallsvariablen X1 , . . . , Xn haben dieselbe Verteilung wie Y .
Die Zufallsvariablen X1 , . . . , Xn sind stochastisch unabhängig.
Zufallsvariablen X1 , . . . , Xn mit diesen beiden Eigenschaften nennt man eine
einfache (Zufalls-)Stichprobe vom Umfang n zu Y .
Eine Stichprobenrealisation x1 , . . . , xn einer solchen einfachen Stichprobe
vom Umfang n erhält man z.B., wenn
I
I
Y das Werfen eines bestimmten Würfels beschreibt und x1 , . . . , xn die
erhaltenen Punktzahlen sind, wenn man den Würfel n Mal geworfen hat.
Y das Feststellen des Merkmalswerts eines rein zufällig (gleichwahrscheinlich)
ausgewählten Merkmalsträgers beschreibt und x1 , . . . , xn die Merkmalswerte
sind, die man bei n-maliger rein zufälliger Auswahl eines Merkmalsträgers als
zugehörige Merkmalswerte erhalten hat, wobei die Mehrfachauswahl desselben
Merkmalsträgers nicht ausgeschlossen wird.
Ökonometrie (SS 2014)
Folie 57
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Stichprobenfunktionen
Die Realisation x1 , . . . , xn einer Stichprobe hat große Ähnlichkeit mit einer
Urliste zu einem Merkmal aus der deskriptiven Statistik.
Die Information aus einer Stichprobe wird in der Regel zunächst mit
sogenannten Stichprobenfunktionen weiter aggregiert; auch diese haben oft
(große) Ähnlichkeit mit Funktionen, die in der deskriptiven Statistik zur
Aggregierung von Urlisten eingesetzt werden.
Interessant sind nicht nur die Anwendung dieser Stichprobenfunktionen auf
bereits vorliegende Stichprobenrealisationen x1 , . . . , xn , sondern auch auf die
Stichprobenzufallsvariablen X1 , . . . , Xn selbst, was dann zu einer neuen
Zufallsvariablen führt!
Bekannteste“ Stichprobenfunktion:
”
n
1X
X :=
Xi
bzw.
n
i=1
Ökonometrie (SS 2014)
n
1X
x :=
xi
n
i=1
Folie 58
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Illustration: Realisationen x von X
Beispiel: Verschiedene Realisationen x von X , wenn Y die Punktzahl eines
fairen Würfels beschreibt und wiederholt Stichprobenrealisationen x1 , . . . , x5
vom Umfang n = 5 (durch jeweils 5-maliges Würfeln mit diesem Würfel)
generiert werden:
x
Stichprobe Nr. x1 x2 x3 x4 x5
1
2
3
4
5
6
7
8
9
..
.
2
6
2
3
6
3
3
5
5
..
.
3
6
2
5
2
1
4
5
4
..
.
4
4
5
6
4
3
3
1
5
..
.
6
4
3
3
1
6
2
5
4
..
.
2
1
5
5
2
3
5
3
4
..
.
3.4
4.2
3.4
4.4
3
3.2
3.4
3.8
4.4
..
.
..
.
Ökonometrie (SS 2014)
Folie 59
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Visualisierung Verteilung X / Zentraler Grenzwertsatz
im Würfelbeispiel“ mit einfachen Stichproben vom Umfang n
”
3
4
5
6
0.12
0.08
pX(xi)
0.06
0.00
0.02
0.04
0.05
0.00
0.00
2
1
2
3
4
5
6
1
2
3
xi
xi
xi
n=4
n=5
n=6
4
5
6
4
5
6
1
1.75
2.75
3.75
xi
Ökonometrie (SS 2014)
4.75
5.75
0.08
0.06
pX(xi)
0.02
0.04
0.06
0.00
0.00
0.00
0.02
0.02
0.04
0.04
0.06
pX(xi)
0.08
0.08
0.10
0.10
0.12
1
pX(xi)
0.10
pX(xi)
0.10
0.05
pX(xi)
0.15
0.10
0.20
n=3
0.14
n=2
0.15
n=1
1
1.8
2.6
3.4
xi
4.2
5
5.8
1
2
3
xi
Folie 60
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Bemerkungen
Für Augenzahl Y eines fairen Würfels gilt: E(Y ) = 3.5.
Realisationen x aus Realisationen einer einfachen Stichprobe vom Umfang n
zu Y schwanken offensichtlich um den Erwartungswert von Y .
Genauer kann leicht gezeigt werden (vgl. Übungsaufgabe!), dass (generell!)
E(X ) = E(Y ) gilt.
Je größer der Stichprobenumfang n ist, desto näher liegen tendenziell die
Realisation von x am Erwartungswert.
Genauer kann leicht gezeigt werden (vgl. Übungsaufgabe!), dass (generell!)
σY
σX = √ gilt und sich somit die Standardabweichung von X halbiert, wenn
n
n vervierfacht wird.
Offensichtlich wird die Näherung der Werteverteilung von X durch eine
Normalverteilung ( Zentraler Grenzwertsatz) immer besser, je größer der
Stichprobenumfang n ist.
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 61
Schließende Statistik 2.3
(Punkt-)Schätzfunktionen
Mit den beschriebenen Eigenschaften scheint X sehr gut geeignet, um auf
Grundlage einer Stichprobenrealisation Aussagen über den Erwartungswert
von Y zu machen (wenn dieser – anders als im Beispiel – unbekannt ist).
Unbekannt wäre der Erwartungswert zum Beispiel auch beim Würfeln
gewesen, wenn man nicht gewusst hätte, ob der Würfel fair ist!
X bzw. x können so unmittelbar zur Schätzung von µY := E(Y ) oder p
bzw. µ verwendet werden; in diesem Zusammenhang nennt man X dann
(Punkt-)Schätzfunktion oder (Punkt-)Schätzer, x die zugehörige
Realisation oder den Schätzwert.
Wegen der Zusammenhänge zwischen Erwartungswert und
Verteilungsparameter (vgl. Folien 20 bzw. 26) können so auch Aussagen über
den Parameter p der Alternativ- bzw. den Parameter µ der Normalverteilung
gewonnen werden. X wird dann auch Parameter(punkt)schätzer genannt.
Ökonometrie (SS 2014)
Folie 62
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen I
Im Beispiel offensichtlich: Wer schätzt, macht Fehler!
Zur Untersuchung der Qualität von Punktschätzfunktionen:
Untersuchung der Verteilung (!) des Schätzfehlers
Zur Vereinheitlichung der Schreibweise: Bezeichnung“
”
b
I
I
θ für die Schätzfunktion
θ für die zu schätzende Größe
Schätzfehler damit also: θb − θ
Offensichtlich wünschenswert: Verteilung des Schätzfehlers nahe bei Null
Gängige Konkretisierung von nahe bei Null“: Erwartete quadratische
”
Abweichung (Englisch: Mean Square Error, MSE)
2 b := E θb − θ
MSE(θ)
soll möglichst klein sein.
Ökonometrie (SS 2014)
Folie 63
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen II
Man kann leicht zeigen:
h
i
2
b
b
MSE(θ) = E (θ − θ) = Var(θb − θ) +[ E(θb − θ) ]2
| {z } | {z }
b
=Var(θ)
b
=:Bias(θ)
b = E(θb − θ) = E(θ)
b − θ wird also die systematische Abweichung
Mit Bias(θ)
(Abweichung im Mittel, Verzerrung) eines Schätzers von der zu schätzenden
Größe bezeichnet.
b = 0 für alle
Gibt es keine solche systematische Abweichung (gilt also Bias(θ)
denkbaren Werte von θ), so nennt man θb erwartungstreu für θ.
q
b wird auch Standardfehler oder Stichprobenfehler von θb genannt.
Var(θ)
Bei Schätzung von E(Y ) mit X gilt:
σY2
2 E(X )=E(Y )
2
MSE(X ) = E (X − E(Y ))
=
Var(X ) = σX =
n
Ökonometrie (SS 2014)
Folie 64
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen III
Naheliegende Mindestanforderung“: Mit wachsendem Stichprobenumfang n
”
sollte der MSE einer vernünftigen Schätzfunktion gegen Null gehen.
Schätzfunktionen θb für θ, die diese Forderung erfüllen, heißen konsistent im
quadratischen Mittel oder MSE-konsistent für θ.
Wegen X =
σY2
n
ist X offensichtlich MSE-konsistent für E(Y ).
Mit der Zerlegung (vgl. Folie 64)
b = Var(θ)
b + [Bias(θ)]
b 2
MSE(θ)
ist θb also genau dann konsistent im quadratischen Mittel für θ, wenn jeweils
für alle denkbaren Werte von θ sowohl
1
2
die Varianz von θb gegen Null geht als auch
der Bias von θb gegen Null geht
(diese Eigenschaft heißt auch asymptotische Erwartungstreue).
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 65
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen IV
Beim Vergleich mehrerer Schätzfunktionen ist es gängig, die Schätzfunktion
vorzuziehen, die den kleineren“ MSE hat.
”
Damit zieht man bei erwartungstreuen Schätzfunktionen die mit geringerer“
”
Varianz vor.
Wichtig hierbei ist, dass man universelle“ Vergleiche zu ziehen hat, also nicht
nur spezielle Situationen (also”spezielle θ) betrachtet. Bei erwartungstreuen
Schätzfunktionen θb und θe heißt
1
2
e wenn Var(θ)
b ≤ Var(θ)
e für alle denkbaren
θb mindestens so wirksam wie θ,
Werte von θ gilt, und
e wenn darüberhinaus Var(θ)
b < Var(θ)
e für mindestens einen
θb wirksamer als θ,
denkbaren Wert von θ gilt.
Eine Schätzfunktion, die in einer vorgegebenen Menge von Schätzfunktionen
mindestens so wirksam ist wie alle anderen Schätzfunktionen, heißt effizient
in dieser Menge von Schätzfunktionen.
Ökonometrie (SS 2014)
Folie 66
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Schätzung von Var(Y )
Naheliegender Ansatz zur Schätzung der Varianz σY2 = Var(Y ) aus einer
einfachen Stichprobe X1 , . . . , Xn vom Umfang n zu Y : Verwendung der
empirischen Varianz
n
1X
(Xi − X )2
n
bzw.
i=1
n
1X
(xi − x)2
n
i=1
Man kann allerdings zeigen, dass diese Schätzfunktion nicht erwartungstreu
für die Varianz von Y ist!
Bei dieser Rechnung wird allerdings klar, dass man mit der leichten
Anpassung
n
1 X
S :=
(Xi − X )2
n−1
2
n
bzw.
i=1
1 X
s :=
(xi − x)2
n−1
2
i=1
eine erwartungstreue Schätzfunktion für σY2 erhält.
Ökonometrie (SS 2014)
Folie 67
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Intervallschätzung von µY := E(Y )
(Realisation der) Punktschätzfunktion X für µY beinhaltet (zunächst) keine
Information über die Qualität der Schätzung (bzw. über den zu erwartenden
Schätzfehler).
Bisher: Varianz σX2 := Var(X ) (hier gleich mit MSE!) bzw. Standardfehler
q
σX = Var(X ) zur Quantifizierung der Schätzunsicherheit verwendet.
Weitergehender Ansatz:
Nicht nur Momente von X (hier: Varianz), sondern komplette Verteilung
berücksichtigen!
Erinnerung: X entsteht als (durch n dividierte) Summe unabhängig
identisch verteilter
Zufallsvariablen.
X ist N µY ,
2
σY
n
-verteilt, falls Xi (bzw. Y ) normalverteilt
(Wahrscheinlichkeitsrechnung!).
X kann näherungsweise als N µY ,
2
σY
n
-verteilt angesehen, falls Xi (bzw. Y )
nicht normalverteilt (Zentraler Grenzwertsatz!).
Ökonometrie (SS 2014)
Folie 68
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Die Qualität der Näherung durch eine Normalverteilung wird mit
zunehmendem Stichprobenumfang größer, hängt aber ganz entscheidend
von der Verteilung von Y ab!
Pauschale Kriterien an den Stichprobenumfang n ( Daumenregeln“, z.B.
”
n ≥ 30) finden sich häufig in der Literatur, sind aber nicht ganz unkritisch.
•
σ2
σ2
Verteilungseigenschaft X ∼ N µ, n bzw. X ∼ N µ, n wird meistens
(äquivalent!) in der (auch aus dem zentralen Grenzwertsatz bekannten)
Gestalt
X − µ√
n ∼ N(0, 1)
σ
X − µ√ •
n ∼ N(0, 1)
σ
bzw.
verwendet, da dann Verwendung von Tabellen zur Standardnormalverteilung
möglich.
Ökonometrie (SS 2014)
Folie 69
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
X −µ √
n,
σ
0.3
0.4
N(0,1)
n=4
0.0
0.1
0.2
f(x)
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=2
falls Y ∼ Unif(20, 50)
−4
−2
0
2
4
−4
−2
x
2
4
x
0.2
0.3
0.4
N(0,1)
n=12
0.0
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=7
0.1
f(x)
0
−4
−2
0
x
Ökonometrie (SS 2014)
2
4
−4
−2
0
2
4
x
Folie 70
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
X −µ √
n,
σ
0.3
0.4
N(0,1)
n=10
0.0
0.1
0.2
f(x)
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=3
falls Y ∼ Exp(2)
−4
−2
0
2
4
−4
−2
x
2
4
x
0.2
0.3
0.4
N(0,1)
n=250
0.0
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=30
0.1
f(x)
0
−4
−2
0
2
4
−4
−2
x
0
2
4
x
Ökonometrie (SS 2014)
Folie 71
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
X −µ √
n,
σ
0.3
0.4
N(0,1)
n=10
0.0
0.1
0.2
f(x)
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=3
falls Y ∼ B(1, 0.5)
−4
−2
0
2
4
−4
−2
x
2
4
x
0.2
0.3
0.4
N(0,1)
n=250
0.0
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=30
0.1
f(x)
0
−4
−2
0
x
Ökonometrie (SS 2014)
2
4
−4
−2
0
2
4
x
Folie 72
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
X −µ √
n,
σ
0.3
0.4
N(0,1)
n=10
0.0
0.1
0.2
f(x)
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=3
falls Y ∼ B(1, 0.05)
−4
−2
0
2
4
−4
−2
x
2
4
x
0.2
0.3
0.4
N(0,1)
n=250
0.0
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=30
0.1
f(x)
0
−4
−2
0
2
4
x
−4
−2
0
2
4
x
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 73
Schließende Statistik 2.3
Schwankungsintervalle für X I
Kennt man die Verteilung von X (oder eine geeignete Näherung), kann man
beispielsweise Intervalle angeben, in denen die Realisationen von X (ggf.
näherungsweise) mit einer vorgegebenen Wahrscheinlichkeit liegen.
Sucht man zum Beispiel ein Intervall, aus welchem die Realisationen einer
Zufallsvariablen nur mit einer Wahrscheinlichkeit von 0 < α < 1 herausfallen,
bietet sich
I
I
die Verwendung des α2 -Quantils, welches nur mit Wahrscheinlichkeit α2
unterschritten wird, als untere Grenze sowie
die Verwendung des 1 − α2 -Quantils, welches nur mit Wahrscheinlichkeit
überschritten wird, als obere Grenze
α
2
an (vgl. Übungsaufgabe 2 (c)).
Ökonometrie (SS 2014)
Folie 74
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Schwankungsintervalle für X II
Für N(µ,
σ 2 )-verteilte Zufallsvariablen lässt sich in Abhängigkeit des
1 − α2 -Quantils N α2 bzw. N1− α2 der N(0, 1)-Verteilung
I
I
α
2-
bzw.
das α2 -Quantil durch µ + σ · N α2 und
das 1 − α2 -Quantil durch µ + σ · N1− α2
berechnen (vgl. auch Folien 26 und 30).
Unter Verwendung der Symmetrieeigenschaft
Nα = −N1−α
bzw. hier
N α2 = −N1− α2
für Quantile der Standardnormalverteilung erhält man so die Darstellung
µ − σ · N1− α2 , µ + σ · N1− α2
eines um den Erwartungswert µ symmetrischen Intervalls, in dem die
Realisationen der Zufallsvariablen mit Wahrscheinlichkeit 1 − α liegen bzw.
mit Wahrscheinlichkeit α nicht enthalten sind.
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 75
Schließende Statistik 2.3
Schwankungsintervalle für X III
Ist X1 , . . . , Xn eine einfache Stichprobe zumpUmfang n zu Y , und sind
µY = E(Y ) der Erwartungswert und σY = Var(Y ) die Standardabweichung
σY
von Y , so erhält man also unter Verwendung von X ∼ N µY , √
(exakt
n
oder näherungsweise!) für vorgegebenes 0 < α < 1
σY
σY
P X ∈ µY − √ · N1− α2 , µY + √ · N1− α2
=1−α
n
n
und damit das (symmetrische) (1 − α)-Schwankungsintervall
σY
σY
µY − √ · N1− α2 , µY + √ · N1− α2
n
n
von X .
Ökonometrie (SS 2014)
Folie 76
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Schwankungsintervall
Aufgabenstellung:
I
I
I
Es gelte Y ∼ N(50, 102 ).
Zu Y liege eine einfache Stichprobe X1 , . . . , X25 der Länge n = 25 vor.
Gesucht ist ein 1 − α = 0.95-Schwankungsintervall für X .
Lösung:
I
I
I
I
Es gilt also µY = 50, σY2 = 102 , n = 25 und α = 0.05.
Zur Berechnung des Schwankungsintervalls
σY
σY
µY − √ · N1− α2 , µY + √ · N1− α2
n
n
benötigt man also nur noch das 1 − α2 = 0.975-Quantil N0.975 der
Standardnormalverteilung. Dies erhält man mit geeigneter Software (oder aus
geeigneten Tabellen) als N0.975 = 1.96.
Insgesamt erhält man also das Schwankungsintervall
10
10
50 − √ · 1.96, 50 + √ · 1.96 = [46.08, 53.92] .
25
25
Eine Stichprobenziehung führt also mit einer Wahrscheinlichkeit von 95% zu
einer Realisation x von X im Intervall [46.08, 53.92].
Ökonometrie (SS 2014)
Folie 77
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Schwankungsintervall
(Grafische Darstellung)
102
25
, α = 0.05
X
0.10
α 2 = 0.025
α 2 = 0.025
1 − α = 0.95
0.00
0.05
fX(x)
0.15
0.20
Im Beispiel: X ∼ N 50,
µY −
Ökonometrie (SS 2014)
σY
n
N1−α
2
µY
µY +
σY
n
N1−α
2
Folie 78
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert I
bei bekannter Varianz σ 2
In der Praxis interessanter als Schwankungsintervalle für X :
Intervallschätzungen für unbekannte Erwartungswerte µ := µY = E(Y ).
Zunächst: Annahme, dass die Varianz von σ 2 := σY2 = Var(Y ) (und damit
auch Var(X )) bekannt ist.
Für 0 < α < 1 kann die Wahrscheinlichkeitsaussage
σ
σ
P X ∈ µ − √ · N1− α2 , µ + √ · N1− α2
=1−α
n
n
umgestellt werden zu einer Wahrscheinlichkeitsaussage der Form
σ
σ
=1−α .
P µ ∈ X − √ · N1− α2 , X + √ · N1− α2
n
n
Dies liefert sogenannte Konfidenzintervalle
σ
σ
X − √ · N1− α2 , X + √ · N1− α2
n
n
für µ zur Vertrauenswahrscheinlichkeit bzw. zum Konfidenzniveau 1 − α.
Ökonometrie (SS 2014)
Folie 79
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert II
bei bekannter Varianz σ 2
In der resultierenden Wahrscheinlichkeitsaussage
σ
σ
P µ ∈ X − √ · N1− α2 , X + √ · N1− α2
=1−α .
n
n
sind die Intervallgrenzen
σ
X − √ · N1− α2
n
und
σ
X + √ · N1− α2
n
des Konfidenzintervalls zufällig (nicht etwa µ!).
Ziehung einer Stichprobenrealisation liefert also Realisationen der
Intervallgrenzen und damit ein konkretes Konfidenzintervall, welches den
wahren (unbekannten) Erwartungswert µ entweder überdeckt oder nicht.
Die Wahrscheinlichkeitsaussage für Konfidenzintervalle zum Konfidenzniveau
1 − α ist also so zu verstehen, dass man bei der Ziehung der Stichprobe mit
einer Wahrscheinlichkeit von 1 − α ein Stichprobenergebnis erhält, welches zu
einem realisierten Konfidenzintervall führt, das den wahren Erwartungswert
überdeckt.
Ökonometrie (SS 2014)
Folie 80
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Konfidenzintervall bei bekannter Varianz σ 2
Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswert
und bekannter Varianz σ 2 = 22 .
Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0.99.
Als Realisation x1 , . . . , x16 einer einfachen Stichprobe X1 , . . . , X16 vom
Umfang n = 16 zu Y liefere die Stichprobenziehung
18.75, 20.37, 18.33, 23.19, 20.66, 18.36, 20.97, 21.48, 21.15, 19.39, 23.02,
20.78, 18.76, 15.57, 22.25, 19.91 ,
was zur Realisationen x = 20.184 von X führt.
Als Realisation des Konfidenzintervalls für µ zum Konfidenzniveau
1 − α = 0.99 erhält man damit insgesamt
σ
σ
x − √ · N1− α2 , x + √ · N1− α2
n
n
2
2
= 20.184 − √ · 2.576, 20.184 + √ · 2.576
16
16
= [18.896, 21.472] .
Ökonometrie (SS 2014)
Folie 81
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Verteilung von X bei unbekanntem σ 2
Wie kann man vorgehen, falls die Varianz σ 2 von Y unbekannt ist?
Naheliegender Ansatz: Ersetzen von σ 2 durch eine geeignete Schätzfunktion.
Erwartungstreue Schätzfunktion für σ 2 bereits bekannt:
n
1 X
S =
(Xi − X )2
n−1
2
i=1
Ersetzen von σ durch S =
√
S 2 möglich, Verteilung ändert sich aber:
Satz 2.1
Seien Y ∼ N(µ,
σ 2 ), X1 , . . . , Xn eine einfache Stichprobe zu Y . Dann gilt mit
q
√
Pn
1
2
S := S 2 = n−1
i=1 (Xi − X )
X − µ√
n ∼ t(n − 1) ,
S
wobei t(n − 1) die t-Verteilung mit n − 1 Freiheitsgraden bezeichnet.
Ökonometrie (SS 2014)
Folie 82
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Die Familie der t(n)-Verteilungen
Die Familie der t(n)-Verteilungen mit n > 0 ist eine spezielle Familie stetiger
Verteilungen. Der Parameter n wird meist Anzahl der Freiheitsgrade“
”
( degrees of freedom“) genannt.
”
t-Verteilungen werden (vor allem in englischsprachiger Literatur) oft auch als
Student’s t distribution“ bezeichnet; Student“ war das Pseudonym, unter
”
”
dem William Gosset die erste Arbeit zur t-Verteilung in englischer Sprache
veröffentlichte.
t(n)-Verteilungen sind für alle n > 0 symmetrisch um 0. Entsprechend gilt für
p-Quantile der t(n)-Verteilung, die wir im Folgendem mit tn;p abkürzen,
analog zu Standardnormalverteilungsquantilen
tn;p = −tn;1−p
bzw.
tn;1−p = −tn;p
für alle p ∈ (0, 1)
Für wachsendes n nähert sich die t(n)-Verteilung der
Standardnormalverteilung an.
Ökonometrie (SS 2014)
Folie 83
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Grafische Darstellung einiger t(n)-Verteilungen
für n ∈ {2, 5, 10, 25, 100}
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
t(2)
t(5)
t(10)
t(25)
t(100)
−4
−2
0
2
4
x
Ökonometrie (SS 2014)
Folie 84
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert I
bei unbekannter Varianz σ 2
Konstruktion von Konfidenzintervallen für µ bei unbekannter Varianz
σ 2 = Var(Y ) ganz analog zur Situation mit bekannter Varianz, lediglich
√
S2
=
q
1
Ersetzen von σ durch S =
2
Ersetzen von N1− α2 durch tn−1;1− α2
1
n−1
Pn
i=1 (Xi
− X )2
erforderlich.
Resultierendes Konfidenzintervall für µ zur Vertrauenswahrscheinlichkeit
bzw. zum Konfidenzniveau 1 − α:
S
S
X − √ · tn−1;1− α2 , X + √ · tn−1;1− α2
n
n
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 85
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert II
bei unbekannter Varianz σ 2
Benötigte Quantile tn−1;1− α2 können ähnlich wie bei der
Standardnormalverteilung z.B. mit der Statistik-Software R ausgerechnet
werden oder aus geeigneten Tabellen abgelesen werden.
Mit R erhält man z.B. t15;0.975 durch
> qt(0.975,15)
[1] 2.13145
Mit zunehmendem n werden die Quantile der t(n)-Verteilungen betragsmäßig
kleiner und nähern sich den Quantilen der Standardnormalverteilung an.
Ist Y und sind damit die Xi nicht normalverteilt, erlaubt der zentrale
Grenzwertsatz dennoch die näherungsweise Verwendung einer
√
t(n − 1)-Verteilung für X −µ
n und damit auch die Berechnung von
S
(approximativen) Konfidenzintervallen.
Ökonometrie (SS 2014)
Folie 86
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Quantile der t-Verteilungen: tn;p
n\p
0.85
0.90
0.95
0.975
0.99
0.995
0.9995
1
2
3
4
5
1.963
1.386
1.250
1.190
1.156
3.078
1.886
1.638
1.533
1.476
6.314
2.920
2.353
2.132
2.015
12.706
4.303
3.182
2.776
2.571
31.821
6.965
4.541
3.747
3.365
63.657
9.925
5.841
4.604
4.032
636.619
31.599
12.924
8.610
6.869
6
7
8
9
10
1.134
1.119
1.108
1.100
1.093
1.440
1.415
1.397
1.383
1.372
1.943
1.895
1.860
1.833
1.812
2.447
2.365
2.306
2.262
2.228
3.143
2.998
2.896
2.821
2.764
3.707
3.499
3.355
3.250
3.169
5.959
5.408
5.041
4.781
4.587
11
12
13
14
15
1.088
1.083
1.079
1.076
1.074
1.363
1.356
1.350
1.345
1.341
1.796
1.782
1.771
1.761
1.753
2.201
2.179
2.160
2.145
2.131
2.718
2.681
2.650
2.624
2.602
3.106
3.055
3.012
2.977
2.947
4.437
4.318
4.221
4.140
4.073
20
25
30
40
50
1.064
1.058
1.055
1.050
1.047
1.325
1.316
1.310
1.303
1.299
1.725
1.708
1.697
1.684
1.676
2.086
2.060
2.042
2.021
2.009
2.528
2.485
2.457
2.423
2.403
2.845
2.787
2.750
2.704
2.678
3.850
3.725
3.646
3.551
3.496
100
200
500
1000
5000
1.042
1.039
1.038
1.037
1.037
1.290
1.286
1.283
1.282
1.282
1.660
1.653
1.648
1.646
1.645
1.984
1.972
1.965
1.962
1.960
2.364
2.345
2.334
2.330
2.327
2.626
2.601
2.586
2.581
2.577
3.390
3.340
3.310
3.300
3.292
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 87
Schließende Statistik 2.3
Beispiel: Konfidenzintervall bei unbekanntem σ 2
Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswert
und unbekannter Varianz.
Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0.95.
Als Realisation x1 , . . . , x9 einer einfachen Stichprobe X1 , . . . , X9 vom Umfang
n = 9 zu Y liefere die Stichprobenziehung
28.12, 30.55, 27.49, 34.79, 30.99, 27.54, 31.46, 32.21, 31.73 ,
was zur
√ Realisationen x = 30.542 von X und zur Realisation s = 2.436 von
S = S 2 führt.
Als Realisation des Konfidenzintervalls für µ zum Konfidenzniveau
1 − α = 0.95 erhält man damit insgesamt
s
s
x − √ · tn−1;1− α2 , x + √ · tn−1;1− α2
n
n
2.436
2.436
= 30.542 − √ · 2.306, 30.542 + √ · 2.306
9
9
= [28.67, 32.414] .
Ökonometrie (SS 2014)
Folie 88
Herunterladen