Okonometrie Organisatorisches I

Werbung
1 Einleitung
Organisatorisches 1.1
Organisatorisches I
Ökonometrie
Vorlesung an der Universität des Saarlandes
Vorlesung: Mittwoch, 08:30-10:00 Uhr, Gebäude B4 1, HS 0.18
Übung: Dienstag, 12:15-13:45 Uhr, Gebäude B4 1, HS 0.18, Beginn: 22.04.
Prüfung: 2-stündige Klausur nach Semesterende (1. Prüfungszeitraum)
Anmeldung im ViPa nur vom 12.05. (8 Uhr) – 26.05. (15 Uhr)!
(Abmeldung im ViPa bis 10.07., 12 Uhr)
Hilfsmittel für Klausur
Dr. Martin Becker
Sommersemester 2014
I
I
I
Moderat“ programmierbarer Taschenrechner, auch mit Grafikfähigkeit
”
2 beliebig gestaltete DIN A 4–Blätter (bzw. 4, falls nur einseitig)
Benötigte Tabellen werden gestellt, aber keine weitere Formelsammlung!
Durchgefallen — was dann?
I
I
Ökonometrie (SS 2014)
Folie 1
1 Einleitung
Organisatorisches 1.1
Organisatorisches II
I
I
http://www.lehrstab-statistik.de/oekoss2014.html .
I
Kontakt: Dr. Martin Becker
Geb. C3 1, 2. OG, Zi. 2.17
e-Mail: [email protected]
Übungsblätter (i.d.R. wöchentlich)
Download i.d.R. nach der Vorlesung im Laufe des Mittwochs möglich
Besprechung der Übungsblätter in der Übung der folgenden Woche.
Übungsaufgaben sollten unbedingt vorher selbst bearbeitet werden!
Im Sommersemester 2014 sehr spezielle Situation (Makro...)
I
I
Sprechstunde nach Vereinbarung (Terminabstimmung per e-Mail)
Vorlesungsunterlagen
I
I
Diese Vorlesungsfolien (Ergänzung im Laufe des Semesters)
Eventuell Vorlesungsfolien der Veranstaltung von Prof. Friedmann aus SS 2013
Download spätestens Dienstags, 19:00 Uhr, vor der Vorlesung möglich
Ökonometrie (SS 2014)
Organisatorisches 1.1
I
bzw. genauer
I
1 Einleitung
Folie 2
Übungsunterlagen
http://www.lehrstab-statistik.de
I
Ökonometrie (SS 2014)
Organisatorisches III
Informationen und Materialien unter
I
Nachprüfung“ Ende März/Anfang April 2015 (2. Prüfungszeitraum)
”
ab Sommersemester 2015: ???
Folie 3
I
Beginn ausnahmsweise mit Wiederholung statistischer Grundlagen.
Dadurch Wegfall einiger regulärer Inhalte.
Alte Klausuren nur eingeschränkt relevant.
Wiederholung nur lückenhaft und wenig formal möglich!
Je nach Kenntnisstand: Eigene Wiederholung statistischer Grundlagen
z.B. aus den jeweiligen Veranstaltungsfolien nötig!
Ökonometrie (SS 2014)
Folie 4
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Inhaltsverzeichnis
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Lage- und Streuungsmaße eindimensionaler Daten
(Ausschnitt)
Betrachte zunächst ein kardinalskaliertes Merkmal X mit Urliste (Daten)
x1 , . . . , xn der Länge n.
2
Daten sollen auf wenige Kennzahlen“ verdichtet werden.
”
Übliches Lagemaß: klassische“ Mittelung der Merkmalswerte, also
”
arithmetisches Mittel“ x mit:
”
n
1
1X
x := (x1 + x2 + · · · + xn ) =
xi
n
n
Wiederholung statistischer Grundlagen
Deskriptive Statistik
Wahrscheinlichkeitsrechnung
Schließende Statistik
i=1
Übliche Streuungsmaße: Mittlere quadrierte Differenz zwischen
Merkmalswerten und arithmetischem Mittel (empirische Varianz) sX2 sowie
deren (positive) Wurzel (empirische Standardabweichung) sX mit:
!
n
n
X
p
1X
2 ! 1
2
2
sX = + sX2
sX :=
(xi − x) =
xi − x 2 =: x 2 − x 2 ,
n
n
i=1
i=1
Standardabweichung sX hat dieselbe Dimension wie die Merkmalswerte,
daher i.d.R. besser zu interpretieren als Varianz sX2 .
Ökonometrie (SS 2014)
Folie 5
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Abhängigkeitsmaße zweidimensionaler Daten I
(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )
zu einem zweidimensionalen Merkmal (X , Y ) vorliegt.
Unverzichtbare Eigenschaft der Urliste ist, dass die Paare von
Merkmalswerten jeweils demselben Merkmalsträger zuzuordnen sind!
Deskriptive Statistik 2.1
Als standardisiertes, skalenunabhängiges Abhängigkeitsmaß definiert man
darauf aufbauend den empirischen (Bravais-)Pearsonschen
Korrelationskoeffizienten rX ,Y mit:
sX ,Y
rX ,Y :=
sX · sY
Es gilt stets −1 ≤ rX ,Y ≤ 1.
rX ,Y misst lineare Zusammenhänge, spezieller gilt
I
Mit den zugehörigen Lage- und Streuungsmaßen x, y , sX und sY der
eindimensionalen Merkmale definiert man als Abhängigkeitsmaße zunächst
die empirische Kovarianz sX ,Y mit:
!
n
n
X
1X
! 1
sX ,Y :=
(xi − x)(yi − y ) =
xi · yi − x · y =: xy − x · y
n
n
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 6
Abhängigkeitsmaße zweidimensionaler Daten II
Nehme nun an, dass den Merkmalsträgern zu zwei kardinalskalierten
Merkmalen X und Y Merkmalswerte zugeordnet werden, also eine Urliste der
Länge n (also n Datenpaare)
i=1
Ökonometrie (SS 2014)
I
I
rX ,Y > 0 bei positiver Steigung“ ( X und Y sind positiv korreliert“),
”
”
rX ,Y < 0 bei negativer Steigung“ ( X und Y sind negativ korreliert“),
”
”
|rX ,Y | = 1, falls alle (xi , yi ) auf einer Geraden (mit Steigung 6= 0) liegen.
rX ,Y ist nur definiert, wenn X und Y jeweils mindestens zwei verschiedene
Merkmalsausprägungen besitzen.
i=1
Folie 7
Ökonometrie (SS 2014)
Folie 8
2 Wiederholung statistischer Grundlagen
Deskriptive Statistik 2.1
Beispiel: Empirischer Pearsonscher Korrelationskoeffizient
rX, Y = 0
20
●
●
●
●
●
80
●
●
●
●
●
●
6
●
●
●
40
●
●
Y
●
●
●
●
●
4
●
●
●
●
Y
●
10
●
60
●
●
●
●
●
●
●
0
5
10
15
20
5
●
10
15
20
5
10
15
rX, Y = 0.1103
rX, Y = −0.837
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
4.0
●
●
● ●
●
●
●
●
8
●
●
●
4
●
●
Y
10
●
●
●
●
Y
5.0
15
●
●
●
●
●
●
●
2
●
3.0
●
●
5
10
X
15
20
●
5
10
15
X
20
●
●
●
5
10
15
●
20
X
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 9
Wahrscheinlichkeitsrechnung 2.2
Eindimensionale Zufallsvariablen I
Auf eine Wiederholung der grundlegenden Konzepte von Zufallsexperimenten
bzw. Wahrscheinlichkeitsräumen muss aus Zeitgründen allerdings verzichtet
werden.
Wir fassen eine Zufallsvariable auf als eine Variable“,
”
I
I
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 10
Wahrscheinlichkeitsrechnung 2.2
Eindimensionale Zufallsvariablen II
(Eindimensionale) Zufallsvariablen X entstehen formal als (Borel-messbare)
Abbildungen X : Ω → R von Ergebnismengen Ω eines
Wahrscheinlichkeitsraums (Ω, F, P) in die reellen Zahlen.
I
Wiederholung statistischer Grundlagen
Deskriptive Statistik
Wahrscheinlichkeitsrechnung
Schließende Statistik
●
●
●
20
●
●
●
10
6.0
20
●
●
●
●
12
rX, Y = 0.9652
●
Y
●
X
●
2
●
●
X
●
5
● ● ●
X
●
0
●
●
●
●
●
●
●
2
●
●
6
5
●
20
●
●
●
Inhaltsverzeichnis
●
●
8
15
●
●
●
●
Y
●
●
●
●
Wahrscheinlichkeitsrechnung 2.2
(Ausschnitt)
rX, Y = −1
10
100
rX, Y = 1
2 Wiederholung statistischer Grundlagen
die (i.d.R. mehrere verschiedene) numerische Werte annehmen kann,
deren Werte ( Realisationen“) nicht vorherbestimt sind, sondern von einem
”
zufälligen, meist wiederholbarem Vorgang abhängen,
über deren Werteverteilung“ man allerdings Kenntnisse hat
”
( Wahrscheinlichkeitsrechnung) oder Kenntnisse erlangen möchte
( Schließende Statistik).
Unterteilung von Zufallsvariablen X (abhängig von Werteverteilung) in
mehrere Typen
Diskrete Zufallsvariablen X :
I
I
Können nur endlich viele oder abzählbar unendlich viele verschiedene Werte
annehmen.
Werteverteilung kann durch eine Wahrscheinlichkeitsfunktion pX spezifiziert
werden, die jeder reellen Zahl die Wahrscheinlichkeit des Auftretens zuordnet.
Stetige Zufallsvariablen X :
I
I
I
Können überabzählbar viele Werte (in einem Kontinuum reeller Zahlen)
annehmen.
Werteverteilung kann durch eine Dichtefunktion fX spezifiziert werden, mit
deren Hilfe man zum Beispiel Wahrscheinlichkeiten dafür ausrechnen kann,
dass der Wert der Zufallsvariablen in einem bestimmten Intervall liegt.
Einzelne reelle Zahlen (alle!) werden mit Wahrscheinlichkeit 0 angenommen!
Außerdem existieren (hier nicht betrachtete) Misch-/Sonderformen.
Ökonometrie (SS 2014)
Folie 11
Ökonometrie (SS 2014)
Folie 12
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Eindimensionale Zufallsvariablen III
bei diskreten Zufallsvariablen X für endliche oder abzählbar unendliche
Mengen A mit Hilfe der Wahrscheinlichkeitsfunktion pX durch
X
P{X ∈ A} =
pX (xi )
xi ∈A
I
bei stetigen Zufallsvariablen X für Intervalle A = [a, b], A = (a, b), A = (a, b]
oder(!) A = [a, b) (mit a < b) mit Hilfe einer(!) zugehörigen Dichtefunktion fX
durch
Z b
P{X ∈ A} =
fX (x)dx
Lage- und Streuungsmaßen von Merkmalen (aus deskriptiver Statistik)
entsprechen Momente von Zufallsvariablen.
Momente von Zufallsvariablen sind also Kennzahlen, die die Werteverteilung
auf einzelne Zahlenwerte verdichten. (Diese Kennzahlen müssen nicht
existieren, Existenzfragen hier aber vollkommen ausgeklammert!)
Kennzahl für die Lage der (Werte-)Verteilung einer Zufallsvariablen X :
Erwartungswert bzw. auch Mittelwert µX := E(X )
I
a
berechnet werden.
Werteverteilungen von Zufallsvariablen sind bereits eindeutig durch alle
Wahrscheinlichkeiten der Form P{X ≤ x} := P{X ∈ (−∞, x]} für x ∈ R
festgelegt.
Die zugehörige Funktion FX : R → R; FX (x) = P{X ≤ x} heißt
Verteilungsfunktion von X .
Ökonometrie (SS 2014)
Wahrscheinlichkeitsrechnung 2.2
Folie 14
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Für eine Zufallsvariable X und reelle Zahlen a, b gilt:
I
I
E(aX + b) = a E(X ) + b
Var(aX + b) = a2 Var(X )
Allgemeiner gilt ( Linearität des Erwartungswerts“) für eine
”
(eindimensionale) Zufallsvariable X , reelle Zahlen a, b und (messbare)
Abbildungen G : R → R und H : R → R:
E(aG (X ) + bH(X )) = a E(G (X )) + b E(H(X ))
Berechnung von E(X 2 ) für diskrete Zufallsvariable X durch:
X 2
E(X 2 ) =
xi · pX (xi )
Ist X eine Zufallsvariable mit
p Erwartungswert µX = E(X ) und
Standardabweichung σX = Var(X ), so erhält man mit
xi ∈T (X )
Berechnung von E(X 2 ) bei stetiger Zufallsvariablen X durch:
Z ∞
E(X 2 ) =
x 2 · fX (x)dx
X − E(X )
X − µX
Z := p
=
σX
Var(X )
−∞
Ökonometrie (SS 2014)
Ökonometrie (SS 2014)
Momente eindimensionaler Zufallsvariablen III
Kennzahl für die Streuung der (Werte-)Verteilung einer Zufallsvariablen
p X:
Varianz σX2 := Var(X ) von X und deren (positive) Wurzel σX = + Var(X ),
die sog. Standardabweichung von X , mit
h
i
!
2
Var(X ) = E (X − E(X )) = E(X 2 ) − [E(X )]2
I
(wobei T (X ) := {x ∈ R | pX (xi ) > 0} den Träger von X bezeichnet).
Berechnung bei stetiger Zufallsvariablen X durch:
Z ∞
E(X ) =
x · fX (x)dx
−∞
Momente eindimensionaler Zufallsvariablen II
I
Berechnung bei diskreter Zufallsvariablen X durch:
X
xi · pX (xi )
E(X ) =
xi ∈T (X )
I
Folie 13
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente eindimensionaler Zufallsvariablen I
Wahrscheinlichkeiten P{X ∈ A} = PX (A) dafür, dass eine Zufallsvariable X
Werte in einer bestimmten Menge A annimmt, können konkreter
I
2 Wiederholung statistischer Grundlagen
eine neue Zufallsvariable mit E(Z ) = 0 und Var(Z ) = 1.
Man nennt Z dann eine standardisierte Zufallsvariable.
Folie 15
Ökonometrie (SS 2014)
Folie 16
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente eindimensionaler Zufallsvariablen IV
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Spezielle parametrische Verteilungsfamilien
Weiteres Lagemaß für Zufallsvariablen: p-Quantile
Für p ∈ (0, 1) ist xp ein p-Quantil der Zufallsvariablen X , wenn gilt:
P{X ≤ xp } ≥ p
und
P{X ≥ xp } ≥ 1 − p
Quantile sind nicht immer eindeutig bestimmt, für stetige Zufallsvariablen mit
streng monoton wachsender Verteilungsfunktion lassen sich Quantile aber
eindeutig durch Lösung der Gleichung
FX (xp ) = p
bzw. unter Verwendung der Umkehrfunktion FX−1 der Verteilungsfunktion FX
(auch Quantilsfunktion genannt) direkt durch
Parametrische Verteilungsfamilien fassen ähnliche Verteilungen zusammen.
Genaue Verteilung innerhalb dieser Familien wird durch einen oder wenige
(reelle) Parameter (bzw. einen ein- oder mehrdimensionalen
Parametervektor) eineindeutig festgelegt, also
I
I
legt der Parameter(vektor) die Verteilung vollständig fest und
gehören zu verschiedenen Parameter(vektore)n auch jeweils unterschiedliche
Verteilungen ( Identifizierbarkeit“).
”
Die Menge der zulässigen Parameter(vektoren) heißt Parameterraum.
Im Folgenden: Exemplarische Wiederholung je zweier diskreter und stetiger
Verteilungsfamilien.
xp = FX−1 (p)
bestimmen.
I
I
Beispiel: Werfen eines fairen Würfels, Ereignis A: 6 gewürfelt“ mit P(A) = 61 .
”
Verteilung von X hängt damit nur von Erfolgswahrscheinlichkeit“ p := P(A)
”
ab; p ist also einziger Parameter der Verteilungsfamilie.
Um triviale Fälle auszuschließen, betrachtet man nur Ereignisse mit p ∈ (0, 1)
Der Träger der Verteilung ist dann T (X ) = {0, 1}, die
Punktwahrscheinlichkeiten sind pX (0) = 1 − p und pX (1) = p.
Symbolschreibweise für Bernoulli-Verteilung mit Parameter p: B(1, p)
Ist X also Bernoulli-verteilt mit Parameter p, so schreibt man X ∼ B(1, p).
Folie 19
Verteilungsfunktion:

 0
1−p
FX (x) =

1
Momente: E (X )
γ(X )
Ökonometrie (SS 2014)
für x < 0
für 0 ≤ x < 1
für x ≥ 1
0.8
0.6
p = 0.4
−1.0
−0.5
0.0
0.5
1.0
1.5
2.0
1.5
2.0
x
FX
●
p = 0.4
●
−1.0
−0.5
0.0
0.5
1.0
x
= p
=
pX
0.4
Träger: T (X ) = {0, 1}
Wahrscheinlichkeitsfunktion:

 1 − p für x = 0
p
für x = 1
pX (x) =

0
sonst
Parameter:
p ∈ (0, 1)
pX(x)
Modellierung eines Zufallsexperiments (Ω, F, P), in dem nur das Eintreten
bzw. Nichteintreten eines einzigen Ereignisses A von Interesse ist.
Eintreten des Ereignisses A wird oft als Erfolg“ interpretiert, Nichteintreten
”
(bzw. Eintreten von A) als Misserfolg“.
”
Zufallsvariable soll im Erfolgsfall Wert 1 annehmen, im Misserfolgsfall Wert 0,
es sei also
1 falls ω ∈ A
X (ω) :=
0 falls ω ∈ A
Ökonometrie (SS 2014)
Wahrscheinlichkeitsrechnung 2.2
0.2
Verwendung:
I
2 Wiederholung statistischer Grundlagen
Bernoulli-/Alternativverteilung
B(1, p)
Bernoulli-/Alternativverteilung
I
Folie 18
0.0
Wahrscheinlichkeitsrechnung 2.2
Ökonometrie (SS 2014)
FX(x)
2 Wiederholung statistischer Grundlagen
Folie 17
0.0 0.2 0.4 0.6 0.8 1.0
Ökonometrie (SS 2014)
√1−2p
p(1−p)
Var(X )
κ(X )
= p · (1 − p)
=
1−3p(1−p)
p(1−p)
Folie 20
I
I
I
Verteilung von X hängt damit nur von Erfolgswahrscheinlichkeit“ p := P(A)
”
sowie der Anzahl der Durchführungen n des Experiments ab.
Um triviale Fälle auszuschließen, betrachtet man nur die Fälle n ∈ N und
p ∈ (0, 1). Träger der Verteilung ist dann T (X ) = {0, 1, . . . , n}.
Symbolschreibweise für Binomialverteilung mit Parameter n und p: B(n, p)
Übereinstimmung mit Bernoulli-Verteilung (mit Parameter p) für n = 1.
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 21
Wahrscheinlichkeitsrechnung 2.2
Träger: T (X ) = {0, 1, . . . , n}
Wahrscheinlichkeitsfunktion: pX (x)
  n x
p (1 − p)n−x für x ∈ T (X )
=
x

0
sonst
pX(x)
Modellierung der unabhängigen, wiederholten Durchführung eines
Zufallsexperiments, in dem nur die Häufigkeit des Eintretens bzw.
Nichteintretens eines Ereignisses A interessiert ( Bernoulli-Experiment“).
”
Eintreten des Ereignisses A wird auch hier oft als Erfolg“ interpretiert,
”
Nichteintreten (bzw. Eintreten von A) als Misserfolg“.
”
Zufallsvariable X soll die Anzahl der Erfolge bei einer vorgegebenen Anzahl
von n Wiederholungen des Experiments zählen.
Nimmt Xi für i ∈ {1, . . . , n} im Erfolgsfall (für Durchführung
i) den Wert 1
P
an, im Misserfolgsfall den Wert 0, dann gilt also X = ni=1 Xi .
Beispiel: 5-faches Werfen eines fairen Würfels, Anzahl der Zahlen kleiner 3.
n = 5, p = 1/3.
Parameter:
n ∈ N, p ∈ (0, 1)
0
1
2
3
4
5
●
●
4
5
6
x
FX
Verteilungsfunktion:
FX (x) =
X
pX (xi )
xi ∈T (X )
xi ≤x
n = 5, p = 0.4
●
●
●
●
−1
0
1
2
3
6
x
Momente: E (X )
γ(X )
= n·p
=
Var(X )
√ 1−2p
np(1−p)
κ(X )
= n · p · (1 − p)
1+(3n−6)p(1−p)
np(1−p)
=
Ökonometrie (SS 2014)
Folie 22
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Stetige Gleichverteilung
Unif(a, b)
Stetige Gleichverteilung
pX
n = 5, p = 0.4
−1
FX(x)
Verallgemeinerung der Bernoulli-Verteilung
Verwendung:
I
Wahrscheinlichkeitsrechnung 2.2
Binomialverteilung
B(n, p)
Binomialverteilung
I
2 Wiederholung statistischer Grundlagen
0.0 0.1 0.2 0.3 0.4 0.5
Wahrscheinlichkeitsrechnung 2.2
0.0 0.2 0.4 0.6 0.8 1.0
2 Wiederholung statistischer Grundlagen
Parameter:
a, b ∈ R mit a < b
fX
Modellierung einer stetigen Verteilung, in der alle Realisationen in einem
Intervall [a, b] als gleichwahrscheinlich“ angenommen werden.
”
Verteilung hängt von den beiden Parametern a, b ∈ R mit a < b ab.
0.4
fX(x)
0.2
0
1
2
3
4
3
4
x
Träger der Verteilung: T (X ) = [a, b]
Symbolschreibweise für stetige Gleichverteilung auf [a, b]: X ∼ Unif(a, b)
Momente: E (X ) =
γ(X ) =
Folie 23
Ökonometrie (SS 2014)
a+b
2
0
Var(X )
κ(X )
FX(x)
Verteilungsfunktion: FX : R → R;

für x < a

 0
x−a
für a ≤ x ≤ b
FX (x) =
b−a


1
für x > b
0.0 0.2 0.4 0.6 0.8 1.0
FX
Dichtefunktion fX einer gleichverteilten Zufallsvariablen X kann auf Intervall
1
[a, b] konstant zu b−a
gewählt werden.
Ökonometrie (SS 2014)
0.0
Einfachste stetige Verteilungsfamilie:
Stetige Gleichverteilung auf Intervall [a, b]
a = 1, b = 3
0.6
Träger: T (X ) = [a, b]
Dichtefunktion: fX : R → R;
( 1
für a ≤ x ≤ b
b−a
fX (x) =
0
sonst
a = 1, b = 3
0
1
2
x
=
=
(b−a)2
12
9
5
Folie 24
Wahrscheinlichkeitsrechnung 2.2
Normalverteilung
N(µ, σ 2 )
Ökonometrie (SS 2014)
Folie 25
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Arbeiten mit Normalverteilungen
(x−µ)2
1
1
fX (x) = √
e − 2σ2 = ϕ
σ
2πσ
x −µ
σ
fX
µ = 5, σ2 = 4
0
5
10
x
FX
Verteilungsfunktion:
FX : R → R; FX (x) = Φ
x −µ
σ
µ = 5, σ2 = 4
0
5
10
x
Momente: E (X ) = µ
γ(X ) = 0
Var(X )
κ(X )
= σ2
= 3
Ökonometrie (SS 2014)
Folie 26
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Ausschnitt aus Tabelle für Φ(x)
2
Problem (nicht nur) bei normalverteilten Zufallsvariablen X ∼ N(µ, σ ):
Verteilungsfunktion FX und Quantilsfunktion FX−1 schlecht handhabbar bzw.
nicht leicht auszuwerten!
Traditionelle Lösung: Tabellierung der entsprechenden Funktionswerte
Lösung nicht mehr zeitgemäß: (kostenlose) PC-Software für alle benötigten
Verteilungsfunktionen verfügbar, zum Beispiel Statistik-Software R
(http://www.r-project.org)
Aber: In Klausur keine PCs verfügbar, daher dort Rückgriff auf (dort zur
Verfügung gestellte) Tabellen.
Wegen der Symmetrie der Standardnormalverteilung um 0 gilt nicht nur
ϕ(x) = ϕ(−x) für alle x ∈ R, sondern auch
Φ(x) = 1 − Φ(−x)
Träger: T (X ) = R
Dichtefunktion: fX : R → R;
fX(x)
Verteilung entsteht als Grenzverteilung bei Durchschnittsbildung vieler
(unabhängiger) Zufallsvariablen (später mehr!)
Einsatz für Näherungen
Familie der Normalverteilungen hat Lageparameter µ ∈ R, der mit
Erwartungswert übereinstimmt, und Streuungsparameter σ 2 >√0, der mit
Varianz übereinstimmt, Standardabweichung ist dann σ := + σ 2 .
Verteilungsfunktion von Normalverteilungen schwierig zu handhaben,
Berechnung muss i.d.R. mit Software/Tabellen erfolgen.
Wichtige Eigenschaft der Normalverteilungsfamilie:
Ist X normalverteilt mit Parameter µ = 0 und σ 2 = 1, dann ist
aX + b für a, b ∈ R normalverteilt mit Parameter µ = b und σ 2 = a2 .
Zurückführung allgemeiner Normalverteilungen auf den Fall der
Standardnormalverteilung (Gauß-Verteilung) mit Parameter µ = 0 und
σ 2 = 1, Tabellen/Algorithmen für Standardnormalverteilung damit einsetzbar.
Dichtefunktion der Standardnormalverteilung: ϕ, Verteilungsfunktion: Φ.
Träger aller Normalverteilungen ist T (X ) = R.
Symbolschreibweise für Normalverteilung mit Parameter µ, σ 2 : X ∼ N(µ, σ 2 )
Parameter:
µ ∈ R, σ 2 > 0
0.00 0.05 0.10 0.15 0.20
Normalverteilung
für alle x ∈ R .
Daher werden Tabellen für Φ(x) in der Regel nur für x ∈ R+ erstellt.
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
FX(x)
Wahrscheinlichkeitsrechnung 2.2
0.0 0.2 0.4 0.6 0.8 1.0
2 Wiederholung statistischer Grundlagen
Folie 27
0.0
0.1
0.2
0.3
0.4
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.5
0.6
0.7
0.8
0.9
0.6915
0.7257
0.7580
0.7881
0.8159
0.6950
0.7291
0.7611
0.7910
0.8186
0.6985
0.7324
0.7642
0.7939
0.8212
0.7019
0.7357
0.7673
0.7967
0.8238
0.7054
0.7389
0.7704
0.7995
0.8264
0.7088
0.7422
0.7734
0.8023
0.8289
0.7123
0.7454
0.7764
0.8051
0.8315
0.7157
0.7486
0.7794
0.8078
0.8340
0.7190
0.7517
0.7823
0.8106
0.8365
0.7224
0.7549
0.7852
0.8133
0.8389
1.0
1.1
1.2
1.3
1.4
0.8413
0.8643
0.8849
0.9032
0.9192
0.8438
0.8665
0.8869
0.9049
0.9207
0.8461
0.8686
0.8888
0.9066
0.9222
0.8485
0.8708
0.8907
0.9082
0.9236
0.8508
0.8729
0.8925
0.9099
0.9251
0.8531
0.8749
0.8944
0.9115
0.9265
0.8554
0.8770
0.8962
0.9131
0.9279
0.8577
0.8790
0.8980
0.9147
0.9292
0.8599
0.8810
0.8997
0.9162
0.9306
0.8621
0.8830
0.9015
0.9177
0.9319
1.5
1.6
1.7
1.8
1.9
0.9332
0.9452
0.9554
0.9641
0.9713
0.9345
0.9463
0.9564
0.9649
0.9719
0.9357
0.9474
0.9573
0.9656
0.9726
0.9370
0.9484
0.9582
0.9664
0.9732
0.9382
0.9495
0.9591
0.9671
0.9738
0.9394
0.9505
0.9599
0.9678
0.9744
0.9406
0.9515
0.9608
0.9686
0.9750
0.9418
0.9525
0.9616
0.9693
0.9756
0.9429
0.9535
0.9625
0.9699
0.9761
0.9441
0.9545
0.9633
0.9706
0.9767
2.0
2.1
2.2
2.3
2.4
0.9772
0.9821
0.9861
0.9893
0.9918
0.9778
0.9826
0.9864
0.9896
0.9920
0.9783
0.9830
0.9868
0.9898
0.9922
0.9788
0.9834
0.9871
0.9901
0.9925
0.9793
0.9838
0.9875
0.9904
0.9927
0.9798
0.9842
0.9878
0.9906
0.9929
0.9803
0.9846
0.9881
0.9909
0.9931
0.9808
0.9850
0.9884
0.9911
0.9932
0.9812
0.9854
0.9887
0.9913
0.9934
0.9817
0.9857
0.9890
0.9916
0.9936
Ökonometrie (SS 2014)
Folie 28
Beispiel: Arbeiten mit Normalverteilungstabelle
Wahrscheinlichkeitsrechnung 2.2
Frage: Welchen Wert x überschreitet eine N(100, 82 )-verteilte Zufallsvariable
nur mit 2.5% Wahrscheinlichkeit? (Welche linke Grenze x führt bei der
schraffierten Fläche zu einem Flächeninhalt von 0.025?)
fN(100, 82)(x)
µ = 100, σ2 = 82
2.5%
0.00
0.02
0.04
µ = 100, σ2 = 82
70
0.00
fN(100, 82)(x)
Frage: Mit welcher Wahrscheinlichkeit nimmt eine N(100, 82 )-verteilte
Zufallsvariable Werte kleiner als 90 an? (Wie groß ist die schraffierte Fläche?)
2 Wiederholung statistischer Grundlagen
0.04
Wahrscheinlichkeitsrechnung 2.2
0.02
2 Wiederholung statistischer Grundlagen
70
80
90
100
110
120
P{X < 90}
90 − 100
= FN(100,82 ) (90) = Φ
8
= Φ(−1.25) = 1 − Φ(1.25) = 1 − 0.8944 = 0.1056
Die gesuchte Wahrscheinlichkeit ist 0.1056 = 10.56%.
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
90
100
110
<− | −>
?
120
130
Antwort: Ist X ∼ N(100, 82 ), so ist das 97.5%- bzw. 0.975-Quantil von X
gesucht. Mit
x − 100
FX (x) = FN(100,82 ) (x) = Φ
8
und der Abkürzung Np für das p-Quantil der N(0, 1)-Verteilung erhält man
x − 100 !
x − 100
Φ
= 0.975 ⇔
= Φ−1 (0.975) = N0.975 = 1.96
8
8
⇒ x = 8 · 1.96 + 100 = 115.68
130
x
Antwort: Ist X ∼ N(100, 82 ), so gilt:
80
Folie 29
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Arbeiten mit Statistik-Software R
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 30
Wahrscheinlichkeitsrechnung 2.2
Mehrdimensionale Zufallsvariablen/Zufallsvektoren I
Beantwortung der Fragen (noch) einfacher mit Statistik-Software R:
Simultane Betrachtung mehrerer (endlich vieler) Zufallsvariablen zur
Untersuchung von Abhängigkeiten möglich (und für die Ökonometrie später
erforderlich!)
Frage: Mit welcher Wahrscheinlichkeit nimmt eine N(100, 82 )-verteilte
Zufallsvariable Werte kleiner als 90 an?
Antwort:
> pnorm(90,mean=100,sd=8)
[1] 0.1056498
Frage: Welchen Wert x überschreitet eine N(100, 82 )-verteilte Zufallsvariable
nur mit 2.5% Wahrscheinlichkeit?
Antwort:
> qnorm(0.975,mean=100,sd=8)
Ist n ∈ N die Anzahl der betrachteten Zufallsvariablen, so fasst man die n
Zufallsvariablen X1 , . . . , Xn auch in einem n-dimensionalen Vektor
X = (X1 , . . . , Xn )0 zusammen und befasst sich dann mit der gemeinsamen
Verteilung von X .
Die meisten bekannten Konzepte eindimensionaler Zufallsvariablen sind leicht
übertragbar, nur technisch etwas anspruchsvoller.
Zwei Spezialfälle: Diskrete Zufallsvektoren und stetige Zufallsvektoren
[1] 115.6797
Ökonometrie (SS 2014)
Folie 31
Ökonometrie (SS 2014)
Folie 32
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Mehrdimensionale Zufallsvariablen/Zufallsvektoren II
xi ∈A∩T (X)
Die gemeinsame Verteilung eines stetigen Zufallsvektors kann durch
Angabe einer gemeinsamen Dichtefunktion fX : Rn → R spezifiziert
werden, mit deren Hilfe sich Wahrscheinlichkeiten von Quadern im Rn (über
Mehrfachintegrale) ausrechnen lassen:
Z
b1
···
a1
Z
bn
an
für A = (a1 , b1 ] × · · · × (an , bn ] ⊂ Rn mit a1 ≤ b1 , . . . , an ≤ bn
2 Wiederholung statistischer Grundlagen
Folie 33
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße I
Diskrete bzw. stetige Zufallsvektoren heißen (stochastisch) unabhängig,
wenn man ihre gemeinsame Wahrscheinlichkeits- bzw. Dichtefunktion als
Produkt der jeweiligen Randwahrscheinlichkeits- bzw. Randdichtefunktionen
n
Y
i=1
bzw.
fX (x) =
pXi (xi ) = pX1 (x1 ) · . . . · pXn (xn )
n
Y
i=1
fXi (xi ) = fX1 (x1 ) · . . . · fXn (xn )
für alle x = (x1 , . . . , xn ) ∈ Rn gewinnen kann.
(Im stetigen Fall: siehe Folien WR für exakte“ bzw. korrekte“ Formulierung!)
”
”
Ökonometrie (SS 2014)
Die Verteilungen der einzelnen Zufallsvariablen X1 , . . . , Xn eines
n-dimensionalen Zufallsvektors nennt man auch Randverteilungen.
Bei diskreten Zufallsvektoren sind auch die einzelnen Zufallsvariablen
X1 , . . . , Xn diskret, die zugehörigen Wahrscheinlichkeitsfunktionen
pX1 , . . . , pXn nennt man dann auch Randwahrscheinlichkeitsfunktionen.
Bei stetigen Zufallsvektoren sind auch die einzelnen Zufallsvariablen
X1 , . . . , Xn stetig, zugehörige Dichtefunktionen fX1 , . . . , fXn nennt man dann
auch Randdichte(funktione)n.
Randwahrscheinlichkeits- bzw. Randdichtefunktionen können durch
(Mehrfach)summen bzw. (Mehrfach)integrale aus der gemeinsamen
Wahrscheinlichkeits- bzw. Dichtefunktion gewonnen werden (siehe Folien
Wahrscheinlichkeitsrechnung).
fX (t1 , . . . , tn )dtn · · · dt1
Ökonometrie (SS 2014)
pX (x) =
Wahrscheinlichkeitsrechnung 2.2
Mehrdimensionale Zufallsvariablen/Zufallsvektoren III
Die gemeinsame Verteilung eines diskreten Zufallsvektors kann durch eine
(mehrdimensionale) gemeinsame Wahrscheinlichkeitsfunktion pX : Rn → R
mit pX (x) := P{X = x} für x ∈ Rn festgelegt werden.
Wahrscheinlichkeiten P{X ∈ A} dafür, dass X Werte in der Menge A
annimmt, können dann wiederum durch Aufsummieren der
Punktwahrscheinlichkeiten aller Trägerpunkte xi mit xi ∈ A berechnet
werden:
X
P{X ∈ A} =
pX (xi )
PX (A) =
2 Wiederholung statistischer Grundlagen
Folie 35
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 34
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße II
Bei fehlender Unabhängigkeit: Betrachtung bedingter Verteilungen und
(paarweise) linearer Abhängigkeiten interessant!
Bedingte Verteilungen:
Was weiß man über die Verteilung einer Zufallsvariablen (konkreter), wenn
man die Realisation (einer oder mehrerer) anderer Zufallsvariablen bereits
kennt?
Lineare Abhängigkeiten:
Treten besonders große Realisation einer Zufallsvariablen häufig im
Zusammenhang mit besondere großen (oder besonders kleinen) Realisationen
einer anderen Zufallsvariablen auf (mit einem entsprechenden Zusammenhang
für besonders kleine Realisationen der ersten Zufallsvariablen);
lässt sich dieser Zusammenhang gut durch eine Gerade beschreiben?
Ökonometrie (SS 2014)
Folie 36
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße III
Zur einfacheren Darstellung: Bezeichnung X bzw. Y statt Xi und Xj für zwei
Zufallsvariablen (aus einem Zufallsvektor).
Maß für lineare Abhängigkeit zweier Zufallsvariablen X und Y : Kovarianz
!
σXY := Cov(X , Y ) := E [(X − E(X )) · (Y − E(Y ))] = E(X · Y ) − E(X ) · E(Y )
(Zur Berechnung von E(X · Y ) siehe Folien WR!)
Rechenregeln für Kovarianzen (X , Y , Z Zufallsvariablen aus Zufallsvektor,
a, b ∈ R):
1
2
3
4
5
6
Cov(aX , bY ) = ab Cov(X , Y )
Cov(X + a, Y + b) = Cov(X , Y )
(Translationsinvarianz)
Cov(X , Y ) = Cov(Y , X )
(Symmetrie)
Cov(X + Z , Y ) = Cov(X , Y ) + Cov(Z , Y )
Cov(X , X ) = Var(X )
X , Y stochastisch unabhängig ⇒ Cov(X , Y ) = 0
Wahrscheinlichkeitsrechnung 2.2
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße V
Rechenregeln: Sind X und Y Zufallsvariablen aus einem Zufallsvektor mit
σX > 0, σY > 0 und a, b ∈ R, so gilt:
1
2
3
4
5
6
7
Korr(aX , bY ) =
Korr(X , Y )
Nachteil“ der Kovarianz:
”
Erreichbare Werte hängen nicht nur von Stärke der linearen Abhängigkeit,
sondern (wie z.B. aus Rechenregel 1 von Folie 37 ersichtlich) auch von der
Streuung von X bzw. Y ab.
Wie in deskriptiver Statistik: Alternatives Abhängigkeitsmaß mit normiertem
Wertebereich“, welches invariant gegenüber Skalierung von X bzw. Y ist.
”
Hierzu Standardisierung der Kovarianz über Division durch
Standardabweichungen von X und Y (falls σX > 0 und σY > 0!).
Cov(X , Y )
σXY
= p
σX · σY
+ Var(X ) · Var(Y )
Ökonometrie (SS 2014)
Folie 38
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung I
Wichtige mehrdimensionale stetige Verteilung: mehrdimensionale
(multivariate) Normalverteilung
falls a · b > 0
Spezifikation am Beispiel der zweidimensionalen (bivariaten)
Normalverteilung durch Angabe einer Dichtefunktion
− Korr(X , Y ) falls a · b < 0
Korr(X + a, Y + b) = Korr(X , Y )
(Translationsinvarianz)
Korr(X , Y ) = Korr(Y , X )
(Symmetrie)
−1 ≤ Korr(X , Y ) ≤ 1
Korr(X , X ) = 1
Korr(X , Y ) =
1
a>0
genau dann, wenn Y = aX + b mit
Korr(X , Y ) = −1
a<0
X , Y stochastisch unabhängig ⇒ Korr(X , Y ) = 0
fX ,Y (x, y ) =
1√
e
2πσX σY 1−ρ2
−
1
2(1−ρ2 )
x−µX
σX
2
−2ρ
x−µX
σX
y −µY
σY
2 y −µ
+ σ Y
Y
abhängig von den Parametern µX , µY ∈ R, σX , σY > 0, ρ ∈ (−1, 1).
Man kann zeigen, dass die Randverteilungen von (X , Y ) dann wieder
(eindimensionale) Normalverteilungen sind, genauer gilt X ∼ N(µX , σX2 ) und
Y ∼ N(µY , σY2 )
Zufallsvariablen X , Y mit Cov(X , Y ) = 0 (!) heißen unkorreliert.
Ökonometrie (SS 2014)
Unabhängigkeit von Zufallsvariablen, Abhängigkeitmaße IV
ρXY := Korr(X , Y ) :=
Folie 37
(
Wahrscheinlichkeitsrechnung 2.2
Man erhält so den Pearsonschen Korrelationskoeffizienten:
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
2 Wiederholung statistischer Grundlagen
Außerdem kann der Zusammenhang Korr(X , Y ) = ρ gezeigt werden.
Folie 39
Ökonometrie (SS 2014)
Folie 40
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung II
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung III
Dichtefunktion der mehrdimensionalen Normalverteilung
Sind fX bzw. fY die wie auf Folie 26 definierten Dichtefunktionen zur
N(µX , σX2 )- bzw. N(µY , σY2 )-Verteilung, so gilt (genau) im Fall ρ = 0
0.06
für alle x, y ∈ R ,
fX ,Y (x, y ) = fX (x) · fY (y )
0.04
f(x,y)
also sind X und Y (genau) für ρ = 0 stochastisch unabhängig.
Auch für ρ 6= 0 sind die bedingten Verteilungen von X |Y = y und Y |X = x
wieder Normalverteilungen, es gilt genauer:
ρσX
X |Y = y ∼ N µX +
(y − µY ), σX2 (1 − ρ2 )
σY
0.02
0.00
6
4
6
y
bzw.
Y |X = x
∼
4
2
ρσY
2
2
(x − µX ), σY (1 − ρ )
N µY +
σX
2
0
0
x
−2
−4
µX = 1, µY = 3, σ2X = 4, σ2Y = 2, ρ = 0.5
Ökonometrie (SS 2014)
Folie 41
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung IV
Ökonometrie (SS 2014)
Folie 42
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung V
Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte
Dichtefunktion der mehrdimensionalen Normalverteilung
0.15
6
0.005
f(x,y)
0.02
0.10
0.03
4
0.04
0.05
0.05
y
0.06
2
0.055
3
0.045
2
0.035
1
0.025
0.015
3
0
2
0
y
0.01
1
−1
0
−1
−2
x
−2
−4
−2
0
2
4
−3 −3
6
x
µX = 1, µY = 3, σ2X = 4, σ2Y = 2, ρ = 0.5
Ökonometrie (SS 2014)
µX = 0, µY = 0, σ2X = 1, σ2Y = 1, ρ = 0
Folie 43
Ökonometrie (SS 2014)
Folie 44
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung VI
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung VII
Dichtefunktion der mehrdimensionalen Normalverteilung
3
Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte
2
0.02
0.10
0.04
0.06
1
0.08
0.1
f(x,y)
0.05
y
0
0.14
0.00
16
14
−1
0.12
12
16
14
y
−2
10
12
8
8
−3
6
10
x
6
4
−3
−2
−1
0
µX = 0, µY = 0,
1
2
3
x
= 1, σ2Y = 1, ρ = 0
σ2X
4
µX = 10, µY = 10, σ2X = 4, σ2Y = 4, ρ = −0.95
Ökonometrie (SS 2014)
Folie 45
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Beispiel: Zweidimensionale Normalverteilung VIII
Ökonometrie (SS 2014)
Folie 46
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente von Summen von Zufallsvariablen I
14
16
Isohöhenlinien der mehrdimensionalen Normalverteilungsdichte
Sind X und Y zwei Zufallsvariablen aus einem Zufallsvektor und a, b, c ∈ R,
so gilt:
E(a · X + b · Y + c) = a · E(X ) + b · E(Y ) + c
0.02
0.03
12
0.05
0.07
0.09
und
y
10
0.11
0.12
Var(aX + bY + c) = a2 Var(X ) + 2ab Cov(X , Y ) + b2 Var(Y )
0.1
8
0.08
0.06
Dies kann für mehr als zwei Zufallsvariablen X1 , . . . , Xn eines Zufallsvektors
weiter verallgemeinert werden!
6
0.04
4
0.01
4
6
8
µX = 10, µY = 10,
Ökonometrie (SS 2014)
10
σ2X
12
14
16
x
= 4, σ2Y = 4, ρ = −0.95
Folie 47
Ökonometrie (SS 2014)
Folie 48
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Momente von Summen von Zufallsvariablen II
Momente von Summen von Zufallsvariablen III
Für einen n-dimensionalen Zufallsvektor X = (X1 , . . . , Xn )0 heißt der
n-dimensionale Vektor
E(X) := [E(X1 ), . . . , E(Xn )]0
In Verallgemeinerung von Folie 48 erhält man für eine gewichtete Summe
Erwartungswertvektor von X und die n × n-Matrix
0
V(X) := E (X − E(X)) · (X − E(X))


E[(X1 − E(X1 )) · (X1 − E(X1 ))] · · · E[(X1 − E(X1 )) · (Xn − E(Xn ))]


..
..
..
:= 

.
.
.
E[(Xn − E(Xn )) · (X1 − E(X1 ))] · · · E[(Xn − E(Xn )) · (Xn − E(Xn ))]


Var(X1 )
Cov(X1 , X2 )
· · · Cov(X1 , Xn−1 )
Cov(X1 , Xn )
 Cov(X2 , X1 )
Var(X2 )
· · · Cov(X2 , Xn−1 )
Cov(X2 , Xn ) 




.
.
.
..
.
..
..
..
..
= 

.


 Cov(Xn−1 , X1 ) Cov(Xn−1 , X2 ) · · ·
Var(Xn−1 )
Cov(Xn−1 , Xn ) 
Cov(Xn , X1 )
Cov(Xn , X2 ) · · · Cov(Xn , Xn−1 )
Var(Xn )
n
X
i=1
n
X
den Erwartungswert E
i=1
die Varianz
Var
(w = (w1 , . . . , wn )0 ∈ Rn )
wi · Xi = w1 · X1 + · · · + wn · Xn
n
X
i=1
wi · Xi
!
=
wi · Xi
n X
n
X
i=1 j=1
=
n
X
i=1
0
!
=
n
X
i=1
wi · E(Xi ) = w0 E(X)
wi · wj · Cov(Xi , Xj )
wi2 · Var(Xi ) + 2
= w V(X)w
n−1 X
n
X
i=1 j=i+1
wi · wj · Cov(Xi , Xj )
(Varianz-)Kovarianzmatrix von X.
Ökonometrie (SS 2014)
Folie 49
2 Wiederholung statistischer Grundlagen
Wahrscheinlichkeitsrechnung 2.2
Summen unabhängig identisch verteilter Zufallsvariablen I
Sind für n ∈ N die Zufallsvariablen X1 , . . . , Xn eines n-dimensionalen
Zufallsvektors stochastisch unabhängig (damit unkorreliert!) und identisch
verteilt ( u.i.v.“ oder Pi.i.d.“) mit E(Xi ) ≡ µX und Var(Xi ) ≡ σX2 , dann gilt
”
”n
für die Summe Yn := i=1 Xi also
E(Yn ) = n · µX
Var(Yn ) = n · σX2
sowie
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
1
n
Pn
Wahrscheinlichkeitsrechnung 2.2
Summen unabhängig identisch verteilter Zufallsvariablen II
Anwendung des zentralen Grenzwertsatzes z.B. dadurch, dass man
näherungsweise (auch falls Xi nicht normalverteilt ist) für
hinreichend großes n ∈ N
I
die N(nµX , nσX2 )-Verteilung für Yn :=
n
X
Xi oder
i=1
und man erhält durch
Yn − nµX
√
Zn :=
=
σX n
Folie 50
Xi − µX √
n
σX
I
i=1
Yn − nµX
√
=
die Standardnormalverteilung für Zn :=
σX n
verwendet.
1
n
Pn
Xi − µX √
n
σX
i=1
Leicht zu merken:
standardisierte Zufallsvariablen (mit E(Zn ) = 0 und Var(Zn ) = 1).
Man verwendet näherungsweise die Normalverteilung mit
passendem“ Erwartungswert und passender“ Varianz!
”
”
Zentraler Grenzwertsatz:
Verteilung von Zn konvergiert für n → ∞ gegen eine N(0, 1)-Verteilung
(Standardnormalverteilung).
iid
Gilt sogar Xi ∼ N(µX , σX2 ), so gilt (exakt!) Zn ∼ N(0, 1) für alle n ∈ N.
Ökonometrie (SS 2014)
Folie 51
Ökonometrie (SS 2014)
Folie 52
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Inhaltsverzeichnis
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Grundidee der schließenden Statistik
(Ausschnitt)
Ziel der schließenden Statistik/induktiven Statistik:
Ziehen von Rückschlüssen auf die
Verteilung einer (größeren) Grundgesamtheit auf Grundlage der
Beobachtung einer (kleineren) Stichprobe.
2
Rückschlüsse auf die Verteilung können sich auch beschränken auf spezielle
Eigenschaften/Kennzahlen der Verteilung, z.B. den Erwartungswert.
Fundament“: Drei Grundannahmen
”
Wiederholung statistischer Grundlagen
Deskriptive Statistik
Wahrscheinlichkeitsrechnung
Schließende Statistik
1
2
3
Der interessierende Umweltausschnitt kann durch eine (ein- oder
mehrdimensionale) Zufallsvariable Y beschrieben werden.
Man kann eine Menge W von Wahrscheinlichkeitsverteilungen angeben, zu der
die unbekannte wahre Verteilung von Y gehört.
Man beobachtet Realisationen x1 , . . . , xn von (Stichproben-)Zufallsvariablen
X1 , . . . , Xn , deren gemeinsame Verteilung in vollständig bekannter Weise von
der Verteilung von Y abhängt.
Ziel ist es also, aus der Beobachtung der n Werte x1 , . . . , xn mit Hilfe des
bekannten Zusammenhangs zwischen den Verteilungen von X1 , . . . , Xn und Y
Aussagen über die Verteilung von Y zu treffen.
Ökonometrie (SS 2014)
Folie 53
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Veranschaulichung“ der schließenden Statistik
”
Grundgesamtheit
Ziehungsverfahren
induziert
Zufallsvariable Y
Verteilung von
führt
Rückschluss auf
Verteilung/Kenngrößen
Ökonometrie (SS 2014)
Schließende Statistik 2.3
Die 1. Grundannahme umfasst insbesondere die Situation, in der die
Zufallsvariable Y einem numerischen Merkmal auf einer endlichen Menge von
Merkmalsträgern entspricht, wenn man mit der Zufallsvariable Y das
Feststellen des Merkmalswerts eines rein zufällig (gleichwahrscheinlich)
ausgewählten Merkmalsträgers beschreibt.
In diesem Fall interessiert man sich häufig für bestimmte Kennzahlen von Y ,
z.B. den Erwartungswert von Y , der dann mit dem arithmetischen Mittel
aller Merkmalswerte übereinstimmt.
Zufallsvariablen
X1, …, Xn
(konkrete)
2 Wiederholung statistischer Grundlagen
Folie 54
Bemerkungen zu den 3 Grundannahmen
Stichprobe
Auswahl der
Ökonometrie (SS 2014)
Ziehung/
Stichprobe
zu
Die Menge W von Verteilungen aus der 2. Grundannahme ist häufig eine
parametrische Verteilungsfamilie, zum Beispiel die Menge aller
Normalverteilungen mit Varianz σ 2 = 22 .
Wir beschränken uns auf sehr einfache Zusammenhänge zwischen der
Verteilung der interessierenden Zufallsvariablen Y und der Verteilung der
Zufallsvariablen X1 , . . . , Xn .
Realisationen
x1, …, xn
Folie 55
Ökonometrie (SS 2014)
Folie 56
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einfache (Zufalls-)Stichprobe
I
Die Realisation x1 , . . . , xn einer Stichprobe hat große Ähnlichkeit mit einer
Urliste zu einem Merkmal aus der deskriptiven Statistik.
Alle Zufallsvariablen X1 , . . . , Xn haben dieselbe Verteilung wie Y .
Die Zufallsvariablen X1 , . . . , Xn sind stochastisch unabhängig.
Zufallsvariablen X1 , . . . , Xn mit diesen beiden Eigenschaften nennt man eine
einfache (Zufalls-)Stichprobe vom Umfang n zu Y .
Eine Stichprobenrealisation x1 , . . . , xn einer solchen einfachen Stichprobe
vom Umfang n erhält man z.B., wenn
I
I
Schließende Statistik 2.3
Stichprobenfunktionen
Einfachster“ Zusammenhang zwischen X1 , . . . , Xn und Y :
”
I
2 Wiederholung statistischer Grundlagen
Y das Werfen eines bestimmten Würfels beschreibt und x1 , . . . , xn die
erhaltenen Punktzahlen sind, wenn man den Würfel n Mal geworfen hat.
Y das Feststellen des Merkmalswerts eines rein zufällig (gleichwahrscheinlich)
ausgewählten Merkmalsträgers beschreibt und x1 , . . . , xn die Merkmalswerte
sind, die man bei n-maliger rein zufälliger Auswahl eines Merkmalsträgers als
zugehörige Merkmalswerte erhalten hat, wobei die Mehrfachauswahl desselben
Merkmalsträgers nicht ausgeschlossen wird.
Die Information aus einer Stichprobe wird in der Regel zunächst mit
sogenannten Stichprobenfunktionen weiter aggregiert; auch diese haben oft
(große) Ähnlichkeit mit Funktionen, die in der deskriptiven Statistik zur
Aggregierung von Urlisten eingesetzt werden.
Interessant sind nicht nur die Anwendung dieser Stichprobenfunktionen auf
bereits vorliegende Stichprobenrealisationen x1 , . . . , xn , sondern auch auf die
Stichprobenzufallsvariablen X1 , . . . , Xn selbst, was dann zu einer neuen
Zufallsvariablen führt!
Bekannteste“ Stichprobenfunktion:
”
n
1X
X :=
Xi
bzw.
n
n
1X
xi
n
x :=
i=1
Ökonometrie (SS 2014)
Folie 57
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Illustration: Realisationen x von X
i=1
Ökonometrie (SS 2014)
Folie 58
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Visualisierung Verteilung X / Zentraler Grenzwertsatz
im Würfelbeispiel“ mit einfachen Stichproben vom Umfang n
”
0.14
pX(xi)
0.04
0.06
0.08
0.10
5
6
0.00
0.02
4
1
2
3
4
5
6
1
2
3
xi
xi
n=4
n=5
n=6
4
5
6
4
5
6
pX(xi)
0.02
0.04
1.75
2.75
3.75
4.75
5.75
0.00
0.02
Ökonometrie (SS 2014)
0.04
0.06
pX(xi)
0.06
0.08
0.08
0.10
xi
xi
Folie 59
0.10
pX(xi)
0.05
0.00
3
0.10
1
Ökonometrie (SS 2014)
n=3
0.12
0.15
0.20
0.15
pX(xi)
0.10
0.00
2
0.12
1
0.00
..
.
3.4
4.2
3.4
4.4
3
3.2
3.4
3.8
4.4
..
.
0.08
2
1
5
5
2
3
5
3
4
..
.
0.06
6
4
3
3
1
6
2
5
4
..
.
pX(xi)
4
4
5
6
4
3
3
1
5
..
.
0.04
3
6
2
5
2
1
4
5
4
..
.
0.02
2
6
2
3
6
3
3
5
5
..
.
n=2
0.00
1
2
3
4
5
6
7
8
9
..
.
n=1
0.05
Beispiel: Verschiedene Realisationen x von X , wenn Y die Punktzahl eines
fairen Würfels beschreibt und wiederholt Stichprobenrealisationen x1 , . . . , x5
vom Umfang n = 5 (durch jeweils 5-maliges Würfeln mit diesem Würfel)
generiert werden:
Stichprobe Nr. x1 x2 x3 x4 x5
x
1
1.8
2.6
3.4
xi
4.2
5
5.8
1
2
3
xi
Folie 60
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Bemerkungen
Schließende Statistik 2.3
(Punkt-)Schätzfunktionen
Für Augenzahl Y eines fairen Würfels gilt: E(Y ) = 3.5.
Realisationen x aus Realisationen einer einfachen Stichprobe vom Umfang n
zu Y schwanken offensichtlich um den Erwartungswert von Y .
Genauer kann leicht gezeigt werden (vgl. Übungsaufgabe!), dass (generell!)
E(X ) = E(Y ) gilt.
Je größer der Stichprobenumfang n ist, desto näher liegen tendenziell die
Realisation von x am Erwartungswert.
Genauer kann leicht gezeigt werden (vgl. Übungsaufgabe!), dass (generell!)
σY
σX = √ gilt und sich somit die Standardabweichung von X halbiert, wenn
n
n vervierfacht wird.
Offensichtlich wird die Näherung der Werteverteilung von X durch eine
Normalverteilung ( Zentraler Grenzwertsatz) immer besser, je größer der
Stichprobenumfang n ist.
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
2 Wiederholung statistischer Grundlagen
Folie 61
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen I
Mit den beschriebenen Eigenschaften scheint X sehr gut geeignet, um auf
Grundlage einer Stichprobenrealisation Aussagen über den Erwartungswert
von Y zu machen (wenn dieser – anders als im Beispiel – unbekannt ist).
Unbekannt wäre der Erwartungswert zum Beispiel auch beim Würfeln
gewesen, wenn man nicht gewusst hätte, ob der Würfel fair ist!
X bzw. x können so unmittelbar zur Schätzung von µY := E(Y ) oder p
bzw. µ verwendet werden; in diesem Zusammenhang nennt man X dann
(Punkt-)Schätzfunktion oder (Punkt-)Schätzer, x die zugehörige
Realisation oder den Schätzwert.
Wegen der Zusammenhänge zwischen Erwartungswert und
Verteilungsparameter (vgl. Folien 20 bzw. 26) können so auch Aussagen über
den Parameter p der Alternativ- bzw. den Parameter µ der Normalverteilung
gewonnen werden. X wird dann auch Parameter(punkt)schätzer genannt.
Ökonometrie (SS 2014)
Folie 62
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen II
Man kann leicht zeigen:
h
i
b = E (θb − θ)2 = Var(θb − θ) +[ E(θb − θ) ]2
MSE(θ)
| {z } | {z }
Im Beispiel offensichtlich: Wer schätzt, macht Fehler!
Zur Untersuchung der Qualität von Punktschätzfunktionen:
b
=Var(θ)
Untersuchung der Verteilung (!) des Schätzfehlers
Zur Vereinheitlichung der Schreibweise: Bezeichnung“
”
b
I
I
b = E(θb − θ) = E(θ)
b − θ wird also die systematische Abweichung
Mit Bias(θ)
(Abweichung im Mittel, Verzerrung) eines Schätzers von der zu schätzenden
Größe bezeichnet.
b = 0 für alle
Gibt es keine solche systematische Abweichung (gilt also Bias(θ)
denkbaren Werte von θ), so nennt man θb erwartungstreu für θ.
q
b wird auch Standardfehler oder Stichprobenfehler von θb genannt.
Var(θ)
θ für die Schätzfunktion
θ für die zu schätzende Größe
Schätzfehler damit also: θb − θ
Offensichtlich wünschenswert: Verteilung des Schätzfehlers nahe bei Null
Gängige Konkretisierung von nahe bei Null“: Erwartete quadratische
”
Abweichung (Englisch: Mean Square Error, MSE)
2 b
b
MSE(θ) := E θ − θ
Bei Schätzung von E(Y ) mit X gilt:
E(X )=E(Y )
σ2
MSE(X ) = E (X − E(Y ))2
=
Var(X ) = σX2 = Y
n
soll möglichst klein sein.
Ökonometrie (SS 2014)
b
=:Bias(θ)
Folie 63
Ökonometrie (SS 2014)
Folie 64
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen III
σY2
n
ist X offensichtlich MSE-konsistent für E(Y ).
Mit der Zerlegung (vgl. Folie 64)
b = Var(θ)
b + [Bias(θ)]
b 2
MSE(θ)
2
die Varianz von θb gegen Null geht als auch
der Bias von θb gegen Null geht
(diese Eigenschaft heißt auch asymptotische Erwartungstreue).
Ökonometrie (SS 2014)
Folie 65
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Schätzung von Var(Y )
bzw.
i=1
n
1X
(xi − x)2
n
i=1
Bei dieser Rechnung wird allerdings klar, dass man mit der leichten
Anpassung
S 2 :=
1
n−1
bzw.
s 2 :=
i=1
1
n−1
n
X
Ökonometrie (SS 2014)
Folie 66
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
i=1
Bisher: Varianz σX2 := Var(X ) (hier gleich mit MSE!) bzw. Standardfehler
q
σX = Var(X ) zur Quantifizierung der Schätzunsicherheit verwendet.
Weitergehender Ansatz:
Nicht nur Momente von X (hier: Varianz), sondern komplette Verteilung
berücksichtigen!
Erinnerung: X entsteht als (durch n dividierte) Summe unabhängig
identisch verteilter
Zufallsvariablen.
X ist N µY ,
(xi − x)2
2
σY
n
-verteilt, falls Xi (bzw. Y ) normalverteilt
(Wahrscheinlichkeitsrechnung!).
X kann näherungsweise als N µY ,
2
σY
n
-verteilt angesehen, falls Xi (bzw. Y )
nicht normalverteilt (Zentraler Grenzwertsatz!).
eine erwartungstreue Schätzfunktion für σY2 erhält.
Ökonometrie (SS 2014)
Eine Schätzfunktion, die in einer vorgegebenen Menge von Schätzfunktionen
mindestens so wirksam ist wie alle anderen Schätzfunktionen, heißt effizient
in dieser Menge von Schätzfunktionen.
(Realisation der) Punktschätzfunktion X für µY beinhaltet (zunächst) keine
Information über die Qualität der Schätzung (bzw. über den zu erwartenden
Schätzfehler).
Man kann allerdings zeigen, dass diese Schätzfunktion nicht erwartungstreu
für die Varianz von Y ist!
n
X
(Xi − X )2
2
e wenn Var(θ)
b ≤ Var(θ)
e für alle denkbaren
θb mindestens so wirksam wie θ,
Werte von θ gilt, und
e wenn darüberhinaus Var(θ)
b < Var(θ)
e für mindestens einen
θb wirksamer als θ,
denkbaren Wert von θ gilt.
Intervallschätzung von µY := E(Y )
Naheliegender Ansatz zur Schätzung der Varianz σY2 = Var(Y ) aus einer
einfachen Stichprobe X1 , . . . , Xn vom Umfang n zu Y : Verwendung der
empirischen Varianz
n
1X
(Xi − X )2
n
Beim Vergleich mehrerer Schätzfunktionen ist es gängig, die Schätzfunktion
vorzuziehen, die den kleineren“ MSE hat.
”
Damit zieht man bei erwartungstreuen Schätzfunktionen die mit geringerer“
”
Varianz vor.
Wichtig hierbei ist, dass man universelle“ Vergleiche zu ziehen hat, also nicht
nur spezielle Situationen (also”spezielle θ) betrachtet. Bei erwartungstreuen
Schätzfunktionen θb und θe heißt
1
ist θb also genau dann konsistent im quadratischen Mittel für θ, wenn jeweils
für alle denkbaren Werte von θ sowohl
1
Schließende Statistik 2.3
(Qualitäts-)Eigenschaften von Schätzfunktionen IV
Naheliegende Mindestanforderung“: Mit wachsendem Stichprobenumfang n
”
sollte der MSE einer vernünftigen Schätzfunktion gegen Null gehen.
Schätzfunktionen θb für θ, die diese Forderung erfüllen, heißen konsistent im
quadratischen Mittel oder MSE-konsistent für θ.
Wegen MSE(X ) =
2 Wiederholung statistischer Grundlagen
Folie 67
Ökonometrie (SS 2014)
Folie 68
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
falls Y ∼ Unif(20, 50)
0.4
N(0,1)
n=4
f(x)
0.0
0.1
0.2
0.3
0.4
0.3
f(x)
0.0
−4
−2
0
2
4
−4
−2
x
N(0,1)
n=12
f(x)
0.0
−2
0
2
4
−4
−2
x
−2
2
4
Ökonometrie (SS 2014)
2
4
0.1
2
4
−4
N(0,1)
n=30
−2
0
2
4
2
4
N(0,1)
n=250
0.3
f(x)
0.0
−4
x
−2
0
x
Folie 71
0
0.1
f(x)
0.0
−4
−2
x
0.1
0.2
f(x)
x
0
0.3
0.4
N(0,1)
n=250
0.1
0
−2
x
0.0
−2
0.0
−4
0.3
0.4
0.3
0.2
0.0
0.1
f(x)
0
x
N(0,1)
n=30
−4
f(x)
0.3
f(x)
0.0
−4
N(0,1)
n=10
0.4
4
falls Y ∼ B(1, 0.5)
0.2
2
x
0.4
0
N(0,1)
n=3
0.2
−2
X −µ √
n,
σ
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=10
0.0
−4
Schließende Statistik 2.3
Beispiel: Näherung für
0.1
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=3
falls Y ∼ Exp(2)
2 Wiederholung statistischer Grundlagen
0.4
X −µ √
n,
σ
Folie 70
0.2
Beispiel: Näherung für
4
Ökonometrie (SS 2014)
0.4
Schließende Statistik 2.3
2
x
0.3
2 Wiederholung statistischer Grundlagen
0
0.2
Folie 69
4
0.1
f(x)
0.2
0.0
−4
Ökonometrie (SS 2014)
2
0.3
0.4
N(0,1)
n=7
0.1
verwendet, da dann Verwendung von Tabellen zur Standardnormalverteilung
möglich.
0
x
0.3
X − µ√ •
n ∼ N(0, 1)
σ
bzw.
0.1
Pauschale Kriterien an den Stichprobenumfang n ( Daumenregeln“, z.B.
”
n ≥ 30) finden sich häufig in der Literatur, sind aber nicht ganz unkritisch.
2
2
•
Verteilungseigenschaft X ∼ N µ, σn bzw. X ∼ N µ, σn wird meistens
(äquivalent!) in der (auch aus dem zentralen Grenzwertsatz bekannten)
Gestalt
X − µ√
n ∼ N(0, 1)
σ
N(0,1)
n=2
0.2
Die Qualität der Näherung durch eine Normalverteilung wird mit
zunehmendem Stichprobenumfang größer, hängt aber ganz entscheidend
von der Verteilung von Y ab!
X −µ √
n,
σ
0.4
Schließende Statistik 2.3
0.2
2 Wiederholung statistischer Grundlagen
Ökonometrie (SS 2014)
2
4
−4
−2
0
2
4
x
Folie 72
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Näherung für
X −µ √
n,
σ
f(x)
0.2
0.3
0.4
N(0,1)
n=10
−2
0
2
4
−4
−2
x
0
2
4
x
I
I
−4
α
2
an (vgl. Übungsaufgabe 2 (c)).
−2
0
2
4
−4
x
−2
0
2
4
x
Ökonometrie (SS 2014)
Folie 73
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Schwankungsintervalle für X II
α
2-
bzw.
das α2 -Quantil durch µ + σ · N α2 und
das 1 − α2 -Quantil durch µ + σ · N1− α2
N α2 = −N1− α2
für Quantile der Standardnormalverteilung erhält man so die Darstellung
µ − σ · N1− α2 , µ + σ · N1− α2
eines um den Erwartungswert µ symmetrischen Intervalls, in dem die
Realisationen der Zufallsvariablen mit Wahrscheinlichkeit 1 − α liegen bzw.
mit Wahrscheinlichkeit α nicht enthalten sind.
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Ist X1 , . . . , Xn eine einfache Stichprobe zumpUmfang n zu Y , und sind
µY = E(Y ) der Erwartungswert und σY = Var(Y ) die Standardabweichung
σ2
Unter Verwendung der Symmetrieeigenschaft
bzw. hier
Folie 74
von Y , so erhält man also unter Verwendung von X ∼ N µY , nY (exakt
oder näherungsweise!) für vorgegebenes 0 < α < 1
σY
σY
P X ∈ µY − √ · N1− α2 , µY + √ · N1− α2
=1−α
n
n
berechnen (vgl. auch Folien 26 und 30).
Nα = −N1−α
Ökonometrie (SS 2014)
Schwankungsintervalle für X III
Für N(µ,
σ 2 )-verteilte Zufallsvariablen lässt sich in Abhängigkeit des
1 − α2 -Quantils N α2 bzw. N1− α2 der N(0, 1)-Verteilung
I
die Verwendung des α2 -Quantils, welches nur mit Wahrscheinlichkeit α2
unterschritten wird, als untere Grenze sowie
die Verwendung des 1 − α2 -Quantils, welches nur mit Wahrscheinlichkeit
überschritten wird, als obere Grenze
0.0
0.0
0.1
0.2
f(x)
0.3
0.4
N(0,1)
n=250
0.2
0.3
0.4
N(0,1)
n=30
0.1
f(x)
Kennt man die Verteilung von X (oder eine geeignete Näherung), kann man
beispielsweise Intervalle angeben, in denen die Realisationen von X (ggf.
näherungsweise) mit einer vorgegebenen Wahrscheinlichkeit liegen.
Sucht man zum Beispiel ein Intervall, aus welchem die Realisationen einer
Zufallsvariablen nur mit einer Wahrscheinlichkeit von 0 < α < 1 herausfallen,
bietet sich
0.0
−4
I
Schließende Statistik 2.3
Schwankungsintervalle für X I
0.1
0.2
0.0
0.1
f(x)
0.3
0.4
N(0,1)
n=3
falls Y ∼ B(1, 0.05)
2 Wiederholung statistischer Grundlagen
Folie 75
und damit das (symmetrische) (1 − α)-Schwankungsintervall
σY
σY
µY − √ · N1− α2 , µY + √ · N1− α2
n
n
von X .
Ökonometrie (SS 2014)
Folie 76
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Schwankungsintervall
I
102
25
Im Beispiel: X ∼ N 50,
Es gelte Y ∼ N(50, 102 ).
Zu Y liege eine einfache Stichprobe X1 , . . . , X25 der Länge n = 25 vor.
Gesucht ist ein 1 − α = 0.95-Schwankungsintervall für X .
0.20
I
Schließende Statistik 2.3
Beispiel: Schwankungsintervall
(Grafische Darstellung)
Aufgabenstellung:
I
2 Wiederholung statistischer Grundlagen
, α = 0.05
X
I
0.10
0.05
benötigt man also nur noch das 1 − α2 = 0.975-Quantil N0.975 der
Standardnormalverteilung. Dies erhält man mit geeigneter Software (oder aus
geeigneten Tabellen) als N0.975 = 1.96.
Insgesamt erhält man also das Schwankungsintervall
10
10
50 − √ · 1.96, 50 + √ · 1.96 = [46.08, 53.92] .
25
25
α 2 = 0.025
µY −
Eine Stichprobenziehung führt also mit einer Wahrscheinlichkeit von 95% zu
einer Realisation x von X im Intervall [46.08, 53.92].
Ökonometrie (SS 2014)
Folie 77
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert I
bei bekannter Varianz
σY
n
N1−α
2
µY
µY +
σY
n
N1−α
2
Ökonometrie (SS 2014)
Folie 78
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konfidenzintervalle für den Erwartungswert II
σ2
bei bekannter Varianz σ 2
In der Praxis interessanter als Schwankungsintervalle für X :
Intervallschätzungen für unbekannte Erwartungswerte µ := µY = E(Y ).
Zunächst: Annahme, dass die Varianz von σ 2 := σY2 = Var(Y ) (und damit
auch Var(X )) bekannt ist.
Für 0 < α < 1 kann die Wahrscheinlichkeitsaussage
σ
σ
α
α
P X ∈ µ − √ · N1− 2 , µ + √ · N1− 2
=1−α
n
n
umgestellt werden zu einer Wahrscheinlichkeitsaussage der Form
σ
σ
α
α
=1−α .
P µ ∈ X − √ · N1− 2 , X + √ · N1− 2
n
n
Dies liefert sogenannte Konfidenzintervalle
σ
σ
α
α
X − √ · N1− 2 , X + √ · N1− 2
n
n
für µ zur Vertrauenswahrscheinlichkeit bzw. zum Konfidenzniveau 1 − α.
Ökonometrie (SS 2014)
α 2 = 0.025
1 − α = 0.95
0.00
I
Es gilt also µY = 50, σY2 = 102 , n = 25 und α = 0.05.
Zur Berechnung des Schwankungsintervalls
σY
σY
µY − √ · N1− α2 , µY + √ · N1− α2
n
n
fX(x)
I
I
0.15
Lösung:
Folie 79
In der resultierenden Wahrscheinlichkeitsaussage
σ
σ
P µ ∈ X − √ · N1− α2 , X + √ · N1− α2
=1−α .
n
n
sind die Intervallgrenzen
σ
X − √ · N1− α2
n
und
σ
X + √ · N1− α2
n
des Konfidenzintervalls zufällig (nicht etwa µ!).
Ziehung einer Stichprobenrealisation liefert also Realisationen der
Intervallgrenzen und damit ein konkretes Konfidenzintervall, welches den
wahren (unbekannten) Erwartungswert µ entweder überdeckt oder nicht.
Die Wahrscheinlichkeitsaussage für Konfidenzintervalle zum Konfidenzniveau
1 − α ist also so zu verstehen, dass man bei der Ziehung der Stichprobe mit
einer Wahrscheinlichkeit von 1 − α ein Stichprobenergebnis erhält, welches zu
einem realisierten Konfidenzintervall führt, das den wahren Erwartungswert
überdeckt.
Ökonometrie (SS 2014)
Folie 80
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel: Konfidenzintervall bei bekannter Varianz σ 2
Folie 81
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Verteilung von X bei unbekanntem σ 2
Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswert
und bekannter Varianz σ 2 = 22 .
Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0.99.
Als Realisation x1 , . . . , x16 einer einfachen Stichprobe X1 , . . . , X16 vom
Umfang n = 16 zu Y liefere die Stichprobenziehung
18.75, 20.37, 18.33, 23.19, 20.66, 18.36, 20.97, 21.48, 21.15, 19.39, 23.02,
20.78, 18.76, 15.57, 22.25, 19.91 ,
was zur Realisationen x = 20.184 von X führt.
Als Realisation des Konfidenzintervalls für µ zum Konfidenzniveau
1 − α = 0.99 erhält man damit insgesamt
σ
σ
α
α
x − √ · N1− 2 , x + √ · N1− 2
n
n
2
2
= 20.184 − √ · 2.576, 20.184 + √ · 2.576
16
16
= [18.896, 21.472] .
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Die Familie der t(n)-Verteilungen
Wie kann man vorgehen, falls die Varianz σ 2 von Y unbekannt ist?
Naheliegender Ansatz: Ersetzen von σ 2 durch eine geeignete Schätzfunktion.
Erwartungstreue Schätzfunktion für σ 2 bereits bekannt:
n
S2 =
1 X
(Xi − X )2
n−1
i=1
Ersetzen von σ durch S =
√
S 2 möglich, Verteilung ändert sich aber:
Satz 2.1
2
Seien Y ∼ N(µ,
q σ ),PX1 , . . . , Xn eine einfache Stichprobe zu Y . Dann gilt mit
√
n
1
2
S := S 2 = n−1
i=1 (Xi − X )
X − µ√
n ∼ t(n − 1) ,
S
wobei t(n − 1) die t-Verteilung mit n − 1 Freiheitsgraden bezeichnet.
Ökonometrie (SS 2014)
Folie 82
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Grafische Darstellung einiger t(n)-Verteilungen
für n ∈ {2, 5, 10, 25, 100}
0.4
0.3
0.2
0.1
t(n)-Verteilungen sind für alle n > 0 symmetrisch um 0. Entsprechend gilt für
p-Quantile der t(n)-Verteilung, die wir im Folgendem mit tn;p abkürzen,
analog zu Standardnormalverteilungsquantilen
N(0,1)
t(2)
t(5)
t(10)
t(25)
t(100)
f(x)
Die Familie der t(n)-Verteilungen mit n > 0 ist eine spezielle Familie stetiger
Verteilungen. Der Parameter n wird meist Anzahl der Freiheitsgrade“
”
( degrees of freedom“) genannt.
”
t-Verteilungen werden (vor allem in englischsprachiger Literatur) oft auch als
Student’s t distribution“ bezeichnet; Student“ war das Pseudonym, unter
”
”
dem William Gosset die erste Arbeit zur t-Verteilung in englischer Sprache
veröffentlichte.
bzw.
tn;1−p = −tn;p
0.0
tn;p = −tn;1−p
für alle p ∈ (0, 1)
Für wachsendes n nähert sich die t(n)-Verteilung der
Standardnormalverteilung an.
Ökonometrie (SS 2014)
−4
−2
0
2
4
x
Folie 83
Ökonometrie (SS 2014)
Folie 84
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
2 Wiederholung statistischer Grundlagen
Konfidenzintervalle für den Erwartungswert I
Konfidenzintervalle für den Erwartungswert II
bei unbekannter Varianz σ 2
bei unbekannter Varianz σ 2
Benötigte Quantile tn−1;1− α2 können ähnlich wie bei der
Standardnormalverteilung z.B. mit der Statistik-Software R ausgerechnet
werden oder aus geeigneten Tabellen abgelesen werden.
Konstruktion von Konfidenzintervallen für µ bei unbekannter Varianz
σ 2 = Var(Y ) ganz analog zur Situation mit bekannter Varianz, lediglich
√
S2 =
q
1
Ersetzen von σ durch S =
2
Ersetzen von N1− α2 durch tn−1;1− α2
1
n−1
Pn
i=1 (Xi
Schließende Statistik 2.3
Mit R erhält man z.B. t15;0.975 durch
> qt(0.975,15)
− X )2
erforderlich.
[1] 2.13145
Resultierendes Konfidenzintervall für µ zur Vertrauenswahrscheinlichkeit
bzw. zum Konfidenzniveau 1 − α:
S
S
X − √ · tn−1;1− α2 , X + √ · tn−1;1− α2
n
n
Mit zunehmendem n werden die Quantile der t(n)-Verteilungen betragsmäßig
kleiner und nähern sich den Quantilen der Standardnormalverteilung an.
Ökonometrie (SS 2014)
Folie 85
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 86
Schließende Statistik 2.3
Beispiel: Konfidenzintervall bei unbekanntem σ 2
Quantile der t-Verteilungen: tn;p
Ökonometrie (SS 2014)
Ist Y und sind damit die Xi nicht normalverteilt, erlaubt der zentrale
Grenzwertsatz dennoch die näherungsweise Verwendung einer
√
t(n − 1)-Verteilung für X −µ
n und damit auch die Berechnung von
S
(approximativen) Konfidenzintervallen.
n\p
0.85
0.90
0.95
0.975
0.99
0.995
0.9995
1
2
3
4
5
1.963
1.386
1.250
1.190
1.156
3.078
1.886
1.638
1.533
1.476
6.314
2.920
2.353
2.132
2.015
12.706
4.303
3.182
2.776
2.571
31.821
6.965
4.541
3.747
3.365
63.657
9.925
5.841
4.604
4.032
636.619
31.599
12.924
8.610
6.869
6
7
8
9
10
1.134
1.119
1.108
1.100
1.093
1.440
1.415
1.397
1.383
1.372
1.943
1.895
1.860
1.833
1.812
2.447
2.365
2.306
2.262
2.228
3.143
2.998
2.896
2.821
2.764
3.707
3.499
3.355
3.250
3.169
5.959
5.408
5.041
4.781
4.587
11
12
13
14
15
1.088
1.083
1.079
1.076
1.074
1.363
1.356
1.350
1.345
1.341
1.796
1.782
1.771
1.761
1.753
2.201
2.179
2.160
2.145
2.131
2.718
2.681
2.650
2.624
2.602
3.106
3.055
3.012
2.977
2.947
4.437
4.318
4.221
4.140
4.073
20
25
30
40
50
1.064
1.058
1.055
1.050
1.047
1.325
1.316
1.310
1.303
1.299
1.725
1.708
1.697
1.684
1.676
2.086
2.060
2.042
2.021
2.009
2.528
2.485
2.457
2.423
2.403
2.845
2.787
2.750
2.704
2.678
3.850
3.725
3.646
3.551
3.496
100
200
500
1000
5000
1.042
1.039
1.038
1.037
1.037
1.290
1.286
1.283
1.282
1.282
1.660
1.653
1.648
1.646
1.645
1.984
1.972
1.965
1.962
1.960
2.364
2.345
2.334
2.330
2.327
2.626
2.601
2.586
2.581
2.577
3.390
3.340
3.310
3.300
3.292
Die Zufallsvariable Y sei normalverteilt mit unbekanntem Erwartungswert
und unbekannter Varianz.
Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0.95.
Als Realisation x1 , . . . , x9 einer einfachen Stichprobe X1 , . . . , X9 vom Umfang
n = 9 zu Y liefere die Stichprobenziehung
28.12, 30.55, 27.49, 34.79, 30.99, 27.54, 31.46, 32.21, 31.73 ,
was zur
√ Realisationen x = 30.542 von X und zur Realisation s = 2.436 von
S = S 2 führt.
Als Realisation des Konfidenzintervalls für µ zum Konfidenzniveau
1 − α = 0.95 erhält man damit insgesamt
s
s
α
α
x − √ · tn−1;1− 2 , x + √ · tn−1;1− 2
n
n
2.436
2.436
= 30.542 − √ · 2.306, 30.542 + √ · 2.306
9
9
= [28.67, 32.414] .
Folie 87
Ökonometrie (SS 2014)
Folie 88
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Hypothesentests
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einführendes Beispiel I
Bisher betrachtet:
Punkt- bzw. Intervallschätzung des unbekannten Mittelwerts
Hierzu: Verwendung der
1
2
Interessierende Zufallsvariable Y :
Von einer speziellen Abfüllmaschine abgefüllte Inhaltsmenge von
Müslipackungen mit Soll-Inhalt µ0 = 500 (in [g ]).
theoretischen Information über Verteilung von X
empirischen Information aus Stichprobenrealisation x von X
zur Konstruktion einer
I
I
Punktschätzung
Intervallschätzung, bei der jede Stichprobenziehung mit einer vorgegebenen
Chance ein realisiertes (Konfidenz-)Intervall liefert, welches den (wahren)
Mittelwert (Erwartungswert) enthält.
Nächste Anwendung (am Beispiel des Erwartungswerts): Hypothesentests:
Entscheidung, ob der (unbekannte!) Erwartungswert von Y in einer
vorgegebenen Teilmenge der denkbaren Erwartungswerte liegt
( Nullhypothese“ H0 ) oder nicht ( Gegenhypothese/Alternative“ H1 ).
”
”
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 89
Schließende Statistik 2.3
Einführendes Beispiel II
Verteilungsannahme:
Y ∼ N(µ, 42 ) mit unbekanntem Erwartungswert µ = E (Y ).
Es liege eine Realisation x1 , . . . , x16 einer einfachen Stichprobe X1 , . . . , X16
vom Umfang n = 16 zu Y vor.
Ziel: Verwendung der Stichprobeninformation (über X bzw. x), um zu
entscheiden, ob die tatsächliche mittlere Füllmenge (also der wahre,
unbekannte Parameter µ) mit dem Soll-Inhalt µ0 = 500 übereinstimmt
(H0 : µ = µ0 = 500) oder nicht (H1 : µ 6= µ0 = 500).
Ökonometrie (SS 2014)
Folie 90
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Verteilungen von X
0.4
für verschiedene Erwartungswerte µ bei σ = 4 und n = 16
Also: Entscheidung für Nullhypothese H0 : µ = 500, wenn x nahe bei 500,
und gegen H0 : µ = 500 (also für die Gegenhypothese H1 : µ 6= 500), wenn x
weit weg von 500.
Aber: Wo ist die Grenze zwischen in der Nähe“ und weit weg“? Wie kann
”
”
eine geeignete“ Entscheidungsregel konstruiert werden?
”
0.2
0.1
I
0.0
I
X schwankt um den wahren Mittelwert µ; selbst wenn H0 : µ = 500 gilt, wird
X praktisch nie genau den Wert x = 500 annehmen!
Realisationen x in der Nähe“ von 500 sprechen eher dafür, dass H0 : µ = 500
”
gilt.
Realisationen x weit weg“ von 500 sprechen eher dagegen, dass H0 : µ = 500
”
gilt.
fX(x|µ)
I
µ = 500
µ = 494
µ = 499
µ = 503
0.3
Offensichlich gilt:
494
496
498
500
502
504
506
x
Ökonometrie (SS 2014)
Folie 91
Ökonometrie (SS 2014)
Folie 92
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für nahe“ Grenze
”
Fällen einer Entscheidung zwischen H0 : µ = 500 und H1 : µ 6= 500 führt zu
genau einer der folgenden vier verschiedenen Situationen:
I
0.1
Wünschenswert:
Sowohl Fehler 1. Art“ als auch Fehler 2. Art“ möglichst selten begehen.
”
”
Aber: Zielkonflikt vorhanden:
Je näher Grenze zwischen in der Nähe“ und weit weg“ an µ0 = 500, desto
”
”
I
0.2
0.3
Tatsächliche Situation:
H1 wahr (µ 6= 500)
Fehler
2. Art
richtige
Entscheidung
µ = 500
µ = 494
µ = 499
µ = 503
0.0
Tatsächliche Situation:
H0 wahr (µ = 500)
richtige
Entscheidung
Fehler
1. Art
Für µ 6= 500 (gegen µ = 500) entscheiden, wenn Abstand zwischen x und 500 größer als 1
fX(x|µ)
Entscheidung
für H0 (µ = 500)
Entscheidung
für H1 (µ 6= 500)
Schließende Statistik 2.3
0.4
Entscheidungsproblem
2 Wiederholung statistischer Grundlagen
seltener Fehler 2. Art
häufiger Fehler 1. Art
494
496
498
500
502
504
506
x
und umgekehrt für fernere Grenzen zwischen in der Nähe“ und weit weg“.
”
”
Ökonometrie (SS 2014)
Folie 93
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
0.4
Beispiel für ferne“ Grenze
”
Für µ 6= 500 (gegen µ = 500) entscheiden, wenn Abstand zwischen x und 500 größer als 3
2 Wiederholung statistischer Grundlagen
Folie 94
Schließende Statistik 2.3
Konstruktion einer Entscheidungsregel I
µ = 500
µ = 494
µ = 499
µ = 503
0.3
Unmöglich, Wahrscheinlichkeiten der Fehler 1. Art und 2. Art gleichzeitig für
alle möglichen Situationen (also alle denkbaren µ) zu verringern.
Übliche Vorgehensweise: Fehler(wahrscheinlichkeit) 1. Art kontrollieren!
0.2
Also: Vorgabe einer kleinen Schranke α ( Signifikanzniveau“) für die
”
Wahrscheinlichkeit, mit der man einen Fehler 1. Art (also eine Entscheidung
gegen H0 , obwohl H0 wahr ist) begehen darf.
Festlegung der Grenze zwischen in der Nähe“ und weit weg“ so, dass man
”
”
den Fehler 1. Art nur mit Wahrscheinlichkeit α begeht, also die Realisation x
bei Gültigkeit von µ = µ0 = 500 nur mit einer Wahrscheinlichkeit von α
jenseits der Grenzen liegt, bis zu denen man sich für µ = µ0 = 500
entscheidet!
0.0
0.1
fX(x|µ)
Ökonometrie (SS 2014)
494
496
498
500
502
504
506
x
Ökonometrie (SS 2014)
Folie 95
Ökonometrie (SS 2014)
Folie 96
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Konstruktion einer Entscheidungsregel II
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für Grenze zum Signifikanzniveau α = 0.05
0.4
Grenzen aus Schwankungsintervall zur Sicherheitswahrscheinlichkeit 1 − α = 0.95
0.2
0.1
0.0
σ
σ
P X ∈ µ0 − √ · N1− α2 , µ0 + √ · N1− α2
=1−α .
n
n
fX(x|µ)
Gilt tatsächlich µ = µ0 , dann natürlich auch E(X ) = µ0 , und man erhält
den gesuchten Bereich gerade als Schwankungsintervall (vgl. Folie 76)
σ
σ
µ0 − √ · N1− α2 , µ0 + √ · N1− α2
n
n
mit
µ = 500
µ = 494
µ = 499
µ = 503
0.3
Gesucht ist also ein Bereich, in dem sich X bei Gültigkeit von
H0 : µ = µ0 = 500 mit einer Wahrscheinlichkeit von 1 − α realisiert (und
damit nur mit Wahrscheinlichkeit α außerhalb liegt!).
494
496
498
500
502
504
506
x
Ökonometrie (SS 2014)
Folie 97
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel I
Ökonometrie (SS 2014)
Folie 98
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel II
Bei einem Signifikanzniveau von α = 0.05 entscheidet man sich im Beispiel
also für H0 : µ = µ0 = 500 genau dann, wenn die Realisation x von X im
Intervall
4
4
500 − √ · N0.975 , 500 + √ · N0.975 = [498.04, 501.96] ,
16
16
dem sog. Annahmebereich des Hypothesentests, liegt.
Statt Entscheidungsregel auf Grundlage der Realisation x von X (unter
2
Verwendung der Eigenschaft X ∼ N(µ0 , σn ) falls µ = µ0 ) üblicher:
Äquivalente Entscheidungsregel auf Basis der sog. Testgröße oder
Teststatistik
X − µ0 √
N :=
n.
σ
Entsprechend fällt die Entscheidung für H1 : µ 6= 500 (bzw. gegen
H0 : µ = 500) aus, wenn die Realisation x von X in der Menge
Bei Gültigkeit von H0 : µ = µ0 ensteht N als Standardisierung von X und
ist daher daher (für µ = µ0 ) standardnormalverteilt:
(−∞, 498.04) ∪ (501.96, ∞) ,
X − µ0 √
n ∼ N(0, 1)
σ
dem sog. Ablehnungsbereich oder kritischen Bereich des Hypothesentests,
liegt.
falls µ = µ0
Durch Angabe eines dieser Bereiche ist die Entscheidungsregel offensichtlich
schon vollständig spezifiziert!
Ökonometrie (SS 2014)
Folie 99
Ökonometrie (SS 2014)
Folie 100
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel III
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Entscheidung im Beispiel IV
Man rechnet leicht nach:
σ
σ
X − µ0 √
X ∈ µ0 − √ · N1− α2 , µ0 + √ · N1− α2 ⇔
n ∈ −N1− α2 , N1− α2
σ
n
n
√
0
Als
A für die Testgröße N = X −µ
n erhält man also
σ
Annahmebereich
−N1− α2 , N1− α2 , als kritischen Bereich K entsprechend
K = R\A = −∞, −N1− α2 ∪ N1− α2 , ∞
und damit eine Formulierung der Entscheidungsregel auf Grundlage von N.
Man kann ( Veranstaltung Schließende Statistik“) die Verteilung von X
”
bzw. N auch in der Situation µ 6= µ0 (also bei Verletzung von H0 ) näher
untersuchen. Damit lassen sich dann auch (von µ abhängige!)
Fehlerwahrscheinlichkeiten 2. Art berechnen.
Im Beispiel erhält man so zu den betrachteten Szenarien (also
unterschiedlichen wahren Parametern µ):
Wahrscheinlichkeit der
Wahrscheinlichkeit der
Annahme von µ = 500 Ablehnung von µ = 500
P{N ∈ A}
P{N ∈ K }
µ = 500
0.95
0.05
µ = 494
0
1
µ = 499
0.8299
0.1701
µ = 503
0.1492
0.8508
(Fettgedruckte Wahrscheinlichkeiten entsprechen korrekter Entscheidung.)
Test aus dem Beispiel heißt auch zweiseitiger Gauß-Test für den
”
Erwartungswert einer Zufallsvariablen mit bekannter Varianz“.
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 101
Schließende Statistik 2.3
Zweiseitiger Gauß-Test für den Ewartungswert
Ökonometrie (SS 2014)
2 Wiederholung statistischer Grundlagen
Folie 102
Schließende Statistik 2.3
Beispiel: Qualitätskontrolle (Länge von Stahlstiften)
bei bekannter Varianz
Anwendung
als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt,
als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ 2 .
Testrezept“ des zweiseitigen Tests:
”
1
Hypothesen: H0 : µ = µ0 gegen H1 : µ 6= µ0 für ein vorgegebenes µ0 ∈ R.
2
Teststatistik:
N :=
3
4
5
X − µ0 √
•
n mit N ∼ N(0, 1) (bzw. N ∼ N(0, 1)), falls H0 gilt (µ = µ0 ).
σ
Kritischer Bereich zum Signifikanzniveau α:
K = −∞, −N1− α2 ∪ N1− α2 , ∞
Berechnung der realisierten Teststatistik N
Entscheidung: H0 ablehnen ⇔ N ∈ K .
Ökonometrie (SS 2014)
Folie 103
Untersuchungsgegenstand: Weicht die mittlere Länge der von einer
bestimmten Maschine produzierten Stahlstifte von der Solllänge µ0 = 10 (in
[cm]) ab, so dass die Produktion gestoppt werden muss?
Annahmen: Für Länge Y der produzierten Stahlstifte gilt: Y ∼ N(µ, 0.42 )
Stichprobeninformation: Realisation einer einfachen Stichprobe vom Umfang
n = 64 zu Y liefert Stichprobenmittel x = 9.7.
Gewünschtes Signifikanzniveau (max. Fehlerwahrscheinlichkeit 1. Art):
α = 0.05
Geeigneter Test:
(Exakter) Gauß-Test für den Mittelwert bei bekannter Varianz
1
Hypothesen: H0 : µ = µ0 = 10 gegen H1 : µ 6= µ0 = 10
√
0
2
Teststatistik: N = X −µ
n ∼ N(0, 1), falls H0 gilt (µ = µ0 )
σ
3
Kritischer Bereich zum Niveau α = 0.05:
K = (−∞, −N0.975 ) ∪ (N0.975 , ∞) = (−∞, −1.96) ∪ (1.96, ∞)
√
4
Realisierter Wert der Teststatistik: N = 9.7−10
64 = −6
0.4
5
Entscheidung: N ∈ K
H0 wird abgelehnt und die Produktion gestoppt.
Ökonometrie (SS 2014)
Folie 104
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Einseitige Gauß-Tests für den Ewartungswert I
Einseitige Gauß-Tests für den Ewartungswert II
bei bekannter Varianz
bei bekannter Varianz
Auch für einseitige Tests fasst Teststatistik
Neben zweiseitigem Test auch zwei einseitige Varianten:
H0 : µ ≤ µ0
H0 : µ ≥ µ0
gegen
H1 : µ > µ0
(rechtsseitiger Test)
gegen
H1 : µ < µ0
(linksseitiger Test)
N=
Konstruktion der Tests beschränkt Wahrscheinlichkeit, H0 fälschlicherweise
abzulehnen, auf das Signifikanzniveau α.
Entscheidung zwischen beiden Varianten daher wie folgt:
die empirische Information über den Erwartungswert µ geeignet zusammen.
Allerdings gilt nun offensichtlich
I
2 Wiederholung statistischer Grundlagen
Folie 105
Schließende Statistik 2.3
im Falle des rechtsseitigen Tests von
H0 : µ ≤ µ0
H0 : Nullhypothese ist in der Regel die Aussage, die von vornherein als
glaubwürdig gilt und die man beibehält, wenn das Stichprobenergebnis bei
Gültigkeit von H0 nicht sehr untypisch bzw. überraschend ist.
H1 : Gegenhypothese ist in der Regel die Aussage, die man statistisch absichern
möchte und für deren Akzeptanz man hohe Evidenz fordert.
Die Entscheidung für H1 hat typischerweise erhebliche Konsequenzen, so dass
man das Risiko einer fälschlichen Ablehnung von H0 zugunsten von H1
kontrollieren will.
Ökonometrie (SS 2014)
X − µ0 √
n
σ
I
gegen
H1 : µ > µ0 ,
dass große (insbesondere positive) Realisationen von N gegen H0 und für H1
sprechen, sowie
im Falle des linksseitigen Tests von
H0 : µ ≥ µ0
gegen
H1 : µ < µ0 ,
dass kleine (insbesondere negative) Realisationen von N gegen H0 und für
H1 sprechen.
Ökonometrie (SS 2014)
Folie 106
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Beispiel für Verteilungen von N
bei bekannter Varianz
Rechtsseitiger Test (µ0 = 500) zum Signifikanzniveau α = 0.05
0.4
Rechtsseitiger Gauß-Test für den Ewartungswert I
Um die Fehlerwahrscheinlichkeit 2. Art unter Einhaltung der Bedingung an
die Fehlerwahrscheinlichkeit 1. Art möglichst klein zu halten, wird kα gerade
so gewählt, dass P{N ∈ (kα , ∞)} = α für µ = µ0 gilt.
0.2
0.1
0.0
Offensichtlich wird P{N ∈ (kα , ∞)} mit wachsendem µ größer, es genügt
also, die Einhaltung der Bedingung P{N ∈ (kα , ∞)} ≤ α für das
größtmögliche µ mit der Eigenschaft µ ≤ µ0 , also µ = µ0 , zu gewährleisten.
fN(x|µ)
Konkreter sucht man bei rechtsseitigen Tests einen Wert kα mit
P{N ∈ (kα , ∞)} ≤ α für alle µ ≤ µ0 .
Man rechnet leicht nach, dass kα = N1−α gelten muss, und erhält damit
insgesamt den kritischen Bereich K = (N1−α , ∞) für den rechtsseitigen Test.
Ökonometrie (SS 2014)
Folie 107
µ = 500
µ = 499
µ = 502
µ = 504
0.3
Noch nötig zur Konstruktion der Tests:
Geeignetes Verfahren zur Wahl der kritischen Bereiche so, dass
Wahrscheinlichkeit für Fehler 1. Art durch vorgegebenes Signifikanzniveau α
beschränkt bleibt.
−6
−4
−2
0
2
4
6
x
Ökonometrie (SS 2014)
Folie 108
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Rechtsseitiger Gauß-Test für den Ewartungswert II
Linksseitiger Gauß-Test für den Ewartungswert I
bei bekannter Varianz
bei bekannter Varianz
Anwendung
als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt,
Für linksseitigen Test muss zur Konstruktion des kritischen Bereichs ein
kritischer Wert bestimmt werden, den die Teststatistik N im Fall der
Gültigkeit von H0 maximal mit einer Wahrscheinlichkeit von α unterschreitet.
2
als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ .
Testrezept“ des rechtsseitigen Tests:
”
1
Hypothesen: H0 : µ ≤ µ0 gegen H1 : µ > µ0 für ein vorgegebenes µ0 ∈ R.
2
Offensichtlich wird P{N ∈ (−∞, kα )} mit fallendem µ größer, es genügt
also, die Einhaltung der Bedingung P{N ∈ (−∞, kα )} ≤ α für das
kleinstmögliche µ mit µ ≥ µ0 , also µ = µ0 , zu gewährleisten.
Teststatistik:
N :=
3
Gesucht ist also ein Wert kα mit P{N ∈ (−∞, kα )} ≤ α für alle µ ≥ µ0 .
X − µ0 √
•
n mit N ∼ N(0, 1) (N ∼ N(0, 1)), falls H0 gilt (mit µ = µ0 ).
σ
Um die Fehlerwahrscheinlichkeit 2. Art unter Einhaltung der Bedingung an
die Fehlerwahrscheinlichkeit 1. Art möglichst klein zu halten, wird kα gerade
so gewählt, dass P{N ∈ (−∞, kα )} = α für µ = µ0 gilt.
Kritischer Bereich zum Signifikanzniveau α:
Man rechnet leicht nach, dass kα = Nα = −N1−α gelten muss, und erhält
damit insgesamt den kritischen Bereich K = (−∞, −N1−α ) für den
linksseitigen Test.
K = (N1−α , ∞)
4
Berechnung der realisierten Teststatistik N
5
Entscheidung: H0 ablehnen ⇔ N ∈ K .
Ökonometrie (SS 2014)
Folie 109
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Ökonometrie (SS 2014)
Folie 110
2 Wiederholung statistischer Grundlagen
Schließende Statistik 2.3
Linksseitiger Gauß-Test für den Ewartungswert II
Linksseitiger Test (µ0 = 500) zum Signifikanzniveau α = 0.05
bei bekannter Varianz
0.4
Beispiel für Verteilungen von N
Anwendung
µ = 500
µ = 496
µ = 498
µ = 501
als exakter Test, falls Y normalverteilt und Var(Y ) = σ 2 bekannt,
Testrezept“ des linksseitigen Tests:
”
1
Hypothesen: H0 : µ ≥ µ0 gegen H1 : µ < µ0 für ein vorgegebenes µ0 ∈ R.
2
0.2
fN(x|µ)
0.3
als approximativer Test, falls Y beliebig verteilt mit bekannter Varianz σ 2 .
Teststatistik:
0.1
N :=
3
X − µ0 √
•
n mit N ∼ N(0, 1) (N ∼ N(0, 1)), falls H0 gilt (mit µ = µ0 ).
σ
Kritischer Bereich zum Signifikanzniveau α:
0.0
K = (−∞, −N1−α )
−6
−4
−2
0
2
4
6
x
Ökonometrie (SS 2014)
Folie 111
4
Berechnung der realisierten Teststatistik N
5
Entscheidung: H0 ablehnen ⇔ N ∈ K .
Ökonometrie (SS 2014)
Folie 112
Herunterladen