X - Lehrstuhl für Wirtschafts

Werbung
1
Lehrstuhl für Wirtschafts- und Sozialstatistik
Prof. Dr. Peter Kischka
Vorlesung Statistische Inferenz
WS 13/14
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
2
I
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
Grundlagen der Wahrscheinlichkeitstheorie ................ 5
Wahrscheinlichkeitsraum .................................................. 5
Eindimensionale Zufallsvariablen und ihre Verteilung ..... 6
Grundlegende Eigenschaften von Verteilungen................. 8
Diskrete Zufallsvariablen ................................................ 10
Stetige Zufallsvariablen ................................................... 11
Funktionen von Zufallsvariablen ..................................... 12
Erwartungswert von Zufallsvariablen .............................. 13
Varianz von Zufallsvariablen .......................................... 15
α- Quantil einer Zufallsvariablen .................................... 17
Tschebyscheffsche Ungleichung ..................................... 18
Mehrdimensionale ZVen ................................................. 19
Diskrete mehrdimensionale ZV ....................................... 21
Stetige mehrdimensionale ZVen...................................... 22
Randverteilung ................................................................ 23
Bedingte Verteilungen ..................................................... 25
Gestutzte Verteilungen .................................................... 28
Satz von Bayes ................................................................ 30
Unabhängige ZVen .......................................................... 31
Austauschbare ZVen........................................................ 34
Kovarianz und Korrelation .............................................. 35
Summe zweier ZVen ....................................................... 38
Bedingter Erwartungswert und bedingte Erwartung ....... 41
Spezielle diskrete Verteilungen ....................................... 43
Spezielle stetige Verteilungen ......................................... 46
Mehrdimensionale Normalverteilung .............................. 49
Gesetz der großen Zahlen ................................................ 52
Zentraler Grenzwertsatz .................................................. 53
Hauptsatz der Statistik ..................................................... 55
II
1
2
Stichprobenpläne ........................................................... 56
Einfache Stichprobe ohne Zurücklegen: Grundlagen ...... 56
Zugehörigkeitsfunktionen ................................................ 58
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
3
3
4
5
6
7
8
Schätzfunktionen ............................................................. 59
Notwendiger Stichprobenumfang .................................... 60
Geschichtete Stichproben: Grundlagen............................ 61
Proportionale geschichtete Stichproben ........................... 62
Schichtungseffekt ............................................................ 63
Gebundene Hochrechnung............................................... 64
III
1
2
3
4
5
6
7
8
9
10
11
12a
Induktive Statistik ......................................................... 65
Stichprobenfunktionen..................................................... 65
Parameterabhängige Verteilungen ................................... 67
Likelihoodfunktion .......................................................... 68
Maximum-Likelihood-Schätzfunktion ............................ 68
Bayessche Schätzfunktion ............................................... 69
Punktschätzungen ............................................................ 70
Parametertest: Grundlagen............................................... 72
Bester Test zum Niveau α ............................................... 73
Tests für den Erwartungswert einer Normalverteilung .... 75
Test für den Parameter einer Binomialverteilung ............ 77
Allgemeines Vorgehen bei Signifikanztests .................... 79
Vorzeichentest ................................................................. 80
12b χ -Anpassungstest ......................................................... 81
13 Konfidenzintervalle: Grundlagen .................................... 83
14 Beste Konfidenzintervalle für den Erwartungswert einer
Normalverteilung ............................................................. 84
15 Konfidenzintervall für den Parameter θ einer
Binomialverteilung .......................................................... 86
16 Konfidenzintervall für den Erwartungswert bei
beliebigen Verteilungen ................................................... 89
17 Konfidenzintervall für die Varianz einer Normalverteilung ......................................................................... 90
18 Konfidenzintervall für die Korrelation zweier
Normalverteilungen ......................................................... 91
2
Vorlesung Statistische Inferenz
IV
1
2
3
4
5
6
7
8
8A
9
10
11
12
13
14
15
V
1
2
3
4
5
6
7
8
9
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
4
Regressionsverfahren .................................................... 92
Standardmodell I der einfachen linearen Regression ....... 92
Standardmodell II der einfachen linearen Regression...... 93
KQ-Methode .................................................................... 94
Eigenschaften der KQ-Schätzfunktion ............................ 96
Alternative Darstellungen ................................................ 98
Verteilung der KQ-Schätzfunktionen unter Normalverteilungsannahmen ..................................................... 100
Tests und Konfidenzintervalle für die Parameter der
Regression ..................................................................... 101
Gauss-Markov-Theorem ................................................ 102
Residuen und Bestimmtheitsmaß................................... 103
Multiple lineare Regression ........................................... 106
KQ-Schätzwerte ............................................................ 107
Bestimmtheitsmaß ......................................................... 108
Tests und Konfidenzintervalle für die KQ-Schätzwerte 109
Dichotome abhängige Variablen ................................... 111
Logitmodell ................................................................... 113
Marginale Effekte im Logitmodell ................................ 114
Statistische Entscheidungstheorie .............................. 115
’Bausteine’ der Statistischen Entscheidungstheorie....... 115
Minimax-Entscheidungsfunktionen ............................... 117
Bayes’sche Entscheidungen........................................... 119
Bayes’sche Entscheidungsfunktionen............................ 120
A priori und a posteriori Verteilung .............................. 122
Konstruktion von Bayes’scher Entscheidungsfunktion . 123
Kosten der Information .................................................. 124
Aufeinanderfolgende Informationsbeschaffung............. 125
Bayes’sche Entscheidungsfunktionen und Punktschätzungen ................................................................... 126
10 Bayes’sche Entscheidungsfunktionen und Tests ........... 127
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
I
Grundlagen der Wahrscheinlichkeitstheorie
1
Wahrscheinlichkeitsraum
(Ω, ε, P)
Wahrscheinlichkeitsraum
Ω Menge der möglichen Ergebnisse
ε
σ -Algebra auf Ω ,
d.h.
ε ist eine Menge von Teilmengen von Ω mit
folgenden Eigenschaften:
i)
∅ ∈ε
ii)
A ∈ ε ⇒ Ac ∈ ε
ε
iii) A i ∈
=
(i 1, 2,) ⇒ ∪ Ai ∈
P
i
Wahrscheinlichkeitsmaß auf
ε
ε,
d.h.
i)
P(A) ∈ [0,1] für alle A ∈ ε
ii)
P(Ω) =1
iii) A1 , A 2 , ∈
ε,
Ai ∩ A j =
∅ für i ≠ j
⇒ P(∪ Ai ) =
∑ P(Ai )
i
i
5
Vorlesung Statistische Inferenz
2
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Eindimensionale Zufallsvariablen und ihre Verteilung
(Ω, ε, P) sei ein Wahrscheinlichkeitsraum
_________
X : Ω → IR heißt Zufallsvariable (ZV), falls für alle
Intervalle I gilt:
X −1 (I) :=
{ω∈ Ω | X(ω) ∈ I} ∈ ε
___
Sei X ZV. Die Verteilung PX von X ist gegeben durch
PX (I) : = P(X −1 (I))
=
P({ω∈ Ω | X(ω) ∈ I})
für alle Intervalle I
___
6
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Schreibweise:
PX (I)=
P(X ∈ I)
PX ([a, b])
=
P(a ≤ X ≤ b)
Ist I einpunktig, I = {x}
PX=
(I) P(X
= x) .
___
Sei X ZV
FX : IR → [0,1]
x → P(X ≤ x)
mit P(X ≤ x)
= PX (] − ∞, x])
= P({ω∈ Ω | X(ω) ≤ x}) heißt
Verteilungsfunktion (VF) von X.
Wenn keine Verwechslungen möglich sind, wird F statt FX
verwendet.
7
Vorlesung Statistische Inferenz
3
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Grundlegende Eigenschaften von Verteilungen
ε
X sei ZV auf (Ω, , P)
Sei X(Ω
=
)
{X(ω) | ω∈ Ω} ⊂ [a, b].
Dann gilt:
P(X ∈ [a, b]) =
1
Insbesondere gilt:
P(X ∈ IR) =
1
___
Additionsregel:
Seien [a, b], [c,d] zwei Intervalle
P(X ∈ [a, b] ∪ [c,d]) =
= P(X ∈ [a, b]) + P(X ∈ [c,d]) − P(X ∈ [a, b] ∩ [c,d])
8
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Folgerungen:
 P(X ∈ [a, b] ∪ [c,d]) ≤ P(X ∈ [a, b]) + P(X ∈ [c,d])
 Für [a, b] ∩ [c,d] =
∅
P(X ∈ [a, b] ∪ [c,d]) = P(X ∈ [a, b]) + P(X ∈ [c,d])
 P(X ∈ [a, b]) =
1 − P(X ∉ [a, b])
Eigenschaften der Verteilungsfunktion
 F(x) → 0 für x → −∞
 F(x) → 1 für x → +∞
 F ist monoton wachsend
 Für x1 < x 2 :
F(x 2 ) − F(x1 ) = P(X ∈]x1 , x 2 ])
= P(x1 < X ≤ x 2 )
9
Vorlesung Statistische Inferenz
4
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Diskrete Zufallsvariablen
Eine ZV X heißt diskret, wenn sie nur endlich viele Werte
{x1 ,, x n } oder abzählbar unendlich viele Werte
{x i | i ∈ IN} annimmt.
___
Die Verteilung von X ist bestimmt durch
=
P(X x=
i ) i 1, , n oder i ∈ IN
___
= x=
∑ P(X
i) 1
i
___
F(x)= P(X ≤ x)=
∑ P(X= x i )
i:x i ≤ x
10
Vorlesung Statistische Inferenz
5
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Stetige Zufallsvariablen
Eine ZV X heißt stetig, wenn eine nicht negative integrierbare
Funktion f existiert mit
F(x)= P(X ≤ x)=
x
∫ f (y)dy
−∞
f heißt Dichte von X
___
Für alle Intervalle [a, b]:
b
P(X ∈ [a, b]) =
∫ f (y)dy
a
P(X ∈=
IR)
+∞
= 1
∫ f (y)dy
−∞
___
P(X
= x)
= 0 für alle x ∈ IR
___
F'(x) = f (x) für alle x, an denen f stetig ist.
11
Vorlesung Statistische Inferenz
6
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Funktionen von Zufallsvariablen
Sei X eine ZV.
Sei g eine Funktion auf IR, derart, dass
Y
) : g(X(ω))
=: g  X mit g  X(ω=
eine ZV ist.
___
P(Y ∈ [a, b]) =P(X ∈ g −1 ([a, b]))
mit g −1 ([a, b]) =
{x ∈ IR | a ≤ g(x) ≤ b}
___
Sei g(x) = α + β x mit β > 0
y−α

 y−α
FY (y)= P(Y ≤ y)= P  X ≤
=
F
 x

ß 

 ß 
Für β < 0 erhält man
 y−α

y−α
FY (y) =
1 − Fx 
+ P X = 

β 
 β 

12
Vorlesung Statistische Inferenz
7
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
13
Erwartungswert von Zufallsvariablen
Sei X eine diskrete ZV und es gelte
= xi ) < ∞ .
∑ | x i |P(X
i
Dann heißt
=
E(X) ∑=
x i P(X x i )
i
Erwartungswert von X.
___
+∞
Sei X stetige ZV mit Dichte f und es gelte
∫ | x | f (x)dx < ∞ .
−∞
Dann heißt
+∞
E(X) = ∫ x f (x)dx
−∞
Erwartungswert von X.
___
Im Folgenden gehen wir immer davon aus, dass der
Erwartungswert definiert ist.
___
Sei Y = g  X
(vgl. 6)
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Dann gilt:
∑ g(x i )P(X = x i )
i
E(Y) =  +∞
 ∫ g(x)f (x)dx
 −∞
Für g(x) = α + β x gilt
Y = α + βX ,
E(Y) = α + β E(X)
___
Für alle ZVen X mit VF F gilt:
∞
0
0
−∞
E(X) =−
∫ (1 F(x))dx − ∫ F(x)dx
___
14
Vorlesung Statistische Inferenz
8
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Varianz von Zufallsvariablen
Sei X diskrete ZV und es gelte
2
= xi ) < ∞ .
∑ x i P(X
i
Dann heißt
2
Var(X) =−
xi )
∑ (x i E(X)) P(X =
i
Varianz von X.
___
+∞
Sei X stetige ZV mit Dichte f und es gelte
2
∫ x f (x)dx < ∞ .
−∞
Dann heißt
Var(X)
=
+∞
2
x
−
E(X)
f (x)dx
(
)
∫
−∞
Varianz von X.
___
Standardabweichung von X : Var(X)
15
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Im Folgenden gehen wir davon aus, dass die Varianz definiert
ist.
___
Var(X)= 0 ⇔ die ZV X ist degeneriert (X ≡ c)
___
Sei Y = g  X
(vgl. 6)
Dann gilt:
∑ (g(x i ) − E(Y)) 2 P(X =
xi )
 i
Var(Y) =  +∞
 ∫ (g(x) − E(Y)) 2 f (x)dx
 −∞
Sei g(x) = α + β x
Y = α + βX
Var(Y) = β2 Var(X)
___
Für alle ZV X gilt
Var(X)
= E((X − E(X)) 2 )
Var(X)
= E(X 2 ) − (E(X)) 2
16
Vorlesung Statistische Inferenz
9
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
α- Quantil einer Zufallsvariablen
Sei α ∈]0,1[ . Eine Zahl x α mit P(X ≤ x α ) ≥ α und
P(X ≥ x α ) ≥ 1 − α heißt α-Quantil von X.
___
Für ein α-Quantil x α gilt
α ≤ F(x α ) ≤ α + P(X = x α ) .
Ist X stetig, so gilt
F(x α ) = α .
___
Ist F strikt monoton wachsend, so ist das α-Quantil eindeutig
bestimmt.
___
Für α = 1 heißt ein α-Quantil Median.
2
17
Vorlesung Statistische Inferenz
10
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Tschebyscheffsche Ungleichung
Sei X ZV und sei σ 2 =
Var(X) .
Für alle ZV X und c > 0 gilt
σ2
P(| X − E(X) |≥ c) ≤ 2 .
c
Die Ungleichung heißt Tschebyscheffsche Ungleichung.
___
Für c= k ⋅ σ gilt (k = 1, 2,...)
P(| X − E(X) |≥ k ⋅ σ) ≤
( k ⋅ σ Regel)
1
k2
18
Vorlesung Statistische Inferenz
11
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Mehrdimensionale ZVen
ε
Sei (Ω, , P) ein Wahrscheinlichkeitsraum (vgl. 1)
Die Abb.
=
X (X1 ,, X k ) : Ω → IR k
heißt k-dimensionale ZV, falls für alle k-dimensionalen
Intervalle I gilt
X −1 (I) =
{ω∈ Ω | (X1 (ω),, X k (ω)) ∈ I} ∈ ε .
___
Zweidimensionale ZVen werden im Folgenden mit (X, Y)
bezeichnet.
___
19
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Sei (X, Y) eine zweidimensionale ZV. Die gemeinsame
Verteilung P(X,Y) von (X, Y) ist gegeben durch die Angabe
von
P(X,Y) ([ a1 , b1 ] × [ a 2 , b 2 ]) :=
P ({ω | a1 ≤ X(ω) ≤ b1 ,a 2 ≤ Y(ω) ≤ b 2 } )
für alle Intervalle [a i , bi ]
(i = 1, 2).
Analog ist die Verteilung PX für k-dimensionale ZVen
definiert.
20
Vorlesung Statistische Inferenz
12
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
21
Diskrete mehrdimensionale ZV
Sei (X, Y) eine zweidimensionale ZV mit endlich vielen
Werten (x1 , y1 ), ,(x n , y n ) oder mit abzählbar unendlich
vielen Werten (x i , yi )
(i ∈ IN) . Dann heißt (X, Y) diskrete
ZV.
___
Die Verteilung einer diskreten ZV ist gegeben durch
({
P(X= x i , Y= y j =
) P ω∈ Ω | X(ω=
) x i und Y(ω=
) yj
für 1 ≤ i, j ≤ n oder für i, j ∈ IN .
___
Analoge Definition für k-dimensionale ZV
})
Vorlesung Statistische Inferenz
13
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
22
Stetige mehrdimensionale ZVen
Sei (X, Y) eine zweidimensionale ZV und f eine nichtnegative,
integrierbare Funktion, so dass für alle x, y ∈ IR gilt
x y
P(X ∈] − ∞, x], Y ∈] − ∞, y]) = ∫ ∫ f (w, r)dr dw .
−∞ −∞
Dann heißt (X, Y) stetige ZV mit Dichte f.
___
Für alle Intervalle [a1 , b1 ] × [a 2 , b 2 ] gilt
b1 b 2
P(X ∈ [a1 , b1 ], Y ∈ [a 2 , b 2 ]) =
∫ ∫ f (x, y)dy dx .
a1 a 2
Insbesondere gilt:
+∞ +∞
∫ ∫ f (x, y)dy dx = 1.
−∞ −∞
___
Analoge Definition für k-dimensionale ZV X
Vorlesung Statistische Inferenz
14
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
23
Randverteilung
Sei (X, Y) eine diskrete ZV
P1 (X
= x)
=:
= x, Y
= yi ) (x ∈ IR)
∑ P(X
i
P2 (Y
= y)
=:
= xi , Y
= y) (y ∈ IR)
∑ P(X
i
definieren die zur gemeinsamen Verteilung P(X,Y) gehörenden
Randverteilungen P1 bzw. P2 von X bzw. Y.
___
Sei (X, Y) eine stetige ZV mit Dichte f
+∞
f1 (x) :
f 2 (y) :
∫ f (x, y)dy (x ∈ IR)
−∞
+∞
∫ f (x, y)dx (y ∈ IR)
−∞
definieren die zur gemeinsamen Verteilung P(X,Y) gehörenden
Dichten der (stetigen) Randverteilungen P1 bzw. P2 von X
bzw. Y.
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
24
Es gilt:
b
P1 (X ∈ [a, b]) =
∫ f1 (x)dx
a
d
P2 (Y ∈ [c,d]) =
∫ f 2 (y)dy
c
___
Sei (X, Y, Z) eine dreidimensionale diskrete ZV
P2 (Y
= y)
= ∑ ∑ P(X
= xi , Y
= y, Z
= z  ) (y ∈ IR)
i 
definiert die Randverteilung von Y.
P13 (X= x, Z= z)= ∑ P(X= x, Y= y j , Z= z) (x, z ∈ IR)
j
definiert die Randverteilung von (X, Z)
Analog für andere Kombinationen, für k-dimensionale ZV und
für den stetigen Fall.
Vorlesung Statistische Inferenz
15
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Bedingte Verteilungen
Sei (X, Y) eine diskrete zweidimensionale ZV mit
Randverteilungen P1 , P2
Bedingte Verteilung von X gegeben Y = y j heißt die
Verteilung (P2 (Y
= y j ) > 0) :
P(X
= x i |=
Y y=
j)
P(X
= x=
y j)
i,Y
P2 (Y = y j )
für alle x i
Bedingte Verteilung von Y gegeben X = x i heißt die
Verteilung (P1 (X
= x i ) > 0) :
= y j |=
P(Y
X x=
i)
P(X
= x=
y j)
i,Y
P1 (X = x i )
für alle y j
___
Sei (X, Y, Z) eine diskrete dreidimensionale ZV mit
Randverteilung P1 , P2 , P3
25
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Bedingte Verteilung von (X, Z) gegeben Y = y j heißt die
Verteilung (P2 (Y
= y j ) > 0) :
P(X
= x i ,=
Z z  |=
Y y=
j)
P(X
= x=
y=
i,Y
j , Z z )
P2 (Y = y j )
für alle (x i , z  )
Bedingte Verteilung von Y gegeben
=
X x=
i , Z z  heißt die
Verteilung (P13 (X
= x i ,=
Z z  ) > 0) :
P(Y
= y j |=
X x i ,=
Z z=
)
P(X
= x=
y=
i,Y
j , Z z )
P13=
(X x=
i , Z z )
für alle y j
___
Faktorisierungssatz:
P(X = x, Y = y, Z = z)
___
= P(X = x)P(Y = y|X = x)P(Z = z|X = x, Y = y)
Analog für allgemeine k-dimensionale ZV
____
26
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Sei (X, Y) eine stetige zweidimensionale ZV mit stetiger
Dichte f und mit Dichte f1 ,f 2 der Randverteilungen
Dichte der bedingten Verteilung von X gegeben
=
Y y (f 2 (y) > 0) :
=
f (x | y)
f (x, y)
f 2 (y)
(x ∈ IR)
Dichte der bedingten Verteilung von Y gegeben
=
X x (f1 (x) > 0) :
=
f (y | x)
f (x, y)
f1 (x)
(y ∈ IR)
Es gilt
b
P(X ∈ [a, b] | Y =
y) =
∫ f (x | y)dx
a
Analog für Y.
___
Verallgemeinerungen auf 3- bzw. k-dimensionaler ZVen wie
im diskreten Fall
27
Vorlesung Statistische Inferenz
16
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Gestutzte Verteilungen
Sei X eine eindimensionale diskrete ZV. Sei T ⊂ IR mit
0 < P(X ∈ T) < 1.
Die durch T gestutzte Verteilung von X ist gegeben durch
P(X = x i | X ∈ T) =
P(X
= x i , X ∈ T)
P(X ∈ T)
 P(X = x i )

=  P(X ∈ T)

0

falls x i ∈ T
falls x i ∉ T.
___
Sei X eine stetige eindimensionale ZV mit Dichte f. Sei
0 < ∫ f (y)dy < 1.
T
28
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Die Dichte der durch T gestutzten Verteilung von X ist
 f (x)
 f (y)dy
h(x) =  ∫
T

0
für x ∈ T
für x ∉ T.
Es gilt
b
P(X ∈ [a, b] | X ∈ T) =
∫ h(x)dx .
a
29
Vorlesung Statistische Inferenz
17
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Satz von Bayes
Sei (X, Y) eine diskrete zweidimensionale ZV
P(X
= x i |=
Y y=
j)
=
P(Y y=
xi ) P
=
xi )
j|X
1 (X
P2 (Y = y j )
___
P=
y=
2 (Y
j)
=
∑ P(X
x=
y j)
,Y
P(Y
∑=
=
y=
j | X x  )P
1 (X x  )

=

___
Satz von Bayes für diskrete ZV (X, Y)
P(X
= x i |=
Y y=
j)
=
P(Y y=
=
j | X xi ) P
1 (X x i )
∑ P(Y =y j | X =x  ) ⋅ P1 (X =x  )

Analog für k-dimensionale ZV und für den stetigen Fall.
30
Vorlesung Statistische Inferenz
18
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
31
Unabhängige ZVen
Sei (X, Y) eine diskrete ZV. X und Y heißen unabhängig, falls
gilt
P(X =
xi , Y =
y j) =
P1 (X =
x i ) ⋅ P2 (Y =
y j)
für alle x i , y j .
Es gilt für unabhängige ZV
___
P(X
= x i |=
Y y=
= xi )
j ) P1 (X
für alle x i , y j .
= y j |=
= yj)
P(Y
X x=
i ) P2 (Y
für alle x i , y j .
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Sei (X, Y) eine stetige ZV mit Dichte f. X und Y heißen
unabhängig, falls gilt
f (x,
y) f1 (x) ⋅ f 2 (y)
=
für alle x, y.
Es gilt für unabhängige ZV
b
P(X ∈ [a, b] | Y ==
y j ) ∫ f1 (x)dx
a
d
P(Y ∈ [c,d] | X ==
x i ) ∫ f 2 (y)dy .
c
___
Seien g  X, h  Y Funktionen von X bzw. Y (vgl. 6)
Sind X und Y unabhängig, so sind auch g  X und h  Y
unabhängig.
32
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
33
n ZVen X1 , , X n heißen gemeinsam unabhängig, wenn ihre
gemeinsame Verteilung (vgl. 11) das Produkt ihrer n
Randverteilungen ist.
___
n ZVen X1 , , X n heißen i. i. d. (independently, identically
distributed), wenn sie (gemeinsam) unabhängig sind und alle
dieselbe Verteilung besitzen.
Vorlesung Statistische Inferenz
19
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
34
Austauschbare ZVen
n ZVen X1 , , X n heißen austauschbar, wenn die
gemeinsame Verteilung von X1 , , X n übereinstimmt mit der
gemeinsamen Verteilung X i , , X i für alle Permutationen
1
n
i1 ,,i n von 1,, n .
___
Sind X1 , , X n austauschbar, so besitzen alle X i dieselbe
Verteilung. Die ZVen X1 , , X n sind jedoch nicht notwendig
unabhängig.
Vorlesung Statistische Inferenz
20
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Kovarianz und Korrelation
Sei (X, Y) eine zweidimensionale ZV, so dass der
Erwartungswert von (X − E(X)) ⋅ (Y − E(Y)) existiert.
Die Kovarianz von X und Y ist
cov(X, Y) :=
E((X − E(X))(Y − E(Y))) .
Es gilt
cov(X, Y) = E(X ⋅ Y) − E(X)E(Y) .
Für alle α, β, γ , δ ∈ IR gilt
cov(α + βX, γ + δY) = β ⋅ δ ⋅ cov(X, Y) .
___
35
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Die Korrelation von X und Y ist
corr(X, Y) =
cov(X, Y)
.
Var(X) ⋅ Var(Y)
Für alle α, β, γ , δ ∈ IR gilt
 corr(X, Y) falls β ⋅ δ > 0
corr(α + βX, γ + δY) = 
−corr(X, Y) falls β ⋅ δ < 0.
Es gilt für alle (X, Y)
___
•
− 1 ≤ corr(X, Y) ≤ +1
•
corr(X, Y) = +1 ⇔
Y = α + β X mit β > 0
•
corr (X, Y) = −1 ⇔
Y = α + βX mit β < 0 .
36
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Zwei ZVen X, Y mit corr(X, Y) = 0
heißen unkorreliert.
Für unkorrelierte ZVen X, Y gilt:
E(X ⋅ Y)= E(X) ⋅ E(Y)
Var(X + =
Y) Var(X) + Var(Y)
___
Sind die ZVen X, Y unabhängig, so sind sie auch unkorreliert.
Sei (X1 , , X k ) eine k-dimensionale ZV (vgl. 11). Die
Varianz-Kovarianzmatrix von (X1 , , X k ) ist die k × kMatrix (σij ) mit
σij =cov(Xi , X j )
(1 ≤ i, j ≤ k)
37
Vorlesung Statistische Inferenz
21
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
38
Summe zweier ZVen
Sei (X, Y) eine zweidimensionale diskrete ZV. Die Verteilung
von Z= X + Y ist gegeben durch
P(Z =
z) =
x i , Y z − x i ) (z ∈ IR).
∑ P(X ==
i
Sind X und Y unabhängig, so gilt
P(Z =
z) =
x i ) P2 (Y =
z − x i ).
∑ P1 (X =⋅
i
___
Sei (X, Y) eine zweidimensionale stetige ZV mit gemeinsamer
Dichte f. Die Verteilung von Z= X + Y besitzt die Dichte
=
f Z (z)
+∞
∫ f (x, z − x)dx .
−∞
Sind X und Y unabhängig, so gilt:
f Z (z)
=
+∞
∫ f1 (x) ⋅ f 2 (z − x)dx .
−∞
Für alle zweidimensionalen ZVen (X, Y) gilt
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
39
E(X + Y)= E(X) + E(Y) .
Für alle α, β, γ ∈ IR gilt
E(α + βX + γY) = α + βE(X) + γE(Y) .
___
Für alle unkorrelierten ZVen (X, Y) gilt
Var(X + =
Y) Var(X) + Var(Y) .
Für alle α, β, γ ∈ IR gilt
Var(α + βX + γY) = β2 Var(X) + γ 2 Var(Y)
___
Die Eigenschaften des Erwartungswerts und der Varianz gelten
analog für k-dimensionale ZV.
___
(X1 ,, X k ) mit Varianz-Kovarianzmatrix Σ
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
T
Var(a 0 + a1X1 +  a k X=
k ) (a1 , ,a k )Σ(a1 , ,a k )
für alle a j ∈  ,
z. B.
Var(X1 + X=
2 ) Var(X1 ) + Var(X 2 ) + 2cov(X1 , X 2 )
für beliebige ZV
40
Vorlesung Statistische Inferenz
22
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
41
Bedingter Erwartungswert und bedingte
Erwartung
Sei (X, Y) eine zweidimensionale ZV und sei g  X eine
Funktion von X (vgl. 6, 11).
Bedingter Erwartungswert von g  X gegeben Y = y heißt
∑ g(x i ) ⋅ P(X = x i | Y = y)
i
E(g  X | y) =  +∞
 ∫ g(x)f X|Y (x | y)dx
 −∞
Insbesondere ist dadurch E(X | y) definiert.
Bedingte Erwartung von g  X gegeben Y heißt die ZV
E(g  X | Y), die den Wert E(g  X | y) annimmt, wenn Y den
Wert y annimmt.
E(g  X | Y) : Ω → IR
ω → E(g  X | Y(ω))
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Es gilt:
E(α(g1  X) + β(g 2  X) | Y) =
a)
=
αE(g1  X | Y) + βE(g 2  X | Y)
b)
P(X ≥ 0) =1 ⇒ E(X | Y) ≥ 0
c)
Sind X und Y unabhängig, so gilt
E(X | Y) ≡ E(X)
d)
Ist q  (X, Y) eine Funktion von (X, Y), so gilt
E(q  (X, Y) | y) = E(q  (X, y) | y)
e)
E(g  X) = E(E(g  X | Y))
42
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
23
Spezielle diskrete Verteilungen
a)
X genügt einer Bernoulli-Verteilung, falls gilt:
43
P(X =1) =p, P(X =0) =1 − p (0 < p < 1)
⇒ E(X) = p, Var(X) = p ⋅ (1 − p)
b)
X genügte einer diskreten Gleichverteilung mit n Werten
x1 , , x n , falls gilt:
P(X= x i )= 1
n
(1 ≤ i ≤ n)
1 n
1 n
2
⇒ E(X) =
∑ x i = x, Var(X) =
∑ (x i − x)
n i 1=
ni1
=
c)
X genügt einer Binomialverteilung, B(n, p) mit n ∈ IN ,
0 ≤ p ≤ 1, falls gilt:
n x
P(X = x) =   p (1 − p) n − x
x
(0 ≤ x ≤ n)
⇒ E(X) = n ⋅ p, Var(X) = n ⋅ p ⋅ (1 − p)
d)
X genügt einer negativen Binomialverteilung NB(k, p)
mit k ∈ IN, 0 < p < 1, falls gilt:
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
 x + k − 1 k
x
P(X =
x) =
 x  p (1 − p)


=
⇒ E(X)
e)
44
(x =
0,1,)
k ⋅ (1 − p)
k ⋅ (1 − p)
=
, Var(X)
p
p2
X genügt einer hypergeometrischen Verteilung
Η (L, M, n) mit n, M, L ∈ IN, M ≤ L, falls gilt:
 M  L − M 
 x  n − x 
 (max(0, M + n − L) ≤ x ≤
P(X = x) =  
L
n
 
≤ min(M, n))
⇒ E(X) =⋅
n
f)
M
M M L−n
, Var(X) =⋅
n
1 −  ⋅
L
L
L  L −1
X genügt einer Poissonverteilung, P0 (λ ) mit λ > 0 , falls
gilt:
λx
P(X =
x) =
e ⋅
(x =
0,1,)
x!
⇒ E(X) =
Var(X) =
λ
−λ
Vorlesung Statistische Inferenz
g)
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
45
Eine k-dimensionale ZV (X1 ,, X k ) genügt einer
Multinomialverteilung mit Parametern n, p1 , , p k
k
(n ∈ IN, p j ≥ 0, ∑ p j =
1) , falls gilt:
j=1
P(X1 = x1 ,, X k = x k )=
für alle x i ∈ IN mit
n!
⋅ p1x1 ⋅  ⋅ p kx k
x1 !⋅  ⋅ x k !
n
∑ x i = n.
i =1
⇒ E(X j ) = np j , Var(X j ) = n ⋅ p j (1 − p j ) (1 ≤ j ≤ k)
cov(Xi , X j ) =−n ⋅ pi p j
(1 ≤ i, j ≤ k, i ≠ j)
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
24
Spezielle stetige Verteilungen
a)
X genügt einer Rechteckverteilung über dem Intervall
[a, b], Re[a, b], falls für die Dichte gilt:
 1
b − a

f (x) = 
 0


a≤x≤b
für
sonst
a+b
(b − a) 2
E(X)
, Var(X)
⇒=
=
2
12
b)
X genügt einer Gammaverteilung, G(α, β) mit
α > 0, β > 0 , falls für die Dichte gilt:
x
 1
−
α−1 β

x
e
α
 Γ(α)β

f (x) = 

0



x>0
für
⇒ E(X) = α ⋅β, Var(X) = αβ2
x≤0
46
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Für α =1 liegt eine Exponentialverteilung vor:
1 −x
 ⋅e β
β

f (x) = 
 0



c)
x>0
für
x≤0
X genügt einer Normalverteilung, N(µ, σ 2 ) mit
µ ∈ IR , σ2 > 0 , falls für die Dichte gilt:
f (x)
=
1
⋅e
2πσ
−
1
2σ
2
(x −µ )2
⇒ E(X) =
µ, Var(X) =
σ2
Es gilt:
X-μ
σ
~ N(0;1)
Die Verteilungsfunktion einer N(0,1)-verteilten ZVen
wird mit Φ bezeichnet.
47
Vorlesung Statistische Inferenz
d)
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Seien X1 , , X n unabhängige N(0,1)-verteilte ZVen.
n
Die Verteilung von Z = ∑ X i2 heißt χ 2 -Verteilung mit
i =1
n Freiheitsgraden, i. Z. χ 2 (n) .
Es =
gilt: E(Z) n,
=
Var(Z) 2n
e)
Sei X eine N(0,1) − verteilte ZV und sei Z eine χ 2 (n) verteilte ZV. Dann heißt die Verteilung von
T=
X
1
⋅Z
n
t-Verteilung mit n Freiheitsgraden, i. Z. t(n).
Für n > 2 gilt:
=
E(T) 0,=
Var(T)
f)
n
n−2
Sei X eine N(µ, σ 2 ) -verteilte ZV und sei Y = e X .
Dann besitzt Y eine logarithmische Normalverteilung,
LN(µ, σ2 ) mit µ ∈ IR, σ2 > 0 , und für die Dichte gilt:
48
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
(ln y −µ )2

−
 1 ⋅ 1 ⋅ e 2 σ2
 2πσ y

f (y) = 

0



⇒ E(Y)
= e
25
µ+
σ2
2 ,
= e
Var(Y)
49
y>0
für
y≤0
2µ+σ2
(e
σ2
− 1)
Mehrdimensionale Normalverteilung
Eine k-dimensionale ZV (X1 , , X k ) (vgl. 11) genügt einer kdimensionalen Normalverteilung, N(µ, ∑) mit
µ = (µ1 ,, µ k ) ∈ IR k
∑ = (σij )
(k × k)-dimensionale positiv definite
Matrix,
wenn für ihre Dichte gilt:
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
f (x) f=
(x1 , x k )
=
(
det ∑ −1
2π
)
k
1
− (x −µ ) ∑ −1 (x −µ )T
e 2
Es gilt:
E(X j ) =µ j
(1 ≤ j ≤ k), cov(Xi , X j ) =σij
(1 ≤ i, j ≤ k)
Ist (X1 , , X k ) normalverteilt N(µ, ∑) , so genügt
k
Y :=α 0 + ∑ αi Xi
i =1
einer Normalverteilung mit
k
E(Y) = α 0 + ∑ αiµi
i =1
Var(Y) =
(α1 ,, α k )∑ (α1 ,, α k )T
___
2 ZVen X i , X j einer k-dimensionalen normalverteilten ZVen
sind unabhängig genau dann, wenn σij =
0
___
50
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
51
Die ZVen X1 , , X k einer k-dimensionalen normalverteilten
ZVen sind genau dann gemeinsam unabhängig, wenn gilt:
σ
=
0 (1 ≤ i, j ≤ k und i ≠ j) .
ij
___
Eine zweidimensionale normalverteilte ZV (X, Y) besitzt die
Dichte
f (x, y) =
1
2π σ1σ2 1 − ρ2
e − q(x,y)
mit
(x − µ1 ) 2
(x − µ1 )(y − µ 2 ) (y − µ 2 ) 2
q(x,
=
y)
− 2ρ
+
2
σ1σ2
σ1
σ22
mit
E(X) =
µ1 , E(Y) =
µ 2 , Var(X) =
σ12 , Var(X) =
σ22
cov(X, Y) = ρσ1 σ2 , corr(X, Y) = ρ
Eine zweidimensionale normalverteilte ZV(X,Y) ist
unabhängig genau dann, wenn ρ =0 .
Vorlesung Statistische Inferenz
26
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
52
Gesetz der großen Zahlen
Sei X eine ZV. Seien X1 , , X n i. i. d. (vgl. 18) wie X und sei
n
Sn = ∑ Xi . Dann gilt für alle c > 0
i =1

1

P  ω / | Sn (ω) − E(X) |≥ c   → 0 für n → ∞
n


Vereinfacht ausgedrückt:
1
Sn → E(X) für n → ∞ ,
n
d. h. das arithmetische Mittel von n i. i. d. ZVen konvergiert
gegen den Erwartungswert.
Vorlesung Statistische Inferenz
27
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Zentraler Grenzwertsatz
Sei X eine ZV und seien X1 , , X n i. i. d. (vgl. 18) wie X,
n
Sn = ∑ Xi .
i =1
Die Verteilung von Sn bzw. von
1
Sn ist für große n
n
annähernd normalverteilt.
Sei
=
µ E(X),=
σ 2 Var(X) . Für große n gilt:
1

 x −µ

⋅ n  (x ∈ IR)
P  Sn ≤ x  ≈ Φ 
n

 σ

(vgl. 24c)
Es gibt zahlreiche Verallgemeinerungen des zentralen
Grenzwertsatzes, z. B.:
Seien X1 , , X n unabhängige ZVen (nicht notwendig mit
n
derselben Verteilung), Sn = ∑ X i .
i =1
53
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Nehmen alle X i nur Werte in einem beschränkten Intervall
[a, b] an und gilt Var(Sn ) → ∞ für n → ∞ , so ist Sn
approximativ normalverteilt.
54
Vorlesung Statistische Inferenz
28
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Hauptsatz der Statistik
Sei X eine ZV.
Seien X1 , , X n i. i. d. wie X (vgl. 18). Sei F die VF von X.
Seien x1 , , x n Realisationen von X1 , , X n und sei Fn die
zugehörige empirische Verteilungsfunktion.
Dann gilt für alle c > 0 :
P(sup | Fn (x) − F(x) |≤ c) → 1 für n → ∞
x∈IR
Vereinfacht ausgedrückt:
Fn (x) ≈ F(x) für n → ∞ (x ∈ IR)
55
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
II
Stichprobenpläne
1
Einfache Stichprobe ohne Zurücklegen: Grundlagen
G
{g1 ,,g N }
=
x i = Merkmalsausprägung eines kardinal skalierten
Merkmals bei g i
µ
1 N
∑ xi
N i=1
=
1
Mittelwert von x in der Grundgesamtheit
2
σ2 = N−1 ∑N
i=1(x i − µ)
(Ω, ε, P)
(1 ≤ i ≤ N)
Varianz der Grundgesamtheit
Wahrscheinlichkeitsraum (Vgl. I 1)
Ω Menge aller n-elementigen Teilmengen (n < N) von G
 N
Ω = {ω1 , ωL } mit L =  
n
P(ω j ) =
ε
1
= Wahrscheinlichkeit, dass die Stichprobe
N
 
n
 
ω j gezogen wird (1 ≤ j ≤ L)
=
Menge aller Teilmengen von Ω
56
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
57
Eine einfache Stichprobe vom Umfang n (ohne Zurücklegen)
1
ist durch die Auswahl eines ω∈ Ω mit P(ω) =
gegeben.
 N
n
 
Vorlesung Statistische Inferenz
2
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Zugehörigkeitsfunktionen
Es liege eine einfache Stichprobe vor (II 1)
Ai : Ω → {0,1}
mit A i (ω) = 1 ⇔ g i ∈ ω
(1 ≤ i ≤ N)
heißt Zugehörigkeitsfunktion.
Es gilt für 1 ≤ i, j ≤ N,
P(A=
i 1)=
n
N
P(A=
i 1, A =
j 1)=
E(Ai ) =
Var(A
=
i)
i ≠ j:
n ⋅ (n − 1)
N ⋅ (N − 1)
n
N
(vgl. I 12)
(vgl. I 7)
n
n
1
−


N N
n ⋅ (n − 1) n 2
cov(A
=
− 2
i , A j)
N ⋅ (N − 1) N
(vgl. I 8)
(vgl. I 20)
58
Vorlesung Statistische Inferenz
3
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
59
Schätzfunktionen
Es liege eine einfache Stichprobe vor (vgl. II 1)
N
1 N
Schätzung von ∑ x i bzw. x =
∑ x i aufgrund
N i=1
i =1
Ziel:
einer einfachen Stichprobe
Y : Ω → IR
1 N
ω → N ⋅ ⋅ ∑ x i Ai (ω)
n i=1
(vgl. II 2)
Es gilt:
N
E(Y) = ∑ x i
i =1
E(Y) = x
mit
1 
n
Var(Y)
= N 2 ⋅ ⋅ 1 −  ⋅ σ2
n  N
Var(Y)=
Y=
(vgl. II 1, I 8)
1 
n
⋅ 1 −  ⋅ σ2
n  N
Häufig kann angenommen werden
1
Y
N
n
≈0
N
(vgl. I 7)
Vorlesung Statistische Inferenz
4
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
60
Notwendiger Stichprobenumfang
Es liege eine einfache Stichprobe vor (vgl. II 1)
Ziel:
Falls
Var(Y) ≤ a gilt.
Bestimme n so, dass
n
≈ 0 , muss gelten
N
=
Var(Y)
σ2
≤a
n
σ
σ2
⇔ n ≥ ⇔n≥ 2
a
a
„Verdoppelung der Genauigkeit“
a
σ2
Var(Y) ≤ ⇔ n ≥ 4 ⋅ 2
2
a
( n − Gesetz)
Hinweis: Zur Bestimmung des notwendigen Stichprobenumfangs müssen (Vor-)Kenntnisse über die Varianz
des
x-Merkmals
vorliegen.
σ2
in
der
Grundgesamtheit
Vorlesung Statistische Inferenz
5
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
61
Geschichtete Stichproben: Grundlagen
G = G1 ∪  ∪ G H
H
Schichten
N = N1 +  + N H ;
Nh
Umfang von Schicht h
(1 ≤ h ≤ H)
n = n1 +  + n H ;
nh
Stichprobenumfang in
Schicht h
(1 ≤ h ≤ H)
ω = ω1 ∪  ∪ ωH mit ωh ⊂ G h
ωh
einfache Stichprobe vom Umfang n h
in Schicht G h
Yh (ωh )
Schätzwert für Merkmalssumme der
Schicht h (vgl. II 3)
H
Ys=
(ω) ∑ Yh (ωh )
Schichtschätzfunktion zum Schätzen
h =1
N
von
∑ xi
i =1
N
E(Ys ) = ∑ x i
i =1
H
=
Var(Y
∑
s)
h =1
N 2h
nh
1 
⋅ 1 −
n h  Nh
 2
 ⋅ σh

(vgl. I 21)
( σ 2h Varianz des x-Merkmals in Schicht h)
Vorlesung Statistische Inferenz
6
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Proportionale geschichtete Stichproben
Gegeben seien n, N h
n h =: n ⋅
Nh
N
(h = 1,, H)
(bzw. die kleinste ganze Zahl ≥ n ⋅
Nh
)
N
Ys mit diesen n h heißt proportional geschichtete Stichprobe, i. Z. YPS
N 
nH
Var(YPS =
)
⋅ 1 −  ∑ N h ⋅ σ2h
n  N  h =1
62
Vorlesung Statistische Inferenz
7
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
63
Schichtungseffekt
Es gelte
nh
n
≈ 0,
≈0
Nh
N
Vergleich einer einfachen Stichprobe Y vom Umfang n mit
einer
proportional
geschichteten
Stichprobe
YPS
mit
H
∑ nh = n .
h =1
Sei µ h Mittelwert des x-Merkmals in Schicht h
N H
Var(Y) Var(YPS ) + ⋅ ∑ N h ⋅ (µ − µ h ) 2
=
n h =1
Folgerung: Der Schichtungseffekt (d. h. Verringerung der
Varianz beim Einsatz proportional geschichteter Stichproben)
ist desto größer, je homogener die Schichten bzgl. des xMerkmals sind.
Vorlesung Statistische Inferenz
8
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Gebundene Hochrechnung
ω ⊂ G,
Stichprobe vom Umfang n (vgl. II 1)
w i (1 ≤ i ≤ N)
für alle Merkmalsträger bekanntes Merk-
mal
N
N
Yv (ω) =∑ w j
j=1
∑ x i Ai (ω)
i =1
N
∑ w i A i (ω)
i =1
mit Zugehörigkeitsfunktion A i (vgl. II 2)
Yv (ω) bezeichnet man als Verhältnisschätzfunktion.
Für x i =αw i
(1 ≤ i ≤ N) gilt:
N
Yv ≡ ∑ x j
j=1
Yv ist „besser“ als eine einfache Stichprobe Y, falls
2⋅
σ xw
σ2x σ2w
 σw
>
 µw
  σx 
:

µ
  x
64
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
III
Induktive Statistik
1
Stichprobenfunktionen
65
X1 ,, X n i. i. d. (vgl. I 18)
Eine eindimensionale Zufallsvariable g  (X1 , , X n ) heißt
Stichprobenfunktion.
Beispiele:
1 n
X := ∑ Xi
n i=1
(Stichprobenmittelwert)
1 n
2
=
S :
∑ (Xi − X)
n − 1 i=1
2
Seien
=
µ E(Xi=
), σ2 Var(Xi )
Dann gilt:
E(X)
=
Var(X)=
E(S2 )
=
µ
1 2
⋅σ
n
σ2
(Stichprobenvarianz)
(1 ≤ i ≤ n) .
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Xi ~ N(µ, σ2 )
(1 ≤ i ≤ n)
Es gilt (vgl. I 24)
X −µ
n
~ N(0,1)
σ
1 n
2
2
(X
)
~
(n)
−
µ
χ
∑
i
2
σ i=1
1 n
2
2
−
χ
(X
X)
~
(n − 1)
∑
i
2
σ i=1
X −µ
⋅ n ~ t(n − 1)
S
66
Vorlesung Statistische Inferenz
2
a)
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
67
Parameterabhängige Verteilungen
Sei X ~ B(n, θ)
(0 ≤ θ ≤ 1) (vgl. I 23)
n
f (x | θ)= P(X= x | θ)=   θx (1 − θ) n − x (x = 0,, n)
x
(diskrete Verteilung von X in Abhängigkeit von θ)
b)
Sei X ~ Ex(θ)
(θ > 0)
f (x | θ) = θ ⋅ e −θx (x > 0)
(Dichte von X in Abhängigkeit von θ)
Allgemein:
X ~ f ( | θ)
X besitzt (diskrete oder stetige) Verteilung in Abhängigkeit von
einem Parameter θ.
Θ
Menge aller betrachteten Parameter
Vorlesung Statistische Inferenz
3
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Likelihoodfunktion
X1 ,, X n
i.i.d. , Xi ~ f ( | θ) (θ ∈ Θ)
L(x1 ,, x n |=
θ) : f (x1 | θ) ⋅ ⋅ f (x n | θ)
heißt Likelihoodfunktion.
4
Maximum-Likelihood-Schätzfunktion
X1 ,, X n
i.i.d. , X ~ f ( | θ) (θ ∈ Θ)
x1 ,, x n
Realisationen von X1 , , X n
θ̂ML ∈ Θ mit
L(x1 ,, x n | θˆ ML ) ≥ L(x1 ,, x n | θ) für alle θ ∈ Θ
heißt Maximum-Likelihood-Schätzwert von θ.
68
Vorlesung Statistische Inferenz
5
69
Bayessche Schätzfunktion
X1 ,, X n
ϕ
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
i.i.d. , X ~ f ( | θ) , (θ ∈ Θ)
a priori Verteilung von θ
x1 ,, x n
Realisationen von X1 , , X n
ψ (θ0 | x1 ,, x n ) a posteriori Verteilung von θ
an der Stelle θ 0
(vgl. I 17)
 L(x1 ,, x n | θ0 ) ⋅ ϕ(θ0 )
 L(x ,, x | θ) ⋅ ϕ(θ) dθ (stetiger Fall)
1
n
 Θ∫
=
 L(x1 ,, x n | θ0 ) ⋅ ϕ(θ0 ) (diskreter Fall)
 ∑ L(x1 ,, x n | θ j ) ⋅ ϕ(θ j )
 j
Als Bayesscher Schätzwert θ̂B kann der Erwartungswert von θ
bzgl. der a posteriori Verteilung ψ (θ | x1 , , x n ) gewählt
werden.
 ∫ θψ (θ | x1 ,, x n ) dθ (stetiger Fall)
Θ
θˆ B =

∑ θ jψ (θ j | x1 ,, x n ) (diskreter Fall)
j
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
70
___
Alternativ kann z. B. auch der Modus der a posteriori
Verteilung als Schätzwert gewählt werden.
6
Punktschätzungen
Eine Stichprobenfunktion g  (X1 , , X n ) zum Schätzen des
(unbekannten) Wertes von θ heißt Punktschätzung.
Eine Punktschätzung g  (X1 , , X n ) für θ heißt erwartungstreu, falls
E(g  (X1 ,, X n ) | θ) =θ für alle θ ∈ Θ
Eine erwartungstreue Punktschätzung g  (X1 , , X n ) heißt
effizient, falls für alle erwartungstreuen Schätzfunktionen
g ' (X1 ,, X n ) gilt:
Var(g  (X1 ,, X n ) | θ) ≤ Var(g ' (X1 ,, X n ) | θ)
für alle θ ∈ Θ
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
71
Es gilt immer:
1 n
Stichprobenmittelwert X := ∑ X i
n i=1
ist erwartungstreu zum Schätzen von E(X).
1 n
2
Stichprobenvarianz
S :
=
∑ (Xi − X)
n − 1 i=1
2
ist erwartungstreu zum Schätzen von Var(X).
Für eine beliebige Punktschätzung g  (X1 , , X n ) heißt
=
MSE(θ) E((g  (X1 , , X n ) − θ) 2 | θ)
mittlerer quadratischer Fehler bei θ.
Für erwartungstreue Punktschätzungen gilt:
MSE(θ)
Var(g  (X1 ,, X n ) | θ)
Eine Punktschätzung g  (X1 , , X n ) heißt konsistent, wenn
sie mit wachsendem n gegen (das wahre) θ konvergiert.
Vorlesung Statistische Inferenz
7
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
72
Parametertest: Grundlagen
X1 ,, X n
i.i.d. , X ~ f ( | θ) (θ ∈ Θ)
Θ0 ⊂ Θ, Θ1 ⊂ Θ mit Θ0 ∩ Θ1 = ∅
(Null-) Hypothese
H 0 : θ ∈ Θ0
Alternative: H1 : θ ∈ Θ1
g  (X1 ,, X n )
B
Testfunktion (Stichprobenfunktion)
Ablehnungsbereich der Hypothese H 0
P(ϕ= 1| θ) =: P(g  (X1 ,, X n ) ∈ B | θ) Wahrscheinlichkeit,
die Hypothese H 0 abzulehnen,
falls X ~ f ( | θ)
P(ϕ= 0 | θ)
Wahrscheinlichkeit, die Hypothese H 0 nicht abzulehnen, falls X ~ f ( | θ)
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
73
Ein Signifikanztest, um H 0 gegen H1 zu testen, ist durch
Angabe von g  (X1 , , X n ) und B bzw. durch die Angabe von
ϕ gegeben.
8
Bester Test zum Niveau α
Sei ϕ ein Signifikanztest (vgl. III 7)
Für θ ∈ Θ0 :
P(ϕ= 1| θ)
Wahrscheinlichkeit für Fehler 1. Art
Für θ ∈ Θ1
P(ϕ= 0 | θ)
Wahrscheinlichkeit für Fehler 2. Art
Sei α ∈]0,1[ gegeben.
ϕ heißt Test zum Niveau α, falls gilt:
P(ϕ= 1| θ) ≤ α
für alle θ ∈ Θ0 .
Ein Test ϕ0 zum Niveau α heißt bester Test gegen ein θ ∈ Θ1 ,
falls gilt:
P(ϕ0= 1| θ ) ≥ P(ϕ= 1| θ )
für alle Tests ϕ zum Niveau α
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
74
Ein Test ϕ0 zum Niveau α heißt gleichmäßig bester Test zum
Niveau α, falls gilt:
P(ϕ0= 1| θ) ≥ P(ϕ= 1| θ) für alle θ ∈ Θ1 und für alle Tests
ϕ zum Niveau α
Gleichmäßig beste Tests existieren für viele Hypothesen nicht.
Beste Tests sind dann für eine eingeschränkte Menge von Tests
zum Niveau α definiert.
Vorlesung Statistische Inferenz
9
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
75
Tests für den Erwartungswert einer Normalverteilung
X1 ,, X n
i.i.d. , Xi ~ N(θ, σ2 )
1. Fall: σ 2 bekannt
Bester Test zum Niveau α
(vgl. III 8)
, Xn )
Testfunktion g  (X1 ,=
X − θ0
⋅ n
σ
Seien z1−α , z1−α die Quantile zum Niveau 1 - α bzw. 1 − α
2
der Standardnormalverteilung.
a)
H 0 : θ ≤ θ0
, H1 : θ > θ0
B ]z1−α , ∞[
=
b)
H 0 : θ ≥ θ0
, H1 : θ < θ0
B = ] − ∞, − z1−α [
c)
H 0 : θ = θ0
, H1 : θ ≠ θ0
B = ] − ∞, − z1−α [ ∪ ]z1−α , +∞[
2
2
2
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
76
2. Fall: σ 2 unbekannt
Sei S2 die Stichprobenvarianz (vgl. III 1) und S = S2
Bester Test zum Niveau α:
, Xn )
Testfunktion g  (X1 ,=
X − θ0
⋅ n
S
Es gelten die Ablehnungsbereiche des 1. Falls, wobei die
Quantile der Standardnormalverteilung durch die Quantile
einer t-Verteilung mit n – 1 Freiheitsgraden ersetzt werden.
Sind die X i nicht normalverteilt, so können für n > 30 die obigen Tests verwendet werden; für n > 30 können die Quantile
der t-Verteilung durch die der Standardnormalverteilung ersetzt
werden.
Vorlesung Statistische Inferenz
10
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Test für den Parameter einer Binomialverteilung
X ~ B(1, θ)
θ ∈ Θ = [ 0,1]
H 0 : 0 ≤ θ ≤ θ0
(Θ0= [0, θ0 ])
H1 : θ0 < θ ≤ 1
(Θ1 = ]θ0 ,1])
α ∈]0,1[
Test zum Niveau α:
=
g  (X
1 ,..., X n ) :
=
B ]z1−α , ∞[
anwendbar, falls:
n ⋅ x ⋅ (1 − x) > 9 .
X − θ0
⋅ n
θ0 (1 − θ0 )
77
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Für andere Hypothesen gilt:
- gleiche Stichprobenfunktion
- Ablehnungsbereich wie Normalverteilung.
Interpretation für
H 0 : 0 ≤ θ ≤ θ0
- Ist x ≤ θo , so wird H 0 bei keinem α abgelehnt (z1−α > 0)
- Je kleiner α (d. h. je größer z1−α ), desto eher wird H 0 auch
bei x > θo nicht abgelehnt.
78
Vorlesung Statistische Inferenz
11
Die
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
79
Allgemeines Vorgehen bei Signifikanztests
folgenden
Ausführungen
gelten
nicht
nur
Parametertests.
(X1 ,, X n ) i. i. d. ( Xi kann eine mehrdimensionale ZV
sein, vgl. III 12)
-
Vorgabe von Hypothese H 0 , Alternative H1
-
Festlegung eines Signifikanzniveaus α ∈]0,1[
-
Testfunktion g  (X1 , , X n )
-
Festlegung des Ablehnungsbereichs B
-
Durchführung des Tests mit Ergebnis x1 , , x n
-
H 0 wird abgelehnt ⇔ g(x1 ,, x n ) ∈ B
Übersicht über Signifikanztest in Bamberg/Bauer/Krapp, S. 170 -171
für
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
80
12a Vorzeichentest
(X1 , Y1 ),,(X n , Yn )
i. i. d.
-
H 0 : P(X > Y) = P(X < Y)
-
H1 : P(X > Y) ≠ P(X < Y)
-
α ∈]0,1[
-
g  ((X1 , Y1 ),,(X n , Yn ))
mit g  ((x1 , y1 ), ,(x n=
, y n )) # {i | x i > yi }
m : #=
=
{i | x i yi }
(
F: VF von B n − m, 1
c ∈ IN mit F(c) ≤
-
=
B
2
)
(vgl. I 23)
α
α
, F(c + 1) >
2
2
{0,,c} ∪ {n − m − c,, n − m}
Ablehnung von H 0 , wenn die Anzahl der x i mit
x i > yi in B liegt (d. h. sehr groß oder sehr klein ist)
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
χ 2 -Anpassungstest
12b
X mit Verteilungsfunktion F
X1 ,..., X n
einfache Stichprobe vom Umfang n zu einer
Zufallsvariablen X
H 0 : 𝐹 = 𝐹0
H1: 𝐹 ≠ 𝐹0
α ∈] 0,1[
Testniveau
A1 ,..., A k
k disjunkte, aneinander grenzende Intervalle Aj
|
A1
|
A2
x1 ,..., x n
|
A3
|
…
Ak
Realisation der Stichprobe
hj = Anzahl der tatsächlichen Beobachtungen x i aus A j
𝑝𝑗 ≔ 𝑃(𝑋 ∈ 𝐴𝑗 |𝐹0 )
⇒ n ⋅ p j = theoretische Anzahl der Beobachtungen aus A j
bei einer Stichprobe vom Umfang n, falls H0 gilt
Es muss gelten: 𝒏𝒑𝒋 ≥ 𝟓
(𝟏 ≤ 𝒋 ≤ 𝒌)
81
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
g  (X1 ,, X n )
Testfunktion mit
k
(h j − np j ) 2
j=1
np j
g(x1 ,, x n ) = ∑
𝒙𝟏−𝜶 = (1-α)-Quantil einer χ2-Verteilung mit (k-1)
Freiheitsgraden
𝑩 = ]𝒙𝟏−𝜶 , +∞[
82
Vorlesung Statistische Inferenz
13
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
83
Konfidenzintervalle: Grundlagen
X ~ f ( | θ)
X1 ,, X n
i. i. d.
g1  (X1 ,, X n ) =: Vu
g 2  (X1 ,, X n ) =: Vo
α ∈]0,1[
Die Zufallsvariablen Vu , Vo bilden ein Konfidenzintervall zum
Niveau 1− α , wenn Vu ≤ Vo und wenn für alle θ ∈ Θ gilt:
P(Vu ≤ θ ≤ Vo | θ) ≥ 1 − α
Gesucht sind möglichst kleine Konfidenzintervalle zum
vorgebenen Niveau (1 - α).
Vorlesung Statistische Inferenz
14
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Beste Konfidenzintervalle für den Erwartungswert
einer Normalverteilung
-
X ~ N(θ, σ2 ) mit bekannter Varianz σ2
X1 ,, X n
i. i. d.
α ∈]0,1[
Vu :
=
X n − σ ⋅ z1−α ⋅
1
n
Vo :
=
X n + σ ⋅ z1−α ⋅
1
n
2
2
mit z1−α :1 − α
2
2
Quantil der N(0,1)-Verteilung
(vgl. I 9)
-
X ~ N(θ, σ2 ) mit unbekannter Varianz σ2
X1 ,, X n
i. i. d.
α ∈]0,1[
V=
u:
X n − S ⋅ t (nα−1) ⋅
2
1
n
V=
o:
X n + S ⋅ t (nα−1)
1−
2
1
⋅
n
1−
84
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
2
1 n
mit S
=
∑ ( Xi − X n ) (vgl. III 1)
n − 1 i=1
2
t (nα−1) :1 − α Quantil der t-Verteilung mit (n – 1)
2
1−
2
Freiheitsgraden (vgl. I 9,I 24)
85
Vorlesung Statistische Inferenz
15
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Konfidenzintervall für den Parameter θ einer
Binomialverteilung
X ~ B (1, θ) ⇒ E(X) = θ, Var(X) = θ ⋅ (1 − θ)
X1 ,..., X n
n
⇒ Sn := ∑ Xi ~ B (n, θ) ,
i =1
E(Sn )= n ⋅ θ,
Var (Sn )= n ⋅ θ ⋅ (1 − θ)
Normierung
Sn − n ⋅ θ
n ⋅ θ ⋅ (1 − θ)
(nicht binomialverteilt!)
Approximation der Binomial- durch die Normalverteilung
für nθ(1 − θ) > 9 ist
Sn − n ⋅ θ
~
n ⋅ θ ⋅ (1 − θ)
aber: θ ist nicht bekannt!
N(0,1)
86
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
1. Möglichkeit
1 n
− Schätze θ durch ⋅ ∑ x i =
xn
n i=1
− Berechne nachfolgendes Konfidenzintervall,
falls nx(1 − x) > 9
2. Möglichkeit
Oft sind Grenzen für die möglichen Werte von θ bekannt
0 < θ1 ≤ θ ≤ θ2 < 1
Gilt
n ⋅ θ1 (1 − θ2 ) > 9
so auch
n ⋅ θ(1 − θ) > 9 für alle θ mit θ1 ≤ θ ≤ θ2
87
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
In diesen Fällen
Sn − n ⋅ θ
=
n ⋅ θ ⋅ (1 − θ)
Xn − θ
⋅ n ~ N(0,1)
θ ⋅ (1 − θ)
(1-α)-Konfidenzintervall
X n ⋅ (1 − X n )
⋅ z1−α
Vu (X1 ,..., X n ) :=
Xn −
2
n
X n ⋅ (1 − X n )
⋅ z1−α
Vo (X1 ,..., X n ) :=
Xn +
2
n
( X n ⋅ (1 − X n ) ist Schätzung für σ= θ ⋅ (1 − θ) )
88
Vorlesung Statistische Inferenz
16
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Konfidenzintervall für den Erwartungswert bei
beliebigen Verteilungen
X1 ,..., X n
Anwendung des zentralen Grenzwertsatzes
Für große n ist
Sn − n ⋅ E(X)
~ N(0,1)
n ⋅ Var(X)
(1-α)-Konfidenzintervall:
Vu (X1 ,..., X n ) := X n −
S
⋅z α
n 1− 2
S
Vo (X1 ,..., X n ) := X n +
⋅z α
n 1− 2
mit S = Stichprobenvarianz
Sinnvoll i.A. für n ≥ 50
89
Vorlesung Statistische Inferenz
17
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Konfidenzintervall für die Varianz einer Normalverteilung
X ~ N(µ, θ)
X1 ,..., X n
,
(µ unbekannt)
α ∈]0,1[
(1 − α) − Konfidenzintervall für Varianz θ
(n − 1) ⋅ S2
Vu (X1 ,..., X n ) :=
c2
(n − 1) ⋅ S2
Vo (X1 ,..., X n ) :=
c1
mit
S2 − Stichprobenvarianz
α -Fraktil der χ 2 Verteilung mit (n-1) FHG
2
c2 =
1 − α -Fraktil der χ 2 Verteilung mit (n-1) FHG
2
⇒ c1 < c 2 ⇒ Vu < Vo
c1
Häufige Schreibweise:
c1 = χ 2n −1, α
2
c 2 = χ 2n −1,1−α
2
90
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
18 Konfidenzintervall für die Korrelation zweier
Normalverteilungen
(X, Y) – zweidimensionale Normalverteilung
cov(X,Y)
=θ
Var(X) ⋅ Var(Y)
ρ = corr(X,Y) =
(X1,Y1),,(Xn ,Yn )
Schätzfunktion für ρ
n
rxy =
∑ (xi − x)(yi − y)
i=1
n
∑ (xi
− x)2 ⋅
n
∑ (yi − y)2
=i 1 =i 1
(1-α)-Konfidenzintervall:


1 ln 1+ rxy  ≈ N  1 ln 1+θ  , 1 
 2  1−θ  n − 3 
2  1− rxy 








z1−α
 1+ r 
eA −1=
xy 

(
) eA +1 mit A ln 1− rxy  − 2 n − 23


z1−α
 1+ r 
B −1


e
xy
+2
2
Vo   X1,Y1  ,, (=
Xn ,Yn )  B =
mit B ln 



 1− rxy 
n −3

 e +1




Vu   X1,Y1  ,, =
Xn ,Yn 



91
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
IV
Regressionsverfahren
1
Standardmodell I der einfachen linearen Regression
Yi = b0 + b1x i + Ui
(1 ≤ i ≤ n)
mit
Ui
i. i. d.
E(Ui ) = 0, Var(U i ) = σ2
xi
gegebene deterministische Werte
Es gilt:
Yi
sind unabhängige Zufallsvariablen
E(Yi=
) b0 + b1x i
Var(Yi ) = σ2
Spezialfall:
Ui ~ N(0, σ2 )
⇒ Yi ~ N(b0 + b1x i , σ2 )
92
Vorlesung Statistische Inferenz
2
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
93
Standardmodell II der einfachen linearen Regression
(Yi | Xi =x i ) = b0 + b1x i + Ui
mit
(Xi , Yi )
i. i. d.
2
E(Ui | X=
x)
=
0,
Var(U
|
X
=
x)
=
σ
i
i
i
für
alle
x,
(1 ≤ i ≤ n)
Es gilt:
Yi
sind unabhängige Zufallsvariablen
E(Yi | X=
x)
= b0 + b1x
i
Var(Yi | Xi = x) = σ2
Spezialfall:
=
(Ui | Xi x) ~ N(0, σ2 ) für alle x
⇒ (Yi=
| Xi x) ~ N(b0 + b1x, σ2 )
Das Standardmodell II kann auch in nicht durch X i = x i
bedingter Form geschrieben werden:
Yi =
b0 + b1Xi + Ui
Vorlesung Statistische Inferenz
3
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
KQ-Methode
Gegeben sei IV 1 bzw. IV 2
Seien (x i , yi ) die Beobachtungen (1 ≤ i ≤ n)
Die KQ-Schätzwerte für b0 bzw. b1 sind Lösungen von
n
min ∑ (yi − b0 − b1x i ) 2
b0 ,b1 i =1
und gegeben durch
n
∑ (x i − x)(yi − y)
b̂1 = i=1
n
∑ (x i − x)
2
i =1
bˆ 0= y − bˆ 1x
Schätzwert für die Varianz σ 2 ist
1 n
2
=
σˆ
∑ (yi − bˆ 0 − bˆ 1x i )
n − 2 i=1
2
94
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
95
Bei gegebenen x1 , , x n betrachten wir die folgenden KQSchätzfunktionen:
n
∑ (x i − x)(Yi − Y)
B1 = i=1
n
∑ (x i − x)
2
i =1
B0= Y − B1x
1 n
2
Bσ2
=
∑ (Yi − B0 − B1x i )
n − 2 i=1
Vorlesung Statistische Inferenz
4
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
96
Eigenschaften der KQ-Schätzfunktion
Gegeben sei das Standardmodell der einfachen linearen
Regression. Für die Schätzfunktionen B0 , B1 , B
σ2
aus IV 3
gilt:
E(B0 ) = b0
E(B1 ) = b1
E(Bσ2 ) = σ2
Die Schätzfunktionen sind erwartungstreu (vgl. III 6)
Var(B0 ) =σ ⋅
2
∑ xi
2
n(∑ x i2 − nx 2 )
1
Var(B1 ) =σ ⋅
2
2
∑ x i − nx
2
n
Gilt
2
∑ (x i − x) → ∞
für
i =1
n → ∞,
so
sind
die
Schätzfunktionen auch konsistent (vgl. III 6)
Für die Schätzung von Var(B0 ), Var(B1 ) wird für σ 2 der
Schätzwert σ̂ 2 aus IV 3 eingesetzt.
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
97
Die obigen Anmerkungen gelten für den durch X i = x i
bedingten Fall. Erwartungstreue der Schätzfunktionen liegt
auch vor, wenn man vom Modell
Yi =
b0 + b1 Xi + Ui
ausgeht. In den Formeln für die Varianzen müssen dann jedoch
die Erwartungswerte bzw. die Varianz von X verwendet
werden.
Vorlesung Statistische Inferenz
5
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
98
Alternative Darstellungen
Für den KQ-Schätzwert b̂1 (vgl. IV 3) kann geschrieben
werden
b̂=
1 rxy ⋅
sy
sx
mit
rxy corr(x,
y)
=
=
=
sx
∑ (x i − x)(yi − y)
2
2
∑ (x i − x) ⋅ ∑ (yi − y)
1
2
sy
∑ (x i − x) , =
n −1
1
2
∑ (yi − y)
n −1
Für die Schätzfunktion B1 gilt (bei gegeben x1 , , x n )
n
(x i − x)
B1 = ∑
⋅ Yi = ∑ αi Yi ,
2
i 1=
i 1
∑ (x j − x)
n
j
d.h. B1 ist eine in Y lineare Schätzfunktion.
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Für die Schätzfunktion B0 gilt (bei gegeben x1 , , x n )



n 1
n
(x i − x)
B0 = ∑  − n
⋅ x  ⋅ Yi = ∑ βi Yi ,
n
2

i 1 =
i 1
(x
x)
−
∑
j


j=1


d. h. B0 ist eine in Y lineare Schätzfunktion.
99
Vorlesung Statistische Inferenz
6
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Verteilung der KQ-Schätzfunktionen unter Normalverteilungsannahmen
(Yi=
| Xi x i ) ~ N(b0 + b1x i , σ2 )
⇒ B0 ~ N(b0 , Var(B0 ))
(vgl. IV. 4)
B1 ~ N(b1 , Var(B1 ))
mit
Var(B0 ) =σ ⋅
∑ xi
2
2
Var(B1 ) =σ2 ⋅
(vgl. IV.4)
n ∑ (x i − x) 2
1
n
∑ (x i − x)
2
i =1
Schätzwerte für die Varianzen ergeben sich mit
1 n
2
=
σˆ
∑ (yi − bˆ 0 − bˆ 1x i )
n − 2 i=1
2
Es gilt:
B0 − b 0
~ t(n − 2)
Var (B0 )
B1 − b1
~ t(n − 2)
Var (B1 )
(vgl. IV. 3)
100
Vorlesung Statistische Inferenz
7
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
101
Tests und Konfidenzintervalle für die Parameter der
Regression
=
(Yi | Xi x i ) ~ N(b0 + b1x i , σ2 )
(1 ≤ i ≤ n)
H 0 : b1 = a
H1 : b1 ≠ a
B1 − a
Var (B1 )
Testfunktion:
(vgl. IV 6)
Ablehnungsbereich:
B = ] − ∞, − t (nα−2) [ ∪ ] t (nα−2) , +∞[
1−
1−
2
2
Analog (vgl. III 9) für einseitige Nullhypothesen
Das (1 − α) − Konfidenzintervall für b1 ist
[B1 − Var B1 ⋅ t1n−−α2 , B1 + Var B1 ⋅ t1n−−α2 ]
2
2
Vorlesung Statistische Inferenz
8
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
102
Gauss-Markov-Theorem
Es gelte zusätzlich zu den Annahmen des einfachen linearen
Regressionsmodells, dass die vierten Momente von (X i , U i )
existieren.
Bei gegebenen x1 , , x n ist die Schätzfunktion B1 aus IV 3
die beste lineare erwartungstreue Schätzfunktion zum Schätzen
von b1 , d. h.:
Für alle linearen Schätzfunktionen G = g  (Y1 , , Yn ) mit
E(G) = b1 gilt
Var(B1 ) ≤ Var(G)
( B1 ist lineare Schätzfunktion (vgl. IV 5))
Vorlesung Statistische Inferenz
8A
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Residuen und Bestimmtheitsmaß
(x i , yi ) Beobachtungen (1 ≤ i ≤ n)
bˆ 0 , bˆ 1
KQ-Schätzwerte (vgl. IV 3)
ŷi = bˆ 0 + bˆ 1x i
(1 ≤ i ≤ n) („theoretische Werte“)
ˆ i Residuen (1 ≤ i ≤ n)
uˆ =
i : yi − y
Eigenschaften
n
∑ û i = 0
a)
i =1
n
n
⇒ ∑ yi =
∑ yˆ i
=i 1 =i 1
⇒y=
yˆ
n
uˆ i
∑=
b)
2
n
2
ˆ
(y
−
y
)
∑ i i
=i 1 =i 1
=
=
n
n
∑ (yi − y) − ∑ (yˆ i − y)2
2
=i 1 =i 1
1 n
2
2
ˆ
c) Varianz der uˆ i :
(u
0)
s
−
=
∑ i
uˆ
n − 2 i=1
103
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Es gilt:
n
n
∑ (yi − yˆ i ) =
n
2
ˆ
(y
y)
(y
y)
−
+
−
∑ i
∑ i
2
2
=i 1 =i 1 =i 1
(Varianzzerlegung)
d)
∑ uˆ i2 =0
⇔
yi =yˆ i
⇔ alle Beobachtungen liegen auf einer Geraden
2
û
∑ i ist kein geeignetes Gütemaß
2
2
ˆ
s
(y
y)
−
ŷ
∑=
i
2
=
e) R :
2
2
(y
y)
s
−
∑ i
y
(s 2y > 0)
Bestimmtheitsmaß
= Anteil der erklärten Varianz
f) Eigenschaften von R
-
2
0 ≤ R2 ≤ 1
n
-
-
R2 = 1−
∑ (yi − yˆ i )2
i =1
n
∑ (yi − y)2
i =1
R 2 =1 ⇔ s 2û =0 ⇔ yi =yˆ i
R 2 =0 ⇔ s 2ŷ =0 ⇔ bˆ 1 =0
104
Vorlesung Statistische Inferenz
-
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
R 2 = (rxy ) 2
mit rxy = Korrelationskoeffizient
=
1
(x i − x)(yi − y)
∑
n
s 2x ⋅ s 2y
- Anpassung der Daten (x i , yi ) an die Gerade
ˆ + bˆ x ist desto besser, je größer R 2
ŷ=
b
i
0
1 i
105
Vorlesung Statistische Inferenz
9
p
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
106
Multiple lineare Regression
erklärende Variablen, n ≥ p + 1
Yi = b0 + b1x i1 +  + b p x ip + U i
(1 ≤ i ≤ n)
bzw.
Yi = b0 + b1Xi1 +  + b p Xip + Ui
(1 ≤ i ≤ n)
(Yi | Xi1 = x i1 ,,Xip = x ip ) = b0 + b1x i1 +  + b p x ip + Ui (1 ≤ i ≤ n)
1 x11  x1p 


X :=  
 
1 x n1  x np 


 b0 
 
 , Y
=
b =
 bp 
 
 Y1 
=
 , U
 
Y 
 n
 U1 
  


U 
 n
Es muss gelten Rg(X)= p + 1.
Matrixschreibweise für die n Gleichungen:
=
Y Xb + U
Es gelte Rg (X)= p + 1 (keine Multikollinearität)
Vorlesung Statistische Inferenz
10
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
107
KQ-Schätzwerte
(x i1 ,, x ip , yi )
(1 ≤ i ≤ n)
seien gegebene Beobachtungen.
Die KQ-Schätzwerte
bˆ 0 ,, bˆ p
sind
die Lösung von
n
min ∑ (yi − b0 − b1x i1 −  − b p x ip ) 2 .
b0 ,,b p i =1
 b̂ 
 y1 
 0
b̂=   = (X T X) −1 ⋅ X T ⋅   
 
 ˆ 
y 
b
 n
 p
Schätzwert für Var(U i ) ist
n
1
2
=
σˆ
∑ (yi − yˆ i )
n − p − 1 i=1
2
mit
ŷi = bˆ 0 + bˆ 1x i1 +  + bˆ p x ip
Mit B0 , , Bp , B
σ2
werden analog zu IV 3 die KQ-
Schätzfunktionen für b0 , , b p ,σ 2 bezeichnet.
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
11
Bestimmtheitsmaß
2
R adj
n − 1 ∑ (yi − yˆ i ) 2
1−
=
⋅
n − p − 1 ∑ (yi − y) 2
108
heißt (verallgemeinertes) Bestimmtheitsmaß
Für p = 1 wird das Bestimmtheitsmaß
∑ (yi − yˆ i ) =
∑ (yˆ i − y)
R =
1−
2
2
∑ (yi − y)
∑ (yi − y)
2
2
2
verwendet.
Es gilt 0 ≤ R 2 ≤ 1.
Je
größer
R2
oder
2
R adj
desto
besser
Beobachtungen durch den linearen Ansatz erklärt.
werden
die
Vorlesung Statistische Inferenz
12
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
109
Tests und Konfidenzintervalle für die KQ-Schätzwerte
Die
bedingte
Verteilung
der
Ui
gegeben
=
Xi1 x=
x ip sei eine Normalverteilung
i1 , , X ip
H0 : b j = a
H1 : b j ≠ a
Bj − a
Testfunktion
Var(B j )
Ablehnungsbereich
] − ∞, − t n −αp−1 [ ∪ ] t n −αp−1 , + ∞ [
1−
2
1−
2
t n −αp−1 ist das (1 − α ) -Quantil einer t-Verteilung mit n − p − 1
1−
2
2
Freiheitsgraden. Analog für einseitige Nullhypothesen (vgl. III
9)
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
110
H 0 : b=
b=
= b=
0
1
2 
p
H j : b j ≠ 0 für mindestens ein j
Testfunktion
(1 ≤ j ≤ p)
R 2 n − p −1
⋅
2
p
1− R
mit R 2 aus IV 11
− p −1
Ablehnungsbereich ]F1p,n
, +∞[.
−α
− p −1
ist das (1 - α)-Quantil einer F-Verteilung mit p und
F1p,n
−α
n – p – 1 Freiheitsgraden.
Vorlesung Statistische Inferenz
13
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
111
Dichotome abhängige Variablen
Gegeben sei
(vgl. IV 2)
(Yi | Xi1 = x i1 ,, Xip = x ip ) = b0 + b1x i1 +  + b p x ip + U i
mit E(U i ) = 0,
Var(U i ) = σ2
(1 ≤ i ≤ n)
(Yi , Xi1 ,, Xip ) seien i. i. d.
Sei Yi dichotom; dann gilt:
=
E(Yi | X i1 x=
=
x ip=
) P(Y=
x ip )
i1 , , X
ip
i 1| X i1 x=
i1 , , X ip
Sei F eine gegebene Verteilungsfunktion
Ansatz:
P(Yi = 1| Xi1= x i1 ,,Xip = x ip )= F(b0 + b1x i1 +  + b p x ip )
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
112
Bestimme die Maximum-Likelihood-Schätzwerte zu den
Beobachtungen
(yi , x i1 ,, x in ) mit der logarithmierten
Likelihoodfunktion (vgl. III 3)
max ln L(y1 ,, y n | b0 ,, p p ) =
b0 ,,b p
n
max ∑ yi ln(F(b0 + b1x i1 +  + b p x ip ) +
b0 ,,b p i =1
+ (1 − yi ) ln(1 − F(b0 + b1x i1 +  + b p x ip ))
Vorlesung Statistische Inferenz
14
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Logitmodell
Gegeben sei das Modell IV 13 mit
ez
Λ (z) = z
F(z) =
1+ e
(z ∈ IR)
Damit ist das Logitmodell gegeben.
Für die logarithmierte Likelihoodfunktion erhält man
n
ln L(yi ,, y n | b0 ,
=
, b p ) ∑ (yi (b x i ) − ln(1 + e
i =1
 1 
 b0 
x 
 
i1
=
b =
  , xi  
mit
  
 bp 
 
 
 x ip 
T
bT x i
))
113
Vorlesung Statistische Inferenz
15
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
114
Marginale Effekte im Logitmodell
Gegeben sei ein Logitmodell
P(Yi = 1| x i ) = Λ (bT x i )
Sei die j-te erklärende Variable stetig.
Der marginale Effekt der j-ten Variablen ist gegeben durch
1| x i )
∂P(Yi =
= Λ (bT x i )(1 − Λ (bT x i ))b j
∂x ij
1
xi1
mit xi = � ⋮ �
xip
Sei die j-te erklärende Variable diskret und seien x i , x i' zwei
Variablenvektoren, die sich nur in der j-ten erklärenden
Variablen unterscheiden. Der marginale Effekt ist gegeben
durch
P(Yi = 1| x i ) − P(Yi = 1| x 'i )
In beiden Fällen hängt der marginale Effekt vom gesamten
Vektor x i ab.
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
V
Statistische Entscheidungstheorie
1
’Bausteine’ der Statistischen Entscheidungstheorie
Θ
Menge der unbekannten Parameter
∆
Menge der möglichen Entscheidungen
L:
Θ × ∆ → IR +
115
(θ,d) → L(θ,d)
Verlustfunktion; L(θ,d) = Verlust, falls Parameter
θ ∈ Θ vorliegt und die Entscheidung d ∈ ∆ getroffen
wird.
Gehen nur die Größen Θ, ∆, L (und gegebenenfalls eine a
priori
Verteilung
ϕ
für
θ
(vgl.
V3))
in
Entscheidungsfindung ein, so liegt ein no data-Problem vor.
X ~ f ( | θ)

(θ ∈ Θ)
Wertebereich von X
D:  → ∆
x → D(x)
Entscheidungsfunktion
die
Vorlesung Statistische Inferenz
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
D
Menge der Entscheidungsfunktionen
R:
Θ×D → IR +
116
(θ, D) → R(θ, D)
Erwarteter Verlust, falls der Parameter θ vorliegt und die
Entscheidungsfunktion D verwendet wird:
R(θ, D)= E (L(θ, D  X))
Vorlesung Statistische Inferenz
2
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
117
Minimax-Entscheidungsfunktionen
D0 ∈  heißt Minimax-Entscheidungsfunktion, falls gilt (vgl.
V1):
sup R(
=
θ, D0 )
θ∈Θ
min sup R(θ, D)
D∈
θ∈Θ
Spezialfälle
a)
X ~ B(n, θ) ,  =
{0,, n}
Θ = ∆ =]0,1[
L(θ,d) = (θ − d) 2
Die Minimax-Entscheidungsfunktion ist gegeben durch
=
D0 (x)
1
n
(x +
)
2
n+ n
Vorlesung Statistische Inferenz
b)
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
X ~ H(L, θ, n)
118
(vgl.I 23)
Θ = {0,, L} = ∆
X = {0,…,n}
L(θ,d) = (θ − d) 2
Die Minimax-Entscheidungsfunktion D0 ist gegeben
durch
D0 (x)
=
L
1 n ⋅ (L − n)
(x +
)
2
L −1
n ⋅ (L − n)
n+
L −1
Vorlesung Statistische Inferenz
3
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
119
Bayes’sche Entscheidungen
Im Folgenden wird stets der diskrete Fall betrachtet
Θ = {θ1 ,, θn }
Eine Wahrscheinlichkeitsverteilung ϕ über Θ heißt a priori
Verteilung: ϕ(θi ) =Wahrscheinlichkeit, dass der Parameter θi
vorliegt (1 ≤ i ≤ n)
Bayes’sches Risiko (gegen ϕ) einer Entscheidung d ∈ ∆ heißt
n
ρ(ϕ,d)
= ∑ L(θi ,d) ϕ(θi )
i =1
ρ(ϕ,d) ist der erwartete Verlust bei Treffen der Entscheidung
d und Vorliegen der a priori Information ϕ.
Die Bayes’sche Entscheidung d* minimiert ρ(ϕ, d)
ρ* (ϕ) :=ρ(ϕ,d* ) = min ρ(ϕ,d)
d∈∆
ρ* (ϕ) heißt Bayes’sches Risiko (gegen ϕ).
Vorlesung Statistische Inferenz
4
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
120
Bayes’sche Entscheidungsfunktionen
X ~ f ( | θ)
Im Folgenden werden diskrete Zufallsvariablen X betrachtet:
P(X
= x | θ) .
Für D ∈  gilt:
R(θ, D) =∑ L(θ, D(x)) P(X =x | θ)
x
Der erwartete Verlust von D ∈  bei Vorliegen ϕ ist gegeben
durch
r(ϕ, D)= ∑ ∑ L(θi , D(x)) P(X= x | θi ) ϕ(θi )
θi
x
Spezialfälle:
a)
ϕ(θ j ) =1 für ein θ j :
r(ϕ, D) =R(θ j , D)
b)
D(x) ≡ d (x ∈  ) :
r(ϕ, D) =ρ(ϕ,d)
(vgl. V 3)
Vorlesung Statistische Inferenz
c)
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
121
D(x) ≡ d (x ∈  ), ϕ(θ j ) =1 für ein θ j :
r(ϕ, D) =L(θ j ,d)
Die Bayes’sche Entscheidungsfunktion D* (gegen ϕ ) ist
gegeben durch
r(ϕ, D* ) = min r(ϕ, D)
D∈
Vorlesung Statistische Inferenz
5
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
122
A priori und a posteriori Verteilung
Gegeben sei die a priori Verteilung ϕ
P(θ = θ j | X = x) =
=
=
P(X = x, θ = θ j )
P(X = x)
P(X = x | θ = θ j )P(θ = θ j )
P(X = x)
P(X= x | θ j )ϕ(θ j )
∑ P(X= x | θi )ϕ(θi )
θi
=
ψ (θ j | X = x)
ψ (θ | X =x) heißt a posteriori Verteilung von θ, falls X = x
beobachtet wurde (bei gegebenem ϕ)
Vorlesung Statistische Inferenz
6
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
123
Konstruktion von Bayes’scher Entscheidungsfunktion
Für D ∈  gilt (vgl. V 4)
r(ϕ, D) =
=
∑ ∑ L(θi , D(x)) P(X= x | θi ) ϕ(θi )
θi
x
∑ ∑ L(θi , D(x)) P(X= x | θi ) ϕ(θi )
x θi
Für die Bayes’sche Entscheidungsfunktion D* und x 0 ∈ 
gilt daher
D* (x 0 ) =
=
arg min ∑ L(θi ,d)P(X
= x 0 | θi )ϕ(θi )
d
θi
arg min ∑ L(θ=
x0 )
i ,d)ψ (θi | X
d
θi
Die optimale Entscheidungsfunktion D* an der Stelle x 0 kann
also berechnet werden als Lösung der Aufgabe
min ρ(ψ,d) (vgl. V 3)
d
mit der a posteriori Verteilung ψ (θ | X =x 0 ) .
Vorlesung Statistische Inferenz
7
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
124
Kosten der Information
Beobachtung der ZV X verursacht Kosten c > 0 .
Zu vergleichen sind:
min ρ(ϕ,d)
d∈∆
erwarteter Verlust ohne Einbeziehung von
X (vgl. V 3)
mit
min r(ϕ, D) + c erwarteter Verlust mit Einbeziehung von
D∈
X und Berücksichtigung der Kosten
(vgl. V 4)
Wiederholte Beobachtung von X : X1 , , X n i. i. d.
Dn :  n → ∆
Erwarteter Verlust unter Berücksichtigung der Kosten
bei Verwendung von X1 , , X n
(n = 1, 2,)
r(ϕ, D n ) + c ⋅ n
Gesucht ist das minimierende n.
Vorlesung Statistische Inferenz
8
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
125
Aufeinanderfolgende Informationsbeschaffung
Zwei Informationsquellen X, Y:
(X, Y) ~ f ( | θ)
a posteriori Verteilung (vgl. V 5)
P(X= x, Y= y | θ j )ϕ(θ j )
ψ (θ j | X= x, Y= y)=
∑ P(X= x, Y= y | θi )ϕ(θ j )
θi
Es gilt:
ψ (θ j | X= x,Y= y)=
P(Y = y | X = x, θ = θ j )ψ (θ j | X = x)
∑ P(Y = y | X = x, θ = θi )ψ(θ j | X = x)
θi
Folgerung:
Wird zuerst X, dann Y beobachtet, so kann die a posteriori
Verteilung ψ (θ j |=
X x,=
Y y) berechnet werden als a
posteriori Verteilung bzgl. der Beobachtung Y = y und der a
posteriori Verteilung ψ (θ j | X =x) .
Vorlesung Statistische Inferenz
9
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
Bayes’sche Entscheidungsfunktionen und Punktschätzungen
Θ = ∆ ⊂ IR
L(θ,d) = (θ − d) 2
D* sei die Bayes’sche Entscheidungsfunktion (gegen ϕ)
(vgl. V 5).
Dann gilt:
∑ θi ϕ(θi )P(X= x | θi )
D* (x) =
θi
∑ ϕ(θi )P(X= x | θi )
θi
126
Vorlesung Statistische Inferenz
10
Prof. Dr. Peter Kischka, Lehrstuhl für Wirtschafts- und Sozialstatistik
127
Bayes’sche Entscheidungsfunktionen und Tests
Θ = {θ1 , θ2 }, ∆ = {d1 ,d 2 }
L(θi ,d j ) =
0 für i = j
L(θ1 ,d 2 ) =
a > 0, L(θ2 ,d1 ) =
b>0
D* sei die Bayes’sche Entscheidungsfunktion (gegen ϕ)
(vgl. V 5)
Dann gilt:

d 2
*
D (x) = 
d
 1
falls
sonst
P(X = x | θ2 ) >
ϕ(θ1 ) ⋅ a
⋅ P(X = x | θ1 )
ϕ(θ2 ) ⋅ b
Herunterladen