Maximum Likelihood - Wiwi Uni

Werbung
Maximum Likelihood
Die Dichtefunktion einer Zufallsvariablen yi mit dem Parametervektor θ ist f (yi ; θ). Die Dichtefunktion beschreibt den Datengenerierenden Prozess (DGP), dem die beobachtbaren Daten in der Stichprobe unterliegen. Sind die Observationen voneinander
unabhängig ist die gemeinsame Dichte (Die Wahrscheinlichkeit für die beobachtete Stichprobe):
L(y; θ) = f (y1 , y2 , · · · , yN ; θ) =
N
Y
f (yi ; θ)
(1)
i=1
Die gemeinsame Dichte für die Stichprobe wird auch als Likelihood-Funktion bezeichnet. Das Maximum-Likelihood Prinzip
besteht darin die gemeinsame Wahrscheinlichkeit für die beobachtbare Stichprobe zu maximieren.
max L(y; θ) =
N
Y
θ∈Θ
f (yi ; θ)
(2)
i=1
Gegeben den beobachtbaren Daten y = [y1 , y2 , · · · , yN ] wird ein Parametervektor θ gesucht der die Likelihood-Funktion maximiert.
Identikation: Der Parametervektor θ ist für gegebene Daten y identiziert (schätzbar) wenn gilt: L(y; θ∗) 6= L(y; θ) für
θ∗ 6= θ.
Aufgrund der einfacheren Handhabbarkeit wird meistens die logarithmierte Likelihood-Funktion betrachtet:
ln L(y; θ) =
N
X
ln f (yi ; θ)
(3)
i=1
Notwendige Bedingung für das Maximum der Log-Likelihood-Funktion:
∂ ln L(y; θ)
=0
∂θ
Die Bedingungen erster Ordnung werden auch als Likelihood-Gleichungen bezeichnet.
1
(4)
Bedingte Likelihood Funktion
In ökonometrischen Anwendungen wird i.d.R. der Einuss von unabhängigen Variablen x auf die bedingte Verteilung von
abhängigen Variablen y untersucht. Mit der gemeinsamen Dichtefunktion f (y, x; θ, ψ) = f (y|x; θ)f (x; ψ) gilt für die LogLikelihood:
ln L(y, x; θ, ψ) =
N
X
ln f (yi |x; θ) +
i=1
N
X
ln f (x; ψ)
(5)
i=1
Der bedingte Maximum Likelihood Schätzer maximiert nur den ersten Teil, d.h. ignoriert die marginale Dichte von x:
ln L(y|x; θ) =
N
X
ln f (yi |x; θ)
(6)
i=1
Ist die marginale Dichtefunktion f (x; ψ) von θ unabhängig ergibt die Maximierung der bedingten Likelihood L(y|x; θ) den
gleichen Schätzer θ̂ wie die Maximierung der gemeinsamen Likelihood L(y, x; θ, ψ).
Eigenschaften des Maximum-Likelihood Schätzers
1. Der MLE ist konsistent: plim θ̂ = θ0
mit θ0 wahrer Parametervektor; θ̂ Maximum-Likelihood Schätzer des Parametervektors.
h
2. Der MLE ist asymptotisch Normalverteilt: θ̂ ∼ N θ0 , {−E0 [H(θ0 )]}
a
H(θ) =
∂ 2 ln L(y;θ)
∂θ∂θ0
−1
i
Matrix der zweiten Ableitungen (Hesse-Matrix).
3. Der MLE ist asymptotisch ezient (Cramer-Rao
Lower Bound
2
für konsistente Schätzer).
Konsistenz
Für die Zufallsvariable
L(y;θ)
L(y;θ0 )
mit θ 6= θ0 gilt nach Jensens Inequality (ln[·] ist eine strikt konkave Funktion):
ln E0
L(y; θ)
L(y; θ)
≤ ln E0
,
E0 ln
L(y; θ0 )
L(y; θ0 )
(7)
Z
L(y; θ)
L(y; θ)
= ln
L(y; θ0 )dy = 0
L(y; θ0 )
L(y; θ0 )
(8)
Daher folgt aus (7) die Likelihood inequality:
E0 [1/n ln L(y; θ)] < E0 [1/n ln L(y; θ0 )]
(9)
Bei Anwendung des Uniform Weak Law of Large Numbers
plim
1
n
P
i ln f (yi ; θ)
= plim
1
n
ln L(yi ; θ) = E[ln f (yi ; θ)] = E
ln
L(y;
θ)
gilt:
n
1
plim[1/n ln L(y; θ)] < plim[1/n ln L(y; θ0 )]
(10)
In der endlichen Stichprobe gilt allerdings:
1/n ln L(y; θ̂) ≥ 1/n ln L(y; θ0 )
(11)
Die Bedingungen (10) und (11) gelten gemeinsam nur wenn
plim[1/n ln L(y; θ̂)] = plim[1/n ln L(y; θ0 )]
Ist die Likelihood-Funktion identiziert folgt: plim θ̂ = θ0 , d.h. der MLE ist konsistent.
3
(12)
Momente des Gradienten der Log-Likelihood
Für die Dichtefunktion f (yi ; θ) wird angenommen, dass sie eine stetige und dierenzierbare Funktion ist. Die Ableitungen sind
ebenfalls stetige Funktionen von yi und θ.
• gi (θ) =
• Hi (θ) =
∂ ln f (yi ;θ)
∂θ
(Gradient (K × 1)),
∂ 2 ln f (yi ;θ)
∂θ∂θ0
(Hesse-Matrix (K × K))
Weiterhin sind die notwendigen Bedingungen erfüllt um die Erwartungswerte der ersten und zweiten Ableitung zu bilden. Für
den Gradienten gilt dann:
• E0 [gi (θ0 )] = 0
• Var0 [gi (θ0 )] = E0 [gi (θ0 )gi (θ0 )0 ] = −E0 [Hi (θ0 )]
Erwartungswert des Gradienten
Z b
Z b
∂ ln f (yi ; θ0 )
∂ ln f (yi ; θ0 )
∂f (yi ; θ0 )
=
f (yi ; θ0 )dyi =
dyi
∂θ0
∂θ0
∂θ0
a
a
E0 [gi (θ0 )] = E0
(13)
Leibnitz Theorem:
∂
nR
b(x)
a(x)
o
f (t, x)dt
Z
b(x)
=
∂x
a(x)
∂f (t, x)
∂b(x)
∂a(x)
dt + f (b(x), x)
− f (a(x), x)
∂x
∂x
∂x
(14)
Mit a und b unabhängig von θ0 ergibt sich:
Z
a
b
∂
∂f (yi |θ0 )
dyi =
∂θ0
nR
b
a
f (yi |θ0 )dyi
∂θ0
4
o
=
∂1
=0
∂θ0
(15)
Varianz des Gradienten
Um die Varianz von gi (θ0 ) zu erhalten wird die 1.Ableitung des erwarteten Gradienten E0 [g(θ0 )] gebildet:
∂
nR
b ∂ ln f (yi ;θ0 )
a
∂θ0
f (yi ; θ0 )dyi
∂θ00
mit
∂f (yi ;θ0 )
∂θ00
o
Z b
=
a
∂ 2 ln f (yi ; θ0 )
∂ ln f (yi ; θ0 ) ∂f (yi ; θ0 )
f (yi ; θ0 ) +
dyi = 0
∂θ0 ∂θ00
∂θ0
∂θ00
(16)
= f (yi ; θ0 ) ∂ ln f∂θ(y0 i ;θ0 ) folgt:
0
Z
b
−
a
∂ 2 ln f (yi ; θ0 )
f (yi ; θ0 )dyi =
∂θ0 ∂θ00
Z b
a
∂ ln f (yi ; θ0 ) ∂ ln f (yi ; θ0 )
f (yi ; θ0 )dyi
∂θ0
∂θ00
Var0 [gi (θ0 )] = E0 [gi (θ0 )gi (θ0 )0 ] = −E0 [Hi (θ0 )]
(17)
(18)
Die Likelihood Equation
Da die Log-Likelihood die Summe der individuellen Log-Likelihoodbeiträge ln f (yi ; θ) ist gilt:
g(θ) =
N
X
∂ ln f (yi ; θ0 )
i=1
∂θ0
=
N
X
gi (θ)
(19)
i=1
daher gilt:
E0 [gi (θ0 )] =
1
E0 [g(θ0 )] = 0
n
5
(20)
The Information Matrix Equality
H(θ) =
N
X
∂ 2 ln f (yi |θ0 )
i=1
∂θ0 ∂θ00
=
N
X
Hi (θ)
(21)
i=1
Unter der Verwendung von E0 [gi (θ0 )gj (θ0 )] = E0 [gi (θ0 )]E0 [gj (θ0 )] = 0 für i 6= j (Unabhängigkeit der Likelihoodbeiträge) folgt
für das Produkt der Gradienten:
N
N
N
X
X
X
0
E0 [g(θ)g(θ) ] = E0 [
gi (θ)
gj (θ0 ) ] = E0 [
gi (θ0 )gi (θ0 )0 ]
0
i
j
(22)
i
Var0 [g(θ0 )] = E0 [g(θ0 )g(θ0 )0 ] = −E0 [H(θ0 )]
(23)
−E[H(θ)] wird auch als Informationsmatrix bezeichnet.
Asymptotische Normalverteilung
Der Gradientenvektor an der Stelle θ̂ kann mit dem mean value theorems folgendermaÿen dargestellt werden:
g(θ̂) = g(θ0 ) + H(θ̄)(θ̂ − θ0 )
(24)
Die Hesse wird dabei für einen Parametervektor θ̄ der zwischen θ̂ und θ0 liegt evaluiert. Da an der Stelle des Maximums gilt
g(θ̂) = 0, folgt:
√
√
n(θ̂ − θ0 ) = n[−H(θ̄)]−1 [g(θ0 )]
"
#−1 "
#
N
N
X
X
√
√
1
1
n(θ̂ − θ0 ) = −
Hi (θ̄)
n
gi (θ0 )
n i=1
n i=1
6
(25)
(26)
Um zu zeigen welche asymptotische Verteilung die Statistik
verwendet. Aus (26) folgt:
√
n(θ̂ − θ0 hat, wird das Konzept
Konvergenz in Verteilung
"
#−1 "
#
N
N


o
n√
√ 1X
1X
n(θ̂ − θ0 ) = plim
−
Hi (θ̄)
n
gi (θ0 )
plim
 n

n
i=1
i=1
Es gilt plim
(27)
da θ̂ konsistent ist und θ̄ zwischen θ0 und θ̂ liegt. Nach Anwendung des
P
Uniform Weak Law of Large Numbers folgt plim n1 Ni=1 Hi(θ0) = E0[Hi(θ0)] ist eine konstante und nicht-stochastische
Matrix. Existiert die asymptotische Verteilung gilt daher:
1
n
PN
i=1 Hi (θ̄)
1
n
= plim
√
PN
i=1 Hi (θ0 )
"
d
n(θ̂ − θ0 ) −→ {−E0 [Hi (θ0 )]}−1
#
N
√ 1X
gi (θ0 )
n
n i=1
(28)
Da gi (θ0 ) unabhängig identisch Verteilt mit E0 [gi (θ0 )] = 0 und Var0 [gi (θ0 )] = −E0 [Hi (θ0 )] gilt bei Anwendung des zentralen
Grenzwertsatzes (Lindberg-Levy):
N
√ 1X
d
gi (θ0 ) −→ N (0, −E0 [Hi (θ0 )])
n
n i=1
(29)
Und somit für
√
√
d
n(θ̂ − θ0 ) −→ N
d
n(θ̂ − θ0 ) −→ N
−1 −1 !
1
1
1
0, −E0 [ H(θ0 )]
−E0 [ H(θ0 )]
−E0 [ H(θ0 )]
n
n
n
!
−1
1
0, −E0 [ H(θ0 )]
n
(30)
(31)
Die asymptotische Verteilung von θ̂ ist dann:
a
−1
θ̂ ∼ N θ0 , {−E0 [H(θ0 )]}
7
(32)
Asymptotische Ezienz
Cramer-Rao Lower Bound: Unter der Voraussetzung, das die Dichtefunktion f (yi|θ) bestimmte Regularitätsbedingugen (s.
Greene (2003)) erfüllt ist die asymptotische Kovarianzmatrix eines konsistenten und asymptotisch normalverteilten Schätzers
mindestens so groÿ wie:
I(θ0 )−1 =
∂ 2 ln L(y; θ0 )
−E
∂θ0 ∂θ00
−1
−1
∂ ln L(y; θ0 ) ∂ ln L(y; θ0 )
= E
∂θ0
∂θ00
(33)
Schätzer für die Kovarianz-Matrix
Die asymptotische Varianz des Maximum-Likelihood-Schätzers ist Asy.Var(θ̂) = E[−H(θ0 )]−1 .
i−1
Est.Asy.Var(θ̂) = −H(θ̂)
h
"
oder
Est.Asy.Var(θ̂) =
N
X
i=1
8
#−1
gi (θ̂)gi (θ̂)0
(34)
Denitionen
Konvergenz in Wahrscheinlichkeit
Eine Sequenz von Zufallszahlen {xn } = (x1 , x2 , · · · ) konvergiert in Wahrscheinlichkeit zu einer konstanten c wenn für ε > 0 gilt:
(35)
lim Prob(|xn − c| > ε) = 0
n→∞
p
Wird geschrieben als plim xn = c oder xn −→ c.
Konvergenz in Verteilung
Eine Sequenz von Zufallszahlen {xn } = (x1 , x2 , · · · ) mit der Verteilungsfunktion Fx (xn ) konvergiert in Verteilung auf die
Zufallszahl z mit der Verteilungsfunktion Fz wenn gilt:
(36)
lim |Fx (xn ) − Fz | = 0
n→∞
Wird geschrieben als xn −→ z . Fz ist dann die asymptotische Verteilung von xn ; xn ∼ Fz . Konvergiert {xn } in Wahrscheinlichkeit zu einer Zufallsvariablen z folgt, dass {xn } in Verteilung auf z konvergiert.
d
a
p
d
xn −→ z ⇒ xn −→ z
(37)
Weak Law of Large Numbers
Für eine Sequenz von Zufallszahlen {xn } = (x1 , x2 , · · · ) mit E(|xi |) < ∞ gilt:
n
1X
p
xi −→ E(xi )
n i=1
9
(38)
Uniform Weak Law of Large Numbers
Für eine Sequenz von Funktionen einer Zufallszahl [g(x1 , β), g(x2 , β), · · · ] gilt:
n
1 X
p
g(xi , β) − E[g(xi , β)] −→ 0
max β n
i=1
das Uniform Weak Law of Large Numbers impliziert
1
n
Pn
i=1 g(xi , β)
(39)
p
−→ E[g(xi , β)].
Zentraler Grenzwertsatz (Lindberg-Levy)
Für eine unabhängig identisch Verteilte Sequenz {xi } mit E(xi ) = µ und Var(xi ) = Σ folgt:
√
n
n
1X
xi − µ
n i=1
!
d
−→ N (0, Σ)
(40)
Mean Value Theorem
Für eine stetige un dierenzierbare Funktion (g : Rp → Rq ) erlaubt das mean value theorem:
g(x) − g(x0 ) =
∂g(x̄)
(x − x0 )
∂ x̄0
für x̄ als einen Wert zwischen x und x0 .
10
(41)
Beispiel: Logit Modell
Die Log-Likelihood Funktion für das Logit Model ist:
L(β|yi , xi ) =
N
X
{yi ln Λ(x0i β) + (1 − yi ) ln[1 − Λ(x0i β)]}
(42)
i=1
mit der Verteilungsfunktion der logistischen Verteilung: Λ(x0i β) =
Für die Likelihood-Gleichungen folgt:
exp(x0i β)
1+exp(x0i β)
N ∂L(β|yi , xi ) X
1
∂Λ(x0i β)
1 ∂Λ(x0i β)
yi
=
− (1 − yi )
=0
0 β)
0 β)
∂β
Λ(x
∂β
1
−
Λ(x
∂β
i
i
i=1
Mit
∂Λ(x0i β) ∂(x0i β)
∂(x0i β) ∂β
(43)
= Λ(x0i β)[1 − Λ(x0i β)] xi ergibt sich für den Gradienten:
N
∂L(β|yi , xi ) X
=
[yi − Λ(x0i β)]xi = 0
∂β
i=1
(44)
Für die Hesse-Matrix:
N
X
∂ 2 L(β|yi , xi )
Λ(x0i β)[1 − Λ(x0i β)] xi x0i
=
−
0
∂β∂β
i=1
11
(45)
Numerische Optimierung
Für die meisten mikroökonometrischen Modelle (Logit, Probit, Tobit, usw.) sind die Likelihood-Gleichungen nicht-linear. In
diesem Fall muÿ die Likelihood-Funktion mit iterativen Methoden maximiert werden. Ausgehend von einem Vektor mit Startwerten wird der Parametervektor so verändert, dass der Wert der Likelihood-Funktion steigt. Die Iterationen werden so oft
wiederholt bis kein Anstieg der Likelihood-Funktion mehr gefunden wird. Die meisten iterativen Algorithmen zur numerischen
Maximierung haben die allgemeine Form:
θt+1 = θt + λt Wt gt
(46)
λ: (1 × 1) wird als Step-Size und Wt gt als der Direction-Vektor bezeichnet. Der Direction-Vektor beinhaltet den Gradienten gt
der mit einer (K × K) Matrix Wt vormultipliziert wird. Die verschiedenen Algorithmen (Newton-Raphson, BHHH oder Steepest
Ascent) unterscheiden sich bezüglich der verwendeten Matrix Wt .
Newton-Raphson Algorithmus
Um den optimalen Wert für θt+1 , gegeben θ, zu erhalten betrachtet man eine Taylor-Approximation 2.Ordnung für L(θt+1 ) an
der Stelle L(θt ).
1
L(θt+1 ) ≈ L(θt ) + (θt+1 − θt )0 gt + (θt+1 − θt )0 Ht (θt+1 − θt )
2
(47)
Der optimale Wert für L(θt+1 ) ergibt sich aus:
∂L(θt+1 )
= gt + Ht (θt+1 − θt ) = 0
∂θt+1
12
(48)
θt+1 = θt + λt (−Ht )−1 gt
(49)
Für den Newton-Raphson Algorithmus gilt: Wt = −Ht−1 und λt = 1. Der Gradient gibt an in welche Richtung θ verändert
werden soll und die negative inverse der Hesse-Matrix gibt an wie weit der Schritt sein soll.
Für eine konkave quadratische Funktion erreicht der Newton-Raphson Algorithmus das Maximum innerhalb von einer Iteration.
Für die meisten ökonometrischen Modelle ist die Likelihood-Funktion nicht quadratisch, d.h. der Newton-Raphson Algorithmus
braucht mehrere Iterationen um das Maximum zu nden.
Konvergenz Kriterium: g0(−Ht−1)gt < m, z.B. m = 0.00001
Für einige Likelihood-Funktionen ist die Programmierung der ersten und zweiten Ableitungen, welche für den Newton-Raphson
Algorithmus benötigt werden sehr kompliziert. In diesem Fall können numerische Approximation der Ableitungen verwendet
werden:
∂L(θ) L(θ + ) − L(θ − )
≈
∂θ
2
Hierbei ist zu beachten, dass die Wahl von für die Genauigkeit der Approximation entscheidend ist.
13
(50)
Step Size
Für eine nicht-quadratische Likelihood-Funktion ist es möglich, das das der Algorithmus das Maximum überspringt und zu
einem niedrigeren Likelihood-Wert gelangt. (siehe Grak)
In diesem Fall kann die Step-Size soweit reduziert werden bis die Iteration zu einem Anstieg der Likelihood führt.
• λ = 1; Wenn L(θt+1 ) > L(θt ) starte neue Iteration mit θt = θt+1
• Wenn L(θt+1 ) < L(θt ) multipliziere λ so lange mit 1/2 bis L(θt+1 ) > L(θt ).
14
15
Global Konkave Likelihood
Ist die Likelihood global konkav führt eine Newton-Raphson Iteration immer zu einem Anstieg der Likelihood-Funktion, da die
Hesse-Matrix negativ denit ist.
Ein Taylor-Approximation 1.Ordnung von L(θt+1 ) and der Stelle L(θt ):
L(θt+1 ) = L(θt ) + (θt+1 − θt )0 gt
(51)
L(θt+1 ) = L(θt ) + λt (−Ht−1 gt )0 gt
(52)
L(θt+1 ) = L(θt ) + λt gt0 (−Ht−1 )gt
(53)
Da (−Ht−1 ) positiv denit ist, d.h. gt0 (−Ht−1 )gt > 0, für gt 6= 0.
Ein Anstieg in der Likelihood kann nur in der unmittelbaren Nachbarschaft von θt möglich sein. Dies wird von dem obigen
Ausdruck nicht berücksichtigt, da er aus einer Taylor-Approximation entstammt. Daher kann die Step-Size welche einen Anstieg
garantiert u.U. relativ klein sein.
Ist die Likelihood-Funktion konvex (d.h. die Hesse-Matrix ist positiv denit) bewegt sich der Newton-Raphson Algorithmus in die
entgegengesetzte Richtung. D.h., für Likelihood-Funktionen, die nicht global konkav sind ist ein Anstieg der Likelihood-Funktion
durch eine Newton-Raphson Iteration nicht garantiert.
16
Alternative Algorithmen
BHHH (Brendt, Hall, Hall, Hausmann, 1974)
Der BHHH Algorithmus verwendet für die Matrix Wt das sogenannte outer product der Gradienten Wt =
hP
hP
N
0
i=1 gi (θt )gi (θt )
i−1
i
Im Gegensatz zu −Ht ist
immer positiv denit. Daher führt der BHHH Algorithmus auch in konvexen
Regionen immer zu einem Anstieg der Likelihood-Funktion.
Ist der Algorithmus
weit vom
Maximum entfernt macht der BHHH Algorithmus u.U. nur sehr kleine Schritte. Die Approximation
hP
i
N
0
von −Ht durch
i=1 gi gi kann in gröÿerer Entfernung vom Maximum sehr ungenau sein.
N
0
i=1 gi (θt )gi (θt )
Steepest-Ascent
Der Steepest-Ascent Algorithmus benutzt für die Matrix Wt die Einheitsmatrix I . Für eine gegebene Step-Size ergibt eine
Steepest-Ascent Iteration den gröÿtmöglichen Anstieg der Likelihood-Funktion. In der Praxis muss die Step-Size allerdings sehr
oft auf einen extrem niedrigen Wert gesetzt werden. Daher ist der Newton-Raphson oder der BHHH meistens schneller.
17
Herunterladen