Maximum Likelihood Die Dichtefunktion einer Zufallsvariablen yi mit dem Parametervektor θ ist f (yi ; θ). Die Dichtefunktion beschreibt den Datengenerierenden Prozess (DGP), dem die beobachtbaren Daten in der Stichprobe unterliegen. Sind die Observationen voneinander unabhängig ist die gemeinsame Dichte (Die Wahrscheinlichkeit für die beobachtete Stichprobe): L(y; θ) = f (y1 , y2 , · · · , yN ; θ) = N Y f (yi ; θ) (1) i=1 Die gemeinsame Dichte für die Stichprobe wird auch als Likelihood-Funktion bezeichnet. Das Maximum-Likelihood Prinzip besteht darin die gemeinsame Wahrscheinlichkeit für die beobachtbare Stichprobe zu maximieren. max L(y; θ) = N Y θ∈Θ f (yi ; θ) (2) i=1 Gegeben den beobachtbaren Daten y = [y1 , y2 , · · · , yN ] wird ein Parametervektor θ gesucht der die Likelihood-Funktion maximiert. Identikation: Der Parametervektor θ ist für gegebene Daten y identiziert (schätzbar) wenn gilt: L(y; θ∗) 6= L(y; θ) für θ∗ 6= θ. Aufgrund der einfacheren Handhabbarkeit wird meistens die logarithmierte Likelihood-Funktion betrachtet: ln L(y; θ) = N X ln f (yi ; θ) (3) i=1 Notwendige Bedingung für das Maximum der Log-Likelihood-Funktion: ∂ ln L(y; θ) =0 ∂θ Die Bedingungen erster Ordnung werden auch als Likelihood-Gleichungen bezeichnet. 1 (4) Bedingte Likelihood Funktion In ökonometrischen Anwendungen wird i.d.R. der Einuss von unabhängigen Variablen x auf die bedingte Verteilung von abhängigen Variablen y untersucht. Mit der gemeinsamen Dichtefunktion f (y, x; θ, ψ) = f (y|x; θ)f (x; ψ) gilt für die LogLikelihood: ln L(y, x; θ, ψ) = N X ln f (yi |x; θ) + i=1 N X ln f (x; ψ) (5) i=1 Der bedingte Maximum Likelihood Schätzer maximiert nur den ersten Teil, d.h. ignoriert die marginale Dichte von x: ln L(y|x; θ) = N X ln f (yi |x; θ) (6) i=1 Ist die marginale Dichtefunktion f (x; ψ) von θ unabhängig ergibt die Maximierung der bedingten Likelihood L(y|x; θ) den gleichen Schätzer θ̂ wie die Maximierung der gemeinsamen Likelihood L(y, x; θ, ψ). Eigenschaften des Maximum-Likelihood Schätzers 1. Der MLE ist konsistent: plim θ̂ = θ0 mit θ0 wahrer Parametervektor; θ̂ Maximum-Likelihood Schätzer des Parametervektors. h 2. Der MLE ist asymptotisch Normalverteilt: θ̂ ∼ N θ0 , {−E0 [H(θ0 )]} a H(θ) = ∂ 2 ln L(y;θ) ∂θ∂θ0 −1 i Matrix der zweiten Ableitungen (Hesse-Matrix). 3. Der MLE ist asymptotisch ezient (Cramer-Rao Lower Bound 2 für konsistente Schätzer). Konsistenz Für die Zufallsvariable L(y;θ) L(y;θ0 ) mit θ 6= θ0 gilt nach Jensens Inequality (ln[·] ist eine strikt konkave Funktion): ln E0 L(y; θ) L(y; θ) ≤ ln E0 , E0 ln L(y; θ0 ) L(y; θ0 ) (7) Z L(y; θ) L(y; θ) = ln L(y; θ0 )dy = 0 L(y; θ0 ) L(y; θ0 ) (8) Daher folgt aus (7) die Likelihood inequality: E0 [1/n ln L(y; θ)] < E0 [1/n ln L(y; θ0 )] (9) Bei Anwendung des Uniform Weak Law of Large Numbers plim 1 n P i ln f (yi ; θ) = plim 1 n ln L(yi ; θ) = E[ln f (yi ; θ)] = E ln L(y; θ) gilt: n 1 plim[1/n ln L(y; θ)] < plim[1/n ln L(y; θ0 )] (10) In der endlichen Stichprobe gilt allerdings: 1/n ln L(y; θ̂) ≥ 1/n ln L(y; θ0 ) (11) Die Bedingungen (10) und (11) gelten gemeinsam nur wenn plim[1/n ln L(y; θ̂)] = plim[1/n ln L(y; θ0 )] Ist die Likelihood-Funktion identiziert folgt: plim θ̂ = θ0 , d.h. der MLE ist konsistent. 3 (12) Momente des Gradienten der Log-Likelihood Für die Dichtefunktion f (yi ; θ) wird angenommen, dass sie eine stetige und dierenzierbare Funktion ist. Die Ableitungen sind ebenfalls stetige Funktionen von yi und θ. • gi (θ) = • Hi (θ) = ∂ ln f (yi ;θ) ∂θ (Gradient (K × 1)), ∂ 2 ln f (yi ;θ) ∂θ∂θ0 (Hesse-Matrix (K × K)) Weiterhin sind die notwendigen Bedingungen erfüllt um die Erwartungswerte der ersten und zweiten Ableitung zu bilden. Für den Gradienten gilt dann: • E0 [gi (θ0 )] = 0 • Var0 [gi (θ0 )] = E0 [gi (θ0 )gi (θ0 )0 ] = −E0 [Hi (θ0 )] Erwartungswert des Gradienten Z b Z b ∂ ln f (yi ; θ0 ) ∂ ln f (yi ; θ0 ) ∂f (yi ; θ0 ) = f (yi ; θ0 )dyi = dyi ∂θ0 ∂θ0 ∂θ0 a a E0 [gi (θ0 )] = E0 (13) Leibnitz Theorem: ∂ nR b(x) a(x) o f (t, x)dt Z b(x) = ∂x a(x) ∂f (t, x) ∂b(x) ∂a(x) dt + f (b(x), x) − f (a(x), x) ∂x ∂x ∂x (14) Mit a und b unabhängig von θ0 ergibt sich: Z a b ∂ ∂f (yi |θ0 ) dyi = ∂θ0 nR b a f (yi |θ0 )dyi ∂θ0 4 o = ∂1 =0 ∂θ0 (15) Varianz des Gradienten Um die Varianz von gi (θ0 ) zu erhalten wird die 1.Ableitung des erwarteten Gradienten E0 [g(θ0 )] gebildet: ∂ nR b ∂ ln f (yi ;θ0 ) a ∂θ0 f (yi ; θ0 )dyi ∂θ00 mit ∂f (yi ;θ0 ) ∂θ00 o Z b = a ∂ 2 ln f (yi ; θ0 ) ∂ ln f (yi ; θ0 ) ∂f (yi ; θ0 ) f (yi ; θ0 ) + dyi = 0 ∂θ0 ∂θ00 ∂θ0 ∂θ00 (16) = f (yi ; θ0 ) ∂ ln f∂θ(y0 i ;θ0 ) folgt: 0 Z b − a ∂ 2 ln f (yi ; θ0 ) f (yi ; θ0 )dyi = ∂θ0 ∂θ00 Z b a ∂ ln f (yi ; θ0 ) ∂ ln f (yi ; θ0 ) f (yi ; θ0 )dyi ∂θ0 ∂θ00 Var0 [gi (θ0 )] = E0 [gi (θ0 )gi (θ0 )0 ] = −E0 [Hi (θ0 )] (17) (18) Die Likelihood Equation Da die Log-Likelihood die Summe der individuellen Log-Likelihoodbeiträge ln f (yi ; θ) ist gilt: g(θ) = N X ∂ ln f (yi ; θ0 ) i=1 ∂θ0 = N X gi (θ) (19) i=1 daher gilt: E0 [gi (θ0 )] = 1 E0 [g(θ0 )] = 0 n 5 (20) The Information Matrix Equality H(θ) = N X ∂ 2 ln f (yi |θ0 ) i=1 ∂θ0 ∂θ00 = N X Hi (θ) (21) i=1 Unter der Verwendung von E0 [gi (θ0 )gj (θ0 )] = E0 [gi (θ0 )]E0 [gj (θ0 )] = 0 für i 6= j (Unabhängigkeit der Likelihoodbeiträge) folgt für das Produkt der Gradienten: N N N X X X 0 E0 [g(θ)g(θ) ] = E0 [ gi (θ) gj (θ0 ) ] = E0 [ gi (θ0 )gi (θ0 )0 ] 0 i j (22) i Var0 [g(θ0 )] = E0 [g(θ0 )g(θ0 )0 ] = −E0 [H(θ0 )] (23) −E[H(θ)] wird auch als Informationsmatrix bezeichnet. Asymptotische Normalverteilung Der Gradientenvektor an der Stelle θ̂ kann mit dem mean value theorems folgendermaÿen dargestellt werden: g(θ̂) = g(θ0 ) + H(θ̄)(θ̂ − θ0 ) (24) Die Hesse wird dabei für einen Parametervektor θ̄ der zwischen θ̂ und θ0 liegt evaluiert. Da an der Stelle des Maximums gilt g(θ̂) = 0, folgt: √ √ n(θ̂ − θ0 ) = n[−H(θ̄)]−1 [g(θ0 )] " #−1 " # N N X X √ √ 1 1 n(θ̂ − θ0 ) = − Hi (θ̄) n gi (θ0 ) n i=1 n i=1 6 (25) (26) Um zu zeigen welche asymptotische Verteilung die Statistik verwendet. Aus (26) folgt: √ n(θ̂ − θ0 hat, wird das Konzept Konvergenz in Verteilung " #−1 " # N N o n√ √ 1X 1X n(θ̂ − θ0 ) = plim − Hi (θ̄) n gi (θ0 ) plim n n i=1 i=1 Es gilt plim (27) da θ̂ konsistent ist und θ̄ zwischen θ0 und θ̂ liegt. Nach Anwendung des P Uniform Weak Law of Large Numbers folgt plim n1 Ni=1 Hi(θ0) = E0[Hi(θ0)] ist eine konstante und nicht-stochastische Matrix. Existiert die asymptotische Verteilung gilt daher: 1 n PN i=1 Hi (θ̄) 1 n = plim √ PN i=1 Hi (θ0 ) " d n(θ̂ − θ0 ) −→ {−E0 [Hi (θ0 )]}−1 # N √ 1X gi (θ0 ) n n i=1 (28) Da gi (θ0 ) unabhängig identisch Verteilt mit E0 [gi (θ0 )] = 0 und Var0 [gi (θ0 )] = −E0 [Hi (θ0 )] gilt bei Anwendung des zentralen Grenzwertsatzes (Lindberg-Levy): N √ 1X d gi (θ0 ) −→ N (0, −E0 [Hi (θ0 )]) n n i=1 (29) Und somit für √ √ d n(θ̂ − θ0 ) −→ N d n(θ̂ − θ0 ) −→ N −1 −1 ! 1 1 1 0, −E0 [ H(θ0 )] −E0 [ H(θ0 )] −E0 [ H(θ0 )] n n n ! −1 1 0, −E0 [ H(θ0 )] n (30) (31) Die asymptotische Verteilung von θ̂ ist dann: a −1 θ̂ ∼ N θ0 , {−E0 [H(θ0 )]} 7 (32) Asymptotische Ezienz Cramer-Rao Lower Bound: Unter der Voraussetzung, das die Dichtefunktion f (yi|θ) bestimmte Regularitätsbedingugen (s. Greene (2003)) erfüllt ist die asymptotische Kovarianzmatrix eines konsistenten und asymptotisch normalverteilten Schätzers mindestens so groÿ wie: I(θ0 )−1 = ∂ 2 ln L(y; θ0 ) −E ∂θ0 ∂θ00 −1 −1 ∂ ln L(y; θ0 ) ∂ ln L(y; θ0 ) = E ∂θ0 ∂θ00 (33) Schätzer für die Kovarianz-Matrix Die asymptotische Varianz des Maximum-Likelihood-Schätzers ist Asy.Var(θ̂) = E[−H(θ0 )]−1 . i−1 Est.Asy.Var(θ̂) = −H(θ̂) h " oder Est.Asy.Var(θ̂) = N X i=1 8 #−1 gi (θ̂)gi (θ̂)0 (34) Denitionen Konvergenz in Wahrscheinlichkeit Eine Sequenz von Zufallszahlen {xn } = (x1 , x2 , · · · ) konvergiert in Wahrscheinlichkeit zu einer konstanten c wenn für ε > 0 gilt: (35) lim Prob(|xn − c| > ε) = 0 n→∞ p Wird geschrieben als plim xn = c oder xn −→ c. Konvergenz in Verteilung Eine Sequenz von Zufallszahlen {xn } = (x1 , x2 , · · · ) mit der Verteilungsfunktion Fx (xn ) konvergiert in Verteilung auf die Zufallszahl z mit der Verteilungsfunktion Fz wenn gilt: (36) lim |Fx (xn ) − Fz | = 0 n→∞ Wird geschrieben als xn −→ z . Fz ist dann die asymptotische Verteilung von xn ; xn ∼ Fz . Konvergiert {xn } in Wahrscheinlichkeit zu einer Zufallsvariablen z folgt, dass {xn } in Verteilung auf z konvergiert. d a p d xn −→ z ⇒ xn −→ z (37) Weak Law of Large Numbers Für eine Sequenz von Zufallszahlen {xn } = (x1 , x2 , · · · ) mit E(|xi |) < ∞ gilt: n 1X p xi −→ E(xi ) n i=1 9 (38) Uniform Weak Law of Large Numbers Für eine Sequenz von Funktionen einer Zufallszahl [g(x1 , β), g(x2 , β), · · · ] gilt: n 1 X p g(xi , β) − E[g(xi , β)] −→ 0 max β n i=1 das Uniform Weak Law of Large Numbers impliziert 1 n Pn i=1 g(xi , β) (39) p −→ E[g(xi , β)]. Zentraler Grenzwertsatz (Lindberg-Levy) Für eine unabhängig identisch Verteilte Sequenz {xi } mit E(xi ) = µ und Var(xi ) = Σ folgt: √ n n 1X xi − µ n i=1 ! d −→ N (0, Σ) (40) Mean Value Theorem Für eine stetige un dierenzierbare Funktion (g : Rp → Rq ) erlaubt das mean value theorem: g(x) − g(x0 ) = ∂g(x̄) (x − x0 ) ∂ x̄0 für x̄ als einen Wert zwischen x und x0 . 10 (41) Beispiel: Logit Modell Die Log-Likelihood Funktion für das Logit Model ist: L(β|yi , xi ) = N X {yi ln Λ(x0i β) + (1 − yi ) ln[1 − Λ(x0i β)]} (42) i=1 mit der Verteilungsfunktion der logistischen Verteilung: Λ(x0i β) = Für die Likelihood-Gleichungen folgt: exp(x0i β) 1+exp(x0i β) N ∂L(β|yi , xi ) X 1 ∂Λ(x0i β) 1 ∂Λ(x0i β) yi = − (1 − yi ) =0 0 β) 0 β) ∂β Λ(x ∂β 1 − Λ(x ∂β i i i=1 Mit ∂Λ(x0i β) ∂(x0i β) ∂(x0i β) ∂β (43) = Λ(x0i β)[1 − Λ(x0i β)] xi ergibt sich für den Gradienten: N ∂L(β|yi , xi ) X = [yi − Λ(x0i β)]xi = 0 ∂β i=1 (44) Für die Hesse-Matrix: N X ∂ 2 L(β|yi , xi ) Λ(x0i β)[1 − Λ(x0i β)] xi x0i = − 0 ∂β∂β i=1 11 (45) Numerische Optimierung Für die meisten mikroökonometrischen Modelle (Logit, Probit, Tobit, usw.) sind die Likelihood-Gleichungen nicht-linear. In diesem Fall muÿ die Likelihood-Funktion mit iterativen Methoden maximiert werden. Ausgehend von einem Vektor mit Startwerten wird der Parametervektor so verändert, dass der Wert der Likelihood-Funktion steigt. Die Iterationen werden so oft wiederholt bis kein Anstieg der Likelihood-Funktion mehr gefunden wird. Die meisten iterativen Algorithmen zur numerischen Maximierung haben die allgemeine Form: θt+1 = θt + λt Wt gt (46) λ: (1 × 1) wird als Step-Size und Wt gt als der Direction-Vektor bezeichnet. Der Direction-Vektor beinhaltet den Gradienten gt der mit einer (K × K) Matrix Wt vormultipliziert wird. Die verschiedenen Algorithmen (Newton-Raphson, BHHH oder Steepest Ascent) unterscheiden sich bezüglich der verwendeten Matrix Wt . Newton-Raphson Algorithmus Um den optimalen Wert für θt+1 , gegeben θ, zu erhalten betrachtet man eine Taylor-Approximation 2.Ordnung für L(θt+1 ) an der Stelle L(θt ). 1 L(θt+1 ) ≈ L(θt ) + (θt+1 − θt )0 gt + (θt+1 − θt )0 Ht (θt+1 − θt ) 2 (47) Der optimale Wert für L(θt+1 ) ergibt sich aus: ∂L(θt+1 ) = gt + Ht (θt+1 − θt ) = 0 ∂θt+1 12 (48) θt+1 = θt + λt (−Ht )−1 gt (49) Für den Newton-Raphson Algorithmus gilt: Wt = −Ht−1 und λt = 1. Der Gradient gibt an in welche Richtung θ verändert werden soll und die negative inverse der Hesse-Matrix gibt an wie weit der Schritt sein soll. Für eine konkave quadratische Funktion erreicht der Newton-Raphson Algorithmus das Maximum innerhalb von einer Iteration. Für die meisten ökonometrischen Modelle ist die Likelihood-Funktion nicht quadratisch, d.h. der Newton-Raphson Algorithmus braucht mehrere Iterationen um das Maximum zu nden. Konvergenz Kriterium: g0(−Ht−1)gt < m, z.B. m = 0.00001 Für einige Likelihood-Funktionen ist die Programmierung der ersten und zweiten Ableitungen, welche für den Newton-Raphson Algorithmus benötigt werden sehr kompliziert. In diesem Fall können numerische Approximation der Ableitungen verwendet werden: ∂L(θ) L(θ + ) − L(θ − ) ≈ ∂θ 2 Hierbei ist zu beachten, dass die Wahl von für die Genauigkeit der Approximation entscheidend ist. 13 (50) Step Size Für eine nicht-quadratische Likelihood-Funktion ist es möglich, das das der Algorithmus das Maximum überspringt und zu einem niedrigeren Likelihood-Wert gelangt. (siehe Grak) In diesem Fall kann die Step-Size soweit reduziert werden bis die Iteration zu einem Anstieg der Likelihood führt. • λ = 1; Wenn L(θt+1 ) > L(θt ) starte neue Iteration mit θt = θt+1 • Wenn L(θt+1 ) < L(θt ) multipliziere λ so lange mit 1/2 bis L(θt+1 ) > L(θt ). 14 15 Global Konkave Likelihood Ist die Likelihood global konkav führt eine Newton-Raphson Iteration immer zu einem Anstieg der Likelihood-Funktion, da die Hesse-Matrix negativ denit ist. Ein Taylor-Approximation 1.Ordnung von L(θt+1 ) and der Stelle L(θt ): L(θt+1 ) = L(θt ) + (θt+1 − θt )0 gt (51) L(θt+1 ) = L(θt ) + λt (−Ht−1 gt )0 gt (52) L(θt+1 ) = L(θt ) + λt gt0 (−Ht−1 )gt (53) Da (−Ht−1 ) positiv denit ist, d.h. gt0 (−Ht−1 )gt > 0, für gt 6= 0. Ein Anstieg in der Likelihood kann nur in der unmittelbaren Nachbarschaft von θt möglich sein. Dies wird von dem obigen Ausdruck nicht berücksichtigt, da er aus einer Taylor-Approximation entstammt. Daher kann die Step-Size welche einen Anstieg garantiert u.U. relativ klein sein. Ist die Likelihood-Funktion konvex (d.h. die Hesse-Matrix ist positiv denit) bewegt sich der Newton-Raphson Algorithmus in die entgegengesetzte Richtung. D.h., für Likelihood-Funktionen, die nicht global konkav sind ist ein Anstieg der Likelihood-Funktion durch eine Newton-Raphson Iteration nicht garantiert. 16 Alternative Algorithmen BHHH (Brendt, Hall, Hall, Hausmann, 1974) Der BHHH Algorithmus verwendet für die Matrix Wt das sogenannte outer product der Gradienten Wt = hP hP N 0 i=1 gi (θt )gi (θt ) i−1 i Im Gegensatz zu −Ht ist immer positiv denit. Daher führt der BHHH Algorithmus auch in konvexen Regionen immer zu einem Anstieg der Likelihood-Funktion. Ist der Algorithmus weit vom Maximum entfernt macht der BHHH Algorithmus u.U. nur sehr kleine Schritte. Die Approximation hP i N 0 von −Ht durch i=1 gi gi kann in gröÿerer Entfernung vom Maximum sehr ungenau sein. N 0 i=1 gi (θt )gi (θt ) Steepest-Ascent Der Steepest-Ascent Algorithmus benutzt für die Matrix Wt die Einheitsmatrix I . Für eine gegebene Step-Size ergibt eine Steepest-Ascent Iteration den gröÿtmöglichen Anstieg der Likelihood-Funktion. In der Praxis muss die Step-Size allerdings sehr oft auf einen extrem niedrigen Wert gesetzt werden. Daher ist der Newton-Raphson oder der BHHH meistens schneller. 17