Kapitel 18 Die Maximum-Likelihood Methode 18.1 Grundidee Wir haben bisher (fast) ausschließlich die OLS-Methode angewandt um Schätzer für die Parameter eines Regressionsmodells zu bestimmen. Obwohl die OLS-Methode einige sehr angenehme Eigenschaften besitzt – unter den Gauss-Markov Annahmen sind OLS-Schätzer BLUE – sind sie in komplexeren Fällen manchmal nicht anwendbar, zum Beispiel, wenn der zu schätzende Zusammenhang nicht linear ist. In solchen und vielen anderen Fällen greifen Ökonometrikerinnen häufig auf ein alternatives Verfahren für die Schätzung unbekannter Parameter zurück, nämlich auf die Maximum-Likelihood Methode. Die Grundidee der Maximum-Likelihood Methode ist relativ einfach. Stellen Sie sich vor, Sie und ihr Partner besitzen exakt den gleichen MP3 Player, der nur einen Shuffle Mode und keine optische Anzeige hat. Sie wissen, dass auf Ihrem eigenen Player insgesamt fünf Alben gespeichert sind und auf dem Player ihres Partners insgesamt 20 Alben. Zusätzlich wissen Sie, dass auf auf beiden Playern (selbstverständlich!) ein Album mit den Cello Suiten von J.S. Bach befinden. Unglücklicherweise haben Sie die beiden MP3 Player aber vertauscht und wissen nicht, um welches Gerät es sich handelt. Deshalb schalten Sie einen Player im Shuffle-Modus ein und hören die Sarabande aus den Bach Cello Suiten (welch ein Glück!). Was würden Sie vermuten, handelt es sich um ihren eigenen Player oder den ihres Partners? Natürlich gibt es nach dieser ersten ‘Ziehung’ keine sichere Methode um dies festzustellen, aber wenn Sie wetten müssten würden Sie vermutlich tippen, dass es ihr eigener Player ist, denn die Wahrscheinlichkeit die Sarabande zu hören ist auf einem Player mit nur 5 Alben deutlich größer als auf einem Player mit 20 Alben. Genau auf dieser einfachen Idee beruht die Maximum-Likelihood Methode. Die Maximum Likelihood (ML) Methode ist in der Statistik vermutlich die am häufigsten eingesetzte Schätzmethode. Sie beruht auf einer expliziten Spezifizierung der auf die erklärenden Variablen bedingten Verteilung der abhängigen Variable. Allerdings muss dazu die Verteilung a priori bekannt sein. Die OLS Methode ist in 0 Dieses Kapitel folgt weitgehend Long (1997). 1 Empirische Wirtschaftsforschung 2 dieser Hinsicht weniger restriktiv, im einfachsten Fall wird für die Störterme lediglich angenommen εi ∼ i.i.d.(0, σ 2 ) sowie cov(εi , xjh ) = 0 (für i, j = 1, . . . , n und h = 1, . . . , k), aber im Unterschied zur OLS Methode eignet sich die ML Methode auch für die Schätzung nichtlinearer Zusammenhänge. Die GMM Methode stellt ebenfalls weniger Ansprüche bezüglich der Verteilungsannahmen, da die geschätzten Parameter ausschließlich aus den Momentbedingungen des Modells folgen. Deshalb müssen für eine GMM Schätzung nur gewisse Momente der Verteilung, aber nicht die gesamte Verteilung bekannt sein. Im Gegensatz zum GMM Schätzer liefert die ML Methode aber einen einheitlichen Ansatz zur Parameterschätzung und zur Interferenzstatistik. Außerdem haben ML-Schätzer eine Reihe sehr angenehmer Eigenschaften, man kann ganz allgemein zeigen, dass sie asymptotisch erwartungstreu, konsistent, asymptotisch effizient und asymptotisch normalverteilt sind. Allerdings sind ML-Schätzer häufig wenig robust gegenüber Verletzungen der zugrunde liegenden Annahmen. Im Kern geht es bei der ML Methode darum, dass wir eine konkrete Stichprobe vorliegen haben und uns fragen, welche Parameterwerte θ (z.B. Mittelwert und/oder Varianz) das Zustandekommen dieser konkreten Stichprobe ‘am wahrscheinlichsten’ macht. Dazu müssen wir allerdings a-priori wissen, aus welcher Verteilung diese Stichprobe gezogen wurde. Im vorhergehenden Beispiel haben wir z.B. angenommen, dass die Ziehungen des Shuffle-Programms aus einer Gleichverteilung erfolgen. Wenn wir z.B. eine Stichprobe von drei Zahlen (Realisationen) y1 , y2 und y3 aus einer gegebenen diskreten Verteilung ziehen gibt uns die Wahrscheinlichkeitsfunktion f (y1 , y2 , y3) die Wahrscheinlichkeit an, mit der diese drei Realisationen gezogen werden. Wenn wir annehmen, dass es sich dabei um eine Zufallsstichprobe handelt, die einzelnen Ziehungen also identisch und unabhängig verteilt sind (i.i.d.), dann folgt aufgrund der stochastischen Unabhängigkeit f (y1 , y2 , y3) = f (y1 )f (y2 )f (y3) Diese Wahrscheinlichkeit hängt natürlich von den Parametern der Verteilung θ ab. Wenn z.B. eine normalverteilte Zufallsvariable Y den Erwartungswert 5 und eine Varianz 1 hat ist es viel wahrscheinlicher eine Stichprobe mit den drei Realisationen 4.5, 5.1 und 5.3 zu erhalten als eine Stichprobe 26, 47 und 15. Um dies zu verdeutlichen schreibt man häufig f (y1, y2 , y3 |θ), bzw. bei Unabhängigkeit f (y1 , y2 , y3 |θ) = f (y1|θ)f (y2 |θ)f (y3|θ) Fassen wir zusammen: Y sei eine diskrete Zufallsvariable, deren Wahrscheinlichkeitsverteilung durch einen unbekannten Parameter(vektor) θ charakterisiert ist. Die Wahrscheinlichkeitsfunktion f (y|θ) gibt für jede Ausprägung die Wahrscheinlichkeit ihres Auftretens für ein gegebenes θ an f (y|θ) = Pr(Y = yi |θ) Wenn eine Zufallsstichprobe y1 , y2 , . . . , yn mit n erklärenden Beobachtungen vorliegt, und die Beobachtungen unabhängig verteilt sind, erhalten wir die gemeinsame Wahrscheinlichkeitsfunktion, indem wir die entsprechenden individuellen Wahrscheinlichkkeitsfunktionen multiplizieren. 3 Empirische Wirtschaftsforschung f (y1, . . . , yn |θ) = f (Y = y1 |θ) · f (Y = y2 |θ) · · · f (Y = yn |θ) = n Y i=1 f (Y = yi |θ) Dies gibt uns die Wahrscheinlichkeit der Realisation dieser Stichprobe für gegebene Parameter θ an.1 Die Likelihoodfunktion L interpretiert diese gemeinsame Wahrscheinlichkeitsfunktion (bzw. im stetigen Fall Dichtefunktion) als Funktion unbekannter Parameter θ für gegebene Beobachtungen! Man beachte den feinen Unterschied: für die Wahrscheinlichkeitsfunktion interessierten wir uns, weil sie uns die Eintrittswahrscheinlichkeiten von Realisationen für gegebene Parameter θ angibt. Bei der Likelihoodfunktion nehmen wir die Stichprobe als gegeben an und interessieren uns für den unbekannten Parameter θ, der die Realisation der gegebenen Stichprobe ‘am wahrscheinlichsten’ macht. Um dies zu verdeutlichen wird die Likelihood Funktion üblicherweise folgendermaßen angeschrieben: L(θ|Y ) = l(θ|Y = y1 ) · l(θ|Y = y2 ) · · · l(θ|Y = yn ) = n Y l(θ|yi ) i=1 Angenommen wir kennen die Verteilung der Grundgesamtheit (d.h. die Wahrscheinlichkeits- bzw. Dichtefunktion f ) und haben das Ergebnis einer Stichprobenziehung vorliegen, dann suchen wir den Parameter θ, für den die Realisierung der konkreten Stichprobe ‘am wahrscheinlichsten’ ist. Das ist natürlich nichts anderes als eine einfache Maximierungsaufgabe. Die Bedingungen 1. und 2. Ordnung für ein Maximum sind: ∂L =0 ∂θ und ∂2L <0 ∂θ2 Die Grundidee einer ML-Schätzung besteht also darin, solche Werte als Schätzer für die unbekannten Parameter heranzuziehen, die die Wahrscheinlichkeit der Realisation einer gegebenen Stichprobe maximieren! Die ML Schätzer θb für θ folgen direkt aus den Bedingungen erster Ordnung dieses Maximierungsproblems b L(θ|D) = sup L(θ|D) θ∈Θ 1 Analoges gilt auch für stetige Zufallsvariablen. Wenn Y stetig ist, ist die Wahrscheinlichkeit eine Stichprobe vom Umfang n zu erhalten, bei der die Stichprobenwerte in den Intervallen Y1 ≤ Y ≤ Y1 + ∆Y, Y2 ≤ Y ≤ Y2 + ∆Y, . . . , Yn ≤ Y ≤ Yn + ∆Y, liegen, näherungsweise f (Y1 ; θ)∆Y · f (Y2 ; θ)∆Y · · · f (Yn ; N )∆Y = f (Y1 ; θ) · f (Y2 ; ) · · · f (Yn ; θ)(∆Y )n Kürzen wir durch (∆Y )n sehen wir, dass auch in diesem Fall die gesuchte Wahrscheinlichkeit proportional zum Ausdruck L = f (Y1 ; θ) · f (Y2 ; θ) · · · f (Yn ; θ) ist. 4 Empirische Wirtschaftsforschung wobei die Lösung θb eine reelle Zahl aus dem nichtleeren Parameterraum Θ für die Daten D ist. (supremum der Likelihood Funktion). Die Funktion sup steht für Supremum und bezeichnet die kleinste obere Schranke (obere Grenze). Das Supremum ist ist eng verwandt mit dem Maximum einer Menge, und in den allermeisten Fällen können wir uns einfach das Maximum vorstellen. Abbildung 18.1 zeigt eine Stichprobe Y = (4.5, 3.5, 3.8, 4.0, 4.2, 4.7, 5.0, 5.2, 7.0, 8.1) und einige Dichtefunktionen. Wenn diese Stichprobe aus einer Normalverteilung gezogen wurde, so sind für diese Daten die Populationsparameter µ = 5 und σ 2 = 1.9 am wahrscheinlichsten (durchgezogene Dichtefunktion). f (θ) µ = 5.5, σ = 0.5 0.5 0.4 µ = 4, σ = 0.9 µ = 7, σ = 1 0.3 µ = 5, σ = 1.4 0.2 0.1 µ = 6, σ = 3 b 0 0 1 2 3 b b b 4 b b b b 5 b 6 7 b 8 9 10 11 12 13 14 y Abbildung 18.1: Maximum Likelihood Methode: Wenn wir wissen, dass die Stichprobe aus einer normalverteilten Grundgesamtheit gezogen wurde, welcher Mittelwert µ und welche Varianz σ 2 macht die Stichprobendaten ‘am wahrscheinlichsten’ ? Da Logarithmieren eine monotone Transformation ist kann ebensogut (und einfacher!) der Logarithmus der Likelihood Funktion, die sogenannte Log-Likelihood Funktion, maximiert werden ln L(θ|D) = ln[l(θ|y1 )] + ln[l(θ|y2 )] + · · · + ln[l(θ|yn )] = ∂ ln L =0 ∂θ und n X ln[l(θ|yi )] i=1 ∂ 2 ln L <0 ∂θ2 Die Ableitung ∂ ln(L)/∂θ wird auch ‘score’ oder Gradient genannt. Ein einzelnes Element der Summe ln Li = ln[f (yi , θ)] ist der Beitrag einer einzelnen Beobachtung i zur Loglikelihood Funktion. 5 Empirische Wirtschaftsforschung Die erste Ableitung ist die Steigung der Log-Likelihood Funktion (Gradient), und die zweite Ableitung die Steigung des Gradienten, d.h. die zweite Ableitung ist ein Maß für die Krümmung der Log-Likelihood Funktion. Je stärker gekrümmt die Log-Likelihood Funktion ist, d.h. je größer der Absolutwert der zweiten Ableitung im Punkt θb ist, desto betonter ist der Extremwert, und desto präziser kann θ geschätzt werden. Deshalb liegt es nahe, die zweite Ableitung als Ausgangspunkt für die Schätzung der Varianz der ML Schätzer heranzuziehen. Konkret kann man zeigen, dass b = var(θ) 1 − E[ln L(θ|D)′′ ] wobei D für die Daten steht und ln L(θ|D)′′ die zweite Ableitung der Log-Likelihood Funktion bezeichnet. Der negative Wert davon − ln L(θ|D)′′ wird als beobachtete Fisher Information bezeichnet und der Erwartungswert davon als erwartete Fisher Information. Die Varianz eines ML Schätzers θ ist also die Inverse der erwarteten Fisher Information. 18.2 Beispiele 18.2.1 ML-Schätzer für Mittelwert und Varianz einer normalverteilten Zufallsvariablen Den Mittelwert µ und die Varianz σ 2 einer normalverteilten (univariaten) Zufallsvariablen Y ∼ N(µ, σ 2 ) wird nach der Maximum Likelihood Methode folgendermaßen berechnet: Die Dichtefunktion von Y ist 1 2 2 f (yi , µ, σ 2) = √ e−(yi −µ) /(2σ )) σ 2π wobei e die Eulersche Zahl bezeichnet und π = 3.14159 . . .. In anderer Schreibweise 1 f (yi , µ, σ 2) = √ exp −(yi − µ)2 /(2σ 2) σ 2π 1 2 2 √ L(µ, σ | y) = exp −(yi − µ) /(2σ ) σ 2π i=1 n h X i 1 √ = exp − (yi − µ)2 /(2σ 2 ) σ 2π 2 n Y Durch Logarithmierung erhält man die Log-Likelihood Funktion ln L = −n ln σ − n ln √ 2π − 1 X (yi − µ)2 2σ 2 (18.1) 6 Empirische Wirtschaftsforschung ln(L) 10 µ b 0 1 2 3 b b b 4 b b b b 5 b 6 7 b 8 y −10 −20 −30 −40 −50 −60 −70 −80 −90 Abbildung 18.2: Log-Likelihood Funktion für Daten aus Abbildung 18.1 Abbildung 18.2 zeigt diese Log-Likelihood Funktion für die Daten aus Abbildung 18.1. Die Form dieser Log-Likelihood Funktion wird sich bei wiederholten Ziehungen von Stichprobe zu Stichprobe unterscheiden, aber für eine gegebene Stichprobe erlaubt sie uns eine Schätzung für den Parameterwert µ zu berechnen, der diese konkrete Stichprobe ‘am wahrscheinlichsten macht’. Das Maximum dieser Funktion kann wie üblich bestimmt werden, indem man die ersten Ableitungen der Log-Likelihood Funktion Null setzt und nach den unbekannten Parameterwerten µ und σ 2 löst. ∂ ln L 2 X = (yi − µ) = 0 ∂µ 2σ 2 X yi = nµ P yi µ̂ = = ȳ n ∂ ln L n 1 X = − + 3 (yi − µ)2 = 0 ∂σ σ σ X 2 (yi − µ) = nσ 2 P (yi − µ̂)2 2 σ̂ = n 7 Empirische Wirtschaftsforschung Wir erhalten als ML-Schätzer für den ‘wahren’ Parameter µ also wieder den Mittelwert. In diesem einfachen Fall liefert die OLS-und ML-Methode also das gleiche Resultat! Wie man aber sieht ist der Maximum Likelihood Schätzer σ̂ 2 in kleinen Stichproben kein unverzerrter Schätzer für die Varianz der Grundgesamtheit σ 2 (ein P unverzerrter Schätzer für σ 2 ist s2 = 1/(n − 1)[ (yi − ȳ)2 ]), aber der Unterschied verschwindet mit zunehmendem Stichprobenumfang n. Generell ist die Maximum Likelihood Schätzung für σ 2 asymptotisch erwartungstreu. Man sieht außerdem, dass für die Normalverteilung der Maximum Likelihood Schätzer für den Mittelwert nicht von der Varianz σ 2 abhängt, obwohl die Likelihood Funktion davon abhängt. Wichtig ist, dass unterschiedliche Stichproben zu verschiedenen Log-Likelihood Funktionen führen, da die Log-Likelihood Funktion eine Funktion der Stichprobendaten ist (siehe Gleichung 18.1). Abbildungen 18.3 – 18.5 zeigen dreidimensionale Darstellungen der Log-Likelihood für drei verschiedene Stichproben, die alle den gleichen Mittelwert ȳ = 5, aber unterschiedliche – von Abbildung zu Abbildung zunehmende – Varianzen s2 haben. Offensichtlich ist die Log-Likelihood umso flacher, je größer die Varianz der Stichprobe ist. Wenn die Log-Likelihood aber sehr flach ist können schon geringfügig unterschiedliche Stichproben zu sehr verschiedenen Parameterschätzungen führen; man kann sich vorstellen, die Schätzungen werden ‘störanfälliger’. Dies ist wenig überraschend, wir wissen bereits, dass eine große Varianz der Störterme zu ungenaueren Schätzungen führt. -20 lnHLL 8 -30 6 -40 0 4 Σ 2 4 µ 2 6 8 Abbildung 18.3: Log-Likelihood Funktion für die Stichprobe y = {4.5, 4.6, 4.8, 4, 4.2, 4.7, 5, 5.2, 7, 6} (ȳ = 5, σ = 0.85) 8 Empirische Wirtschaftsforschung -20 lnHLL 8 -30 6 -40 0 4 Σ 2 4 µ 2 6 8 Abbildung 18.4: Log-Likelihood Funktion für die Stichprobe y = {4.5, 3.5, 3.8, 4, 4.2, 4.7, 5, 5.2, 7, 8.1} (ȳ = 5, σ = 1.4) -30 lnHLL 8 -40 -50 6 0 4 Σ 2 4 µ 2 6 8 Abbildung 18.5: Log-Likelihood Funktion für die Stichprobe y = {1.5, 2, 3.8, 4, 4.2, 4.7, 5, 5.2, 10, 9.6} (ȳ = 5, σ = 2.66) 9 Empirische Wirtschaftsforschung 18.2.2 ML-Schätzer für das multivariate Regressionsmodell Dieses Prinzip kann einfach für das multivariate Regressionsmodell angewandt werden y = Xβ + ε, mit ε ∼ N(0, σε2 ) Die multivariate Dichtefunktion für ε ist f (ε; β, σε2 ) = 1 ′ 2 e−ε ε/2σε 2 n/2 (2πσε ) Man kann zeigen, dass die bedingte multivariate Dichtefunktion von y einfach2 f (y|X) = ′ 2 1 e−[(y−Xβ) (y−Xβ)/2σε ] 2 n/2 (2πσε ) da ε = y − Xβ. Die Likelihood Funktion interpretiert diese Dichtefunktion wieder als Funktion der unbekannten Parameter β und σε2 für die gegebenen Beobachtungen y und X L(β, σε2 ; y, X) = 1 ′ 2 e−[(y−Xβ) (y−Xβ)/2σε ] 2 n/2 (2πσε ) Wegen der Monotonität der logarithmischen Transformation kann man auch einfacher die Log-Likelihood Funktion maximieren n n 1 ln(L) = − ln(2π) − ln(σε2 ) − 2 [(y − Xβ)′ (y − Xβ)] 2 2 2σε Die Parameterwerte, die diese Funktion maximieren, folgen aus den Bedingungen erster Ordnung 1 ∂ [(y − Xβ)′ (y − Xβ)] ! ∂ ln(L) = − 2 =0 ∂β 2σε ∂β ∂ ln(L) n 1 ! = − + [(y − Xβ)′ (y − Xβ)] = 0 ∂σε2 2σε2 2σε4 Die erste dieser beiden Gleichungen minimiert wie der OLS-Schätzer die Quadratsumme der Residuen. Wir erinnern uns von der Herleitung des OLS-Schätzers, dass ∂ [(y − Xβ)′ (y − Xβ)] ! = 2X ′ y − 2X ′ Xβ = 0 ∂β Daraus folgt, dass der ML-Schätzer für β gleich dem OLS-Schätzer ist β̂ = (X ′ X)−1 X ′ y 2 Dies folgt aus dem Gesetz des Austauschs von Variablen in Dichtefunktionen. Wenn ε und y jeweils Spaltenvektoren mit n Variablen sind und f die Dichtefunktion bezeichnet, dann gilt ∂ε f (y) = f (ε) ∂y wobei |∂ε/∂y| den Absolutwert der Determinante von der Matrix mit den partiellen Ableitungen bezeichnet (Jacobi Determinante). Da in diesem einfachen Fall |∂ε/∂y| = 1 gilt f (y) = f (ε) (siehe z.B. Johnston & DiNardo 1997, S. 64 & 158). Empirische Wirtschaftsforschung 10 Aus der zweiten Bedingung erster Ordnung erhalten wir direkt den ML-Schätzer für σε2 i ε̂′ε̂ 1 h σ̂ε2 = (y − X β̂)′ (y − X β̂) = n n Wie schon erwähnt ist dieser Schätzer für kleine Stichproben verzerrt, da er keine Korrektur für die Freiheitsgrade berücksichtigt, ein unverzerrter Schätzer wäre wieder ε̂′ ε̂ s2ε = n−k Abbildung 18.6, entnommen aus Murray (2005), zeigt einige grafische Beispiele für mögliche Log-Likelihood Funktionen. Abbildung 18.6: Log-Likelihoodfunktionen für bivariate Modelle; Quelle: Murray, siehe http://wps.aw.com/aw_murray_economtrcs_1/ 18.2.3 Binominal verteilte Zufallsvariablen Ein wesentlicher Vorteil der Maximum-Likelihood Methode besteht darin, dass die Schätzer auch für spezifische Verteilungen ermittelt werden können, allerdings muss die Verteilung der Grundgesamtheit bekannt sein. 11 Empirische Wirtschaftsforschung Angenommen wir interessieren uns für die Wahrscheinlichkeit eine gegebene Zahl von Männern in einer Stichprobe zu finden.3 Die Wahrscheinlichkeit s Männer in einer Stichprobe der Größe n mit dem Populationsparameter π zu finden ist nach der Binominalverteilung Pr(s|π, n) = n! π s (1 − π)n−s s!(n − s)! mit z! = z × (z − 1) × (z − 2) × · · · × 2 × 1. Wenn der Anteil der Männer in der Grundgesamtheit ein Halb ist (π = 0.5), dann ist die Wahrscheinlichkeit in einer Stichprobe der Größe n = 10 drei Männer zu finden (s = 3) Pr(s = 3|π = 0.5, n = 10) = 10! 3 0.5 (1 − 0.5)7 = 0.117 3!7! In diesem Fall kennen wir den Wert von π und n und interessieren uns für die Wahrscheinlichkeit einer Realisation s (d.h. s ist eine Variable). Deshalb wird obige Funktion Wahrscheinlichkeitsfunktion (probability funcion) genannt. Bei der Maximum Likelihood Schätzung nehmen wir hingegen s und n als gegeben an und untersuchen, wie sich diese Funktion in Abhängigkeit des zu schätzenden Populationsparameters π ändert. Deshalb wird diese Funktion Likelihood Funktion genannt. Die Maximum Likelihood (ML) Schätzung ist dann der Populationsparameter π, der die beobachteten Daten ‘am wahrscheinlichsten’ macht. Die Likelihood Funktion im obigen Beispiel ist 10! 3 π (1 − π)7 3!7! Da der Logarithmus eine monotone Transformation ist können wir auch die logLikelihood Funktion maximieren 10! ln[L(π|s = 3, n = 10)] = ln + 7 ln π + 7 ln(1 − π) 3!7! L(π|s = 3, n = 10) = Die Maximum Likelihood Schätzung für π ist der Wert π b, der die Wahrscheinlichkeit eine Stichprobe mit drei Männern zu finden maximiert. Die Bedingung erster Ordnung dafür ist ∂ ln L(π|s = 3, n = 10) =0 ∂π ∂ ln L(π|s = 3, n = 10) 3∂ ln π ∂ 7 ln(1 − π) ∂(1 − π) = 0+ + ∂π ∂π ∂(1 − π) ∂π 3 7 ! = − =0 π 1−π bzw. 3(1 − π) = 7π → 3 = 10π; daraus folgt der ML-Schätzer π b = 0.3 = s/n. In diesem einfachen Fall ist der ML Schätzer genau gleich dem Anteil der Männer in der Stichprobe. 3 Dieses Beispiel stammt aus Long, Scott J., Regression Models for Categorical and Limited Dependent Variables, Sage 1997. Empirische Wirtschaftsforschung 18.3 12 Eigenschaften von ML Schätzfunktionen Wir haben gerade gesehen, dass der ML-Schätzer für σε2 in kleinen Stichproben verzerrt sein kann (z.B. ist der erwartungstreue Schätzer für die Varianz der Störterme s2 = ε̂′ ε̂/(n − k)). Dennoch besitzen Maximum-Likelihood Schätzer eine Reihe wünschenswerter Eigenschaften. Unter sehr allgemeinen Bedingungen gilt: b =θ 1. ML-Schätzer sind konsistent: plim(θ) √ d 2. ML-Schätzer sind asymptotisch normalverteilt: n(θb − θ) → N(θ, I −1 (θ)) (die Informationsmatrix I wird im nächsten Kapitel diskutiert.) 3. ML-Schätzer sind asymptotisch erwartungstreu; 4. ML-Schätzer sind asymptotisch effizient, d.h. die Varianz von θb erreicht asymptotisch die minimale Varianz, √ die ein konsistenter Schätzer erreichen kann b = I −1 ). (Cramér-Rao Schranke: as. Var[ nθ] 5. Invarianz: Sei g(θ) eine stetige Funktion. Dann ist der ML-Schätzer von g(θ) b gleich g(θ). Aufgrund dieser Eigenschaften sind ML-Schätzer sehr beliebt, allerdings haben sie auch einige Nachteile: • ML-Schätzer beruhen auf einer Verteilungsannahme. Ist diese verletzt können ML-Schätzer inkonsistente Ergebnisse liefern. Wird die ML-Methode angewandt, obwohl die Störterme nicht normalverteilt sind, spricht man von einer Quasi-Maximum Likelihood Schätzung. • ML-Schätzer sind oft eine komplizierte Funktion der unbekannten Parameter, für die es keine analytischen Lösungen gibt. In solchen Fällen muss auf iterative numerische Verfahren zurückgegriffen werden. • Die Vorteile der ML-Schätzer sind asymptotischer Natur, in kleinen Stichproben können andere Schätzer bessere Eigenschaften haben. 18.3.1 Übungsaufgaben 1. Die Dichtefunktion einer Zufallsvariable x mit exponentieller Wahrscheinlichkeitsverteilung ist ( (1/θ) e−x/θ für x > 0, f (x) = 0 sonst Zeigen P Sie mit Hilfe der ML-Methode, dass die ML-Schätzung von θ gleich θ̂ = xi /n ist (n ist die Stichprobengröße). 13 Empirische Wirtschaftsforschung 2. Ermitteln Sie die ML-Schätzer für β1 , β2 und σ 2 für das bivariate Regressionsmodell yi = β1 + β2 xi + εi . Hinweis: −(yi − β1 − β2 xi )2 1 exp f (yi ) = √ 2σ 2 σ 2π 3. Zeigen Sie, dass im vorhergehenden Beispiel die Bedingungen 2. Ordnung erfüllt sind. 18.4 Die Varianz von ML-Schätzern Die Maximum Likelihood Methode erlaubt auch einige allgemeine Aussagen über die Varianz der geschätzten Parameter. Eine umfassende Darstellung geht weit über den Rahmen dieses Skript hinaus, im folgenden seien deshalb nur die wichtigsten Ergebnisse zitiert. Sei θ ein Vektor mit zu schätzenden Parametern. Im einfachen Regressionsmodell yi = β1 + β2 xi + εi mit var(ε|x) = σ 2 ist θ = [β1 β2 σ]′ . Die Hess’sche Matrix der 2. Ableitungen ist ∂ 2 ln L(θ) ∂θ∂θ ′ oder in unserem bivariaten Regressionsbeispiel H(θ) = ∂ 2 ln L(θ) ∂β ∂β 2 1 1 L(θ) H(θ) = ∂∂βln2 ∂β 1 ∂ 2 ln L(θ) ∂σ∂β1 ∂ 2 ln L(θ) ∂β1 ∂β2 ∂ 2 ln L(θ) ∂β1 ∂σ ∂ 2 ln L(θ) ∂β2 ∂β2 ∂ 2 ln L(θ) ∂β2 ∂σ ∂ 2 ln L(θ) ∂σ∂β2 ∂ 2 ln L(θ) ∂σ∂σ Die zweite Ableitung ist ein Maß für die Krümmung der Log-Likelihood Funktion. Wenn z.B. die zweite Ableitung ∂ 2 ln L(θ)/(∂β2 ∂β2 ) klein ist ändert sich die LogLikelihood nur wenig, wenn sich β2 ändert. Die Informationsmatrix I ist definiert als der negative Erwartungswert der Hess’schen Matrix I(θ) = − E[H(θ)] Unter sehr allgemeinen Bedingungen kann man zeigen, dass die Inverse der Informationsmatrix die asymptotische Varianz-Kovarianz Matrix der ML Schätzer ist bzw. für unser Beispiel b = I −1 (θ) = − E[H(θ)]−1 as. var(θ) ∂ 2 ln L(θ) ∂β1 ∂β1 ∂ 2 ln L(θ) ∂β1 ∂β2 ∂ 2 ln L(θ) ∂β1 ∂σ −1 −E −E −E 2 2 2 ∂ ln L(θ) ∂ ln L(θ) ∂ ln L(θ) b as. var(θ) = − E ∂β2 ∂β1 − E ∂β2 ∂β2 − E ∂β2 ∂σ 2 2 2 ∂ ln L(θ) ∂ ln L(θ) ∂ ln L(θ) − E ∂σ∂β1 − E ∂σ∂β2 − E ∂σ∂σ 14 Empirische Wirtschaftsforschung Beispiel: Für das frühere Beispiel einer normalverteilten Zufallsvariable X ∼ N(µ, σ 2 ) haben wir folgende Likelihood, Log-Likelihood und Scores berechnet: n h X i 1 2 √ exp − (xi − µ)2 /(2σ 2 ) L(µ, σ | x) = σ 2π √ 1 X ln L = −n ln σ − n ln 2π − 2 (xi − µ)2 2σ 2 X ∂ ln L = (xi − µ) = 0 ∂µ 2σ 2 ∂ ln L n 1 X = − + 3 (xi − µ)2 = 0 ∂σ σ σ Anhand dieser können wir nun die Hess’sche Matrix berechnen: 2 P 2 H(µ, σ) = ∂ ln L ∂µ2 ∂ ln L ∂µ∂σ ∂ 2 ln L ∂µ∂σ ∂ 2 ln L ∂σ2 = −n 2 Pσ −2 (xi −µ) σ3 −2σ n σ2 − (xi −µ) σ4 P 3 (xi −µ)2 σ4 = −n σ2 0 0 −2n σ2 ! Der letzte P Schritt derPobigen Gleichung ergibt P sich aus Einsetzen der Lösungen µ̂ = (1/n) P xi → xi P = nµ̂, woraus folgt (xi − µ̂) = nµ̂ − nµ̂ = 0, sowie σ̂ 2 = (1/n) (xi − µ̂)2 → (xi − µ̂)2 = nσ̂ 2 . Die asymptotische Varianz-Kovarianzmatrix ist die Inverse der Informationsmatrix I(µ, σ) = − E[H(µ, σ)], also as. var(µ, σ) = n σ2 0 0 2n σ2 !−1 = σ2 n 0 0 σ2 2n ! Da die Nebendiagonalelemente Null sind folgt, dass µ̂ und σ̂ asymptotisch unkorreliert sind. Für das lineare Regressionsmodell y = Xβ + ε mit ε ∼ N(0, σ 2 ) wird z.B. in Johnston and Dinardo (1996, 145f) gezeigt, dass 1 2 ′ −1 ′ σ (X X) 0 0 β β 2 (X X) −1 σ I(θ) = I = bzw. I = n 2σ4 0 σ2 σ2 0 2σ4 n Dieses Ergebnis gilt nur asymptotisch. Für kleine Stichproben gilt die Cramer-Rao Ungleichung, derzufolge b ≥ I −1 (θ) var(θ) Dies erlaubt die Bestimmung einer Untergrenze für die Varianz eines jeden unverzerrten Schätzers, dessen Verteilung bekannt ist. Zum Beispiel wissen wir, dass die Varianz des Mittelwertes var(x̄) = σ 2 /n ist. Da dies im obigen Beispiel tatsächlich das erste Element von I −1 ist können wir schließen, dass dieser Schätzer für normalverteilte Zufallsvariablen effizient ist. 15 Empirische Wirtschaftsforschung 18.5 Likelihood Ratio (LR), Wald and Langrange Multiplier (LM)- Tests Die Likelihood Ratio (LR)-, Wald- und Langrange Multiplier (LM)- Tests sind die Troika der klassischen Teststatistik. Alle drei Tests beruhen auf einem Vergleich eines Modells mit Restriktionen mit einem Modell ohne Restriktionen. Das Grundprinzip dieser drei Tests kann einfach anhand der Log-Likelihood Funktion erklärt werden. Für das bivaritae Regressionsmodell yi = β1 + β2 xi + εi mit εi ∼ N(0, σ 2 ) ist die Log-Likelihood Funktion √ P(y − β − β x )2 i 1 2 i 2 2π − ln L(β) = −n ln σ − n ln 2 2σ 18.5.1 Likelihood Ratio Tests Likelihood Ratio-Tests beruhen auf einem Vergleich des Wertes der (maximalen) Log-Likelihood Funktion an der Stelle ohne der Restriktion (d.h. an der Stelle der unrestringierten ML-Schätzer β̂) und des Wertes an der Stelle mit Restriktion (der restringierten ML-Schätzers β̂r ). Das Likelihood-Verhältnis (likelihood ratio) ist durch L(β̂r ) λ= L(β̂) definiert. Der Nenner von λ kann nicht kleiner als der Zähler sein, da der Wert an der Stelle ohne Restriktion (β̂) immer größer ist, als an der Stelle mit Restriktion (β̂r , vgl. Abb. 18.7). Deshalb gilt 0 ≤ λ ≤ 1. Die Null-Hypothese ist β = βr . Für große Stichproben ist die LR-Statistik a LR = −2 ln λ = 2[ln L(β̂) − ln L(β̂r )] ∼ χ2q d.h. die Likelihood Ratio-Teststatistik asymptotisch Chi-quadrat verteilt mit q Freiheitsgraden, wobei q die Anzahl der Restriktionen bezeichnet. Die LR-Statistik beruht auf der vertikalen Distanz in Abbildung 18.7: je größer die vertikale Distanz ln L(β̂) − ln L(β̂r ), umso eher wird die Nullhypothese verworfen. b ln L(β) ln L(βbr ) bc ∂ 2 ln L ∂β 2 bc ∂ ln L ∂β βbr Abbildung 18.7: Wald, LR und LM Tests βb β In Abbildung 18.8 (Seite 16) wird dies anhand einer sehr flach verlaufenden LogLikelihood Funktion (strichliert gezeichnet) veranschaulicht. 16 Empirische Wirtschaftsforschung ln L bc bc ∂ 2 ln L ∂β 2 β βb Abbildung 18.8: Wald, LR und LM Tests bei einer flach verlaufenden LogLikelihood Funktion 18.5.2 Wald Tests Wald Tests beruhen auf einem Vergleich von βb und βbr , d.h. der horizontalen Distanz in Abbildung 18.7, wobei diese Distanz mit der Krümmung der Log-Likelihood Funktion an der Stelle βb (d.h. ∂ 2 ln L/∂ βb2 ) gewichtet wird. Umso größer die zweite Ableitung ist umso stärker ist die Log-Likelihood Funktion gekrümmt. Wenn Log-Likelihood Funktion an der Stelle βb sehr flach verläuft erlaubt selbst eine große Differenz zwischen den Parametern des restringierten und nicht restringierten Modells nicht die Verwerfung der Null-Hypothese (vgl. Abb. 18.8). Ein Vorteil dieses Testprinzips besteht darin, dass nur die nicht restringierten ML-Schätzer berechnet werden müssen. Allerdings muss die Krümmung der LogLikelihood Funktion an dieser Stelle berechnet werden. Man kann zeigen, dass die übliche F-Statistik Fq,n−k = (ε̂′r ε̂ − ε̂′ ε̂)/q ε̂′ ε̂/(n − k) ein Spezialfall eines Wald-Tests für lineare Restriktionen ist. 18.5.3 Lagrange Multiplier Tests Bei Lagrange Multiplier Tests wird der Wert der Log-Likelihoodfunktion an der b Stelle βbr berechnet, wobei die Steigung der Log-Likelihoodfunktion (= ∂ ln L/∂ β) und die Krümmung (= ∂ 2 ln L/∂ βb2 ) an dieser Stelle berücksichtigt wird. Wenn die Nullhypothese wahr ist sollte die Steigung an der Stelle βbr sehr klein sein. In der grafischen Abbildung 18.7 beruht die LM-Statistik auf dem Anstieg der Tangente im Punkt βbr sowie der Krümmung in diesem Punkt. Der Vorteil dieses Testprinzips besteht darin, dass nur die restringierten ML-Schätzer berechnet werden müssen. In Matrixschreibweise hat die LM-Statistik die Form a LM = S ′ (β̂r )I −1 (β̂r )S(β̂r ) ∼ χ2q 17 Empirische Wirtschaftsforschung ln L die erste Ableitung der Likelihood Funktion an der Stelle β = βbr wobei S(β̂r ) = ∂ ∂β bezeichnet und I die Informationsmatrix ist. Diese Statistik ist asymptotisch χ2 verteilt mit q Freiheitsgraden, wobei q die Anzahl der Restriktionen ist. Engle (1982) hat gezeigt, dass der LM-Test relativ einfach mit Hilfe einer ‘Hilfsregression’ durchgeführt werden kann. Er beruht darauf, dass die Lagrange Multiplier (LM-) Teststatistik auch als LM = ε̂′r ε̂ − ε̂′ ε̂ a 2 ∼ χq ε̂′r ε̂/n geschrieben werden kann. Unter Berücksichtigung von TSS = ESS + RSS (Total Sum Squared = Explained Sum Squared + Residual Sum Squared, mit RSS = ε̂′ ε̂) kann die LMStatistik auch unter Verwendung des R2 einer Hilfsregression der Residuen des restringierten Modells auf die erklärenden Variablen des nicht restringierten Modells geschätzt werden LM = nR2 Dieser Test kann z.B. verwendet werden um abzuschätzen, ob zusätzliche erklärende Variablen in ein Regressionsmodell aufgenommen werden sollen (LM-Test for adding variables). Angenommen, wir haben ein (kurzes) Modell R mit Restriktionen und ein (langes) Modell U ohne Restriktionen: R: U: y = β1 + β2 x2 + ε y = β1 + β2 x2 + β3 x3 + · · · + βk xk + ε∗ H0 : β3 = β4 = · · · = βk = 0 H1 : mindestens eines dieser βh 6= 0 (mit h = 3, . . . , k). Ein LM-Test für die Nullhypothese H0 : Schritten durchgeführt werden: β3 = β4 = · · · = βk = 0 kann in folgenden 1. Schätze das Modell mit Restriktion R. 2. Berechne die geschätzten Residuen dieses restringierten Modells R ε̂r : ε̂r = y − βb1 − βb2 x2 Wenn das “wahre Modell” U korrekt ist erwarten wir, dass diese Residuen mit den Variablen x2 , . . . , xk korreliert sein werden. 3. Regressiere die geschätzten Residuen ε̂r auf das Interzept und alle x, d.h. ε̂r = γ̂1 + γ̂2 x2 + γ̂3 x3 + · · · + γ̂k xk + ν 4. Das Bestimmtheitsmaß dieser ‘Hilfsregression’ multipliziert mit der Anzahl der Beobachtungen n ist nach Engle (1982) asymptotisch Chi-quadrat verteilt mit q Freiheitsgraden, wobei q wieder die Anzahl der Restriktionen unter der Null-Hypothese ist: a LM = nR2 ∼ χ2q 18 Empirische Wirtschaftsforschung Beispiel in EViews: ’ LM-Test for Adding Variables ’ Example Gujarati (1995) pp. 219 & 463 equation EQ_R.ls COST c OUTPUT series E_hat = resid equation EQ_Ehat.ls E_hat c OUTPUT OUTPUT^2 OUTPUT^3 scalar LM_Stat = EQ_Ehat.@regobs * EQ_Ehat.@r2 scalar LM_pval = 1-@cchisq(LM_Stat,2) ’ Result: LM_Stat = 9.8956; p-val = 0.0071 In großen Stichproben sollten der Wald-, LR- und LM Test sehr ähnliche Resultate liefern (d.h. sie sind asymptotisch äquivalent). Engel (1982) und Buse (1982) haben gezeigt, dass in linearen Modellen generell gilt W ≥ LR ≥ LM Die Unterschiede dieser Teststatistiken in kleinen Stichproben gehen im wesentlichen auf die Verwendung entweder des unverzerrten Schätzers s2 oder des verzerrten, aber konsistenten ML-Schätzers σ˜2 für die Varianz der Störterme σε2 zurück. Vorsicht bei fehlenden Beobachtungen: diese Tests setzen voraus, dass die Modelle mit und ohne Restriktionen auf den selben Beobachtungen beruhen. Bei fehlenden Beobachtungen (missing values) kann es zu Unterschieden in der Anzahl der Beobachtungen kommen. 18.6 Numerische Methoden zur Berechnung von ML-Schätzungen Wir haben bereits früher gezeigt, dass die ML-Schätzer im einfachen Regressionsmodell (d.h. wenn alle Gauss-Markov Annahmen erfüllt sind) einfach berechnet werden können, indem man die ersten Ableitungen (Gradienten) Null setzt und nach den unbekannten Parametern löst. In diesem einfachsten Fall stimmen die ML Schätzer für die Koeffizienten mit den OLS Schätzern überein (nicht aber die Schätzungen für die Standardfehler, warum?). Für nichtlineare Modelle ist die algebraische Berechnung der Lösungen selten möglich, deshalb muss in diesen Fällen meist zu numerischen Methoden gegriffen werden. Im Prinzip wird dabei meist iterativ vorgegangen: Man berechnet den Lösungsvektor θ (z.B. θ = β1 β2 σ)′ ) mit ‘beliebigen’ Startwerten θ0 , berechnet dafür den Wert der Log-Likelihood Funktion, und addiert anschließend einen Vektor ψ0 zum Parametervektor θ um eine bessere Schätzung zu erhalten. Dieses Verfahren wird wiederholt, bis der Wert der Log-Likelihood Funktion annähernd ein Maximum erreicht hat, d.h. bis sich der Wert kaum noch verändert. θ1 = θ0 + ψ 0 .. . θm+1 = θm + ψm 19 Empirische Wirtschaftsforschung Wenn eine Lösung θb gefunden werden kann, der Gradient der Log-Likelihood Funktion also annähernd Null wird , spricht man von Konvergenz. Das Problem ist einen Vektor ψm zu finden, der einfach zu berechnen ist und der zu einer schnellen Konvergenz führt. Dazu wurden mehrere Methoden vorgeschlagen. • ‘Method of Steepest Ascent’: Bei dieser Methode wird die Steigung der Log-Likelihood Funktion verwendet θm+1 = θm + ∂ ln L ∂θm Der Wert des Schätzers wird bei einem weiteren Durchgang vergrößert, wenn die Ableitung (der Gradient) positiv ist, und verkleinert, wenn der Gradient negativ ist. Der Nachteil dieser Methode liegt darin, dass sie nur die Steigung in einem Punkt, aber nicht die Krümmung der Log-Likelihood Funktion in diesem Punkt berücksichtigt, weshalb die Konvergenz eher langsam ist. Die nächsten drei Methoden berücksichtigen deshalb zusätzlich die Krümmung der Log-Likelihood Funktion um die Konvergenz zu beschleunigen. • Newton-Raphson Methode: Die Krümmung (d.h. die Änderung der Steigung) kommt in der 2. Ableitung zu Ausdruck, d.h. in der Hess’schen Matrix ∂ ln L/∂θ∂θ ′ . Wenn θ = (β1 β2 )′ ist die Hess’sche Matrix 2 ∂ ln L(θ) ∂ 2 ln L(θ) 2 ∂ ln L ∂β1 ∂β1 ∂β1 ∂β2 H(θ) = = 2 ′ ∂ ln L(θ) ∂ 2 ln L(θ) ∂θ∂θ ∂β2 ∂β1 ∂β2 ∂β2 Wenn z.B. ∂ 2 ln L(θ)/∂β1 ∂β1 sehr groß ist (die Log-Likelihood Funktion also stark gekrümmt ist) und ∂ 2 ln L(θ)/∂β2 ∂b1 klein ist sollte die Anpassung von β1 in kleineren Schritten erfolgen als die Anpassung von b1 . Deshalb wird die Inverse der Hess’schen Matrix für die Gewichtung verwendet. θm+1 = θm − ∂ ln L2 ∂θ∂θ ′ −1 ∂ ln L ∂θm Auch für die Schätzung der Varianz-Kovarianz Matrix der ML Schätzer wird häufig von der negativen Hess’schen Matrix ausgegangen (der sogenannten beobachteten Informationsmatrix anstelle der tatsächlichen Informationsmatrix), b =− var c 1 (θ) n X ∂ ln L2 i i=1 b θb ′ ∂ θ∂ !−1 Eine Verfeinerung der Newton-Raphson Methode ist die ‘quadratic hillclimbing’ Methode, die z.B. in EViews zur Verfügung steht. Dabei werden die Hauptdiagonalelemente der Hess’sche Matrix modifiziert um die Konvergenz zu beschleunigen (anstelle der Hess’schen Matrix H wird eine Matrix Hα = H + αI verwendet, wobei α eine positive Konstante und I die Einheitsmatrix ist). 20 Empirische Wirtschaftsforschung • ‘Method of Scoring’: Die ‘Method of Scoring’ verwendet anstelle der Hess’schen Matrix die Informationmatrix − E(H) −1 ∂ ln L2 ∂ ln L θm+1 = θm + E ∂θ∂θ ′ ∂θm I(θ) = − E[H(θ)] Da die Inverse der Informationsmatrix die asymptotische Varianz-Kovarianz Matrix der ML Schätzer ist kann dies zur Schätzung der Varianz-Kovarianz Matrix verwendet werden −1 ∂ ln L2 −1 b b var c 2 (θ) = I (θ) = − E b θb ′ ∂ θ∂ • BHHH Methode: Die beiden vorhin genannten Methoden benötigen die 2. Ableitungen der Log-Likelihood Funktion. Im Gegensatz dazu benötigt die BHHH Methode4 nur die ersten Ableitungen. Sie beruht darauf, dass das äußere Produkt der Gradienten eine Approximation der Informationsmatrix ist M X ∂ ln Li ∂ ln Li ′ ∂θm ∂θm i=1 wobei ln Li der Wert der Log-Likelihood Funktion für die i-te Beobachtung ist. Diese Approximation ist meist einfacher zu berechnen und führt zu folgender Iteration !−1 M X ∂ ln Li ∂ ln Li ′ ∂ ln L θm+1 = θm − ∂θm ∂θm ∂θm i=1 Der in EViews implementierte Marquardt Algorithmus ist eine ähnliche Modifikation der BHHH-Methode wie die ‘quadratic hill climbing’ Methode des Newton-Raphson Algorithmus. Mit der BHHH-Methode wird die Varianz-Kovarianz Matrix der ML Schätzer meist geschätzt als !−1 n X ∂ ln L ∂ ln L i i b = var c 3 (θ) ∂ θb ∂ θb ′ i=1 Obwohl alle drei Schätzungen der Varianz-Kovarianz Matrix asymptotisch äquivalent sind können sich die unterschiedlichen Schätzmethoden in kleinen Stichproben stark unterscheiden. • Numerische Ableitungen: Wenn die Gradienten nicht berechnet werden können müssen diese numerisch appoximiert werden. Für einen einzelnen Parameter θ z.B. durch ∂ ln L ln L(θ + ∆) − ln L(θ) ≈ ∂θ ∆ 4 benannt nach Berndt, E., B. Hall, R. Hall, and J. Hausman (1974): Estimation and inference in nonlinear structural models. Annals of Economic and Social Measurement 3:653-665); ausgesprochen B-triple-H 21 Empirische Wirtschaftsforschung wobei ∆ eine relativ zu θ kleine Zahl ist. Diese Methoden sind sehr rechenintensiv und führen häufig zu Problemen mit der Konvergenz. Es empfiehlt sich unterschiedliche Startwerte zu versuchen, um die Robustheit der Ergebnisse zu sicherzustellen. Häufige Ursachen für Konvergenz-Probleme sind z.B. 1. eine zu geringe Anzahl von Beobachtungen. Sehr grobe Faustregel: Für ML Schätzungen sollten mindestens gegen 100 Beobachtungen vorliegen; mehr, wenn viele Parameter zu schätzen sind. 2. eine sehr unterschiedliche Skalierung der Variablen: wenn die Dimensionen der X-Variablen sehr unterschiedlich sind (z.B. eine Variable eine Größenordnung von 1000000 und eine andere Variable eine Größenordnung von 0.1 hat). Probleme dieser Art sind eher unwahrscheinlich, wenn das Verhältnis der größten zur kleinsten Standardabweichung kleiner als 10 ist. 3. Multikollinearität u.ä. Übungsbeispiel: Gegeben sei die Dichtefunktion f (xi |θ) = e−θ θxi , xi ! xi = 0, 1, 2, . . . 1. Berechnen Sie den Maximum Likelihood Schätzer für θ. 2. Angenommen, aus dieser Verteilung wird folgende (i.i.d.) Stichprobe gezogen: 3, 0, 1, 2, 4. Testen Sie mit Hilfe eines Likelihood Ratio Tests die Nullhypothese: θ = 1. [Hinweis: 0! = 1, 1! = 1, 2! = 2 × 1 = 2, 3! = 3 × 2 × 1 = 6, 4! = 24] Lösung: Die Dichtefunktion der diskreten Poisson-Verteilung ist f (xi |θ) = e−θ θxi , xi ! xi = 0, 1, 2, . . . Da die einzelnen Beobachtungen unabhängig gezogen wurden ist die Wahrscheinlichkeit genau diese Stichprobe zu erhalten f (x1 , x2 , . . . , xn |θ) = bzw. für die Stichprobe {3, 0, 1, 2, 4} n Y i=1 e−nθ θ f (xi |θ) = Qn Pn i=1 e−5θ θ f (x1 , x2 , . . . , x5 |θ) = Q5 P5 i=1 i=1 xi ! xi = i=1 xi ! e−5θ θ10 288 xi 22 Empirische Wirtschaftsforschung Die Log-Likelihood Funktion ist ln L(θ|x) = −nθ + ln θ also n X i=1 xi − n X ln(xi !) i=1 n 1X ∂ ln L(θ|x) ! = −n + xi = 0 ∂θ θ i=1 Daraus folgt der ML-Schätzer n θ̂M L = 1X xi = x̄ n i=1 Für die Stichprobenbeobachtungen ln L(θ|x) = −5θ + 10 ln θ − 5.66296 und ∂ ln L(θ|x) 10 ! = −5 + =0 ∂θ θ ⇒ θ̂ML = 2 Der Wert der Log-Likelihood Funktion des nicht restringierten Modells ist ln L(θ = 2|x) = −5 · 2 + 10 ln(2) − 5.66296 = −8.7314887 Der Wert der Log-Likelihood Funktion des restringierten Modells ist ln L(θ = 1|x) = −5 · 1 + 10 ln(1) − 5.66296 = −10.662960 Also ist a LR = −2 ln λ = 2[−8.7314887 + 10.662960] = 3.8629426 ∼ χ21 Der kritische Wert (5%) der χ2 - Verteilung mit einem Freiheitsgrad ist 3.84, die Nullhypothese θ = 1 kann also auf dem 5% Niveau verworfen werden. 18.7 Ein Beispiel in EViews In den meisten Programmen sind die üblichen Routinen für Maximum Likelihood Schätzungen bereits fix programmiert, so auch in EViews. Sollte man ein spezielles Problem haben kann man aber auch einfach eine beliebige Log-Likelihood Funktion maximieren. In EViews steht dazu das LOGL-Objekt zur Verfügung. Wir erinnern uns, die Log-Likelihood Funktion für normalverteilte Zufallsvariablen ist n Y 1 2 ′ 2 2 √ L(β, σ ) = exp −(yi − xi β) /(2σ ) σ 2π i=1 n h X i 1 √ = exp − (yi − x′i β)2 /(2σ 2 ) σ 2π 23 Empirische Wirtschaftsforschung wobei x′i ein (1 × k) Zeilenvektor für die i-te Beobachtung ist, d.h. x′i β = β2 xi1 + β3 xi2 + · · · + βk xik . Durch Logarithmierung erhält man die Log-Likelihood Funktion √ 1 X (yi − x′i β)2 ln L = −n ln σ − n ln 2π − 2 2σ Dies kann auch als Summe geschrieben werden n X √ 1 ′ 2 ln L = − ln σ − ln 2π − 2 (yi − xi β) 2σ i=1 Der Beitrag einer einzelnen Beobachtung zur Log-Likelihood Funktion ist deshalb ln Li = −0.5 ln(σ 2 ) − 0.5 ln(2π) − 1 (yi − x′i β)2 2 2σ Die Maximum Likelihood Methode findet die Schätzwerte der Parameter, die den Wert der Log-Likelihood Funktion für die gegebenen Beobachtungen maximiert. Man beachte, dass diese Beiträge einfacher mit Hilfe der Dichtefunktion φ geschrieben werden kann 1 √ exp −(yi − x′i β)2 /(2σ 2 ) σ 2π 1 ln(φ) = −0.5 ln(σ 2 ) − 0.5 ln(2π) − 2 (yi − x′i β)2 2σ φ = f (β, σ 2 ) = φ ist die Dichtefunktion einer N(0, σ 2 ) verteilten Zufallsvariablen. EViews stellt mit der Funktion @dnorm(·) die Dichte einer N(0, 1) verteilten Zufallsvariablen zur Verfügung. Deshalb empfiehlt es sich den Wert in der Dichtefunktion durch σ zu dividieren und eine entsprechende Anpassung vorzunehmen. Die Beiträge zur LogLikelihood Funktion können deshalb auch geschrieben werden (yi − x′i β) ln σ 2 √ ln Li = ln φ − 2 σ2 Dies ist in EViews einfach umzusetzen. Es wird ein logl-Objekt angelegt und in diesem Objekt wird mit der Funktion @logl seriesname die Datenreihe definiert, die die einzelnen Beiträge zur Log-Likelihood Funktion (d.h. ln Li ) aufnimmt. Darüber hinaus müssen zuerst die zu schätzenden Parameter initialisiert werden (d.h. es müssen ihnen Startwerte zugeordnet werden) und es können neue Datenreihen angelegt werden, die die Berechnungen erleichtern können. Für eine einfache Schätzung eines linearen Regressionsmodells mit normalverteilten Störterm würde der EViews Code etwa folgendermaßen aussehen wfcreate u 100 rndseed 12345 series x = @trend series y = 100 + 2*x + 9*@rnorm logl ll1 ’ define logl-object 24 Empirische Wirtschaftsforschung ’ set starting values c(1), c(2) and c(3) to OLS equation eq1.ls y c x c(3) = @se^2 ll1.append @logl logl1 ll1.append res = y-c(1)-c(2)*x ll1.append logl1 = log(@dnorm(res/@sqrt(c(3))))-log(c(3))/2 ’ or more complicated ’ ll1.append logl2 = -0.5*(log(c(3))) - 0.5*log(2*3.14159) _ ’ - (res)^2 / (2*c(3)) ll1.ml show ll1 Dieses Progrämmchen erzeugt folgenden Output: LogL: LL1 Method: Maximum Likelihood (Marquardt) Sample: 1 100 Included observations: 100 Evaluation order: By observation Convergence achieved after 21 iterations C(1) C(2) C(3) Log likelihood Avg. log likelihood Number of Coefs. Coefficient 101.6890 1.993070 75.02867 −357.7889 −3.577889 3 Std. Error z-Statistic Prob. 2.077847 48.93961 0.0000 0.033901 58.79021 0.0000 10.51438 7.135817 0.0000 Akaike info criterion 7.215777 Schwarz criterion 7.293932 Hannan-Quinn criter. 7.247408 wobei c(1) und c(2) die geschätzten Koeffizienten und c(3) die Schätzung für die Varianz σ 2 ist. Zum Vergleich die OLS-Schätzung: Dependent Variable: Y Method: Least Squares Included observations: 100 Variable C X R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Coefficient 101.6896 1.993063 0.977834 0.977608 8.749979 7503.090 −357.7889 1.727446 Std. Error t-Statistic 1.736952 58.54483 0.030312 65.75089 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) Prob. 0.0000 0.0000 200.3462 58.47342 7.195777 7.247880 4323.179 0.000000 Die OLS-Schätzung der Varianz σ 2 ist das Quadrat des Standardfehlers der Regression (S.E. of regression), also 8.7499792 = 76.56213, die sich etwas von der ML Schätzung unterscheidet, was nicht erstaunt, denn bekanntlich ist die ML-Schätzung der Varianz in kleinen Stichproben verzerrt. Empirische Wirtschaftsforschung 25 Literaturverzeichnis Engle, R. (1982), ‘A General Approach to Lagrangian Multiplier Model Diagnostics’, Journal of Econometrics 20, 83–104. Johnston, J. and Dinardo, J. (1996), Econometric Methods, 4 edn, McGrawHill/Irwin. Long, J. S. (1997), Regression Models for Categorical and Limited Dependent Variables (Advanced Quantitative Techniques in the Social Sciences), 1 edn, Sage Publications, Inc. Murray, M. P. (2005), Econometrics: A Modern Introduction (Addison-Wesley Series in Economics), us ed edn, Addison Wesley.