Einführung in die Maximum Likelihood Methodik Thushyanthan Baskaran [email protected] Alfred Weber Institut Ruprecht–Karls Universität Heidelberg Einführung Grundlagen von ML Beispiele ML im Linearen Modell Gliederung 1 Einführung 2 Grundlagen von ML 3 Beispiele 4 ML im Linearen Modell 2 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Einführung Maximum Likelihood (ML) ist in der Ökonomie nach OLS das wohl beliebteste Verfahren, um die Parameter eines empirischen Modells zu schätzen Hat eine Reihe von guten, aber auch viele problematische Eigenschaften Güte der Schätzung hat viel mit der Größe der Stichprobe und den richtigen Verteilungsannahmen zu tun 3 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Vorteile Nichtlineare Modelle können relativ einfach geschätzt werden Normalverteilungsannahme bzgl. des Fehlerterms nicht essentiell Konsistent und asymptotisch effizient unter relativ schwachen Annahmen Flexibler als OLS 4 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Nachteile Die Likelihood-Funktion muss explizit berechnet werden Oft müssen numerische Verfahren verwendet werden, um Maxima zu finden −→ Sensitiv gegenüber Startwerten Kann in kleinen Samples extrem verzerrt sein Viele wünschenswerte Eigenschaften gelten nur asymptotisch 5 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Gliederung 1 Einführung 2 Grundlagen von ML 3 Beispiele 4 ML im Linearen Modell 6 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Idee Man nimmt an, dass man ein Sample mit N Beobachtungen über eine Zufallsvariable hat Man hat also für i = 1, ..., N Einheiten konkrete Werte der Variablen xi Dise Variable könnte beispielsweise sein Das Einkommen eines Individuums Wieviele Patienten in einem bestimmten Krankenhaus in letzten Jahr gestorben sind... 7 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Idee Da jede dieser Beobachtungen per Annahme eine Zufallsvariable ist, hat jede auch eine stochastische Verteilung Also gibt es prinzipiell eine Wahrscheinlichkeit, mit der die i−te Beobachtung, i = 1, .., N, genau den Wert xi annimmt Bei kontinuierlichen ZV hat kann man einem konkreten xi den entsprechenden Werte der Dichtefunktion zuordnen Wir machen im folgenden zur terminologischen Vereinfachung keinen Unterschied zwischen Wahrscheinlichkeits- und Dichtefunktionen 8 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Beispiele Beispiel Wenn xi Bernoulli-verteilt ist mit p = 0.3, dann nimmt xi den Wert 1 mit Wahrscheinlichkeit 0.3 und den Wert 0 mit Wahrscheinlichkeit 0.7 an Wenn xi Standardnormalverteilt ist, nimmt xi den Wert −2 mit Wahrscheinlichkeit 0.054 an 9 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Die i.i.d. Annahme Wir machen jetzt eine entscheidende Annahme: Alle xi sind identisch und unabhängig verteilt (i.i.d.) Konkret bedeutet das, dass alle xi derselben Verteilung entstammen, wie immer sie auch aussehen mag ... Und die Wahrscheinlichkeit, die wir einem konkreten xi zuordnen, nicht davon abhängt, welche Werte alle anderen xj6=i angenommen haben Wie realistisch sind diese Annahmen? Warum machen wir sie? 10 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Likelihoodfunktion Unter der i.i.d-Annahme können wir nun einen einfachen Ausdruck für die Wahrscheinlichkeit angeben, mit der wir ein beliebiges Sample erhalten Lass also f (xi |Θ) die Wahrscheinlichkeit sein, mit der die i−te Beobachtung den Wert xi annimmt Die Wahrscheinlichkeit ergibt sich aus einer Wahrscheinlichkeitsfunktion, die von bestimmten Parametern Θ abhängt Bei Bernoulli also p, Bei Normalverteilung µ und σ 11 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Likelihoodfunktion Die so genannte Likelihoodfunktion ist also Die Likelihoodfunktion L =f (x1 |Θ) · f (x2 |Θ) · f (x3 |Θ)... · f (xN |Θ) = N Y f (xi |Θ) (1) (2) i=1 12 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Maximum Die Idee ist nun, die Parameter so zu wählen, dass die Likelihoodfunktion maximal ist Man wählt also die Parameter so, dass die Wahrscheinlichkeit für das tatsächlich vorhandene Sample maximal ist Ein ziemlich “indirektes” Argument... Denn man kann die Wahrscheinlichkeit nicht beobachten, sondern nur die konkrete Ausprägung des Samples 13 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Log-Likelihood Da man schwerer mit Produkten als mit Summen rechnen kann, transformiert man die Likelihoodfunktion Unter einer monotonen Transformation ändert sich das Maximum einer Funktion nicht Daher wird mit dem Logarithmus der Likelihoodfunktion gerechnet 14 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Log-Likelihood Die Log-Likelihoodfunktion ist Die Log-Likelihoodfunktion ln L = ln (f (x1 |Θ) · f (x2 |Θ) · f (x3 |Θ)... · f (xN |Θ)) = ln (f (x1 |Θ)) + ln(f (x2 |Θ)) + ln(f (x3 |Θ)) + ... + f (xN |Θ)) = N X ln (f (xi |Θ)) i 15 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Gliederung 1 Einführung 2 Grundlagen von ML 3 Beispiele 4 ML im Linearen Modell 16 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Likelihoodfunktionen Im folgenden werden wir konkrete Likelihoodfunktionen herleiten Das Ziel ist zunächst nur, Parameter einer Wahrscheinlichkeitsfunktion zu schätzen Wir schätzen also hier noch nicht “lineare Modelle” Aber enger Zusammenhang... 17 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Normalverteilung Wir fangen mit der Normalverteilung an Die Wahrscheinlichkeitsfunktion ist (xi −µ)2 1 f (xi |µ, σ) = √ exp− 2σ2 σ 2π Die Likelihoodfunktion ist N PN (xi −µ)2 1 − i 2σ √ L= exp σ 2π (3) (4) Warum? 18 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Normalverteilung Die Log-Likelihoodfunktion ist √ ln L = N ln(1) − N ln(σ 2π) − PN i (xi − µ)2 2σ 2 ! (5) Viel einfacher zu differenzieren als die Likelihoodfunktion... 19 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Der Mittelwert Ableiten nach µ ergibt: d ln L : dµ PN (xi − µ) =0 2σ 2 N X µ= xi /N 2 i (6) (7) i Der Erwartungswert µ wird also unverzerrt mit dem Stichprobenmittelwert geschätzt 20 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Sum of Squares Ableiten nach σ ergibt: d ln L : dσ P 2 σ N N i (xi − µ) − +4 =0 σ 4σ 4 N X 2 σ = (xi − µ)2 /N (8) (9) i Die Varianz wird konsistent, aber nicht erwartungstreu geschätzt Der Schätzer ist also nur asymptotisch effizient 21 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Bernoulli Jetzt schätzen wir die Parameter einer Bernoulli-Verteilung Es gibt nur einen: p Die Likelihoodfunktion kann man folgendermaßen schreiben L= n Y i=1 P p i p xi (1 − p)1−xi xi (1 − p)N− (10) P i xi (11) 22 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Bernoulli Die Log-Likelihoodfunktion ist X X ln L = xi ln(p) + (N − xi ) ln(1 − p) i (12) i 23 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Der Mittelwert, schon wieder Ableiten ergibt: d ln L : dp P P N − i xi − =0 p 1−p X xi /N p= i xi (13) (14) i Der Parameter p wird also mit dem Stichprobenmittelwert geschätzt Was ist dann der geschätzte Erwartungswert, was die geschätzte Varianz einer Bernoulli-Verteilung? 24 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Gliederung 1 Einführung 2 Grundlagen von ML 3 Beispiele 4 ML im Linearen Modell 25 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Der Fehlerterm Die Parameter im linearen Modell yi = a + bxi + i (15) werden nach demselben Prinzip geschätzt Entscheidend ist hier, welche Verteilungsannahme man über den Fehlerterm macht Illustration des Sachverhaltes anhand eines normalverteilten Fehlerterms im linearen Modell 26 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Normalverteilung Wir nehmen also an, dass der Fehlerterm normalverteilt ist Ausserdem nehmen wir wie immer an, dass E (i ) = 0 Die Wahrscheinlichkeit für ein konkretes i ist also 2 i 1 f (i |µ, σ) = √ exp− 2σ2 σ 2π (16) Also ergibt sich für die Likelihoodfunktion L= Y i f (i |µ, σ) = 1 √ σ 2π N 2 i i 2σ 2 P − exp (17) 27 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Normalverteilung Bekanntlich gilt i = yi − a − bxi Also: L= 1 √ σ 2π N − exp P i (yi −a−bxi ) 2σ 2 2 (18) Das Aufstellen der Log-Likelihoodfunktion und das Ableiten nach a, b und σ funktioniert wie in dem Beispiel, wo wir µ bestimmt haben 28 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell a und b Man erhält Cov (x, y ) x̄ Var (x) Cov (x, y ) b= Var (x) a =ȳ − (19) (20) Also identisch zu den OLS Schätzern, von denen wir wissen, dass sie erwartungstreu sind 29 / 31 Einführung Grundlagen von ML Beispiele ML im Linearen Modell Die Varianz Für die Varianz ergibt sich aber P 2 P 2 e 2 i (yi − a − bxi ) = i i σ = N N (21) Zwar konsistent, aber nicht erwartungstreu 30 / 31 Hausaufgabe Herleitung der Log-Likelihoodfunktion für das Probit-Modell!!!