Einführung in die Maximum Likelihood Methodik - Alfred

Werbung
Einführung in die Maximum Likelihood Methodik
Thushyanthan Baskaran
[email protected]
Alfred Weber Institut
Ruprecht–Karls Universität Heidelberg
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Gliederung
1
Einführung
2
Grundlagen von ML
3
Beispiele
4
ML im Linearen Modell
2 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Einführung
Maximum Likelihood (ML) ist in der Ökonomie nach OLS das
wohl beliebteste Verfahren, um die Parameter eines
empirischen Modells zu schätzen
Hat eine Reihe von guten, aber auch viele problematische
Eigenschaften
Güte der Schätzung hat viel mit der Größe der Stichprobe und
den richtigen Verteilungsannahmen zu tun
3 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Vorteile
Nichtlineare Modelle können relativ einfach geschätzt werden
Normalverteilungsannahme bzgl. des Fehlerterms nicht
essentiell
Konsistent und asymptotisch effizient unter relativ schwachen
Annahmen
Flexibler als OLS
4 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Nachteile
Die Likelihood-Funktion muss explizit berechnet werden
Oft müssen numerische Verfahren verwendet werden, um
Maxima zu finden
−→ Sensitiv gegenüber Startwerten
Kann in kleinen Samples extrem verzerrt sein
Viele wünschenswerte Eigenschaften gelten nur asymptotisch
5 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Gliederung
1
Einführung
2
Grundlagen von ML
3
Beispiele
4
ML im Linearen Modell
6 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Idee
Man nimmt an, dass man ein Sample mit N Beobachtungen
über eine Zufallsvariable hat
Man hat also für i = 1, ..., N Einheiten konkrete Werte der
Variablen xi
Dise Variable könnte beispielsweise sein
Das Einkommen eines Individuums
Wieviele Patienten in einem bestimmten Krankenhaus in
letzten Jahr gestorben sind...
7 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Idee
Da jede dieser Beobachtungen per Annahme eine
Zufallsvariable ist, hat jede auch eine stochastische Verteilung
Also gibt es prinzipiell eine Wahrscheinlichkeit, mit der die
i−te Beobachtung, i = 1, .., N, genau den Wert xi annimmt
Bei kontinuierlichen ZV hat kann man einem konkreten xi den
entsprechenden Werte der Dichtefunktion zuordnen
Wir machen im folgenden zur terminologischen Vereinfachung
keinen Unterschied zwischen Wahrscheinlichkeits- und
Dichtefunktionen
8 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Beispiele
Beispiel
Wenn xi Bernoulli-verteilt ist mit p = 0.3, dann nimmt xi den
Wert 1 mit Wahrscheinlichkeit 0.3 und den Wert 0 mit
Wahrscheinlichkeit 0.7 an
Wenn xi Standardnormalverteilt ist, nimmt xi den Wert −2
mit Wahrscheinlichkeit 0.054 an
9 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Die i.i.d. Annahme
Wir machen jetzt eine entscheidende Annahme:
Alle xi sind identisch und unabhängig verteilt (i.i.d.)
Konkret bedeutet das, dass alle xi derselben Verteilung
entstammen, wie immer sie auch aussehen mag
... Und die Wahrscheinlichkeit, die wir einem konkreten xi
zuordnen, nicht davon abhängt, welche Werte alle anderen
xj6=i angenommen haben
Wie realistisch sind diese Annahmen?
Warum machen wir sie?
10 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Likelihoodfunktion
Unter der i.i.d-Annahme können wir nun einen einfachen
Ausdruck für die Wahrscheinlichkeit angeben, mit der wir ein
beliebiges Sample erhalten
Lass also f (xi |Θ) die Wahrscheinlichkeit sein, mit der die i−te
Beobachtung den Wert xi annimmt
Die Wahrscheinlichkeit ergibt sich aus einer
Wahrscheinlichkeitsfunktion, die von bestimmten Parametern
Θ abhängt
Bei Bernoulli also p, Bei Normalverteilung µ und σ
11 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Likelihoodfunktion
Die so genannte Likelihoodfunktion ist also
Die Likelihoodfunktion
L =f (x1 |Θ) · f (x2 |Θ) · f (x3 |Θ)... · f (xN |Θ)
=
N
Y
f (xi |Θ)
(1)
(2)
i=1
12 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Maximum
Die Idee ist nun, die Parameter so zu wählen, dass die
Likelihoodfunktion maximal ist
Man wählt also die Parameter so, dass die Wahrscheinlichkeit
für das tatsächlich vorhandene Sample maximal ist
Ein ziemlich “indirektes” Argument...
Denn man kann die Wahrscheinlichkeit nicht beobachten,
sondern nur die konkrete Ausprägung des Samples
13 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Log-Likelihood
Da man schwerer mit Produkten als mit Summen rechnen
kann, transformiert man die Likelihoodfunktion
Unter einer monotonen Transformation ändert sich das
Maximum einer Funktion nicht
Daher wird mit dem Logarithmus der Likelihoodfunktion
gerechnet
14 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Log-Likelihood
Die Log-Likelihoodfunktion ist
Die Log-Likelihoodfunktion
ln L = ln (f (x1 |Θ) · f (x2 |Θ) · f (x3 |Θ)... · f (xN |Θ))
= ln (f (x1 |Θ)) + ln(f (x2 |Θ)) + ln(f (x3 |Θ)) + ... + f (xN |Θ))
=
N
X
ln (f (xi |Θ))
i
15 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Gliederung
1
Einführung
2
Grundlagen von ML
3
Beispiele
4
ML im Linearen Modell
16 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Likelihoodfunktionen
Im folgenden werden wir konkrete Likelihoodfunktionen
herleiten
Das Ziel ist zunächst nur, Parameter einer
Wahrscheinlichkeitsfunktion zu schätzen
Wir schätzen also hier noch nicht “lineare Modelle”
Aber enger Zusammenhang...
17 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Normalverteilung
Wir fangen mit der Normalverteilung an
Die Wahrscheinlichkeitsfunktion ist
(xi −µ)2
1
f (xi |µ, σ) = √ exp− 2σ2
σ 2π
Die Likelihoodfunktion ist
N
PN
(xi −µ)2
1
− i 2σ
√
L=
exp
σ 2π
(3)
(4)
Warum?
18 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Normalverteilung
Die Log-Likelihoodfunktion ist
√
ln L = N ln(1) − N ln(σ 2π) −
PN
i
(xi − µ)2
2σ 2
!
(5)
Viel einfacher zu differenzieren als die Likelihoodfunktion...
19 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Der Mittelwert
Ableiten nach µ ergibt:
d ln L
:
dµ
PN
(xi − µ)
=0
2σ 2
N
X
µ=
xi /N
2
i
(6)
(7)
i
Der Erwartungswert µ wird also unverzerrt mit dem
Stichprobenmittelwert geschätzt
20 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Sum of Squares
Ableiten nach σ ergibt:
d ln L
:
dσ
P
2
σ N
N
i (xi − µ)
− +4
=0
σ
4σ 4
N
X
2
σ =
(xi − µ)2 /N
(8)
(9)
i
Die Varianz wird konsistent, aber nicht erwartungstreu
geschätzt
Der Schätzer ist also nur asymptotisch effizient
21 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Bernoulli
Jetzt schätzen wir die Parameter einer Bernoulli-Verteilung
Es gibt nur einen: p
Die Likelihoodfunktion kann man folgendermaßen schreiben
L=
n
Y
i=1
P
p
i
p xi (1 − p)1−xi
xi
(1 − p)N−
(10)
P
i
xi
(11)
22 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Bernoulli
Die Log-Likelihoodfunktion ist
X
X
ln L =
xi ln(p) + (N −
xi ) ln(1 − p)
i
(12)
i
23 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Der Mittelwert, schon wieder
Ableiten ergibt:
d ln L
:
dp
P
P
N − i xi
−
=0
p
1−p
X
xi /N
p=
i
xi
(13)
(14)
i
Der Parameter p wird also mit dem Stichprobenmittelwert
geschätzt
Was ist dann der geschätzte Erwartungswert, was die
geschätzte Varianz einer Bernoulli-Verteilung?
24 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Gliederung
1
Einführung
2
Grundlagen von ML
3
Beispiele
4
ML im Linearen Modell
25 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Der Fehlerterm
Die Parameter im linearen Modell
yi = a + bxi + i
(15)
werden nach demselben Prinzip geschätzt
Entscheidend ist hier, welche Verteilungsannahme man über
den Fehlerterm macht
Illustration des Sachverhaltes anhand eines normalverteilten
Fehlerterms im linearen Modell
26 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Normalverteilung
Wir nehmen also an, dass der Fehlerterm normalverteilt ist
Ausserdem nehmen wir wie immer an, dass E (i ) = 0
Die Wahrscheinlichkeit für ein konkretes i ist also
2
i
1
f (i |µ, σ) = √ exp− 2σ2
σ 2π
(16)
Also ergibt sich für die Likelihoodfunktion
L=
Y
i
f (i |µ, σ) =
1
√
σ 2π
N
2
i i
2σ 2
P
−
exp
(17)
27 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Normalverteilung
Bekanntlich gilt i = yi − a − bxi
Also:
L=
1
√
σ 2π
N
−
exp
P
i (yi −a−bxi )
2σ 2
2
(18)
Das Aufstellen der Log-Likelihoodfunktion und das Ableiten
nach a, b und σ funktioniert wie in dem Beispiel, wo wir µ
bestimmt haben
28 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
a und b
Man erhält
Cov (x, y )
x̄
Var (x)
Cov (x, y )
b=
Var (x)
a =ȳ −
(19)
(20)
Also identisch zu den OLS Schätzern, von denen wir wissen,
dass sie erwartungstreu sind
29 / 31
Einführung
Grundlagen von ML
Beispiele
ML im Linearen Modell
Die Varianz
Für die Varianz ergibt sich aber
P 2
P
2
e
2
i (yi − a − bxi )
= i i
σ =
N
N
(21)
Zwar konsistent, aber nicht erwartungstreu
30 / 31
Hausaufgabe
Herleitung der Log-Likelihoodfunktion für das
Probit-Modell!!!
Herunterladen