2 Modelle für diskrete und beschränkte abhängige Variablen

Werbung
2 Modelle für diskrete und beschränkte abhängige Variablen
Mikrodaten sind sehr häufig dadurch gekennzeichnet, daß neben den metrischen Variablen für die Individuen bestimmte Eigenschaften, d.h. qualitative bzw. diskrete Merkmale beobachtet werden. Sehr häufig lassen sich diese qualitativen Merkmale wie z.B.
das Geschlecht einer Person oder die Existenz einer Forschungsabteilung in einem
Unternehmen durch entsprechende 0,1-Variablen (Dummy-Variablen, binäre Variablen)
abbilden.
Andere qualitative Merkmale lassen mehr als zwei Alternativen zu. Diese Alternativen
können entweder ungeordnet sein wie beispielsweise die Berufstätigkeit eines Individuums (Arbeiter, Angestellter, Beamter etc.) oder die Wahl des Prozeßortes bei Patentstreitigkeiten (Düsseldorf, München, Mannheim, etc.). Sie können aber auch geordnet sein wie beispielsweise der höchste Bildungsabschluß einer Person (Hauptschule,
Realschule, Gymnasium, Fachhochschule, Hochschule etc.) oder die subjektive Einschätzung der Bedeutung von Merkmalen (geringe bis große Bedeutung auf einer Skala
von 1 bis 5, sogenannte Likert-Skalen).
Wiederum andere Merkmale sind zwar quantitativ, treten aber nur in diskreten Ausprägungen auf (sogenannte Zähldaten, die im nachfolgenden Kapitel 3 behandelt werden),
wie beispielsweise die Anzahl von Kindern in einem Haushalt oder die Anzahl von Patenten, die ein Unternehmen hält. Oder sie sind quantitativ, aber beschränkt wie beispielsweise die tägliche Freizeitnachfrage, die nicht 24 Stunden übersteigen kann, oder
aber das tägliche Arbeitsangebot, das nicht unter 0 Stunden sinken kann.
Diese Variablen bereiten in der Regel wenig Probleme, wenn sie auf der rechten Seite
der Gleichung stehen, also erklärende Variablen sind. Dies ändert sich, wenn die Erklärung der Variablen selbst im Mittelpunkt des Interesses steht, die qualitativen oder diskreten Merkmale also selbst endogene Variablen sind. Die Methoden, die für derartige
Modelle entwickelt worden sind, werden häufig unter dem Begriff Mikroökonometrie
zusammengefaßt, obwohl sie nur einen Teil der Methoden für Mikrodaten bilden. Zu diesen Methoden sind inzwischen auch etliche Lehrbücher und Monographien entstanden,
in deutscher Sprache beispielsweise Ronning (1991). Auch allgemeine Lehrbücher oder Monographien zur Ökonometrie enthalten umfassende Abschnitte, wie insbesonde44
re Amemiya (1985) in den Kapiteln 9 und 10, aber auch Greene (1993) im Kapitel 19.
Der immer noch sehr lesenswerte Klassiker in der Literatur ist jedoch zweifelsohne die
Monographie des im Sommer 1999 verstorbenen Maddala (1983).
2.1
Modelle für binäre abhängige Variablen
2.1.1 Das lineare Wahrscheinlichkeitsmodell
Die einfachste Form, ein Modell für binäre abhängige Variablen zu konstruieren, ist das
lineare Wahrscheinlichkeitsmodell (linear probability model). Die abhängige Variable yi ist eine binäre, also 0,1-Variable, die z.B. mißt, ob das Individuum i ein Auto
gekauft hat oder nicht, oder ob Individuum i Gewerkschaftsmitglied ist oder nicht. Es gilt
in diesem Fall
1 wenn i Gewerkschaftsmitglied
(2.1) yi = 
0 wenn i kein Gewerkschaftsmitglied.
Erklärt man die Entscheidungen des Individuums mit Hilfe geeigneter unabhängiger
Variablen X i wie z.B. Alter in Jahren, Schulbildung, Berufserfahrung etc., so läßt sich
die Wahrscheinlichkeit, daß ein Individuum Gewerkschaftsmitglied ist, folgendermaßen
modellieren:
(2.2)
P ( yi = 1) = F ( X i β )
P ( yi = 0 ) = 1 − F ( X i β )
wobei F ( X i β ) eine kumulierte Verteilungsfunktion ist. Im linearen Wahrscheinlichkeitsmodell wird diese Verteilungsfunktion linear modelliert, d.h. F ( X i β ) = X i β . Daraus
folgt:
(2.3) yi = X i β + ui
Da yi nur die Werte 1 oder 0 annehmen kann, können die Störgrößen für gegebene
erklärende Variablen X i ebenfalls nur 2 Werte annehmen
(2.4) ui = 1 − X i β
bzw. ui = − X i β .
45
Daraus folgt, daß für gegebene X i die Störgrößen u i nicht die Bedingungen der Normalverteilung erfüllen können. Die ui folgen dann einer Bernoulli-Verteilung. Ihr Erwartungswert ist:
(2.5) E ( ui ) = (1 − X i β ) P ( yi = 1) = 1 − X i β 1 − P ( yi = 1) 
Der Erwartungswert ist nur dann gleich null, wenn P ( yi = 1) = X i β ist.
Es ist nicht einmal gewährleistet, daß die prognostizierte Wahrscheinlichkeit
P ( yi = 1 Xi ) = X i β zwischen 0 und 1 liegt. Sie kann sogar negativ werden. Ferner ist für
P ( yi = 1| X i ) = X i β die Varianz der Störgrößen von X i abhängig (heteroskedastisch),
denn es gilt:
(2.6) E ( ui2 | X i ) = (1 − X i β ) P ( yi = 1) + ( X i β ) 1 − P ( yi = 1)  = X i β ( 1− X i β )
1424
3
144244
3
Xiβ
1− X i β
2
2
Der KQ-Schätzer der Gleichung (2.3) ist daher ineffizient. Aufgrund dieser Überlegungen ist klar, daß das lineare Modell eigentlich nicht geeignet ist, eine abhängige 0,1Variable zu erklären. Es findet in empirischen Studien daher kaum Anwendung, so daß
man für empirische Illustrationen auf Lehrbuchbeispiele zurückgreifen muß.
Wir benutzen das Beispiel zur Erklärung der Mitgliedschaft in der Gewerkschaft in den
USA (Union) aus dem Lehrbuch Johnston and DiNardo (1997). Die Variablen stammen
aus dem „Current Population Survey“ von 1988 und bedeuten:
-
Union
Mitgliedschaft in einer Gewerkschaft ( Union = 1 )
-
Exp
Potentielle Erfahrung ( Exp = Alter - Schuljahre - 5 )
-
Exp 2
( Exp 2 )
-
Grade
Anzahl der vollendeten Schuljahre
-
Married verheiratet ( Married = 1 )
-
High
beschäftigt in einem Wirtschaftszweig mit hohem gewerkschaftl. Organisationsgrad ( High = 1 ).
Man erhält mit in RATS mit dem Befehl LINREG folgende Koeffizienten
46
Tabelle 2.1 Schätzergebnisse für das lineare Wahrscheinlichkeitsmodell
β$
t
Sign. level
Exp
.0200388
5.14
0.000
Exp2
-.0003706
-4.53
0.000
Grade
-.0124636
-2.44
0.015
Married
.0133428
0.45
0.657
High
.1439396
5.61
0.000
constant
.1021368
1.36
0.173
R2 = 0.0837; N = 1000
2.1.2 Das Probit-Modell
Sinnvoller ist ein Modell, das die Wahrscheinlichkeit P ( yi = 1) direkt aus einer Verteilungsannahme erklärt. Modelle, die auf diese Weise ein dichotomes Wahlverhalten erklären wollen, bezeichnet man auch als binäre Wahlhandlungsmodelle oder Binary
Choice-Modelle. Erklärt wird die Wahrscheinlichkeit für den Eintritt bzw. Nichteintritt
eines Ereignisses, z.B. Kaufereignisses, unter der Bedingung gegebener erklärender
Variablen, und es wird analysiert, wie diese bedingte Wahrscheinlichkeit mit den erklärenden Variablen variiert.
In der ökonometrischen Literatur werden praktisch nur zwei alternative Verteilungsannahmen verwendet: die Normalverteilung und die logistische Verteilung. Das sogenannte Probit-Modell verwendet die kumulierte Verteilungsfunktion der Standardnormalverteilung:
(2.7) P ( yi = 1| X i ) = F ( X i β ) = Φ ( X i β ) =
Xi β
∫
−∞
2
1 − z2
e dz für σ = 1
2π
Die Grenzwerte 0 und 1 für die Wahrscheinlichkeit P( yi = 1 X i ) sind nicht verletzt. Da es
sich bei der abhängigen Variablen um eine Wahrscheinlichkeit handelt, ist diese Variable auf das Intervall [ 0,1] beschränkt. Es gilt ferner
(2.8) E ( yi xi ) = Φ ( X i β ) ≠ X i β
47
Somit ist auch der Erwartungswert auf das Intervall [ 0,1] beschränkt.
Um das klassische Regressionsmodell auf diesen Fall anzuwenden, wird zwischen einem latenten Modellteil und einem beobachteten Modellteil unterschieden.
Der latente Modellteil erklärt eine nicht beobachtbare (latente) Variable yi* , die man
als stetige Neigung beispielsweise ein Konsumgut zu kaufen interpretieren kann, wie im
klassischen Regressionsmodell.
Latenter Modellteil
(2.9) y*i = X iβ + u i mit ui : N ( 0,σ 2 )
Der latente Modellteil sagt, daß die unbeobachtbare Variable yi* einer stetigen Verteilung über den Wertebereich ( −∞ , +∞ ) folgt wie im klassischen Regressionsmodell. Im
Probit-Modell gibt yi* im latenten Modellteil an, mit welcher Intensität der Haushalt i den
Kauf des Konsumgutes wünscht bzw. ihn ablehnt. Für y*i > 0 wünscht er den Kauf, für
y*i ≤ 0 lehnt er ihn ab. Beobachtbar ist aber im Probit-Modell lediglich die Variable yi ,
nämlich ob der Haushalt das Konsumgut kauft ( yi = 1 ) oder nicht ( yi = 0 ). Der Haushalt
kauft das Gut nur, wenn die Bedingung y*i > 0 bzw. ui σ > − X i β σ gilt. Für die beobachtbare Variable gilt daher:
Beobachtbarer Modellteil
(2.10)
 1 , wenn yi* > 0 bzw. ui σ > − X i β σ
yi = 
*
0 , wenn yi ≤ 0 bzw. ui σ ≤ − X i β σ
Wir erklären das Probit- und Logit-Modell im folgenden am Beispiel eines Haushalts,
der in der Untersuchungsperiode entweder ein langlebiges Gebrauchsgut kauft ( yi = 1 )
oder nicht kauft ( yi = 0 ). Die Idee des Probit-Modells kann dann wie folgt beschrieben
werden:
Haushalte haben ein bestimmtes Einkommen, das zu Ausgaben z.B. für die Anschaffung eines Autos führt bzw. nicht führt. Es wird angenommen, daß der kritische Wert der
*
latenten Variablen yi , bei dem ein Haushalt sich zu einer solchen Ausgabe entschließt,
48
von Haushalt zu Haushalt variiert. Folgen diese kritischen latenten Werte yi*
einer
Normalverteilung, so daß sich wegen
(2.11)
P ( yi = 0 ) = P ( y*i ≤ 0) = P ( ui σ ≤ − X i β σ ) = Φ ( − X i β σ ) = 1 − Φ( X i β / σ )
P ( yi = 1) = 1 − Φ ( − X i β σ ) = Φ ( X i β / σ )
die folgende Likelihoodfunktion für das Probit-Modell nach Sortierung in M Haushalte mit Beobachtung yi = 0 und N − M Haushalte mit yi = 1 ergibt:
(2.12)
Lprobit = P ( y1 = 0 ) ⋅ P ( y2 = 0 )L P ( yM = 0 ) ⋅ P ( y M +1 =1 )L P ( yN = 1)
Lprobit = ∏ P ( y*i ≤ 0 )
M
i =1
∏ P(y
> 0)
N
*
i
i = M +1
M
= ∏ P ( ui σ ≤ − X i β σ )
i =1
M
= ∏ 1 − Φ ( − X i β σ ) 
i =1
N
∏ P( u
σ > −X iβ σ )
i
i = M +1
N
∏ Φ ( −X β σ )
i
i = M +1
wobei Φ ( X i β / σ ) die kumulierte Verteilungsfunktion der Normalverteilung für einen
Haushalt mit Merkmalsvektor X i ist. Die Maximierung der logarithmierten Likelihoodfunktion durch Differentiation nach den Parametern β und σ sowie Nullsetzen der 1.
Ableitung, führt zu nichtlinearen Funktionen, aus denen die zu schätzenden Parameter iterativ ermittelt werden können. Die Maximierung dieser Likelihoodfunktion ist ein
nichtlineares Schätzproblem ähnlich der nichtlinearen KQ-Schätzung, wie sie in Ökonometrie I behandelt wurde. Wir betrachten die Log-Likelihoodfunktion
M
(2.13)
ln Lprobit = ∑ ln 1 − Φ ( X i β σ )  +
i =1
N
∑
i = M +1
ln Φ ( X i β σ )
sowie deren Ableitung nach β
(2.14)
∂ ln L probit
∂β
=
φi X i M φi X i
−∑
.
i = M +1 Φ i σ
i =1 1 − Φ i σ
N
∑
Dabei stellen φ i und Φ i auch im weiteren Verlauf des Skripts vereinfachte Schreibweisen der Dichte φ ( X i β σ ) sowie der kumulierten Verteilungsfunktion der Normalverteilung Φ ( X i β σ ) dar. Das iterative Verfahren schätzt dann die Gleichung
49
(2.15)
 ∂ 2 ln L
β$ j +1 = β$j − 
 ∂ β∂ β ′
−1
 ∂ ln L

β$ j 
 ∂β
β$ j
wobei sich die Matrix der 2. Ableitungen als
(2.16)
N 
∂ 2ln L M  φi  X i β
φi  X i β
 X i X i′ 
 X i X i′ 

=∑
−
φ
−
+
φ
∑ 
i
i
2
2
∂ β∂ β ′ i=1  (1 − Φi )  σ
 σ  i =M +1  Φ i  σ
 σ 

ergibt. βˆ j ist ein Anfangswert, der z.B. aus den linearen Wahrscheinlichkeitsmodell
stammen kann.
Diese Iterationen, z.B. mittels der Newton-Raphson-Methode oder des Verfahrens von
Berndt, Hall, Hall and Hausmann (1974) konvergieren nur dann zuverlässig gegen ein
globales Maximum der logarithmierten Likelihoodfunktion, wenn diese global konkav
bezüglich ihrer Parameter ist. Olsen (1978) hat nachgewiesen, daß diese Bedingung für
die obigen Modelle erfüllt ist.
Allerdings sind in Probit-Modellen nur standardisierte Koeffizienten
β
σ
identifiziert.
2.1.3 Das Logit-Modell
Im Probit-Modell wird eine Normalverteilung des kritischen Wertes unterstellt, der durch
die die Entscheidung beeinflussenden unabhängigen Variablen bestimmt wird. Im Logit-Modell geht man demgegenüber von einer logistischen Verteilung aus:
f ( yi ) =
(2.17)
1
1 + e−X iβ / σ
P( yi = 1 | X i ) = F ( X i β / σ ) =
1
1+ e−X iβ / σ
Ansonsten ist die Vorgehensweise einschließlich deren Interpretation vollständig analog
zum Probit-Modell.
2.1.4 Vergleich und empirische Beispiele für das Probit- und Logit-Modell
In RATS sind einfache Prozeduren für beide Verfahren enthalten, die der LINREGProzedur entsprechen, indem sie LINREG durch LGT (Logit) oder PRB (Probit) ersetzen:
50
Das folgende Programm schätzt das lineare, das Probit- und das Logit-Modell für das
oben genannte Beispiel der Mitgliedschaft in einer Gewerkschaft:
allocate 1000
open data cps.rat
data(format=rat,org=var)/age exp2 grade ind1 married Inwage occ1 $
partt exp union weigh high
* Lineares Wahrscheinlichkeitsmodell
linreg union /
‘exp exp2 grade married high constant
* Probit-Modell
prb union /
‘exp exp2 grade married high constant
* Logit-Modell
lgt union /
#exp exp2 grade married high constant
Die Ergebnisse lauten für das lineare Wahrscheinlichkeitsmodell:
Tabelle 2.2 Schätzergebnisse für das lineare Wahrscheinlichkeitsmodell
Variable
Coeff
Std Error
T-Stat
Signif
1. EXP
0.020038767
0.003896914
5.14221
0.00000033
2. EXP2
-0.000370581
0.000081883
-4.52572
0.00000675
3. GRADE
-0.012463581
0.005100452
-2.44362
0.01471364
4. MARRIED
0.013342779
0.030000989
0.44474
0.65660113
5. HIGH
0.143939577
0.025678520
5.60545
0.00000003
6. Constant
0.102136788
0.074933713
1.36303
0.17318220
für das Probit-Modell:
Tabelle 2.3 Schätzergebnisse für das Probit-Modell
Variable
Coeff
Std Error
T.Stat
Signif
1. EXP
0.083509133
0.015608799
5.35013
0.00000009
2. EXP2
-0.001530796
0.000317877
-4.81569
0.00000147
3. GRADE
-0.042077965
0.018908978
-2.22529
0.02606175
4. MARRIED
0.062251606
0.112583951
0.55293
0.58030792
5. HIGH
0.561295261
0.099662392
5.63197
0.00000002
6. Constant
-1.468412409
0.295812594
-4.96400
0.00000069
51
und für das Logit-Modell:
Tabelle 2.4 Schätzergebnisse für das Logit-Modell
Variable
Coeff
Std Errir
T-Stat
Signif
1. EXP
0.147402074
0.028097014
5.24618
0.00000016
2. EXP2
-0.002686919
0.000565428
-4.75201
0.00000201
3. GRADE
-0.0704320887
0.032142049
-2.18782
0.02868301
4. MARRIED
0.115463002
0.196778961
0l.58676
0.55736156
5. HIGH
0.980141109
0.180049032
5.44375
0.00000005
6. Constant
-2.581435858
0.518685883
-4.97688
0.00000065
Man erkennt erhebliche Differenzen in den drei Schätzungen, d.h. die Schätzer sind
nicht indifferent gegenüber der Spezifikation. Die Parameter der drei Modelle haben
jeweils eine andere Interpretation. Das Probit- und das Logit-Modell liefern im allgemeinen ähnliche Ergebnisse. Das Probit-Modell unterstellt eine Normalverteilung mit Varianz σ 2 = 1 , das Logit-Modell eine logistische Verteilung mit einer Varianz σ 2 = π 2 3 , so
daß die Ergebnisse des Probit-Modells multipliziert mit σ = π / 3 annähernd den Ergebnissen des Logit-Modells entsprechen. Größere Unterschiede treten nur auf, wenn
das Datenmaterial eine sehr hohe Schiefe aufweist. In diesem Fall ist das Logit-Modell
der adäquatere Ansatz.
Im Gegensatz zum lineare Wahrscheinlichkeitsmodell sind die geschätzten Koeffizienten des Probit-Modells und des Logit-Modells nicht als marginale Effekte zu interpretieren, diese müssen auf Basis der Schätzung erst noch berechnet werden. Es gilt allgemein:
(2.18)
∂E ( yi )
∂xik
=
∂F ( X i β )
∂ ( Xi β )
βk .
52
Also im linearen Wahrscheinlichkeitsmodell
(2.19)
∂ E ( yi )
= βk
∂ xik
im Probit-Modell:
(2.20)
∂ E ( yi )
= φ ( Xiβ ) βk
∂ xik
und im Logit-Modell:
(2.21)
∂ E ( yi )
= Λ ( X i β ) (1 − Λ ( X i β ) ) ⋅ β ik mit
∂ xik
Λ ( Xi β ) =
e Xi β
.
1 + eX iβ
Die marginalen Effekte hängen also im Probit- und im Logit-Modell von den exogenen
Variablen X i ab und sind daher für jedes Individuum unterschiedlich. Es gibt prinzipiell 2
Wege, die marginalen Effekte zu berechnen. Man evaluiert die marginalen Effekte jeweils am arithmetischen Mittel der erklärenden Variablen X oder man evaluiert für jedes Individuum den marginalen Effekt und mittelt anschließend über die marginalen Effekte. Die Evaluation am arithmetischen Mittel der erklärenden Variablen ist für 0/1Variablen nicht sinnvoll. Daher berechnet man den marginalen Effekt einer 0/1 Variablen Di häufig als F ( X i β Di = 1) − F ( X i β Di = 0 ) . Die Schätzungen der marginalen Effekte stimmen im Probit-Modell und im Logit-Modell häufig weitgehend überein.
Man kann die binären Choice-Modelle auch benutzen, um Prognosen für die Wahrscheinlichkeiten P( yi ) = 1 abzuleiten. Es gilt:
(2.22)
 ˆ
Xi β

P( yi = 1) = Φ X i βˆ

Λ X i βˆ

(
(
)
)
im linearen Wahrscheinlichkeitsmodell
im Probitmodell
im Logitmodell
Die Ursache der wesentliche Unterschiede kann z.B. Heteroskedastizität der Störgröße
sein. Für das lineare Modell haben wir diese bereits gezeigt. Dort hat eine Heteroskedastie aber nur Effekte auf die Schätzfehler. In nichtlinearen Modellen wie dem Probitund Logit-Modell führt Heteroskedastie auch zu inkonsistenten Schätzern. Dies ergibt sich für das Probit-Modell unmittelbar aus
53
(2.23)
 X iβ 
P( yi = 1) = Φ 
.
 σ ⋅ g( X i ) 
Heteroskedastie ist also ein wesentlich ernsteres Problem als im linearen Modell. Daher sollte im Rahmen von Analysen mit dem Probit- bzw. des Logit-Modell möglichst ein
Heteroskedastietest durchgeführt werden. Die Maximum-Likelihood-Schätzung ist aber
immer dann konsistent und effizient, wenn wir die richtige Likelihoodfunktion maximiert haben. In den meisten empirischen Anwendungen unterscheiden sich die Parameter des Probit- und Logit-Modells nur geringfügig. Daraus kann dann auf eine gewisse Robustheit gegenüber den unterschiedlichen Annahmen geschlossen werden.
Im Gegensatz zum linearen Regressionsmodell ist im Probit- und im Logit-Modell das
klassische Bestimmtheitsmaß R2 nicht als Maß für die Güte der Schätzung anwendbar.
Daher verwendet man sogenannte Pseudo-Bestimmtheitsmaße oder auch Pseudo- R2 .
Das einfachste Pseudo-Bestimmtheistmaß ist der Likelihood-Ratio-Index:
(2.24)
LRI = 1 −
ln L
ln L0
ln L0 ist dabei die Log-Likelihood eines Probit- oder Logit-Modells, das nur eine Konstante und sonst keine erklärenden Variablen enthält. Es ist wie das klassische Bestimmtheitsmaß auf den Wertebereich [ 0,1] . Allerdings sind selten Pseudo- R2 zu erwarten, die größer sind als 0,2 . Sehr häufig sind sie sogar kleiner als 0,1 .
Ein Beispiel für die Anwendung des Probit-Modells ergibt sich aus einer jüngeren Studie des ZEW zum Technologietransfer von Hochschulen und öffentlichen Forschungseinrichtungen an private Unternehmen. Beise und Stahl (1999) haben mit einem Querschnitt des Mannheimer Innovationspanels untersucht, ob Forschungsergebnisse von
Hochschulen und öffentlichen Forschungseinrichtungen maßgeblich für die Innovationstätigkeit privater Unternehmen sind. Dazu wurden die Unternehmen gefragt, ob es Produkt- oder Prozeßinnovationen gibt, die ohne die Ergebnisse der jüngeren Forschung
von Hochschulen oder öffentlichen Forschungseinrichtungen nicht zustandegekommen
wären.
54
Die Probitschätzung führte zu folgenden Ergebnissen (die Werte stellen die marginalen
Effekte dar):
Tabelle 2.5 Technologietransfer an private Unternehmen
Transfer von
Transfer von
Hochschulen und Universitäten
öffentlichen Forschungseinrichtungen
Transfer von
Fachhochschulen
Transfer von
öffentlichen Forschungseinrichtungen
Beschäftigtenzahl (in logs)
0,0240***
0,022***
0,0038
0,014***
FuE-Intensität
0,0042***
0,0016
-0,0000
0,0026**
Produktlebenszyklus
-0,0011
-0,0006
-0,0018**
-0,0010
Breite der Produktpalette
-0,0110**
-0,0058**
-0,0044**
-0,0032
Wissenschaftlerdichte
-0,2070
Wissenschaftlerdichte (Uni)
-0,387
-0,471**
-0,482
Wissenschaftlerdichte (FHs)
0,197
0,586***
0,377
Wissenschaftlerdichte (Institute)
0,017
-0,127
0,038
Investitionsgütersektor (Dummy)
0,038
0,039**
0,016**
-0,0053
Neue Bundesländer (Dummy)
-0.028
0,0034
0,0012
0,032
N
892
891
889
890
-371,4
-213,4
-136,9
-206,4
0,0377
0,0931
0,1276
0,0605
ln L
2
Pseudo R
*,**,*** bezeichnet ein Signifikanzniveau von 1%, 5% bzw. 10%.
Einige Ergebnisse seien nur exemplarisch diskutiert. Die Neigung der Unternehmen,
sich Spillovers der öffentlichen Forschung anzueignen, steigt mit der Größe und der
FuE-Intensität der Unternehmen (gemessen als Anteil der FuE-Ausgaben am Umsatz).
Insbesondere die Fähigkeiten, sich die Ergebnisse der Forschung öffentlicher Institute
55
(Großforschungseinrichtungen, Fraunhofer-Institute) anzueignen, erfordert eine eigene
FuE-Tätigkeit der Unternehmen.
Der Transfer von Fachhochschulen unterscheidet sich davon jedoch deutlich. Die Größe
des Unternehmens spielt keine Rolle, kleine und mittlere Unternehmen können in gleichem Maße profitieren. Die räumliche Nähe gemessen als Wissenschaftlerdichte in
einem Umkreis von 100km ist signifikant. Im übrigen konnte im Rahmen der Studie, die
weitere Schätzungen enthält, dem Technologietransfer öffentlicher an private Einrichtungen kein besonders gutes Zeugnis ausgestellt werden. Dies betraf insbesondere den
Transfer von sogenannten Großforschungseinrichtungen. Die wesentlichen Transfers
finden nur von Fraunhofer-Instituten sowie einigen Technischen Universitäten statt.
2.1.5 Bivariate und Simultane Probit-Modelle
Häufig stehen jedoch verschiedene diskrete Entscheidungen von Individuen oder Unternehmen in einem direkten oder indirekten Zusammenhang, wie beispielsweise die Entscheidung über Erwerbsbeteiligung und das Kinderkriegen von Frauen oder die Entscheidung über Produkt- und Prozeßinnovationen von Unternehmen. Es ist dabei zwischen genisteten und nicht-genisteten Modellen zu unterscheiden.
In einem genisteten Modell hängt die zweite Entscheidung vom Ergebnis der ersten
Entscheidung ab. Es ergibt sich also ein zweistufiges Entscheidungsmuster, wie beispielsweise auf der ersten Stufe die Entscheidung über eine Fahrt mit dem eigenen
Auto oder einem öffentlichen Verkehrsmittel und auf der zweiten Stufe die Entscheidung
zwischen dem Bus und der Bahn, gegeben eine Entscheidung für öffentliche Verkehrsmittel auf der ersten Stufe. Derartige Modelle werden hier nicht behandelt. Sie können
beispielsweise in Ronning (1991) nachgelesen werden.
Das bivariate Probit-Modell entspricht einer Übertragung des bekannten Modells mit
scheinbar unabhängigen Gleichungen auf das Probit-Modell. Es hat folgende Struktur
für den beobachtbaren Modellteil:
56
(2.25)
1
y1i = 
0
1
y2i = 
0
wenn
y1i* > 0
wenn
y1i ≤ 0
wenn
y2i > 0
wenn
y2i* ≤ 0
*
*
und folgende für den latenten Modellteil:
(2.26)
y1*i = X 1i β1 + u1i
mit E( u1i ) = 0, V (u1i ) = 1
y*2i = X 2i β 2 + u2i
mit E( u1i ) = 0, V (u1i ) = 1, Cov (u1i u2i ) = ρ
Die Varianzen können auf 1 normiert werden, da wie im gewöhnlichen Probit-Modell nur
die standardisierten Koeffizienten identifiziert sind. ρ beschreibt wie im SUR-Modell
die Korrelation zwischen den Störgrößen der beiden Gleichungen. Das bivariate ProbitModell kann mit der Maximum-Likelihood-Methode geschätzt werden. Die individuellen
Eintrittswahrscheinlichkeiten der beiden Ereignisse werden folgendermaßen gebildet:
(2.27)
P(Y1i = y1i , Y2i = y2i ) = Φ ( w1i , w2i, ρi+ )
mit ρi+ = q1i q2i ρ , w1i = q1i X1 i β1 , w2i = q2i X2 i β2 und q1i = 2 y1i −1 , q2i = 2 y2i − 1 .
Im Gegensatz zum bivariaten Probit-Modell hängt beim simultanen Probit-Modell die
latente Variable der einen Gleichung von der latenten Gleichung der jeweils anderen
Gleichung ab. D.h. es gilt weiterhin das beobachtbare Modell (2.25), aber statt des latenten Modells (2.26) gilt jetzt:
(2.28)
y1*i = y*2iγ 1 + X1i β1 + u1i
mit E( u1i ) = 0, V (u1i ) = 1
y*2i = y1*iγ 2 + X 2i β 2 + u2i
mit E( u1i ) = 0, V (u1i ) = 1, Cov (u1i u2i ) = ρ
Das simultane Probit-Modell ist damit ein simultanes Modell in den latenten Variablen,
nicht in den beobachtbaren. Mann kann zeigen, daß ein simultanes Modell in den beobachtbaren Variablen nur dann logisch konsistent ist, wenn es eine rekursive Struktur
aufweist. Ansonsten sind die sogenannte Kohärenzbedingungen verletzt (Blundell and
Smith, 1994).
Das simultane Probit-Modell kann beispielsweise mit der zweistufigen Methode von
Mallar (1977) oder Maddala (1983) geschätzt werden. Bei diesem Verfahren wird zuerst die reduzierte Form des Gleichungssystems (2.28) abgeleitet:
57
y1*i =
γ 1β 2
β1
u +γ u
X2i +
X1i + 1i 1 2i
1 − γ 1γ 2
1 − γ 1γ 2
1 − γ 1γ 2
y*2i =
γ 2 β1
β2
γ u +u
X1 i +
X 2 i + 2 1i 2i
1 − γ 1γ 2
1 − γ 1γ 2
1 − γ 1γ 2
(2.29)
Tatsächlich werden im ersten Schritt also die latenten Variablen y1i und y2i mit dem
ML-Probit-Schätzer auf das gesamte Set exogener Variablen regressiert:
(2.30)
y1*i = X i Π1 + υ1i
y*2i = X i Π 2 + υ2i
Im zweiten Schritt werden die Schätzungen der Latenten in die strukturelle Gleichung
(2.28) eingesetzt. Bei der gegebenen Normierung der Varianzen auf 1 können die Parameter somit konsistent geschätzt werden durch
(2.31)
y1*i = yˆ *2iγ 1 + X1i β1 + u1i
y*2i = yˆ 1*iγ 2 + X 2i β 2 + u2i
.
Die Schätzung der korrekten Form der Standardfehler ist Maddala (1983) im Abschnitt
7.3 zu entnehmen.
In einer aktuellen ZEW-Studie (Ebling und Janz, 1999) wurde mit diesem Ansatz der
Zusammenhang zwischen Exporttätigkeit und Innovationsverhalten im Dienstleistungssektor simultan untersucht. Ausgangspunkt ist dabei die Analyse der Bestimmungsfaktoren für die Exportentscheidung von Dienstleistungsunternehmen. Die Innovationsfreudigkeit eines Unternehmens wird generell als wichtige Bestimmungsgröße für die Exportentscheidung eines Unternehmens angesehen: Nach Posner (1961) kann (gerade
intra-industrieller) Handel durch Unterschiede in der Technologie, also Innovationen,
begründet werden. Umgekehrt kann jedoch auch argumentiert werden, daß Handel den
Umsatzanteil eines Unternehmens mit seinen neuen Produkten erhöht. Das Unternehmen wird daher die Innovationsaktivitäten intensivieren. Die Wirkungsrichtung, ob Exporterfolg durch Innovationsaktivitäten begründet wird oder Exporte vielmehr Innovationsaktivitäten verstärken, ist somit a priori nicht eindeutig.
Die Anwendung des vorgestellten simultanen Probitansatzes auf einen Querschnitt des
Mannheimer Innovationspanels im Dienstleistungssektor führte zu folgenden Ergebnissen:
58
Tabelle 2.6: Exporterfolg und Innovationsaktivitäten
Schätzung eines Simultanen Probitansatzes
Exportgleichung
Variable
Exporteur
Innovator
Koeffizient
Standardabw.
0,282**
0,147
-1,997**
0,876
1,291*
0,760
- Technische Beratung
-1,242**
0,584
- Wohnungswesen
-0,904
2,443
0,029
0,167
- Reinigungsgewerbe
-1,754
1,212
- Sonstige Dienstleistungen
-1,094***
0,366
0,279***
0,085
Innovationsgleichung
Koeffizient
Standardabw.
0,115
0,111
-0,082
0,079
Quantitative Variablen:
Lohnstückkosten im WZ
- Verkehr
- EDV
- Beratungsunternehmen
Lohnniveau
Anteil der Beschäftigten
- mit Universitätsabschluß
- mit Berufsabschluß
Größe des Unternehmens
-0,150
0,111
(Größe des Unternehmens)^2
-0,027
0,018
Investitionen in Informationstechn.
1,176 ***
0,237
0,398 **
0,172
0,246 ***
0,093
-0,003
0,015
4,780 ***
1,486
Qualitative Variablen:
Grenznähe
0,506**
0,219
Teil eines Konzerns
0,063
0,130
0,115
0,108
0,119
-0,091
0,130
Ostvariable
-0,643***
Wirtschaftszweigvariable:
- Verkehr
- EDV
- Technische Dienstleistungen
0,614
0,389
0,339 *
0,187
-0,500
0,441
0,503 **
0,197
0,924**
0,379
0,138
0,166
- Wohnungswesen
-1,012**
0,507
-0,019
0,246
- Beratungsunternehmen
-0,398
0,537
0,468 **
0,232
0,425*
0,230
0,316 **
0,153
-0,977***
0,263
0,186
0,265
- Reinigungsgewerbe
Konstante
Log-Likelihood
Anzahl der Beobachtungen
-395,259
1010
-615,442
1010
Im Rahmen des Simultanen Probit-Modells zeigt sich, daß Innovationsaktivitäten sehr
wohl signifikanten Einfluß auf die Exportaktivitäten von Dienstleistungsunternehmen haben, die Exportaktivitäten jedoch ihrerseits von den Innovationsaktivitäten nicht wesentlich beeinflußt werden. Während zudem deutlich positive Effekte vom Lohnniveau (Per59
sonalkosten pro Beschäftigtem), das im Rahmen der Studie als Qualifikationsniveau
interpretiert wird, auf die Exportwahrscheinlichkeit festzustellen sind, beeinflussen die
Lohnstückkosten (Personalkosten pro Umsatzeinheit) nur in einzelnen Branchen die
Exportaktivitäten negativ. Hohe Löhne verschlechtern demnach nicht die Exportchancen
von Dienstleistungsunternehmen, wenn sie das Qualifikationsniveau der Unternehmen
reflektieren.
2.2
Modelle für kategoriale abhängige Variablen
2.2.1 Das geordnete Probit-Modell
Das binäre Wahlmodell ist ein Spezialfall allgemeiner Wahlmöglichkeiten. Fragt man
z.B. nach der Erwerbstätigkeit, so ließen sich folgende drei Antworten unterscheiden:
nicht erwerbstätig ( yin )
teilweise (z.B. Teilzeit) erwerbstätig ( yti )
voll erwerbstätig ( yiv )
Das latente Modellteil, das die Neigung eine Erwerbstätigkeit aufzunehmen beschreibt, hat wieder folgende Gestalt:
(2.32)
y*i = X iβ + ui
mit ui ~ N (0, σ 2 )
Der beobachtbare Modellteil läßt sich jetzt durch zwei 0,1 Variable beschreiben, nämlich
(2.33)
1 wenn die Person erwerbstätig ist
yie = 
0 wenn die Person nicht erwerbstätig ist
1 wenn die Person voll erwerbstätig ist
yiv = 
0 wenn die Person teils erwerbstätig ist
Alternativ können wir yi in einer Variablen mit 3 Ausprägungen wie folgt kodieren:
(2.34)
0 nicht erwerbstätig

yi = 1 Teilzeit beschäftigt
2 Vollzeit beschäftigt

60
Beide Kodierungen führen zum gleichen Ergebnis. In der ökonometrische Literatur verwendet man in der Regel die Codierung (2.34). Die beobachtbare Variable yi ist dann
ordinal skaliert. Allgemein können wir das latente Modell für J + 1 ordinale Kategorien
wie folgt schreiben:
(2.35)
0 für yi* ≤ c1

*
1 für c1 < yi ≤ c2
yi = 
M
 J für cJ < yi*
Für die latente Variable yi* gilt Gleichung (2.32). Die beobachtbaren Zustände ergeben
sich wie folgt aus dem latenten Modell:
(2.36)
0

1
yi = 
M
 J
yi* < c1
bzw.
ui
c1 < yi* < c2
bzw.
c1
cJ < yi*
bzw.
σ
< c1 σ − X i β σ
σ
− Xi β σ < ui σ < c2 −
cJ
σ
Xi β
σ
− X i β σ < ui σ
Die Koeffizienten c j werden als Schwellenparameter (Threshold parameter) bezeichnet, für die gelten muß
(2.37)
c1 < c2 < L < cJ
Man kann zeigen, daß bei J > 1 Wahlmöglichkeiten ein Schwellenparameter beliebig
gewählt werden kann, z.B. c1 = 0 . Wir sehen sofort, daß es sich beim geordneten Probit-Modell um eine direkte Verallgemeinerung des Probit-Modells handelt, das für J = 1
das Probit-Modell als Spezialfall enthält. Für die Eintrittswahrscheinlichkeiten gilt im geordneten Probit-Modell:
(2.38)
P( yi = 0)
P( yi = 1)
M
P( yi = J )
= Φ ( − Xi β σ )
= Φ ( c2 σ − Xi β σ ) − Φ ( − Xi β σ )
M
= 1 − Φ ( cJ σ − Xi β σ )
Zusätzlich zu den Parametern β und σ werden auch die Schwellenparameter c2 ,L , cJ
geschätzt, die genauso wie die Parameter bis auf einen konstanten Faktor identifiziert
sind. Man setzt daher in der Regel σ = 1 .
61
Genau so wie im Probit-Modell der Gleichung (2.11) lassen sich auch für das geordnete
Probit-Modell der Gleichung (2.38) analog zu (2.20) marginale Effekte berechnen. Diese lauten im geordneten Probit-Modell:
(2.39)
∂P( yi = 0)
∂xik
∂P( yi = 1)
∂xik
M
∂P( yi = J )
∂xik
= −φ ( X i β ) β k
=
(φ (− X i β )− φ ( c2 −
X i β )) β k
M
= φ (c J − X i β ) β k
Kaiser (1998) hat mit den Daten des Mannheimer Innovationspanels untersucht, welchen Einfluß der Einsatz von neuen Technologien auf die erwartete Arbeitsnachfrage
von Dienstleistungsunternehmen hat. Im Rahmen des MIP wurde die Unternehmen gefragt, ob sie für verschieden vorgegebene Qualifikationsstufen (heterogene Arbeit) planen die Beschäftigung zu senken oder zu erhöhen. Dazu wurde ihnen eine 5er-LikertSkala vorgegeben. Die Mitte als der Wert 3 kennzeichnet dabei eine konstante geplante Beschäftigung. Die folgende Tabelle zeigt die Auszüge der Schätzergebnisse für
2 Qualifikationsgruppen (Universitätsabsolventen und Beschäftigte mit abgeschlossener
Berufsausbildung).
62
Tabelle 2.7 Beispiel geordnetes Probit-Modell: Heterogene Arbeitsnachfrage
Arbeitskosten der Qualifikationsgruppe
Hochschulabsolventen
Beschäftigte
mit abgeschlossener
Berufsausbildung
0,001
-0,004***
IT-Investitionen als Anteil an den Gesamt- 0,004***
investitionen
-0,003**
Investitionen pro Kopf
0,006
0,020
Beschäftigte mit Hochschulabschluß (in 0,035***
Logs)
-0,033***
Beschäftigte mit abg. Berufsausbildung (in -0,001
Logs)
0,000
potentielle Kreditrationierung (Dummy)
0,022
-0,067
Neue Bundesländer (Dummy)
-0,159*
-0,197**
Schwellenparameter 1
-1,220
-0,867
Schwellenparameter 2
0,821
0,938
Anzahl der Beobachtungen
1037
1059
Log-Likelihood
-829,797
-992,685
*, **, *** kennzeichnen ein Signifikanzniveau von 0,10; 0,05 und 0,01.
Im Rahmen der Schätzung wird für Branchen und Umsatzerwartungen kontrolliert.
Es zeigen sich deutliche Unterschiede zwischen den beiden gewählten Qualifikationsgruppen in den Beschäftigungserwartungen bzw. -planungen der Unternehmen. Während sich für Beschäftige mit abgeschlossener Berufsausbildung ein negativer Effekt
der Arbeitskosten nachweisen läßt, findet man keinen Effekt bei Hochschulabsolventen.
Die entscheidende Variable war jedoch im Rahmen der untersuchten Fragestellung der
Effekt des Einsatz neuer Technologie (hier: Informations- und Kommunikationstechnologien). Im Rahmen der Schätzung des geordnete Probit-Modells der Beschäftigungserwartungen sehen wir, daß Unternehmen, die relativ viel in Informations- und Kommunikationstechnologien investieren, die Beschäftigung von Hochschulabsolventen auszuweiten planen und die Beschäftigung „einfacher“ Mitarbeiter zu senken. Dies läßt sich
sehr vorsichtig als Anzeichen dafür interpretieren, daß der vermehrte Einsatz von ITTechnologien auch im Dienstleistungssektor einfache Arbeitsplätze vernichtet und an63
spruchsvolle schafft. Man spricht in diesem Zusammenhang vom sogenannten skill bias
of technological change (Bound and Johnson, 1992).
2.2.2 Das multinomiale Logit-Modell
Viele mehrdimensionale Kategorien lassen sich jedoch nicht oder nur sehr schwer geeignet ordnen. Konsumentscheidungen für verschieden Marken wie z.B. Automobile
sind hier ein klassisches Beispiel. Modelle für derartige ungeordnete binäre Alternativen
bezeichnet man als multinomiale Modelle. Das kurz hier beschriebene multinomiale
Logit-Modell geht auf Theil (1969) und McFadden (1974) zurück. McFadden (1974)
bezeichnet sein Modell jedoch als konditionales Logit-Modell. Der wesentliche Unterschied ist, daß man im multinomialen Logit-Modell die Wahlhandlungen durch die unterschiedlichen Eigenschaften der Individuen erklärt, während bei Entscheidungen im konditionalen Logit-Modell auch spezifische Eigenschaften der Alternativen berücksichtigt
werden können. Beide Modelle sind jedoch sehr ähnlich, so daß wir hier nur kurz auf das
multinomiale Logit-Modell eingehen. Ein einfache Darstellung mit einem Vergleich der
beiden Ansätze findet man bei Greene (1993) in Kapitel 19.7 und sehr viel ausführlicher
bei Maddala (1983) in Kapitel 3. Dort findet man auch weitere Alternativen wie beispielsweise das Multinomiale Probit-Modell (Hausman and Wise, 1978).
Im multinomialen Logit-Modell sind folgende Auswahlwahrscheinlichkeiten in Verallgemeinerung zu (2.17) für ein Modell mit J + 1 Alternative definiert:
P( yi = 0) =
1
J
1 + ∑ e Xi β k
j =1
(2.40)
P( yi = j ) =
e
X iβ j
J
1+ ∑ e
für
X i βk
j = 1,K , J
j =1
Man beachte dabei einen wesentlichen Unterschied zu den bisher betrachteten Modellen. Die Koeffizienten β j variieren mit den Alternativen. Im geordneten Probit-Modell
waren die Koeffizienten unabhängig von der betrachteten Alternative. Die Variabilität
64
der Koeffizienten führt im multinomialen Logit-Modell zu erheblichen Interpretationsproblemen.
Die Koeffizienten sind somit nur relativ interpretierbar. In Gleichung (2.40) wurden die
Parameter β 0 willkürlich zu Normierungszwecken auf 0 gesetzt. Wir hätten ebenso
auch jeden anderen Parametervektor wählen können. Die Koeffizienten erklären daher
nur die Unterschiede in den Präferenzen zur gewählten Normierung:
(2.41)
 P( yi = j ) 
ln 
 = Xiβ j
 P ( yi = 0) 
Insbesondere diese Einschränkung macht die Anwendung des Multinomialen LogitModells für die Praxis nicht sehr attraktiv. Die Schätzung des Multinomialen LogitModells ist wie auch im Logit-Modell die übliche Maximum-Likelihood-Schätzung bei
der die individuellen Beiträge über die Gleichung (2.40) definiert sind.
2.3
Modelle für beschränkte abhängige Variablen
2.3.1 Das Tobit-Modell
Typisch für Mikrodaten im allgemeinen und Querschnittsdaten im besonderen sind auch
sogenannte beschränkte abhängige Variablen (limited dependent variables). Will
man beispielsweise auf der Mikroebene das Arbeitsangebot von Individuen erklären, so
läßt es sich nur für diejenigen Personen beobachten, die auch tatsächlich arbeiten. Bei
Arbeitslosen ist das beobachtbare Arbeitsangebot auf den Wert Null beschränkt. Ein
weiteres Beispiel sind Kaufentscheidungen für dauerhafte Konsumgüter, die nicht in
jeder Periode erfolgen, die Höhe der Ausgaben ist also in vielen Perioden auf den Wert
Null beschränkt.
Ein Modellansatz, der mit derartigen Beobachtungen für abhängige Variable umgehen
kann, wurde von Tobin (1958) entwickelt. Tobin (1958) erweitert das binäre ProbitModell insofern, als – um im Beispiel der dauerhaften Konsumgüter zu bleiben − neben
der Entscheidung, dauerhafte Konsumgüter zu kaufen oder nicht, die Entscheidung über
die Ausgabenhöhe simultan berücksichtigt wird. Es wird daher nach ihm auch TobitModell genannt. Die erklärenden Variablen X i beeinflussen in diesem Ansatz sowohl
die Wahrscheinlichkeit des Ausgabenereignisses als auch die unterschiedliche Höhe
65
der Ausgaben. Einen sehr lesenswerten Überblick über verschiedene Spezifikationen
des Tobit-Modells findet man bei Amemiya (1985) in Kapitel 10.
Die Nullbeobachtungen im Tobit-Modell führen zu einer Konzentration von Beobachtungen im Punkt Null, die das Problem mit sich bringt, daß eine gewöhnliche KQSchätzung zu verzerrten und inkonsistenten Schätzergebnissen führt. Die Verzerrtheit
und Inkonsistenz rühren daher, daß in einer Regression über alle Individuen die KQSchätzung einen linearen Zusammenhang erzwingt, der aufgrund der Beobachtungskonzentration unangebracht ist. Doch selbst wenn die Regression nur über die Individuen erfolgt, für die Ausgaben bzw. Arbeitsangebote beobachtbar sind, treten verzerrte
und inkonsistente Schätzer auf. Denn in dem Fall ist die KQ-Schätzung mit einem sample selection bias (vgl. dazu auch Heckman, 1976 und 1979) behaftet, da die Schätzung annimmt, die Stichprobe bestünde nur aus den verwendeten Beobachtungen, obgleich auch die vernachlässigten "Nullbeobachtungen" der Stichprobe angehören.
Im folgenden wird anhand eines einfachen Modells zur Erklärung der Ausgaben für dauerhafte Konsumgüter veranschaulicht, wie Nachfragegleichungen in Querschnittsmodellen unter Beachtung der Konzentration von Beobachtungswerten im Punkt Null geschätzt werden können. Ein solches Modell, das der Beobachtungskonzentration gerecht wird, läßt sich wie folgt formulieren.
Für die endogene Variable, die in diesem Fall als Konsumneigung interpretiert werden
kann, nehmen wir wie im Probit-Modell (vgl. Gleichung (2.11)) ein latentes Modell an:
Latenter Modellteil
(2.42)
yi* = X iβ + ui
mit ui : N (0, σ 2 )
Beobachtet werden kann jedoch nur eine positive Kaufentscheidung:
Beobachtbarer Modellteil
(2.43)
 y* = X iβ + ui
yi =  i
0
wenn yi* > 0 bzw. ui σ > − X i β σ
wenn yi* ≤ 0 bzw. ui σ ≤ − X i β σ
yi* bezeichnet die latente endogene Variable, hier die gewünschten Ausgaben für ein
dauerhaftes Konsumgut, wie sie sich z.B. aus der Maximierung einer Nutzenfunktion
unter Berücksichtigung einer Budgetbeschränkung ergeben. Sie ist nicht direkt beob66
achtbar und hängt von direkt beobachtbaren Variablen X i ab. Die latente Variable ist
nur dann auch beobachtbar, wenn sie positiv ist: y*i > 0 . Im Beispiel: Die Ausgabenentscheidung wird nur dann getroffen, wenn die gewünschten Ausgaben positiv sind, bei
negativen optimalen Ausgaben (eine Art Desinvestition) finden keine Ausgaben statt.
Wird die Gleichung yi = X i β + ui mit Hilfe der KQ-Methode geschätzt, dann wird implizit
unterstellt, daß im Mittel die systematische Komponente X i β gilt, d.h. E ( yi ) = X i β . Tatsächlich gelten aufgrund der Beobachtungskonzentration unter der Annahme einer normalverteilten Störung ui : N (0, σ 2 ) jedoch die folgenden Erwartungswerte. Dazu sortieren wir die Stichprobe vom Umfang N in die ersten M Individuen, für die die latente
Variable beobachtbar ist, und die N − M Individuen, für die sie nicht beobachtet werden
kann.
Für die Teilstichprobe (i = 1,K , M ) gilt
E ( yi | yi* > 0 ) = X i β + E ( ui | ui > − X i β )
(2.44)
= Xiβ + σ
φ ( X iβ σ )
Φ ( Xi β σ )
und für die gesamte Stichprobe (i = 1,K, N )
E ( yi )= P ( yi* > 0) ⋅ E ( yi | yi* > 0 ) + P ( yi* ≤ 0 ) ⋅ E ( yi | yi* ≤ 0 )
14
4244
3
(2.45)
0

φ ( Xiβ σ ) 
= Φ ( Xiβ / σ ) ⋅  Xiβ +σ

Φ ( Xiβ σ ) 

Der Ausdruck λ ( X i β / σ ) = φ (X i β / σ ) / Φ(X i β / σ ) wird als Inverse von Mills-Ratio bezeichnet und hat im Rahmen der Tobit-Modelle eine besondere Bedeutung. Der Erwartungswert (2.44) ist der Erwartungswert einer im Punkt yi = 0 abgeschnittenen oder
trunkierten Normalverteilung, der Erwartungswert (2.45) ist der Erwartungswert für eine
im Punkt yi = 0 zensierten Normalverteilung. Während bei der trunkierten Normalverteilung alle Beobachtungen < 0 nicht beobachtet sind (banal gesprochen: einfach fehlen),
sind diese Beobachtungen bei der zensierten Verteilung auf den Wert 0 gesetzt, d.h.
die gesamte Wahrscheinlichkeitsmasse konzentriert sich im Punkt 0 .
67
Die KQ-Schätzung ist demnach insofern fehlspezifiziert, als mit dem systematischen
Modellteil X i β bestimmte erklärende Variablen vernachlässigt sind. Wird die lineare
Regression yi = X i β + ui z.B. nur über die ersten M Beobachtungen durchgeführt, dann
rührt die Fehlspezifikation daher, daß die Variable λ ( X i β / σ ) = φ (X i β / σ ) / Φ(X i β / σ )
unberücksichtigt bleibt (Heckman, 1979). Konsistente KQ-Schätzer sind aber möglich,
wenn
in
einer
Regression
über
alle
N
Beobachtungen
Φ ( − X i β / σ ) ⋅[ X i β + σφ ( X i β / σ ) / Φ ( X i β / σ )] bzw. in einer Regression, die ersten M
Beobachtungen umfaßt, X i β + σφ ( X i β / σ ) / Φ ( X i β / σ ) als systematischer Modellteil
verwendet wird. Diese Eigenschaften werden uns später im Rahmen der zweistufigen
Heckman-Schätzung zu Nutze machen.
2.3.2 Maximum-Likelihood-Schätzung des Tobit-Modells
Die Likelihoodfunktion des Tobit-Modells wird analog zur Likelihoodfunktion des ProbitModells (2.12) gebildet. Sie stellt sich in Form:
M
LTobit = ∏ P( yi* = yi )⋅
i =1
(2.46)
N
∏ P( y
*
i
≤ 0)
i = M +1
M
N
= ∏σ −1φ [( yi − X i ′β ) / σ ] ∏ Φ( − X i β / σ )
14
4244
3
i =1
i = M +1
1 − Φ ( Xi β / σ )
dar, wobei das erste Produkt die ersten M Individuen betrifft, für die die latente Variable beobachtbar ist, das zweite Produkt die N - M Individuen, für die sie nicht beobachtet werden kann.
Durch eine Umformulierung der Likelihoodfunktion (2.46) in:
(2.47)
LTobit = ∏ σ −1
M
φ [( yi − X i β ) / σ ]
(1 − Φ ( X i β ))
∏ Φ ( X i β ) N∏
Φ( X i β / σ ) M
−M
wird ersichtlich, daß das Tobit-Modell 2 Spezialfälle enthält: Der Faktor
(2.48)
LTrunk = ∏ σ − 1
M
φ [( yi − X i β ) / σ ]
Φ( X i β )
beschreibt die Likelihoodfunktion eines trunkierten Modells, in dem Beobachtungen
yi = 0 gänzlich aus der Analyse ausgeschlossen sind. Der zweite Teil von (2.47)
68
(2.49)
Lprobit = ∏ Φ ( X i β / σ ) ∏ (1 − Φ ( X i β ))
M
N− M
ist hingegen identisch mit der Likelihoodfunktion für das Probit-Modell, wie es in (2.12)
hergeleitet wurde.
Amemiya (1973, 1985) hat gezeigt, daß man durch Maximierung der logarithmierten
Likelihoodfunktion folgende ML-Schätzfunktionen erhält.
(2.50)
βˆ = ( X ′ X ) −1 X ′ y − σˆ ( X ′ X ) −1 X ′λˆ
wobei
′
X = ( X1′,L , X ′M )′ , y = ( y1 ,L , y M )′ X = X ′M +1 , L, X ′N ′ und λˆ = λˆM +1 L , λˆN mit
(
)
(
)
φˆ
λˆi = i
ˆi
Φ
Der erste Summand in Gleichung (2.50) ist der KQ-Schätzer der Beobachtungen mit
yi > 0 . Der ML-Schätzer des Tobit-Modells setzt sich also aus dem KQ-Schätzer der
Fälle mit yi > 0 und einem Term zusammen, der die Beobachtungen für yi = 0 umfaßt.
Eine Schätzung für σ 2 erhält man aus
(2.51)
σˆ 2 =
1
( y′ y − y′ X βˆ )
M
Amemiya hat gezeigt, daß der Schätzer konsistent, asymptotisch normal und asymptotisch effizient ist; er ist gegenüber dem Probit-Schätzer von einer höheren asymptotischen Effizienz, da er mehr Informationen verarbeitet. Olsen (1978) hat zudem die
globale Konkavität der Tobit-Likelihoodfunktion nachgewiesen.
Die Konsistenzeigenschaft ist allerdings nicht gewährleistet, wenn eine der Modellannahmen (Homoskedastizität, identische Parameter für alle Individuen oder die Annahme der Normalverteilung) verletzt ist. Deshalb ist die Überprüfung dieser Annahmen
besonders wichtig. Lee and Maddala (1985) haben für das Tobit-Modell entsprechende
Tests zusammengestellt. Neuere Testverfahren findet man auch bei Greene (1993) in
Kapitel 20 und sehr ausführlich im Sonderheft des Journal of Econometrics von Blundell
(1987). Inzwischen sind Erweiterungen des Tobit-Models, die Heteroskedastizität zulassen, auch in der Standardsoftware relativ einfach umzusetzen und sehr zu empfehlen
(vgl. Czarnitzki und Stadtmann, 1999).
69
In RATS kann die Maximum-Likelihood-Schätzung wie folgt geschrieben werden:
NONLIN SIGMASQ
LINREG Y
# CONSTANT X1 X2
FRML (LASTREG, NAMES = ´B´, ADDPARMS) RHSFRML
COMPUTE SIGMASQ = % SEESQ
FRML TOBIT = (Z=RHSFRML (T)), % IF (%VALID (Y), $
-.5* LOG (SIGMASQ) - .5* (Y-Z) **2/SIGMASQ, $
LOG (%CDF ((TR-RHSFRML)/SQRT ( SIGMASQ)))
MAXIMIZE (METHOD = BFGS) TRUNCATE
2.3.3 Zweistufige Heckman-Schätzung des Tobit-Modells
Da es Zeiten gab, zu denen die Tobit-Schätzung nach der ML-Methode sehr rechenzeitaufwendig waren, schlug Heckman (1976) einen Schätzer vor, der weitgehend auf
die KQ-Schätzung zurückgreift. Ausgangspunkt ist der Sample-Selection-Bias für das
Tobit-Modell, wenn man den Teil des Samples mit yi > 0 berücksichtigt (vgl. Herleitung
zu (2.44).
(2.52)
E ( yi | yi* > 0) = X i β + E (ui | ui > − X i β )
= X i β + σφ ( X i β / σ ) / Φ ( X i β / σ )
Die Fehlspezifikation, als die Heckman (1979) den Sample-Selection-Bias interpretiert,
besteht also darin, daß das lineare Regressionsmodell yi = X i β + ui die Variable
σφ ( X i β / σ ) / Φ ( X i β / σ ) nicht berücksichtigt. Eine konsistente KQ-Schätzung ist möglich, wenn man anstelle des linearen Regressionsmodells das Modell
(2.53)
yi = Xi β + σ
φ ( Xiβ /σ )
+ εi
Φ( X i β / σ )
für diejenigen Beobachtungen mit yi > 0 verwendet. Der Störterm ε i = yi − E ( yi y*i > 0)
der
Gleichung
(
(2.53)
(
hat
) (
V (ε i ) = σ 2Σ i = σ 2 1 − X i σβ λ X i σβ − λ X i σβ
die
)
2
Eigenschaften
E (ε i = 0)
und
) . Gleichung (2.53) entspricht also einem
linearen Regressionsmodell mit heteroskedastischen Störgrößen. Das Problem besteht
70
dann nur darin, in einer ersten Stufe standardisierte Parameter
β
σ
zu schätzen um
φ ( X i β / σ ) / Φ ( X i β / σ ) evaluieren zu können. Heckman (1976) hat daher folgendes
zweistufige Verfahren vorgeschlagen: 1. Schätze mit einer ML-Probit-Schätzung die
standardisierten Koeffizienten
β
σ
und bestimme daraus φ ( X i β / σ ) / Φ ( X i β / σ ). 2.
Schätze die Parameter β und σ aus der Gleichung (2.53) mit der KQ-Methode. Die
Kleinstquadratschätzung von Gleichung (2.53) führt zu einer konsistenten, aber nicht
effizienten Schätzung der Parameter β und σ . Insbesondere sind Standardfehler, die
eine Standardsoftware ausweist, verzerrt, da sie weder die Heteroskedastizität in ε i
noch die Tatsache, daß φ ( X i β / σ ) / Φ ( X i β / σ ) auf einer ersten Stufe geschätzt und damit selbst mit Schätzfehlern behaftet ist, berücksichtigen. Der zweistufige HeckmanSchätzer für γ = ( β ′, σ ) ′ ist asymptotisch normalverteilt.
Das Verfahren von Heckman (1976,1979) läßt sich viel allgemeiner anwenden, um die
Selektionsverzerrung im Rahmen eines linearen Modells zu korrigieren. Die SampleSelektion kann beispielsweise von ganz anderen als den Variablen des Modells
φ ( X i β ) / Φ ( X i β ) abhängen. Das Vorgehen bleibt gleich.
2.3.4 Marginale Effekte im Tobit-Modell
Ähnlich wie im Probit-Modell messen die Koeffizienten β die marginalen Effekte der
erklärenden Variablen X i auf die latente endogene Variable yi* , nicht die marginalen
Effekte auf die beobachtete Variable yi (vgl. (2.20)). Im Tobit-Modell lassen sich die
Erwartungswerte der latenten Variablen sowie der bedingten und unbedingten beobachteten Variablen unterscheiden:
(2.54)
E ( yi* ) = X i β
(2.55)
E ( yi | yi* > 0 ) = X iβ + σλ ( X i β σ )
(2.56)
E ( yi ) = Φ ( X i β σ )  X iβ + σλ ( X i β σ ) 
Die dazugehörigen partiellen Ableitungen ergeben die marginalen Effekte im TobitModell:
71
(2.57)
∂ E( yi* )
= βk
∂ xik
(2.58)
∂ E( yi | yi* > 0)
Xβ
2

= β k 1− i λ ( X i β σ ) − λ ( X i β σ ) 
∂ xik
σ


(2.59)
∂ E ( yi | yi > 0 )
∂ Φ ( Xi β σ )
∂ E ( yi )
= Φ ( Xiβ σ )
+ E ( yi | yi < 0 )
∂ xik
∂ xik
∂ xik
∂ E( yi )
= Φ ( X i β σ ) βk
∂ xik
 X iβ
2
1 − σ λ ( X i β σ ) − λ ( X i β σ ) 


φ(X iβ σ ) βk
+ ( X i β + σλ ( X i β σ ) )
σ
σ
βk
= φ ( Xi β σ )
σ
Daraus wird ersichtlich, daß β k weder den marginalen Einfluß der Variablen xik auf die
beobachtbare Variable aller Individuen, noch den marginalen Effekt auf die beobachtete
Variable derjenigen Individuen darstellt, für die sie beobachtet werden kann. β k gibt
lediglich zum Ausdruck, wie sich die latente Variable yi* aufgrund einer marginalen Änderung von xik verändert. Der Ausweis der marginalen Effekte auf die tatsächlich beobachtete Variable ist jedoch für die Interpretation der Schätzergebnisse immer vorzuziehen.
2.3.5 Beispiel: Zuschauerzahlen bei Fußballbundesliga-Spielen
Czarnitzki und Stadtmann (1999) vom ZEW in Mannheim und der WHU in Koblenz haben im Rahmen einer Studie die Bestimmungsgründe der Zuschauerzahlen von FußballBundesligaspielen der Saisons 1996/1997 sowie 1997/1998 untersucht. Sie untersuchen 2 unterschiedliche Modelle, die bereits in Belgien bzw. Schottland für entsprechende Studien verwendet worden sind.
Die latente zu erklärende Variable yi* ist der Zuschauerzuspruch eines Bundesligaspiels (die Daten sind über die Saison gepoolt). Der Zuschauerzuspruch ist jedoch im
Unterschied zu den obigen Ausführungen von oben zensiert durch die maximale Kapazität der Stadien. Das Stadion kann also ausverkauft sein:
72
(2.60)
 y * = X i β + ui
yi =  i
ci
wenn
wenn
yi* ≤ ci
yi* > ci
Die Zensierung ist also rechtsseitig und zudem noch individuell variierend. Diese Erweiterung führt aber zu keinen weiteren Problemen, solange der Zensierungspunkt bekannt ist. Zudem erlauben die Autoren Heteroskedastizität der Form σ i2 = σ 2 ewiα , wobei
wi Teile der erklärenden Variablen X i umfaßt. Die Likelihoodfunktion des TobitModells (2.46) läßt sich einfach anpassen zu:
(2.61)
1
y −X β
c −X β 
φ  i wiαi  + ∏ 1 − Φ  i wiαi 
wiα
 σe
 yi > ci
 σe

yi ≤ ci σ e
LTobit = ∏
Als erklärende Variablen X i dienen:
-
Marktgröße der Heimmannschaft (gemessen als Bevölkerung pro Bundesligaklub in
einer Stadt)
-
Marktgröße der Gastmannschaft (gemessen wie oben, dividiert durch die
Entfernung vom Austragungsort)
-
Tabellenplatz der Heimmannschaft
-
Tabellenplatz der Gastmannschaft
-
Reputation der Heimmannschaft (gemessen als Performanceindex über die
letzten 6 Jahre)
-
Reputation der Gastmannschaft (gemessen wie oben)
-
Unsicherheitsmaß für die Heimmannschaft (Funktion, die den Abstand der zum
Erreichen der Meisterschaft notwendigen Punkte zu den bisher erreichten Punkten mißt)
-
Unsicherheitsmaß für die Gastmannschaft (gemessen wie oben)
-
Spieltag der Saison
-
Maß für das Fan-Potential (gemessen als Anzahl der Fanclubs der Auswärtsmannschaft, invers gewichtet mit der Entfernung zum Austragungsort)
-
Temperatur zur Spielzeit
Folgende Ergebnisse ergeben sich für das Tobit-Modell und die heteroskedastische
Erweiterung:
73
Tabelle 2.8: Zuschauerzahlen bei Fußballbundesligaspiele
Variable
Homoskedastisches
Tobit-Modell
Heteroskedastisches
Tobit-Modell
Marktgröße Heim
9,16***
7,97 ***
Marktgröße Gast
22,54***
17,07 ***
Tabellenplatz Heim
-413,17***
-481,41 ***
Tabellenplatz Gast
-165,94
-162,89
Reputation Heim
766,50***
765,37 ***
Reputation Gast
310,05***
313,00 ***
Unsicherheit Heim
420,60
222,65
Unsicherheit Gast
321,99**
314,77
Spieltag
195,93***
187,53 ***
1339,03***
989,93 ***
299,07***
219,15 ***
Fan-Potential
Temperatur
Konstante
σ
Log-Likelihood
N
13205,47
16201,00 ***
9934,44
9022,72
-4339,12
-4302,01
513
513
LR-Test auf Heterosked.
74,22***
LM-Test auf Heterosked.
82,10***
Die ausgewiesenen Schätzwerte sind die marginalen Effekte. Die wesentlichen Ergebnisse lassen sich anhand des heteroskedastischen Tobit-Modells folgendermaßen interpretieren: Jede Verbesserung des Tabellenplatzes der Heimmannschaft führt im
Durchschnitt zu 481 Zuschauern mehr, d.h. ein Verein kann als Tabellenführer ungefähr
8.200 Zuschauer mehr erwarten denn als Tabellenletzter. Die Reputation sowohl der
Heim- als auch der Gastmannschaft ist sehr bedeutend für den Zuschauerzuspruch. Ein
Team, das im Vorjahr Meister war, kann gegenüber einer Mannschaft, die Tabellenzehnter war, ungefähr 12.000 Zuschauer mehr erwarten. Ebenso spielen Fanclubs eine
bedeutende Rolle. Der Unterschied zwischen dem schlechtesten Potentialmaß und dem
besten betrug ungefähr 14.000 Zuschauer. Natürlich ist, wie zu erwarten, auch das
Wetter gemessen als Temperatur von großer Bedeutung.
74
75
Herunterladen