SAS Statistical Analysis System Eine erste anwendungsorientierte Einführung für Ökonometriker Datum dieser Version: 5. Dezember 2002 Dipl.-Volksw. Marco Caliendo Dipl.-Volksw. Dubravko Radić Dipl.-Volksw. Stephan L. Thomsen Lehrstuhl für Statistik und Ökonometrie (Empirische Wirtschaftsforschung) Johann Wolfgang Goethe-Universität Frankfurt/M. SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Inhaltsverzeichnis 1. Einführung 4 2. Aufbau von SAS 6 1. Datenmanagement in SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2. Einlesen und Formatieren von Daten . . . . . . . . . . . . . . . . . . . . . . . . . 7 3. Bearbeiten von Daten, Erzeugen und Transformieren von Variablen . . . . . . 9 4. Bedingte Ausführung von Befehlen im DATA-Step . . . . . . . . . . . . . . . . . 11 5. Datenausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3. Prozedur SQL 14 1. Abfragebefehl SELECT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2. Abfrage Operationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3. Statistische Funktionen in SQL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4. Where Bedingung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5. Zusammenfügen von Datensätzen . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4. Graphische Aufbereitung 20 5. Deskriptive Auswertungen 21 6. Lineare Regression 23 7. Prozedur PROBIT 25 1. SAS-Besonderheiten - Umkodieren der abhängigen Variable . . . . . . . . . . 27 2. Optionale Ausgestaltung des Schätzverfahrens . . . . . . . . . . . . . . . . . . 27 3. Das Output-Fenster bei der PROBIT-Prozedur . . . . . . . . . . . . . . . . . . . . 28 4. Beispiel: Schätzung der Kaufwahrscheinlichkeit für ein Produkt . . . . . . . . . 29 8. Prozedur MODEL 30 1. Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2. Festlegung der Variablen und der Struktur des Modells . . . . . . . . . . . . . . 31 3. Schätzung des Modells (Fit) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4. Prognose und Simulation mit dem Modell (Solve) . . . . . . . . . . . . . . . . . . 34 2 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 9. Prozedur ARIMA 36 1. Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2. Analyse der Zeitreihe mit Identify . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3. Schätzung des Modells (Fit) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 10. Prozedur AUTOREG 39 1. Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2. Testen auf Autokorrelation mittels Generalized Durbin-Watson Teststatistiken . 41 3. Testen auf Heteroskedastie mittels Portmanteau Q-Teststatistiken . . . . . . . . 41 4. Schätzung des Modells mit autokorrelierten Residuen und GARCH-Effekt . . . 42 11. Prozedur TSCSREG 42 1. Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2. Schätzmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3. Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4. Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 12. Prozedur LIFETEST 49 1. Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2. Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3. Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 13. Prozedur PHREG 53 1. Syntax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2. Output . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3. Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 14. Übungsaufgaben 60 1. Quantitative Methoden der Volkswirtschaftslehre . . . . . . . . . . . . . . . . . 60 2. Grundlagen der Ökonometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 3. Mikroökonometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4. Finanzökonometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 1. Einführung Bei SAS (Statistical Analysis System) handelt es sich um ein 1970 entwickeltes Statistikprogramm, mit dem nahezu alle in empirischen und ökonometrischen Fragestellungen anfallenden Probleme gelöst werden können. Durch die Integration von SQL und der Möglichkeit der Makroisierung von Programmabläufen, ist es darüber hinaus möglich, das Programm individuellen Bedürfnissen anzupassen. Erweiterungen des Basisprogramms, wie z.B. der Enterprise Miner“, sorgen dafür, dass ” auch unternehmensrelevante Fragestellungen (Marketing, Data Warehouse, Data Mining, etc.) erledigt werden können. Dieses Skript dient als Kurzeinführung in das Programm und ist zugleich Grundlage für die vorlesungsbegleitenden Übungen in Quantitative Metho” den der Volkswirtschaftslehre“, Grundlagen der Ökonometrie“, Mikroökonometrie“ und ” ” Finanzökonometrie“. Das Skript ist modular aufgebaut und sollte chronologisch abgear” beitet werden. Jeder Programmpunkt wird anhand von Datensätzen erläutert, die in Kapitel 14. näher beschrieben sind und jedem Interessierten zur Verfügung gestellt werden. Das Skript bezieht sich auf die Programmversion 8.2; leichte Abweichungen zu anderen Versionen lassen sich nicht vermeiden. Als Literaturempfehlungen seien neben der ca. 2000 Seiten umfassenden SAS-Dokumentation folgenden Quellen genannt: • Batz, Wolf-Dieter: Das SAS-Survival-Handbuch - Eine praxisorientierte Einführung, Springer-Verlag, 1995. • Ortseifen, Carina: Der SAS Kurs - Eine leicht verständliche Einführung, Thomson Verlag, Bonn u.a., 1997. • Göttsche, Thomas: Einführung in das SAS-System für den PC, Gustav Fischer-Verlag, Stuttgart, 1990. • Falk, M., Becker, R., Marohn, F.: Angewandte Statistik mit SAS - Eine Einführung, Springer Verlag, Berlin u.a., 1995. • Delwiche, Lora D., Susan, J. Slaughter: The little SAS Book - A primer, SAS Institute Inc., Cary, 1999. Genau wie dieses Skript, können auch dieses Bücher nur sehr kleine Bereiche des SASProgramms darstellen. Für eine ausführliche Darstellung wird auf die SAS-Dokumentation verwiesen. Darüber hinaus gibt es in SAS auch eine ausführliche Hilfefunktion, die in Anspruch genommen werden sollte. SAS kann auf zwei Arten genutzt werden: Zum einen kann die SAS eigene Programmiersprache verwendet werden, um empirische Analysen durchzuführen. Einfachere Statistiken können aber auch mit Hilfe von SAS ASSIST erstellt werden, der eine einfache menügesteuerte Benutzeroberfläche, ähnlich wie in SPSS, bereitstellt. Der geneigte Leser mag sich fragen, warum wir uns dazu entschlossen haben, im folgenden die wichtigsten Elemente der SAS Programmiersprache darzustellen und nicht näher auf den einfacher zu bedienenden SAS ASSIST eingehen. Wir sind davon überzeugt, dass die Notwendigkeit, bei empirischen Analysen eigene Programme schreiben zu müssen eine Reihe von Vorteilen bietet. 4 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Sie trägt zum einen zu einer Klärung der Gedanken bei. Der Anwender wird gezwungen die einzelnen Schritte bei seiner empirischen Analyse genau zu überdenken, bevor er sie implementiert. Ein weiterer Vorteil ist die Nachvollziehbarkeit: Sowohl der Nutzer selbst als auch weitere Personen, die die Programmiersprache kennen, können nachvollziehen, was mit den einzelnen Bestandteilen des Programms bezweckt wurde, um so die Ergebnisse besser interpretieren zu können. Ein weiterer Grund, der für die Erlernung der SAS Programmiersprache spricht, ist die Tatsache, dass kompliziertere Analysen nicht mit mit SAS ASSIST zu bewerkstelligen sind. Zum besseren Verständnis werden SAS-Befehlszeilen nachfolgend in courier dargestellt. gekennzeichnet. Zusätzlich werden alle BeErklärungen zur Syntax sind mit dem Icon fehlszeilen, die sich auf einen Beispieldatensatz beziehen und die ausgeführt werden sollen in einen Kasten gesetzt. Datensätze, auf die in diesem Skript eingegangen wird, ebenso wie Beispielprogramme und weitere Unterlagen, sind auf unserer Homepage erhältlich:http://www.wiwi.uni-frankfurt.de/Professoren/hujer/. Folgen Sie den Links, die auf die einzelnen Vorlesungen bzw. Übungen hinweisen. Unser Dank gilt Paulo Rodrigues, der das Skript in LATEX umgesetzt hat. 5 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 2. Aufbau von SAS Nach dem Starten von SAS erscheinen drei Fenster. Im OUTPUT-Fenster werden die Ergebnisse der aufgerufenen Prozeduren angezeigt. Im LOG-Fenster zeigt SAS Informationen über die Abarbeitung der einzelnen Schritte des SAS-Programms (=SAS-Job) an. Neben der Zeit, die ein Job benötigt hat, wird hier auch angezeigt, ob bei der Abarbeitung Fehler (und wenn ja, welche) aufgetreten sind. An dieser Stelle soll auf die SAS-Farbenlehre“ eingegangen werden: Blau, so wird jeder ” SAS Nutzer bald feststellen, ist dabei die angenehmste und beruhigendste Farbe, zeigt sie doch an, dass das Programm ohne weitere Probleme abgearbeitet wurde. Mit grün werden Warnungen angezeigt, die jedoch nicht so gravierend waren, als das sie zu einem Abbruch des Programms geführt hätten. Mit rot hingegen werden schwerwiegende Fehler ausgegeben, die schließlich zu einem Abbruch des Programms geführt haben. In den PROGRAM-EDITOR (PGE) werden die Programmzeilen geschrieben und abgespeichert. Zum Abspeichern von Programmzeilen ist es wichtig, dass das PGE-Fenster aktiviert ist, da sonst evtl. der Inhalt eines anderen Fenster abgespeichert wird und die Programmzeilen verloren sind. Will man eine Programmzeilen laufen lassen, markiert man die entsprechenden Stellen und drückt F3 oder die RUN-Taste. Alle Befehle in der SAS-Kommandosprache sind grundsätzlich mit einem Semikolon abzuschließen. Will man die Befehlszeilen kommentieren (was sehr zu empfehlen ist), muss man mit der Zeichenkombination /* beginnen und der Zeichenkombination */ enden. Beispiel: /* Dies ist ein Kommentar */ 1. Datenmanagement in SAS Daten werden von SAS, ähnlich wie in EXCEL, in Tabellen abgelegt. In den Zeilen stehen die Beobachtungen (z.B. für einzelne Jahre) während die Spalten die Variablen (z.B. Bruttosozialprodukt, Konsum) angeben. In SAS werden diese Tabellen DATASETS oder synonym TABLES genannt. Beispiel: sasdat.uebung1 /* Die Library sasdat enthält einen SAS dataset mit dem Namen uebung1 */ Lässt man den Librarynamen weg, wird ein temporäres, voreingestelltes Arbeitsverzeichnis (WORK) angesprochen. Datasets, die in diesem Verzeichnis gespeichert werden, sind nach Beendigung der Sitzung verloren! Die Zuweisung einer LIBRARY zu einem existierenden Pfad auf dem System erfolgt durch die folgende Syntax: 6 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER LIBNAME sasdat "C:\SASKURS"; /* Die Library sasdat wird dem Verzeichnis C:\SASKURS zugewiesen */ Um zu überprüfen, ob die Zuweisung der Library erfolgreich war, wählen Sie bitte aus dem Icon-Menü den Punkt LIBRARIES. Hier sollte nun im linken Fenster die Library sasdat und der spezifizierte Systempfad zu sehen sein. 2. Einlesen und Formatieren von Daten Das Einlesen von Daten erfolgt mit einem DATA-step. Dieser DATA-step erzeugt einen neuen Datensatz an der definierten Stelle, gibt an, wie viele Variablen eingelesen werden sollen, ob die Daten bearbeitet werden sollen und auch ob Daten behalten oder gestrichen werden sollen. Der DATA-Step ist als eine Schleife“ durch den einzulesenden Datensatz zu verstehen. Die ” Input-Daten werden zeilenweise eingelesen. Ein RUN-Befehl schließt die Schleife ab. Die Syntax sieht folgendermaßen aus: DATA library.dataset; In der Library sasdat wird ein SAS dataset erzeugt. Der Name kann frei gewählt werden, darf aber maximal 8 Zeichen lang sein. INFILE "rohdatenfile"; INFILE bezeichnet die Datei, in der die Rohdaten im ASCII-Format gespeichert sind. Der Ausdruck rohdatenfile muss die komplette Pfadangabe enthalten. FORMAT var1 Formatangabe; Die FORMAT-Anweisung weist den eingelesenen Variablen eine bestimmtes Format zu. Numerische Variablen werden durch eine Variablen-Länge und die Nachkommastellen definiert. Die Zahl 100.334 würde z. B. mit der Formatangabe 7.3 korrekt angezeigt werden. Der Dezimalpunkt ist bei der Länge mit einzurechnen. Character (=Zeichen)-Variablen, werden durch das Dollar-Zeichen $ und eine Längen-Angabe formatiert. Die Zeichenkette NAME kann mit der Formatangabe $4 korrekt formatiert ausgegeben werden. Der FORMAT-Befehl muss dabei immer vor dem INPUT-Befehl stehen, damit die Formate auch richtig zugeordnet werden. INPUT var1 var2...; 7 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Mit INPUT werden die Variablen aufgelistet, die in der ASCII-Datei rohdatenfile enthalten sind. Wichtig ist, dass die Reihenfolge der Variablennamen im INPUTBefehl der Reihenfolge der Variablen im rohdatenfile entspricht. LABEL var1=’Beschreibung der Variable’; Mit LABEL kann optional eine bis zu vierzig Zeichen lange Variablenbeschreibung vergeben werden. RUN; Der RUN-Befehl schließt den DATA-Step ab. Nachdem wir nun die Syntax für das Einlesen und Formatieren von Daten kennen gelernt haben, wenden wir dieses Wissen auf einen Beispieldatensatz an. Sie benötigen dazu den ASCII-Datensatz uebung1.prn. Übungsaufgabe 1: Einlesen und Formatieren eines ASCII-Datensatzes 1. Erstellen Sie auf Ihrem Rechner ein SAS-Arbeitsverzeichnis, z.B. C:\SASKURS. 2. Kopieren Sie die Datei uebung1.prn in dieses Verzeichnis. 3. Vergeben Sie einen Library-Namen und weisen die Library dem Arbeitsverzeichnis zu. LIBNAME sasdat "C:\SASKURS"; 4. Lesen Sie den Datensatz uebung1.prn ein, formatieren und benennen Sie die Variablen. DATA sasdat.uebung1; INFILE "C:\SASKURS\uebung1.prn"; FORMAT JAHRE 4.0 ECP EIP K X XGNPDM YDH YL YNNI 8.3 LE LSE POP 7.4 LHT 5.0 PXGNP PECP 6.2 RL 5.3 TIME 3.0 UCUM YLA 6.3; INPUT JAHRE ECP EIP K LE LHT LSE PECP POP PXGNP RL TIME UCUM X XGNPDM YDH YL YLA YNNI; LABEL JAHRE ECP = ’Jahre’ = ’Privater Verbrauch (Mrd. DM 1985)’ 8 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER EIP K LE LHT LSE PECP POP PXGNP RL TIME UCUM X XGNPDM YDH YL YLA YNNI = = = = = = = = = = = = = = = = = ’Anlageinv. a. Untern. (Mrd. DM 1985)’ ’Bruttoanlageverm. insg. (Mrd. DM 1985)’ ’Beschäftige Arbeitnehmer insg. (Mio)’ ’Arbeitsvolumen insgesamt (Mio Std.)’ ’Selbständige und Mithelfende (Mio)’ ’Impl. Preisindex. priv. Verb.(1985=100)’ ’Wohnbevölkerung (Mio.)’ ’Impliziter Preisindex BSP (1985 = 100)’ ’Langfristiger Zins’ ’Zeittrend’ ’Kapazitätsauslastung insgesamt’ ’Bruttowertschöpfung (Mrd. DM 1985)’ ’Bruttosozialprodukt (Mrd. DM)’ ’Verfügb. Eink. der priv. HH. (Mrd. DM)’ ’Eink. aus unselbst. Arbeit insg.(Mrd.DM)’ ’Durchsch. Eink. je Beschäftigter(Tsd.DM)’ ’Nettosozialp. zu Faktork. (Mrd. DM)’; RUN; 3. Bearbeiten von Daten, Erzeugen und Transformieren von Variablen Während wir im letzten Abschnitt einen ASCII-Datensatz in einen SAS-Datensatz umgewandelt haben, gehen wir nun davon aus, dass bereits ein SAS-Datensatz vorliegt, den wir bearbeiten wollen. Dies ist z.B. dann der Fall, wenn wir Variablen aus dem Datensatz entfernen oder neue Variablen generieren wollen. Zusätzlich zu dem DATA-Step lernen wir nun den SET-Befehl kennen. Die Syntax sieht folgendermaßen aus: DATA library.dataset; Der SAS-dataset library.dataset soll erzeugt werden, bzw. ein bereits vorhandener SAS-dataset mit diesem Namen soll editiert werden. SET library.dataset Falls schon ein SAS-dataset existiert, kann er mit dem Befehl SET direkt angesprochen werden. SET bezeichnet den SAS-dataset, aus dem die zu bearbeitenden Daten entnommen werden sollen. var1= ...; 9 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Für die Generierung von Variablen ist eine Reihe von mathematischen/ statistischen Funktionen vorhanden. Zu den validen Operatoren gehören z.B.: +, - , / , LN(var1), EXP(var1), LAG(var1), . . . ; Die Funktion LAG erzeugt aus var1 eine um eine Beobachtung verzögerte Variable. DROP var1 var2 ...; Mit dem Befehl DROP können einzelne Variablen aus dem Datensatz entfernt werden. KEEP var1 var2 ...; Mit dem Befehl KEEP werden nur die angegebenen Variablen behalten. Wir verwenden dieses Befehle nun, um aus dem bereits erstellten Datensatz uebung1 die Kapitalintensität zu berechnen und diese in einen neuen Datensatz mit dem Namen uebung2 abzuspeichern. Übungsaufgabe 2: Berechnung des Indikators Kapitalintensität in einem neuen Datensatz 1. Erstellen Sie einen neuen Datensatz mit dem Namen uebung2 Benutzen Sie als Datengrundlage den Datensatz uebung1. 2. Berechnen und benennen Sie die Kapitalintensität. DATA sasdat.uebung2; SET sasdat.uebung1; ki = k/lht; LABEL ki = ’Kapitalintensität’; RUN; 3. Streichen Sie aus dem neuen Datensatz uebung2 alle Variablen bis auf die Kapitalintensität. DATA sasdat.uebung2; SET sasdat.uebung2; KEEP ki; RUN; 10 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 4. Bedingte Ausführung von Befehlen im DATA-Step In einem DATA-Step lassen sich auch bedingte Transformation durchführen. Dies kann z.B. sinnvoll sein, wenn man Beobachtungen mit bestimmten Eigenschaften selektieren will. Die Syntax sieht folgendermaßen aus: IF Bedingung THEN DO; Befehl_1; END; Falls die Bedingung erfüllt ist, wird ein bestimmter Befehl 1 ausgeführt. Der Befehl 1 wird mit END abgeschlossen. ELSE DO; Befehl_2; END; Falls die Bedingung nicht erfüllt ist, wird stattdessen der Befehl 2 ausgeführt. WHERE Bedingung; Mit dem WHERE-Befehl können Beobachtungen mit bestimmten Eigenschaften selektiert werden. Die Bedingung kann sich z.B. auf einzelne Beobachtungen beziehen, die mit der Systemvariablen N angesprochen werden können. N ist 1 für die erste Beobachtung, 2 für die zweite, etc. Wir nutzen diese Syntax nun, um eine Dummy-Variable zu erzeugen und den Datensatz anhand dieser Dummy-Variable zu splitten. Übungsaufgabe 3: Erzeugung einer Dummy-Variablen und Splitten des Datensatzes 1. Erzeugen Sie im SAS-dataset sasubd1 für die ersten 10 Beobachtungen eine DummyVariable, die den Wert Eins annimmt. DATA sasdat.uebung1; SET sasdat.uebung1; IF _N_<=10 THEN DO; dummy = 1; END; ELSE DO; dummy = 0; END; LABEL dummy = ’Beobachtungen 1-10?’; RUN; 11 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 2. Erzeugen Sie einen neuen Datensatz uebung3 in dem nur die ersten 10 Beobachtungen enthalten sind. DATA sasdat.uebung3; SET sasdat.uebung1; WHERE dummy=1; RUN; Spätestens nachdem man nun zum fünften Mal den dataset sasdat.uebung1 angesprochen und niedergeschrieben hat, lernt man die Benutzung von Makrovariablen schätzen. Mit Makrovariablen kann SAS effizienter genutzt werden. Makrovariablen werden mit dieser Anweisung erzeugt: %LET makrovariable = Name der Makrovariablen; &makrovariable; Mit dem LET-Befehl wird eine Makrovariable erzeugt, die dann im Programmcode mit &makrovariable angesprochen werden kann. Um in unserer Analyse nicht ständig den Datensatz sasdat.uebung1 mit Library-Name und Dataset-Name ansprechen zu müssen, könnten wir die folgende Makrovariable erzeugen: Übungsaufgabe 4: Erzeugung einer Makrovariablen 1. Erzeugen Sie für sasdat.uebung1 eine Makrovariable mit dem Namen Data1. Erzeugen Sie für die ersten 5 Beobachtungen eine Dummy-Variable, die den Wert Zwei annimmt. \%LET Data1=sasdat.uebung1; DATA &Data1; SET &Data1; IF _N_<=5 THEN DO; dummy2 = 2; END; ELSE DO; dummy2 = 0; END; LABEL dummy2 = ’Beobachtungen 1-5?’; RUN; 12 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 5. Datenausgabe Nachdem wir zu Beginn dieses Abschnitts aus einem ASCII-Datensatz einen SAS-Datensatz erstellt haben, wollen wir nun einen SAS-Datensatz als ASCII-Datensatz zur Weiterverarbeitung bereitstellen. Der Vorteil der ASCII-Schreibweise ist, dass sie von nahezu allen anderen Statistik-Programmen erkannt wird und verarbeitet werden kann. Der Nutzen dieses Befehls ist allerdings in Zeiten von DBMS-Copy begrenzt. Die Ausgabe zur Weiterverarbeitung erfolgt wiederum in einem DATA-step und ist analog zum Einlesen von ASCII-Daten. Die Syntax: DATA _NULL_; Es soll kein SAS-dataset erzeugt werden. Dies wird mit dem dataset-Namen NULL erreicht. FILE "rohdatenfile"; FILE bezeichnet die Datei, in der die Rohdaten im ASCII-Format gespeichert sind. rohdatenfile muss die komplette Pfadangabe enthalten. PUT var1 var2 ...; Die Variablen var1 var2 . . . werden in den ASCII-Datensatz geschrieben. Die Daten können dann etwa mit EXCEL wieder eingelesen werden. Wir üben dies mit dem oben erzeugten dataset uebung3. Übungsaufgabe 5: Ausgabe eines Datensatzes im ASCII-Format 1. Schreiben Sie den oben erzeugten Datensatz, in dem nur die ersten 10 Beobachtungen enthalten sind (uebung3), im ASCII-Format raus. Exportieren Sie die Variablen ECP, EIP und KI. DATA _NULL_; SET sasdat.uebung3; FILE "c:\SASKURS\test1.dat"; PUT ecp eip ki; RUN; 13 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 3. Prozedur SQL SQL - Structured Query Language - ist eine international genormte Datenbanksprache. Sie dient sowohl der Erzeugung als auch der Abfrage von relationalen Datenbanken. In nahezu jedem Datenverwaltungsprogramm ist eine solche SQL Umgebung implementiert. Obwohl international nach dem sog. ANSI Standard genormt, gibt es dennoch unterschiedliche Features und Dialekte“ in unterschiedlichen Softwarepaketen. Im folgenden ” soll gezeigt werden, wie mit der SQL Prozedur in SAS Datenbankabfragen vorgenommen und verschiedene relationale Datensätze miteinander verknüpft werden können. 1. Abfragebefehl SELECT Mit Hilfe des SELECT Befehls können komplexe Abfragen vorgenommen werden. Im folgenden sollen nur die wichtigsten Bestandteile des SELECT Befehl innerhalb von SQL dargestellt werden1 : PROC SQL; Ruft die SQL Umgebung in SAS auf. SELECT var1 var2 ...; Enthält die Liste der ausgewählten Spalten. FROM dataset; Datensatz, auf den zugegriffen werden soll. WHERE bedingung; Bedingung, die erfüllt sein muss für die Abfrage. QUIT; Da die SQL eine sogenannte interaktive Prozedur ist, muss sie nicht mit RUN gestartet werden. Wenn im Code im Anschluss an die Prozedur keine weiteren Aufrufe (Data-Steps oder andere Prozeduren folgen), muss der Nutzer sie durch den Befehl QUIT beenden. Im folgenden sollen mit Hilfe einiger Beispiele die Einsatzmöglichkeiten des SELECT Befehls aufgezeigt werden. 1 Für eine umfassende Einführung in SQL, vgl. Schicker, E. (1999), Datenbanken und SQL, Stuttgart u.a. Aus diesem Buch ist auch der Beispieldatensatz entnommen 14 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 2. Abfrage Operationen Die nachfolgenden Beispiele beziehen sich auf den folgenden Datensatz schick.bier: Nr Sorte Hersteller Typ Anzahl 1 Hell Lammsbräu Träger 12 3 Roggen Thurn&Taxis Träger 10 4 Pils Löwenbräu Träger 22 8 Export Löwenbräu Fass 6 11 Weißbier Paulaner Träger 7 16 Hell Spaten Sixpack 5 20 Hell Spaten Träger 12 23 Hell EKU Fass 4 24 Starkbier Paulaner Träger 4 26 Dunkel Kneitlinger Träger 8 28 Märzen Hofbräu Träger 3 33 Weizen light Lamms Träger 6 36 Pils alkoholfrei Löwenbräu Sixpack 5 39 Weißbier Erdinger Träger 9 47 Pils Bischofshof Fass 3 Übungsaufgabe 6: SQL Abfragen mit Hilfe des SELECT Befehls 1. Mit dem folgenden Befehl werden aus dem Datensatz schick.bier diejenigen Sorten (sorte) und derjenige Hersteller (herstell) in dem Output Fenster ausgegeben, auf die der Typ Fass“ zutrifft: ” PROC SQL; SELECT sorte, herstell FROM schick.bier WHERE typ = "Fass"; QUIT; Die in WHERE spezifizierten Bedingungen können dabei auch mit den logischen Operatoren AND, OR, NOT, IN, BETWEEN etc. verknüpft werden. Übungsaufgabe 7: SQL Abfragen mit Hilfe des SELECT Befehls 15 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 1. In dem folgenden beiden Beispielen werden zunächst Hersteller und Anzahl ausgegeben, bei denen die beiden Bedingungen Pils“ und Träger“ zutreffen, während ” ” bei dem nächsten Beispiel Sorte, Hersteller und Anzahl ausgegeben werden, für die die Anzahl kleiner als vier ist: PROC SQL; SELECT herstell, anzahl FROM schick.bier WHERE sorte = "Pils" and typ = "Träger"; QUIT; PROC SQL; SELECT sorte, herstell, anzahl FROM schick.bier WHERE anzahl < 4; QUIT; 2. Mit IN und BETWEEN werden diejenigen Sorten ausgegeben, bei denen die Anzahl zwischen drei und vier beträgt bzw. drei, vier, fünf oder sechs: PROC SQL; SELECT * FROM schick.bier WHERE anzahl between 3 and 4; QUIT; PROC SQL; SELECT * FROM schick.bier WHERE anzahl IN(3,4,5,6); QUIT; 3. Darüberhinaus besteht auch die Möglichkeit, nach Stringeinträgen in Zeilen zu suchen, die mit einem bestimmten vorgegebenen String übereinstimmen. Mit dem nachfolgenden Befehl z.B. werden für alle Spalten (*) diejenigen Zeilen ausgegeben, für die die Bedingung: name enthält heinz“ erfüllt ist. ” PROC SQL; SELECT * FROM schick.bier WHERE name CONTAINS "heinz"; QUIT; Mit den bisherigen Befehlen wurde das Ergebnis der Abfrage lediglich in das Outputfenster von SAS geschrieben. Möchte man die Ergebnisse in einem neuen Datensatz speichern, um später mit ihnen weiterarbeiten zu können, muss man die obigen Anweisungen noch um den Befehl CREATE TABLE ergänzen. 16 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Übungsaufgabe 8: Erzeugen eines neuen Datensatzes in SQL 1. Mit dem nachfolgenden Befehl etwa wird das Ergebnis der select Abfrage in den neuen Datensatz library.out geschrieben. PROC SQL; CREATE TABLE AS SELECT * FROM schick.bier; WHERE name CONTAINS "heinz"; QUIT; 3. Statistische Funktionen in SQL Bei den Select Abfragen besteht die Möglichkeit, vordefinierte arithmetische und statistische Funktionen zu benutzen, um so neue Variablen zu definieren. Übungsaufgabe 9: Artithmetische Funktionen in SQL 1. Mit dem folgenden Befehl etwa wird auf die Datei schick.bier zugegriffen und die folgenden Spalten ausgegeben: name und dosen, für diejenigen Zeilen, für die die Bedingung Typ = Sixpack“ erfüllt ist. Aus der Spalte anzahl, in der die Anzahl an Six” packs enthalten ist, entsteht durch die Multiplikation mit sechs die Anzahl an Dosen; diese Variable wird unter dem Namen dosen abgespeichert: PROC SQL; SELECT herstell, 6*anzahl AS dosen FROM schick.bier; WHERE typ = "sixpack"; RUN; In SQL sind darüberhinaus eine Reihe von statistischen Funktionen implementiert: Die Ermittlung des Durchschnittswertes über alle Zeilen erfolgt mit AVG, die Anzahl an Zeilen mit COUNT, der Maximal- bzw. Minimalwert mit MAX bzw. MIN und der Summenwert über alle Zeilen eines Datenfiles mit SUM. Übungsaufgabe 10: Statistische Funktionen in SQL 1. Mit dem folgenden Befehl etwa wird die durchschnittliche Anzahl an verschiedenen Biersorten unter dem Namen avg, die maximale Anzahl unter max und die Anzahl an verschiedenen Biersorten im Lager unter anzahl ausgegeben: PROC SQL; SELECT AVG(anzahl) AS avg, MAX(anzahl) AS max, COUNT(anzahl) AS anzahl FROM schick.bier; QUIT; 17 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 4. Where Bedingung Mit der WHERE Bedingung kann die Abfrage auf bestimmte Zeilen des Datensatzes beschränkt werden, die die where-Bedingung erfüllen. Übungsaufgabe 11: Bedingte Abfragen mit dem WHERE Befehl in SQL 1. Mit dem folgenden Befehl wird aus der Datei schick.bier die niedrigste Anzahl ermittelt, die 5 überschreitet: PROC SQL; SELECT MIN(anzahl); FROM schick.bier; WHERE anzahl > 5; QUIT; 2. Nachfolgend eine Abfrage nach der maximalen Anzahl unter der Gruppe der hellen Biere (man beachte, dass Stringvariablen, hier also hell, in Klammern gesetzt werden müssen): PROC SQL; SELECT MAX(anzahl) FROM schick.bier; WHERE sorte = "hell"; QUIT; 5. Zusammenfügen von Datensätzen Im folgenden wollen wir zeigen, wie man mit SQL verschiedenen separate Datensätze zu einem neuen Datensatz zusammenfügen kann. Die wichtigste Unterscheidung ist dabei die zwischen einem sog. INNER und OUTER JOIN. Der Unterschied zwischen diesen beiden Verknüpfungen (joins) soll mit dem folgenden Beispiel verdeutlicht werden. Gegeben seien zwei Datensätze. Der erste library.tab1 enthalte die beiden Variablen Id und V1, der zweite library.tab2 die beiden Variablen Id und V2. Diese beiden Datensätze sollen nun über die in beiden Datensätzen enthaltene Variable Id verknüpft werden. Bei einem INNER JOIN werden nur diejenigen Individuen in den zu erzeugenden Datensatz library.neu geschrieben, die sowohl in dem ersten als auch dem zweiten Datensatz enthalten sind. Der entsprechende SAS Befehl würde wie folgt aussehen: PROC SQL; CREATE TABLE library.neu AS SELECT a.Id, a.V1, b.V2 FROM library.tab1 a INNER JOIN library.tab2 b ON a.id = b.id; QUIT; 18 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Die neu zu erzeugende Datei enthält aus der ersten Datei die beiden Variablen Id und V1 und aus dem zweiten Datensatz die Variable V2. Den auszuwählenden Variablen in der dritten Zeile werden dabei noch sog. Aliase, in unserem Beispiel die beiden Buchstaben a und b, vorangestellt. In der vierten Zeile, in der spezifiziert wird, auf welche Datensätze zugegriffen werden soll, muß dabei definiert werden, welche Datei zu welchem Alias gehört. Das Ergebnis dieser Verknüpfung würde wie folgt aussehen: ID V1 1 10 2 3 4 5 20 + ID V2 1 100 2 200 = 5 500 6 600 30 40 ID V1 V2 1 10 100 2 20 200 5 50 500 50 Ein OUTER JOIN wird durch folgenden Befehl ausgeführt: PROC SQL; CREATE TABLE library.neu AS SELECT a.id, a.v1, b.v2 FROM library.tab1 a FULL JOIN library.tab2 b ON a.id = b.id; QUIT; Folgendes Ergebnis wird erzeugt: ID V1 1 10 2 20 3 30 4 40 5 50 + ID V1 V2 ID V2 1 10 100 1 100 2 20 200 2 200 = 3 30 – 5 500 4 40 – 6 600 5 50 500 6 – 600 19 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Man erkennt, dass die Ergebnisdatei nun alle Individuen enthält, die in einer der beiden Dateien auftauchen. Analog arbeitet der LEFT JOIN. Bei einem left join sind in der Ergebnisdatei alle Individuen enthalten, die in der ersten Datei auftauchen und die entprechenden Individuen der zweiten Datei. 4. Graphische Aufbereitung Im folgenden soll mit der Prozedur GPLOT eine Möglichkeit der graphischen Aufbereitung von Daten, insbesondere Zeitreihen gegeben werden. Die vereinfachte allgemeine Syntax sieht dabei wie folgt aus: SYMBOL1 V = dot I = spline h = 0.5 Für jede Zeitreihe, die geplottet werden soll, können nach dem SYMBOL Statement allgemeine Optionen festgelegt werden. SYMBOL1 legt z.B. für die erste geplottete Zeitreihe fest, dass die einzelnen Beobachtungen mit Punkten gekennzeichnet werden sollen. Alternativ könnte hier auch STAR angegeben werden. I = spline verbindet die einzelnen Punkte mit einer Spline-Funktion. Mit h kann die Dicke der Linien und Punkte geregelt werden. PROC GPLOT DATA = library.dataset; Nach dem DATA Statement wird der Datensatz spezifiziert, der die Variablen enthält, die geplottet werden sollen. PLOT var_y * var_x; Nach dem PLOT Statement wird mit var y diejenige Variable spezifiziert, die auf der Y-Achse und mit var x diejenige, die auf der X-Achse abgetragen werden soll. PLOT (var_y1 var_y2) * var_x / OVERLAY LEGEND; Sollen zwei Variablen, z.B. var y1 und var y2, in einer Graphik gegenüber einer dritten Variablen var x abgetragen werden, so muß zusätzlich noch die Option OVERLAY spezifiziert werden. LEGEND fordert eine erklärende Legende der einzelnen Variablen an. RUN; QUIT; 20 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Übungsaufgabe 12: Graphische Aufbereitung 1. Plotten Sie aus dem Datensatz uebung1 die Entwicklung der Variablen ECP im Zeitablauf. PROC GPLOT DATA=sasdat.uebung1; PLOT ecp * jahre; RUN; QUIT; 2. Bereiten Sie die zeitliche Entwicklung der Variablen ECP und XGNPDM in einer Graphik auf, verbinden Sie die einzelnen Punkte miteinander und geben Sie auch eine Legende an. SYMBOL1 I = spline; PROC GPLOT DATA=sasdat.uebung1; PLOT (ecp xgnpdm) * jahre / OVERLAY LEGEND; RUN; QUIT; 5. Deskriptive Auswertungen Wir wenden uns nun einem wichtigen Bereich der statistischen Analyse, der Deskription des vorliegenden Datenmaterials durch die Ermittlung von Kennwerten, zu. Deskriptive Auswertungen werden in SAS mit Prozeduren (procedures) durchgeführt. Der PROC-step beginnt mit der Anweisung PROC procedurename und endet mit dem RUN-Befehl.Die Auswahl des geeigneten Verfahrens und die dieses Verfahren umsetzende SAS-Prozedur hängt u.a. vom Mess- oder Skalenniveau der betrachteten Variablen ab. Bei kategoriellen (oder nominalen) Variablen (z.B. Geschlecht oder Wohnort), möchte man Häufigkeiten berechnen, während bei stetigen, intervallskalierten Variablen eher der Mittelwert, der Median und entsprechende Streuungsmaße gefragt sind. Aus der Fülle von Statistikprozeduren, die das SAS-System bietet, können nur einige wenige Prozeduren vorgestellt werden. Mit der Prozedur PROC MEANS oder PROC UNIVARIATE werden Kennwerte berechnet, Konfidenzintervalle für den Mittelwert bestimmt, Tests von Mittelwerten gegen einen festen Wert und der Test auf Normalverteilung durchgeführt. Darüber hinaus können damit grafische Darstellungen der empirischen Verteilungen einer Stichprobe erzeugt werden. Die Prozedur PROC FREQ dient zur Tabulierung von Häufigkeiten und Kreuztabulierungen, während die Prozedur PROC CORR Zusammenhangsmaße zwischen Variablen berechnet. Die Syntax: 21 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER PROC MEANS DATA=library.dataset NOPRINT; CLASS var1; VAR var1 var2...; OUTPUT OUT=library.outputname; In der ersten Zeile wir die MEANS-Prozedur aufgerufen und bestimmt, auf welchen SAS-dataset sich die Auswertung bezieht. Verwendet man nur die DATA-Option werden die Standardkennwerte aller numerischen Variablen im OUTPUT-Fenster aufgelistet. Mit VAR kann man die Auswahl auf einige Variablen beschränken. Mit der CLASS-Anweisung werden die Kennwerte getrennt für die Ausprägungen der CLASS-Variablen berechnet. Werden die Kennwerte für weitere Berechnungen benötigt, kann man sie mit der Anweisung OUTPUT in einen neuen SAS-dataset umleiten. Will man die Ergebnisse ausschließlich in einen dataset (und nicht in das OUTPUT-Fenster) schreiben, ergänzt man die erste Programmzeile um den Befehl NOPRINT. PROC MEANS DATA=library.dataset [Weitere Optionen]; [NMISS RANGE VAR CLM ALPHA=0.01 T PRT] Einige weitere interessante Optionen, die dem DATA-Statement (ohne eckige Klammern) folgen können, seien hier erwähnt: NMISS liefert die Anzahl der fehlenden Werte, Range informiert über die Spannweite und VAR liefert die Varianz. Um das 95%-Konfidenzintervall für den Erwartungswert zu berechnen wird als Schlüsselwort CLM angegeben. Mit der ALPHA-Option lassen sich auch andere Konfidenzintervalle berechnen. Mit der Option T wird die Teststatistik angefordert und mit PRT der dazugehörige p-Wert. PROC UNIVARIATE DATA=library.dataset; VAR var1...; Während die MEANS-Prozedur Konfidenzintervalle und Hypothesentests berechnet, die nur für normalverteilte Variablen sinnvoll interpretiert werden können, erhält man mit der UNIVARIATE-Prozedur zusätzliche Kennwerte, die auch für nichtnormalverteilte und quantitative Variablen von Bedeutung sind (Median, Modalwert, Quartile, Quantile, etc...). PROC FREQ DATA=library.dataset; TABLES var1 var2 ...; Mit der FREQ-Prozedur können die empirischen Häufigkeiten für die mit TABLES spezifizierten Variablen berechnet werden. Man erhält die absoluten, relativen und kumulierten Häufigkeiten. PROC CORR DATA=library.datasetname [SPEARMAN]; VAR var1 var2 var3...; 22 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Mit der CORR-Prozedur können verschiedene Zusammenhangsmaße berechnet und Korrelationen zwischen Variablen genauer untersucht werden. Standardmäßig (d.h. ohne weitere Angaben) wird der Pearsonsche’ Korrelationskoeffizient berechnet. Darüber hinaus kann aber auch der Korrelationskoeffizient nach Spearman mit der Option SPEARMAN (ohne Klammern) berechnet werden. Übungsaufgabe 13: Deskriptive Auswertungen 1. Berechnen Sie aus dem Datensatz uebung1 deskriptive Statistiken für die Variablen ECP, EIP und XGNPDM. Unterscheiden Sie dabei die ersten 10 Beobachtungen von dem Rest der Beobachtungen. Schreiben Sie die Ergebnisse in einen neuen dataset mit dem Namen descrip1. PROC MEANS DATA=sasdat.uebung1; CLASS dummy; VAR ECP EIP XGNPDM; OUTPUT OUT=sasdat.DESCRIP1; RUN; 2. Untersuchen Sie den Zusammenhang zwischen den Variablen ECP (Privater Verbrauch) und YLA (Durchschn. Einkommen je Beschäftigtem). PROC CORR DATA=sasdat.uebung 1; VAR ECP YLA; RUN; 6. Lineare Regression Lineare Regressionen werden in SAS mit der Prozedur PROC REG durchgeführt. Die Syntax hierzu sieht folgendermaßen aus: PROC REG DATA= library.datasetname; label:MODEL var1 = var2 var3 ....; Es wird eine lineare Regression mit der abhängigen Variablen var1 und den exogenen Variablen var2,var3,.... durchgeführt. Das Modell kann optional mit einem Namen versehen werden (label). MODEL var1 = var2 var3... /NOINT DW; 23 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Standardmäßig wird eine Regressionskonstante berücksichtigt, die mit der Option NOINT des MODEL-Befehls unterdrückt werden kann. Außerdem können zusätzliche Teststatistiken, wie z.B. die Durbin-Watson-Teststatistik d mit der Option DW, ebenfalls im MODEL-Befehl angefordert werden. TEST var2=0, var3=var4; Möchte man bestimmte Hypothesen über die Parameter simultan überprüfen, also einen F -Test durchführen, so lässt sich dies mit dem Befehl TEST erreichen. Die Hypothese, dass der Parameter von var2 (var3) nicht signifikant von 0 (dem Parameter von var4) verschieden ist, wird hier simultan mit einem F -Test geprüft. RESTRICT var2=2*var3; Man kann auch bestimmte Parameter mit dem Befehl RESTRICT von vorneherein restringieren. Der Parameter von var2 wird auf das Zweifache des Parameters von var3 restringiert. OUTPUT OUT=library.dataset R=resid P=predic; Mit dem Befehl OUTPUT kann man Schätzergebnisse für die weitere Verarbeitung herausschreiben. Mit dem Keyword OUT wird der neue SAS dataset bezeichnet, in dem die Regressionsergebnisse abgespeichert werden sollen. Verfügbar sind z.B. die geschätzten Residuen (R) und die Schätzwerte für die abhängige Variable (P). PLOT R.*OBS.; Mit dem Befehl PLOT können außerdem Plots für bestimmte Schätzergebnisse angefordert werden. Z.B. erzeugt der obige Befehl zusätzlich zu den Schätzergebnissen einen PLOT der geschätzten Residuen über die Beobachtungen. Um diese neue Prozedur kennen zu lernen, schätzen wir mit dem Datensatz uebung1 eine keynesianische Konsumfunktion, bei der der private Verbrauch vom verfügbaren Realeinkommen abhängt. Übungsaufgabe 14: Keynesianische Konsumfunktion 1. Berechnen Sie zunächst aus dem Datensatz uebung1 das verfügbare Realeinkommen. 24 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER DATA sasdat.uebung1; SET sasdat.uebung1; YDHR = (ydh/pecp)*100; LABEL YDHR = ’reales verfügbares Einkommen’; RUN; 2. Schätzen Sie nun die Konsumfunktion, benennen Sie das Modell und berechnen die DW-Teststatistik. Schreiben Sie die Ergebnisse, inklusive der R- und P-Werte in einen neuen Datensatz uebung4 und veranschaulichen Sie den Fit der Residuen graphisch. PROC REG DATA = sasdat.uebung1; Keynes:MODEL ecp = ydhr / DW; OUTPUT OUT = sasdat.uebung4 R=Resid P=Predic; PLOT R.*OBS.; RUN; 7. Prozedur PROBIT Für die Schätzung von Logit- und Probit-Modellen stehen in SAS zwei Prozeduren zur Verfügung. Mit Hilfe der PROBIT-Prozedur können dichotome Probit- und Logit-Modelle modelliert und deren Parameter geschätzt werden, während die LOGISTIC-Prozedur zusätzlich polytome abhängige Variable berücksichtigt. Wir geben zunächst eine kurze Einführung in die wichtigsten Befehle der PROBIT-Prozedur, behandeln anschließend ein empirisches Beispiel, bevor wir im nächsten Kapitel auf die LOGISTIC-Prozedur zu sprechen kommen. PROC PROBIT DATA = library.datasetname; CLASS variables; Mit dem PROC PROBIT Befehl wird die Prozedur gestartet. Innerhalb dieses ersten Schrittes erfolgt auch die Festlegung des Input-Datensatzes. Der CLASS-Befehl definiert, welche Variable in dem anschließenden Modell die abhängige Variable ist. label:MODEL var1 = var2 var3... / Options; Analog zur linearen Regression kann das Modell auch hier benannt werden. Der Befehl MODEL initiiert das Modell, wobei var1 die endogene Variable ist und var2, var3... die exogenen Variablen darstellen. Die abhängige Variable kann auch als Quotient zweier anderer Variablen spezifiziert werden, z.B. kann eine Variable Erfolg definiert werden als Erfolg = Treffer/Schüsse. Es muss lediglich gewährleistet sein, dass der Quotient zwischen null und eins liegt, das also in diesem Fall Treffer ¡ Schüsse für jede Beobachtung gilt. Im Anschluss an den MODEL-Befehl können optionale Einstellungen vorgenommen werden, die nachfolgend erklärt werden. 25 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER D = Verteilung; Nach dem Befehl d = kann eine Verteilungsannahme getroffen werden. Zur Auswahl stehen die Normal- (normal), die logistische (logistic) und die Gompertzverteilung (gompertz), wobei die Normalverteilung voreingestellt ist. C = Schwellenwert; Dieser Befehl legt einen bestimmten Schwellenwert fest. Voreinstellung ist dabei ein Schwellenwert von null, so dass z.B. in dem Fall einer dichotomen Variablen Y diese einen Wert von 1 annimmt, wenn die latente Variable Y* einen Wert größer null annimmt. OPTC; Mit diesem Befehl wird der Schwellenwert als unbekannt betrachtet und innerhalb des Modells geschätzt. INVERSECL HPROB=p; Sollen für die erste unabhängige Variable Konfidenzintervalle berechnet werden, die für ein gegebenes Signifikanzniveau zu einem bestimmten Wert für die abhängige Variable führen, muss der Befehl inversecl verwendet werden. Mit dem Befehl hprob=p kann dabei ein bestimmtes Signifikanzniveau p vorgegeben werden, das bei der Berechnung der Konfidenzintervalle verwendet wird. Voreinstellung ist dabei ein Signifikanzniveau von 10%. LACKFIT; Mit dem Befehl lackfit können Gütemaße berechnet und angezeigt werden. Es werden ein Pearson Chi-Quadrat Test und ein Log-Likelihood-Ratio Test durchgeführt. OUTPUT OUT = library.outfile; Mit dem OUTPUT Befehl wird ein neuer Datensatz generiert, der alle Variablen des Inputdatensatzes, die geschätzten Wahrscheinlichkeiten (prob), die geschätzten x0 b (xbeta) und die geschätzten Standardfehler (std) enthält. Der Befehl out = library.outfile legt den Namen des Outputdatensatzes fest. 26 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 1. SAS-Besonderheiten - Umkodieren der abhängigen Variable Eine (nicht zu erklärende) Besonderheit von SAS ist, dass im Falle einer abhängigen dichotomen Variable die Wahrscheinlichkeit p für den kleineren und nicht für den größeren Wert der Variablen modelliert wird. Wenn z.B. die Variable die beiden Ausprägungen 0 und 1 annehmen kann und ein Schwellenwert von c = 0 unterstellt wird, so gilt: p = P (Yi = 0) = P (Yi0 ≤ 0) = P (u0i ≤ x0i β) = 1 − F (x0i β). SAS hingegen schätzt p wie folgt: p = P (Yi = 0) = F (x0i β), so dass man als Parametervektor nicht β erhält, sondern −β. Wenn man also einen Parameter βk mit negativem Vorzeichen erhält, so heißt das nicht, dass die exogene Variable xk c.p. die Wahrscheinlichkeit P (Yi = 1), sondern die Wahrscheinlichkeit P (Yi = 0) verringert, also die Wahrscheinlichkeit P (Yi = 1) erhöht. Um eine Aussage treffen zu können, ob eine bestimmte exogene Variable xk die Wahrscheinlichkeit P (Yi = 1) erhöht, muss das Vorzeichen des entsprechenden β umgekehrt werden oder man kodiert die abhängige Variable vor Durchführung der Schätzung um. Handelt es sich um eine dichotome Variable, so muss aus der 0“ eine 1“ und umgekehrt ” ” aus der 1“ eine 0“ werden. ” ” Mit den folgenden Programmzeilen kann eine solche Umkodierung erfolgen. In dem Datensatz inputfile, der die abhängige Variable endo enthält, wird eine neue umkodierte Variable endo 2 erzeugt: DATA library.inputfile; SET library.inputfile; endo_2 = 1-endo; RUN; Nach einer solchen Umkodierung können die Parameterergebnisse in der gewohnten Weise interpretiert werden. 2. Optionale Ausgestaltung des Schätzverfahrens Bevor wir nun die PROBIT-Prozedur auf ein empirisches Beispiel anwenden wollen, lernen wir noch einige Optionen kennen, die die Schätzverfahren in SAS betreffen. CONVERGE = wert MAXITER = wert NOINT; 27 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Mit dem CONVERGE-Befehl kann ein Konvergenzkriterium angegeben werden. Die Parameter werden iterativ mit dem Newton-Raphson Verfahren geschätzt. Die Schätzung wird abgebrochen, wenn bei einem Parameter größer als 0,01 die relative Veränderung zwischen zwei Schritten kleiner als der angegebene Wert ist und bei einem Parameter kleiner als 0,01 die absolute Veränderung zwischen zwei Schritten kleiner als der angegebene Wert ist. Voreinstellung ist ein Wert von 0,001. Mit dem Befehl MAXITER-Befehl kann die maximale Anzahl an Iteration angegeben werden. Voreinstellung ist dabei eine Anzahl von 50. Mit NOINT wird ein Modell ohne Konstante spezifiziert und geschätzt. BY var2; Es besteht zudem noch die Möglichkeit, den Datensatz in verschiedene Gruppen einzuteilen und für jede Gruppe eine separate Schätzung durchzuführen. Dazu wird nach dem Befehl BY diejenige Variable angegeben, die festlegt zu welcher Gruppe der beobachtete Wert gehört. SAS erwartet dabei, dass der Datensatz aufsteigend nach der Gruppenvariablen sortiert ist. Ist dies nicht der Fall, so muss der Datensatz mit PROC SORT vor Durchführung der Schätzung entsprechend sortiert werden. WEIGHT; Mit dem WEIGHT-Befehl kann jede Beobachtung gewichtet werden. Gewichtet wird sie dabei mit dem Wert der Variablen, die nach dem WEIGHT-Befehl angegeben wird. Der Beitrag jeder Beobachtung zur Likelihood wird dann mit dem Gewichtungsfaktor multipliziert. 3. Das Output-Fenster bei der PROBIT-Prozedur Bevor wir zu unserem Beispiel kommen ist es noch angebracht, das OUTPUT-Fenster der PROBIT-Prozedur ein wenig zu kommentieren. Im Output-Fenster erhalten wir neben den Parameterwerten und der Standardabweichung auch einen CHISQUARE-Wert, der das Quadrat der üblichen t-Statistik ist. Die dahinterstehende Überlegung ist, dass die t-Statistik asymptotisch und unter der Nullhypothese, dass der Parameterwert gleich Null ist, standardnormalverteilt ist. Das Quadrat einer standardnormalverteilten Variable ist χ2 -verteilt mit einem Freiheitsgrad. Der p-Wert im Output-Fenster basiert auf dieser Annahme. Als weitere Information erhalten wir den Wert der Log-Likelihhod-Funktion. Eine Warnung ist an dieser Stelle angebracht. Bei allen nicht-linearen Schätzproblemen müssen Entscheidungen über Algorithmen, Konvergenzkriterien und die Berücksichtigung von Kovarianzmatrizen getroffen werden. Unterschiedliche Softwareprogramme lösen diese Aufgabe in unterschiedlicher Weise, so dass es durchaus möglich ist, das zwei verschiedene Programme zu unterschiedlichen Ergebnissen kommen. Den Wert der Log-Likelihood können Sie verwenden um z.B. das R2 nach McFadden oder Aldrich-Nelson zu berechnen. 28 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 4. Beispiel: Schätzung der Kaufwahrscheinlichkeit für ein Produkt Zur Verdeutlichung wenden wir uns nun einem empirischen Beispiel2 . Der SAS-Datensatz KAUF ROH enthält 25 Beobachtungen von Individuen (INDIV), die ein bestimmtes Produkt gekauft haben (BU Y = 1) oder nicht (BU Y = 0). Als zusätzliche Informationen sind in dem Datensatz die Variablen Geschlecht (SEX) und Einkommen (INCOME) enthalten. Sie sollen den Produktkauf in Abhängigkeit dieser beiden Variablen modellieren. Übungsaufgabe 15: Modellierung Kaufentscheidung (Dichotomes Logit-Modell) 1. Erzeugen Sie zunächst eine neue umkodierte abhängige Variable BUY 2. DATA sasdat.kauf; SET sasdat.kauf_roh; BUY_2 = 1 - BUY; RUN; 2. Schätzen Sie nun ein LOGIT-Modell (mit Konstante) für die Kaufwahrscheinlichkeit in Abhängigkeit der Variablen SEX und INCOME. Berechnen Sie auch Gütemaße. Schreiben Sie die Ergebnisse, sowie die berechnete Kaufwahrscheinlichkeit, die Standardabweichung und den Wert für in einen neuen Datensatz KAUF OUT. PROC PROBIT DATA = sasdat.kauf; CLASS BUY_2; LOGIT:MODEL BUY_2 = SEX INCOME / d = logistic lackfit; OUTPUT OUT = sasdat.kauf_out PROB = PROB STD = SA xbeta = xb; run; 3. Vergleichen Sie die Kaufwahrscheinlichkeiten der Konsumenten 1 und 2. Stimmen die Wahrscheinlichkeiten mit dem tatsächlichen Kaufverhalten überein? Wie wirkt sich eine Einkommenserhöhung von 100,- DM auf das Kaufverhalten der beiden betrachteten Konsumenten aus? (Hinweis: 0,00448041 ist der berechnete Beta-Parameter aus 2.) DATA sasdat.kauf_OUT; SET sasdat.kauf_OUT; pdf = (exp(xb)/(1+exp(xb))**2); marg_100 = pdf*0.00448041*100; LABEL marg_100 = ’marginaler Effekt von 100,-DM’; RUN; 4. Berechnen Sie als Gütemaß das R2 nach McFadden und Aldrich-Neslon. (-6.0719 ist der berechnete Wert der Log-Likelihood-Funktion aus 3). 2 Aus: Ökonometrie“ von Eckey/Kosfeld/Dreger. ” 29 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER DATA sasdat.guete; SET sasdat.kauf; LL_0=14*log(14/25)+11*log(11/25); KEEP LL_0; RUN; DATA sasdat.guete; SET sasdat.guete; R_2MF=1-(-6.0719/LL_0); R_2AN=(2*(-6.0719/LL_0))/(2*(-6.0719/LL_0)+25); RUN; 8. Prozedur MODEL Mit Hilfe der SAS Prozedur MODEL können unbekannte Parameter von Mehrgleichungsmodellen geschätzt werden. Mit den geschätzten Modellen können anschließend Simulationen und Prognosen durchgeführt werden. Diese kurze Einführung soll den Leser mit den wichtigsten Befehlen und Eigenschaften dieser Prozedur bekannt machen. 1. Einführung PROC MODEL; OPTIONS; RESET OPTIONS; INCLUDE ...; ENDOGENOUS variables; EXOGENOUS variables; PARAMETERS ...; VAR variables; Festlegung der Variablen und der Struktur des Modells; Festlegung von allgemeinen Optionen FIT EQUATIONS; INSTRUMENTS ...; WEIGHT variables; Schätzung des Modells (Fit) SOLVE variables; Prognose und Simulation (Solve) BY variables; ID variables; Kontrolle über die beobachteten Werte RANGE variables (=first) TO (=last); 30 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER OUTVARS variables; Festlegung der Variablen im Outputdatensatz RUN; In dieser Reihenfolge werden nun die wichtigsten Bestandteile der MODEL Prozedur anhand von Beispielen vorgestellt. 2. Festlegung der Variablen und der Struktur des Modells In einem ersten Schritt werden die Variablen und Paramater, die in dem Modell auftauchen, sowie die Gleichungen, die diese miteinander verbinden, definiert. Dabei kann man entweder explizit angeben, welche der in dem Modell auftauchenden Variablen endogen (nach dem Befehl Endogenous, abgekürzt Endo) und welche exogen (nach dem Befehl Exogenous, abgekürzt Exo) sind, oder man gibt, ohne eine Unterscheidung zu treffen, alle verwandten Variablen nach dem Befehl Var an und überläßt es SAS, eine Unterscheidung zu treffen. SAS trifft diese Entscheidung gemäß der Rolle, die die Variablen in den Subprozeduren Fit und Solve spielen. Die getrennte Eingabe dient dabei vor allem der besseren Übersichtlichkeit und weist SAS zudem noch an, dass es bei späterer Verwendung des Solve Befehls das System nach den endogenen Variablen lösen soll. Nach der Parameters Anweisung (abgekürzt Parms) werden die Paramater des Gleichungssystems festgelegt. Hierbei besteht zudem noch die Möglichkeit, den Parametern bestimmte Werte vorzugeben, indem man den entsprechenden Wert nach dem Parameter setzt (z.B. wird mit d1 1 der Parameter d1 auf 1 restringiert, insbesondere um die Identifikation der Modelle zu gewährleisten, sind solche Restriktion notwendig). Im Anschluß werden die Strukturgleichungen des Modells festgelegt. Bei der Eingabe der Gleichungen stehen zwei Wege zur Verfügung: Eingabe in normalisierter Form oder in Standardform. Eingabe der Gleichungen in normalisierter Form meint dabei die Eingabe der Gleichungen aufgelöst nach jeweils einer endogenen Variablen: y = f (Y, X) + ε. Eingabe in Standardform meint die Eingabe jeweils aufgelöst nach der Störvariable: ε = g(Y, X). Bei dieser Eingabeart müssen zudem noch die Gleichungen bezeichnet werden (siehe Beispiel weiter unten). Als Beispiel sei folgendes Zweigleichungsmodell betrachtet: (1) quantity demand = quantity = d0 + d1price + d2income + ε1 (2) quantity supply = quantity = s0 + s1price + s2unitcost + ε2 mit den beiden endogenen Variablen: quantity demand = quantity supply = quantity und price und den exogenen Variablen: income und unitcost. Die Eingabe der Gleichungen erfolgt 31 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER im folgenden sowohl in normalisierter als auch in Standardform3 . Den dazugehörigen Beispieldatensatz lesen wir dabei in einem ersten Schritt mit der cards Anweisung unter dem Namen dataset ein. Nach input werden dabei die Namen der einzulesenden Variablen angegeben. Nach dem cards Statement folgen dann die einzulesenden Variablen, getrennt mit einem Leerzeichen. /* Einlesen des Datensatzes */ DATA library.dataset; INPUT year income unitcost price quantity @@; CARDS; 1976 2221.87 3.31220 0.17903 266.714 1977 2254.77 3.61647 0.06757 276.049 1978 2285.16 2.21601 0.82916 285.858 1979 2319.37 3.28257 0.33202 295.034 1980 2369.38 2.84494 0.63564 310.773 1981 2395.38 2.94154 0.62011 319.185 1982 2419.52 2.65301 0.80753 325.970 1983 2475.09 2.41686 1.01017 342.470 1984 2495.09 3.44096 0.52025 248.321 1985 2536.72 2.30601 1.15053 360.750 ; PROC MODEL; /* Festlegen der Variablen */ VAR price quantity income unitcost; /* Alternativ */ ENDO quantity price; EXO income unitcost; /* Festlegen der Parameter */ PARMS d0-d2 s0-s2; /* Festlegen der Gleichungen */ /* Eingabe in Standardform */ EQ.demand = d0 + d1*price + d2*income - quantity; /* Nachfragegleichung */ EQ.supply = s0 + s1*price + s2*unitcost - quantity; /* Angebotsgleichung */ /* Alternativ */ 3 Die einzelnen Programmbestandteile der Model Procedure werden der besseren Übersichtlichkeit halber getrennt nacheinander aufgeführt. Um das Programm aber laufen lassen zu können, müssen die einzelnen Bestandteile zusammen in einem Block eingegeben und dann gestartet werden. 32 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER /* Eingabe in normalisierter Form */ quantity = e0 + e1*income + e2*unitcost; price = t0 + t1*income + t2*unitcost; 3. Schätzung des Modells (Fit) In dem zweiten Schritt werden die Parameter des zuvor spezifizierten Modells geschätzt. Dazu muss festgelegt werden, auf welchen Datensatz zugegriffen, welche Gleichungen der zuvor spezifizierten mit welchem Schätzverfahren geschätzt und in welchen Datensatz die Schätzergebnisse der Parameter abgespeichert werden sollen. An Schätzmethoden stehen zur Verfügung: Ordinary least squares (OLS), seemingly unrelated least squares (SUR), two stage least squares (2SLS) und three stage least squares (3SLS), wobei alle Schätzverfahren sowohl lineare als auch nichtlineare Gleichungssysteme schätzen können. Wenn auf 2SLS oder 3SLS zurückgegriffen wird, können zudem mit dem Befehl Instruments die Instrumentenvariablen explizit festgelegt werden. In dem Beispiel sollen die beiden Gleichungen supply und demand bzw. die beiden abhängigen Variablen quantity und price mit dem 2SLS Verfahren geschätzt werden. Dabei soll auf den zuvor erzeugten Datensatz library.dataset zugegriffen und der geschätzte Parametersatz in die Datei library.output geschrieben werden. Wenn nicht explizit angegeben wird, welche Gleichungen geschätzt werden sollen, so schätzt SAS alle zuvor spezifizierten Gleichungen. /* Bei Eingabe in Standardform */ FIT supply demand / DATA=library.dataset OUTEST=library.output 2sls; INSTRUMENTS income unitcost; /* Angabe optional */ RUN; /* Bei Eingabe in normalisierter Form */ FIT quantity price / DATA=library.dataset OUTEST=library.output 2sls; INSTRUMENTS income unitcost; /* Angabe optional */ RUN; /* Alternativ bei beiden Eingaben */ FIT / DATA=library.dataset OUTEST=library.output 2sls; 33 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 4. Prognose und Simulation mit dem Modell (Solve) Mit dem Unterbefehl Solve können Prognosen und Simulationen für einen bestimmten Inputdatensatz mit dem Modell durchgeführt werden. In dem Prognosemodus wird, sofern vorhanden, der aktuelle Wert einer Variablen als Lösungswert des Gleichungssystems verwandt, während in dem Simulationsmodus auf den entsprechenden vorhergesagten Wert zurückgegriffen wird. In dem Prognosemodus (forecast) löst Proc Model also nur nach den aktuellen Variablen, die in dem Inputdatensatz fehlen, während in dem Simulationsmodus (simulate) auch diejenigen Variablen gelöst werden, die evtl. in dem Inputdatensatz vorhanden sind. Zunächst muß also ein Datensatz angegeben werden, in dem die Inputvariablen enthalten sind. Danach kann der Modus spezifiziert werden: Prognose- oder Simulationsmodus (Voreinstellung ist der Simulationsmodus). Abschließend ist der Outputdatensatzes, in den die vorhergesagten Werte geschrieben werden sollen, festzulegen. In unserem Beispiel soll für den nachfolgenden Datensatz, der bestimmte Werte für die exogenen Variablen enthält eine Prognose für die endogenen Variablen erstellt werden. Zu diesem Zweck lesen wir mit cards zunächst den Inputdatensatz unter dem Namen input 1 ein: DATA library.input_1; INPUT year income unitcost @@; CARDS; 1986 2571.87 2.31220 1987 2609.12 2.45633 1988 2639.77 2.51647 1989 2667.77 1.65617 1990 2705.16 1.01601 ; Nun sollen Prognosen für die endogenen Variablen price und quantity für die entprechenden Jahre 1986-1990 erstellt werden. Die Ergebnisse sollen in den Datensatz output 1 geschrieben werden: 34 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER SOLVE price quantity / DATA = library.input_1 OUT = library.output_1 FORECAST; RUN; Natürlich besteht auch die Möglichkeit, das Modell nach anderen als den endogenen Variablen aufzulösen. Zu diesem Zweck lesen wir einen zweiten Datensatz input 2 ein, der fiktive Werte für die endogene Variable quantity und fiktive Werte für die exogene Variable income enthält und lassen die prognostizierten Ergebnisse für die beiden anderen Variablen price und unitcost in den Datensatz output 2 schreiben: DATA library.input_2; INPUT year income quantity @@; CARDS; 1986 2571.87 3794.4 1987 2603.24 3794.8 1988 2644.12 3795.2 1989 2678.13 3795.6 1990 2709.77 3796.0 ; SOLVE price unitcost / DATA=library.input_2 OUT=library.output_2 FORECAST; RUN; Es besteht auch die Möglichkeit, die endogenen Variablen für den Beobachtungszeitraum mit dem Modell zu simulieren. Als Inputdatensatz dient uns also der gleiche Inputdatensatz, den wir auch schon zur Schätzung des Modells verwandt haben. In unserem ersten Beispiel ist das der Datensatz dataset. Die simulierten Ergebnisse für die beiden endogenen Variablen werden in den Datensatz output 3 geschrieben: 35 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER SOLVE price quantity / DATA=library.dataset OUT=library.output_3 SIMULATE; RUN; 9. Prozedur ARIMA Mit Hilfe der ARIMA Prozedur können ARMA Modelle identifiziert, geschätzt und zu Prognosezwecken genutzt werden. Diese kurze Einführung soll den Leser mit den wichtigsten Befehlen und Eigenschaften dieser Prozedur bekannt machen. 1. Einführung PROC ARIMA DATA=library.dataset; IDENTIFY VAR = Zeitreihe aus dem Datensatz; ESTIMATE P Q OUTEST METHOD = = = = Ordnung AR-Teil Ordnung MA-Teil; library.Datei für Schätzergebnisse Schätzmethode; FORECAST ALPHA ID INTERVAL LEAD OUT = = = = = Signifikanzniveau für Konfidenzintervalle Variable, die Zeitstempel enthält; Periodizität der Prognose Anzahl an zu prognostizierenden Perioden Datei, in die die Prognoseergebnisse geschrieben werden; RUN; QUIT; 36 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Bevor ein ARMA-Modell geschätzt werden kann, muss die Ordnung des Prozesses, d.h. die maximale Laglänge des AR- und MA-Teils, so festgelegt werden, daß er zu der modellierten Zeitreihe paßt. Die erfolgt in SAS mit Hilfe des Identify-Statements. Ist ein entsprechender ARMA-Prozeß festgelegt worden, kann er mit dem Estimate-Statement geschätzt werden. Das geschätzte Modell kann anschließend mittels des Forecast-Statements zu Prognosezwecken genutzt werden. In dieser Reihenfolgen sollen nun die wichtigsten Bestandteile der ARIMA Prozedur vorgestellt werden, wobei auch auf den theoretischen Hintergrund eingegangen werden soll. 2. Analyse der Zeitreihe mit Identify Bei der Identifikation einer Zeitreihe müssen eine Reihe von Schritten durchlaufen werden: 1. White Noise Test der Zeitreihe 2. Vergleich zwischen empirischen und theoretischen Autokorrelationen bzw. partielle Autokorrelationen 3. Durchführen von Schätzungen für verschiedene p und q 4. Bestimmen von Informationswerten für die verschiedenen geschätzten Modelle 5. Überprüfen, ob die Parameter signifikant sind 6. White Noise Test der Residuen Bei den Schritten eins und zwei wird man von SAS durch die Subprozedur Identify unterstützt. Die entsprechende Befehlssequenz lautet dabei: PROC ARIMA DATA=library.series; IDENTIFY VAR = variable; RUN; Als Ergebnis erhält man eine Reihe von statistischen Auswertungen für die Variable variable aus dem Datensatz library.series, die für die Schritte eins und zwei genutzt werden können. In dem ersten Schritt, dem White Noise Test, muß überprüft werden, ob die zu modellierende Zeitreihe autokorreliert ist. Ist sie es nicht, so kann sie auch nicht mit ARIMA-Modellen modelliert werden. SAS gibt zu diesem Zweck die Ergebnisse der Ljung-Box-Prüfgröße heraus. Sind diese für mindestens eine Laglänge signifikant von null verschieden, so kann die 37 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Nullhypothese: Die Zeitreihe ist White Noise, abgelehnt und eine Modellierung mit ARMA Modellen versucht werden. Die Ljung-Box-Prüfgröße ist dabei wie folgt definiert: k Q(K) = T X (T − i)−1 r12 T +2 i=1 mit : T ri2 = Anzahl an Beobachtungen = Quadrierte Autocorrelation i-ter Ordnung k = Anzahl der berücksichtigten Autocorrelationen Sie ist asymptotisch χ2 -verteilt mit k Freiheitsgraden. Wenn für mindestens ein k die empirische Prüfgröße den kritischen Schwellenwert übersteigt, wird die Nullhypothese, daß die Zeitreihe einem White Noise Prozeß folgt, abgelehnt. In einem zweiten Schritt, der Analyse der Autokorrelationen (ACF) und der partiellen Autokorrelationen (PACF), werden die theoretischen mit den empirischen ACF und PACF verglichen. Die ACF mißt die Korrelation zwischen zwei Zeitpunkten, d.h. sowohl den direkten Zusammenhang zwischen diesen beiden Zeitpunkten als auch den indirekten. Die PACF hingegen misst nur die direkte Abhängigkeit der Zeitreihe zu zwei Zeitpunkten. Zur Identifikation des richtigen Prozesses können die folgenden heuristischen Regeln angewandt werden4 : PROC ARIMA DATA=library.series; IDENTIFY VAR=variable; ESTIMATE Q=0 P=3 OUTEST=library.out METHOD=ML; RUN; QUIT; Durch den obigen Code wird die zuvor analysierte Variable genutzt, um ein ARMA(3,0) Modell zu schätzen (q bezeichnet die Länge des MA-, p die des AR-Teils). Die geschätzten Ergebnisse (vorhergesagten Werte, vorhergesagte Residuen, etc.) werden in die Datei library.out geschrieben. Als Optimierungsverfahren wird die Maximum Likelihood Methode verwandt. Zusätzlich zu den geschätzten Parametern erhält man sog. Informationswerte, deren Kenntnis von Nutzen sein kann zur Identifikation des richtigen Prozesses. Das Ziel besteht darin, 4 Vgl. Hansmann, Karl-Werner (1983): Kurzlehrbuch Prognoseverfahren, Wiesbaden, S. 78. 38 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER ein Modell zu wählen mit einem möglichst geringen Informationswert. SAS gibt zwei Informationswerte aus. Der Akaike Informationswert ist definiert als: AIC = −2 ln L + q + 2(p) wohingegen der Schwarz-Bayes Informationswert definiert ist als: −2 ln L + (p + q) ln T . Die geschätzten Paramter sollten alle signifikant sein. Ähnlich wie bei der Probit Prozedur ist hierbei jedoch eine Besonderheit von SAS zu beachten: SAS kehrt die Vorzeichen der geschätzen Parameter um! Aus einem Plus wird ein Minus und umgekehrt. Während die modellierte Zeitreihe kein White Noise Prozeß sein darf, sollen die geschätzten Residuen des ARMA-Modells jedoch, wie von der Theorie gefordert, White Noise sein! SAS gibt hierzu die Ergebnisse eines White Noise Checks for Residuals aus. Im Gegensatz zu dem zuvor besprochenen Ljung-Box-Test sollte nun die Nullhypothese: Die Zeitreihe ist White Noise, beibehalten werden. 3. Schätzung des Modells (Fit) Hat man ein ARMA Modell identifiziert und geschätzt, kann es genutzt werden, um die Entwicklung der Zeitreihe mit Hilfe der Subprozedur Forecast zu prognostizieren. PROC ARIMA DATA=library.series; IDENTIFY VAR= variable; ESTIMATE Q=0 P=3 OUTEST=library.out METHOD= ML; FORECAST ALPHA=0.05 ID=date INTERVAL=month LEAD=24 OUT=library.out_p; RUN; QUIT; Mit dem der zusätzlichen forecast Zeile in dem obigen Befehl wird eine Prognose für die nächsten 24 Monate vorgenommen. Für die prognostizierte Zeitreihe werden zusätzlich Konfidenzintervalle auf dem 5% Niveau ausgewiesen. Die Ergebnisse werden dabei in der Datei library.out p gepeichert. 10. Prozedur AUTOREG Wann immer davon ausgegangen werden muß, dass die Residuen nicht White Noise sind und/oder die quadrierten Residuen einer untersuchten Zeitreihe nicht White Noise sind, muss für die Residuen und/oder die quadrierten Residuen ein autoregressives Modell unterstellt werden. Zu diesem Zweck kann die SAS Prozedur AUTOREG verwandt werden. Diese kurze Einführung soll den Leser mit den wichtigsten Befehlen und Eigenschaften dieser Prozedur bekannt machen. 39 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 1. Einführung Proc AUTOREG kann genutzt werden, um lineare multiple Regressionsmodelle zu schätzen, unter zusätzlicher Berücksichtigung von: • Autoregressiven Prozessen für die Residuen • ARCH bzw. GARCH Prozessen für die Residuen Die allgemeine Modellspezifikation lautet dabei wie folgt: yt = x0t β + vt vt = εt − ϕ1 vt−1 − . . . − ϕm vt−m p εt = ht et ht = ω + q X αi ε2t−i i=1 et ∼ + p X γj ht−j j=1 i.i.d. N (0, 1) Man erkennt, dass bei dieser allgemeinen Modellstruktur sowohl die Autokorreliertheit der Residuen als auch der quadrierten Residuen berücksichtigt wird. Die vereinfachte allgemeine Syntax der Prozedur AUTOREG, mit der diese Modellstruktur implementiert werden kann, sieht wie folgt aus: PROC AUTOREG DATA=library.dataset; soll */ /* Datensatz, auf den zugegriffen werden MODEL y = var_1 ... / NLAG=2; /* Regressionsmodell und Anzahl an berücksichtigten Lags des AR-Prozesses */ GARCH=(Q=q, P=p) MAXIT=100; /* Spezifikation des GARCH Prozesses und maximale Anzahl an Iterationen */ OUTPUT OUT=library.dataset; /* Outputdatensatz */ RUN; QUIT; Die Vorgehensweise bei der Spezifikation dieser Art von Modellen ist ein interaktiver Prozess, der die folgenden Schritte umfassen sollte: 40 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 1. Test, ob autokorrelierte und/oder heteroskedastische Residuen vorliegen 2. Spezifizieren des Modells für die Residuen 3. Durchführen von Schätzungen für verschiedene p und q 4. Schätzen des Modells In dieser Reihenfolgen sollen nun die wichtigsten Bestandteile der AUTOREG Prozedur vorgestellt werden. 2. Testen auf Autokorrelation mittels Generalized Durbin-Watson Teststatistiken Der Test auf Autokorrelation der Residuen erfolgt in SAS mittels folgender Befehlssequenz: PROC AUTOREG DATA=library.dataset; MODEL y = var_1 ... / DW=4 DWPROB; RUN; Mit data = library.dataset wird die zu analysierende Datei spezifiziert. Mit model y = var1 . . . wird das eigentlich zu schätzende Modell spezifiziert. Mit DW = 4 wird die maximale Laglänge angeben, bis zu der generalized Durbin Watson Prügrößen berechnet werden sollen. DW P ROB weist SAS an, zusätzlich noch Signifikanzniveaus zu den Prüfgrößen auszugeben. Mit den generalized DW Prüfgrößen kann nicht nur Autokorrelation erster, sondern auch höherer Ordnung modelliert werden. Wenn zumindest eine DW Prüfgröße signifikant ungleich null ist, muß die Nullhypothese, dass die Zeitreihe nicht autokorreliert ist, abgelehnt werden. 3. Testen auf Heteroskedastie mittels Portmanteau Q-Teststatistiken Der Test auf Heteroskedastie der Residuen erfolgt in SAS mittels folgender Befehlssequenz: PROC AUTOREG DATA=library.dataset; MODEL y = var_1 ... / NLAG=2 ARCHTEST DWPROB; RUN; 41 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Bis auf die Option nlag = 2, mit der die maximale Laglänge angeben wird, bis zu der Q-Statistiken berechnet werden sollen, stimmen die übrigen Befehle mit denen überein, die wir bereits oben kennengelernt haben. Natürlich können diese beiden Schritte auch in einem Befehl ausgeführt werden. SAS gibt dann die Ergebnisse des sog. Portmanteau Q-Test heraus. Wieder gilt, daß wenn zumindest eine Laglänge diese Prüfgröße signifikant von null, verschieden ist, die Nullhypotheses abgelehnt werden muß, daß die Zeitreihe nicht heteroskedastisch sei. Wenn festgestellt wurde, dass die Residuen einem autokorrelierten Prozess folgen und zudem noch GARCH Effekte vorhanden sind, kann ein passender Prozess für die Residuen entsprechend der bereits in dem vorhergehenden Kapitel besprochenen Kriterien spezifiziert werden. 4. Schätzung des Modells mit autokorrelierten Residuen und GARCH-Effekt Hat man ein Modell für die Residuen mit der Hilfe der oben beschriebenen Tests spezifizieren können, kann anschließend die Schätzung erfolgen: PROC AUTOREG DATA=library.dataset; MODEL y = var_1 ... / NLAG=2 GARCH=(Q=q,P=p) MAXIT = xxx; OUTPUT OUT= library.out_dataset CEV=n P=m; RUN; Neu hinzugekommene Befehle sind dabei: N LAG = 2, mit dem spezifiziert wird, bis zu welcher Laglänge Autokorrelationen der Residuen zugelassen werden, GARCH = (Q = q, P = p), mit dem zusätzlich noch ein bestimmtes GARCH(p,q)-Modell für die Residuen modelliert wird, M AXIT = xxx, mit dem die maximale Anzahl an Iterationen festgelegt werden kann und CEV = n bzw. P = m, womit die geschätzten Residuen bzw. geschätzten Werte in der Outputdatei library.out dataset unter dem Namen n bzw. m gespeichert werden können. 11. Prozedur TSCSREG Die Prozedur TSCSREG (Time Series Cross Section Regression) dient zur Schätzung von Panel-Modellen mit SAS. Zu beachten bei der Schätzung mit Panel-Daten ist das Vorliegen von unbeobachtbarer zeitlicher und individueller Heterogenität; Nichtbeachtung würde zu verzerrten bzw. inkonsistenten Schätzern führen. 42 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Verschiedene Arten von Fehlerstrukturen sind deshalb in der Prozedur enthalten. Neben Kovarianzmodellen (Fixed Effects-Modelle) können auch Fehlerkomponentenmodelle (Random Effects-Modelle) geschätzt werden. Darüberhinaus können mit der Prozedur auch Modelle mit autoregressiven Fehlerkomponenten geschätzt werden, auf die hier allerdings nicht eingegangen wird. Grundsätzlich können sowohl one-way als auch two-way error components-Modelle geschätzt werden. 1. Syntax PROC TSCSREG Optionen; ID cross_section time_series; Der Aufruf der Prozedur erfolgt über den PROC TSCSREG Befehl. Verfügbare Optionen sind die Deklaration eines Input-Datensatzes über DATA=library.datasetname, oder das Erstellen eines Output-Datensatzes, der neben den Schätzern auch Kovarianzstruktur (COVOUT) sowie Korrelationsmatrix (CORROUT) und Testergebnisse enthalten kann. Der Output-Datensatz wird über den Befehl OUTEST=library.datasetname erzeugt. Der ID Befehl dient zur Identifikation der Querschnitts- und Längsschnittsvariablen. Für die Schätzung ist es dabei wichtig, dass der Datensatz vorher nach diesen Variablen sortiert wurde. label:MODEL var1 = var2 var3 ... / Optionen; Der MODEL Befehl definiert das zu schätzende Modell. In gewohnter Weise kann das geschätzte Modell mit einem Label versehen werden. var1 ist die abhängige Variable, var2, var3 ... sind die erklärenden Variablen. Der Unterschied zur klassischen linearen Regression wird durch die Optionen erklärt, die nachfolgend im einzelnen erläutert werden sollen. FIXONE; Die FIXONE Option definiert, dass ein Fixed-Effects One-way error components Modell geschätzt werden soll. FIXTWO; Die FIXTWO Option definiert, dass ein Fixed-Effects Two-way error components Modell geschätzt werden soll. RANONE; 43 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Die RANONE Option definiert, dass ein Random-Effects One-way error components Modell geschätzt werden soll. RANTWO; Die RANTWO Option definiert, dass ein Random-Effects Two-way error components Modell geschätzt werden soll. Neben der Deklaration einer einzelnen Fehlerstruktur ist es auch möglich, mehrere Arten anzugeben. Die Prozedur schätzt dann sequentiell die einzelnen Modelle. NOINT; Die TSCSREG Prozedur schätzt grundsätzlich eine Konstante mit. Der Befehl NOINT unterdrückt den Einbezug einer Konstanten in das Modell. RUN; Der RUN-Befehl startet die Prozedur. 2. Schätzmethode Die Schätzung erfolgt in Abhängigkeit der unterstellten Fehlerstruktur. Wird ein Fixed EffectsAnsatz verwendet, schätzt die Prozedur das Modell mit LSDV, d.h. OLS mit Dummy-Variablen für die spezifizierten Effekte. Bei Unterstellung stochastischer Fehler führt die Verwendung von OLS zu ineffizienten Schätzern. Das Programm verwendet hier Feasible GLS. Dies ist ein zweistufiges Verfahren, dass auf der ersten Stufe die Varianz-Komponenten des Modells schätzt. Die geschätzte VarianzKovarianz-Matrix ist dann Grundlage für die GLS-Schätzung der zweiten Stufe. 3. Output Das Output-Fenster der Prozedur TSCSREG enthält standardmäßig folgende Angaben: • Modellbeschreibung: Fehlerstruktur, Anzahl von Quer- und Längsschnitten • Anpassungsgüte • (Varianz-Komponenten Schätzer: bei Random Effects-Modellen) • Testergebnisse: F -Test bei Fixed Effects-Modellen, Hausman m-Test für Random EffectsModelle • Parameterschätzwerte mit t-Werten und plim Optional kann daneben die Varianz-Kovarianz-Matrix ausgegeben werden, sofern die COVB Option gewählt wurde, sowie die Korrelations-Matrix, wenn die CORRB Option deklariert wurde. 44 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 4. Beispiel Die Schätzung wollen wir am Beispiel5 der Schätzung einer Kostenfunktion verdeutlichen. Wir verwenden hierzu Daten von Greene (1990)6 . Die enthaltenen Variablen sind Produktion von Strom in Millionen Kilowatt-Stunden sowie die daraus entstehenden Kosten (aggregiert aus Arbeits- und Kapitalkosten) für sechs Firmen zu vier Zeitpunkten. Folgende Gleichung soll geschätzt werden: ln Cit = α + β ln Yit + εit Der Datensatz mit bereits logarithmierten Werten für Kosten und Output enthält die folgenden Variablen: • FIRM (Querschnitts-Identifizierer), • YEAR (Längsschnitts-Identifizierer), • OUTPUT (Menge Strom) und • COST. 5 6 Das Beispiel stammt aus SAS I NSTITUTE I NC . (1999): SAS/ETS User’s Guide, Version 8, Cary NC., S. 1546 ff. G REENE , W.H. (1990): Econometric Analysis, New York, MacMillan Publishing Company 45 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 1. Schritt: Einlesen und Sortieren des Datensatzes DATA greene; INPUT firm year output cost CARDS; 1 1955 5.36598 1.14867 1 1965 6.37673 1.52257 2 1955 6.54535 1.35041 2 1965 7.40245 2.09519 3 1955 8.07153 2.94628 3 1965 8.66923 3.47952 4 1955 8.64259 3.56187 4 1965 9.23073 4.11161 5 1955 8.69951 3.50116 5 1965 9.04594 3.76410 6 1955 9.37552 4.29114 6 1965 10.21163 4.93361 ; @@; 1 1 2 2 3 3 4 4 5 5 6 6 1960 1970 1960 1970 1960 1970 1960 1970 1960 1970 1960 1970 6.03787 6.93245 6.69827 7.82644 8.47679 9.13508 8.93748 9.52530 9.01457 9.21074 9.65188 10.34039 1.45185 1.76627 1.71109 2.39480 3.25967 3.71795 3.93400 4.35523 3.68998 4.05573 4.59356 5.25520 PROC SORT DATA=greene; BY firm year; RUN; 2. Schritt: Sortierung des Datensatzes: PROC SORT DATA=greene; BY FIRM YEAR; RUN; 3. Schritt: Schätzung eines one-way Fixed Effects-Modells und eines one-way Random Effects-Modells. PROC TSCSREG DATA=greene; ID FIRM YEAR; MODEL cost=output / FIXONE RANONE; RUN; 46 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Für die Schätzung des Fixed Effects-Modells erhält man folgenden Output: 47 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Als Ergebnis der Random Effects-Schätzung erhalten wir: 48 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 12. Prozedur LIFETEST Die Schätzung von Verweildauern mit Hilfe nichtparametrischer Methoden kann in SAS mit Hilfe der Prozedur LIFETEST vollzogen werden. Im Gegensatz zu parametrischen Methoden unterstellen nichtparametrische Schätzer keine funktionale Form für Hazard-, Dichte- und Überlebensfunktion und vermeiden so Verzerrungen in den Schätzern durch eine zu große Zahl von Restriktionen. Überdies sind sie zur graphischen Darstellung vorhandener Daten nützlich oder für Voranalysen zur Identifikation einer geeigneten parametrischen Spezifikation. Die Prozedur LIFETEST berechnet nichtparametrische Schätzer für die Überlebensfunktion mittels Kaplan-Meier-Schätzer (Produkt-Limit-Schätzer) oder Sterbetafel-Methode. Daneben werden Rangstatistiken berechnet, um Zusammenhänge zwischen abhängiger Variable und anderen Variablen zu erfassen. Rechtszensierte Spells sind ein häufiges Problem von Verweildauerdaten. Berücksichtigt man diese Fälle nicht in der Analyse, kommt es zu Dauerverzerrungen, da üblicherweise längere Episoden eher zensiert sind als kürzere. Eine valide Untersuchung muß also sowohl nicht-zensierte als auch zensierte Spells umschließen. 1. Syntax PROC LIFETEST Optionen; Der Befehl PROC LIFETEST startet die Prozedur. Wichtige Optionen neben der Deklaration des Input-Datensatzes über DATA=library.datasetname für die Analyse sind folgende: METHOD=PL; {oder} METHOD=LIFE; Die Option METHOD legt die Schätzmethode fest. PL Definiert Schätzung mittels Product-Limit bzw. Kaplan-Meier-Schätzers (alternativ KM). Für ein Schätzung mittels Sterbetafel-Methode muß LIFE (alternativ ACT (actual), LT) gewählt werden. OUTS=library.datasetname; Der Befehl OUTS deklariert ein Output-Datensatz, der die Schätzer der Überlebensfunktion sowie die dazugegehörigen Konfidenzintervalle enthält. OUTT=library.datasetname; Der Befehl OUTT deklariert ein Output-Datensatz, der die Testergebnisse der χ2 Statistik, der Rangstatistiken sowie deren Varianz-Kovarianz-Matrix enthält. 49 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER PLOTS=(wert); Der Befehl PLOTS erstellt Plots der Überlebensfunktion (S) oder zensierten Beobachtungen (C). Daneben können auch Plots der negativen logarithmierten Überlebensfunktion (LS) sowie des Logarithmus’ der negativen logarithmierten Überlebensfunktion (LLS) abgebildet werden, um eine unterliegende Exponential- oder Weibullfunktion zu identifizieren. Verwendet man die Sterbetafelmethode, können außerdem die Hazardrate (h) sowie die Dichtefunktion (p) geplottet werden. TIME var1*censor(wert); Der Befehl TIME ist der wichtigste Befehl der Prozedur LIFETEST. var1 definiert die Dauervariable, censor ist der Dummy für zensierte bzw. unzensierte Spells. Zensierte Spells werden durch wert“ ausgedrückt. ” STRATA var2 ...; Der Befehl STRATA dient zur Einteilung der Daten in unterschiedliche Strata. Dies ist sinnvoll, wenn man z.B. die Verweildauern von unterschiedlichen Gruppen (bspw. Teilnehmer und Nichtteilnehmer an einem Experiment) oder unterschieden nach bestimmten Kovariaten abbilden will. var2 ... sind hierbei Unterscheidungsvariablen. (Alternativ zum Befehl STRATA kann auch die BY-Option gewählt werden; hierbei ist allerdings zu beachten, daß der Datensatz zu erst nach den BY-Variablen geordnet sein muß. Jedoch werden hier die Plots einzeln zu jeder Ausprägung der BY-Variable erzeugt.) RUN; Der RUN-Befehl startet die Prozedur. 2. Output Der Output der Prozedur LIFETEST enthält als erstes eine Übersicht über die Verweildauern in jedem Stratum mit Abgangszeitpunkt, Standardfehler und verbleibenden Beobachtungen im Stratum. Zusätzlich werden weitere Verteilungsmerkmale, wie z.B. Quartile, Mittelwert und Standardabweichung, ausgegeben. Der zweite Teil des Outputs ist die Zusammenfassung zensierter und nicht-zensierter Beobachtungen, anteilig nach zugeordnetem Stratum und absolut für die Grundgesamtheit. Der dritte Teil (nur bei Definition einer Strata-Variable) gibt die Ergebnisse der Test für Homogenität zwischen abhängiger Variable und der (den) Kovariable(n) aus. Hierbei führt 50 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER die Prozedur einen Log-Rank-Test sowie einen Wilcoxon-Rangsummen-Test durch. Neben der Ausgabe der Rangreihen werden auch die dazugehörigen Kovarianz-Matrizen ausgegeben. Als letztes folgt die χ2 -Statistik für die Tests. Ist die Option PLOTS gewählt, werden außerdem die gewählten Plots gegen die Zeit abgebildet. 3. Beispiel Mit Hilfe eines Kaplan-Meier-Schätzers wollen wir beispielhaft die Dauer einer Remission7 von 21 Leukämie-Patienten nach Behandlung mit einem Medikament (6-mercaptopurine (6-MP)) sowie von 21 anderen, die mit einem Placebo behandelt wurden, messen. Der Datensatz stammt von aus Lawless (1982)8 Der Datensatz mp 6 enthält die Variablen DAYS, CENSOR und TREATMENT. • DAYS ist die Dauer der Remission • CENSOR unterscheidet zensierte (1) und unzensierte (0) Spells • TREATMENT beschreibt die Behandlung mit dem Medikament (1) oder mit dem Placebo (0). 1. Schritt: Einlesen des Datensatzes DATA MP_6; INPUT days censor LABEL days="Dauer CARDS; 6 0 1 6 0 1 6 0 6 1 1 7 0 1 9 1 10 0 1 10 1 1 11 1 13 0 1 16 0 1 17 1 19 1 1 20 1 1 22 0 23 0 1 25 1 1 32 1 32 1 1 34 1 1 35 1 1 0 0 1 0 0 2 0 2 0 0 3 0 0 4 0 4 0 0 5 0 0 5 0 8 0 0 8 0 0 8 0 8 0 0 11 0 0 11 0 12 0 0 12 0 0 15 0 17 0 0 22 0 0 23 0 ; treatment @@; der Remission"; 1 1 1 1 1 1 1 0 0 0 0 0 0 0 7 Remission: Nachlassen von Krankheitserscheinungen, wird besonders bei Krebserkrankungen verwendet. L AWLESS , J.F.(1982): Statistical Models and Methods for Lifetime Data, Wiley Series in Probability and Mathematical Statistics, New York Chichester Brisbane Toronto Singapore 8 51 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 2. Schritt: Schätzung der Überlebensdauer mittels Kaplan-Meier-Schätzmethode SYMBOL1 C=RED; SYMBOL2 C=BLUE; PROC LIFETEST DATA=MP_6 PLOTS=(S); TIME days*censor(1); STRATA treatment; RUN; Die Befehle SYMBOL1 und SYMBOL2 legen die Farben der Survivorfunktionen im Plot fest. Neben den oben erläuterten Ergebnissen erhalten wir folgenden Plot der Überlebensfunktion: Es ist deutlich zu erkennen, daß die Dauer der Remission bei Patienten, die mit dem Medikament behandelt wurden, länger andauert, als bei der Vergleichsgruppe, die mit dem Placebo behandelt wurden. 52 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 13. Prozedur PHREG Mit Hilfe der Prozedur PHREG (Proportional Hazards Regression) können Proportional Hazards-Modelle geschätzt werden. Dieser semi-parametrische Ansatz wird verwendet, um den Einfluss erklärender Kovariablen auf die Hazardrate zu untersuchen. Als Vorteil erweist sich die Annahme, dass die Hazardraten verschiedener Individuen proportional zueinander sind; daher ist eine parametrische Spezifikation der Hazardrate überflüssig. Die höhere Flexibilität auf der einen Seite führt jedoch zu einer Beschränkung der Anwendungsmöglichkeiten auf der anderen Seite. Um die Proportionalität zu gewährleisten, dürfen sich bestimmte erklärende Kovariablen in ihrem Verhältnis über die Zeit nicht unterscheiden. Jedoch kann dieses Problem durch Einführung subpopulationsspezifischer Basisübergangsraten überwunden werden. 1. Syntax PROC PHREG Optionen; Der Befehl PROC PHREG startet die Prozedur. Wichtige Optionen neben der Deklaration des Input-Datensatzes über DATA=library.datasetname für die Analyse sind folgende: SIMPLE; Die Option SIMPLE gibt deskriptive Statistiken zu den erklärenden Variablen aus (Mittelwert, Standardabweichung, Minimalwert und Maximalwert. NOPRINT; Die Option NOPRINT unterdrückt das Output-Fenster und steigert so die Rechengeschwindigkeit der Prozedur; sie ist sinnvoll, wenn man die Ergebnisse in ein gesonderters Output-File übergibt. NOSUMMARY; Die Option NOSUMMARY unterdrückt die Ausgabe der Übersicht über zensierte und unzensierte Beobachtungen. OUTEST=library.datasetname; Erzeugt einen Output-Datensatz der die Regressionskoeffizienten enthält. Wird außerdem die Option COVOUT deklariert, enthält dieser Datensatz auch die VarianzKovarianz-Matrix der Parameter. 53 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER BASELINE OUT=library.datasetname COVARIATES=library.datasetname; Der Befehl BASELINE OUT=library.datasetname erzeugt einen Output-Datensatz, der die Schätzer der Überlebensfunktion für alle erklärenden Variablen enthält. Der OUT-Befehl definiert den neuen Datensatz, der COVARIATES Datensatz (i.d.R. der Input-Datensatz) muss die erklärenden Variablen enthalten. MODEL var1*censor(wert)= var2 var3 ... / Optionen; Der MODEL-Befehl ist das Kernstück der Prozedur PHREG. Er definiert die abhängige Variable var1 sowie einen optionalen Zensur-Indikator censor (wert beschreibt dabei den Index für zensierte Beobachtungen). Überdies müssen die erklärenden Kovariablen var2 var3 ... nach dem Gleichheitszeichen festgelegt werden. Folgende Optionen zum MODEL-Befehl stehen zur Verfügung: TIES=methode; Die Option TIES=method spezifiziert die Behandlung von Ties (Beobachtungen gleicher Länge) in der Schätzung. Standardmäßig wird die Likelihoodfunktion über den Ansatz von Breslow (1974)9 approximiert (BRESLOW). Darüberhinaus ist es möglich, das PH-Model durch ein diskretes logistisches Model für diskrete Zustände zu ersetzen (DISCRETE). Daneben stehen die Approximation von Efron (1977) (EFRON) sowie ein exakter Ansatz (EXACT) zur Verfügung. Nähere Information zu den Schätzern finden sich in Kalbfleisch et al. (1980)10 . SELECTION=method; Ein wichtiger Anspruch an Verweildauermodelle stellt die Identifikation einflußreicher Kovariablen auf die Hazardrate dar. Zu diesem Zweck kann man mittels der Prozedur PHREG verschiedene Spezifikationen testen und schätzen. Die Auswahl der Kovariablen bzw. Sets von Kovariablen kann über die SELECTION=method Option erfolgen. Vier verschiedene Vorgehensweisen stehen zur Verfügung. Neben der standardmäßigen Methode NONE, in der alle spezifizierten Kovariablen in das Modell mit aufgenommen werden, kann man ausgehend vom Gesamtmodell einzelne erklärende Variablen schrittweise eliminieren (BACKWARD), das Modell schrittweise mit den aufgeführten Variablen aufbauen (STEPWISE), die Variablen nacheinander in das Modell aufnehmen (FORWARD) sowie über die χ2 -Statistik der einzelnen Variablen das beste Set von erklärenden Variablen identifizieren (SCORE). SEQUENTIAL; Die Option SEQUENTIAL führt zu einem aufnehmen der Variable in das Modell nach der Reihenfolge, in der sie im MODEL-Befehl aufgeführt sind. 10 B RESLOW, N. (1974):Covariance Analysis of Censored Survival Data, Biometrics, 30, S. 89-99 siehe hierzu K ALBFLEISCH , J.D. und R.L. P RENTICE (1980).The Statistical Analysis of Failure Time Data, Wiley & Sons, New York et al., S. 70 ff. 10 54 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER SLENTRY=wert; Die Option SLENTRY=wert definiert das Signifikanzniveau zur Aufnahme einer Variablen in das Modell. SLSTAY=wert; Die Option SLSTAY=wert definiert das Signifikanzniveau zur Eliminierung einer Variablen aus dem Modell. MAXITER=n; Die Option MAXITER=n definiert die Obergrenze durchzuführender Iterationen. Von vornherein ist dieser Wert auf 25 begrenzt, und kann bei Bedarf beliebig verringert oder vergrößert werden. STRATA=variable; Durch Einbindung von Strata können unrealistische Annahmen des PH-Modells überwunden werden. So ist es z.B. denkbar, dass sich die Verweildauer in bestimmten Intervallen oder für bestimmte Subpopulationen unterscheidet, was eine Verletzung der Proportionalitätsannahme zur Folge hat. Mit dem Befehl STRATA=variable können verschiedene Strata festgelegt werden, für die das Verweildauermodell geschätzt wird. OUTPUT OUT=library.datasetname schätzer=name; Der Befehl OUPUT OUT=library.datasetname erzeugt einen Output-Datensatz der die Parameterschätzer (XBETA), Standardfehler der Schätzer (STDXBETA), Schätzer der Überlebensfunktion (SURVIVAL) sowie weitere Schätzwerte enthält. RUN; Der RUN-Befehl startet die Prozedur. 2. Output Folgende Informationen werden im Output-Fenster der Prozedur PHREG ausgegeben: • Beschreibung des Input-Datensatzes, einschließlich Aufführung der abhängigen Variablen, Zensur-Variablen, Methode zur Behandlung von Ties. • Überblick über Anzahl zensierter und unzensierter Beobachtungen (außer bei Deklaration von NOSUMMARY). Einfache Statistiken zu den erklärenden Variablen, sofern SIMPLE deklariert wurde. • Statistiken zur Güte des Modells • Analyse der Maximum-Likelihood Schätzer mit Schätzwerten, Standardfehlern, χ2 Statistiken sowie Hazardraten. 55 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 3. Beispiel Die Schätzung mit der Prozedur PHREG wollen wir mit folgendem kleinen Beispiel verdeutlichen. Die Daten stammen aus Kalbfleisch et al. (1980)11 . Es handelt sich dabei um die Ergebnisse eines Experiments mit zwei Gruppen von Ratten, die mit dem krebserregenden Stoff DMBA behandelt wurden sind. Zusätzlich wurden die Ratten radioaktiv bestrahlt. Eine Gruppe der Ratten wurde in einer keimfreien Umgebung gehalten. Die zugrundeliegende Fragestellung untersucht, welche Umgebung eine positivere Wirkung auf die Lebensdauer hat. Vier Beobachtungen im Datensatz sind rechtszensiert. Dies ist begründet in einer anderen Todesursache als dem Krebs. 1. Schritt: Einlesen der Daten. Der Datensatz enthält die Variablen Dauer (Lebensdauer), Gruppe (Gruppe 1: keimfreie Umgebung) sowie Zensur, dem Indikator für zensierter Beobachtungen. DATA RATTEN; LABEL DAUER = ’Tage von Behandlung bis zum Tod’; INPUT DAUER GRUPPE ZENSUR @@; DATALINES; 143 1 0 164 1 0 188 1 0 188 1 0 190 1 0 192 1 0 206 1 0 209 1 0 213 1 0 216 1 0 220 1 0 227 1 0 230 1 0 234 1 0 246 1 0 265 1 0 304 1 0 216 0 0 244 0 0 142 1 1 156 1 1 163 1 1 198 1 1 205 1 1 232 1 1 232 1 1 233 1 1 233 1 1 233 1 1 233 1 1 239 1 1 240 1 1 261 1 1 280 1 1 280 1 1 296 1 1 296 1 1 323 1 1 204 0 1 344 0 1 ; 2. Schritt: Schätzung des Modells. Dauer in Abhängigkeit von Gruppe. PROC PHREG DATA=ratten; MODEL dauer*zensur(0)=gruppe; RUN; Wir erhalten folgende Ergebnisse: 11 siehe oben 56 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Folgende Schlußfolgerungen können gezogen werden. Aufgrund der drei Testergebnisse ist anzunehmen, dass sich die Überlebensfunktionen beider Gruppen unterscheiden. Die 57 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Hazardrate der Kovariablen Gruppe nimmt den Wert 0.551 an. Da die Variablen die Ausprägungen 0 und 1 hat, bedeutet dies, das die Hazardrate der Gruppe 1 niedriger ist als die der Gruppe 0, d.h. Ratten in der Gruppe 1 (in der keimfreien Umgebung) haben eine höhere Lebenserwartung als Ratten in der Gruppe 0. Die Proportionalitäts-Annahme ist nur gewährleistet, wenn die Hazardrate nicht zeitabhängig ist. In einem kurzen Test, wollen wir schauen, ob dies in unserem Beispiel gewährleistet ist. Die Hazardraten in unserem Modell hatte die Form h0 (t) λ(t) = h (t)εβ1 0 wenn Gruppe = 0 wenn Gruppe = 1 Einfache Abweichungen von der Proportionalitätsannahme können mit folgender zeitabhängigen erklärenden Variablen untersucht werden x = x(t): 0 wenn Gruppe = 0 x(t) = log(t) − 5.4 wenn Gruppe = 1 Wir verwenden den Logarithmus der Zeit um numerische Instabilität zu vermeiden. Die Konstante 5.4 ist der Durschnitt der logarithmierten Dauern. Die Hazardrate der beiden Gruppen hat nunmehr folgende Form: εβ1 −5.4β2 tβ2 , mit β2 als Parameter für die zeitabhängige Variable x. Ist β2 > 0(β2 < 0) bedeutet dies, daß sich die Hazardrate über die Zeit erhöht (verringert). 3. Schritt: Ausrechnen der Konstante DATA ratten; SET ratten; log_dauer=log(dauer); RUN; PROC MEANS DATA=ratten; VAR log_dauer; RUN; Wir erhalten: 58 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 4. Schritt: Schätzung des Modells unter Einbezug der zeitabhängigen Variablen x: PROC PHREG DATA=ratten; MODEL DAUER*ZENSUR(0)=GRUPPE X; X = GRUPPE * (log_dauer-5.4); RUN; Als Ergebnis erhalten wir Da der Wert der Hazardrate der zeitabhängigen Variable den Wert null annimmt, können wir davon ausgehen, daß in unserem Beispiel keine Anzeichen für eine zeitabhängige Hazardrate vorhanden sind. 59 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 14. Übungsaufgaben Zur Bearbeitung dieser Aufgabe benötigen Sie den ASCII-Datensatz uebung1.asc. Er steht auf unserer Homepage http://www.wiwi.uni-frankfurt.de/Professoren/hujer/ zum Download bereit. 1. Quantitative Methoden der Volkswirtschaftslehre A UFGABE 1 (I NDIKATOREN UND I NDIZES ): a) Berechnen Sie aus den gegebenen Daten für die Bundesrepublik Deutschland die Zeitreihen für folgende Kenngrößen: - Kapitalintensität - Arbeitsproduktivität - Kapitalproduktivität - unbereinigte Lohnquote - bereinigte Lohnquote b) Bilden Sie wegen der besseren Vergleichbarkeit aus den berechneten Größen Indizes mit der Basis 1960 gleich 100. Stellen Sie die berechneten Indizes sowie die Wachstumsraten der Indizes graphisch dar und interpretieren Sie die Verläufe. A UFGABE 2 (OLS): a) Schätzen Sie mit Hilfe der Kleinst-Quadrate-Methode für die Bundesrepublik Deutschland die Parameter der folgende Cobb-Douglas-Produktionsfunktion: Yt = C · Ktα · eλ·t mit: Y : Output K : Kapital A : Arbeit t : Zeittrend C, α, β, λ : zu schätzende Parameter. b) Interpretieren Sie die geschätzten Parameter und Teststatistiken. Vorgehensweise: - Logarithmische Transformation der Produktionsfunktion 60 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER - Auswahl und Generierung der benötigten Variablen - Schätzung der logarithmierten Funktionsform mit Hilfe der Kleinst-Quadrate- Methode - Interpretation der geschätzten Parameter und Teststatistiken A UFGABE 3 (A RBEITSNACHFRAGE UND OLS): a) Leiten Sie gemäß der neoklassischen Theorie die nachfolgende Arbeitsnachfragefunktion unter der Restriktion der in Aufgabe 2 spezifizierten Cobb-Douglas-Produktionsfunktion her. ln(Lt ) = b0 + b1 · ln(Yt ) + b2 · ln(w) + b3 · ln(r) + b4 · t Um etwaige Rigiditäten auf dem Arbeitsmarkt berücksichtigen zu können, erweitern Sie obige Arbeitsnachfragefunktion gemäß dem Modell der partiellen Anpassung zu: ln(Lt ) = b0 + b1 · ln(Yt ) + b2 · ln(w) + b3 · ln(r) + b4 · t + b5 · ln(Lt−1 ) mit: L: Beschäftigte Arbeitnehmer Y: reales Bruttosozialprodukt w: Reallohn r: reale Kapitalkosten t: Zeittrend b0 , b1 , b2 , b3 , b4 , b5 : zu schätzende Parameter b) Schätzen Sie die Parameter der beiden obigen Arbeitsnachfragefunktionen für die Bundesrepublik Deutschland mit Hilfe der Kleinst-Quadrate-Methode. Interpretieren Sie die geschätzten Parameter und Teststatistiken. Vorgehensweise: • Theoretische Herleitung der Arbeitsnachfragefunktion gemäß der neoklassischen Theorie, d.h. entweder nach dem Gewinnmaximierungsansatz oder nach dem Kostenminimierungsansatz • Formulierung eines Modells der partiellen Anpassung und Berücksichtigung des Anpassungsprozesses in der zu schätzenden Arbeitsnachfragefunktion • Auswahl und Generierung der benötigten Variablen • Schätzung der beiden Arbeitsnachfragefunktionen und Interpretation der geschätzten Parameter und Teststatistiken 61 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 2. Grundlagen der Ökonometrie Die folgenden Übungen beruhen größtenteils auf den Büchern: • G RIFFITHS / H ILL / J UDGE (1993): Learning and Practicing Econometrics, New York. • H ILL (1993): Learning SAS: A Computer Handbook for Econometrics. A Guide to Programming for Learning and Practicing Econometrics and Introduction to the Theory and Practice of Econometrics, New York [SAS-Begleitbuch zu G RIFFITHS / H ILL / J UDGE (1993)]. Zur Bearbeitung der Aufgabe benötigen Sie die ASCII-Datensätze airtrans.asc, kleingol.asc, sugarcan.asc, weizen.asc und brd.asc. Die Datensätze stehen auf unserer Homepage http://www.wiwi.uni-frankfurt.de/Professoren/hujer/ zum Download bereit. A UFGABE 1 (OLS): Der ASCII-Datensatz airtrans.asc enthält Daten für den Zeitraum 1948-1979 für den Luftfracht-Sektor in den USA in der folgenden Reihenfolge: Jahr, Output (Y ), Kapitalkosten (R), Kapital (K), Lohn (W ) und Arbeit (L), mit Ausnahme des Jahres jeweils in Form eines Index. Es soll überprüft werden, wie das Verhältnis von Arbeit und Kapital vom relativen Preis beider Faktoren und von der Höhe des Outputs abhängt. Dazu wird folgendes Modell aufgestellt: ln Lt Kt = β1 + β2 ln Wt Rt + β3 Yt + ut a) Welches Vorzeichen erwarten Sie für den Koeffizienten β2 ? Wie hängt das Vorzeichen von β3 mit der Gestalt des Expansionspfades in einem Diagramm mit Kapital auf der x- und Arbeit auf der y-Achse zusammen? b) Führen Sie eine OLS-Schätzung des Modells durch. Lesen Sie dazu zunächst den Datensatz airtrans.asc ein und führen die notwendigen Variablentransformationen Lt durch. Interpretieren Sie die Schätzergebnisse. Welcher Anteil der Varianz von ln K t wird durch das Modell erklärt? c) Testen Sie die gemeinsame Hypothese, daß β2 = 1 und β3 = 0. Was ist der theoretische Hintergrund für diesen Test? A UFGABE 2 (M ULTIKOLLINEARIT ÄT ): KL EIN / G OLDBERGER(1955)12 verwenden das folgende Modell zur Schätzung des inländischen Konsums in der USA (c) in Abhängigkeit vom Lohneinkommen (w), Einkommen aus 12 KL EIN / G OLDBERGER (1955): An Econometric Model of the United States, 1929-1952, Amsterdam. 62 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER Landwirtschaft (a) und Einkommen, das weder Lohneinkommen noch Einkommen aus Landwirtschaft ist, (p) für den Zeitraum 1928-1950: ct = β1 + β2 wt + β3 pt + β4 at + ut a) Klein/Goldberger schließen den Zeitraum von 1942-1944 aus der Schätzung aus. Warum? b) Erwarten Sie a priori Multikollinearität in diesem Modell? Warum? c) Überprüfen Sie Ihre Erwartung durch eine Korrelationsanalyse. Sie finden die Daten in dem ASCII-Datensatz kleingol.asc (c, w, p, a). d) Führen Sie eine OLS-Schätzung des Modells durch. Können Sie Multikollinearität in den Schätzergebnissen erkennen? Berechnen Sie sich auch die 95%-Konfidenzintervalle für die Parameterschätzwerte. e) Welche Lösungsmöglichkeiten zur Behebung von Multikollinearität kennen Sie? Klein/ Goldberger verwenden folgende Parameter-Restriktionen zur Behebung, die auf früheren empririschen Untersuchungen beruhen: β3 = 0, 75β2 und β4 = 0, 625β2 . Schätzen Sie das Modell erneut unter Berücksichtigung dieser Restriktionen. Wie sehen die Schätzergebnisse nun aus? Was ist das grundsätzliche Problem dieser Vorgehensweise? Überprüfen Sie mit einem F -Test, ob die Restriktionen vereinbar mit den Daten sind. A UFGABE 3 (A UTOKORRELATION ): In Bangladesch wird u.a. Zuckerrohr angebaut. Es soll ein Modell geschätzt werden, das die Fläche erklären soll, auf der Zuckerrohr angebaut wird (Variable: area). Als erklärende Variable dient der relative Preis des Zuckerrohrs gegenüber dem wichtigsten Alternativprodukt Jute. Der Preis des Zuckerrohrs ist p sugar, der von Jute p jute. In dem ASCIIDatensatz sugarcan.asc finden sich die Variablen area, p sugar, p jute. Das zu schätzende Modell lautet: ln(area) = β1 + β2 ln p sugar p jute + ut a) Führen Sie eine OLS-Schätzung des Modells durch. Hat der Schätzer für β2 das erwartete Vorzeichen? Überprüfen Sie mit einem geeigneten Test, ob Autokorrelation 1.Ordnung vorliegt. Schauen Sie sich auch den Plot der Residuen über die Beobachtungen an. b) Modifizieren Sie Ihre Schätzung so, daß Ihnen die OLS-Residuen nach der Schätzung erhalten bleiben und ermitteln Sie einen Schätzwert für r in dem autoregressiven Prozeß 1. Ordnung (AR(1)-Prozeß), der Autokorrelation 1. Ordnung zugrundeliegt (vgl. G UJARATI, S.407 und 427). Ist das Ergebnis Ihrer Schätzung mit dem Ergebnis aus (a) vereinbar? (Hinweis: Achten Sie darauf, ob der AR(1)-Prozeß eine Konstante enthält!) 63 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER c) G UJARATI (1995), S.427-428, schlägt mit der GLS-Methode eine Möglichkeit zur Behebung der Autokorrelation vor. Transformieren Sie Ihre Daten entsprechend und führen Sie die Schätzung aus (a) erneut durch. Wie sieht Ihre Teststatistik nun aus? (Hinweise: Verwenden Sie zur Transformation den Schätzwert für r aus (b); auch die Regressionskonstante ist zu transformieren - generieren sie sich dazu eine neue Variable, die sie statt der standardmäßigen Regressionskonstante in der Schätzung berücksichtigen; beachten Sie auch, daß die die ersten Beobachtungen ( n = 1) anders transformieren müssen.) d) Warum ist ein Vergleich der Standardabweichungen aus (a) und (c) irreführend? A UFGABE 4 (H ETEROSKEDASTIE ): ir betrachten die produzierte Menge an Weizen aggregiert über alle Farmen in einem einzelnen Anbaugebiet in Australien über 26 Jahre. Man kann sicherlich sagen, dass diese Menge zum einen vom (evtl. erwarteten) Weizenpreis, von der Technologie und vom Wetter abhängt. Die Umsetzung in ein ökonometrisches Modell stößt auf das Problem, dass es die Wettervariable“ nicht geben kann, Wettereffekte werden deshalb Teil der Störva” riable sein. Außerdem ist die verwendete Technologie schwer messbar. Wir verwenden deshalb Zeit als eine Proxyvariable, die Änderungen in der Technologie repräsentieren soll. Unser Modell sieht dann wie folgt aus (q = produzierte Menge Weizen; p = von der Regierung garantierter Preis für Weizen;t = 1, . . . , 26 als Trendvariable): qt = β1 + β2 pt + β3 t + ut Es ist außerdem bekannt, dass nach dem dreizehnten hier betrachteten Jahr neue Weizenarten eingeführt wurden, die weniger anfällig auf das Wetter reagieren. Da Wettereinflüsse in unsere Störgröße eingehen, wird die Annahme einer homoskedastischen Störvariablen nicht zu halten sein. Vielmehr werden nun folgende Annahmen über die Störgröße zugrundegelegt: E[ut ] = 0 t = 1, 2, . . . , 26 E[u2t ] = σ12 t = 1, 2, . . . , 13 E[u2t ] t = 14, . . . , 26 = σ22 Außerdem erwarten wir dem Hintergrund entsprechend, daß σ22 < σ12 (warum?). a) Lesen Sie den ASCII-Datensatz weizen.asc (q, p, t) ein und führen Sie separate OLSSchätzungen für die beiden Teilzeiträume durch. Stimmen sie mit den Erwartungen überein? b) Führen Sie aufgrund der Schätzergebnisse einen Goldfeld-Quandt-Test auf Heteroskedatie durch (s.G UJARATI(1995, S.374-377); aber besser: G REENE (1993, S.393-394)). Verzichten Sie dabei aus Vereinfachungsgründen darauf, vorher Beobachtungen aus dem Sample zu entfernen. Dies hat nur einen Einfluß auf die Macht des Tests. 64 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER c) Führen Sie eine feasible GLS-Schätzung für das gesamte Sample durch. Von einer feasible GLS-Schätzung wird gesprochen, wenn man das von G UJARATI (1995, S.381382) diskutierte Verfahren anwendet und dabei statt der unbekannten wahren Varianzen die geschätzen Varianzen verwendet. Interpretieren Sie die Schätzergenisse im Vergleich zu denen aus (a). (Hinweis: Erneut ist auch eine Transformation der Regressionskonstanten notwendig!) A UFGABE 5 (P RODUKTIONSFUNKTION F ÜR DIE B UNDESREPUBLIK ): Schätzen Sie mit Hilfe von OLS die Parameter der folgenden Cobb-Douglas-Produktionsfunktion für die Bundesrepublik Deutschland 1960 - 1991 und interpretieren Sie die Schätzergebnisse: Yt = δ · Ktα · Aβt · eλt t mit: Y = Output; K = Kapital; A = Arbeit und t = Zeittrend Grundlage ist der Datensatz brd.asc mit folgenden Variablen: JAHR Jahr ECP Privater Verbrauch (Mrd. DM 1985) EIP Anlageinvestitionen aller Untern. (Mrd. DM 1985) K Bruttoanlagevermögen insg. (Mrd. DM 1985) LE Beschäftige Arbeitnehmer insg. (Mio) LHT Arbeitsvolumen insgesamt (Mio Std.) LSE Selbständige und Mithelfende (Mio) PECP Impl. Preisindex priv. Verb. (1985=100) POP Wohnbevölkerung (Mio.) PXGNP Impliziter Preisindex BSP (1985 = 100) RL Langfristiger Zins TIME Zeittrend UCUM Kapazitätsauslastung insgesamt X Bruttowertschöpfung (Mrd. DM 1985) XGNPDM Bruttosozialprodukt (Mrd. DM) YDH Verfügbares Einkommen der priv. HH. (Mrd. DM) YL Eink. aus unselbst. Arbeit insg.(Mrd.DM) YLA Durchsch. Einkommen je Beschäftigtem (Tsd.DM) YNNI Nettosozialprodukt zu Faktorkosten (Mrd. DM). 65 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 3. Mikroökonometrie Die folgenden Übungen beruhen größtenteils auf den Büchern: • G RIFFITHS / H ILL / J UDGE(1993): Learning and Practicing Econometrics, New York. • H ILL(1993): Learning SAS: A Computer Handbook for Econometrics. A Guide to Programming for Learning and Practicing Econometrics and Introduction to the Theory and Practice of Econometrics, New York [SAS-Begleitbuch zu G RIFFITHS / H ILL / J UD GE (1993)]. • G REENE (1997): Econometric Analysis, New York. • E CKEY / K OSFELD / D REGER (1995): Ökonometrie, Gabler-Verlag Zur Bearbeitung der Aufgabe benötigen Sie die ASCII-Datensätze airtrans.asc, kleingol.asc, sugarcan.asc, weizen.asc und brd.asc. Die Datensätze stehen auf unserer Homepage http://www.wiwi.uni-frankfurt.de/Professoren/hujer/ zum Download bereit. A UFGABE 1 (V ERGLEICH ZWISCHEN LWM, L OGIT UND P ROBIT ): S PECTOR UND M AZZEO (1980) untersuchten in einer Studie die Wirkung einer neuen Lehrmethode in dem Fach Ökonomie auf die Leistung von Schülern. Der SAS-Datensatz teach enthält 32 Beobachtungen von Schülern, die mit dieser neuen Lehrtechnik unterrichtet wurden (PSI = 1). Die abhängige Variable GRADE zeigt an ob sich die Leistung verbessert hat (GRADE=1) oder nicht (GRADE=0). Als weitere Variablen sind GPA, die Durchschnittsno-tenpunktzahl, und TUCE, das Ergebnis eines Vortests der das ökonomische Basiswissen überprüft hat, enthalten. a) Berechnen Sie die Erfolgswahrscheinlichkeit P(GRADE = 1) in Abhängigkeit der Variablen GPA, PSI und TUCE. Schätzen Sie zunächst eine lineares Wahrscheinlichkeitsmodell, dann ein Probit-Modell und abschließend ein Logit-Modell. b) Interpretieren Sie die Ergebnisse. Wie erklären Sie sich die Unterschiede in den verschiedenen Modellen? c) Berechnen Sie Mc Faddens R2 für das Logit- und das Probit-Modell. d) Wie hoch ist die Erfolgswahrscheinlichkeit für einen Schüler, mit den Ausprägungen (GPA: 2.4, TUCE: 27, PSI: 1) im Logit-Modell? A UFGABE 2 (L OGIT UND P ROBIT ): Der Datensatz vote enthält die Ergebnisse der US-Präsidentschaftswahlen des Jahres 1976 für 51 Staaten. Die Variablen DEMO und REP enthalten jeweils die auf die Demokratische und die Republikanische Partei entfallenen Stimmen (in Tausend). INCOME ist das durchschnittliche Familieneinkommen aus dem Jahre 1975. Die Variable SCHOOL gibt die 66 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER durchschnittliche Anzahl von Schuljahren an, die von Personen über 17 Jahren absolviert wurden. URBAN ist der Prozentanteil von Personen, die in einem städtischen Gebiet“ ” wohnen und REGION ist eine regionale Dummy-Variable, die die folgenden Ausprägungen annehmen kann: 1 = Northeast, 2 = Southeast, 3 = Midwest und Middle South, 4 = West und Mountain States. a) Generieren Sie eine Indexvariable, die den Wert 1 annimmt, wenn die Demokratische Partei in einem Staat gewonnen hat. b) Schätzen Sie ein Logit- und ein Probit-Modell und verwenden Sie als erklärende Variablen: INCOME, SCHOOL, URBAN und die Regionen. Interpretieren Sie die Ergebnisse. 67 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER 4. Finanzökonometrie Für die folgenden Übungen benötigen Sie Datensätze, die Sie von unsere Homepage downloaden können: http://www.wiwi.uni-frankfurt.de/Professoren/hujer/. Die Datensätze sind zumeist dem Buch von Mills (1996), The Econometric Modelling of Financial Time Series, Cambridge, entnommen. A UFGABE 1 (I DENTIFIKATION VON ARIMA M ODELLEN ): Modellieren Sie die Zeitreihe whatami, die Sie in der Datei whatami finden können. Dieser Zeitreihe liegt ein simulierter stochastischer ARMA(p,q) Prozess zugrunde. Identifizieren Sie die Ordnung der AR und MA-Teile. A UFGABE 2 (S CH ÄTZEN VON UND P ROGNOSE MIT ARIMA M ODELLEN ): Modellieren Sie die Zeitreihe der nominalen FTA-all-share monatlichen Returns (FTARET) als ARIMA-Prozess. a) Prüfen Sie, zunächst nur graphisch und anhand der empirischen Autokorrelationen, die Stationarität von FTARET. Versuchen Sie zunächst, anhand der empirischen Autokorrelationsfunktion einen zugrundeliegenden ARIMA-Prozess zu identifizieren. b) Schätzen Sie die Parameter der Modelle mit der Maximum-Likelihood-Methode. Schätzen Sie die von Ihnen gewählten AR(p) Prozesse mit Conditional Least Squares und Maximum Likelihood. Vergleichen Sie die Schätzergebnisse. c) Begründen Sie die Wahl Ihres Modells anhand des Akaike- und Schwarz-Kriteriums, der Signifikanz der Parameter-Schätzwerte und der Korrelationsstruktur der geschätzten Residuen. Schreiben Sie das geschätzte Modell in verschiedenen Notationen eines ARMA-Modells. d) Prognostizieren Sie FTARET 12 Perioden in die Zukunft. Diskutieren Sie die Prognosegüte des von Ihnen gewählten Ansatzes. Stellen Sie die Prognose und die unteren und oberen Grenzen des 95 % Konfidenzintervalles graphisch dar. A UFGABE 3 (S CH ÄTZEN VON GARCH M ODELLEN ): Modellieren Sie die Zeitreihe der nominalen FTA-all-share monatlichen Returns (FTARET) als GARCH-Prozess. a) Spezifizieren Sie zunächst ein ARCH(1) und ein GARCH(1,1) Modell und schätzen Sie die Parameter der Modelle mit der Maximum-Likelihood-Methode. Prüfen Sie die Stationarität der von Ihnen geschätzten bedingten Varianzen. b) Plotten Sie die sich ergebende Schätzung der bedingten Varianz der beiden Modelle zusammen mit der Originalzeitreihe und diskutieren Sie die unterschiedlichen Ergebnisse 68 SAS: E INE ERSTE ANWENDUNGSORIENTIERTE E INF ÜHRUNG F ÜR Ö KONOMETRIKER c) Wählen Sie nach Ihnen bekannten Modell-Selektionskriterien ein geeignetes GARCH (p,q)-Modell zur Beschreibung von FTARET. Begründen Sie Ihre Entscheidung d) Schätzen Sie ein E-GARCH-Modell und prüfen Sie die Hypothese asymmetrisch wirkender Schocks auf die Volatilität von FRARET. Nehmen Sie das von Ihnen gewählte E-GARCH-Modell in Ihr Modellportfolio auf? e) Prüfen Sie auf G(ARCH) in Mean-Effekte. (Höherer Return bei höherer Volatilität). f) Schätzen Sie die Modelle nochmals unter der Annahme von t-verteilten Innovationen. Prüfen Sie die Hypothese der Normalverteilung. 69