Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.1 Allgemeine Regressionsanalyse Daten (Xj , Yj ), j = 1, . . . , N unabhängig Kovariablen / Prädiktoren / unabhängige Variablen Xj ∈ Rd, evtl. deterministisch Regressionsmodell: Yj = g(Xj ) + ej , j = 1, . . . , N, g(x) = beste Vorhersage für neue Beobachtung YN +1, wenn XN +1 = x bekannt ist Regressionsgerade: x ∈ R, g(x) = b0 + b1x Eej = 0 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.2 Multiple Regression: Xj ∈ Rd Analog zu Regressionsgerade: g linear in x: g(x) = b0 + b1x1 + . . . + bdxd Kleinste-Quadrate Schätzer für Regressionsparameter b0, . . . , bd: Minimiere N X !2 Yj − b0 − b1Xj1 − . . . bdXjd ! j=1 Pd Pd g quadratisch in x: g(x) = b0 + i=1 bixi + i,k=1 bik xixk Solange die unbekannten Parameter bk linear in g eingehen explizite Formeln für Schätzer Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.3 Logistische Regression Anwendung: Credit Scoring Aufgabe: Gegeben d Kovariable zu Kreditantrag - sage vorher, ob Kredit problemlos zurückgezahlt wird Daten: Kovariable Xj ∈ Rd, Default-Indikator Yj = 1, falls Probleme bei Rückzahlung, = 0 sonst j = 1, . . . , N = 2000, u.i.v. Klassifikationsregel: r(x) = 0 ↔ kreditwürdig, = 1 ↔ nicht kreditwürdig Optimal (im Sinn von minimaler Wahrscheinlichkeit für Fehlklassifikationen): o r (x) = 1 ⇐⇒ Ws Yj = 1Xj = x > Ws Yj = 0Xj = x Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.4 1 o r (x) = 1 ⇐⇒ g(x) = Ws Yj = 1Xj = x > 2 Problem: Schätze g(x)! Modell: Y1, . . . , YN unabhängige 0-1-Zufallsgrößen mit Ws Yj = 1Xj = x = ` b0 + b1x1 + . . . + bdxd 1 und `(u) = = logistische Funktion −u 1+e multiple Regression, linear in den Kovariablen + Transformation `, damit Werte in [0,1]. Kovariable (etwa 20): Kredit: Höhe, Verwendungszweck, Laufzeit, Ratenhöhe, ... Kunde: Alter, Einkommen, Berufstyp, Kreditgeschichte, Schulden, ... Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.5 Verallgemeinerte lineare Regression (GLIM) Anwendung: Restwertabschätzung von Leasing-Fahrzeugen Kovariable Xj : Kilometerstand, Motorisierung, Modellreihe, Modellhistorie, Lackfarbe, Polsterfarbe, Polstermaterial, diverse Ausstattungsmerkmale, ... 3er, schwache Motorisierung: Lackfarbe keinen signifikanten Einfluss auf Restwert 3er, stärkere Motoren: Lackfarbe hat Einfluss Modell: Restwert Yj = g(Xj ) + ej , Linkfunktion f g(x) = f b0 + b1x1 + . . . + bdxd Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.6 Schätzer für b0, . . . , bd z.B. wieder über Kleinste-Quadrate: Minimiere N X Yj − f b0 + b1Xj1 + . . . bdXjd ! 2 ! j=1 I.a. nur numerisch lösbar. Ähnliches Problem: Wertermittlung von Immobilien Kovariable Xj : Grundstücksgröße, Wohnfläche, Anzahl Stockwerke, Unterkellerung, Dachform, Wohnlage, ... Vorteil GLIM: Verbindet Einfachheit und übersichtliche Struktur von multipler linearer Regression mit mehr Flexibilität durch nichtlineare Linkfunktion f Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.7 2 Probleme: a) Behandlung von qualitativen Kovariablen (z.B. Berufstyp beim Credit Scoring, Lackfarbe bei der Restwertabschätzung, Dachform bei Immobilien, ...) Dummy-Variable, z.B. Lackfarbe ∈ rot, dunkelblau, dunkelgrün, eisblau, schwarz, weiß, silber, bronze xi ∈ {0, 1}3, xi = (0, 0, 0) ↔ rot, . . . , xi = (1, 1, 1) ↔ bronze b) Vermeidung von Überanpassung (Overfit) an Daten: Modelle mit vielen Parametern versuchen, nicht nur die allgemeinen Zusammenhänge zwischen den Yj und den Kovariablen Xj zu beschreiben, sondern passen sich auch an die rein zufälligen Schwankungen ej in der Stichprobe an schlechtere Vorhersagequalität für neue Daten Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.8 Regression und Vorhersage von Zeitreihen Zeitreihendaten (Aktienkurse, Umsatzzahlen, ...): X1, . . . , XN Sage XN +1, XN +2, . . . vorher! Für Vorhersagezwecke eignen sich besonders autoregressive Modelle, die analog zu Regressionsmodellen sind: Xt = g Xt−1, . . . , Xt−p + et Innovationen et u.i.v. mit Eet = 0 c Beste Vorhersage: XN +1 = g XN , . . . , XN +1−p Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.9 Schätzer für Vorhersagefunktion g wie Schätzung von Regressionsfunktionen Lineare Autoregression der Ordnung 1: Xt = bXt−1 + et N X !2 Xt − bXt−1 t=2 = min! b Allgemein: Außer den vergangenen Daten der Zeitreihe Xt selbst exogene Zeitreihen Zt ∈ Rd vorhanden Xt = g Xt−1, . . . , Xt−p, Zt−1, . . . , Zt−q + et c Beste Vorhersage: X N +1 = g XN , . . . , XN +1−p , ZN , . . . , ZN +1−q Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.10 Erkennen von Strukturen in komplexen Daten Hauptkomponentenanalyse Modell: X1, . . . , XN d-dimensional normalverteilt 0 mit Mittelwertsvektor µ = EXj,1, . . . , EXj,d , Kovarianzmatrix C = cov (Xj,k , Xj,` k,`=1,...,d d sehr groß. Finde möglichst informative Projekten der Daten auf niedrig-dimensionalen (ideal 2 oder 3, da graphisch darstellbar) Vektor von Hauptkomponenten 1. Hauptkomponente: Zj = Pd i=1 wi Xj,i ∈ R mit var Zj = maxw1 ,...,wd ! Anwendung: Risikofaktoren in Bankportfolio (d = 500 - 5000) Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 9.11 Clusteranalyse Modell: X1, . . . , XN d-dimensional normalverteilt Es gibt G ≥ 1 Gruppen mit unterschiedlichen Mittelwerten µ1, . . . , µG und Kovarianzmatrizen C1, . . . , CG G =? Anschließend Klassifikation: neues X = x beobachtet - zu welcher Gruppe gehört das Objekt? Anwendung: Umverstrukturierung von Schuhlager, so dass oft gemeinsam bestellte Schuhe nahe beeinander lagern Wegeminimierung der Lagerarbeiter