Allgemeine Regressionsanalyse Daten (Xj ,Yj ),j = 1,...,N

Prof. Dr. J. Franke
Statistik II für Wirtschaftswissenschaftler 9.1
Allgemeine Regressionsanalyse
Daten (Xj , Yj ), j = 1, . . . , N unabhängig
Kovariablen / Prädiktoren / unabhängige Variablen Xj ∈ Rd, evtl.
deterministisch
Regressionsmodell:
Yj = g(Xj ) + ej , j = 1, . . . , N,
g(x) = beste Vorhersage für neue Beobachtung YN +1,
wenn XN +1 = x bekannt ist
Regressionsgerade: x ∈ R, g(x) = b0 + b1x
Eej = 0
Prof. Dr. J. Franke
Statistik II für Wirtschaftswissenschaftler 9.2
Multiple Regression: Xj ∈ Rd
Analog zu Regressionsgerade: g linear in x:
g(x) = b0 + b1x1 + . . . + bdxd
Kleinste-Quadrate Schätzer für Regressionsparameter b0, . . . , bd:
Minimiere
N
X
!2
Yj − b0 − b1Xj1 − . . . bdXjd
!
j=1
Pd
Pd
g quadratisch in x: g(x) = b0 + i=1 bixi + i,k=1 bik xixk
Solange die unbekannten Parameter bk linear in g eingehen
explizite Formeln für Schätzer
Prof. Dr. J. Franke
Statistik II für Wirtschaftswissenschaftler 9.3
Logistische Regression
Anwendung: Credit Scoring
Aufgabe: Gegeben d Kovariable zu Kreditantrag - sage vorher,
ob Kredit problemlos zurückgezahlt wird
Daten: Kovariable Xj ∈ Rd, Default-Indikator Yj = 1, falls Probleme bei Rückzahlung, = 0 sonst j = 1, . . . , N = 2000, u.i.v.
Klassifikationsregel:
r(x) = 0 ↔ kreditwürdig, = 1 ↔ nicht kreditwürdig
Optimal (im Sinn von minimaler Wahrscheinlichkeit für Fehlklassifikationen):
o
r (x) = 1 ⇐⇒ Ws Yj = 1Xj = x > Ws Yj = 0Xj = x
Prof. Dr. J. Franke
Statistik II für Wirtschaftswissenschaftler 9.4
1
o
r (x) = 1 ⇐⇒ g(x) = Ws Yj = 1Xj = x >
2
Problem: Schätze g(x)!
Modell: Y1, . . . , YN unabhängige 0-1-Zufallsgrößen mit
Ws Yj = 1Xj = x = ` b0 + b1x1 + . . . + bdxd
1
und `(u) =
= logistische Funktion
−u
1+e
multiple Regression, linear in den Kovariablen + Transformation
`, damit Werte in [0,1].
Kovariable (etwa 20):
Kredit: Höhe, Verwendungszweck, Laufzeit, Ratenhöhe, ...
Kunde: Alter, Einkommen, Berufstyp, Kreditgeschichte, Schulden, ...
Prof. Dr. J. Franke
Statistik II für Wirtschaftswissenschaftler 9.5
Verallgemeinerte lineare Regression (GLIM)
Anwendung: Restwertabschätzung von Leasing-Fahrzeugen
Kovariable Xj :
Kilometerstand, Motorisierung, Modellreihe, Modellhistorie, Lackfarbe, Polsterfarbe, Polstermaterial, diverse Ausstattungsmerkmale, ...
3er, schwache Motorisierung: Lackfarbe keinen signifikanten Einfluss auf Restwert
3er, stärkere Motoren: Lackfarbe hat Einfluss
Modell: Restwert Yj = g(Xj ) + ej ,
Linkfunktion f
g(x) = f b0 + b1x1 + . . . + bdxd
Prof. Dr. J. Franke
Statistik II für Wirtschaftswissenschaftler 9.6
Schätzer für b0, . . . , bd z.B. wieder über Kleinste-Quadrate:
Minimiere
N
X
Yj − f b0 + b1Xj1 + . . . bdXjd
!
2
!
j=1
I.a. nur numerisch lösbar.
Ähnliches Problem: Wertermittlung von Immobilien
Kovariable Xj :
Grundstücksgröße, Wohnfläche, Anzahl Stockwerke, Unterkellerung, Dachform, Wohnlage, ...
Vorteil GLIM: Verbindet Einfachheit und übersichtliche Struktur von multipler linearer Regression mit mehr Flexibilität durch
nichtlineare Linkfunktion f
Prof. Dr. J. Franke
Statistik II für Wirtschaftswissenschaftler 9.7
2 Probleme:
a) Behandlung von qualitativen Kovariablen (z.B. Berufstyp
beim Credit Scoring, Lackfarbe bei der Restwertabschätzung,
Dachform bei Immobilien, ...)
Dummy-Variable, z.B. Lackfarbe ∈ rot, dunkelblau, dunkelgrün,
eisblau, schwarz, weiß, silber, bronze
xi ∈ {0, 1}3,
xi = (0, 0, 0) ↔ rot, . . . , xi = (1, 1, 1) ↔ bronze
b) Vermeidung von Überanpassung (Overfit) an Daten:
Modelle mit vielen Parametern versuchen, nicht nur die allgemeinen Zusammenhänge zwischen den Yj und den Kovariablen Xj
zu beschreiben, sondern passen sich auch an die rein zufälligen
Schwankungen ej in der Stichprobe an
schlechtere Vorhersagequalität für neue Daten
Prof. Dr. J. Franke
Statistik II für Wirtschaftswissenschaftler 9.8
Regression und Vorhersage von Zeitreihen
Zeitreihendaten (Aktienkurse, Umsatzzahlen, ...): X1, . . . , XN
Sage XN +1, XN +2, . . . vorher!
Für Vorhersagezwecke eignen sich besonders autoregressive Modelle, die analog zu Regressionsmodellen sind:
Xt = g Xt−1, . . . , Xt−p + et
Innovationen et u.i.v. mit Eet = 0
c
Beste Vorhersage: XN +1 = g XN , . . . , XN +1−p
Prof. Dr. J. Franke
Statistik II für Wirtschaftswissenschaftler 9.9
Schätzer für Vorhersagefunktion g wie Schätzung von Regressionsfunktionen
Lineare Autoregression der Ordnung 1: Xt = bXt−1 + et
N
X
!2
Xt − bXt−1
t=2
= min!
b
Allgemein: Außer den vergangenen Daten der Zeitreihe Xt selbst
exogene Zeitreihen Zt ∈ Rd vorhanden
Xt = g Xt−1, . . . , Xt−p, Zt−1, . . . , Zt−q + et
c
Beste Vorhersage: X
N +1 = g XN , . . . , XN +1−p , ZN , . . . , ZN +1−q
Prof. Dr. J. Franke
Statistik II für Wirtschaftswissenschaftler 9.10
Erkennen von Strukturen in komplexen Daten
Hauptkomponentenanalyse
Modell: X1, . . . , XN d-dimensional
normalverteilt
0 mit
Mittelwertsvektor µ = EXj,1, . . . , EXj,d ,
Kovarianzmatrix C = cov (Xj,k , Xj,`
k,`=1,...,d
d sehr groß. Finde möglichst informative Projekten der Daten auf
niedrig-dimensionalen (ideal 2 oder 3, da graphisch darstellbar)
Vektor von Hauptkomponenten
1. Hauptkomponente: Zj =
Pd
i=1 wi Xj,i ∈ R mit var Zj = maxw1 ,...,wd !
Anwendung: Risikofaktoren in Bankportfolio (d = 500 - 5000)
Prof. Dr. J. Franke
Statistik II für Wirtschaftswissenschaftler 9.11
Clusteranalyse
Modell: X1, . . . , XN d-dimensional normalverteilt
Es gibt G ≥ 1 Gruppen mit unterschiedlichen Mittelwerten µ1, . . . , µG
und Kovarianzmatrizen C1, . . . , CG
G =?
Anschließend Klassifikation: neues X = x beobachtet - zu welcher Gruppe gehört das Objekt?
Anwendung: Umverstrukturierung von Schuhlager, so dass oft
gemeinsam bestellte Schuhe nahe beeinander lagern
Wegeminimierung der Lagerarbeiter

Zugehörige Unterlagen

Überblick

Bivariate lineare Regression

Hypergeometrische Verteilung Für n, M ≤ N heißt Zufallsgröße mit

Allgemeine Regressionsanalyse Daten (Xj ,Yj ),j = 1,...,N

Zugehörige Unterlagen

Produkte

Unterstützung

Allgemeine Regressionsanalyse Daten (Xj ,Yj ),j = 1,...,N

Zugehörige Unterlagen

Dieses Dokument Sammlung (en)

Dieses Dokument gespeichert

Schlagen Sie uns vor, wie wir StudyLib verbessern können