Inhaltsverzeichnis

Werbung
Inhaltsverzeichnis
1 Einleitung
2
3
1
Grundlagen der statistischen Modellierung
2.1 Parametrisehe Methoden zur Approximation und Klassifikation
2.1.1 Der klassische parametrisehe Ansatz
2.1.2 Approximation: Das klassische lineare Modell
2.1.3 Binäre lineare Klassifikation
2.1.4 Berücksichtigung qualitativer Einflüsse
2.2 Grundlagen der statistischen Lerntheorie
2.2.1 Der lerntheoretische Ansatz
2.2.2 Das statistische Lernproblem
2.2.3 Fehlerfunktionen
2.2.4 Empirische Risikominimierung
2.2.5 Strukturelle Risikominimierung
2.3 Statistisches Lernen: Das künstliche neuronale Netz
2.3.1 Perzeptrons und künstliche Neuronen
2.3.2 Das Multi-Layer-Perzeptron
2.4 Statistisches Lernen: Die Support-Vektor-Maschine
2.4.1 Linear separierbare Daten: Maximal-Margin-SVM
2.4.2 Nicht linear separierbare Daten: Soft-Margin-SVM
2.4.3 Nichtlineare SVM: Die Kern-Methode
. .
Bewertung und Auswahl statistischer Modelle
3.1 Schätzqualität und Anpassungsgüte
3.1.1 Prüfung des linearen ökonometrischen Modells
3.1.2 Prüfung der varianzanalytischen Streunngszerlegung
3.1.3 Klassifikationsgüte
3.1.4 Likelihood-Analyse
3.2 Prognosequalität
3.2.1 Modellkomplexität und Generalisierungsfähigkeit
3.2.2 Erwarteter Prognosefehler
3.2.3 Schätzung des Prognosefehlers
3.3 Modellauswahl
3.3.1 Schrittweise Selektion
3.3.2 Informationskriterien
IX
Bibliografische Informationen
http://d-nb.info/991906802
digitalisiert durch
5
9
9
18
22
38
43
43
44
45
47
49
51
51
56
73
77
82
86
95
96
96
101
103
110
114
111
117
120
126
126
127
INHALTSVERZEICHNIS
4
Parametrisehe Statistik und statistische Lerntheorie im Data
Mining
129
4.1 Statistisches Data Mining: Begriffsbestimmung und Ablauf
130
4.2 Problernstellung: Solvenzanalyse anhand von Jahresabschlüssen . . 135
4.2.1 Externe Bilanzanalyse
136
4.2.2 Datenbasis
138
4.2.3 Aufbereitung der Positionen der Bilanz und GuV
141
4.2.4 Ableitung von relativen Bilanzkennzahlen
143
4.3 Datenvorbereitung und verwendete Software
146
4.4 Klassische statistische Solvenzanalyse
151
4.4.1 Logistische Regression zur Solvenzklassifikation
151
4.4.2 Lineare Diskriminanzanalyse zur Solvenzklassifikation . . . . 159
4.5 Statistische neuronale Netze zur Solvenzklassifikation
163
4.5.1 Netzwerkspezifikation
1C3
4.5.2 Training und Bewertung des MLP
167
4.6 Support-Vektor-Maschinen zur Solvenzklassifikation
175
4.0.1 Modellbewertung und Gridsearch
176
4.7 Erweiterung: Schätzung von Klassenwahrscheinlichkeiten
181
4.IS Vergleich der Klassifikationsergebnisse
189
5
Ein statistisches Datenqualitätsmanagement im Data Mining
193
5.1 Data Mining zur Bestimmung und Verbesserung der Datenqualität . 195
5.1.1 Datenqualität als Voraussetzung für Data Mining
195
5.1.2 Vorgehensmodell eines statistischen Datenqualitätsmanagements
199
5.2 DQ-Dimension Datenkomplexität: Variablenkonsolidierung
204
5.2.1 Das Multikollinearitätsproblein
204
5.2.2 Faktorenanalyse zur Variablenreduktion
209
5.3 DQ-Dimensionen Korrektheit und Konsistenz: Dirty Data Detection 221
5.3.1 AusreifSerdiagnose und -beseitigung
221
5.3.2 Homogenisierung des Datenbestandes
225
5.3.3 Semantische Datenmodellierung und Konsistenzanalyse . . . 243
5.4 DQ-Dimension Vollständigkeit: Umgang mit fehlenden Werten . . . 255
5.4.1 Eliminierung fehlender Werte: Identifikation der Referenzdaten261
5.4.2 Ersetzung fehlender Werte
262
5.5 Schätz- und Prognoseeffekte nach erfolgtem Datenqualitätsmanagement
266
5.5.1 Verwendung der konsolidierten, homogenen und ausreißerbereinigten Datenmengen
208
5.5.2 Datenersetzung und Referenzdatenmodellierung
276
5.5.3 Erfolgskontrolle des sDQM
280
6
Zusammenfassung und Ausblick
283
INHALTSVERZEICHNIS
Anhang
XI
288
A Formale Erweiterungen und Herleitungen
289
A.l Kleinste-Quadrate-Optimierung im klassischen linearen Modell . . . 289
A.2 Maximum-Likelihood-Üptimierung im klassischen linearen Modell . 290
A.3 Varianz des Prognosefehlers im klassischen linearen Modell
291
A.4 Partieller Einfluss einer unabhängigen Variable im Logit-Modell . . 292
A.5 Fundamentaltheorem der Faktorenanalyse
292
B Datentabellen
295
Literaturverzeichnis
303
Herunterladen