Inhaltsverzeichnis 1 Einleitung 2 3 1 Grundlagen der statistischen Modellierung 2.1 Parametrisehe Methoden zur Approximation und Klassifikation 2.1.1 Der klassische parametrisehe Ansatz 2.1.2 Approximation: Das klassische lineare Modell 2.1.3 Binäre lineare Klassifikation 2.1.4 Berücksichtigung qualitativer Einflüsse 2.2 Grundlagen der statistischen Lerntheorie 2.2.1 Der lerntheoretische Ansatz 2.2.2 Das statistische Lernproblem 2.2.3 Fehlerfunktionen 2.2.4 Empirische Risikominimierung 2.2.5 Strukturelle Risikominimierung 2.3 Statistisches Lernen: Das künstliche neuronale Netz 2.3.1 Perzeptrons und künstliche Neuronen 2.3.2 Das Multi-Layer-Perzeptron 2.4 Statistisches Lernen: Die Support-Vektor-Maschine 2.4.1 Linear separierbare Daten: Maximal-Margin-SVM 2.4.2 Nicht linear separierbare Daten: Soft-Margin-SVM 2.4.3 Nichtlineare SVM: Die Kern-Methode . . Bewertung und Auswahl statistischer Modelle 3.1 Schätzqualität und Anpassungsgüte 3.1.1 Prüfung des linearen ökonometrischen Modells 3.1.2 Prüfung der varianzanalytischen Streunngszerlegung 3.1.3 Klassifikationsgüte 3.1.4 Likelihood-Analyse 3.2 Prognosequalität 3.2.1 Modellkomplexität und Generalisierungsfähigkeit 3.2.2 Erwarteter Prognosefehler 3.2.3 Schätzung des Prognosefehlers 3.3 Modellauswahl 3.3.1 Schrittweise Selektion 3.3.2 Informationskriterien IX Bibliografische Informationen http://d-nb.info/991906802 digitalisiert durch 5 9 9 18 22 38 43 43 44 45 47 49 51 51 56 73 77 82 86 95 96 96 101 103 110 114 111 117 120 126 126 127 INHALTSVERZEICHNIS 4 Parametrisehe Statistik und statistische Lerntheorie im Data Mining 129 4.1 Statistisches Data Mining: Begriffsbestimmung und Ablauf 130 4.2 Problernstellung: Solvenzanalyse anhand von Jahresabschlüssen . . 135 4.2.1 Externe Bilanzanalyse 136 4.2.2 Datenbasis 138 4.2.3 Aufbereitung der Positionen der Bilanz und GuV 141 4.2.4 Ableitung von relativen Bilanzkennzahlen 143 4.3 Datenvorbereitung und verwendete Software 146 4.4 Klassische statistische Solvenzanalyse 151 4.4.1 Logistische Regression zur Solvenzklassifikation 151 4.4.2 Lineare Diskriminanzanalyse zur Solvenzklassifikation . . . . 159 4.5 Statistische neuronale Netze zur Solvenzklassifikation 163 4.5.1 Netzwerkspezifikation 1C3 4.5.2 Training und Bewertung des MLP 167 4.6 Support-Vektor-Maschinen zur Solvenzklassifikation 175 4.0.1 Modellbewertung und Gridsearch 176 4.7 Erweiterung: Schätzung von Klassenwahrscheinlichkeiten 181 4.IS Vergleich der Klassifikationsergebnisse 189 5 Ein statistisches Datenqualitätsmanagement im Data Mining 193 5.1 Data Mining zur Bestimmung und Verbesserung der Datenqualität . 195 5.1.1 Datenqualität als Voraussetzung für Data Mining 195 5.1.2 Vorgehensmodell eines statistischen Datenqualitätsmanagements 199 5.2 DQ-Dimension Datenkomplexität: Variablenkonsolidierung 204 5.2.1 Das Multikollinearitätsproblein 204 5.2.2 Faktorenanalyse zur Variablenreduktion 209 5.3 DQ-Dimensionen Korrektheit und Konsistenz: Dirty Data Detection 221 5.3.1 AusreifSerdiagnose und -beseitigung 221 5.3.2 Homogenisierung des Datenbestandes 225 5.3.3 Semantische Datenmodellierung und Konsistenzanalyse . . . 243 5.4 DQ-Dimension Vollständigkeit: Umgang mit fehlenden Werten . . . 255 5.4.1 Eliminierung fehlender Werte: Identifikation der Referenzdaten261 5.4.2 Ersetzung fehlender Werte 262 5.5 Schätz- und Prognoseeffekte nach erfolgtem Datenqualitätsmanagement 266 5.5.1 Verwendung der konsolidierten, homogenen und ausreißerbereinigten Datenmengen 208 5.5.2 Datenersetzung und Referenzdatenmodellierung 276 5.5.3 Erfolgskontrolle des sDQM 280 6 Zusammenfassung und Ausblick 283 INHALTSVERZEICHNIS Anhang XI 288 A Formale Erweiterungen und Herleitungen 289 A.l Kleinste-Quadrate-Optimierung im klassischen linearen Modell . . . 289 A.2 Maximum-Likelihood-Üptimierung im klassischen linearen Modell . 290 A.3 Varianz des Prognosefehlers im klassischen linearen Modell 291 A.4 Partieller Einfluss einer unabhängigen Variable im Logit-Modell . . 292 A.5 Fundamentaltheorem der Faktorenanalyse 292 B Datentabellen 295 Literaturverzeichnis 303