0. Prolog Datenintegration und –analyse / Methods of Data Science Wer für Wen ??? DOZENTEN § Dr.-Ing. Martin Hahmann martin.hahmann@tu-dresden § Dipl.-Inf. Claudio Hartmann [email protected] § Dipl.-Inf. Lars Kegel [email protected] VORLESUNG § § § § SG Informatik - Bachelor: INF-B-510, INF-B-520 SG Medieninformatik - Bachelor: INF-B-530, INF-B-540 SG Wirtschaftsinformatik - Bachelor: WI-MA-08-01 Informatik/Medieninformatik Diplom: Wahlpflichtfach im Fachgebiet Architektur verteilter Systeme oder im Fachgebiet Informations- und Anwendungssysteme oder im Vertiefungsgebiet Datenbanken ANRECHENBARE SEMESTERWOCHENSTUNDEN § 2 SWS Vorlesung (konzeptionelle Grundlagen), 2 SWS Übung (praktische Anwendung) 2 Weitere Informationen zur Vorlesung ZEIT § Vorlesung: Mittwoch, 3.DS (11:10 Uhr bis 12:40 Uhr) in APB/E010 § Übung: Montag, 2.DS (09:20 Uhr bis 10:50 Uhr) in APB/E010 SKRIPT UND AKTUELLE INFORMATIONEN § Folien werden unter http://wwwdb.inf.tu-dresden.de zum Ausdrucken zur Verfügung gestellt (Zugriff von außerhalb der TUD: Login: tud Passwort: dbs - und umgekehrt) § Ankündigungen sind ebenfalls von http://wwwdb.inf.tu-dresden.de abrufbar RÜCKMELDUNGEN UND FRAGEN § Fragen, Anmerkungen, Kritik, Rückmeldungen sind immer erwünscht § Kontakt per EMail oder per persönlichem Gespräch PRÜFUNG § Mündliche Prüfung (Schwerpunkt Zusammenhangswissen) 3 Ziel FOKUS AUF DATA SCIENCE 4 Aufbau CROSS-INDUSTRY STANDARD PROCESS FOR DATA MINING (CRISP-DM) Business Understanding Data Understanding Data Preparation Business Objectives Assess Situation Data Mining Goals Project Plan Collect Initital Data Describe Data Explore Data Verify Data Quality Select Data Clean Data Integrate Data Format Data Modeling Evaluation Deployment Modeling Technique General Test Design Parameter Settings Assess Model Evaluate Results Approve Models Next Steps Plan Deployment Plan Monitoring Plan Maintenance Report and Review 5 Aufbau PROZESS LMU 6 Aufbau 0./1. Intro / DWH Architecture 2. MDM / Rel. Mapping Basic Datamanagement 3. Schema Integration 4. Complex Datatypes Basic Data Interpretation 5. Visual Analytics 6. Clustering 7. Association Rules Essential Data Analytics (descriptive & predictive) 8. Classification 9. Forecasting 10. Machine Learning 11. Analytic Tools Advanced Data Analytics 12. Graph analytics/ guest 7 Literatur BASISLITERATUR § Ulf Leser, Felix Naumann: „Informationsintegration: Architekturen und Methoden zur Integration verteilter und heterogener Datenquellen“, dpunkt-Verlag, 2006. § Peter Dadam: „Verteilte Datenbanken und Client/Server-Systeme“, Springer Verlag, 1996. § Andreas Bauer, Holger Günzel: „Data-Warehouse-Systeme: Architektur, Entwicklung, Anwendung“, dpunkt-Verlag, 2004. § Wolfgang Lehner: „Datenbanktechnologie für Data-Warehouse-Systeme: Konzepte und Methoden“, dpunkt-Verlag, 2003. § Martin Ester, Jörg Sander: „Knowledge Discovery in Databases: Techniken und Anwendungen“, Springer Verlag, 2000. § David Hand, Heikki Mannila, Padhraic Smyth: „Principles of Data Mining“, MIT Press, 2001. § Pang-Ning Tan, Michael Steinbach, Vipin Kumar: „Introduction to Data Mining“, Addison-Wesley, 2005. § George E. P. Box, Gwilym M. Jenkins, Gregory C. Reinsel: “Time Series Analysis: Forecasting and Control”, John Wiley, 2008. 8 Literatur (2) ZUSATZLITERATUR § Relevante Papiere und Bücher werden themenbezogenen erwähnt und dienen zur Unterstützung des Verständnis COPYRIGHT-HINWEIS § Die Unterlagen enthalten unter Beachtung von Copyright-Richtlinien Beispiele und Abbildungen aus o.g. Büchern § Die (kommerzielle) Nutzung der Unterlagen außerhalb der TU Dresden ist nicht gestattet 9