0. Prolog - TU Dresden

Werbung
0. Prolog
Datenintegration und –analyse / Methods of Data Science
Wer für Wen ???
DOZENTEN
§ Dr.-Ing. Martin Hahmann martin.hahmann@tu-dresden
§ Dipl.-Inf. Claudio Hartmann [email protected]
§ Dipl.-Inf. Lars Kegel [email protected]
VORLESUNG
§
§
§
§
SG Informatik - Bachelor: INF-B-510, INF-B-520
SG Medieninformatik - Bachelor: INF-B-530, INF-B-540
SG Wirtschaftsinformatik - Bachelor: WI-MA-08-01
Informatik/Medieninformatik Diplom: Wahlpflichtfach im Fachgebiet Architektur verteilter Systeme
oder im Fachgebiet Informations- und Anwendungssysteme oder im Vertiefungsgebiet Datenbanken
ANRECHENBARE SEMESTERWOCHENSTUNDEN
§ 2 SWS Vorlesung (konzeptionelle Grundlagen), 2 SWS Übung (praktische Anwendung)
2
Weitere Informationen zur Vorlesung
ZEIT
§ Vorlesung: Mittwoch, 3.DS (11:10 Uhr bis 12:40 Uhr) in APB/E010
§ Übung: Montag, 2.DS (09:20 Uhr bis 10:50 Uhr) in APB/E010
SKRIPT UND AKTUELLE INFORMATIONEN
§ Folien werden unter http://wwwdb.inf.tu-dresden.de zum Ausdrucken zur Verfügung gestellt
(Zugriff von außerhalb der TUD: Login: tud Passwort: dbs - und umgekehrt)
§ Ankündigungen sind ebenfalls von http://wwwdb.inf.tu-dresden.de abrufbar
RÜCKMELDUNGEN UND FRAGEN
§ Fragen, Anmerkungen, Kritik, Rückmeldungen sind immer erwünscht
§ Kontakt per EMail oder per persönlichem Gespräch
PRÜFUNG
§ Mündliche Prüfung (Schwerpunkt Zusammenhangswissen)
3
Ziel
FOKUS AUF DATA SCIENCE
4
Aufbau
CROSS-INDUSTRY STANDARD PROCESS FOR DATA MINING (CRISP-DM)
Business
Understanding
Data
Understanding
Data
Preparation
Business
Objectives
Assess Situation
Data Mining Goals
Project Plan
Collect Initital Data
Describe Data
Explore Data
Verify Data Quality
Select Data
Clean Data
Integrate Data
Format Data
Modeling
Evaluation
Deployment
Modeling
Technique
General Test
Design
Parameter Settings
Assess Model
Evaluate Results
Approve Models
Next Steps
Plan Deployment
Plan Monitoring
Plan Maintenance
Report and Review
5
Aufbau
PROZESS LMU
6
Aufbau
0./1. Intro / DWH Architecture
2. MDM / Rel. Mapping
Basic Datamanagement
3. Schema Integration
4. Complex Datatypes
Basic Data Interpretation
5. Visual Analytics
6. Clustering
7. Association Rules
Essential Data Analytics (descriptive & predictive)
8. Classification
9. Forecasting
10. Machine Learning
11. Analytic Tools
Advanced Data Analytics
12. Graph analytics/ guest
7
Literatur
BASISLITERATUR
§ Ulf Leser, Felix Naumann: „Informationsintegration: Architekturen und Methoden zur Integration
verteilter und heterogener Datenquellen“, dpunkt-Verlag, 2006.
§ Peter Dadam: „Verteilte Datenbanken und Client/Server-Systeme“, Springer Verlag, 1996.
§ Andreas Bauer, Holger Günzel: „Data-Warehouse-Systeme: Architektur, Entwicklung, Anwendung“,
dpunkt-Verlag, 2004.
§ Wolfgang Lehner: „Datenbanktechnologie für Data-Warehouse-Systeme: Konzepte und Methoden“,
dpunkt-Verlag, 2003.
§ Martin Ester, Jörg Sander: „Knowledge Discovery in Databases: Techniken und Anwendungen“,
Springer Verlag, 2000.
§ David Hand, Heikki Mannila, Padhraic Smyth: „Principles of Data Mining“, MIT Press, 2001.
§ Pang-Ning Tan, Michael Steinbach, Vipin Kumar: „Introduction to Data Mining“, Addison-Wesley,
2005.
§ George E. P. Box, Gwilym M. Jenkins, Gregory C. Reinsel: “Time Series Analysis: Forecasting and
Control”, John Wiley, 2008.
8
Literatur (2)
ZUSATZLITERATUR
§ Relevante Papiere und Bücher werden themenbezogenen erwähnt und dienen zur Unterstützung des
Verständnis
COPYRIGHT-HINWEIS
§ Die Unterlagen enthalten unter Beachtung von Copyright-Richtlinien Beispiele und Abbildungen aus
o.g. Büchern
§ Die (kommerzielle) Nutzung der Unterlagen außerhalb der TU Dresden ist nicht gestattet
9
Herunterladen