DAS Data Science

School of
Engineering
Weiterbildungen im
Bereich Data Science
–
–
–
–
Zürcher Fachhochschule
DAS
CAS
CAS
CAS
Data Science
Information Engineering
Datenanalyse
Data Science Applications
www.engineering.zhaw.ch
Weiterbildung
1
Impressum
Text: ZHAW School of Engineering
Druck: Druckerei Peter Gehring AG, Winterthur
Papier: Lessebo Smooth White,
FSC- und PEFC-zertifiziert, CO 2-neutral
März 2014 – 500
Einleitung
Gemäss «Harvard Business Review» gilt der Beruf des Data Scientists
als der «sexiest job» des 21. Jahrhunderts. Dementsprechend
hoch ist bereits heute die Nachfrage nach Data Scientists bzw. nach
Spezialisten im Bereich Big Data in der Wirtschaft. Es gibt jedoch
derzeit noch wenig gut ausgebildete Data Scientists, die diesen Anforderungen gerecht werden.
Das Diploma of Advanced Studies (DAS) Data Science bietet
das Rüstzeug, um sich als Data Scientist in unterschiedlichsten
Fragestellungen erfolgreich zu bewähren. Das DAS ist interdisziplinär
aufgebaut und vermittelt Fähigkeiten etwa aus den Bereichen
Data Warehousing & Big Data, Information Retrieval & Text Analytics
sowie Statistics & Machine Learning. IT-Grundlagen, explorative
Datenanalyse, Datenvisualisierung, Data Product Design und rechtlichethische Aspekte runden die Fähigkeiten eines Daten-Allrounders ab.
Die erworbenen Kenntnisse ermöglichen es, komplexe Fragestellungen
an der Schnittstelle zwischen Daten, IT und Business zu beantworten,
neue Lösungswege aufzuzeigen und alleine oder im Team zu
erarbeiten.
Das DAS Data Science ist modular aufgebaut und besteht aus
drei Certificates of Advanced Studies (CAS), nämlich dem CAS
Information Engineering, dem CAS Datenanalyse sowie dem CAS Data
Science Applications.
3
Zielgruppe
Das DAS Data Science bzw. die darin enthaltenen
CAS richten sich an Personen, die
– U
nternehmensdaten oder öffentliche
Daten bearbeiten
– d
atengestützte (Entscheidungs-)
Grundlagen in Form von Berichten oder
Web-Applikationen erstellen
– K
undendaten (im Customer Relationship
Management, kurz CRM) auswerten wollen
– w
issenschaftliche Daten auswerten wollen
– v erschiedenste Datenquellen zusammenführen
und auswerten wollen
– b
estehende Informationen in einer oder
verschiedenen Datenquellen auffinden wollen
– in den Bereichen Business Analytics
oder Business Intelligence arbeiten
Zielsetzungen
Die Absolventen erwerben sowohl theoretische
Grundlagen als auch praktische Fähigkeiten in den
folgenden Bereichen:
– D
ata Warehousing & Big Data
– Information Retrieval & Text Analytics
– S
tatistik & Machine Learning
– D
esign & Entwicklung von Data Products
– Datenschutz & Datensicherheit
Modularer Aufbau
Das DAS Data Science ist modular aufgebaut
und besteht aus folgenden drei Certificates of
Advanced Studies (CAS):
– C
AS Information Engineering
– C
AS Datenanalyse
– C
AS Data Science Applications
Das CAS Information Engineering und das
CAS Datenanalyse sind unabhängig voneinander
und können somit in beliebiger Reihenfolge
absolviert werden.
Das CAS Data Science Applications kann nur
nach erfolgreicher Absolvierung des CAS
Information Engineering sowie des CAS Daten
analyse absolviert werden.
Sowohl das CAS Information Engineering
als auch das CAS Datenanalyse finden in Form
von Präsenzveranstaltungen und Praktika
statt. Das CAS Data Science Applications besteht
zu 80 Prozent aus Präsenzveranstaltungen
und zu 20 Prozent aus einer selbstständigen
Projektarbeit.
Die Studierenden sind in der Lage, aus strukturierten und unstrukturierten Daten Informationen
zu extrahieren, zur Analyse bereitzustellen
und für weitere Aufgaben nutzbar zu machen.
Des Weiteren besitzen sie die Fähigkeiten,
statistische Analysen von komplexen Daten zu
machen und sind imstande, skalierbare Lösungen
zu entwickeln, um die immer grösser werdenden
Datenmengen in Unternehmen zu bewältigen.
Dadurch sind sie in der Lage, durch datengetriebene
Enscheidungsunterstützung massgeblich
zum Erfolg Ihres Unternehmens beizutragen.
4
5
Struktur und Inhalt
CAS Information Engineering
Überblick
Wir leben in einer Welt, in welcher die Sammlung,
Aufbereitung und Nutzbarmachung von Infor
mationen und Daten zunehmend zentral wird. Unter
Information Engineering verstehen wir Methoden
und Verfahren zur Gestaltung und Entwicklung von
Informationssystemen.
In diesem CAS lernen Sie, wie man sowohl mit
strukturierten Daten ( z. B. aus Datenbanken und
Data Warehouses) als auch mit semistrukturierten
und unstrukturierten Daten (z. B. Weblogs, Text
dokumenten, Bildern, Videos etc.) umgeht.
Folgende Fragestellungen stehen im Zentrum des
CAS Information Engineering:
– Welche Scripting-Methoden eignen sich für
die Prozessierung von Daten?
– Was sind die Grundlagen einer relationalen
Datenbank und wie kann ich Daten mit
einer geeigneten Abfragesprache (SQL) filtern?
– Warum braucht man ein Data Warehouse und
wie integriert man Daten aus unterschiedlichen
Systemen?
– Was verbirgt sind hinter Big Data (Hadoop,
MapReduce, Pig, Hive, STORM etc.)
und welche neuen Fragestellungen lassen sich
damit beantworten?
– W ie kann ich Sentimentanalyse für meine Unternehmung einsetzen, um neue Erkenntnisse
über die Kundenzufriedenheit zu gewinnen und
effektiv darauf zu reagieren?
Modul
Inhalt
Lernziele
A:
Scripting
– E
inführung in Python mit sciPy
und scikit-learn
– A
nwendungsmöglichkeiten in den
Bereichen Datenextraktion,
Datenanalyse und Datenvisualisierung
– Erstellung von Mashups mit
externen Web-Services
– S
ie kennen die Grundlagen der ScriptSprache Python sowie der relevanten
Bibliotheken.
– S ie können die Script-Sprache für
unterschiedliche Schritte im Datenanalyseprozess einsetzen.
2
B:
Datenbanken
and Data
Warehousing
– R
elationale Algebra und Datenbankabfragesprache SQL
– Einführung in Decision-Support-Systeme:
Definition, Abgrenzung, Vergleich OLTP
(transaktionsbasierte Systeme) und OLAP
(Analysesysteme)
– A rchitektur und Modellierung: DWH-
Aufbau, Datenmodellierung für Analysezwecke
– ETL-Prozess: Kopplung von OLTP und
Business Intelligence (BI)-Welt, automatisiertes Laden, Datenqualität: Fehler
erkennung und -korrektur, iteratives
Vorgehen beim DWH-Entwurf
Wie man strukturierte Daten aufbereitet,
modelliert und für die Analyse bereitstellt.
– S ie verstehen die Grundlagen der
relationalen Algebra und können die Datenbanksprache SQL anwenden.
– S ie verstehen die Wesensmerkmale
und den Aufbau sowie den Zweck von
DWH-Systemen.
– S ie können Architektur und Design
von skalierenden DWH-Systemen entwerfen.
– S ie kennen die Technologien und Bausteine
von DWH-Systemen und sind in der Lage,
diese Bausteine beispielhaft zur Implementation
zu nutzen.
3
C:
Big Data
– B
ig-Data-Überblick: Einsatzkonzepte für
grosse und unstrukturierte Daten
– Überblick über NoSQL
– S kalierbare Abfragen und Analysen:
MapReduce mit Hadoop, SQL-ähnliche
Interfaces mit Pig und Hive
– Real Time Analytics mit STORM
Wie man skalierbare Analysesysteme mit
Big-Data-Technologie aufbaut und nutzt.
– Sie verstehen die Wesensmerkmale und den Aufbau sowie den Zweck von Big-Data-Systemen
– S ie können Big-Data-Systeme beurteilen
und evaluieren.
– S ie sind in der Lage, ein Big-Data-Projekt
mit beliebiger Datenmenge durchzuführen.
– S ie haben in den Praktika Hands-onErfahrung mit State-of-the-Art-Tools wie
Apache Hadoop Ecosystem gesammelt.
2
D:
Information
Retrieval &
Text Analytics
– E
inführung in Information Retrieval
– Grundlagen: Modelle, Probability Ranking
Principle, Rangierungsregeln
– Indizierung/Vergleich: Textanalyse,
Gewichtung, Systeme /Architektur
– S
entiment-Analyse, Text Summarization,
mehrsprachiges und sprachübergreifendes Retrieval
– M
ultimedia Information Access
Wie man unstrukturierte Texte aufbereitet und
nutzbar macht.
– S ie kennen konkrete Retrievalsysteme
(z. B. Websuche/Google, fachspezifische
Suche u. a.) und haben einen soliden Einblick
in das Gebiet: Grundlagen, Theorie, Stand
der Technik, Praxis und Auswertung.
– S ie beherrschen die Wahl der richtigen
Technologie für Suchaufgaben und können
Information-Retrieval-Systeme evaluieren
und bewerten.
– S ie kennen Methoden der tiefergehenden
Textanalyse wie Sentimentanalyse und
können mit maschineller Übersetzung
umgehen.
– Sie lernen Methoden kennen, um Merkmale aus
nicht textuellen Dokumenten zu extrahieren.
3
Methodik
Klassenunterricht, begleitetes Selbststudium
(praktische Arbeiten an Fallbeispielen mit Laptop),
individuelles Selbststudium, Prüfungsvorbereitungen und Modulendprüfung.
Unterrichtszeiten
– Der Unterricht findet berufsbegleitend einmal
pro Woche jeweils am Montagnachmittag von
13 – 19 Uhr (6 Lektionen) statt.
– Das CAS Information Engineering dauert
rund sieben Monate.
– D en individuellen Stundenplan erhalten die
Studierenden spätestens einen Monat vor
Studienbeginn. Die schulfreie Zeit richtet sich
nach den Schulferien der Stadt Winterthur.
Studienleitung
Dr. Kurt Stockinger
Telefon +41 58 934 49 79
[email protected]
ECTS
TOTAL ECTS-Punkte
6
10
7
Struktur und Inhalt
CAS Datenanalyse
Überblick
Das CAS Datenanalyse vermittelt einen Einstieg in
das statistische Denken sowie in klassische und
neue Konzepte der Datenanalyse. Die Studierenden
lernen in Abhängigkeit der fachlichen Fragestellung
(business understanding) und der Art der Daten
Vorgehensweisen und Methoden kennen, um nützliche Erkenntnisse aus den Daten zu extrahieren.
Folgende Fragestellungen stehen im Zentrum
des CAS Datenanalyse:
– W ie können Daten beschrieben und
dargestellt werden?
– Welche Informationen sind in den Daten
enthalten, wie werden diese sichtbar
gemacht und welche Schlüsse können
daraus gezogen werden?
– W ie und welche Daten sollen erhoben
werden?
Methodik
Klassenunterricht, begleitetes Selbststudium
(praktische Arbeiten an Fallbeispielen mit Laptop),
individuelles Selbststudium, Prüfungsvorbereitungen und Modulendprüfung.
Unterrichtszeiten
– Der Unterricht findet berufsbegleitend einmal
pro Woche jeweils am Mittwochnachmittag von
13 –19 Uhr (6 Lektionen) statt.
– Das CAS Datenanalyse dauert
rund sieben Monate.
– Den individuellen Stundenplan erhalten die
Studierenden spätestens einen Monat vor
Studienbeginn. Die schulfreie Zeit richtet sich
nach den Schulferien der Stadt Winterthur.
Studienleitung
Prof. Dr. Andreas Ruckstuhl
Telefon +41 58 934 78 12
[email protected]
Modul
Inhalt
Lernziele
A:
Konzepte und
Werkzeuge zur
Beschreibung und
Visualisierung von
Daten
– A
llgemeine Einführung, Datentypen, Verteilung und Kennzahlen
(Lage, Streuung, Quantile)
– E
inführung in das zu verwendende
Statistikprogramm (R mit R-Studio)
– D
atenvisualisierung mit Balkendiagramm,
Kuchendiagramm, Häufigkeitstabellen,
Histogramm, Korrelationsmatrix,
Pairs-Plot, Boxplot und Streudiagramm,
Mosaikplot
– D
os and don ̓ ts der grafischen
Darstellung von Daten
– S
impson-Paradoxon
– S
ie können Daten geeignet beschreiben
und grafisch darstellen.
– S
ie erkennen missbräuchliche Anwendungen
von grafischen Darstellungen.
– S
ie sind vertraut mit dem SimpsonParadoxon.
2
B:
Statistische
Grundlagen der
Datenanalyse
– S
tatistisches Modell versus Daten
– Z
ufallsvariable
– S
chliessende Statistik (Schätzen,
Vertrauensintervall, Testen) bei Zähldaten
(Poisson- und Binomial-Modell) und
bei metrischen Daten (Normalverteilung)
– Z
entraler Grenzwertsatz
– S
ie können mit einfachen statistischen
Modellen umgehen.
– S
ie kennen die statistischen Konzepte der
Schätzung, des Hypothesentests sowie des
Vertrauensintervalls und können sie in der
Praxis anwenden.
2
C:
Multiple
Regression,
die Basis
der Datenanalyse
– M
ultiple lineare Regression
– M
odellvielfalt
– S
chätzung der Parameter, Hypothesentest und Vertrauensintervalle
– P
rognose und Prognose-Bereiche
– R
esiduen-Analyse, Variablenselektion,
Kreuzvalidierung und Modellbaustrategien
– Interpretation, Transformationen
– S
ie können das multiple lineare Regressionsmodell zur Analyse von metrischen Daten
(z. B. Messdaten) und zur Prognose einsetzen.
– S
ie können beurteilen, ob das Regressionsmodell zu den Daten passt (Residuen-Analyse).
– S
ie können ein Regressionsmodell Datengestützt entwickeln.
2
D:
Zeitreihen und
Prognosen
–
–
–
–
–
W
as sind Zeitreihen?
S
TL-Zerlegung
A
utokorrelation
A
rt der Prognose
U
nsicherheit von Prognosen
(quantitative Bewertung
der Prognosegüte)
– Z
eitliche Prognosen mit
exponentieller Glättung
– A
R-Prozess
– S
ie kennen die Eigenheiten von Zeitreihen.
– S ie können Zeitreihen in ihre Bestandteile
zerlegen.
– S ie können exponentielle Glätter für die
Prognose einsetzen und Prognoseunsicherheiten bestimmen.
2
E:
Clustering und
Klassifikation
–
–
–
–
–
–
– S
ie können gängige Methoden zur Struktur
entdeckung in Daten anwenden.
– S
ie können einem Objekt mit einer Auswahl
von Klassifikationsverfahren Daten-gestützt
seine Klassenzugehörigkeit ermitteln.
– S
ie können die Performance eines
Klassifikationsverfahrens bei einem gegebenen
Datensatz ermitteln.
2
H
ierarchische Cluster-Verfahren
H
eatmap
K
lassifikationsbaum
B
ootstrapping
R
andom Forest
B
eurteilung eines Klassifikators
(Fehlerrate, Sensitivität, Spezifität etc.)
ECTS
TOTAL ECTS-Punkte
8
10
9
Struktur und Inhalt
CAS Data Science Applications
Überblick
Das CAS Data Science Applications baut auf die
beiden zuvor beschriebenen CAS auf. Basierend
auf den dort vermittelten Analyse-zentrierten
IT- und Statistik-Kompetenzen wird im Rahmen
des CAS Data Science Applications die Arbeit
des Data Scientists in den Mittelpunkt gestellt.
Die Studierenden lernen, Data Products mit
Blick auf technische, analytische, gesellschaftliche
und betriebliche Fragestellungen zu entwickeln.
Der verantwortungsvolle Umgang mit Daten wird
durch die Gegenüberstellung fortgeschrittener
technischer Möglichkeiten und Aspekten aus Sicherheit, Privatheit und Recht vermittelt.
Folgende Fragestellungen stehen im Zentrum des
CAS Data Science Applications:
– W ie schafft man optimale Bedingungen für
maschinelles Lernen?
– W ie kann das menschliche Sehen zur Analyse
und Vermittlung von Informationen eingesetzt
werden?
– Was macht ein gutes Data Product aus?
– W ie verhält man sich im Spannungsfeld von
Big-Data-Analyse und Datenschutz?
10
Methodik
Klassenunterricht, begleitetes Selbststudium
(praktische Arbeiten an Fallbeispielen mit Laptop),
individuelles Selbststudium und Projektarbeit.
Unterrichtszeiten
– Der Unterricht findet berufsbegleitend einmal
pro Woche jeweils am Mittwochnachmittag von
13 –19 Uhr (6 Lektionen) statt.
– Das CAS Data Science Applications
dauert rund 6 Monate.
– Den individuellen Stundenplan erhalten die
Studierenden spätestens einen Monat vor
Studienbeginn. Die schulfreie Zeit richtet sich
nach den Schulferien der Stadt Winterthur.
Studienleitung
Dr. Kurt Stockinger
Telefon +41 58 934 49 79
[email protected]
Modul
Inhalt
Lernziele
ECTS
A:
Machine
Learning
– G
rundlagen, Einsatzkonzepte und Best
Practices für Machine Learning
– A
usgewählte Machine Learning
Algorithmen (Clustering, Classification,
Anomaly Detection)
– S
kalierbare Machine-Learning-Lösungen
mit Apache Mahout
– F
eature Engineering
– Sie kennen die wesentlichen Grundlagen und
Best Practices zum Einsatz von ML-Verfahren.
– S ie können skalierbare Machine-LearningAlgorithmen basierend auf Hadoop und
Mahout einsetzen.
– S ie können für einen gegebenen Datensatz
ein geeignetes ML-Verfahren auswählen und
die Features entsprechend aufbereiten.
2
B:
Big Data
Visualization
– V
isualisierung von grossen /
hochdimensionalen Daten
– B
eispiele für innovative Visualisierungen
(Parallel Coordinates, Grand-Tour)
– Interaktive Visualisierungen
– V
isualisieren von Ähnlichkeiten
(Dendrogram, Hypertree)
– G
raph Analytics
– S
ie verwenden grafische Darstellungen Ihrer
Daten zur Analyse («Visual Analytics») und
Präsentation («Informationsvisualisierung»).
– S
ie kennen dimensionsreduzierende Verfahren und können diese anwenden.
– S
ie kennen die Grundlagen guter grafischer
Visualisierungen.
2
C:
Design und
Entwicklung
von Data
Products
– W
as kennzeichnet ein gutes
Data Product?
– W
orauf muss beim Entwickeln von
Data Products geachtet werden?
– W irtschaftliche Aspekte
– Nutzung von externen (Daten-)
Ressourcen
– C
ase Studies & Best Practices für
gute Data Products
– S
ie kennen die wichtigsten Design-Aspekte
von Data Products.
– S
ie kennen die wirtschaftliche Bedeutung von
Data Products.
– S
ie können die verschiedenen Anforderungen
an das Data Product integrieren.
– S
ie kennen zusätzliche Ressourcen und
können diese nutzen.
1
D:
Datenschutz
und Datensicherheit
– R
echtliche Rahmenbedingungen
in der Schweiz
– E
thik der Datenauswertung
– S
icherheitskonzepte zum Schutz
von Daten
– Datenanonymisierung und ihre Grenzen
– S
ie kennen die rechtlichen und ethischen
Rahmenbedingungen für den Umgang mit
Daten in der Schweiz.
– S
ie wissen, wie man Daten mit modernen
Sicherheitsmechanismen schützt.
1
E:
Projektarbeit
– A
rbeit über ein ausgewähltes Thema
des Bereichs Data Science (aus dem
eigenen Arbeitsbereich oder der aktuellen
Forschung)
– S
elbständiges Erarbeiten und Implementieren
eines Data-Science-Projektes.
4
TOTAL ECTS-Punkte
10
11
Allgemeine Informationen
Studiendauer DAS Data Science
Das Studium wird berufsbegleitend absolviert und
findet je nach gewählter Variante entweder einmal
oder zweimal pro Woche statt. Das gesamte DAS
Data Science umfasst ca. 70 Kurstage. In der
parallelen Variante kann das gesamte DAS in etwas
mehr als 1 Jahr absolviert werden.
Die konsekutive Variante dauert rund 2 Jahre. Die
einzelnen CAS dauern je rund ein halbes Jahr. Die
folgenden beiden Abbildungen verdeutlichen diese
beiden Varianten.
Montag
Mittwoch
Start
Oktober
Start
Oktober
CAS Information
Engineering
Folgende Informationen betreffen sowohl das gesamte DAS Data
Science als auch die einzelnen darin enthaltenen CAS. Der
modulare Aufbau des DAS Data Science erlaubt es Ihnen, Ihre
Weiterbildung zeitlich als auch inhaltlich individuell entlang
Ihren Bedürfnissen zu planen.
CAS
Datenanalyse
Zulassung
Die Zulassung zu einem DAS oder CAS setzt
grundsätzlich einen Hochschulabschluss (Fachhochschule, HTL, HWV, Uni, ETH) voraus. Es
können aber auch Praktikerinnen und Praktiker mit
vergleichbarer beruflicher Kompetenz zugelassen
werden, wenn sich die Befähigung zur Teilnahme
aus einem anderen Nachweis ergibt.
Grundkenntnisse der Programmierung in einer
beliebigen Programmiersprache und Affinität zu
Datenbanken und zur Datenanalyse sind von Vorteil.
Ende
Mai
Start
Juni
Abbildung 1: DAS Data Science in paralleler Variante.
Durchlaufzeit rund 1 Jahr.
Ende
November
CAS Data Science
Applications
Ende
Juni
12
13
Montag
Mittwoch
Abschluss / ECTS
Der erfolgreiche Abschluss eines der oben vorgestellten CAS wird mit einem CAS-Zertifikat bestätigt. Die Studienleistung eines solchen CAS
entspricht 10 ECTS-Punkten (European Credit
Transfer System).
Nach erfolgreichem Abschluss aller drei CAS wird
das Diplom «DAS in Data Science» erteilt. Die
Studienleistung dieses DAS entspricht 30 ECTSPunkten.
CAS Information
Engineering
Start
Oktober
Studiengebühren
Die Details bzgl. Studiengebühren können Sie
direkt unserer Website entnehmen:
www.engineering.zhaw.ch/weiterbildung
Ende
Juni
CAS
Datenanalyse
Start
Oktober
Durchführungsort
ZHAW Zürcher Hochschule
für Angewandte Wissenschaften
School of Engineering
Technikumstrasse 9
CH-8401 Winterthur
Dozierende
Das Team der Dozierenden besteht aus ausgewiesenen Fachpersonen mit Kompetenzen im akademischen und praktischen Bereich. Hier ein Auszug
der Dozierendenliste:
Prof. Dr. Martin Braschler
Dr. Marcel Dettling
Dr. Oliver Dürr
Dr. Christoph Hofer
Prof. Dr. Andreas Ruckstuhl
Prof. Dr. Beate Sick
Dr. Thilo Stadelmann
Dr. Kurt Stockinger
Informationsveranstaltung
Sie können sich über folgenden Link
zu einer der regelmässig stattfindenden
Informationsveranstaltungen anmelden:
www.engineering.zhaw.ch/weiterbildung
Anmeldung
Anmelden können Sie sich direkt online unter:
www.engineering.zhaw.ch/weiterbildung
Ende
Mai
CAS Data Science
Applications
Start
Juni
Abbildung 2: DAS Data Science in konsekutiver Variante. Das CAS
Information Engineering und das CAS Datenanalyse können auch in umgekehrter Reihenfolge absolviert werden. Durchlaufzeit rund 2 Jahre.
14
Ende
November
15
Zürcher Hochschule
für Angewandte Wissenschaften
School of Engineering
Sekretariat Weiterbildung Winterthur
Technikumstrasse 9
CH-8401 Winterthur
Telefon +41 58 934 74 28
[email protected]
www.engineering.zhaw.ch/weiterbildung
16