School of Engineering Weiterbildungen im Bereich Data Science – – – – Zürcher Fachhochschule DAS CAS CAS CAS Data Science Information Engineering Datenanalyse Data Science Applications www.engineering.zhaw.ch Weiterbildung 1 Impressum Text: ZHAW School of Engineering Druck: Druckerei Peter Gehring AG, Winterthur Papier: Lessebo Smooth White, FSC- und PEFC-zertifiziert, CO 2-neutral März 2014 – 500 Einleitung Gemäss «Harvard Business Review» gilt der Beruf des Data Scientists als der «sexiest job» des 21. Jahrhunderts. Dementsprechend hoch ist bereits heute die Nachfrage nach Data Scientists bzw. nach Spezialisten im Bereich Big Data in der Wirtschaft. Es gibt jedoch derzeit noch wenig gut ausgebildete Data Scientists, die diesen Anforderungen gerecht werden. Das Diploma of Advanced Studies (DAS) Data Science bietet das Rüstzeug, um sich als Data Scientist in unterschiedlichsten Fragestellungen erfolgreich zu bewähren. Das DAS ist interdisziplinär aufgebaut und vermittelt Fähigkeiten etwa aus den Bereichen Data Warehousing & Big Data, Information Retrieval & Text Analytics sowie Statistics & Machine Learning. IT-Grundlagen, explorative Datenanalyse, Datenvisualisierung, Data Product Design und rechtlichethische Aspekte runden die Fähigkeiten eines Daten-Allrounders ab. Die erworbenen Kenntnisse ermöglichen es, komplexe Fragestellungen an der Schnittstelle zwischen Daten, IT und Business zu beantworten, neue Lösungswege aufzuzeigen und alleine oder im Team zu erarbeiten. Das DAS Data Science ist modular aufgebaut und besteht aus drei Certificates of Advanced Studies (CAS), nämlich dem CAS Information Engineering, dem CAS Datenanalyse sowie dem CAS Data Science Applications. 3 Zielgruppe Das DAS Data Science bzw. die darin enthaltenen CAS richten sich an Personen, die – U nternehmensdaten oder öffentliche Daten bearbeiten – d atengestützte (Entscheidungs-) Grundlagen in Form von Berichten oder Web-Applikationen erstellen – K undendaten (im Customer Relationship Management, kurz CRM) auswerten wollen – w issenschaftliche Daten auswerten wollen – v erschiedenste Datenquellen zusammen­führen und auswerten wollen – b estehende Informationen in einer oder verschiedenen Datenquellen auffinden wollen – in den Bereichen Business Analytics oder Business Intelligence arbeiten Zielsetzungen Die Absolventen erwerben sowohl theoretische Grundlagen als auch praktische Fähigkeiten in den folgenden Bereichen: – D ata Warehousing & Big Data – Information Retrieval & Text Analytics – S tatistik & Machine Learning – D esign & Entwicklung von Data Products – Datenschutz & Datensicherheit Modularer Aufbau Das DAS Data Science ist modular aufgebaut und besteht aus folgenden drei Certificates of Advanced Studies (CAS): – C AS Information Engineering – C AS Datenanalyse – C AS Data Science Applications Das CAS Information Engineering und das CAS Datenanalyse sind unabhängig voneinander und können somit in beliebiger Reihenfolge absolviert werden. Das CAS Data Science Applications kann nur nach erfolgreicher Absolvierung des CAS Information Engineering sowie des CAS Daten­ analyse absolviert werden. Sowohl das CAS Information Engineering als auch das CAS Datenanalyse finden in Form von Präsenzveranstaltungen und Praktika statt. Das CAS Data Science Applications besteht zu 80 Prozent aus Präsenzveranstaltungen und zu 20 Prozent aus einer selbstständigen Projektarbeit. Die Studierenden sind in der Lage, aus stru­k­tu­r­ierten und unstrukturierten Daten Informationen zu extrahieren, zur Analyse bereitzustellen und für weitere Aufgaben nutzbar zu machen. Des Weiteren besitzen sie die Fähigkeiten, statistische Analysen von komplexen Daten zu machen und sind imstande, skalierbare Lösungen zu entwickeln, um die immer grösser werdenden Datenmengen in Unternehmen zu bewältigen. Dadurch sind sie in der Lage, durch datengetriebene Enscheidungsunterstützung massgeblich zum Erfolg Ihres Unternehmens beizutragen. 4 5 Struktur und Inhalt CAS Information Engineering Überblick Wir leben in einer Welt, in welcher die Sammlung, Aufbereitung und Nutzbarmachung von Infor­ mationen und Daten zunehmend zentral wird. Unter Information Engineering verstehen wir Methoden und Verfahren zur Gestaltung und Entwicklung von Informationssystemen. In diesem CAS lernen Sie, wie man sowohl mit strukturierten Daten ( z. B. aus Datenbanken und Data Warehouses) als auch mit semistrukturierten und unstrukturierten Daten (z. B. Weblogs, Text­ dokumenten, Bildern, Videos etc.) umgeht. Folgende Fragestellungen stehen im Zentrum des CAS Information Engineering: – Welche Scripting-Methoden eignen sich für die Prozessierung von Daten? – Was sind die Grundlagen einer relationalen Datenbank und wie kann ich Daten mit einer geeigneten Abfragesprache (SQL) filtern? – Warum braucht man ein Data Warehouse und wie integriert man Daten aus unterschiedlichen Systemen? – Was verbirgt sind hinter Big Data (Hadoop, MapReduce, Pig, Hive, STORM etc.) und welche neuen Fragestellungen lassen sich damit beantworten? – W ie kann ich Sentimentanalyse für meine Unternehmung einsetzen, um neue Erkenntnisse über die Kundenzufriedenheit zu gewinnen und effektiv darauf zu reagieren? Modul Inhalt Lernziele A: Scripting – E inführung in Python mit sciPy und scikit-learn – A nwendungsmöglichkeiten in den Bereichen Datenextraktion, Datenanalyse und Datenvisualisierung – Erstellung von Mashups mit externen Web-Services – S ie kennen die Grundlagen der ScriptSprache Python sowie der relevanten Bibliotheken. – S ie können die Script-Sprache für unterschiedliche Schritte im Datenanalyseprozess einsetzen. 2 B: Datenbanken and Data Warehousing – R elationale Algebra und Datenbank­ab­fragesprache SQL – Einführung in Decision-Support-Systeme: Definition, Abgrenzung, Vergleich OLTP (transaktionsbasierte Systeme) und OLAP (Analysesysteme) – A rchitektur und Modellierung: DWH-­ Aufbau, Datenmodellierung für Analysezwecke – ETL-Prozess: Kopplung von OLTP und Business Intelligence (BI)-Welt, automatisiertes Laden, Datenqualität: Fehler­ erkennung und -korrektur, iteratives Vorgehen beim DWH-Entwurf Wie man strukturierte Daten aufbereitet, modelliert und für die Analyse bereitstellt. – S ie verstehen die Grundlagen der relationalen Algebra und können die Datenbanksprache SQL anwenden. – S ie verstehen die Wesensmerkmale und den Aufbau sowie den Zweck von DWH-Systemen. – S ie können Architektur und Design von skalierenden DWH-Systemen entwerfen. – S ie kennen die Technologien und Bausteine von DWH-Systemen und sind in der Lage, diese Bausteine beispielhaft zur Implementation zu nutzen. 3 C: Big Data – B ig-Data-Überblick: Einsatzkonzepte für grosse und unstrukturierte Daten – Überblick über NoSQL – S kalierbare Abfragen und Analysen: MapReduce mit Hadoop, SQL-ähnliche Interfaces mit Pig und Hive – Real Time Analytics mit STORM Wie man skalierbare Analysesysteme mit Big-Data-Technologie aufbaut und nutzt. – Sie verstehen die Wesensmerkmale und den Aufbau sowie den Zweck von Big-Data-Systemen – S ie können Big-Data-Systeme beurteilen und evaluieren. – S ie sind in der Lage, ein Big-Data-Projekt mit beliebiger Datenmenge durchzuführen. – S ie haben in den Praktika Hands-onErfahrung mit State-of-the-Art-Tools wie Apache Hadoop Ecosystem gesammelt. 2 D: Information Retrieval & Text Analytics – E inführung in Information Retrieval – Grundlagen: Modelle, Probability Ranking Principle, Rangierungsregeln – Indizierung/Vergleich: Textanalyse, Gewichtung, Systeme /Architektur – S entiment-Analyse, Text Summarization, mehrsprachiges und sprachübergreifendes Retrieval – M ultimedia Information Access Wie man unstrukturierte Texte aufbereitet und nutzbar macht. – S ie kennen konkrete Retrievalsysteme (z. B. Websuche/Google, fachspezifische Suche u. a.) und haben einen soliden Einblick in das Gebiet: Grundlagen, Theorie, Stand der Technik, Praxis und Auswertung. – S ie beherrschen die Wahl der richtigen Technologie für Suchaufgaben und können Information-Retrieval-Systeme evaluieren und bewerten. – S ie kennen Methoden der tiefergehenden Textanalyse wie Sentimentanalyse und können mit maschineller Übersetzung umgehen. – Sie lernen Methoden kennen, um Merkmale aus nicht textuellen Dokumenten zu extrahieren. 3 Methodik Klassenunterricht, begleitetes Selbststudium (praktische Arbeiten an Fallbeispielen mit Laptop), individuelles Selbststudium, Prüfungsvorberei­t­ungen und Modulendprüfung. Unterrichtszeiten – Der Unterricht findet berufsbegleitend einmal pro Woche jeweils am Montagnachmittag von 13 – 19 Uhr (6 Lektionen) statt. – Das CAS Information Engineering dauert rund sieben Monate. – D en individuellen Stundenplan erhalten die Studierenden spätestens einen Monat vor Studienbeginn. Die schulfreie Zeit richtet sich nach den Schulferien der Stadt Winterthur. Studienleitung Dr. Kurt Stockinger Telefon +41 58 934 49 79 [email protected] ECTS TOTAL ECTS-Punkte 6 10 7 Struktur und Inhalt CAS Datenanalyse Überblick Das CAS Datenanalyse vermittelt einen Einstieg in das statistische Denken sowie in klassische und neue Konzepte der Datenanalyse. Die Studierenden lernen in Abhängigkeit der fachlichen Fragestellung (business understanding) und der Art der Daten Vorgehensweisen und Methoden kennen, um nütz­liche Erkenntnisse aus den Daten zu extrahieren. Folgende Fragestellungen stehen im Zentrum des CAS Datenanalyse: – W ie können Daten beschrieben und dargestellt werden? – Welche Informationen sind in den Daten enthalten, wie werden diese sichtbar gemacht und welche Schlüsse können daraus gezogen werden? – W ie und welche Daten sollen erhoben werden? Methodik Klassenunterricht, begleitetes Selbststudium (praktische Arbeiten an Fallbeispielen mit Laptop), individuelles Selbststudium, Prüfungsvorberei­t­ungen und Modulendprüfung. Unterrichtszeiten – Der Unterricht findet berufsbegleitend einmal pro Woche jeweils am Mittwochnachmittag von 13 –19 Uhr (6 Lektionen) statt. – Das CAS Datenanalyse dauert rund sieben Monate. – Den individuellen Stundenplan erhalten die Studierenden spätestens einen Monat vor Studienbeginn. Die schulfreie Zeit richtet sich nach den Schulferien der Stadt Winterthur. Studienleitung Prof. Dr. Andreas Ruckstuhl Telefon +41 58 934 78 12 [email protected] Modul Inhalt Lernziele A: Konzepte und Werkzeuge zur Beschreibung und Visualisierung von Daten – A llgemeine Einführung, Datentypen, Verteilung und Kennzahlen (Lage, Streuung, Quantile) – E inführung in das zu verwendende Statistikprogramm (R mit R-Studio) – D atenvisualisierung mit Balkendiagramm, Kuchendiagramm, Häufigkeitstabellen, Histogramm, Korrelationsmatrix, Pairs-Plot, Boxplot und Streudiagramm, Mosaikplot – D os and don ̓ ts der grafischen Darstellung von Daten – S impson-Paradoxon – S ie können Daten geeignet beschreiben und grafisch darstellen. – S ie erkennen missbräuchliche Anwendungen von grafischen Darstellungen. – S ie sind vertraut mit dem SimpsonParadoxon. 2 B: Statistische Grundlagen der Datenanalyse – S tatistisches Modell versus Daten – Z ufallsvariable – S chliessende Statistik (Schätzen, Ver­trauensintervall, Testen) bei Zähldaten (Poisson- und Binomial-Modell) und bei metrischen Daten (Normalverteilung) – Z entraler Grenzwertsatz – S ie können mit einfachen statistischen Modellen umgehen. – S ie kennen die statistischen Konzepte der Schätzung, des Hypothesentests sowie des Vertrauensintervalls und können sie in der Praxis anwenden. 2 C: Multiple Regression, die Basis der Datenanalyse – M ultiple lineare Regression – M odellvielfalt – S chätzung der Parameter, Hypothesentest und Vertrauensintervalle – P rognose und Prognose-Bereiche – R esiduen-Analyse, Variablenselektion, Kreuzvalidierung und Modellbaustrategien – Interpretation, Transformationen – S ie können das multiple lineare Regressionsmodell zur Analyse von metrischen Daten (z. B. Messdaten) und zur Prognose einsetzen. – S ie können beurteilen, ob das Regressionsmodell zu den Daten passt (Residuen-Analyse). – S ie können ein Regressionsmodell Datengestützt entwickeln. 2 D: Zeitreihen und Prognosen – – – – – W as sind Zeitreihen? S TL-Zerlegung A utokorrelation A rt der Prognose U nsicherheit von Prognosen (quantitative Bewertung der Prognosegüte) – Z eitliche Prognosen mit exponentieller Glättung – A R-Prozess – S ie kennen die Eigenheiten von Zeitreihen. – S ie können Zeitreihen in ihre Bestandteile zerlegen. – S ie können exponentielle Glätter für die Prognose einsetzen und Prognoseunsicherheiten bestimmen. 2 E: Clustering und Klassifikation – – – – – – – S ie können gängige Methoden zur Struktur­ entdeckung in Daten anwenden. – S ie können einem Objekt mit einer Auswahl von Klassifikationsverfahren Daten-gestützt seine Klassenzugehörigkeit ermitteln. – S ie können die Performance eines Klassifikationsverfahrens bei einem gegebenen Datensatz ermitteln. 2 H ierarchische Cluster-Verfahren H eatmap K lassifikationsbaum B ootstrapping R andom Forest B eurteilung eines Klassifikators (Fehlerrate, Sensitivität, Spezifität etc.) ECTS TOTAL ECTS-Punkte 8 10 9 Struktur und Inhalt CAS Data Science Applications Überblick Das CAS Data Science Applications baut auf die beiden zuvor beschriebenen CAS auf. Basierend auf den dort vermittelten Analyse-zentrierten IT- und Statistik-Kompetenzen wird im Rahmen des CAS Data Science Applications die Arbeit des Data Scientists in den Mittelpunkt gestellt. Die Studierenden lernen, Data Products mit Blick auf technische, analytische, gesellschaftliche und betriebliche Fragestellungen zu entwickeln. Der verantwortungsvolle Umgang mit Daten wird durch die Gegenüberstellung fortgeschrittener technischer Möglichkeiten und Aspekten aus Sicherheit, Privatheit und Recht vermittelt. Folgende Fragestellungen stehen im Zentrum des CAS Data Science Applications: – W ie schafft man optimale Bedingungen für maschinelles Lernen? – W ie kann das menschliche Sehen zur Analyse und Vermittlung von Informationen eingesetzt werden? – Was macht ein gutes Data Product aus? – W ie verhält man sich im Spannungsfeld von Big-Data-Analyse und Datenschutz? 10 Methodik Klassenunterricht, begleitetes Selbststudium (praktische Arbeiten an Fallbeispielen mit Laptop), individuelles Selbststudium und Projektarbeit. Unterrichtszeiten – Der Unterricht findet berufsbegleitend einmal pro Woche jeweils am Mittwochnachmittag von 13 –19 Uhr (6 Lektionen) statt. – Das CAS Data Science Applications dauert rund 6 Monate. – Den individuellen Stundenplan erhalten die Studierenden spätestens einen Monat vor Studienbeginn. Die schulfreie Zeit richtet sich nach den Schulferien der Stadt Winterthur. Studienleitung Dr. Kurt Stockinger Telefon +41 58 934 49 79 [email protected] Modul Inhalt Lernziele ECTS A: Machine Learning – G rundlagen, Einsatzkonzepte und Best Practices für Machine Learning – A usgewählte Machine Learning Algo­rithmen (Clustering, Classification, Anomaly Detection) – S kalierbare Machine-Learning-Lösungen mit Apache Mahout – F eature Engineering – Sie kennen die wesentlichen Grundlagen und Best Practices zum Einsatz von ML-Verfahren. – S ie können skalierbare Machine-LearningAlgorithmen basierend auf Hadoop und Mahout einsetzen. – S ie können für einen gegebenen Datensatz ein geeignetes ML-Verfahren auswählen und die Features entsprechend aufbereiten. 2 B: Big Data Visualization – V isualisierung von grossen / hochdimensionalen Daten – B eispiele für innovative Visualisierungen (Parallel Coordinates, Grand-Tour) – Interaktive Visualisierungen – V isualisieren von Ähnlichkeiten (Dendrogram, Hypertree) – G raph Analytics – S ie verwenden grafische Darstellungen Ihrer Daten zur Analyse («Visual Analytics») und Präsentation («Informationsvisualisierung»). – S ie kennen dimensionsreduzierende Verfahren und können diese anwenden. – S ie kennen die Grundlagen guter grafischer Visualisierungen. 2 C: Design und Entwicklung von Data Products – W as kennzeichnet ein gutes Data Product? – W orauf muss beim Entwickeln von Data Products geachtet werden? – W irtschaftliche Aspekte – Nutzung von externen (Daten-) Ressourcen – C ase Studies & Best Practices für gute Data Products – S ie kennen die wichtigsten Design-Aspekte von Data Products. – S ie kennen die wirtschaftliche Bedeutung von Data Products. – S ie können die verschiedenen Anforderungen an das Data Product integrieren. – S ie kennen zusätzliche Ressourcen und können diese nutzen. 1 D: Datenschutz und Datensicherheit – R echtliche Rahmenbedingungen in der Schweiz – E thik der Datenauswertung – S icherheitskonzepte zum Schutz von Daten – Datenanonymisierung und ihre Grenzen – S ie kennen die rechtlichen und ethischen Rahmenbedingungen für den Umgang mit Daten in der Schweiz. – S ie wissen, wie man Daten mit modernen Sicherheitsmechanismen schützt. 1 E: Projektarbeit – A rbeit über ein ausgewähltes Thema des Bereichs Data Science (aus dem eigenen Arbeitsbereich oder der aktuellen Forschung) – S elbständiges Erarbeiten und Implementieren eines Data-Science-Projektes. 4 TOTAL ECTS-Punkte 10 11 Allgemeine Informationen Studiendauer DAS Data Science Das Studium wird berufsbegleitend absolviert und findet je nach gewählter Variante entweder einmal oder zweimal pro Woche statt. Das gesamte DAS Data Science umfasst ca. 70 Kurstage. In der parallelen Variante kann das gesamte DAS in etwas mehr als 1 Jahr absolviert werden. Die konsekutive Variante dauert rund 2 Jahre. Die einzelnen CAS dauern je rund ein halbes Jahr. Die folgenden beiden Abbildungen verdeutlichen diese beiden Varianten. Montag Mittwoch Start Oktober Start Oktober CAS Information Engineering Folgende Informationen betreffen sowohl das gesamte DAS Data Science als auch die einzelnen darin enthaltenen CAS. Der modulare Aufbau des DAS Data Science erlaubt es Ihnen, Ihre Weiterbildung zeitlich als auch inhaltlich individuell entlang Ihren Bedürfnissen zu planen. CAS Datenanalyse Zulassung Die Zulassung zu einem DAS oder CAS setzt grundsätzlich einen Hochschulabschluss (Fachhochschule, HTL, HWV, Uni, ETH) voraus. Es können aber auch Praktikerinnen und Praktiker mit vergleichbarer beruflicher Kompetenz zugelassen werden, wenn sich die Befähigung zur Teilnahme aus einem anderen Nachweis ergibt. Grundkenntnisse der Programmierung in einer beliebigen Programmiersprache und Affinität zu Datenbanken und zur Datenanalyse sind von Vorteil. Ende Mai Start Juni Abbildung 1: DAS Data Science in paralleler Variante. Durchlaufzeit rund 1 Jahr. Ende November CAS Data Science Applications Ende Juni 12 13 Montag Mittwoch Abschluss / ECTS Der erfolgreiche Abschluss eines der oben vorgestellten CAS wird mit einem CAS-Zertifikat bestätigt. Die Studienleistung eines solchen CAS entspricht 10 ECTS-Punkten (European Credit Transfer System). Nach erfolgreichem Abschluss aller drei CAS wird das Diplom «DAS in Data Science» erteilt. Die Studienleistung dieses DAS entspricht 30 ECTSPunkten. CAS Information Engineering Start Oktober Studiengebühren Die Details bzgl. Studiengebühren können Sie direkt unserer Website entnehmen: www.engineering.zhaw.ch/weiterbildung Ende Juni CAS Datenanalyse Start Oktober Durchführungsort ZHAW Zürcher Hochschule für Angewandte Wissenschaften School of Engineering Technikumstrasse 9 CH-8401 Winterthur Dozierende Das Team der Dozierenden besteht aus ausgewiesenen Fachpersonen mit Kompetenzen im akademischen und praktischen Bereich. Hier ein Auszug der Dozierendenliste: Prof. Dr. Martin Braschler Dr. Marcel Dettling Dr. Oliver Dürr Dr. Christoph Hofer Prof. Dr. Andreas Ruckstuhl Prof. Dr. Beate Sick Dr. Thilo Stadelmann Dr. Kurt Stockinger Informationsveranstaltung Sie können sich über folgenden Link zu einer der regelmässig stattfindenden Informationsveranstaltungen anmelden: www.engineering.zhaw.ch/weiterbildung Anmeldung Anmelden können Sie sich direkt online unter: www.engineering.zhaw.ch/weiterbildung Ende Mai CAS Data Science Applications Start Juni Abbildung 2: DAS Data Science in konsekutiver Variante. Das CAS Information Engineering und das CAS Datenanalyse können auch in umgekehrter Reihenfolge absolviert werden. Durch­laufzeit rund 2 Jahre. 14 Ende November 15 Zürcher Hochschule für Angewandte Wissenschaften School of Engineering Sekretariat Weiterbildung Winterthur Technikumstrasse 9 CH-8401 Winterthur Telefon +41 58 934 74 28 [email protected] www.engineering.zhaw.ch/weiterbildung 16