CAS Datenanalyse Inhaltsverzeichnis 1 2 3 4 5 6 7 8 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 8.10 8.11 9 10 11 12 13 Abstract Umfeld und Motivation Zielgruppe Ausbildungsziele Voraussetzungen Kursübersicht Kompetenzprofil Kursbeschreibungen Tooling und Datenmanagement Deskriptive Statistik und mathematische Grundlage Statistisches Testen Grafische Datenexploration und Datenvisualisierung Ökonometrie Zeitreihenanalyse und Prognosen Data Mining Data Projects in Action Betreute Übungen Workshop Visual Analytics mit SAS Workshop SPSS Statistics Kompetenznachweise Lehrmittel Dozierende Organisation Termine Study Guide CAS DA 3 3 3 3 3 4 5 6 6 7 7 8 9 10 11 12 13 14 14 15 16 17 17 17 2/18 1 Abstract Daten werden in Studien zielgerichtet erhoben oder entstehen in Informatiksystemen und Applikationen in grossen Mengen. Ein Nutzen aus diesen Daten entsteht aber erst, wenn man sie richtig versteht, interpretiert und methodisch korrekte Schlüsse daraus zieht. Dieses CAS richtet sich an Fachpersonen verschiedenster Branchen und Aufgabengebiete, die sich in die Arbeits- und Denkweise der Datenanalyse einarbeiten wollen. 2 Umfeld und Motivation "Making Sense out of Data" ist das Leitmotiv dieses Lehrganges: Wie entstehen Daten und was hat dies für eine Bedeutung für deren Analyse? Wie beschreiben wir Datensätze, welche Qualität haben sie, welche Aussagen kann man damit machen und welche Schlussfolgerungen kann man aus ihnen ziehen? Oft sind Ausgangs- oder Rohdaten für eine Datenanalyse heute bereits vorhanden. Ausgereifte und leicht bedienbare Werkzeuge zur Aufbereitung von Daten, zur Analyse und Visualisierung stehen auf dem Markt ebenfalls zur Verfügung. Ihre sinnvolle Anwendung erfordert aber analytische und methodische Vorkenntnisse. Nur damit können vermutete Zusammenhänge und Hypothesen zuverlässig überprüft und belegt werden. Das CAS ist ein interdisziplinäres Projekt zwischen den Fachbereichen Technik und Informatik, Wirtschaft und Soziale Arbeit. Es ist ebenfalls Teil des Master of Advanced Studies in Data Science der Berner Fachhochschule. 3 Zielgruppe – – – – Mitarbeitende, die im Rahmen ihrer beruflichen Aufgaben Datenbestände auswerten oder datenbezogene Studien durchführen. Informatikerinnen und Informatiker, die in der Umsetzung von Datenanalyse-Projekten arbeiten. Projektleitende, die für die Führung von Datenanalyse-Projekte in ihrem Unternehmen verantwortlich sind. Wissenschaftliche Mitarbeitende, welche ihre Fachbereiche beim Erstellen von Analysen und Studien beraten. 4 Ausbildungsziele – – – – – – Sie erhalten einen praxisorientierten Überblick über das Gebiet der Datenanalyse. Sie erlernen den methodischen Umgang beim Verarbeiten, Analysieren und Darstellen von Daten. Sie lernen am Beispiel der Ökonometrie die Regressionsanalyse im Detail kennen, um quantitative Zusammenhänge zwischen Variablen zu bewerten und zu analysieren. Sie können Zeitreihen analysieren und darauf basierende Prognosen erstellen. Sie wissen, mit welchen Techniken des Data Mining man Daten klassifizieren oder darin Muster erkennen kann. Sie lernen die Anwendung verbreiteter statistischer Programm, wie das mächtige Open SourceFramework R (r-project.org) und Gretl (gretl.sourceforge.net) kennen und Sie bekommen einen Einblick in die Anwendungsmöglichkeiten kommerzieller Statistik-Pakete wie SAS und SPSS. 5 Voraussetzungen Sie bringen ein Bachelorstudium auf Hochschulstufe mit, können mit mathematischen Gesetzen umgehen und haben die Bereitschaft zur anwendungsorientieren Arbeit mit statistischer Software. Details zu den allgemeinen Zulassungsbedingungen finden Sie auf unserer Webseite. Study Guide CAS DA 3/18 6 Kursübersicht Kurs/Lehreinheit Lektionen Dozierende Tooling und Datamanagement 12 Rudolf Farys, UniBe Grafische Datenexploration und Datenvisualisierung 16 Oliver Hümbelin, BFH Fabienne Kilchör, BFH Deskriptive Statistik und mathematische Grundlage 12 Michel Krebs, BFH Statistisches Testen 24 Michel Krebs, BFH Ökonometrie 24 Raul Gimeno, BFH Zeitreihenanalyse und Prognosen 24 Raul Gimeno, BFH Data-Mining 24 Romeo Kienzler, IBM Workshop Visual Analytics mit SAS 8 SAS Mitarbeitende Workshop SPSS Statistics 8 IBM Mitarbeitende Data Projects in Action 8 Siehe Kursdetails Betreute Übungen Total 20 Dorian Kessler, BFH 180 Das CAS umfasst insgesamt 12 ECTS Punkte. Für die einzelnen Kurse ist entsprechend Zeit für Selbststudium, Prüfungsvorbereitung etc. einzurechnen. Study Guide CAS DA 4/18 7 Kompetenzprofil Legende: 1. Kenntnisse von Begriffen, Definitionen und Regeln; Faktenwissen 2. Verstehen von Zusammenhängen, Erklären von Sachverhalte erklären können 3. Anwendung des Wissens in einfachen Situationen 4. Analyse der eigenen Lösung 5. Synthese neuer Lösungen und Anwendung in komplexen Situationen 6. Beurteilung der Anwendbarkeit für bestimmte Probleme und Situationen, methodische Abwägung und Evaluation von Alternativen, Beziehungen zu anderen Fachgebieten Study Guide CAS DA 5/18 8 Kursbeschreibungen Nachfolgend sind die einzelnen Kurse 1 dieses Studienganges beschrieben. 8.1 Tooling und Datenmanagement Kursbeschreibung Lernziele Einführung in das Statistiksoftwarepaket R, welches sich zunehmend zu einer Standardsprache der Datenanalyse entwickelt. Folgende Themen sollen behandelt werden: Grundlegende Funktionsweise von R, Datenmanagement, einfache Auswertungen sowie die Einbindung von R in den persönlichen Workflow (Umgang mit unterschiedlichen Datenquellen/-formaten und Einbindung von Resultaten in die Textverarbeitung (Word/Latex/HTML). Themen Einführung in R − Einlesen und Aufbereiten von Daten − Deskriptive Auswertungen − Ausblick: Regressionsmodelle Allgemeine Lehrmittel − Skript/Readings auf eLearning Plattform Literaturempfehlungen: – → → → An R Companion to Applied Regression, siehe Lehrmittel-Liste Nr. [5] http://tryr.codeschool.com/ http://shiny.rstudio.com/ R Instructor on Android, S. Murphy Der Begriff Kurs schliesst alle Veranstaltungstypen ein, es ist ein zusammenfassender Begriff für verschiedene Veranstaltungstypen wie Vorlesung, Lehrveranstaltung, Fallstudie, Living Case, Fach, Studienreise, Semesterarbeiten usw. 1 Study Guide CAS DA 6/18 8.2 Deskriptive Statistik und mathematische Grundlage Kursbeschreibung Lernziele Die Teilnehmenden: − − Erlernen die grundlegenden Konzepte der deskriptiven Statistik. Nach Absolvierung des Moduls sind sie in der Lage, Daten aufzubereiten und zu präsentieren. Kennen Matrizen und sind in der Lage, elementare Matrizenoperationen korrekt durchzuführen. Themen − − − − − − Statistische Kennzahlen Verteilungen Lage- und Streuungsmasse Quantile Bivariate Datenanalyse Matrizen und Matrizenoperationen Allgemeine Lehrmittel − Folien/Skript/Readings auf eLearning Plattform Literaturempfehlungen: − 8.3 Statistik ohne Angst vor Formeln, siehe Lehrmittel-Liste Nr. [2] Statistisches Testen Kursbeschreibung Lernziele Die Teilnehmenden: − − Erlernen die Grundlagen der Wahrscheinlichkeitsrechnung und der schliessenden Statistik. Kennen insbesondere die statistischen Konzepte der Schätzung, des Hypothesentests sowie des Vertrauensintervalls und können diese in der Praxis anwenden. Themen − − − − − − − − Wahrscheinlichkeitsrechnung Zufallsvariable Summen von Zufallsvariablen Vertrauensintervalle und Hypothesentests Lineare Einfachregression Schätzen Bestimmtheitsmass Prognose Allgemeine Lehrmittel − Folien/Skript/Readings auf eLearning Plattform Literaturempfehlungen: − Study Guide CAS DA Statistik ohne Angst vor Formeln, siehe Lehrmittel-Liste Nr. [2] 7/18 8.4 Grafische Datenexploration und Datenvisualisierung Kursbeschreibung Lernziele Die Teilnehmenden: − − − − Themen − − − Allgemeine Lehrmittel − Bedeutung und Funktion von explorativer Datenanalyse und Datenvisualisierungen: Von Tukey über Tufte zu Quealy Techniken der Datenexploration mit R − Univariate Techniken: Stem-and-Leaf_plot, Barcharts, Histogramme, Wahrscheinlichkeitsverteilungen, Boxplots, Zeitreihen − Bi- und multivariate Techniken: Streudiagramme, Heat-Maps und Vergleich von Verteilungen − Erkennen räumlicher Muster Visualisierungen als Mittel der Kommunikation − Gestalt-Prinzipien der Datenvisualisierung und Umsetzung mit ggplot − Interaktive Graphiken als Webapplikationen Folien/R-Skripte und über e-learning bereitgestellte Texte Literaturempfehlungen: − − Study Guide CAS DA Können den Nutzen von explorativer Datenanalyse und Datenvisualisierungen im Prozess der Datenanalyse einschätzen. Sind mit den zentralen Techniken der Datenexploration vertraut und können diese mit R umsetzen. Sind fähig basierend auf den Gestaltungs-Prinzipien der Datenvisualisierung, anschauliche Graphiken zu erstellen. Lernen die Möglichkeiten von interaktiven Datenvisualisierungen kennen und können eigene, einfache Applikationen programmieren. R Graphics Cookbook, Practical Recipes for Vsiualizing Data, siehe Lehrmittel-Liste Nr. [6] Visualize This: The Flowing Data Guide to Design, siehe Lehrmittel-Liste Nr. [4] 8/18 8.5 Ökonometrie Kursbeschreibung Lernziele Die Teilnehmenden: − − Lernen die Regressionsanalyse als vielseitiges und klassisches Instrument kennen, mit dem Beziehungen zwischen abhängigen und unabhängigen Grössen hergestellt und Prognosen erstellt werden können. Können Methoden und Kriterien zur Überprüfung eines Modells, möglicher Einschränkungen, möglicher Modellfehler und zur Einschätzung der Prognosequalität anwenden. Themen − − − − − Lineare Regression Multiple lineare Regression Lineare Restriktionen Prognose und Prognosequalität Analyse der Modellstruktur: − Multikollinearität − Heteroskedastizität − Autokorrelation − Mehrgleichungssysteme − Nichtlineare Zusammenhänge Allgemeine Lehrmittel − Folien/Buch/Readings auf eLearning Plattform Obligatorische Lehrmittel Study Guide CAS DA Literaturempfehlungen: − Principles of Econometrics, International Student Version, siehe LehrmittelListe Nr. [7] − Einführung in die Ökonometrie, siehe Lehrmittel-Liste Nr. [1] 9/18 8.6 Zeitreihenanalyse und Prognosen Kursbeschreibung Lernziele Die Teilnehmenden: − − − Kennen die Eigenschaften und Charakteristika von Moving-Average, Autoregressiven und ARIMA Prozessen. Können ARMA-Modellen identifizieren und schätzen. Können zwischen trend-stationären und differenz-stationären Prozessen unterscheiden. Verstehen die Problematik des sogenannten „spurious-regression-Problem“. Können die Unit-root-Tests (Einheitswurzel-Test) anwenden, mit deren Hilfe das Vorliegen von nichtstationären Zeitreihen diagnostiziert werden kann. Verstehen die Rolle der Kointegration für Fehlerkorrektur-Modelle Können die Werkzeuge von Fehlerkorrektur-Modellen anwenden Können dynamische Beziehungen zwischen ökonomischen Grössen mittels VAR-Modellen spezifizieren. Können das Repräsentations-Theorem von Granger anwenden. Können Verfahren zum Parameterschätzen eines VEC-Modells anwenden. . Themen − − − − − − − − − Univariate Zeitreihenmodelle Box-Jenkins Ansatz Prognosen Kointegration Fehlerkorrektur-Modelle Modelle der Volatilität: ARCH und GARCH Prozesse Unit roots-Tests VAR-Prozesse und VEC-Modelle Prognose mittels VAR-Modellen Allgemeine Lehrmittel − Folien/Buch/Readings auf eLearning Plattform − − − − − − − Obligatorische Lehrmittel Study Guide CAS DA Literaturempfehlungen: − − Introduction to modern time series analysis, siehe Lehrmittel-Liste Nr. [8] Applied Econometric Time Series, siehe Lehrmittel-Liste Nr. [9] − Einführung in die Ökonometrie, siehe Lehrmittel-Liste Nr. [1] 10/18 8.7 Data Mining Kursbeschreibung Lernziele Die Teilnehmer: − − − − − Themen − − − − − − − − Allgemeine Lehrmittel Study Guide CAS DA − können selbständig ein unstrukturiertes Datenset bereinigen, ein Reverse Engineering durchführen, und in eine strukturierte Form bringen. haben einen Einblick in die Bearbeitung von Audio/Video-Dateien und Muster-Sequenzen. sind in der Lage, vorgegebene Fragen bezüglich Zusammenhängen in Daten zu beantworten und auch selbständig Datensets zu erforschen. vertiefen die Anwendung von Standard-Software zur Datenanalyse (R). kennen Alternativen, um grosse Datenmengen, die nicht auf eine einzelne Maschine passen, zu analysieren. Information Retrival und Cleansing. Pre-Processing / Feature Extraction. Textabfragen und Text Mining. Muster in Daten erkennen, Explorative Datenanalyse. Cluster- und Klassifikationsverfahren. Ausflug 1, Option 1: Erkennung einer DNA Kette anhand von vorgegebenen Positiv- und Negativ-Beispielen. Ausflug 1, Option 2: Automatische Klassifizierung von Textdokumenten nach Themengebieten und Überprüfung der Treffergenauigkeit mittels vorklassifizierter Dokumente. Ausflug 2: Erkennen von kriminellem Mitarbeiterverhalten anhand von Netzwerkdaten einer grossen Bank Folien/Buch/Readings auf eLearning Plattform 11/18 8.8 Data Projects in Action Kursbeschreibung Lernziele Die Teilnehmenden: − − Lernen anhand von Anwendungsbeispielen aus verschiedenen Domänen die Bedeutung von Daten und Datenanalyse in verschiedenen Kontexten kennen. Lernen weitere Werkzeuge und Methoden, Anwendungsgebiete und Datenquellen im Umfeld der Datenanalyse kennen. Erhalten Einblick in aktuelle Themen der Datenanalyse. − Open Data − Themen o o o o o − Sozialwissenschaften: "Verlaufsanalysen mit Administrativdaten aus dem System der sozialen Sicherheit: Datenmanagement, Deskription und statistische Modelle" o o o o Allgemeine Lehrmittel Study Guide CAS DA − Die Relevanz von Daten in einer zunehmend digitalisierten Welt Open Data in der Schweiz Welche Daten sind öffentlich zugänglich? Open Data nutzen (Gruppenarbeit) Referent: Oleg Lavrovsky Theorie zu Arbeit mit Administrativdaten und Verlaufstypologie Übung mit fiktivem Admin-Datensatz Theorie zu Wirkungsmodell mit Verlaufsdaten Übung zu Regressionsanalyse Big Data in den Sozialwissenschaften Folien/Buch/Readings auf eLearning Plattform 12/18 8.9 Betreute Übungen Kursbeschreibung Lernziele Festigung der Inhalte aus den Hauptmodulen. Fähigkeit, die gelernten Methoden selbständig mit der Software R-Studio anwenden zu können. Die Teilnehmenden werden unterstützt beim Umgang mit: − − − − den grundlegenden Funktionen der Datenmanipulation und Objektsprache in R Studio. den wichtigsten Befehlen zur Berechnung von univariaten Verteilungs- und bivariaten Zusammenhangsmassen, statistischer Unsicherheit und deren Darstellung in Tabellen. den wichtigsten Tools zur graphischen Darstellung der Berechnungen. der Interpretation von Kennzahlen. Die Teilnehmenden werden befähigt, diese Kenntnisse für eigene Anwendungen einzusetzen, und kennen die wichtigsten „Anlaufstellen“ (Literatur und Onlinehilfen) um das bestehende Wissen weiterzuentwickeln und auf neue Anwendungen auszuweiten. Die Betreuung (Aufgabenhilfe, Unterstützung bei Anwendungen mit eigenen Datensätzen) läuft primär über das Moodle-Forum. Offene Fragen werden vom Übungsverantwortlichen regelmässig beantwortet. Es besteht zudem die Möglichkeit nach Vereinbarung Probleme bei der Übungslösung persönlich resp. per Skype/Email zu besprechen. Themen Flexibel anpassbar, typischerweise im Umfeld: − − − Allgemeine Lehrmittel − Datenaufbereitung mit R Studio: Datensätze laden, verbinden, umformen, aggregieren (u.a. mit dplyr/data.table, reshape2) und exportieren. Objektsprache in R: Berechnung von Verteilungs- und ZusammenhangsMassen, Darstellung in Tabellen. Grafische Darstellung von Ergebnissen: built-in plot Befehle, Library ggplot2. Onlinehilfen: − Generell: Suchmaschinen − Spezifische Websites (stackoverflow, Quick R (statmethods.net), R mailing lists, google groups, you tube channels…) Literaturempfehlungen: − Study Guide CAS DA R in Action – data analysis and graphics with R, siehe Lehrmittel-Liste Nr. [3] 13/18 8.10 Workshop Visual Analytics mit SAS Kursbeschreibung Lernziele Einführung in das Thema Analytics aus Vendor- und Marktführer-Sicht. Kennenlernen und Anwenden von SAS Visual Analytics (eventuell auch Visual Statistics). Themen − Allgemeine Lehrmittel − Trends im Bereich Decision Management in verschiedenen Industrien und Themengebieten wie Kunden Management, Betrugserkennung usw. Analytische Use Cases und Best Practices → → → → General Entry Points Direct Link to interactive Demos Technical Resources Videos (YouTube) about Visual Analytics 8.11 Workshop SPSS Statistics Kursbeschreibung Lernziele Die Teilnehmenen erlangen einen Überblick über die Analysemöglichkeiten und den Gebrauch des SPSS Statistik-Paketes. Themen Allgemeine Lehrmittel Study Guide CAS DA 14/18 9 Kompetenznachweise Für die Anrechnung der 12 ECTS-Punkte ist das erfolgreiche Bestehen der Qualifikationsnachweise (Prüfungen, Projektarbeiten) erforderlich, gemäss folgender Aufstellung: Kompetenznachweis Gewicht Art der Qualifikation Erfolgsquote Studierende Deskriptive Statistik 1 Schriftlich, Block 1 / 30' / Open Book, Laptop 0 – 100 % Statistisches Testen 2 Schriftlich, Block 1 / 30' / Open Book, Laptop 0 – 100 % Grafische Datenexploration und Datenvisualisierung 1 Übungen + Schriftlich, Block 1 / 30' / Open Book, Laptop 0 – 100 % Ökonometrie 1.5 Schriftlich, Block 2 / 45' / Open Book, Laptop 0 – 100 % Zeitreihen und Prognosen 1.5 Schriftlich, Block 2 / 45' / Open Book, Laptop 0 – 100 % Data Mining 2 Schriftlich, Block 2 / 30' / Open Book, Laptop 0 – 100 % Tooling 1 Übung / Hausaufgabe 0 – 100 % Gesamtgewicht / Gesamterfolgsquote ECTS Note 10 0 – 100 % A-F Die Termine sind im Stundenplan aufgeführt. Studierende können in einem Kompetenznachweis eine Erfolgsquote von 0 bis 100% erarbeiten. Die gewichtete Summe aus den Erfolgsquoten pro Thema und dem Gewicht des Themas ergibt eine Gesamterfolgsquote zwischen 0 und 100%. Die Gesamterfolgsquote wird in eine ECTS Note A bis E umgerechnet, gemäss Studienreglement. Weniger als 50% Gesamterfolgsquote ergibt eine ungenügende Note F. Study Guide CAS DA 15/18 10 Lehrmittel Für das Einlesen und als Begleitmaterial werden folgende Bücher empfohlen: Nr Titel Autoren Verlag Jahr ISBN Nr. [1] Einführung in die Ökonometrie Peter Hackl Pearson Studium 2012 ISBN: 978-3-86894-156-2 P [2] Statistik ohne Angst vor Formeln Andreas Quatember Pearson Studium 2014 ISBN: 978-3-86894-218-7 E [3] R in Action – data analysis and graphics with R Robert I. Kabacoff Manning 2015 ISBN: 978-1-61729-138-8 E [4] Visualize This: The Flowing Data Guide to Design, Visualization, and Statistics Nathan Yau John Wiley & Sons Inc 2011 ISBN: 978-0-470-94488-2 E [5] An R Companion to Applied Regression John Fox, Harvey Sanford Weisberg SAGE Publications Inc 2011 ISBN: 978-1-4129-7514-8 E [6] R Graphics Cookbook Winston Chang O'Reilly UK Ltd. 2012 ISBN: 978-1-4493-1695-2 E R. Carter Hill, William E. Griffiths, Mark Andrew Lim, Guay C. Lim John Wiley and Sons Ltd 2011 ISBN: 978-0-470-87372-4 E [8] Introduction to Modern Time Series Analysis Uwe Hassler, Gebhard Kirchgässner, Jürgen Wolters Springer 2014 ISBN: 978-3-642-44029-8 E [9] Applied Econometric Time Series Walter Enders John Wiley & Sons Inc 2014 ISBN: 978-1-118-80856-6 E Practical Recipes for Vsiualizing Data [7] Principles of Econometrics International Student Version Typ Weitere Empfehlungen und Hinweise bei den einzelnen Lehrveranstaltungen. Legende Typ: P = Pflichtlektüre mit Beschaffung durch Teilnehmende E = empfohlen Study Guide CAS DA 16/18 11 Dozierende Kursverantwortliche Dozierende sind: Vorname Name Firma E-Mail Michel Krebs BFH [email protected] Oliver Hümbelin BFH [email protected] Rudolf Farys UniBe [email protected] Fabienne Kilchör BFH [email protected] Raul Gimeno BFH [email protected] Romeo Kienzler IBM [email protected] Dorian Kessler BFH [email protected] Oleg Lavrovsky BFH [email protected] Tobias Fritschi BFH [email protected] Luzius von Gunten BFH [email protected] Enrica Camilleri IBM [email protected] + Weitere Experten, Betreuer und Gastreferenten aus Unternehmen und Hochschulen 12 Organisation CAS-Leitung: Prof. Dr. Arno Schmidhauser, Departement Technik und Informatik Tel: +41 31 84 83 275 E-Mail: [email protected] Oliver Hümbelin, Departement Wirtschaft, Gesundheit und Soziale Arbeit. Tel: +41 31 848 36 97 E-Mail: [email protected] CAS-Administration: Andrea Moser Tel: +41 31 84 83 211 E-Mail: [email protected] 13 Termine Daten: KW 43, 2015 bis KW 14, 2016 Donnerstags, von 08:30 bis 16:15 Uhr Stundenplan siehe Webseite "Durchführungsdaten" Details Study Guide CAS DA 17/18 Dokumenteninformation Study Guide CAS DA 2015-12-04 Die Inhalte und Angaben in diesem Study Guide können sich bis zum Studienstart noch verändern. Berner Fachhochschule Technik und Informatik Weiterbildung Wankdorffeldstrasse 102 CH-3014 Bern Telefon +41 31 848 31 11 Email: [email protected] → ti.bfh.ch/weiterbildung → ti.bfh.ch/cas-da Study Guide CAS DA 18/18