Institut für Angewandte Trainingswissenschaft Leipzig ein Institut des Trägervereins IAT / FES des DOSB e.V. Die Analyse großer Datensätze mittels freier Datenbanksysteme Dr Dirk Meusel [email protected] mySQL: Die Analyse empirischer Daten ist ein wesentliches Schlüsselelement im Methodenschatz der Sozialwissenschaften. Datenbanksysteme sind ein wichtiges Mittel zur redundanzfreien Darstellung und Verwaltung empirischer Daten. Ferner sind Datenbanksysteme eine Alternative zur statistischen Datenauswertung, vor allem bei deskriptiven Analysen großer Datenmengen (z.B. in der Epidemiologie oder Demografie). In der Lehrveranstaltung werden die folgenden Datenbankkonzepte vorgestellt: relationale Datenmodellierung, Datenverknüpfung mittels strukturierter Abfragen (SQL), Datenauswertungen, Datenimport/-export (bspw. in Statistikprogramme). Diese Konzepte werden am Beispiel frei verfügbarer Datenbanksysteme illustriert (MySQL, MS SQL Server Express 2005). Autor: Titel Vortragstitel, Gliederungspunkt, Helvetica 12 1.12.2005 Gliederung • Datenbanken/Datenbanksysteme allgemein • SQL • MySQL vs. Microsoft SQL Express – Installation – mögliche FrontEnds • Beispiele an Daten • Datenexport Populationsbezogene Messung körperlicher Aktivität – das ALPHA Projekt 12. Juni 2007 Warum Datenbanken? • Was ist eine Datenbank? Patienten Scheine Diagnosen ICD katalog Rezepte Rezeptposten ATC katalog Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 Warum Datenbanken? • • • • Redundanzfreie Darstellung der Daten Relationale Bezüge von Daten untereinander Unterschiedliche Sichten Große Datenmengen • Datensicherungsstrategien • Datenintegrität (Transaktion und Rollback) • Viele Nutzer – Daten lesen – Daten schreiben/ändern [- Daten löschen] Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 Warum Datenbanken in den Sozialwissenschaften? • Analyse empirischer Daten = wesentliches Schlüsselelement im Methodenschatz der Sozialwissenschaften • redundanzfreien Darstellung und Verwaltung empirischer Daten (zwischen Eingabe und statistischer Auswertung) • Alternative zur statistischen Datenauswertung, vor allem bei deskriptiven Analysen großer Datenmengen (z.B. Vollerhebungen in der Epidemiologie oder Demografie) Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 Warum Datenbanken in den Sozialwissenschaften? Datenbank Frontend Datennutzer (OpenOffice, MS Access) Dateneingabe, Datenmanagement, Benutzerverwaltung (Statistikprogramm R, SPSS, MS Access, MS Excel, ) Datenanalyse Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 SQL – Structured Querying Language • Strukturierte Abfragesprache – Alle Aspekte der Datenbankverwaltung • Hauptkomponenten: – Data Definition Language – Data Manipulation Language – Administration • Verschiedene Dialekte – T-SQL, Jet-SQL (VisualBasic orientiert) – MySQL – … Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 Vergleich MySQL Server und MS SQL Server MySQL Server MS SQL Server + auf den meisten Plattformen verfügbar (per ODBC) + voll ausgereiftes Datenbanksystem ohne Limitationen (kann große Datenmengen bedienen) + wird von vielen OpenSource Systemen verwendet (PHP Websitesysteme, Open Office + große Entwicklergemeinde -/+ eigene Benutzerverwaltung + nutzt WINDOWS Authentifizierung + schnell installiert (auf WINDOWS Rechnern) + einfach und schnell bedienbar + umfangreiches und mächtiges Verwaltungswerkzeug + kostenfreie Entwicklerwerkzeuge (VisualBasic.NET, Webdeveloper.NET…) + frei weitervertreibbar + mit MS ACCESS steuerbar - langwierigere Installation - weniger gut ausgereifte Entwicklerwerkzeuge = langsamere Entwicklung - begrenzt auf WINDOWS Welt - nicht Quelltextoffen, nur kostenlos - limitiert auf 1 CPU mit max. 1GB RAM, mit 4 GB maximaler Datenbankgröße Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MS SQL Server Express 2005 • • http://www.microsoft.com/germany/msdn/vstudio/products/express/sql/default.mspx http://www.microsoft.com/germany/msdn/vstudio/products/express/download.mspx • Installation: – SQL Server 2005 Express – Benutzer mit lokalen Administrationsrechten Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MS SQL Server Oberflächenkonfiguration Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 Microsoft SQL Server Management Studio Express • http://www.microsoft.com/downloads/details.aspx?FamilyID=c243a5ae-4bd1-4e3d94b8-5a0f62bf7796&DisplayLang=de • Installation: – Microsoft SQL Server Management Studio Express Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 Microsoft SQL Server Management Studio Express Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 Microsoft SQL Server Management Studio Express Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MS Access als FrontEnd Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MS Access als FrontEnd Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MySQL Server • http://dev.mysql.com/downloads/ • Installation: – MySQL Community Server – Konfiguration des Servers (Wizard) • Standardeinstellungen • TCP/IP 3306 • root – Passwort (superuser) – Kommandozeilenunterstützung Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MySQL Server GUI Tools • http://dev.mysql.com/downloads/gui-tools/5.0.html • Installation (Wizard) • MySQL Administrator • MySQL Query Browser Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MySQL Administrator • Verbindung einrichten Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MySQL Administrator Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MySQL Administrator – Benutzer anlegen Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MySQL Administrator – Datenbank erstellen Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MySQL Administrator – Tabelle erstellen Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MySQL Connectors • http://dev.mysql.com/downloads/connector/ • ODBC Treiber – Open DataBase Connectivity – Installation (Wizard) Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MySQL Connection with OpenOffice Base Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MySQL Setup einer ODBC Datenquelle Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MySQL Setup einer ODBC Datenquelle Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MySQL Auswahl der ODBC Datenquelle Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MySQL Auswahl der ODBC Datenquelle Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MySQL Auswahl der ODBC Datenquelle Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MySQL OpenOffice Base Tabellendesigner Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 MySQL Dokumentation • http://downloads.mysql.com/docs/refman-4.1-en.a4.pdf Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 Beispiele an Daten • Datendefinition • Dateneingabe • Datensichten • Datenexport • Datenzusammenfassungen Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 Beispiele Datenexport R ODBC MySQL SPSS • • • • Datenabfrage von R nach MySQL Systemsteuerung>Verwaltung>ODBC Datenquellen Neue DSN erstellen In R package RODBC verwenden Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 Beispiele Datenexport R ODBC MySQL SPSS Script in R ausführen: library(RODBC) con = odbcConnect("PharmEpi auf MySQL“) daten = sqlFetch(con,"Patienten") ls() daten Summary(daten) ScheinePatienten = sqlQuery(con,"Select * From patienten INNER JOIN scheine ON … (patienten.VersichertenNummer = scheine.Versichertennummer)") ls() ScheinePatienten summary(ScheinePatienten) Die Analyse großer Datensätze mittels freier Datenbanksysteme 12. Juni 2007 Institut für Angewandte Trainingswissenschaft Leipzig ein Institut des Trägervereins IAT / FES des DOSB e.V. Vielen Dank für Ihre Aufmerksamkeit! Dr Dirk Meusel Institut für Angewandte Trainingswissenschaft Fachbereich Forschungstechnologie Telefon: E-Mail: Internet: +49 341 4945 143 [email protected] http://www.iat.uni-leipzig.de/