Die Analyse großer Datensätze mittels freier Datenbanksysteme

Werbung
Institut für Angewandte Trainingswissenschaft Leipzig
ein Institut des Trägervereins IAT / FES des DOSB e.V.
Die Analyse großer Datensätze
mittels freier Datenbanksysteme
Dr Dirk Meusel
[email protected]
mySQL:
Die Analyse empirischer Daten ist ein wesentliches
Schlüsselelement im Methodenschatz der
Sozialwissenschaften. Datenbanksysteme sind ein
wichtiges Mittel zur redundanzfreien Darstellung und
Verwaltung empirischer Daten.
Ferner sind Datenbanksysteme eine Alternative zur
statistischen Datenauswertung, vor allem bei deskriptiven
Analysen großer Datenmengen (z.B. in der Epidemiologie
oder Demografie). In der Lehrveranstaltung werden die
folgenden Datenbankkonzepte vorgestellt: relationale
Datenmodellierung, Datenverknüpfung mittels strukturierter
Abfragen (SQL), Datenauswertungen, Datenimport/-export
(bspw. in Statistikprogramme).
Diese Konzepte werden am Beispiel frei verfügbarer
Datenbanksysteme illustriert (MySQL, MS SQL Server
Express 2005).
Autor:
Titel
Vortragstitel, Gliederungspunkt,
Helvetica 12
1.12.2005
Gliederung
• Datenbanken/Datenbanksysteme allgemein
• SQL
• MySQL vs. Microsoft SQL Express
– Installation
– mögliche FrontEnds
• Beispiele an Daten
• Datenexport
Populationsbezogene Messung körperlicher Aktivität – das ALPHA Projekt
12. Juni 2007
Warum Datenbanken?
• Was ist eine Datenbank?
Patienten
Scheine
Diagnosen
ICD
katalog
Rezepte
Rezeptposten
ATC
katalog
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
Warum Datenbanken?
•
•
•
•
Redundanzfreie Darstellung der Daten
Relationale Bezüge von Daten untereinander
Unterschiedliche Sichten
Große Datenmengen
• Datensicherungsstrategien
• Datenintegrität (Transaktion und Rollback)
• Viele Nutzer
– Daten lesen
– Daten schreiben/ändern
[- Daten löschen]
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
Warum Datenbanken in den Sozialwissenschaften?
• Analyse empirischer Daten = wesentliches
Schlüsselelement im Methodenschatz der
Sozialwissenschaften
• redundanzfreien Darstellung und Verwaltung
empirischer Daten (zwischen Eingabe und
statistischer Auswertung)
• Alternative zur statistischen Datenauswertung,
vor allem bei deskriptiven Analysen großer
Datenmengen (z.B. Vollerhebungen in der
Epidemiologie oder Demografie)
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
Warum Datenbanken in den Sozialwissenschaften?
Datenbank
Frontend
Datennutzer
(OpenOffice,
MS Access)
Dateneingabe,
Datenmanagement,
Benutzerverwaltung
(Statistikprogramm R, SPSS,
MS Access, MS Excel, )
Datenanalyse
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
SQL – Structured Querying Language
• Strukturierte Abfragesprache
– Alle Aspekte der Datenbankverwaltung
• Hauptkomponenten:
– Data Definition Language
– Data Manipulation Language
– Administration
• Verschiedene Dialekte
– T-SQL, Jet-SQL (VisualBasic orientiert)
– MySQL
– …
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
Vergleich MySQL Server und MS SQL Server
MySQL Server
MS SQL Server
+ auf den meisten Plattformen verfügbar
(per ODBC)
+ voll ausgereiftes Datenbanksystem ohne
Limitationen (kann große
Datenmengen bedienen)
+ wird von vielen OpenSource Systemen
verwendet (PHP Websitesysteme,
Open Office
+ große Entwicklergemeinde
-/+ eigene Benutzerverwaltung
+ nutzt WINDOWS Authentifizierung
+ schnell installiert (auf WINDOWS
Rechnern)
+ einfach und schnell bedienbar
+ umfangreiches und mächtiges
Verwaltungswerkzeug
+ kostenfreie Entwicklerwerkzeuge
(VisualBasic.NET,
Webdeveloper.NET…)
+ frei weitervertreibbar
+ mit MS ACCESS steuerbar
- langwierigere Installation
- weniger gut ausgereifte
Entwicklerwerkzeuge = langsamere
Entwicklung
- begrenzt auf WINDOWS Welt
- nicht Quelltextoffen, nur kostenlos
- limitiert auf 1 CPU mit max. 1GB RAM,
mit 4 GB maximaler Datenbankgröße
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MS SQL Server Express 2005
•
•
http://www.microsoft.com/germany/msdn/vstudio/products/express/sql/default.mspx
http://www.microsoft.com/germany/msdn/vstudio/products/express/download.mspx
• Installation:
– SQL Server 2005 Express
– Benutzer mit lokalen Administrationsrechten
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MS SQL Server Oberflächenkonfiguration
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
Microsoft SQL Server Management Studio Express
•
http://www.microsoft.com/downloads/details.aspx?FamilyID=c243a5ae-4bd1-4e3d94b8-5a0f62bf7796&DisplayLang=de
• Installation:
– Microsoft SQL Server Management Studio Express
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
Microsoft SQL Server Management Studio Express
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
Microsoft SQL Server Management Studio Express
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MS Access als FrontEnd
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MS Access als FrontEnd
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MySQL Server
• http://dev.mysql.com/downloads/
• Installation:
– MySQL Community Server
– Konfiguration des Servers (Wizard)
• Standardeinstellungen
• TCP/IP 3306
• root – Passwort (superuser)
– Kommandozeilenunterstützung
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MySQL Server GUI Tools
• http://dev.mysql.com/downloads/gui-tools/5.0.html
• Installation (Wizard)
• MySQL Administrator
• MySQL Query Browser
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MySQL Administrator
• Verbindung einrichten
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MySQL Administrator
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MySQL Administrator – Benutzer anlegen
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MySQL Administrator – Datenbank erstellen
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MySQL Administrator – Tabelle erstellen
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MySQL Connectors
• http://dev.mysql.com/downloads/connector/
• ODBC Treiber
– Open DataBase Connectivity
– Installation (Wizard)
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MySQL Connection with OpenOffice Base
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MySQL Setup einer ODBC Datenquelle
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MySQL Setup einer ODBC Datenquelle
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MySQL Auswahl der ODBC Datenquelle
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MySQL Auswahl der ODBC Datenquelle
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MySQL Auswahl der ODBC Datenquelle
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MySQL OpenOffice Base Tabellendesigner
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
MySQL Dokumentation
•
http://downloads.mysql.com/docs/refman-4.1-en.a4.pdf
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
Beispiele an Daten
•
Datendefinition
•
Dateneingabe
•
Datensichten
•
Datenexport
•
Datenzusammenfassungen
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
Beispiele Datenexport
R
ODBC
MySQL
SPSS
•
•
•
•
Datenabfrage von R nach MySQL
Systemsteuerung>Verwaltung>ODBC Datenquellen
Neue DSN erstellen
In R package RODBC verwenden
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
Beispiele Datenexport
R
ODBC
MySQL
SPSS
Script in R ausführen:
library(RODBC)
con = odbcConnect("PharmEpi auf MySQL“)
daten = sqlFetch(con,"Patienten")
ls()
daten
Summary(daten)
ScheinePatienten = sqlQuery(con,"Select * From patienten INNER JOIN scheine ON …
(patienten.VersichertenNummer = scheine.Versichertennummer)")
ls()
ScheinePatienten
summary(ScheinePatienten)
Die Analyse großer Datensätze mittels freier Datenbanksysteme
12. Juni 2007
Institut für Angewandte Trainingswissenschaft Leipzig
ein Institut des Trägervereins IAT / FES des DOSB e.V.
Vielen Dank für Ihre Aufmerksamkeit!
Dr Dirk Meusel
Institut für Angewandte Trainingswissenschaft
Fachbereich Forschungstechnologie
Telefon:
E-Mail:
Internet:
+49 341 4945 143
[email protected]
http://www.iat.uni-leipzig.de/
Herunterladen