Datenmanagement Integration von SAS V8 mit einer Oracle-Datenbank in einen wissenschaftlichen Arbeitsplatz unter Linux Daniel Neubert, Rainer Kaluscha Forschungsinstitut für Rehabilitationsmedizin an der Universität Ulm Sitz: Rheumaklinik Bad Wurzach Karl-Wilhelm-Heck-Str. 6 88410 Bad Wurzach Martin Urban Forschungsinstitut für Rehabilitationsmedizin an der Universität Ulm Sitz: Helmholtzstr. 22 89081 Ulm [email protected] [email protected] [email protected] Zusammenfassung Dargestellt wird die enge Integration von SAS V8 mit einer OracleDatenbank (Version 8.1.7.x) in einen wissenschaftlichen Arbeitsplatz unter dem Betriebssystem SuSE Linux 7.2. Die Arbeitsplatzrechner bieten als graphische Oberfläche KDE (K Desktop Environment), das Star-Office Paket von SUN in der Version 6 sowie zahlreiche Tools aus dem Open-Source- Bereich. Eingesetzt werden diese Arbeitsplätze im Projekt REHA-NET des rehabilitationswissenschaftlichen Forschungsverbundes Ulm, einer multizentrischen Studie mit insgesamt 6 teilnehmenden Kliniken. In der zentralen Oracle-Datenbank wird als Kerndatensatz der vereinheitlichte Entlassungsbericht der deutschen Rentenversicherung (vgl. [1]) erfasst. Dezentral vor Ort findet darüber hinaus eine Erfassung der jeweils projektspezifischen Daten statt. Ziel war dabei den Nutzern einen einfachen und effizienten Zugang zu der Datenbasis zu ermöglichen um die umfangreichen Auswertemöglichkeiten von SAS nutzen zu können. Die Datenbasis umfasst derzeit ca. 80000 Datensätze, die sowohl strukturierte als auch freitextliche Informationen abbilden. Über Datenbankviews, die auch die Umsetzung von linguistischen Anfragen in numerische Variablen leisten und das SAS-ACCESS-Modul für Oracle können die Daten einfach nach SAS importiert werden. Durch die Nutzung von SQL ist es außerdem möglich SAS-Quelltexte aus dem vorhandenen Datenbankschema 187 D. Neubert, R. Kaluschka, M. Urban automatisch generieren zu lassen. Zusätzlich kann durch den geschickten Einsatz von Datenbankviews eine automatische Bereinigung der Datenbasis und somit eine hohe Datenqualität gewährleistet werden. Eine Gegenüberstellung von Funktionalitäten und verursachten Kosten bei Ausstattung dieses PC-Arbeitsplatzes mit einem vergleichbaren System auf der Basis von Microsoft-Produkten spricht unseres Erachtens für die dargestellte Lösung. Keywords: Linux, Oracle, Fragebogengenerator, Datenbankstrukturgenerator, Rehabilitationswissenschaft, Forschungsverbund Ulm, RehaNet, Patkonto. 1 Der Rehabilitationswissenschaftliche Forschungsverbund Ulm Der rehabilitationswissenschaftliche Forschungsverbund Ulm setzt sich aus dem Forschungsinstitut für Rehabilitationsmedizin, weiteren Abteilungen der Universität Ulm, mehreren Rehabilitationskliniken im Einzugsbereich und einzelnen Fachabteilungen der Landesversicherungsanstalt (LVA) Württemberg zusammen. Die Besonderheiten des Forschungsverbundes Ulm liegen dabei zum einen in der Verknüpfung universitärer und rehabilitationsmedizinischer Einrichtungen zum anderen in dem - in Zusammenarbeit mit der LVA Baden-Württemberg erarbeiteten - integrativen Datenkonzept, welches einen sicheren Daten- und Informationstransfer zwischen den Verbundteilnehmern ermöglicht. Mit Hilfe der Verbundkonstruktion ist geplant, Prozeß und Outcome von Rehabilitationsmaßnahmen an konkreten klinischrehabilitativen Fragestellungen in den Indikationsgebieten neurologische und kardiologische Rehabilitation sowie im Bereich Bewegungsapparat zu evaluieren sowie unter epidemiologischen und gesundheitsökonomischen Gesichtspunkten zu analysieren. Fragen der Effektivität (sowohl medizinische als auch Kosteneffektivität) des rehabilitationsmedizinischen Versorgungsprozesses sind Forschungsschwerpunkte des Ulmer Verbundes. Die einzelnen Projekte des Forschungsverbundes werden in zwei dreijährigen Förderphasen und einer Umsetzungsphase vom BMBF, DLR / VDR und der LVA Baden-Württemberg gefördert. Momentan befinden wir uns im letzten Drittel der zweiten Förderphase. 188 Datenmanagement 1.1 Das Projekt RehaNet Das Service Projekt RehaNet unterstützt die Verbundprojekte in allen Informationstechnologischen Fragen. Es nimmt u.a. folgende Aufgaben wahr: Zentrale Beschaffung der technischen Infrastruktur Softwarekonfiguration der Arbeitsplatzrechner Auslieferung und Vernetzung Schulung der Verbundteilnehmer Support und Software-Entwicklung Die Projekte sind durch ein privates WAN (Wide Area Network) mittels verschlüsselten ISDN Wahlverbindungen vernetzt. Ein zentraler Server stellt vielfältige Dienste zur Verfügung. Neben den üblichen Intranet-Diensten (EMail, Newsgroups, Download, usw.) gibt es ein Qualitätssicherungsportal. 189 D. Neubert, R. Kaluschka, M. Urban Es besteht aus einer Literaturdatenbank mit den im Verbund veröffentlichten Publikationen und Seiten zum Projekt-Controlling. 1.2 Das Patientenkonto Die Verbundprojekte haben Zugang zum Patientenkonto, eine umfangreiche Datenbank, in der pseudonymisierte Entlassungsberichte der LVA BadenWürttemberg für die Forschung abgelegt sind [1]. Während in der ersten Förderphase des Forschungsverbundes für die Arbeitsplatzrechner ausschließlich das kommerzielle Betriebssystem Windows NT von Microsoft zum Einsatz kam, wurden die Projekte der zweiten Forderphase mit dem Betriebssystem Linux ausgestattet. 2 Linux am Arbeitsplatz Die Projekte des Verbundes sind auf entfernte Institutionen in BadenWürttemberg verteilt. Neben den Gütekriterien Stabilität, Geschwindigkeit, OpenSource / GPL sind die Fernwartungsmöglichkeiten wesentliche Vorteile von Linux. Nachdem die neue KDE-Oberfläche das reibungslose Arbeiten ohne Spezialkenntnisse ermöglicht, steht dem Einsatz am wissenschaftlichen Arbeitsplatz nichts im Wege. Die folgenden Kapitel beschreiben die wichtigsten Arbeitsmittel im Forschungsverbund. 2.1 Dateneingabe: Der Generator für Dateneingabemasken Die Erstellung von Dateneingabemasken erwies sich in der ersten Förderphase als immer wiederkehrende zeitaufwendige Aufgabe. Um eine Plattform-unabhängige Lösung bereit zu stellen, wurde ein Generator in PHP und JavaScript implementiert, der sowohl Browserfähige Eingabemasken als auch die zugehörigen Datenbankobjekte generiert. Die Projekte liefern lediglich formatierte Textdateien mit den Variablenbeschreibungen in der Form: <formular_x.txt> := ((name^typ^länge^bez))+ <combo_typ.txt> := (typ^ausprägung^bez)* Das Ergebnis des Generierungsprozesses sind Dateneingabemasken mit standardisiertem Layout. 190 Datenmanagement Es wird ein Formular je Beschreibungsdatei angelegt und in einem übersichtlichen Navigationsframe zur Auswahl angeboten. 191 D. Neubert, R. Kaluschka, M. Urban Nach dem vollständigen Ausfüllen der Eingabefelder kann das Formular im Schema des angemeldeten Benutzers gespeichert werden. Eine weitere Seite wird zum Suchen von Datensätzen angeboten. Aufgefundene Datensätze können bearbeitet oder gelöscht werden. 192 Datenmanagement 2.2 Datenhaltung: Relationale Datenbanken Die Datenhaltung der Studien erfolgt in relationalen Datenbanken. Neben dem Argument der Datensicherheit (Benutzer und Rollenkonzept, Backupund Recoverystrategien) steht die mächtige Abfragesprache SQL. Sie implementiert alle Operatoren der relationalen Algebra (Selektion, Projektion, Verbund und Mengenoperatoren) und ermöglicht den effizienten Zugriff auf einzelne Daten. 2.3 Datenauswertung: SAS unter Linux Die SAS Oberfläche unter Linux ist mit der Windows-Version identisch. Es gibt je nach Datenhaltung und gewähltem Importmechanismus eine Vielzahl an Möglichkeiten der Datenübernahme in SAS. Einfacher Zugriff auf eine Oracle-Datenbank kann über das SAS-Libname Statement erreicht werden. 193 D. Neubert, R. Kaluschka, M. Urban Auch das Query-Tool von SAS ermöglicht den schnellen Zugriff auf die gespeicherten Daten. 2.4 Datenpräsentation: StarOffice und OpenOffice Zur Präsentation der Auswertungen im Linux-Umfeld bietet sich das mitgelieferte Office-Paket OpenOffice an. Es beinhaltet äquivalente Programme zur kommerziellen Variante. Sowohl Präsentationen als auch Berichte können in gewohnter Form erstellt werden. Literatur [1] 194 Kaluscha R., Jacobi E. (2000): Eine Datenbank zur Effektivitätsbeurteilung: Das Datenbankkonzept des rehabilitationswissenschaftlichen Forschungsverbundes Ulm. DRV-Schriften Band 20: 218-219