Integration von SAS V8 mit einer Oracle-Datenbank in - SAS-Wiki

Werbung
Datenmanagement
Integration von SAS V8 mit einer
Oracle-Datenbank in einen wissenschaftlichen
Arbeitsplatz unter Linux
Daniel Neubert, Rainer Kaluscha
Forschungsinstitut für
Rehabilitationsmedizin an der
Universität Ulm
Sitz: Rheumaklinik Bad Wurzach
Karl-Wilhelm-Heck-Str. 6
88410 Bad Wurzach
Martin Urban
Forschungsinstitut für
Rehabilitationsmedizin an der
Universität Ulm
Sitz: Helmholtzstr. 22
89081 Ulm
[email protected]
[email protected]
[email protected]
Zusammenfassung
Dargestellt wird die enge Integration von SAS V8 mit einer OracleDatenbank (Version 8.1.7.x) in einen wissenschaftlichen Arbeitsplatz
unter dem Betriebssystem SuSE Linux 7.2. Die Arbeitsplatzrechner
bieten als graphische Oberfläche KDE (K Desktop Environment), das
Star-Office Paket von SUN in der Version 6 sowie zahlreiche Tools
aus dem Open-Source- Bereich.
Eingesetzt werden diese Arbeitsplätze im Projekt REHA-NET des rehabilitationswissenschaftlichen Forschungsverbundes Ulm, einer
multizentrischen Studie mit insgesamt 6 teilnehmenden Kliniken. In
der zentralen Oracle-Datenbank wird als Kerndatensatz der vereinheitlichte Entlassungsbericht der deutschen Rentenversicherung (vgl.
[1]) erfasst. Dezentral vor Ort findet darüber hinaus eine Erfassung
der jeweils projektspezifischen Daten statt.
Ziel war dabei den Nutzern einen einfachen und effizienten Zugang zu
der Datenbasis zu ermöglichen um die umfangreichen Auswertemöglichkeiten von SAS nutzen zu können. Die Datenbasis umfasst derzeit
ca. 80000 Datensätze, die sowohl strukturierte als auch freitextliche
Informationen abbilden. Über Datenbankviews, die auch die Umsetzung von linguistischen Anfragen in numerische Variablen leisten und
das SAS-ACCESS-Modul für Oracle können die Daten einfach nach
SAS importiert werden. Durch die Nutzung von SQL ist es außerdem
möglich SAS-Quelltexte aus dem vorhandenen Datenbankschema
187
D. Neubert, R. Kaluschka, M. Urban
automatisch generieren zu lassen. Zusätzlich kann durch den geschickten Einsatz von Datenbankviews eine automatische Bereinigung
der Datenbasis und somit eine hohe Datenqualität gewährleistet werden.
Eine Gegenüberstellung von Funktionalitäten und verursachten Kosten bei Ausstattung dieses PC-Arbeitsplatzes mit einem vergleichbaren System auf der Basis von Microsoft-Produkten spricht unseres
Erachtens für die dargestellte Lösung.
Keywords: Linux, Oracle, Fragebogengenerator, Datenbankstrukturgenerator, Rehabilitationswissenschaft, Forschungsverbund Ulm,
RehaNet, Patkonto.
1
Der Rehabilitationswissenschaftliche
Forschungsverbund Ulm
Der rehabilitationswissenschaftliche Forschungsverbund Ulm setzt sich aus
dem Forschungsinstitut für Rehabilitationsmedizin, weiteren Abteilungen
der Universität Ulm, mehreren Rehabilitationskliniken im Einzugsbereich
und einzelnen Fachabteilungen der Landesversicherungsanstalt (LVA)
Württemberg zusammen. Die Besonderheiten des Forschungsverbundes Ulm
liegen dabei zum einen in der Verknüpfung universitärer und rehabilitationsmedizinischer Einrichtungen zum anderen in dem - in Zusammenarbeit
mit der LVA Baden-Württemberg erarbeiteten - integrativen Datenkonzept,
welches einen sicheren Daten- und Informationstransfer zwischen den Verbundteilnehmern ermöglicht.
Mit Hilfe der Verbundkonstruktion ist geplant, Prozeß und Outcome von
Rehabilitationsmaßnahmen an konkreten klinischrehabilitativen Fragestellungen in den Indikationsgebieten neurologische und kardiologische Rehabilitation sowie im Bereich Bewegungsapparat zu evaluieren sowie unter
epidemiologischen und gesundheitsökonomischen Gesichtspunkten zu analysieren. Fragen der Effektivität (sowohl medizinische als auch Kosteneffektivität) des rehabilitationsmedizinischen Versorgungsprozesses sind
Forschungsschwerpunkte des Ulmer Verbundes.
Die einzelnen Projekte des Forschungsverbundes werden in zwei dreijährigen Förderphasen und einer Umsetzungsphase vom BMBF, DLR / VDR und
der LVA Baden-Württemberg gefördert. Momentan befinden wir uns im
letzten Drittel der zweiten Förderphase.
188
Datenmanagement
1.1
Das Projekt RehaNet
Das Service Projekt RehaNet unterstützt die Verbundprojekte in allen Informationstechnologischen Fragen. Es nimmt u.a. folgende Aufgaben wahr:
Zentrale Beschaffung der technischen Infrastruktur
Softwarekonfiguration der Arbeitsplatzrechner
Auslieferung und Vernetzung
Schulung der Verbundteilnehmer
Support und Software-Entwicklung
Die Projekte sind durch ein privates WAN (Wide Area Network) mittels
verschlüsselten ISDN Wahlverbindungen vernetzt. Ein zentraler Server stellt
vielfältige Dienste zur Verfügung. Neben den üblichen Intranet-Diensten (EMail, Newsgroups, Download, usw.) gibt es ein Qualitätssicherungsportal.
189
D. Neubert, R. Kaluschka, M. Urban
Es besteht aus einer Literaturdatenbank mit den im Verbund veröffentlichten
Publikationen und Seiten zum Projekt-Controlling.
1.2
Das Patientenkonto
Die Verbundprojekte haben Zugang zum Patientenkonto, eine umfangreiche
Datenbank, in der pseudonymisierte Entlassungsberichte der LVA BadenWürttemberg für die Forschung abgelegt sind [1].
Während in der ersten Förderphase des Forschungsverbundes für die Arbeitsplatzrechner ausschließlich das kommerzielle Betriebssystem Windows
NT von Microsoft zum Einsatz kam, wurden die Projekte der zweiten Forderphase mit dem Betriebssystem Linux ausgestattet.
2
Linux am Arbeitsplatz
Die Projekte des Verbundes sind auf entfernte Institutionen in BadenWürttemberg verteilt. Neben den Gütekriterien Stabilität, Geschwindigkeit,
OpenSource / GPL sind die Fernwartungsmöglichkeiten wesentliche Vorteile von Linux. Nachdem die neue KDE-Oberfläche das reibungslose
Arbeiten ohne Spezialkenntnisse ermöglicht, steht dem Einsatz am
wissenschaftlichen Arbeitsplatz nichts im Wege. Die folgenden Kapitel
beschreiben die wichtigsten Arbeitsmittel im Forschungsverbund.
2.1
Dateneingabe: Der Generator für Dateneingabemasken
Die Erstellung von Dateneingabemasken erwies sich in der ersten Förderphase als immer wiederkehrende zeitaufwendige Aufgabe. Um eine Plattform-unabhängige Lösung bereit zu stellen, wurde ein Generator in PHP und
JavaScript implementiert, der sowohl Browserfähige Eingabemasken als
auch die zugehörigen Datenbankobjekte generiert.
Die Projekte liefern lediglich formatierte Textdateien mit den Variablenbeschreibungen in der Form:
<formular_x.txt> := ((name^typ^länge^bez))+
<combo_typ.txt> := (typ^ausprägung^bez)*
Das Ergebnis des Generierungsprozesses sind Dateneingabemasken mit
standardisiertem Layout.
190
Datenmanagement
Es wird ein Formular je Beschreibungsdatei angelegt und in einem übersichtlichen Navigationsframe zur Auswahl angeboten.
191
D. Neubert, R. Kaluschka, M. Urban
Nach dem vollständigen Ausfüllen der Eingabefelder kann das Formular im
Schema des angemeldeten Benutzers gespeichert werden.
Eine weitere Seite wird zum Suchen von Datensätzen angeboten.
Aufgefundene Datensätze können bearbeitet oder gelöscht werden.
192
Datenmanagement
2.2
Datenhaltung: Relationale Datenbanken
Die Datenhaltung der Studien erfolgt in relationalen Datenbanken. Neben
dem Argument der Datensicherheit (Benutzer und Rollenkonzept, Backupund Recoverystrategien) steht die mächtige Abfragesprache SQL. Sie implementiert alle Operatoren der relationalen Algebra (Selektion, Projektion,
Verbund und Mengenoperatoren) und ermöglicht den effizienten Zugriff auf
einzelne Daten.
2.3
Datenauswertung: SAS unter Linux
Die SAS Oberfläche unter Linux ist mit der Windows-Version identisch. Es
gibt je nach Datenhaltung und gewähltem Importmechanismus eine Vielzahl
an Möglichkeiten der Datenübernahme in SAS. Einfacher Zugriff auf eine
Oracle-Datenbank kann über das SAS-Libname Statement erreicht werden.
193
D. Neubert, R. Kaluschka, M. Urban
Auch das Query-Tool von SAS ermöglicht den schnellen Zugriff auf die
gespeicherten Daten.
2.4
Datenpräsentation: StarOffice und OpenOffice
Zur Präsentation der Auswertungen im Linux-Umfeld bietet sich das mitgelieferte Office-Paket OpenOffice an. Es beinhaltet äquivalente Programme
zur kommerziellen Variante. Sowohl Präsentationen als auch Berichte können in gewohnter Form erstellt werden.
Literatur
[1]
194
Kaluscha R., Jacobi E. (2000): Eine Datenbank zur Effektivitätsbeurteilung: Das Datenbankkonzept des rehabilitationswissenschaftlichen Forschungsverbundes Ulm. DRV-Schriften Band 20: 218-219
Herunterladen