Bachelorarbeit: Anbindung und Benchmarking einer In-Memory-Datenbank an i2b2 In Kliniken fallen sehr große Mengen an Daten an. Am Universitätsklinikum Erlangen werden nächtlich Millionen an Datensätzen aus den unterschiedlichen Quellsystemen in ein Data Warehouse (DWH) exportiert und für das Berichtwesen aufbereitet. In den letzten Jahren wurde es unter dem Begriff "Secondary Use" [1] immer wichtiger, diese Daten auch für wissenschaftliche (medizinische) Fragestellungen und zur Patientenrekrutierung zu verwenden. Unter diesem Aspekt arbeitet das UK-Erlangen daran, die gesammelten Routinedaten seinen Medizinern für Forschungszwecke bereitzustellen. Hierfür setzt das Klinikum seit 2009 auf die OpenSource-Plattform i2b2 (http://www.i2b2.org) aus Boston [2]. Mit i2b2 steht ein benutzerfreundliches Werkzeug für Recherchen in klinischen Datensätzen zur Verfügung. Der Lehrstuhl für Medizinische Informatik hat in den vergangen Jahren umfangreiche Arbeiten im Zusammenhang mit i2b2 geleistet und Kompetenzen aufgebaut, insbesondere im Bereich der Installation, Administration, ETL und Adaption auf deutsche Verhältnisse. i2b2 und damit zusammenhängende Eigenentwicklungen werden in den BMBF-Projekten IDRT1, IDRT2, Cloud4Health und dem EU-Projekt EHR4CR genutzt. Auch der "i2b2 Wizard" [3], ein Werkzeug zur einfachen Installation und Administration von i2b2, fand international breite Verwendung. i2b2 unterstützt von Haus aus die relationalen Datenbanksysteme von Oracle, Microsoft (SQL-Server) und seit Version 1.7 neuerdings auch PostgreSQL. Im Rahmen einer Zusammenarbeit mit der Nürnberger Firma EXASOL AG (http://www.exasol.com/) konnte i2b2 (Version 1.6) auch an das In-Memory Datenbanksystem EXASolution angebunden werden. Es ist jedoch noch unklar, welche Vor- und Nachteile sich bei der Verwendung der unterschiedlichen Datenbanksysteme ergeben. Im Rahmen dieser Arbeit sollen die genannten Datenbanksysteme in Verwendung mit i2b2 insbesondere hinsichtlich der Performance evaluiert werden. Wir bieten: den berühmten Blick über den Tellerrand: Praxiserfahrungen im klinischen Umfeld, für Informatiker ein ausgesprochen spannendes und dankbares Umfeld die Möglichkeit, sich in nationale und internationale Projekte einzubringen, einschließlich der Vorstellung/Publikation des Projekts (z. B. als Vortrag auf der GMDS e. V. Jahrestagung (Gesellschaft für Medizinische Informatik, Biometrie und Epidemiologie) oder im Rahmen der i2b2 Academic User Group) umfangreiche Vorarbeiten und fundierte Kenntnisse im Zusammenhang mit i2b2 Anforderungen (oder die Motivation, sich hier einzuarbeiten): Interesse an Medizin, eine kreative Ader, Geduld und Zeit Abhängig von der Benchmarking-Strategie: Kenntnisse über verschiedene Web-Techniken für den i2b2 Web-Client, insb. JavaScript (einschließlich AJAX, YUI-Framework, XML-Verarbeitung, …) Gute Kenntnisse über relationale Datenbanken, SQL Gute Kenntnisse über Linux und Bash-Scripting Ziele (vorläufig): Z1 Z2 Bereitstellung des i2b2-Wizards für die aktuelle i2b2-Version und verschiedene Datenbanksysteme Benchmarking von i2b2 mit verschiedenen Datenbankensystemen Aufgaben (vorläufig): A1 Konzeption A1.1 Recherche A1.1.1 Literaturrecherche publizierter Ansätze zum Benchmarking von Datenbanken A1.1.2 Marktrecherche verfügbarer kommerzieller & Open-Source-Komponenten zum Benchmarking A1.2 A2 Anforderungsanalyse & Konzeption A1.2.1 Grundlegende Analyse der Query-Arbeitsweise von i2b2 A1.2.2 Konzeption eines Benchmarking-Ansatzes Implementierung & Evaluation A2.1 Aktualisierung des i2b2-Wizards A2.1.1 Duplizierung des i2b2-Scripts für Version 1.6 und Anpassung an i2b2 1.7 A2.1.2 Duplizierung des Oracle- oder SQL-Server-Scripts und Anpassung an PostgreSQL und EXASolution A2.2 Implementierung eines funktionsfähigen Prototyps zum Benchmarking von i2b2 Queries A2.2.1 Generierung von Test-Daten A2.2.2 Je nach Ansatz: Implementierung eines Benchmarking-Verfahrens in i2b2 in einem Benchmarking-Werkzeug -- oder -- Implementierung eines i2b2-BenchmarkingPlugins für den i2b2-Webclient A2.3 Durchführung eines beispielhaften Benchmarks mit unterschiedlichen Datenbanksystemen (Oracle, SQL-Server, PostgreSQL, EXASolution) unter Verwendung der generierten Testdaten Kontakt: Lehrstuhl für Medizinische Informatik: http://www.imi.med.uni-erlangen.de Dipl.-Inf. Sebastian Mate: Dr. Thomas Ganslandt: Dr. Martin Sedlmayr: [1] [2] [3] [email protected] [email protected] [email protected] Prokosch HU, Ganslandt T.; Perspectives for medical informatics. Reusing the electronic medical record for clinical research; Methods Inf Med. 2009;48(1): 38-44. Ganslandt T; Mate S, Helbing K, Sax U, Prokosch HU. Unlocking Data for Clinical Research - The German i2b2 Experience; Appl Clin Inf (2011). http://www.imi.med.uni-erlangen.de/tools/i2b2-wizard/