Medizinische Statistik und Informationsverarbeitung Quade Institut für Medizinische Statistik, Dokumentation und Datenverarbeitung Quade Anwendungsprogramme Anwendungsprogramme lassen sich in der Regel in 3 Ebenen einteilen: 1: Daten 2: Anwendung 3: Präsentation Diese Ebenen lassen sich auf verschiedenen Rechnern unterbringen (Client - Server). Quade Erfassungssysteme Erfassungssysteme können typische Anwendungsprogramme sein. Über Masken werden Daten eingegeben, vom Programm geprüft und dann in einer Datei oder Datenbank gespeichert. Schon gespeicherte Daten lassen sich jederzeit ändern oder ergänzen. Änderungen werden gegebenenfalls dokumentiert. Beispiel: Patientenaufnahme, Erfassung von Untersuchungsbefunden. Quade Erfassungssysteme In der Medizin gibt es besondere Anforderungen an Erfassungssysteme. So muß z.B. bei der Patientenaufnahme der Patient re-identifiziert werden. Erfaßte Daten eines Patienten müssen diesem eineindeutig zugeordnet werden können. Quade Erfassungssysteme Wichtig ist die vollständige, vollzählige und fehlerfreie Erfassung. Ein Erfassungsbogen wird häufig in der primären Datenerfassung eingesetzt. Geeignete Formulare (Markierungsbelege) können auch online eingelesen werden (Markierungsbeleg mit Barcode oder OCR-Schrift). Quade Datei, Datenbank Die einfachste Form, Daten zu speichern, ist die Ablage in einer Datei (File). Dateien werden in Verzeichnissen (Directories) abgelegt. Die Dateinamen werden in Abhängigkeit vom Betriebssystem gewählt. Daten werden in Dateien in ein oder mehreren Zeilen (Records) mit fester (fixed) oder variabler Länge abgelegt. Die Reihenfolge der Daten, die Form ihrer digitalen Repräsentation und ihre Position in der Datei müssen vereinbart sein. Quade Datei, Datenbank Auch Datenbanken speichern Daten in Dateien. Sie führen zusätzlich Informationen über die gespeicherten Daten (Bezeichnung, Format, Länge) mit. Bei echten Datenbanken verwaltet ein Datenbankmanager die Daten und organisiert den Zugriff. Damit werden Datenzugriff und Datenintegrität besser gewährleistet als durch Record locking bei Dateien. Quade Datei, Datenbank hierarchisch relational Dateibasiert: dBase, Clipper Access Datenbank: Oracle Mysql Informix Sybase SQL objektorientiert Quade Gesellschaften 60000-10000 AC Gesellschaft der Jäger und Sammler - 18. Jahrhundert Ackerbau und Viehzucht - heute Industriegesellschaft heute - ? Informationsgesellschaft zukünftig ? Freizeitgesellschaft? Oncology Meeting Curitiba Information Society Alle Produkte müssen produziert werden. Das „Produkt“ “Information / Wissen” kann leicht kopiert werden! Unser Problem ist nicht so sehr “producing knowledge”, sondern der Zugang zu vorhandenem Wissen Quade Geschichte des Internet 1957 Sputnik 1958 Advanced Research Projects Agency 1969 Arpanet(Network Control Protocol) erster Request For Comments 1972 ftp e-mail Oncology Meeting Curitiba Geschichte des Internet 1972 5 verschiedene Netzwerke (inkompatibel) RFC #318 telnet (Jon Postel) 1973 Name „Internet“ and Definition von TCP/IP 1982 TCP/IP wird „Standard“ 1983 TCP/IP als Source-Code frei zugänglich (Berkeley System Distribution) Oncology Meeting Curitiba The Telephone Network The Telephone Network The Telephone Network The Computer Network Netzwerke Netzwerke verbinden Computer untereinander. Vereinbarungen für den Informationstransport und -Austausch nennt man Protokolle. Netzwerke werden nach dem OSI Referenzmodell in 7 Schichten eingeteilt. Dabei nimmt die unterste Schicht großen Einfluß auf die Leistungsdaten eines Netzwerkes. Quade Netzwerke In der Transport und Vermittlungsschicht werden wichtige Eigenschaften des Netzwerkes festgelegt. SNA IPX Netbios weltweit local local Dateizugriff Dateizugriff Dateizugriff drucken drucken drucken NCS TCP/IP weltweit Dateizugriff drucken NCS WWW ftp Quade Quade IP-Netzwerkadressen Eine IP-Adresse besteht aus 4 Zahlen (Byte) zwischen 0 und 255. Hinzu kommt eine Netzwerkmaske. Die Netzwerkmaske (z.B. 255.255.x.x) bestimmt, welche Adressen ein zusammengehörendes Netzwerk (Knoten) bilden. Das erlaubt den gleichzeitigen Betrieb mehrerer logischer Netzwerke in einem physikalischen Netzwerk. Die höchste und die niedrigste Adresse ist jeweils für Broadcasts reserviert. Broadcast Alle Netzwerkkarten innerhalb eines zusammengehörenden Netzwerks lauschen auf den Broadcastadressen. Über die Broadcastadressen teilen die Netzwerkkarten anderen Rechnern ihre Anwesenheit und die von ihnen angebotenen Services mit. IP-Netzwerkklassen Eine IP-Adresse ist zweigeteilt und zwar in einen Netzwerkteil und einen Knotenteil. Der Netzwerkteil ist innerhalb eines Netzwerksegments überall gleich, während jeder Rechner oder jedes andere Gerät seine eigene Knotennummer bekommt. 10.10.10.10 Maske 255.0.0.0 IP-Netzwerkklassen Über die Netzwerknummer erfolgt auch die Einteilung in sogenannte Netzwerk-Klassen in A-, B- oder C-Klasse Netzwerke. Das Prinzip ist, dass große Netzwerke mit vielen Knoten möglichst eine Klasse A oder wenigstens eine Klasse B Nummer bekommen und kleine Netze eine Klasse C Nummer http://www.instrumentation.de/5106003d.htm IP-Netzwerkklassen Klasse A (1.0.0.0 bis 127.255.255.255): • Das erste Bit der Adresse ist auf Null gesetzt. Die ersten acht Bit identifizieren das Netzwerk, die restlichen 24 Bit den Host. Insgesamt sind 127 Class-A-Netze möglich. • Reserviert: 127.x.x.x (loopback/localhost) • Privat: 10.0.0.0 - 10.255.255.255 IP-Netzwerkklassen Das Klasse B (128.0.0.0 bis 191.255.255.255): • Bei Klasse-B-Netzen ist das erste Bit auf Null, das zweite Bit auf eins gesetzt. Die ersten 16 Bit beschreiben das Netzwerk, die anderen 16 Bit sind die Hostadresse. • Netze: 16.384 mit maximal 65.534 angeschlossenen Computern. • Privat: 172.16.0.0 - 172.31.255.255 IP-Netzwerkklassen Klasse C (192.0.0.0 bis 223.255.255.255) : • Diese Netzwerkart erlaubt nur 255 Hosts in einem Netz. Die ersten drei Bit einer Class-C-Adresse bilden dabei die Folge "110". Die ersten 24 Bit identifizieren das Netzwerk, nur acht Bit den Host. • 2.097.152 Netze mit jeweils 254 Rechnern • Privat: 192.168.0.0 - 192.168.255.255 IP-Netzwerkklassen Klasse D: 224.0.0.0 - 239.255.255.255 für spezielle Dienste z.B. Multicast Ports • • • • Jede IP-Adresse hat 65536 Ports festgelegte privilegierte Ports 0 bis 1023. festgelegte Ports von 1024 bis 49151 dynamische oder private von 49152 bis 65535 http://www.iana.org/assignments/portnumbers Warum Internet? telephone internet circuit switching packet switching time oriented volume oriented transfers picture of information transfers encoded data expensive cheep real time sometimes real time 1 page of information 1 page of information has approximately 2000 bytes transmission time telephone internet reading 1 minute fax 60 seconds 1 second and faster (56313 bytes) (2864 bytes) Geschichte des Internet 1983 Arpanet wechselt von NCP zu TCP Domain Name Service 1986 Perl von Larry Wall 1988 Internet Wurm von R. Morris Jr. 1989 Clifford Stoll und die Hacker Web Vorschlag von Tim BernersLee Oncology Meeting Curitiba Geschichte des Internet 1990 Tim Berners-Lee erstellt die erste WWW Software 1991 WAIS wird erfunden Gopher wird freigegeben Pretty Good Privacy von Philip Zimmerman wird freigegeben Linux wird von Linus Torvald vorgestellt Oncology Meeting Curitiba Tim Berners-Lee (1990) Geschichte des Internet 1991 Veronica 1993 Mosaic WWW Verkehr steigert sich von 0.1% auf 1%. Es gibt 500 WWW Server 1994 WWW wächst um 341,634% WWW wechselt von CERN zur INRIA Oncology Meeting Curitiba Quade World Wide Web Oncology Meeting Curitiba Geschichte des Internet 1994 Lycos startet eine Suchmaschine im Internet. Die deutsche Bundestagswahl wird im Internet übertragen. 1995 HTTP Pakete bilden das größte Kontingent im Internet Verkehr. Apache Web Server Projekt. Java wird eingeführt. Oncology Meeting Curitiba Geschichte des Internet 1996 Blue Ribbon Campain 1998 Clinton Oncology Meeting Curitiba Einige Fakten (2000) • Der Bereich Medizin ist der zweitgrößte im Internet • Es gibt fast eine Milliarde Dokumente • Maximal 10% bis 20% des Internet werden von einer Suchmaschine indexiert. • Es gibt Listserver und Suchmaschinen Recherchesysteme Recall Anteil der gefundenen Daten an den gesuchten Daten A A+C Precision Anteil der gefundenen Daten der von Interesse ist A A+B vorhandene Daten relevant irrelevant Ergebnis der Suche gefunden A B nicht gefunden C D Recherchesysteme MEDLINE Schlagworte, Autoren (3000 journals) http://www.ncbi.nlm.nih.gov/PubMed/ CURRENT CONTENTS wöchentlich erstelltes lnhaltsverzeichnis wichtiger Journals SCIENCE wie häufig wurde eine Publikation zitiert CITATION INDEX Quade Zwei Verfahren der Indexierung Einfacher Index über alle Worte z.B. WAIS Alle Worte werden in den Index aufgenommen Auch Worte wie Ich, Du, Er, Sie, Es, Das, und, aber, wie, ... Keine Bestimmung von Häufigkeit und Wichtigkeit Index mit Thesaurus z.B. Xindex mit UMLS-Metathesaurus Es werden nur relevante Begriffe in den Index aufgenommen Was Relevant ist wird an Hand von UMLS bestimmt Berechnung der Häufigkeiten von Worten und Wortgruppen Berechnung der Dichte dieser Worte und Wortgruppen Funktion von Xindex mit UMLS-Metathesaurus UMLS-Metathesaurus Dokument Wortliste Primäre Wortliste (Konzepte) Ranking Rank = Wörter pro Begriff * Anzahl * 1/Doclen * 1/Anz. Häufigster Begriff Index für das Dokument mit Preffered Terms Vorteile von Xindex gegenüber WAIS Erkennen von Wortkombinationen z.B. Breast Cancer Gleiches Suchergebnis bei unterschielicher Schreibweise z.B. hpv und HPV z.B. MTX und Methotrexat Sinnvolles Suchergebnis bei trivialen Begriffen z.B. love --> HPV, Cervixcarzinom, Brustkrebs Es werden Dokumente in verschiedenen Sprachen gefunden Vorteile von Xindex gegenüber WAIS Beispiel Melanom Vorteile von Xindex gegenüber WAIS Es werden seltene Entitäten gefunden: Suche nach „Melanom“ liefert Informationen zum „Wilms Tumor“ Dieser steht in Verbindung zum „clearcellsarcoma“ einer seltenen Form des Melanoms Erkennen von Synonymen z.B. Mumps, Parotitis epidemica Der UMLS-Metathesaurus Integration vorhandener Thesaurie: ICD 10, MESH, Cancerlit, HL7-Zusatz Mehrsprachig: z.B. Englisch, Deutsch, Spanisch, Russisch, Französisch, Finnisch, Italienisch, ... Konzeptorientierung: Jedes Konzept bekommt eine Nummer (CUI) Jedes Synonym jedes Konzeptes bekommt eine eigene Nummer in verschiedenen Sprachen sowohl normalisiert (SUI) als auch nicht normalisiert (LUI) Kennzeichnung des „Preffered Terms“ Nutzerprobleme • Wie finde ich als Laie eine Information? • Wie kann ich die Seriosität einer Information erkennen (weit mehr fragliche Informationen denn gute) ? • Wie finde ich beim Anbieter eine Information trotz bildorientierter Oberfläche? Was man wissen sollte! • Suchmaschinen lesen über „Spider“ Dokumente ein und erstellen einen Volltext-Index (nicht bei Datenbanken, Graphiken, Java). • Metatags werden nur bedingt ausgewertet. (Anbieter manipulieren „auf Teufel komm raus“) • Ranking ist nicht intelligent und bevorzugt kurze Dokumente. • Für Geld wird das Ranking manipuliert! Universität Bonn Vermittlung zu CancerNet Host=Lycos 30 25 20 15 10 5 0 a2z Katalog wurde am 28. März aus dem Angebot genommen Januar März Mai 1997 Meta-Tags <META NAME="keywords" CONTENT="Breast cancer, oncology, Cancer, medicine, Medizin, Krebs, CancerNet, PDQ, Tumor"> <META HTTP-EQUIV="RESOURCE-TYPE" content="document"> <META name="description" content="Breast cancer"> Qualitätssiegel • Geschütztes Logo einer anerkannten Organisation (NCI) • HON Code of Conduct • Link von einer anerkannten Organisation (WHO) • MedCERTAIN • In Vorbereitung: Qualitätssiegel der AG-Internet der GMDS Evaluation kommerzieller Anbieter • Kriterien für Focus Recherche – – – – – Nutzen für den User Kostensenkung durch weniger Arztbesuche Richtigkeit und Ausgewogenheit Vollständigkeit Online-Arzt vorhanden • Ergebnis der Recherche für Focus – Der User kann einen Arzt finden. Ein Hausarzt-Buch ist auf mehrere Tausend Pages aufgeteilt. – Der User verbringt viel Zeit für wenig Information im Netz. Seiten werden aus Datenbank generiert. Viele Wege führen zur gleichen Seite. – Bachblüten und Standardtherapie gleichwertig im Angebot. – Nur Infos vom eigenen Server. Suche extrem schwierig (Stunden) da Information versteckt. – Online-Arzt ist nicht hilfreich für eigene Fragen (Show). Was will der Nutzer? • • • • Informationen zu Krankheiten Informationen zu eigenen Werten Zugriff auf die eigene Patientenakte Informationen zu Arzt, Krankenhaus oder Versicherung – Sprechstunden, Besuchszeiten, Parkplatz – Benchmarking im Qualitätsbereich – Versicherungsvergleich