Institut für Medizinische Informatik, Statistik und - [iis2]

Vernetzte Forschung in der Medizin
Ein Metadata Repository für Items in klinischen, epidemiologischen und
Register-Studien
Matthias Löbe
26.05.2009
Institut für Medizinische Informatik, Statistik und Epidemiologie
Inhaltsübersicht
1.
Folksonomy
•
•
2.
Tagging
Kollaboration
Content
•
•
•
Einleitung
3. Applications
•
•
•
•
Syndizierung
Microformats
Lizenzen
Institut für Medizinische Informatik, Statistik und Epidemiologie
Ajax
Mashups
Web-APIs
Architekturen
Einleitung
Was ist das Web2.0?
Institut für Medizinische Informatik, Statistik und Epidemiologie
Einleitung
Web1.0 >> Web2.0
Gebiet
Web1.0
Web2.0
Persönliche Seite
Websitemanagement
Struktur
Inhaltsverbreitung
Dynamik
Mehrwert
Nutzerorganisation
Klassifizierung
Homepage
Blog
CMS
Wiki
HTML
Microformats
Newsletter
RSS
Applets
Ajax
Portale
Mashups
Hierarchie
Community
Taxonomie
Tagging
Institut für Medizinische Informatik, Statistik und Epidemiologie
Folksonomy - 1
•
•
•
•
Soziale
Software
Folksonomy
ist zusammengesetzt aus „folk“ und „taxonomy“
Idee: Kontexterschließung durch gemeinschaftliches Indizieren (collaborative tagging)
Informationselemente werden mit Tags (Labels, Attribute, ...) versehen
Im Gegensatz zu traditioneller Verschlagwortung:
– Kein fester Schlagwortsatz
– Keine Hierarchie
– Keine Fachexperten oder Qualitätssicherung
•
Zurzeit nur ein Trend, Vorteile sind wissenschaftlich nicht nachgewiesen
Institut für Medizinische Informatik, Statistik und Epidemiologie
Folksonomy – 2
Bookmarkverwaltung: del.icio.us
Institut für Medizinische Informatik, Statistik und Epidemiologie
Folksonomy – 3
Verzeichnisse: Open Directory Project
Institut für Medizinische Informatik, Statistik und Epidemiologie
Folksonomy – 4
Homepages: Weblogs (Blogs)
Institut für Medizinische Informatik, Statistik und Epidemiologie
Folksonomy - 5
Suchmaschinen: Technorati
Institut für Medizinische Informatik, Statistik und Epidemiologie
Folksonomy - 6
Wikis: Wikipedia
Institut für Medizinische Informatik, Statistik und Epidemiologie
Folksonomy - 7
Typen von Wikis
Institut für Medizinische Informatik, Statistik und Epidemiologie
Folksonomy - 8
Fotos: FlickR
Institut für Medizinische Informatik, Statistik und Epidemiologie
Folksonomy - 9
Webseiten: Co-Op
Institut für Medizinische Informatik, Statistik und Epidemiologie
Folksonomy - 10
Publikationen: CiteULike
Institut für Medizinische Informatik, Statistik und Epidemiologie
Folksonomy - 11
Beispiele
• Weitere
Videos (YouTube.com)
• Community (MySpace.com)
• Nachrichten (digg.com)
• Bücher (Amazon.de)
• Artikel (eBay.de)
Institut für Medizinische Informatik, Statistik und Epidemiologie
Syndizierung - 1
Simple
Syndication
(RSS)
• Really
„Wirklich
einfache
Verbreitung“
• Erzeugt Kurzzusammenfassungen des Inhalts einer Website, die sich
abonnieren lassen
• Verschiedene Standards, leicht inkompatibel (RSS0.92, RSS1.0, RSS2.0,
ATOM)
• Unterstützung durch moderne Webbrowser und Mailclients
• Nahezu alle Folksonomy-Anwendungen exportieren / verwerten RSS-Feeds
Institut für Medizinische Informatik, Statistik und Epidemiologie
Syndizierung - 2
RSS-Aufbau
Institut für Medizinische Informatik, Statistik und Epidemiologie
Syndizierung - 3
RSS-Anwendung
Institut für Medizinische Informatik, Statistik und Epidemiologie
Microformats - 1
Was sind Mikroformate?
Institut für Medizinische Informatik, Statistik und Epidemiologie
Microformats - 2
•
Designprinzipien
„Entwickelt primär für Menschen, sekundär für Maschinen“
– Nützlich für den menschlichen Anwender
– Nützlich für Suchmaschinen
•
„Don‘t Repeat Yourself“
– Metadaten werden nicht vom Inhalt getrennt
•
Beispiel ohne semantisches Markup:
<p>
Am 11. September 2006 von 13:00 Uhr-17:00 Uhr findet das
Tutorium "Im WWW nichts Neues? - Web2.0" im Haus 3, Raum 03
statt, gehalten von Matthias Löbe vom IMISE Leipzig.
</p>
Institut für Medizinische Informatik, Statistik und Epidemiologie
Microformats - 3
mitdersemantischem
Markup
(I)
• Beispiel
Benutzung
Mikroformate hCal
und hCard:
<div class="vevent">
Am 11. September 2006 von 13:00 Uhr-17:00 Uhr findet das
Tutorium
<div class="summary">Im WWW nichts Neues? - Web2.0</div>
im Haus 3, Raum 03 statt,
</div>
<p>gehalten von</p>
<div class="vcard">
<div class="fn">Matthias Löbe</div> vom IMISE
<div class="locality">Leipzig</div>.
</div>
Institut für Medizinische Informatik, Statistik und Epidemiologie
Microformats - 4
Beispiel mit semantischem Markup (II)
<div class="vevent">
<abbr class="dtstart" title="20060911T1300+0100">
11. September 2006 13:00 Uhr
</abbr> <abbr class="dtend" title="20060912T1730+0100">
17:00 Uhr
</abbr>
<a class="url" href=„./gmds2006-Tutorium-Im-WWW-Nichts-Neues.pdf">
<div class="summary">Im WWW nichts Neues? - Web2.0</div>
</a>
<div class="location">Haus 3, Raum 03</div>
<div class="description">Ein Tutorium über neue Trends im WWW</div>
</div>
<p>gehalten von</p>
<div class="vcard">
<a class="url fn" href="http://www.imise.unileipzig.de/Mitarbeiter/Matthias.Loebe">Matthias Löbe</a>
<div class="adr">
<span class="org">IMISE</span> (<span
class="locality">Leipzig</span>)
Institut
für Medizinische Informatik, Statistik und Epidemiologie
</div>
<div class="tel">+49 341 9716 113</div>
Microformats - 5
Beispiel mit semantischem Markup (III)
Institut für Medizinische Informatik, Statistik und Epidemiologie
Lizenzen - 1
Commons (CC)
• Creative
Lizenzen für:
–
–
–
–
•
Texte
Bilder
Musik
Videos
Hintergrund: Unsicherheit über dem Umfang des Verzichts bei Freigabe eines
Werks
– Weitere Verbreitung durch Freigabe
– Wichtige Rechte können eingeschränkt werden
Institut für Medizinische Informatik, Statistik und Epidemiologie
Lizenzen - 2
1.
2.
3.
4.
4Namensnennung
Säulen der CC
Keine Kommerzielle Nutzung
Keine Bearbeitung
Weitergabe unter gleichen Bedingungen
Institut für Medizinische Informatik, Statistik und Epidemiologie
6 Lizenzmodelle (Version 2.5)
Lizenzen - 3
by
Namensnennung
by-sa
Namensnennung – Weitergabe unter gleichen
Bedingungen
by-nd
Namensnennung – Keine Bearbeitung
by-nc
Namensnennung – Nicht-Kommerziell
by-nc-sa
Namensnennung – Nicht-Kommerziell – Weitergabe unter
gleichen Bedingungen
by-nc-nd
Namensnennung – Nicht-Kommerziell –
Institut für Medizinische Informatik, Keine-Bearbeitung
Statistik und Epidemiologie
Lizenzen - 4
Commons für Rohdaten
• Science
Schutzmechanismen
• Lizenzen für Zweitverwertungen, Vorabdrucke oder Nachdrucke
• Mechanismen für die persönlichen Archive der Wissenschaftler
• Rechtliche Implikationen von Open-Access-Modellen
• Verwendung maschinenlesbarer Lizenzen
Institut für Medizinische Informatik, Statistik und Epidemiologie
Lizenzen - 5
Access Literatur und Materialien sollen
• Open
Wissenschaftliche
– Kostenlos
– Ohne Lizenzbeschränkungen
•
•
abrufbar sein
Öffentliche finanzierte Autoren und Gutachter sollen freie Ergebnisse liefern
Budapest Open Access Initiative (2001) bzw. Berliner Erklärung (2003)
– Grundsatzerklärung
– Einbeziehung des kulturellen Erbes
Institut für Medizinische Informatik, Statistik und Epidemiologie
Lizenzen - 6
• Archivierungspflicht
Gesetz über die deutsche Nationalbibliothek (22.06.2006)
• Langzeitarchivierungspflicht für alle Webinhalte
–
–
–
–
•
•
Texte, Bilder, Töne
Ablieferungspflicht innerhalb 1 Woche
Ablieferungspflichtiger Sitz in Deutschland
Auf eigene Kosten
Infrastruktur unklar
Anmeldekennung für jede Lieferung
Institut für Medizinische Informatik, Statistik und Epidemiologie
Look&Feel - 1
Gadgets, Widgets, whatever
Institut für Medizinische Informatik, Statistik und Epidemiologie
Look&Feel - 2
• Ajax
„Asynchronous Javascript and
XML“
– Funktionsweise
– Vorteile
– Nachteile
Institut für Medizinische Informatik, Statistik und Epidemiologie
Look&Feel - 3
Ajax-APIs
•
Bibliotheken (javascriptbasiert, nur Client)
– Prototype
– Dojo
– Script.aculo.us
•
Frameworks (alle Programmiersprachen,
Client und Server)
– Google Web Toolkit
– DWR
Institut für Medizinische Informatik, Statistik und Epidemiologie
Look&Feel - 4
Textverarbeitung
Institut für Medizinische Informatik, Statistik und Epidemiologie
Look&Feel - 5
Tabellenkalkulation
Institut für Medizinische Informatik, Statistik und Epidemiologie
Look&Feel - 6
Betriebssysteme
Institut für Medizinische Informatik, Statistik und Epidemiologie
Mashup - 1
• Mashup
Verknüpfung unterschiedlicher externer Datenquellen
• „Veredlung“, d.h. es entsteht ein Mehrwert für den Nutzer durch deren
Kombination
• Bauen auf offenen Programmierschnittstellen auf
Institut für Medizinische Informatik, Statistik und Epidemiologie
Mashup - 2
APIs
• Wichtige
Google Maps
• FlickR
• Amazon A3
• Yahoo Maps
• del.icio.us
• eBay
• YouTube
• Google Search
Institut für Medizinische Informatik, Statistik und Epidemiologie
Mashup - 3
Beispiel: diggdot.us
Institut für Medizinische Informatik, Statistik und Epidemiologie
Mashup - 4
Beispiel KML-Studienzentren
Institut für Medizinische Informatik, Statistik und Epidemiologie
Protokolle - 1
Architekturen
und Serialisierungen
• Protokolle,
Unterstützung
beliebiger Programmiersprachen
• Unterstützung beliebiger Betriebssysteme
• Kommunikation nur über Port 80
• Keine Binärformate
Institut für Medizinische Informatik, Statistik und Epidemiologie
Protokolle - 2
• Protokolle:
SOAP ist das SOAP
Basisprotokoll für Web Services
– XML als Repräsentationssprache
<soap:Envelope
xmlns:soap="http://schemas.xmlsoap.org/soap/envelope/">
<soap:Body>
<getTutorialDetails xmlns="http://gmds2006.de/MI">
<productID>tut-06</productID>
</getTutorialDetails>
</soap:Body>
</soap:Envelope>
Institut für Medizinische Informatik, Statistik und Epidemiologie
Protokolle - 3
• Protokolle:
XML RemoteXML-RPC
Procedure Call
<?xml version="1.0"?>
<methodCall>
<methodName>gmds.getTutorialName</methodName>
<params>
<param>
<value><id>06</id></value>
</param>
</params>
</methodCall>
Institut für Medizinische Informatik, Statistik und Epidemiologie
Protokolle - 4
RESTState Transfer = „Übertragung der Darstellung eines
• Architektur:
Respresentational
Zustands“
• REST verwendet in der Modellierung Substantive, SOAP/RPC dagegen Verben
GET http://gmds2006.de/tutorial/06 HTTP/1.1
Institut für Medizinische Informatik, Statistik und Epidemiologie
Protokolle - 5
Serialisierungen: JSON
•
JSON: JavaScript Object Notation
– Kompakte Kodierung von Datenstrukturen, geringer Overhead
– Gutes Unmarshalling in Javascript
{
"Person": {
"Name": "Löbe",
"Vorname": "Matthias",
"Titel": null
"Alter": 31,
"Interessen": [
"Ajax",
"Mashup",
"Tagging"
],
}
} für Medizinische Informatik, Statistik und Epidemiologie
Institut
Protokolle - 6
• Serialisierungen:
YAML: Ain't MarkupYAML
Language
– Kompakte Kodierung von Datenstrukturen, geringer Overhead
– Keine Datentypen
--Person:
Name: Löbe
Vorname: Matthias
Titel: null
Alter: 31
Interessen:
- Ajax
- Mashup
- Tagging
Institut für Medizinische Informatik, Statistik und Epidemiologie
Zusammenfassung
DasWeb2.0
Web2.0 macht wenig neu, aber vieles anders:
1. Content wird von der Community produziert
–
–
–
–
Als Qualitätsmerkmal gilt seine Reichweite
Sein Kontext erschließt sich durch Tags
Seine Struktur wird semantisch angereichert
Er steht unter freien Lizenzen zur Verfügung
2. Web-Applikationen werden benutzerfreundlich
– Komfortabel wie Desktopprogramme
– Verzögerungsfreies Arbeiten
– Angereichert durch Zusatzdienste
Institut für Medizinische Informatik, Statistik und Epidemiologie
Inhalt
Die Vision des Semantic Web
Grundlegende Technologien
Praktische Anwendungen
Einsatzszenarien in der Medizin
Institut für Medizinische Informatik, Statistik und Epidemiologie
Inhalt
Die Vision des Semantic Web
Grundlegende Technologien
Praktische Anwendungen
Einsatzszenarien in der Medizin
Institut für Medizinische Informatik, Statistik und Epidemiologie
Das World Wide Web bisher

Was wir haben





Was wir nicht haben


Eine Vielzahl von Dokumenten, Inhalten und Daten
Sprachen zur Darstellung von Inhalten (HTML, CSS...)
Werkzeuge für die Nutzung (Webbrowser, Suchmaschinen...)
Anwendungsfälle (Information, Bildung, Unterhaltung, E-Commerce, Organisation,
Kommunikation...)
Ein echtes Zusammenspiel der informationsverarbeitenden Systeme
Was wir brauchen

Semantik
Institut für Medizinische Informatik, Statistik und Epidemiologie
Semantik?




Bezeichnet die exakte Bedeutung von Sprachen unter Zuhilfenahme
formaler, logisch-mathematischer Methoden.
In Abgrenzung zur Semantik in Philosophie und Linguistik als formale
Semantik bezeichnet.
Ziel ist es, dass Computersysteme Inhalte nicht nur bereitstellen (Webserver),
transportieren (Internet) und präsentieren (Webbrowser), sondern auch
„verstehen“.
Zumindest soweit verstehen, dass die bereitgestellten Daten in nutzbringender
Weise miteinander in Verbindung gebracht werden können.
Institut für Medizinische Informatik, Statistik und Epidemiologie
Ein visionäres Beispiel
•
•
„At the doctor's office, Lucy instructed her Semantic Web agent through her handheld Web browser.
The agent promptly retrieved information about Mom's prescribed treatment from the doctor's agent,
looked up several lists of providers, and checked for the ones in-plan for Mom's insurance within a 20mile radius of her home and with a rating of excellent or very good on trusted rating services. It then
began trying to find a match between available appointment times and Pete's and Lucy's busy
schedules.
In a few minutes the agent presented them with a plan. Pete didn't like it—University Hospital was all
the way across town from Mom's place, and he'd be driving back in the middle of rush hour. He set his
own agent to redo the search with stricter preferences about location and time. Lucy's agent, having
complete trust in Pete's agent in the context of the present task, automatically assisted by supplying
access certificates and shortcuts to the data it had already sorted through.“
Quelle: Tim Berners-Lee, James Hendler und Ora Lassila: The Semantic Web - A new form of Web content that
is meaningful to computers will unleash a revolution of new possibilities, Scientific American, May 17, 2001
Institut für Medizinische Informatik, Statistik und Epidemiologie
Ein paar praktische Beispiele



Zusammenstellen von Nachrichten-Schlagzeilen
aus verschiedenen Quellen und Filterung nach vorgegebenen Kategorien
Präsentation persönlicher Kontaktinformationen auf verschiedenen Websites
und zugleich im Adressbuch des E-Mail-Clients, der Terminverwaltung und im
PDA
Import von Terminen aus verschiedenen Quellen per Drag&Drop aus dem
Webbrowser in die persönliche Terminverwaltung
Institut für Medizinische Informatik, Statistik und Epidemiologie
Beispiel: Termine aus mehreren Quellen
Website
Informationsfluss
SW-Baustein
Institut für Medizinische Informatik, Statistik und Epidemiologie
Das „Web“ in Semantic Web

Anbieter von semantisch ausgezeichneten Daten und die Nutzer dieser
Daten sind nur lose miteinander gekoppelt. Genauso wie Webserver und
Webbrowser nur lose über HTTP und HTML miteinander in Verbindung
stehen. Es
gibt keine zentrale
Instanz, die die
Kommunikation
steuert.
Website
Institut für Medizinische Informatik, Statistik und Epidemiologie
Client
Zugriff
It's all about the Data



Das Semantic Web wird kein Nachfolger des World Wide Web sein. Es ist
vielmehr eine Ergänzung desselben.
Da die Hauptnutzer Softwaresysteme sind,
wird das Semantic Web für uns Menschen
weitgehend im Verborgenen bleiben.
Der Fokus liegt auf den Daten, die ausgetauscht und miteinander kombiniert
werden. Die (visuelle) Darstellung spielt hierbei eine nachgeordnete Rolle.
Institut für Medizinische Informatik, Statistik und Epidemiologie
Zwei grundlegende Philosophien

Zugang zu strukturierten Informationen in Datenbanken


Semantisches Markup von Webdokumenten


Diese Daten sind sonst gar nicht oder nur
indirekt über Webanwendungen erreichbar.
Dokumente, die für den Menschen als Nutzer gedacht
sind, werden zusätzlich mit Markup versehen, der die Inhalte für Computersysteme
verständlich macht.
Beide Philosophien stehen nicht im Widerspruch zueinander und so werden
für beide eine Vielzahl von Technologien entwickelt
Institut für Medizinische Informatik, Statistik und Epidemiologie
Inhalt
Die Vision des Semantic Web
Grundlegende Technologien
Praktische Anwendungen
Einsatzszenarien in der Medizin
Institut für Medizinische Informatik, Statistik und Epidemiologie
Ein Stapel von Spezifikationen

Das Semantic Web wird vom W3C
auf dem Fundament des WWW
entwickelt





URIs für Identifikation
Unicode für universelle
Zeichencodierung
XML als universelle
Repräsentationsform
Sprachen des Semantic Web: RDF, OWL (Ontology),
SPARQL (Query), SWRL (Rules)
Logic, Proof und Trusted SW folgen später
Institut für Medizinische Informatik, Statistik und Epidemiologie
Resource Description Framework




Mit RDF werden Aussagen über Dinge (Statements) ausgedrückt.
Dinge (Ressourcen) können Dokumente im Web sein oder Personen oder
Termine oder oder oder ...
Also alles, worüber man etwas ausdrücken möchte.
Die Aussagen haben die Form von Tripeln

(Subjekt, Prädikat, Objekt) oder (Subject, Property, Value)
Subject
Property
Institut für Medizinische Informatik, Statistik und Epidemiologie
Value
RDF-Beispiele


•
Aus RDF-Statements werden
Graphen gebildet.
Die Statements können aus
beliebigen Quellen stammen. Die
Verbindung erfolgt über die URIs.
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:foaf="http://xmlns.com/foaf/0.1/">
<rdf:Description rdf:about="http://www.gmds2006.de/Tutorien/WWW-Teil2.pdf">
<dc:title>Im WWW nichts Neues?</dc:title>
<dc:author>http://www.imise.de/Mitarbeiter/RolandMuecke</dc:author>
</rdf:Description>
<rdf:Description rdf:about="http://www.imise.de/Mitarbeiter/RolandMuecke">
<foaf:firstname>Roland</foaf:firstname>
<foaf:surename>Mücke</foaf:surename>
</rdf:Description>
Institut
für Medizinische Informatik, Statistik und Epidemiologie
</rdf:RDF>
Web Ontology Language (OWL)


Die explizite Festlegung von Struktur erfolgt durch Vokabulare (einfach),
Schemata oder Ontologien (komplex).
OWL definiert Konzepte und Beziehungen.



Vergleichbar mit Datenbank-Schemata.




Klassen und ihre Eigenschaften
Hierarchien von Klassen und Eigenschaften
Kann aber komplexere Beziehungen ausdrücken
Wird in RDF ausgedrückt.
Unterscheidung in z. B. OWL Lite, OWL DL und OWL Full.
Grundlage für die Ableitung impliziter Statements.
Institut für Medizinische Informatik, Statistik und Epidemiologie
OWL-Beispiel

Definition der Klasse „Person“ und einer ihrer Eigenschaften „firstName“ aus
dem FOAF-Schema
<rdfs:Class rdf:about="http://xmlns.com/foaf/0.1/Person" rdfs:label="Person" rdfs:comment="A person.">
<rdfs:subClassOf rdf:resource="http://xmlns.com/wordnet/1.6/Person"/>
<rdfs:subClassOf rdf:resource="http://xmlns.com/foaf/0.1/Agent"/>
<rdfs:subClassOf rdf:resource="http://www.w3.org/2000/10/swap/pim/contact#Person"/>
<rdfs:subClassOf rdf:resource="http://www.w3.org/2003/01/geo/wgs84_pos#SpatialThing"/>
<rdfs:isDefinedBy rdf:resource="http://xmlns.com/foaf/0.1/"/>
<owl:disjointWith rdf:resource="http://xmlns.com/foaf/0.1/Document"/>
<owl:disjointWith rdf:resource="http://xmlns.com/foaf/0.1/Organization"/>
<owl:disjointWith rdf:resource="http://xmlns.com/foaf/0.1/Project"/>
</rdfs:Class>
<rdf:Property rdf:about="http://xmlns.com/foaf/0.1/firstName" rdfs:label="firstName"
rdfs:comment="The first name of a person.">
<rdf:type rdf:resource="http://www.w3.org/2002/07/owl#DatatypeProperty"/>
<rdfs:domain rdf:resource="http://xmlns.com/foaf/0.1/Person"/>
<rdfs:range rdf:resource="http://www.w3.org/2000/01/rdf-schema#Literal"/>
<rdfs:isDefinedBy rdf:resource="http://xmlns.com/foaf/0.1/"/>
</rdf:Property>
Institut für Medizinische Informatik, Statistik und Epidemiologie
Implizites Wissen


Mit den in OWL ausgedrückten Beziehungen von Konzepten und ihren
Eigenschaften kann aus vorhandenem Wissen neues Wissen abgeleitet
werden.
Beispiel
 „Im WWW nichts Neues?“ ist ein GMDS-Tutorium.
  Ein GMDS-Tutorium ist eine GMDS-Veranstaltung.

„Im WWW nichts Neues?“ ist eine GMDS-Veranstaltung und gehört deswegen in
jeden Tagungs-Kalender.


Die Ableitung dieses impliziten Wissens (Inferenz, Entailment) wird von einem
Reasoner durchgeführt, der meist direkt an einem RDF-Store angeschlossen
sind.
Institut für Medizinische Informatik, Statistik und Epidemiologie
SPARQL Protocol and RDF Query Language

Abfragesprache für RDF-Graphen



Vergleichbar mit SQL für Datenbanken


Grundlage jeder anspruchsvollen SW-Anwendung
Liefert einzelne Werte, Datensätze oder Teilgraphen
Allerdings nur mit lesendem Zugriff
Die Spezifikation definiert zusätzlich ein Protokoll für die Kommunikation
zwischen SPARQL-Clients und -Servern.

Implementationen können auf HTTP oder SOAP aufsetzen
Institut für Medizinische Informatik, Statistik und Epidemiologie
SPARQL-Beispiele



SELECT ?title
WHERE { <http://example.org/book/book1> dc:title ?title }
SELECT ?title ?price
WHERE { ?x ns:price ?price .
FILTER (?price < 30) .
?x dc:title ?title . }
SELECT ?name ?mbox ?hpage
WHERE { ?x foaf:name ?name .
OPTIONAL { ?x foaf:mbox ?mbox } .
OPTIONAL { ?x foaf:homepage ?hpage } }
Institut für Medizinische Informatik, Statistik und Epidemiologie
Inhalt
Die Vision des Semantic Web
Grundlegende Technologien
Praktische Anwendungen
Einsatzszenarien in der Medizin
Institut für Medizinische Informatik, Statistik und Epidemiologie
Das Semantic Web in der freien Wildbahn


Seit der „Einführung“ des Semantic Web im Scientific American im Jahre 2001
hat es nicht nur Entwicklungen im wissenschaftlichen Umfeld gegeben.
Einige Anwendungen sind dabei, die Labore zu verlassen und sich im
praktischen Alltag zu bewähren.



Besonders empfänglich: die Blogger-Szene
Der Geek-Faktor ist jedoch noch immer sehr hoch.
Die einzige Ausnahme ist RSS – und das ist nicht mal echtes Semantic Web.
Institut für Medizinische Informatik, Statistik und Epidemiologie
Nachrichten-Aggregation: RSS




Bereitstellung von Nachrichten-Schlagzeilen
mittels „Rich Site Summary“
Clientseitige Nutzung in Newsreadern oder Live-Bookmarks
Serverseitige Nutzung auf Nachrichten-Portalen, die Schlagzeilen aus vielen
Quellen zusammenführen (Syndizierung)
Kategorien von News (Channels)


Kein allgemeiner Standard zur Kategorisierung
Es existieren mehrere Versionen von RSS und nur eine (die 1.0) verwendet
RDF
Institut für Medizinische Informatik, Statistik und Epidemiologie
Netzwerk von Bekanntschaften: FOAF


FOAF steht für „Friend of a Friend“
Persönliche Beschreibung von sich und seinen Freunden




Name, Mailbox, Homepages, Bild
Diverse Instant-Messenger-IDs und Online-Accounts
Bekanntschaften, Interessen, Publikationen, Projekte
Derzeit die Visitenkarte im Semantic Web und bei Bloggern.
<foaf:Person>
<foaf:name>Dan Brickley</foaf:name>
<foaf:mbox_sha1sum>241021fb0e6289f92815fc210f9e9137262c252e</foaf:mbox_sha1sum>
<foaf:homepage rdf:resource="http://rdfweb.org/people/danbri/" />
<foaf:img rdf:resource="http://rdfweb.org/people/danbri/mugshot/danbri-small.jpeg" />
</foaf:Person>
Institut für Medizinische Informatik, Statistik und Epidemiologie
Semantisches Markup in XHTML



Die Grundidee ist, dass vorhandene Web-Dokumente mit Auszeichnungen
versehen werden, die ihren Inhalt semantisch „greifbar“ machen.
<HTML>
Die Ansätze reichen bezüglich der Auswirkungen
<RDF>
auf den XHTML-Code von „unauffällig“ (GRDDL)
bis „brachial“ (RDF/A).
Das Ziel ist, eine Dopplung von Informationen in XHTML- und RDF-Dateien
zu vermeiden.


Minimiert Arbeit und Fehler
Ideal, wenn die Inhalte nicht anderweitig strukturiert sind, z.B. in Datenbanken
Institut für Medizinische Informatik, Statistik und Epidemiologie
GRDDL, Microformats, RDF/A

GRDDL: Gleaning Resource Descriptions from Dialects of Languages
extrahiert Daten mittels XSL-Transformation aus XML-Dokumenten.


Microformats: Vorgegebene Konstrukte aus <div>- und <span>-Tags
zusammen mit CSS-Klassen


XSL muss die Struktur der XML-Dialekte (z. B. XHTML) kennen, in denen die
gewünschten Inhalte stecken.
Vordefinierte Formate, die die Verarbeitung stark vereinfachen. Beispiele sind hCard
oder hCalendar
RDF/A: Einbettung von RDF direkt in XHTML-Code
<p>Dieser Teil des Tutoriums ist von
<span class="author" about="WWW-Teil2.pdf" property="dc:creator">Roland Mücke</span>.</p>
Institut für Medizinische Informatik, Statistik und Epidemiologie
SPARQL-Endpunkt für SQL-Datenbanken


Zugriff auf SQL-Datenbanken über einen Wrapper, der SPARQL-Querys in
SQL-Querys umwandelt.
Beispiel: D2RQ



Anbindung an lokale SQL-Datenbanken
Zugriff auf Datenbankinhalt als RDF-Graph möglich
Beziehung zwischen Datenbankschema und RDF-Graph über Mapping, das semiautomatisch hergestellt wird.
DB
SQL
Endpunkt
SPARQL
Institut für Medizinische Informatik, Statistik und Epidemiologie
Semantic Web
Zum Rumprogrammieren: APIs

Für die Entwicklung von „Semantic-Web-Anwendungen“ stehen einige APIs als
OpenSource zur Verfügung.


Jena, Sesame


Java-APIs für RDF und SPARQL, RDF-Store
Redland



Teilweise Referenzimplementationen, also kein Bastelkram!
Gleicher Leistungsumfang, in C geschrieben
Bindings u. a. für Perl, Python, Ruby und PHP
Keine APIs, aber sehr leistungsfähige Browser/Editoren: Protege und Swoop
Institut für Medizinische Informatik, Statistik und Epidemiologie
Wann kommt die Killer-App?

Vermutlich wird es nie eine Killer-Applikation geben, die dem Semantic Web
zum Durchbruch verhelfen wird.




Gab es eine Killer-Website, die dem WWW zum Durchbruch verhalf?
Stattdessen wird es viele kleine Semantic Webs geben, die sich in
bestimmten Nutzerkreisen oder bei bestimmten Anwendungsfällen
durchsetzen, z. B. RSS oder FOAF.
Der Wandel hin zum Semantic Web wird sich hinter den Kulissen vollziehen,
so dass Otto-Normalsurfer nichts davon mitbekommt.
Große E-Commerce-Websites könnten die Entwicklung drastisch
beschleunigen.
Institut für Medizinische Informatik, Statistik und Epidemiologie
Inhalt
Die Vision des Semantic Web
Grundlegende Technologien
Praktische Anwendungen
Einsatzszenarien in der Medizin
Institut für Medizinische Informatik, Statistik und Epidemiologie
Medizinische Informationsportale


RSS für Neuigkeiten und Termine
FOAF als Visitenkarte


Microformats für Termine und Kontaktinformationen


Entweder aus Verzeichnisdienst generieren
oder FOAF-a-Matic
Spätestens bei der nächsten Überarbeitung mit einplanen, wenn man sich sowieso
stärker mit CSS beschäftigen will
Generell gilt: Catch the low hanging fruit!

Mit geringem Aufwand den Nutzern einen zusätzlichen Service bieten.
Institut für Medizinische Informatik, Statistik und Epidemiologie
Verteilte Studienregister


Anstelle eines zentralen Dienstes wird die
bestehende Web-Infrastruktur von Studiengruppen und Forschungsprojekten genutzt.
Beschreibung von Studien mit RDF



Entweder aus der lokalen Studiendatenbank
Oder mittels GRDDL oder RDF/A
Ein zentrales Schema für die Beschreibung ist nicht zwingend notwendig


Mapping individueller Schemata aufeinander
Vereinfacht die Organisation
Institut für Medizinische Informatik, Statistik und Epidemiologie
Planung und Durchführung von Studien


Beschreibung von Studien-Items mit RDF
Nutzung dieser Beschreibungen zur




Erzeugung der Studiendatenbanken
Generierung von Studiendokumenten (CRFs)
Annotation der Studienprotokolle
Kommunikation mit Studienregistern
Institut für Medizinische Informatik, Statistik und Epidemiologie
Semantisch annotierte SOPs


SOPs besitzen meist eine Grundstruktur,
klar definierte Zielgruppen und Anwendungsfälle.
Über Annotationen kann die Erreichbarkeit und Bekanntmachung von SOPs
verbessert werden.



Zielgruppengerichtete Information über Neuerungen
Anwendungsfallbezogene Suche in SOP-Systemen
Integration direkt in die Arbeitsumgebung
Institut für Medizinische Informatik, Statistik und Epidemiologie
Semantische Wörterbücher


Wörterbücher dienen dazu, die
vielschichtigen Begrifflichkeiten in
der Medizin klarer zu fassen und
Missverständnisse zu vermeiden.
Eine semantische Beschreibung von Wörterbucheinträgen hilft, Begriffe und
ihre Bedeutungen im richtigen Kontext zu gebrauchen.


In Verbindung mit annotierten SOPs liefern sie die korrekten Begriffe beim
Nachschlagen.
Bei Studienregistern sorgen sie für eine präzise Interpretation von Studieneigenschaften
(z. B. beim Begriff der „Remission“)
Institut für Medizinische Informatik, Statistik und Epidemiologie
Medizinische Ontologien

Eine Grundlage für die Beschreibung medizinischer Sachverhalte sind
Vokabulare, Terminologien und Klassifikationen.



ICD-10, SNOMED, MeSH, UMLS, GALEN
Das National Cancer Institute (NCI) stellt mit ihren Enterprise Vocabulary
Services ein umfangreiches Vokabular für die Onkologie bereit.
Wem das alles zu schwergewichtig ist, der kann sich natürlich auch seine
eigene Ontologie erstellen.

Die Interoperabilität wird durch Mappings gewährleistet.
Institut für Medizinische Informatik, Statistik und Epidemiologie
Ausblick

Das Semantic Web steckt noch in seinen Kinderschuhen



Medizinische Anwendungsgebiete stehen explizit im Fokus der Forschung
rund um das Semantic Web


Noch stehen nicht alle benötigten Bausteine zur Verfügung
Die Praxistauglichkeit mancher Ideen muss sich erst zeigen
Eine ergiebige Domäne mit breitem Anwendungsspektrum und einer Vielzahl von
Profiteuren (Ärzte, Patienten, Wissenschaftler, Controller)
Das Semantic Web wird allmählich seinen Nutzen zeigen

Mitmachen ist gefragt, sonst droht das Henne-Ei-Problem
Institut für Medizinische Informatik, Statistik und Epidemiologie
Zusammenfassung





Das Semantic Web macht Wissen im World Wide Web für Maschinen
verständlich und nutzbar.
Es ist eine Ergänzung des bestehenden Web, die weitgehend unsichtbar für
den Menschen mit Daten operiert.
Die Daten stammen entweder aus Datenbanken oder aus semantisch
ausgezeichneten Webdokumenten.
Die Infrastruktur und Grundbausteine des WWW werden genutzt: URI,
Unicode, XML
Auf ihnen setzen die Sprachen des Semantic Web auf
Institut für Medizinische Informatik, Statistik und Epidemiologie
Zusammenfassung

RDF zur Beschreibung von Dingen im Semantic Web


OWL zur Beschreibung von Vokabularen oder Ontologien



Definition von Klassen, ihren Eigenschaften und Beziehungen
Unerlässlich für das Schlussfolgern impliziten Wissens
SPARQL zur Abfrage von RDF-Stores


Statements (Subject, Property, Value) bilden RDF-Graphen
Das „SQL für das Semantic Web“
Regeln, Logik, Beweisen, Signatur und Verschlüsselung werden in der Zukunft
ein vertrauensürdiges SW erlauben
Institut für Medizinische Informatik, Statistik und Epidemiologie
Zusammenfassung

Aktuelle Anwendungsgebiete des Semantic Web





RSS für Nachrichten-Schlagzeilen
FOAF als Visitenkarte
GRDDL, Microformats und RDF/A für semantisches Markup von Webdokumenten
Im medizinischen Umfeld ist die Nutzung des Semantic Webs für
Studienregister, SOPs oder Wörterbücher vorstellbar
Neue Anwendungsfälle benötigen nur ein wenig Phantasie – und der sind
keine Grenzen gesetzt!
Institut für Medizinische Informatik, Statistik und Epidemiologie
Kontakt




Roland Mücke
Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE)
Universität Leipzig
Härtelstraße 16-18
04107 Leipzig
Tel.: +49 341 97 16165
E-Mail: [email protected]
Institut für Medizinische Informatik, Statistik und Epidemiologie