MarkLogic Semantik: Linked Data – Vorteile und Hintergründe Juli 2014 Inhalt Einleitung ____________________________________ 1 Wozu dient das semantische Web? ________________ 2 Wie die Technologie des semantischen Web funktioniert __ 4 MarkLogic Semantik ____________________________ 6 Semantik in der Praxis __________________________ 9 Zusätzliche Ressourcen ________________________ 11 Anhang _____________________________________ 12 MarkLogic Whitepaper | MarkLogic Semantik Das semantische Web ist ein universelles Framework für die Beschreibung und Verknüpfung von Daten, das die Einsicht in diese Daten sowie die ganzheitliche Suche vereinfacht und es Personen sowie Computern ermöglicht, Beziehungen zwischen den Daten zu erkennen. Einleitung Mit dem Informationszeitalter und dem damit verbundenen Wachstum des World Wide Web tritt eine neue Frage auf: Wie lassen sich all diese verfügbaren Informationen sinnvoll nutzen? Das Ziel des semantischen Web besteht darin, diese Frage zu beantworten. Die Technologien des semantischen Web tragen dazu bei, indem sie ein universelles Framework für die Beschreibung und Verknüpfung von Daten bereitstellen, das die Einsicht in diese Daten sowie die ganzheitliche Suche vereinfacht und es Personen sowie Computern ermöglicht, Beziehungen zwischen den Daten zu erkennen. Diese „Linked Data“ werden als Tripel geschrieben, einer Kombination aus Subjekt, Prädikat und Objekt. Werden diese Tripel miteinander verknüpft, bilden sie eine mit Graphen vergleichbare Darstellung von Daten ohne Hierarchien und können von Computern gelesen und interpretiert werden. Die Standardsprache für das Schreiben von Tripeln ist RDF (Resource Description Framework), die Standard-Abfragesprache lautet SPARQL („Sparkl“ ausgesprochen).1 MarkLogic ist eine Enterprise NoSQL-Datenbank-Plattform, die nicht nur als Speicher für Dokumente und Daten fungiert, sondern auch als native RDF-Tripel-Datenbank – sie bietet die Möglichkeit, Dokumente, Daten und Tripel in ein und derselben Datenbank zu speichern und abzufragen. Darüber hinaus wartet MarkLogic mit den entscheidenden Funktionen auf, die Unternehmen benötigen – ACID-Transaktionen, Skalierbarkeit, Elastizität sowie Hochsicherheit. Unternehmen verwenden MarkLogic Semantik, um unterschiedliche Datenquellen zu aggregieren und miteinander zu verknüpfen, ausgereifte Suchanwendungen zu erstellen, Inhalte dynamisch zu veröffentlichen und effizientere ETLProzesse (Extrahieren, Transformieren, Laden) auszuführen. 1 Tripel-Datenbanken können mit Graphen vergleichbare Darstellungen bilden, sind aber keine Graphdatenbanken. Weitere Informationen zu Gemeinsamkeiten und Unterschieden finden Sie im Anhang. MarkLogic Whitepaper | MarkLogic Semantik 1 Semantik bei Google Google nutzt Linked Data für die automatische Bereitstellung von „Rich Snippets“ aus Informationen, die auf RDF-Markup von Webseiten basieren. Eine Suche nach „Germany World Cup“ führt z. B. zu Suchergebnissen auf der Grundlage von Semantik. Die Daten befinden sich auf anderen Webseiten, können aber von Google gelesen werden – einschließlich der Metadaten über die Mannschaft, Live-Spielständen und Videoinhalten. Wozu dient das semantische Web? Das semantische Web ist eine Weiterentwicklung des Internets und bietet ein Standardformat für Linked Data, das sich nur unwesentlich von der einst revolutionären Idee der Verwendung von HTML- und HTTP-Standards zur Verknüpfung von Dokumenten im Internet unterscheidet. Das semantische Web geht jedoch einen Schritt weiter, indem es ein universelles Framework für die Beschreibung und Verknüpfung von Daten (und nicht nur Dokumenten) bietet. Dieses Framework für Linked Data löst zahlreiche Probleme, indem es ein ganzheitliches Verständnis von Daten und deren Beziehungen zu anderen Daten ermöglicht. Mit MarkLogic sind Sie in der Lage, die Struktur der Linked Data sinnvoll zu nutzen. Bestehende Probleme • Problem: Das Internet ist auf die Verknüpfung von Dokumenten ausgelegt, nicht auf die Verknüpfung von Daten. Das Internet ist ein Netzwerk aus HTML-Dokumenten, die per HTTP miteinander verknüpft sind. Mit diesem einfachen Framework verbreitet es Informationen in einer nie zuvor gekannten Art und Weise. Diese Informationen sind jedoch auf den Webseiten „eingesperrt“, auf denen sie veröffentlicht wurden. Hinzu kommt der starke Anstieg der Datenmengen. Darum kann eine Google-Suche zu Millionen von Ergebnissen führen, ohne dass die ursprüngliche Frage beantwortet wird. • Problem: Es gibt keinen Kontext, der die Daten erläutert. Wenn Sie z. B. nach dem Word „cook“ suchen, weiß der Computer nicht, ob Sie einen Koch meinen, den Vorgang des Kochens oder die Cook-Inseln. Und selbst wenn der Computer wüsste, dass Sie „Koch“ meinen, so kann er noch lange nicht erkennen, dass Sie auch an den Restaurants in einer bestimmten Stadt interessiert sind, in denen der Koch beschäftigt ist. MarkLogic Whitepaper | MarkLogic Semantik 2 • Problem: Anwendungen sind innerhalb von Organisation zu stark isoliert. Anwendungen basieren bisher meist auf relationalen Datenbanken, die einem bestimmten Zweck dienen. So bilden sie isolierte Datensilos, die verhindern, dass die Daten zu einem anderen Zweck genutzt werden können. Dadurch ist es z. B. sehr schwierig, Daten aus Kontoauszügen, Daten zur Handynutzung, Wetterdaten und eine Facebook-Freundesliste miteinander zu kombinieren. Ähnliche Beispiele treten immer wieder in Unternehmen in aller Welt auf. Die Lösung: Das semantische Web • Lösung: Verknüpfung von Daten anhand eines universellen Standards. Durch die Verwendung von RDF als Standard für die Verknüpfung von Daten entsteht eine Struktur, mit der sich Fakten ermitteln und verständlich darstellen lassen. Das bedeutet, dass Anwendungen ohne Eingreifen eines menschlichen Mittelsmannes miteinander kommunizieren können. Ein gutes Beispiel hierfür ist die Google-Suche, bei der nicht nur Links zu Dokumenten gefunden werden, sondern auch Fakten, die der Benutzer erfahren möchte. • Lösung: Verknüpfung von Daten innerhalb von Ontologien. Semantische Ontologien liefern Kontext. Bei Ontologien – Sammlungen, Kategorien, Hierarchien oder Taxonomien – werden Daten miteinander in Beziehung gesetzt, indem verschiedene Kategorien von Ereignissen, Personen oder Dingen definiert werden. Dies ist vergleichbar mit der Klassifizierung von Pflanzen, die z. B. in Blumen und Sträucher unterteilt werden. In diesem Kontext ist mit „Rose“ die Blume gemeint, nicht die Schauspielerin Rose Byrne. Ontologien verbessern aber nicht nur die Navigation und die Suchvorgänge, sondern sind auch bei der Veröffentlichung relevanter Inhalte und der Interpretation von Metadaten hilfreich. • Lösung: Verknüpfung von Daten für ganzheitliche Suchen. Semantik basiert auf den Beziehungen zwischen Daten und ist damit ein ideales Hilfsmittel für die Verknüpfung von und die Suche nach strukturierten und unstrukturierten Daten mithilfe der StandardAbfragesprache SPARQL. Dies ist vor allem bei komplexen Abfragen praktisch, bei der etliche Datensätze berücksichtigt werden. Beispiel: Bei der Abfrage „Alle Empfänger von Krankenversicherungsleistungen, die im Jahr 2010 über 100.000 US-Dollar verdienten und in Atlanta, Georgia, lebten“ werden Daten zu Versicherung, Einkommen, Geografie und Zeiträumen miteinander kombiniert. MarkLogic Whitepaper | MarkLogic Semantik 3 Wie die Technologie des semantischen Web funktioniert Computer können weder Kontext noch Bedeutung begreifen. Im Gegensatz dazu verknüpft unser Gehirn verschiedene Gedanken miteinander, um sich ein vollständiges Bild von etwas zu machen – sei es ein abstrakter Begriff oder eine konkrete Schlussfolgerung. Für Computer gestaltet es sich hingegen sehr schwierig, Zusammenhänge herzustellen, vor allem, wenn unstrukturierte Informationen zugrunde liegen. Mit dem semantischen Web lässt sich diese Herausforderung durch die Verwendung eines Standards für Linked Data bewältigen, der Computer intelligenter macht. Linked Data verstehen Linked Data werden als Tripel geschrieben – eine Kombination aus Subjekt, Prädikat und Objekt – und miteinander verknüpft. So bilden sie eine mit Graphen vergleichbare Darstellung von Daten ohne Hierarchien und können von Computern gelesen und interpretiert werden. Die Standardsprache für das Schreiben von Tripeln ist RDF, die Standard-Abfragesprache ist SPARQL. RDF- und SPARQL-Standards RDF- und SPARQL-Standards RDF (Resource Description Framework) ist das übliche Datenformat für Linked Data. Durch die Verwendung des RDFStandards werden die Daten aus ihren Containern „befreit“ und für automatisierte Prozesse verfügbar gemacht. Das W3C (ein Gremium für internationale Standards) empfiehlt RDF und legt dessen Standards seit 2004 fest. RDF basiert auf der Verwendung von HTTP-URLs für die Suche nach und die Beschreibung von Ressourcen. Beispiele für RDF <http://example.org/dir/js> <http://xmlns.com/foaf/0.1/name> "John Smith" . <http://example.org/dir/js> <http://xmlns.com/foaf/0.1/livesIn> "England" . Zudem definiert W3C SPARQL als Standard-Abfragesprache für RDF. SPARQL wurde erstmals 2008 als Standardsprache für Semantikabfragen definiert, und dem W3C-Vorsitzenden Tim Berners-Lee zufolge ist „der Versuch, das semantische Web ohne SPARQL zu nutzen, mit dem Versuch vergleichbar, eine relationale Datenbank ohne SQL zu nutzen“.2 2 Weitere Informationen finden Sie im MarkLogic Entwicklerportal: developer.marklogic.com/learn/semantics-exercises/sparql-101. MarkLogic Whitepaper | MarkLogic Semantik 4 Beispiel für SPARQL SELECT ?person ?place WHERE { ?person <http://example.org/LivesIn> ?place . ?place <http://example.org/IsIn> "England" . } RDF liefert Kontext Mit RDF sind Sie in der Lage, unterschiedliche Datenquellen im Kontext miteinander zu verknüpfen – Kontext aus Dokumenten und Daten, der Datendomäne und der Welt im Allgemeinen. Wenn diese Daten zusammen genutzt werden, können Unternehmen auf ein Framework zurückgreifen, mit dessen Hilfe sie ihre Daten besser verstehen. Dieses Framework lässt sich kontinuierlich ausbauen, und ebenso wie das World Wide Web der Dokumente wächst auch das World Wide Web der Daten. Das semantische Web expandiert weiterhin exponentiell, da Behörden und Unternahmen ihre Daten als RDF speichern und dadurch Datensätze zu den Linked Open Data beitragen. Hier einige Beispiele für Datentypen „im Kontext“: Kontext Datentyp Dokumente und Daten Strukturierte und unstrukturierte Daten innerhalb eines Unternehmens: • XML- und JSON-Dokumente • Freitext mit Entitäten (Eigennamen, z. B. die Person Richard Nixon, das Produkt Advil, das Unternehmen IBM) und Ereignissen (Nixon reist nach China, IBM übernimmt Cloudant) • Spezifische Domänen Dokument-Metadaten (Kategorien, Autor, Veröffentlichungsdatum, Quelle) Freigegebene Daten, die für eine Branche oder für Unternehmen spezifisch sind: • Die Medikamenten-Ontologie eines Pharmakonzerns • SNOMED CT – medizinische Terminologie • Dublin Core Metadata Initiative für Ressourcen aus Medien und dem Verlagswesen • MarkLogic Whitepaper | MarkLogic Semantik FIBO (Financial Industry Business Ontology) 5 Die Welt im Allgemeinen Milliarden von Fakten über die Welt im Allgemeinen, die häufig kostenlos bereitgestellt werden: • DBpedia – Wikipedia in Form von Semantikdaten. Enthält Fakten wie z. B. „Einstein wurde in Deutschland geboren“ oder „Die irische Währung ist der Euro“. DBpedia enthält annähernd 2,5 Milliarden als RDF-Tripel gespeicherte Informationen und wächst schnell.3 • GeoNames – Geografische Informationen wie „Doha ist die Hauptstadt von Katar“ oder „Doha hat die Koordinaten 25° 17′ N, 51° 31′ O“. • Linked Open Data – Tausende von kostenlos verfügbaren Datensätzen, die alle miteinander verknüpft sind.4 MarkLogic Semantik Um die Datenspeicherung zu vereinfachen und eine einheitliche, benutzerfreundliche Lösung zu gewährleisten, enthält MarkLogic eine native RDF-Tripel-Datenbank, die Abfragen mit SPARQL ermöglicht.5 Dokumente + Daten + RDF MarkLogic ist die einzige Enterprise NoSQL-Datenbank-Plattform, die eine Kombination aus Dokumenten, Daten und Tripeln speichern und abfragen kann. Mit einer einzigen Plattform können Benutzer das Datenmodell auswählen, das für die Speicherung ihrer Daten am besten geeignet ist und es ihnen ermöglicht, alle verfügbaren Informationen ganzheitlich abzufragen. 3 Weitere Informationen zu DBpedia finden Sie unter http://wiki.dbpedia.org/About. 4 Das interaktive Linked Open Data-Cloud-Diagramm finden Sie unter http://lod-cloud.net/. 5 Im Anhang finden Sie eine Liste aller MarkLogic Semantik-Funktionen. MarkLogic Whitepaper | MarkLogic Semantik 6 Ganzheitliche Suche Tripel können in Dokumente eingebunden werden, sich auf Dokumente beziehen oder Dokumente miteinander verbinden. In jedem Fall erhalten Benutzer die Möglichkeit, mit einer einzigen Abfrage sämtliche Daten zu durchsuchen. In der Praxis ist diese Flexibilität von entscheidender Bedeutung. Unter Data.gov.uk finden sich z. B. zehn verschiedene primäre Datenformate, darunter Dokumente, XML, CSV und RDF – aber nur ein Prozent dieser Daten ist als RDF verfügbar. Nur MarkLogic kann die XML-, CSV- und RDF-Daten innerhalb derselben Datenbank zusammen speichern und abfragen. Geschwindigkeit und Skalierbarkeit MarkLogic verfügt über einen spezialisierten Tripel-Index, der die Abfrage von Tripeln beschleunigt. Zudem ist MarkLogic mit einem Tripel-Cache ausgestattet, der die Verwaltung der Speichernutzung optimiert, damit eine optimale Leistung gewährleistet ist. Bei einigen Tripel-Datenbanken muss der gesamte Tripel-Datenbank-Index gespeichert werden. MarkLogic verwendet jedoch im Speicher abgelegte Indexdateien, um die Geschwindigkeit trotz der Einschränkungen des physischen Speichers beizubehalten. Diese beiden Funktionen – die spezialisierte Tripel-Datenbank und der Tripel-Cache – machen MarkLogic zu einer skalierbaren, elastischen und hochleistungsfähigen Tripel-Datenbank. Bei anderen Tripel-Datenbanken kann das Datenvolumen schnell zu einem Problem werden. Einige Tripel-Datenbanken sind zwar an die Größe geclusterter Systeme anpassbar, aber nur für parallele Abfragen geeignet. Sie können also Cluster mit drei Knoten aufweisen, aber nur, wenn jeder Knoten mit denselben Daten ausgestattet ist. Die Shared-Nothing-Architektur von MarkLogic unterstützt Elastizität und Skalierbarkeit. MarkLogic kann 1 Mrd. Tripel pro Knoten speichern (bei etwa 350 Byte pro Tripel) und ist auf mehrere Milliarden Tripel skalierbar. Unternehmensfunktionen Die Tripel-Datenbank von MarkLogic wartet mit allen Funktionen auf, die MarkLogic in den vergangenen zehn Jahren entwickelt und geprüft hat – z. B: ACID-Transaktionen, Skalierbarkeit und Elastizität, Hochverfügbarkeit und Disaster Recovery, Hochsicherheit sowie Tools zur Leistungsüberwachung. Vor allem aufgrund der Semantikfunktion können Sie mithilfe der Role Based Access Control (RBAC) genau bestimmen, welche Benutzer auf welche Tripel zugreifen können, und dadurch höchste Sicherheit gewährleisten. Ergänzende Semantiktechnologien Viele Unternehmen setzen MarkLogic als Datenbank-Plattform ein, mit der RDF-Tripel gespeichert und durchsucht werden, während sie gleichzeitig zusätzliche Technologien für die Ontologieverwaltung, Textanalyse, semantische Aufbereitung und die Tripel-Erstellung verwenden. MarkLogic Whitepaper | MarkLogic Semantik 7 Semaphore, die Content Intelligence-Softwareplattform von Smartlogic, ermöglicht die schnelle Entwicklung von Ontologien und führt semantische Analysen durch, um Informationen aus verschiedensten Inhalten und Quellen zu beschreiben und zu extrahieren. Semaphore ergänzt die Funktionen von MarkLogic durch die automatische Anwendung von Tags beim Laden der Inhalte. So werden Metadaten standardisiert, Fakten und Entitäten extrahiert und die Suchfunktionen von MarkLogic durch Ontologien erweitert. Smartlogic ist ein offizieller MarkLogic Technologiepartner. Weitere Informationen finden Sie unter http://www.smartlogic.com. Luxid® ist die Vorzeigeplattform von Temis, die Informationen identifiziert und extrahiert, um Inhalte semantisch mit domänenspezifischen Metadaten aufzubereiten. Die Integration von Luxid® und MarkLogic sorgt für die nahtlose semantische Aufbereitung von Daten, die in MarkLogic gespeichert sind – mit dem domänenspezifischen und mehrsprachigen Anmerkungsprozess von Luxid®. So sind Unternehmen in der Lage, leistungsstarke und skalierbare Anwendungen zu entwickeln und dabei Semantikfunktionen mit Echtzeit-Datenbankflexibilität zu kombinieren. Dies erleichtert die Verwertung großer Mengen unstrukturierter Inhalte. Temis ist ein offizieller MarkLogic Technologiepartner. Weitere Informationen finden Sie unter http://www.temis.com. Protégé ist eine kostenlose Open-Source-Plattform, die ein Tool-Set für die Erstellung von Domänenmodellen und wissensbasierten Anwendungen mit Ontologien enthält. Protégé ist für Ontologien in der Medizinbranche konzipiert und wird vom Stanford Center for Biomedical Informatics Research verwaltet. Organisationen im Gesundheitswesen nutzen MarkLogic als RDF-Tripel-Datenbank und Protégé für die Ontologieverwaltung. Weitere Informationen finden Sie unter http://protege.stanford.edu/. Diese Liste ist keinesfalls vollständig, sie zeigt lediglich einige ergänzende Technologien, die derzeit eingesetzt werden. Zahlreiche weitere Technologien könnten ebenfalls von MarkLogic als Datenbank-Plattform für das Speichern und Durchsuchen von Dokumenten, Daten und Tripeln profitieren. MarkLogic Whitepaper | MarkLogic Semantik 8 Semantik in der Praxis Anwenderberichte zu MarkLogic Semantik Die folgenden Beispiele beschreiben, wie Unternehmen MarkLogic Semantik nutzen: • • • • • Aggregation und Verknüpfung unterschiedlicher Datenquellen – Verwenden Sie MarkLogic zum Speichern von Dokumenten, Daten und Tripeln in ein und derselben Datenbank. Speichern Sie Ihre Daten nativ als RDF-Tripel oder verwenden Sie Tripel für die Verknüpfung unterschiedlicher Datenquellen. Mithilfe von Tripeln können Sie auch vorhandene Daten mit beschreibenden Anmerkungen versehen. Verbesserung der Suchnavigation – Verbessern Sie die Suchnavigation, indem Sie mithilfe von Ontologien Kontext bereitstellen. Selbst wenn die Daten nicht nativ als RDF gespeichert werden, lassen sie sich semantisch aufbereiten, sodass die Benutzer in der Lage sind, Fakten und Informationen intuitiver zu ermitteln. MarkLogic arbeitet mit Partnern wie Smartlogic zusammen, die Ontologien verwalten. Bereitstellung ganzheitlicher Search & Discovery-Funktionen – Nutzen Sie MarkLogic, um kombinierte Abfragen zu erstellen, die verschiedene Dokumente, Daten und Tripel umfassen. Ermöglichen Sie granulare Suchen wie z. B. „Alles, was ein Analyst über ein Unternehmen gesagt hat, im Vergleich zu den Aussagen eines Mitarbeiters, der dort zu einem bestimmten Zeitpunkt tätig war“. Dynamische Veröffentlichung von Inhalten – Setzen Sie MarkLogic als Datenbank ein, um die dynamische Veröffentlichung von Inhalten in Echtzeit und auf der Grundlage von semantischen Beziehungen zu ermöglichen (z. B. Ereignisdaten wie Spielergebnisse, Mannschaftsprofile, Nachrichtenartikel usw.). So können Sie zusammenhängende Inhaltsobjekte gemäß einer domänenmodellierten Informationsarchitektur zu einem neuen Zweck nutzen. Schnellerer Abschluss von ETL-Prozessen – Verwenden Sie RDF, um Daten für eine schnellere Aufnahme zuzuordnen. Ordnen Sie eine beliebige Anzahl physischer Darstellungen eines Datenelements über verschiedene ETL-Quellen und -Ziele einer gemeinsamen semantischen Definition zu. Branchenübergreifende Lösungen Verlage und Medien Implementieren Sie Dynamic Semantic Publishing (DSP), um Inhalte automatisch auf Tausenden von Webseiten zu veröffentlichen – wie die BBC auf bbc.com/sport/. Finanzdienstleister Behörden Unternehmen Gesundheitswesen Verwenden Sie Semantik zur Unterstützung von Betrugsaufdeckung, vorbörslicher Analytik und Entscheidungshilfen, Einhaltung von Vorschriften, Datenherkunft, KYC (Know Your Client) und Referenzdatenverwaltung.6 Geheimdienste, Strafverfolgungsbehörden, Betrugsermittler und Analysten verwenden Semantik, um Verbindungen und Muster in Fakten und Dokumenten zu ermitteln. Beschaffungsstellen entwickeln Entscheidungshilfen zur Rationalisierung von Einkaufsentscheidungen, Lieferantenauswahl und Angebotsverwaltung. Pharmakonzerne und Behörden nutzen Fakten und Dokumente, um Risiken zu bewerten und zu entscheiden, in welche Arzneimitteltests sie investieren sollten. 6 Weitere Informationen erhalten Sie in der Webinar-Aufzeichnung Semantics in Financial Services (Semantik für Finanzdienstleister) auf der MarkLogic Website. MarkLogic Whitepaper | MarkLogic Semantik 9 Implementierungsbeispiel Applied Relevance, Epinomy Applied Relevance hat auf Basis von MarkLogic eine Anwendung namens Epinomy entwickelt, eine Zeitreihen-Suchmaschine, die die beste Volltext-Suchmaschine mit Geschäftsanalysen für Zeitreihendaten kombiniert. Zeitreihendaten basieren auf gesammelten Messungen, die an aufeinanderfolgenden Zeitpunkten mit gleichmäßigen Intervallen vorgenommen werden, und stellen die geläufigste Form von strukturierten Daten dar. Die Herausforderung, die Epinomy in Angriff nimmt, ist die Frage, wie sich Zeitreihendaten mit anderen, unstrukturierten und unbeständigen, Daten wie z. B. globalen Konjunkturdaten kombinieren lassen. Beispiel: Die Weltbank veröffentlicht Daten zu Armut, Inflation und Bruttoinlandsprodukten in einem Format namens „SKOS SDMX Data Cube“, einem TripelFormat für die Nachverfolgung von Wirtschaftsindikatoren und die Durchführung statistischer Analysen. Es gibt jedoch viele weitere Wirtschaftsdaten, die noch nicht für einfache Analysen formatiert sind. Mit relationalen Datenbanken ist diese Herausforderung so gut wie gar nicht zu bewältigen, mit MarkLogic Semantik dagegen lassen sich neue Daten innerhalb weniger Tage integrieren. Bedenken Sie, wie schwierig sich z. B. das Durchsuchen mehrerer Datenquellen nach einem geläufigen Begriff wie „Eurozone“ gestaltet. Dieser Begriff bezeichnet etwas anderes als „Europäische Union“, „OECD“ oder „Europa“. Ein weiteres Beispiel ist der Suchbegriff „Kleinstaaten“, dessen Bedeutung sich von „am wenigsten entwickelte Länder“, „niedrigeres mittleres Einkommen“ oder „niedriges und mittleres Einkommen“ unterscheidet. Mit Semantik sind Sie in der Lage, all diese Begriffe so zuzuordnen, dass ein Benutzer natürliche Sprachsuchen durchführen kann. Zudem kann die Anwendung mithilfe von Semantik schnell Facetten erstellen, ohne deren Merkmale zu definieren. Facetten (oder Ergebniskategorien, die in der Regel links auf einer Webseite angezeigt werden), werden in Epinomy ausschließlich durch die Verwendung von Tripeln erstellt. Dieser Vorgang geschieht dynamisch und spontan, ist vom geladenen Inhalt abhängig und wird dem Benutzer schnell angezeigt. Eine weitere Herausforderung zeigt sich dann, wenn dieselben Wirtschaftsdaten mehrmals veröffentlicht werden. Eine solche Mehrfachveröffentlichung würde normalerweise ein großes Problem darstellen. Semantik behebt dieses Problem durch die Erstellung neuer Tripel-Sets, die als „Mehrfachveröffentlichungen“ markiert werden. Zudem ist die natürliche Sprachsuche so konzipiert, dass auch nur solche mehrfach veröffentlichten Ergebnisse angezeigt werden können. Weitere Informationen zu Epinomy von Applied Relevance und der Verwendung von MarkLogic in diesem Programm erhalten Sie in der Präsentation A Field Guide to MarkLogic Semantics (Eine praktische Anleitung zu MarkLogic Semantik). MarkLogic Whitepaper | MarkLogic Semantik 10 Zusätzliche Ressourcen MarkLogic bietet zahlreiche Ressourcen für Ihren Einstieg in die Semantik. Besuchen Sie marklogic.com oder kontaktieren Sie uns unter [email protected]. Ressourcen Präsentation: Overview of MarkLogic marklogic.com/resources/marklogic-semantics-mlw14/ Semantics (MarkLogic Semantik im Überblick) Präsentation: A Field Guide to marklogic.com/resources/field-guide-marklogic-semantics/ MarkLogic Semantics (Eine praktische Anleitung zu MarkLogic Semantik) Präsentation: MarkLogic Semantics – marklogic.com/resources/marklogic-semantics-hood/ Under the Hood (MarkLogic Semantik – ein Blick unter die Motorhaube) Semantics Developer's Guide marklogic.com/guide/semantics (Handbuch für Semantik-Entwickler) MarkLogic Whitepaper | MarkLogic Semantik 11 Anhang RDF-Tripel-Datenbanken im Vergleich zu Graphdatenbanken Eine häufig gestellte Frage lautet, wie sich RDF-Tripel-Datenbanken von Graphdatenbanken unterscheiden. Es gibt viele Gemeinsamkeiten, und betrachtet man eine Datenvisualisierung nach Art eines Netzwerks oder eines Verknüpfungsdiagramms, so kann man häufig unmöglich feststellen, welche Art von Datenbank verwendet wird, weil die Darstellungen einander so ähnlich sind. Zusammenfassend lässt sich sagen, dass sowohl Graphdatenbanken als auch Tripel-Datenbanken für das Speichern von Linked Data (verknüpfte Daten) konzipiert sind. RDF stellt eine bestimmte Art von Linked Data dar, die mithilfe von SPARQL abgefragt werden. So gesehen handelt es sich bei RDF-Tripel-Datenbanken um eine Art von Graphdatenbanken. Es gibt jedoch einige kleine, aber feine Unterschiede, die im Folgenden beschrieben werden. Die Gemeinsamkeiten • Bei Graphdatenbanken und RDF-Tripel-Datenbanken stehen die Beziehungen zwischen den Daten im Mittelpunkt. Datenpunkte werden als „Knoten“ bezeichnet, und die Beziehungen zwischen den Datenpunkten heißen „Edges“. • Aus einem Netzwerk aus Knoten und Edges lassen sich interessante Visualisierungen erstellen – ein Merkmal von Graphdatenbanken und Tripel-Datenbanken. Die Unterschiede • RDF und SPARQL sind W3C-Standards, während Graphdatenbanken Ad-hoc-Standards verwenden, die sich in der Entwicklungsphase befinden. Eine Graphdatenbank (Neo4J) speichert RDF-Tripel und verwendet SPARQL, ist ansonsten aber auf ihre proprietäre Sprache (Cypher) fokussiert. Andere Graphdatenbanken unterstützen G, GraphLog, GOOD, SoSQL, BiQL, SNQL u. v. a. m. • Bei RDF-Tripel-Datenbanken steht einzig und allein die Speicherung von RDF-Tripel-Reihen im Mittelpunkt, und obwohl sie sich wie Eigenschaftsgraphen verhalten können, sind Graphdatenbanken in der Lage, eine Vielzahl von Graphen zu verwalten, darunter Graphe ohne Ausrichtung, gewichtete Graphe, Hypergraphe usw. • Graphdatenbanken sind knoten- oder eigenschaftszentriert, RDF-Tripel-Datenbanken hingegen Edgezentriert. RDF-Tripel-Datenbanken sind lediglich Listen von Graph-Edges, von denen viele die „Eigenschaften“ eines Knotens darstellen und für die Graphstruktur irrelevant sind. • RDF-Tripel-Datenbanken ermöglichen Schlussfolgerungen auf Daten (eine Schlussfolgerung wäre z. B. „Wenn John in London lebt und London in England liegt, lebt John in England“) und sind für aggregierte Abfragen optimiert, während Graphdatenbanken zwar keine Schlussfolgerungen ermöglichen, aber besser für Graphentraversierungen geeignet sind (Grad der Trennung oder „kürzester Pfad“-Algorithmen). • RDF-Tripel-Datenbanken gehören zum „semantischen Web“ und dem standardisierten Wissen, das als RDF-Tripel in DBpedia und anderen Quellen gespeichert ist, während Graphdatenbanken weniger universell sind und eher speziell für bestimmte Anwendungen konzipiert werden. MarkLogic Whitepaper | MarkLogic Semantik 12 Funktionen von MarkLogic Semantik MarkLogic 7 Semantik • Speichern und Verwaltung von Milliarden von RDF-Tripeln • Abfragen, die sich über verschiedene Dokumente, Daten und Tripel erstrecken • Tripel-Index für Suchergebnisse im Millisekundenbereich • Tripel-Cache für Hochleistung in großen Clustern • Massenladen von Tripeln über die MarkLogic Content Pump • Reifizierung und Verfolgung des Ursprungs durch das Hinzufügen von Metadaten • SPARQL 1.0+ über REST oder XQuery • SPARQL-Anfragen von serverseitigen Programmen mit Abfrage-Einschränkungen • Unterstützung von Protokollen zu Standard-SPARQL-Endgeräten und Graphdatenbanken • XQuery-Hilfsmodule für Serialisierungen und transitive Abschlüsse • Updates und Aggregationen über MarkLogic APIs • Semantische Aufbereitung mit Partnertechnologie (Smartlogic, Temis, NetOwl) • Unternehmensfunktionen: ACID-Transaktionen, Skalierbarkeit und Elastizität, HA/DR, Hochsicherheit, Überwachungs- und Leistungstools MarkLogic 8 Semantik Alle Funktionen aus MarkLogic 7 plus: • SPARQL 1.1 mit Updates und Aggregaten • Graphentraversierung mit Eigenschaftspfaden und transitiven Abschlüssen • Automatische Schlussfolgerung anhand von Regelsätzen • - Regelsätze für RDF, RDFS, OWL Horst - Unterstützung benutzerdefinierter Regelsätze SPARQL aus serverseitigem JavaScript, Node.js MarkLogic Whitepaper | MarkLogic Semantik 13 Über MarkLogic MarkLogic stellt seinen Kunden seit über einem Jahrzehnt eine leistungsstarke, flexible und bewährte Enterprise NoSQL-Datenbank-Plattform bereit, die Unternehmensdaten in wertvolle und praktisch anwendbare Informationen verwandelt. Unternehmen auf der ganzen Welt verlassen sich bei Datenanwendungen der neuen Generation auf die hochsichere Technologie von MarkLogic. MarkLogic hat seinen Hauptsitz im Silicon Valley und betreibt Niederlassungen in New York, Chicago, Washington D.C., London, Frankfurt, Paris, München, Stockholm, Utrecht, Singapur und Tokio. Weitere Informationen finden Sie auf www.marklogic.com. © 2014 MarkLogic Corporation. Alle Rechte vorbehalten. Diese Technologie ist durch die US-amerikanischen Patente Nr. 7,127,469 B2, Nr. 7,171,404 B2, Nr. 7,756,858 B2 und Nr. 7,962,474 B2 geschützt. MarkLogic ist eine Marke oder eingetragene Marke der MarkLogic Corporation in den USA und/oder anderen Ländern. Alle anderen genannten Marken sind Eigentum ihrer jeweiligen Inhaber. [WP-MLS-14-11] Skyper Villa, Taunusanlage 1, Frankfurt 60329, Germany Theatinerstr. 11, 8. Etage, Munich 80333, Germany › DE: +49-69-50 50 60588 › INT.: +1 877 992 8885 › [email protected] › [email protected] › www.marklogic.com