- MarkLogic

Werbung
MarkLogic Semantik:
Linked Data – Vorteile und Hintergründe
Juli 2014
Inhalt
Einleitung ____________________________________ 1
Wozu dient das semantische Web? ________________ 2
Wie die Technologie des semantischen Web funktioniert __ 4
MarkLogic Semantik ____________________________ 6
Semantik in der Praxis __________________________ 9
Zusätzliche Ressourcen ________________________ 11
Anhang _____________________________________ 12
MarkLogic Whitepaper
| MarkLogic Semantik
Das semantische Web ist ein universelles Framework für die Beschreibung und
Verknüpfung von Daten, das die Einsicht in diese Daten sowie die ganzheitliche Suche
vereinfacht und es Personen sowie Computern ermöglicht, Beziehungen zwischen den
Daten zu erkennen.
Einleitung
Mit dem Informationszeitalter und dem damit verbundenen Wachstum des World Wide Web tritt eine neue Frage auf: Wie
lassen sich all diese verfügbaren Informationen sinnvoll nutzen? Das Ziel des semantischen Web besteht darin, diese Frage
zu beantworten.
Die Technologien des semantischen Web tragen dazu bei, indem sie ein universelles Framework für die Beschreibung
und Verknüpfung von Daten bereitstellen, das die Einsicht in diese Daten sowie die ganzheitliche Suche vereinfacht und
es Personen sowie Computern ermöglicht, Beziehungen zwischen den Daten zu erkennen.
Diese „Linked Data“ werden als Tripel geschrieben, einer Kombination aus Subjekt, Prädikat und Objekt. Werden diese
Tripel miteinander verknüpft, bilden sie eine mit Graphen vergleichbare Darstellung von Daten ohne Hierarchien und
können von Computern gelesen und interpretiert werden. Die Standardsprache für das Schreiben von Tripeln ist RDF
(Resource Description Framework), die Standard-Abfragesprache lautet SPARQL („Sparkl“ ausgesprochen).1
MarkLogic ist eine Enterprise NoSQL-Datenbank-Plattform, die nicht nur als Speicher für Dokumente und Daten fungiert,
sondern auch als native RDF-Tripel-Datenbank – sie bietet die Möglichkeit, Dokumente, Daten und Tripel in ein und
derselben Datenbank zu speichern und abzufragen. Darüber hinaus wartet MarkLogic mit den entscheidenden Funktionen
auf, die Unternehmen benötigen – ACID-Transaktionen, Skalierbarkeit, Elastizität sowie Hochsicherheit.
Unternehmen verwenden MarkLogic Semantik, um unterschiedliche Datenquellen zu aggregieren und miteinander zu
verknüpfen, ausgereifte Suchanwendungen zu erstellen, Inhalte dynamisch zu veröffentlichen und effizientere ETLProzesse (Extrahieren, Transformieren, Laden) auszuführen.
1
Tripel-Datenbanken können mit Graphen vergleichbare Darstellungen bilden, sind aber keine Graphdatenbanken. Weitere Informationen zu
Gemeinsamkeiten und Unterschieden finden Sie im Anhang.
MarkLogic Whitepaper
|
MarkLogic Semantik
1
Semantik bei Google
Google nutzt Linked Data für die automatische
Bereitstellung von „Rich Snippets“ aus Informationen,
die auf RDF-Markup von Webseiten basieren.
Eine Suche nach „Germany World Cup“ führt z. B. zu
Suchergebnissen auf der Grundlage von Semantik.
Die Daten befinden sich auf anderen Webseiten,
können aber von Google gelesen werden –
einschließlich der Metadaten über die Mannschaft,
Live-Spielständen
und Videoinhalten.
Wozu dient das semantische Web?
Das semantische Web ist eine Weiterentwicklung des Internets und bietet ein Standardformat für Linked Data, das sich nur
unwesentlich von der einst revolutionären Idee der Verwendung von HTML- und HTTP-Standards zur Verknüpfung von
Dokumenten im Internet unterscheidet. Das semantische Web geht jedoch einen Schritt weiter, indem es ein universelles
Framework für die Beschreibung und Verknüpfung von Daten (und nicht nur Dokumenten) bietet. Dieses Framework für
Linked Data löst zahlreiche Probleme, indem es ein ganzheitliches Verständnis von Daten und deren Beziehungen zu
anderen Daten ermöglicht. Mit MarkLogic sind Sie in der Lage, die Struktur der Linked Data sinnvoll zu nutzen.
Bestehende Probleme
•
Problem: Das Internet ist auf die Verknüpfung von Dokumenten ausgelegt, nicht auf die
Verknüpfung
von Daten.
Das Internet ist ein Netzwerk aus HTML-Dokumenten, die per HTTP miteinander verknüpft sind. Mit diesem
einfachen Framework verbreitet es Informationen in einer nie zuvor gekannten Art und Weise. Diese
Informationen sind jedoch auf den Webseiten „eingesperrt“, auf denen sie veröffentlicht wurden. Hinzu kommt
der starke Anstieg der Datenmengen. Darum kann eine Google-Suche zu Millionen von Ergebnissen führen, ohne
dass die ursprüngliche Frage beantwortet wird.
•
Problem: Es gibt keinen Kontext, der die Daten erläutert.
Wenn Sie z. B. nach dem Word „cook“ suchen, weiß der Computer nicht, ob Sie einen Koch meinen, den Vorgang
des Kochens oder die Cook-Inseln. Und selbst wenn der Computer wüsste, dass Sie „Koch“ meinen, so kann er
noch lange nicht erkennen, dass Sie auch an den Restaurants in einer bestimmten Stadt interessiert sind, in
denen der Koch beschäftigt ist.
MarkLogic Whitepaper
|
MarkLogic Semantik
2
•
Problem: Anwendungen sind innerhalb von Organisation zu stark isoliert.
Anwendungen basieren bisher meist auf relationalen Datenbanken, die einem bestimmten Zweck dienen. So
bilden sie isolierte Datensilos, die verhindern, dass die Daten zu einem anderen Zweck genutzt werden können.
Dadurch ist es z. B. sehr schwierig, Daten aus Kontoauszügen, Daten zur Handynutzung, Wetterdaten und eine
Facebook-Freundesliste miteinander zu kombinieren. Ähnliche Beispiele treten immer wieder in Unternehmen in
aller Welt auf.
Die Lösung: Das semantische Web
•
Lösung: Verknüpfung von Daten anhand eines universellen Standards.
Durch die Verwendung von RDF als Standard für die Verknüpfung von Daten entsteht eine Struktur, mit der sich
Fakten ermitteln und verständlich darstellen lassen. Das bedeutet, dass Anwendungen ohne Eingreifen eines
menschlichen Mittelsmannes miteinander kommunizieren können. Ein gutes Beispiel hierfür ist die Google-Suche,
bei der nicht nur Links zu Dokumenten gefunden werden, sondern auch Fakten, die der Benutzer erfahren
möchte.
•
Lösung: Verknüpfung von Daten innerhalb von Ontologien.
Semantische Ontologien liefern Kontext. Bei Ontologien – Sammlungen, Kategorien, Hierarchien oder
Taxonomien – werden Daten miteinander in Beziehung gesetzt, indem verschiedene Kategorien von Ereignissen,
Personen oder Dingen definiert werden. Dies ist vergleichbar mit der Klassifizierung von Pflanzen, die z. B. in
Blumen und Sträucher unterteilt werden. In diesem Kontext ist mit „Rose“ die Blume gemeint, nicht die
Schauspielerin Rose Byrne. Ontologien verbessern aber nicht nur die Navigation und die Suchvorgänge, sondern
sind auch bei der Veröffentlichung relevanter Inhalte und der Interpretation von Metadaten hilfreich.
•
Lösung: Verknüpfung von Daten für ganzheitliche Suchen.
Semantik basiert auf den Beziehungen zwischen Daten und ist damit ein ideales Hilfsmittel für die
Verknüpfung von und die Suche nach strukturierten und unstrukturierten Daten mithilfe der StandardAbfragesprache SPARQL. Dies ist vor allem bei komplexen Abfragen praktisch, bei der etliche Datensätze
berücksichtigt werden. Beispiel: Bei der Abfrage „Alle Empfänger von Krankenversicherungsleistungen, die
im Jahr 2010 über 100.000 US-Dollar verdienten und in Atlanta, Georgia, lebten“ werden Daten zu
Versicherung, Einkommen, Geografie und Zeiträumen miteinander kombiniert.
MarkLogic Whitepaper
|
MarkLogic Semantik
3
Wie die Technologie des semantischen Web funktioniert
Computer können weder Kontext noch Bedeutung begreifen. Im Gegensatz dazu verknüpft unser Gehirn verschiedene Gedanken
miteinander, um sich ein vollständiges Bild von etwas zu machen – sei es ein abstrakter Begriff oder eine konkrete Schlussfolgerung.
Für Computer gestaltet es sich hingegen sehr schwierig, Zusammenhänge herzustellen, vor allem, wenn unstrukturierte
Informationen zugrunde liegen. Mit dem semantischen Web lässt sich diese Herausforderung durch die Verwendung eines Standards
für Linked Data bewältigen, der Computer intelligenter macht.
Linked Data verstehen
Linked Data werden als Tripel geschrieben – eine Kombination aus Subjekt, Prädikat und Objekt – und miteinander verknüpft. So
bilden sie eine mit Graphen vergleichbare Darstellung von Daten ohne Hierarchien und können von Computern gelesen und
interpretiert werden. Die Standardsprache für das Schreiben von Tripeln ist RDF, die Standard-Abfragesprache ist SPARQL.
RDF- und SPARQL-Standards
RDF- und SPARQL-Standards
RDF (Resource Description Framework) ist das übliche Datenformat für Linked Data. Durch die Verwendung des RDFStandards werden die Daten aus ihren Containern „befreit“ und für automatisierte Prozesse verfügbar gemacht. Das
W3C (ein Gremium für internationale Standards) empfiehlt RDF und legt dessen Standards seit 2004 fest. RDF basiert
auf der Verwendung von HTTP-URLs für die Suche nach und die Beschreibung von Ressourcen.
Beispiele für RDF
<http://example.org/dir/js> <http://xmlns.com/foaf/0.1/name> "John Smith" .
<http://example.org/dir/js> <http://xmlns.com/foaf/0.1/livesIn> "England" .
Zudem definiert W3C SPARQL als Standard-Abfragesprache für RDF. SPARQL wurde erstmals 2008 als Standardsprache
für Semantikabfragen definiert, und dem W3C-Vorsitzenden Tim Berners-Lee zufolge ist „der Versuch, das semantische
Web ohne SPARQL zu nutzen, mit dem Versuch vergleichbar, eine relationale Datenbank ohne SQL zu nutzen“.2
2
Weitere Informationen finden Sie im MarkLogic Entwicklerportal: developer.marklogic.com/learn/semantics-exercises/sparql-101.
MarkLogic Whitepaper
|
MarkLogic Semantik
4
Beispiel für SPARQL
SELECT ?person ?place
WHERE
{
?person <http://example.org/LivesIn> ?place .
?place <http://example.org/IsIn> "England" .
}
RDF liefert Kontext
Mit RDF sind Sie in der Lage, unterschiedliche Datenquellen im Kontext miteinander zu verknüpfen – Kontext aus
Dokumenten und Daten, der Datendomäne und der Welt im Allgemeinen.
Wenn diese Daten zusammen genutzt werden, können Unternehmen auf ein Framework zurückgreifen, mit dessen Hilfe
sie ihre Daten besser verstehen. Dieses Framework lässt sich kontinuierlich ausbauen, und ebenso wie das World Wide
Web der Dokumente wächst auch das World Wide Web der Daten. Das semantische Web expandiert weiterhin
exponentiell, da Behörden und Unternahmen ihre Daten als RDF speichern und dadurch Datensätze zu den Linked Open
Data beitragen.
Hier einige Beispiele für Datentypen „im Kontext“:
Kontext
Datentyp
Dokumente und Daten
Strukturierte und unstrukturierte Daten innerhalb eines Unternehmens:
•
XML- und JSON-Dokumente
•
Freitext mit Entitäten (Eigennamen, z. B. die Person Richard Nixon, das Produkt
Advil, das Unternehmen IBM) und Ereignissen (Nixon reist nach China, IBM
übernimmt Cloudant)
•
Spezifische Domänen
Dokument-Metadaten (Kategorien, Autor, Veröffentlichungsdatum, Quelle)
Freigegebene Daten, die für eine Branche oder für Unternehmen spezifisch sind:
•
Die Medikamenten-Ontologie eines Pharmakonzerns
•
SNOMED CT – medizinische Terminologie
•
Dublin Core Metadata Initiative für Ressourcen aus Medien und dem
Verlagswesen
•
MarkLogic Whitepaper
|
MarkLogic Semantik
FIBO (Financial Industry Business Ontology)
5
Die Welt im Allgemeinen
Milliarden von Fakten über die Welt im Allgemeinen, die häufig kostenlos bereitgestellt werden:
•
DBpedia – Wikipedia in Form von Semantikdaten. Enthält Fakten wie z. B.
„Einstein wurde in Deutschland geboren“ oder „Die irische Währung ist der
Euro“. DBpedia enthält annähernd 2,5 Milliarden als RDF-Tripel gespeicherte
Informationen und wächst schnell.3
•
GeoNames – Geografische Informationen wie „Doha ist die Hauptstadt von
Katar“ oder „Doha hat die Koordinaten 25° 17′ N, 51° 31′ O“.
•
Linked Open Data – Tausende von kostenlos verfügbaren Datensätzen, die alle
miteinander verknüpft sind.4
MarkLogic Semantik
Um die Datenspeicherung zu vereinfachen und eine einheitliche, benutzerfreundliche Lösung zu gewährleisten, enthält
MarkLogic eine native RDF-Tripel-Datenbank, die Abfragen mit SPARQL ermöglicht.5
Dokumente + Daten + RDF
MarkLogic ist die einzige Enterprise NoSQL-Datenbank-Plattform, die eine Kombination aus Dokumenten, Daten und
Tripeln speichern und abfragen kann. Mit einer einzigen Plattform können Benutzer das Datenmodell auswählen, das für
die Speicherung ihrer Daten am besten geeignet ist und es ihnen ermöglicht, alle verfügbaren Informationen
ganzheitlich abzufragen.
3
Weitere Informationen zu DBpedia finden Sie unter http://wiki.dbpedia.org/About.
4
Das interaktive Linked Open Data-Cloud-Diagramm finden Sie unter http://lod-cloud.net/.
5 Im Anhang finden Sie eine Liste aller MarkLogic Semantik-Funktionen.
MarkLogic Whitepaper
|
MarkLogic Semantik
6
Ganzheitliche Suche
Tripel können in Dokumente eingebunden werden, sich auf Dokumente beziehen oder Dokumente miteinander
verbinden. In jedem Fall erhalten Benutzer die Möglichkeit, mit einer einzigen Abfrage sämtliche Daten zu durchsuchen.
In der Praxis ist diese Flexibilität von entscheidender Bedeutung. Unter Data.gov.uk finden sich z. B. zehn verschiedene
primäre Datenformate, darunter Dokumente, XML, CSV und RDF – aber nur ein Prozent dieser Daten ist als RDF
verfügbar. Nur MarkLogic kann die XML-, CSV- und RDF-Daten innerhalb derselben Datenbank zusammen speichern
und abfragen.
Geschwindigkeit und Skalierbarkeit
MarkLogic verfügt über einen spezialisierten Tripel-Index, der die Abfrage von Tripeln beschleunigt. Zudem ist
MarkLogic mit einem Tripel-Cache ausgestattet, der die Verwaltung der Speichernutzung optimiert, damit eine optimale
Leistung gewährleistet ist. Bei einigen Tripel-Datenbanken muss der gesamte Tripel-Datenbank-Index gespeichert
werden. MarkLogic verwendet jedoch im Speicher abgelegte Indexdateien, um die Geschwindigkeit trotz der
Einschränkungen des physischen Speichers beizubehalten.
Diese beiden Funktionen – die spezialisierte Tripel-Datenbank und der Tripel-Cache – machen MarkLogic zu einer
skalierbaren, elastischen und hochleistungsfähigen Tripel-Datenbank. Bei anderen Tripel-Datenbanken kann das
Datenvolumen schnell zu einem Problem werden. Einige Tripel-Datenbanken sind zwar an die Größe geclusterter
Systeme anpassbar, aber nur für parallele Abfragen geeignet. Sie können also Cluster mit drei Knoten aufweisen, aber
nur, wenn jeder Knoten mit denselben Daten ausgestattet ist. Die Shared-Nothing-Architektur von MarkLogic unterstützt
Elastizität und Skalierbarkeit.
MarkLogic kann 1 Mrd. Tripel pro Knoten speichern (bei etwa 350 Byte pro Tripel) und ist auf mehrere Milliarden Tripel
skalierbar.
Unternehmensfunktionen
Die Tripel-Datenbank von MarkLogic wartet mit allen Funktionen auf, die MarkLogic in den vergangenen zehn Jahren entwickelt und
geprüft hat – z. B: ACID-Transaktionen, Skalierbarkeit und Elastizität, Hochverfügbarkeit und Disaster Recovery, Hochsicherheit sowie
Tools zur Leistungsüberwachung. Vor allem aufgrund der Semantikfunktion können Sie mithilfe der Role Based Access Control (RBAC)
genau bestimmen, welche Benutzer auf welche Tripel zugreifen können, und dadurch höchste Sicherheit gewährleisten.
Ergänzende Semantiktechnologien
Viele Unternehmen setzen MarkLogic als Datenbank-Plattform ein, mit der RDF-Tripel gespeichert und durchsucht werden, während
sie gleichzeitig zusätzliche Technologien für die Ontologieverwaltung, Textanalyse, semantische Aufbereitung und die Tripel-Erstellung
verwenden.
MarkLogic Whitepaper
|
MarkLogic Semantik
7
Semaphore, die Content Intelligence-Softwareplattform von Smartlogic,
ermöglicht die schnelle Entwicklung von Ontologien und führt semantische
Analysen durch, um Informationen aus verschiedensten Inhalten und
Quellen zu beschreiben und zu extrahieren. Semaphore ergänzt die
Funktionen von MarkLogic durch die automatische Anwendung von Tags
beim Laden der Inhalte. So werden Metadaten standardisiert, Fakten und
Entitäten extrahiert und die Suchfunktionen von MarkLogic durch
Ontologien erweitert.
Smartlogic ist ein offizieller MarkLogic Technologiepartner. Weitere
Informationen finden Sie unter http://www.smartlogic.com.
Luxid® ist die Vorzeigeplattform von Temis, die Informationen identifiziert
und extrahiert, um Inhalte semantisch mit domänenspezifischen Metadaten
aufzubereiten. Die Integration von Luxid® und MarkLogic sorgt für die
nahtlose semantische Aufbereitung von Daten, die in MarkLogic
gespeichert sind – mit dem domänenspezifischen und mehrsprachigen
Anmerkungsprozess von Luxid®. So sind Unternehmen in der Lage,
leistungsstarke und skalierbare Anwendungen zu entwickeln und dabei
Semantikfunktionen mit Echtzeit-Datenbankflexibilität zu kombinieren. Dies
erleichtert die Verwertung großer Mengen unstrukturierter Inhalte.
Temis ist ein offizieller MarkLogic Technologiepartner. Weitere Informationen
finden Sie unter http://www.temis.com.
Protégé ist eine kostenlose Open-Source-Plattform, die ein Tool-Set für die
Erstellung von Domänenmodellen und wissensbasierten Anwendungen mit
Ontologien enthält. Protégé ist für Ontologien in der Medizinbranche
konzipiert und wird vom Stanford Center for Biomedical Informatics
Research verwaltet. Organisationen im Gesundheitswesen nutzen
MarkLogic als RDF-Tripel-Datenbank und Protégé für die
Ontologieverwaltung.
Weitere Informationen finden Sie unter http://protege.stanford.edu/.
Diese Liste ist keinesfalls vollständig, sie zeigt lediglich einige ergänzende Technologien, die derzeit eingesetzt
werden. Zahlreiche weitere Technologien könnten ebenfalls von MarkLogic als Datenbank-Plattform für das Speichern
und Durchsuchen von Dokumenten, Daten und Tripeln profitieren.
MarkLogic Whitepaper
|
MarkLogic Semantik
8
Semantik in der Praxis
Anwenderberichte zu MarkLogic Semantik
Die folgenden Beispiele beschreiben, wie Unternehmen MarkLogic Semantik nutzen:
•
•
•
•
•
Aggregation und Verknüpfung unterschiedlicher Datenquellen – Verwenden Sie MarkLogic zum
Speichern von Dokumenten, Daten und Tripeln in ein und derselben Datenbank. Speichern Sie Ihre Daten nativ
als RDF-Tripel oder verwenden Sie Tripel für die Verknüpfung unterschiedlicher Datenquellen. Mithilfe von
Tripeln können Sie auch vorhandene Daten mit beschreibenden Anmerkungen versehen.
Verbesserung der Suchnavigation – Verbessern Sie die Suchnavigation, indem Sie mithilfe von Ontologien
Kontext bereitstellen. Selbst wenn die Daten nicht nativ als RDF gespeichert werden, lassen sie sich semantisch
aufbereiten, sodass die Benutzer in der Lage sind, Fakten und Informationen intuitiver zu ermitteln. MarkLogic
arbeitet mit Partnern wie Smartlogic zusammen, die Ontologien verwalten.
Bereitstellung ganzheitlicher Search & Discovery-Funktionen – Nutzen Sie MarkLogic, um kombinierte
Abfragen zu erstellen, die verschiedene Dokumente, Daten und Tripel umfassen. Ermöglichen Sie granulare
Suchen wie z. B. „Alles, was ein Analyst über ein Unternehmen gesagt hat, im Vergleich zu den Aussagen eines
Mitarbeiters, der dort zu einem bestimmten Zeitpunkt tätig war“.
Dynamische Veröffentlichung von Inhalten – Setzen Sie MarkLogic als Datenbank ein, um die dynamische
Veröffentlichung von Inhalten in Echtzeit und auf der Grundlage von semantischen Beziehungen zu ermöglichen
(z. B. Ereignisdaten wie Spielergebnisse, Mannschaftsprofile, Nachrichtenartikel usw.). So können Sie
zusammenhängende Inhaltsobjekte gemäß einer domänenmodellierten Informationsarchitektur zu einem neuen
Zweck nutzen.
Schnellerer Abschluss von ETL-Prozessen – Verwenden Sie RDF, um Daten für eine schnellere Aufnahme
zuzuordnen. Ordnen Sie eine beliebige Anzahl physischer Darstellungen eines Datenelements über verschiedene
ETL-Quellen und -Ziele einer gemeinsamen semantischen Definition zu.
Branchenübergreifende Lösungen
Verlage und
Medien
Implementieren Sie
Dynamic Semantic
Publishing (DSP), um
Inhalte automatisch
auf Tausenden von
Webseiten zu
veröffentlichen –
wie die BBC auf
bbc.com/sport/.
Finanzdienstleister
Behörden
Unternehmen
Gesundheitswesen
Verwenden Sie Semantik
zur Unterstützung von
Betrugsaufdeckung,
vorbörslicher Analytik
und Entscheidungshilfen,
Einhaltung von
Vorschriften,
Datenherkunft, KYC
(Know Your Client) und
Referenzdatenverwaltung.6
Geheimdienste,
Strafverfolgungsbehörden,
Betrugsermittler und
Analysten verwenden
Semantik, um
Verbindungen und Muster
in Fakten und
Dokumenten zu ermitteln.
Beschaffungsstellen
entwickeln
Entscheidungshilfen zur
Rationalisierung von
Einkaufsentscheidungen,
Lieferantenauswahl und
Angebotsverwaltung.
Pharmakonzerne und
Behörden nutzen Fakten
und Dokumente, um
Risiken zu bewerten und
zu entscheiden, in
welche Arzneimitteltests
sie investieren sollten.
6
Weitere Informationen erhalten Sie in der Webinar-Aufzeichnung Semantics in Financial Services (Semantik für Finanzdienstleister) auf der
MarkLogic Website.
MarkLogic Whitepaper
|
MarkLogic Semantik
9
Implementierungsbeispiel
Applied Relevance, Epinomy
Applied Relevance hat auf Basis von MarkLogic eine Anwendung namens Epinomy entwickelt, eine Zeitreihen-Suchmaschine,
die die beste Volltext-Suchmaschine mit Geschäftsanalysen für Zeitreihendaten kombiniert. Zeitreihendaten basieren auf
gesammelten Messungen, die an aufeinanderfolgenden Zeitpunkten mit gleichmäßigen Intervallen vorgenommen werden, und
stellen die geläufigste Form von strukturierten Daten dar.
Die Herausforderung, die Epinomy in Angriff nimmt, ist die Frage, wie sich Zeitreihendaten mit anderen, unstrukturierten
und unbeständigen, Daten wie z. B. globalen Konjunkturdaten kombinieren lassen. Beispiel: Die Weltbank veröffentlicht
Daten zu Armut, Inflation und Bruttoinlandsprodukten in einem Format namens „SKOS SDMX Data Cube“, einem TripelFormat für die Nachverfolgung von Wirtschaftsindikatoren und die Durchführung statistischer Analysen. Es gibt jedoch viele
weitere Wirtschaftsdaten, die noch nicht für einfache Analysen formatiert sind. Mit relationalen Datenbanken ist diese
Herausforderung so gut wie gar nicht zu bewältigen, mit MarkLogic Semantik dagegen lassen sich neue Daten innerhalb
weniger Tage integrieren.
Bedenken Sie, wie schwierig sich z. B. das Durchsuchen mehrerer Datenquellen nach einem geläufigen Begriff wie „Eurozone“
gestaltet. Dieser Begriff bezeichnet etwas anderes als „Europäische Union“, „OECD“ oder „Europa“. Ein weiteres Beispiel ist der
Suchbegriff „Kleinstaaten“, dessen Bedeutung sich von „am wenigsten entwickelte Länder“, „niedrigeres mittleres Einkommen“
oder „niedriges und mittleres Einkommen“ unterscheidet. Mit Semantik sind Sie in der Lage, all diese Begriffe so zuzuordnen,
dass ein Benutzer natürliche Sprachsuchen durchführen kann.
Zudem kann die Anwendung mithilfe von Semantik schnell Facetten erstellen, ohne deren Merkmale zu definieren. Facetten
(oder Ergebniskategorien, die in der Regel links auf einer Webseite angezeigt werden), werden in Epinomy ausschließlich
durch die Verwendung von Tripeln erstellt. Dieser Vorgang geschieht dynamisch und spontan, ist vom geladenen Inhalt
abhängig und wird dem Benutzer schnell angezeigt.
Eine weitere Herausforderung zeigt sich dann, wenn dieselben Wirtschaftsdaten mehrmals veröffentlicht werden. Eine solche
Mehrfachveröffentlichung würde normalerweise ein großes Problem darstellen. Semantik behebt dieses Problem durch die
Erstellung neuer Tripel-Sets, die als „Mehrfachveröffentlichungen“ markiert werden. Zudem ist die natürliche Sprachsuche so
konzipiert, dass auch nur solche mehrfach veröffentlichten Ergebnisse angezeigt werden können.
Weitere Informationen zu Epinomy von Applied Relevance und der Verwendung von MarkLogic in diesem Programm erhalten
Sie in der Präsentation A Field Guide to MarkLogic Semantics (Eine praktische Anleitung zu MarkLogic Semantik).
MarkLogic Whitepaper
|
MarkLogic Semantik
10
Zusätzliche Ressourcen
MarkLogic bietet zahlreiche Ressourcen für Ihren Einstieg in die Semantik. Besuchen Sie marklogic.com oder
kontaktieren Sie uns unter [email protected].
Ressourcen
Präsentation: Overview of MarkLogic
marklogic.com/resources/marklogic-semantics-mlw14/
Semantics (MarkLogic Semantik im
Überblick)
Präsentation: A Field Guide to
marklogic.com/resources/field-guide-marklogic-semantics/
MarkLogic Semantics (Eine praktische
Anleitung zu MarkLogic Semantik)
Präsentation: MarkLogic Semantics –
marklogic.com/resources/marklogic-semantics-hood/
Under the Hood (MarkLogic Semantik
– ein Blick unter die Motorhaube)
Semantics Developer's Guide
marklogic.com/guide/semantics
(Handbuch für Semantik-Entwickler)
MarkLogic Whitepaper
|
MarkLogic Semantik
11
Anhang
RDF-Tripel-Datenbanken im Vergleich zu Graphdatenbanken
Eine häufig gestellte Frage lautet, wie sich RDF-Tripel-Datenbanken von Graphdatenbanken unterscheiden.
Es gibt viele Gemeinsamkeiten, und betrachtet man eine Datenvisualisierung nach Art eines Netzwerks oder eines
Verknüpfungsdiagramms, so kann man häufig unmöglich feststellen, welche Art von Datenbank verwendet wird,
weil die Darstellungen einander so ähnlich sind.
Zusammenfassend lässt sich sagen, dass sowohl Graphdatenbanken als auch Tripel-Datenbanken für das Speichern von
Linked Data (verknüpfte Daten) konzipiert sind. RDF stellt eine bestimmte Art von Linked Data dar, die mithilfe von
SPARQL abgefragt werden. So gesehen handelt es sich bei RDF-Tripel-Datenbanken um eine Art von
Graphdatenbanken. Es gibt jedoch einige kleine, aber feine Unterschiede, die im Folgenden beschrieben werden.
Die Gemeinsamkeiten
•
Bei Graphdatenbanken und RDF-Tripel-Datenbanken stehen die Beziehungen zwischen den Daten im
Mittelpunkt. Datenpunkte werden als „Knoten“ bezeichnet, und die Beziehungen zwischen den
Datenpunkten heißen „Edges“.
•
Aus einem Netzwerk aus Knoten und Edges lassen sich interessante Visualisierungen erstellen – ein
Merkmal von Graphdatenbanken und Tripel-Datenbanken.
Die Unterschiede
•
RDF und SPARQL sind W3C-Standards, während Graphdatenbanken Ad-hoc-Standards verwenden, die
sich in der Entwicklungsphase befinden. Eine Graphdatenbank (Neo4J) speichert RDF-Tripel und
verwendet SPARQL, ist ansonsten aber auf ihre proprietäre Sprache (Cypher) fokussiert. Andere
Graphdatenbanken unterstützen G, GraphLog, GOOD, SoSQL, BiQL, SNQL u. v. a. m.
•
Bei RDF-Tripel-Datenbanken steht einzig und allein die Speicherung von RDF-Tripel-Reihen im
Mittelpunkt, und obwohl sie sich wie Eigenschaftsgraphen verhalten können, sind Graphdatenbanken in
der Lage, eine Vielzahl von Graphen zu verwalten, darunter Graphe ohne Ausrichtung, gewichtete
Graphe, Hypergraphe usw.
•
Graphdatenbanken sind knoten- oder eigenschaftszentriert, RDF-Tripel-Datenbanken hingegen Edgezentriert. RDF-Tripel-Datenbanken sind lediglich Listen von Graph-Edges, von denen viele die
„Eigenschaften“ eines Knotens darstellen und für die Graphstruktur irrelevant sind.
•
RDF-Tripel-Datenbanken ermöglichen Schlussfolgerungen auf Daten (eine Schlussfolgerung wäre z. B.
„Wenn John in London lebt und London in England liegt, lebt John in England“) und sind für aggregierte
Abfragen optimiert, während Graphdatenbanken zwar keine Schlussfolgerungen ermöglichen, aber besser
für Graphentraversierungen geeignet sind (Grad der Trennung oder „kürzester Pfad“-Algorithmen).
•
RDF-Tripel-Datenbanken gehören zum „semantischen Web“ und dem standardisierten Wissen, das als
RDF-Tripel in DBpedia und anderen Quellen gespeichert ist, während Graphdatenbanken weniger
universell sind und eher speziell für bestimmte Anwendungen konzipiert werden.
MarkLogic Whitepaper
|
MarkLogic Semantik
12
Funktionen von MarkLogic Semantik
MarkLogic 7 Semantik
•
Speichern und Verwaltung von Milliarden von RDF-Tripeln
•
Abfragen, die sich über verschiedene Dokumente, Daten und Tripel erstrecken
•
Tripel-Index für Suchergebnisse im Millisekundenbereich
•
Tripel-Cache für Hochleistung in großen Clustern
•
Massenladen von Tripeln über die MarkLogic Content Pump
•
Reifizierung und Verfolgung des Ursprungs durch das Hinzufügen von Metadaten
•
SPARQL 1.0+ über REST oder XQuery
•
SPARQL-Anfragen von serverseitigen Programmen mit Abfrage-Einschränkungen
•
Unterstützung von Protokollen zu Standard-SPARQL-Endgeräten und Graphdatenbanken
•
XQuery-Hilfsmodule für Serialisierungen und transitive Abschlüsse
•
Updates und Aggregationen über MarkLogic APIs
•
Semantische Aufbereitung mit Partnertechnologie (Smartlogic, Temis, NetOwl)
•
Unternehmensfunktionen: ACID-Transaktionen, Skalierbarkeit und Elastizität, HA/DR,
Hochsicherheit, Überwachungs- und Leistungstools
MarkLogic 8 Semantik
Alle Funktionen aus MarkLogic 7 plus:
•
SPARQL 1.1 mit Updates und Aggregaten
•
Graphentraversierung mit Eigenschaftspfaden und transitiven Abschlüssen
•
Automatische Schlussfolgerung anhand von Regelsätzen
•
-
Regelsätze für RDF, RDFS, OWL Horst
-
Unterstützung benutzerdefinierter Regelsätze
SPARQL aus serverseitigem JavaScript, Node.js
MarkLogic Whitepaper
|
MarkLogic Semantik
13
Über MarkLogic
MarkLogic stellt seinen Kunden seit über einem Jahrzehnt eine leistungsstarke, flexible und
bewährte Enterprise NoSQL-Datenbank-Plattform bereit, die Unternehmensdaten in wertvolle
und praktisch anwendbare Informationen verwandelt. Unternehmen auf der ganzen Welt
verlassen sich bei Datenanwendungen der neuen Generation auf die hochsichere Technologie
von MarkLogic. MarkLogic hat seinen Hauptsitz im Silicon Valley und betreibt Niederlassungen in
New York, Chicago, Washington D.C., London, Frankfurt, Paris, München, Stockholm, Utrecht,
Singapur und Tokio. Weitere Informationen finden Sie auf www.marklogic.com.
© 2014 MarkLogic Corporation. Alle Rechte vorbehalten. Diese Technologie ist durch die US-amerikanischen Patente
Nr. 7,127,469 B2, Nr. 7,171,404 B2, Nr. 7,756,858 B2 und Nr. 7,962,474 B2 geschützt. MarkLogic ist eine Marke oder
eingetragene Marke der MarkLogic Corporation in den USA und/oder anderen Ländern. Alle anderen genannten Marken sind
Eigentum ihrer jeweiligen Inhaber. [WP-MLS-14-11]
Skyper Villa, Taunusanlage 1, Frankfurt 60329, Germany
Theatinerstr. 11, 8. Etage, Munich 80333, Germany
› DE: +49-69-50 50 60588 › INT.: +1 877 992 8885
› [email protected][email protected] › www.marklogic.com
Herunterladen