Die NoSQL-Generation: Das Dokumentenmodell Mai 2014 Inhalt Einleitung _________________________________________________________________ 3 Die Geschichte von „NoSQL“ ____________________________________________________ 3 Die verschiedenen Arten der NoSQL-Datenbanken ____________________________________ 4 Das Dokumentenmodell _______________________________________________________ 7 Die Definition von Enterprise NoSQL _____________________________________________ 11 Einleitung NoSQL-Datenbanken stellen eine neue Generation von Datenbanken dar, die äußerst erfolgreich sind, weil sie die Herausforderungen im Hinblick auf das Volumen, die Vielfalt und die Geschwindigkeit von Big Data bewältigen. NoSQL (Not only SQL = nicht nur SQL) steht für eine grundlegend neue Denkweise bezüglich der Art und Weise, wie Daten gespeichert und verwaltet werden. Diese neue Denkweise widerspricht dem Ansatz der relationalen Datenbanken, der für Oracle Database 12c, Oracle MySQL, Microsoft SQL Server, IBM DB2, Postgres u. v. a. verwendet wird. 1 Der Begriff „NoSQL“ beschreibt eine Vielzahl neuer Datenbanken, die sich in vier Hauptkategorien unterteilen lassen: Dokumenten-, Key-Value-, spaltenorientierte und Graphdatenbanken. Die Dokumentendatenbanken stellen dabei die besten Mehrzweck-Datenbanken dar. Dokumentendatenbanken verfolgen einen logischeren, „menschlicheren“ Ansatz der Datenmodellierung. Sie sind in der Regel sehr flexibel und benutzerfreundlich und daher am beliebtesten. Von den Dokumentendatenbanken unterscheidet sich MarkLogic als „Enterprise NoSQL“-Datenbank, weil es sich hierbei um eine NoSQL-Datenbank mit allen wichtigen Merkmalen handelt, die Unternehmen für die Ausführung betriebskritischer Anwendungen benötigen. Dazu gehören ACID-Transaktionen, Hochverfügbarkeit, Disaster Recovery, Hochsicherheit, Elastizität und Skalierbarkeit sowie Tools zur Leistungsüberwachung. Mit MarkLogic können Unternehmen das Dokumentenmodell einführen und sicher in das nächste Zeitalter der Datenbanken eintreten. Die Geschichte von „NoSQL“ MarkLogic hat sich mittlerweile einen Namen als Enterprise NoSQL-Datenbank gemacht, war ursprünglich jedoch aufgrund ihrer Fähigkeit bekannt, XML zu speichern und zu durchsuchen. Bei den Patenten von 2002 ging es um eine neue Methode zum Speichern von Daten mithilfe der XML-Baumstruktur und zum Abfragen dieser Daten. Diese Patente wurden vom MarkLogic Gründer Christopher Lindblad angemeldet, lange bevor der Begriff „NoSQL“ geprägt wurde. Seitdem verwendet MarkLogic diesen Begriff mit dem Zusatz „Enterprise“ oder „unternehmenserprobt“, um ihn von den zahlreichen neuen Datenbanken zu unterscheiden, die seitdem entwickelt wurden, aber noch keine unternehmenskritische Funktionen umfassen. Der Begriff „NoSQL“ ist erst seit 2009 in Gebrauch. Er wurde ursprünglich als Twitter-Hashtag verwendet, um für eine Gruppe zu werben, die sich in San Francisco zusammenfand, um sich mit neuen Datenbanktechnologien auseinanderzusetzen. Diese Gruppe wurde von Johan Oskarsson organisiert, einem Entwickler aus London. Eric Evans, ein Entwickler von Rackspace, schlug den Begriff „NoSQL“ vor. Eigentlich sollte „NoSQL“ nur als eine Art Arbeitstitel dienen, setzte sich aber schnell dauerhaft durch. Mit der explosionsartigen Entstehung neuer 1 Gartner, „Hype Cycle for Big Data, 2013“, 31. Juli 2013. MarkLogic Corporation Die NoSQL-Generation: Das Dokumentenmodell 3 Datenbanken wie Cassandra, MongoDB und CouchDB, die Googles Bigtable und Amazons Dynamo nachfolgten, benötigte der Markt einen Begriff, der diese neuen Technologien beschrieb.2 Ein häufiges Missverständnis ist, dass „NoSQL“ so viel bedeutet wie „Kein SQL“ und dass NoSQL-Datenbanken kein SQL (Structured Query Language) als Abfragesprache verwenden. Viele NoSQL-Datenbanken nutzen jedoch SQL als eine von vielen unterstützten Abfragesprachen. So unterstützt MarkLogic z. B. Java, SQL, XQuery und SPARQL. Daher wird NoSQL gemeinhin als Abkürzung für „Not only SQL“ („nicht nur SQL“) verstanden. Obwohl der Begriff „NoSQL“ besser beschreibt, was er nicht ist (anstatt was er ist), stellt er dennoch eine passende Beschreibung für viele Datenbanken dar, die optimal für die Lösung moderner Datenprobleme geeignet sind. Die verschiedenen Arten der NoSQL-Datenbanken NoSQL-Datenbanken sind sehr gut für die Handhabung des hohen Volumens, der Vielfalt und der Geschwindigkeit von Big Data geeignet. Die Handhabung dieser drei Faktoren ist allerdings je nach dem verwendeten Datenmodell sehr unterschiedlich. Darum werden NoSQL-Datenbanken gemäß ihrem Datenmodell in Dokumenten-, Key-Value-, spaltenorientierte und Graphdatenbanken unterteilt. MarkLogic ist eine Dokumentendatenbank, die jedoch auch RDF-Tripel speichern kann (diese Funktion wird als „Semantik“ bezeichnet) und daher Merkmale einer Graphdatenbank aufweist. Dokumentendatenbanken Dokumentendatenbanken werden auch als „dokumentenorientierte Datenbanken“ bezeichnet und verwenden Dokumente als Grundeinheit für Speicherung und Abfragen. Der Begriff „Dokument“ bezeichnet hier nicht unbedingt ein PDF- oder Microsoft Word-Dokument, es kann sich auch um einen einzelnen XML- oder JSON-Block handeln. Abbildung 1: MarkLogic ist eine Dokumentendatenbank, die XML, JSON, Text und große Binärdateien wie PDF- und Microsoft Office-Dokumente speichern kann. 2 Fowler, Martin, NoSQL Distilled. Pearson Education, Inc., 2013. MarkLogic Corporation Die NoSQL-Generation: Das Dokumentenmodell 4 Ein XML-Dokument erfordert keine vordefinierten Felder und kann auch verschachtelte Daten speichern, häufig in einer baumartigen Struktur, die für Abfragen geeignet ist. Dokumentendatenbanken sind ideal für das Speichern großer Mengen an Textinformationen wie Bücher oder andere Schriften, können aber auch zur Speicherung zahlreicher anderer Informationsarten wie Finanzdaten, Krankenakten oder Metadaten eingesetzt werden. Anders gesagt, könnte ein Dokument also alle Informationen enthalten, die in der Zeile einer relationalen Tabelle enthalten sind. Aufgrund ihrer Flexibilität sind Dokumentendatenbanken die beliebtesten NoSQL-Datenbanken. Key-Value-Datenbanken Key-Value-Datenbanken weisen das einfachste Datenmodell aller NoSQL-Datenbanken auf – sie verwenden einen durchsuchbaren Indexschlüssel, der mit einem Wert verknüpft ist. Relationale Key-Value-Datenbanken gibt es bereits seit vielen Jahren, doch die neueren Key-Value-Datenbanken fallen unter die NoSQL-Kategorie, weil sie speziell im Hinblick auf Geschwindigkeit und Skalierbarkeit entwickelt wurden, was zulasten der Funktionsvielfalt geht. So gibt es z. B. generell keine Alternativschlüssel und keine Fremdschlüssel, kein implizites Ordnen und keine Textsuchfunktionen zu den Werten. Diese Datenbanken werden häufig für das Caching von Websitebesuchen verwendet, und eine der bekanntesten Key-Value-Datenbanken, „memcache“, wurde nach diesem Zweck benannt. Zu den weiteren Nutzungsmöglichkeiten gehören das Speichern der Benutzereinstellungen in einer Anwendung oder großer nicht-transaktionaler Datenströme. Spaltenorientierte Datenbanken Eine spaltenorientierte Datenbank ist theoretisch mit einer Tabelle in einer relationalen Datenbank vergleichbar, ist jedoch auf zig Milliarden Zeilen skalierbar, wobei jede Zeile eine beliebige Anzahl an Spalten aufweisen kann. Jede sogenannte „Spaltenfamilie“, die mit einer Zeile verbunden ist, besteht aus einem Schlüssel-Wert-Paar (einem Spaltenschlüssel und einem Schlüsselwert). Spaltenfamilien wurden nach der Veröffentlichung des Bigtable Paper von Google bekannt, und diese Bekanntheit wurde durch die Beliebtheit von Cassandra und HBase noch gesteigert. Spaltenorientierte Datenbanken kommen vor allem bei der Überwachung von Anwendungsereignissen, in Content-Management-Systemen und bei BlogPlattformen zum Einsatz. Sie sind allerdings nicht die beste Wahl, wenn es um ACID-Transaktionen oder um komplexe und wechselnde Abfragen geht. Abbildung 2: Spaltenorientierte Datenbanken wie Cassandra ordnen Daten nach einem Zeilenschlüssel, der mit beliebig vielen Spalten verknüpft ist. MarkLogic Corporation Die NoSQL-Generation: Das Dokumentenmodell 5 Graphdatenbanken Bei Graphdatenbanken stehen die Beziehungen zwischen den Daten im Mittelpunkt. Daher werden Graphdaten auch als „Linked Data“ (verknüpfte Daten) bezeichnet. Datenpunkte werden als „Knoten“ bezeichnet, und die Beziehungen zwischen den Datenpunkten heißen „Edges“. Aufgrund dieser Beziehungen sind Graphdatenbanken ideal für Social-Media-Websites wie LinkedIn, Facebook oder Twitter, wo Fragen zum „Grad der Trennung“ zwischen Personen gestellt werden. Eine Methode zur Speicherung von Linked Data beruht auf einer bestimmten Art von Graphdatenbank, die als „RDFTripel-Datenbank“ bezeichnet wird. RDF steht für „Resource Description Framework“, und ein Tripel ist eine Kombination aus Subjekt, Prädikat und Objekt – z. B. „Karl [Subjekt] kennt [Prädikat] Shakespeare [Objekt].” Es gibt jedoch einige kleine, aber feine Unterschiede zwischen RDF-Tripel-Datenbanken und Mehrzweck-Graphdatenbanken. Graphdatenbanken RDF-Tripel-Datenbanken Beispiele Neo4j, Titan, OrientDB MarkLogic, AllegroGraph, Sesame Arten der gespeicherten Daten Unbenannte Graphe, Graphe ohne Ausrichtung, gewichtete Graphe, Hypergraphe RDF-Tripel Abfragesprache(n) Cypher, G, GraphLog, GOOD, SoSQL, BiQL, SNQL u. v. a. m. SPARQL Weitere Attribute Optimiert für Graphentraversierung Graphentraversierung kann langsam sein Keine Schlussfolgerungen möglich (d. h. kein Schlussfolgern neuer Tripel auf der Grundlage vorhandener Daten) Schlussfolgerungen möglich (Beispiel: Wenn Menschen eine Unterklasse von Säugetieren darstellen und ein Mann eine Unterklasse von Menschen ist, kann geschlussfolgert werden, dass ein Mann eine Unterklasse von Säugetieren darstellt.) MarkLogic weist Funktionen des semantischen Web sowie Merkmale einer Graphdatenbank auf, weil diese Lösung RDF-Tripel speichern und sie mit SPARQL abfragen kann. Das folgende Beispiel zeigt, wie MarkLogic Semantik für die Erstellung einer interaktiven Visualisierung verwendet werden kann – eine Funktion, die durch Linked Data ermöglicht wird. Abbildung 3: GoldmineR ist eine von FactGem entwickelte Anwendung, die Semantik von MarkLogic nutzt, um Verbindungen wie Investmentbeziehungen zwischen Risikokapitalgebern darzustellen. MarkLogic Corporation Die NoSQL-Generation: Das Dokumentenmodell 6 Das Dokumentenmodell Dokumentendatenbanken sind die beliebtesten NoSQL-Datenbanken, weil sie leistungsstark und flexibel genug sind, um als Mehrzweck-Datenbank zu fungieren. MarkLogic weist zwar einige Funktionen einer Graphdatenbank auf, ist aber im Prinzip eine Dokumentendatenbank. Dieser Ansatz hat sich bewährt, weil es wesentlich einfacher ist, eine Dokumentendatenbank durch Graph-Funktionen zu erweitern als umgekehrt. Im Folgenden werden die fünf Hauptargumente für die Einführung des Dokumentenmodells von MarkLogic genannt. Eine logischere und „menschlichere“ Struktur Der Mensch gliedert Informationen naturgemäß anhand von Hierarchien und Gruppierungen – was der Struktur von Dokumenten entspricht. Dies wird sogar in Branchen wie dem Finanzsektor oder dem Gesundheitswesen deutlich, von denen man annehmen könnte, dass ihre Daten immer strukturiert sind. Daten zu Derivategeschäften und Gesundheitsdaten lassen sich problemlos als Dokumente modellieren. Dennoch versucht man seit Jahren, diese Daten in relationale Schemas zu bringen, auf die sich nie alle Beteiligten einigen können. Das Dokumentenmodell erleichtert das Verständnis der Daten aus einer menschlichen Perspektive, und MarkLogic sorgt dafür, dass sie auch für den Computer leicht verständlich sind. Weitere Informationen zum neuen MarkLogic Ansatz der Datenmodellierung erhalten Sie in der Präsentation Data Modeling in NoSQL with XML, RDF, and JSON (Datenmodellierung in NoSQL mit XML, RDF und JSON). Schema-agnostisch und strukturbewusst Dokumentendatenbanken sind Schema-agnostisch, können bei Bedarf jedoch ein Schema erzwingen, weil sie auch strukturbewusst sind. Investmentbanken müssen bei der Verarbeitung von Finanztransaktionen immer wieder Schemas erzwingen. Wenn die Bank solch ein Schema später jedoch ändern muss, kann diese Änderung relativ schnell vorgenommen werden. Dieser Ansatz – Verwendung von Schemas nach Bedarf – stellt einen großen Unterschied zum relationalen Ansatz dar, bei dem die Änderung eines Schemas mehrere Monate in Anspruch nehmen kann. Beim Laden von Daten muss im Vorfeld nicht viel über die Daten bekannt sein. So ist es zwar hilfreich, wenn man weiß, wie die Abfragen strukturiert werden sollen, weil dies die primären IDs der Dokumentengruppen beeinflussen kann, aber dieses Wissen ist nicht unbedingt erforderlich. Mit MarkLogic werden die Daten indexiert und können unabhängig vom Schema unmittelbar nach dem Import abgefragt werden. Sämtliche Daten innerhalb eines Dokuments sind eigenständig und damit unabhängig von Daten aus anderen Dokumenten innerhalb der Datenbank. Das bedeutet, dass weder Fremdschlüssel noch eine Normalisierung erforderlich sind. Da alle Dokumente eigenständig sind, lassen sich Daten mühelos auf mehrere Cluster verteilen, was wiederum die Einrichtung von Clustern und die Skalierung von Dokumentendatenbanken vereinfacht. Mit MarkLogic sind Sie in der Lage, einen Cluster in der Cloud innerhalb von Minuten zu erstellen oder zu entfernen. MarkLogic Corporation Die NoSQL-Generation: Das Dokumentenmodell 7 Außerdem verbessert das Dokumentenmodell die Systemleistung, weil eine Gruppe von Dokumenten als fortlaufender Inhalt für Abfragen auf der Festplatte dargestellt werden kann. Weitere Informationen darüber, wie MarkLogic mit Legacy-Schemas für Investmentbanken umgeht, erhalten Sie in der Präsentation Schema on Read in Financial Services („Schema on Read“ für Finanzdienstleister). Einfache Anwendungsentwicklung Es überrascht nicht, dass in den meisten IT-Abteilungen Entwickler die absoluten NoSQL-Verfechter sind, denn NoSQL macht ihnen das Leben leichter. Der größte Vorteil besteht in der Zeitersparnis, die dadurch erzielt wird, dass unstrukturierte Daten nicht relational modelliert und komplex strukturierte Daten nicht aggregiert werden müssen. Vor allem das Dokumentenmodell spart Zeit, weil die Daten häufig bereits in einem Dokumentenformat wie XML oder JSON vorliegen. Founder's Online, eine Anwendung, die von der University of Virginia Press in Zusammenarbeit mit dem USamerikanischen Staatsarchiv entwickelt wurde, enthält z. B. annähernd 150.000 durchsuchbare Dokumente, die mit XML markiert und anschließend in MarkLogic geladen wurden. Diese Anwendung wurde von zwei Entwicklern in wenigen Monaten erstellt und zeichnet sich durch eine hohe Skalierbarkeit mit Antwortzeiten von 120 ms bei 5.000 gleichzeitigen Benutzerzugriffen aus.3 Abbildung 4: Founder's Online, eine leistungsstarke Suchanwendung von zwei Entwicklern Entwickler bevorzugen das Dokumentenmodell, weil es mit den bei Entwicklern besonders beliebten Sprachen PHP, Ruby und JavaScript kompatibel ist, die in erster Linie objektbasiert sind. Diese Sprachen erleichtern die Darstellung des Dokuments als Objekt. Wenn Dokumente nativ als JSON in der Datenbank gespeichert werden, sind JavaScript und JSON in der Datenbank, auf dem Server und auf dem Front-End-Client einsetzbar. Die Daten müssen also nicht transformiert werden, um sie zwischen verschiedenen Tiers verschieben zu können. So werden die ServerAuslastung reduziert und die Entwicklung vereinfacht. Darüber hinaus profitieren Sie von höherer Flexibilität, weil die Anwendungs- und Geschäftslogik auf jedem beliebigen Tier abgelegt werden kann. Im Falle eines Fehlers sind die Kosten einer nachträglichen Änderung minimal. 3 Weitere Informationen erhalten Sie in der Präsentation Planning For Growth With and Without Performance Metering (Wachstumsplanung mit und ohne Leistungsmessung) von David Sewell, Editorial and Technical Manager der University of Virginia Press. MarkLogic Corporation Die NoSQL-Generation: Das Dokumentenmodell 8 Informationen zur schnellen Anwendungsentwicklung am Beispiel eines Unternehmens erhalten Sie in der Präsentation Building Applications on MarkLogic Fast and Easy (Schnelle und einfache Anwendungsentwicklung mit MarkLogic). Erweiterte Suche Ein Nachteil von stark vereinfachten NoSQL-Datenbanken wie Key-Value-Datenbanken besteht darin, dass Abfragen in der Regel nur für den Primärschlüssel gelten. In einer Dokumentendatenbank gelten Abfragen für sämtliche Daten einschließlich der Dokumenten-ID und der Inhalte der Dokumente. Dokumentendatenbanken können sich zur Unterstützung der Suche auch auf Indexe stützen. MarkLogic verfügt über fast 30 verschiedene Indexe, die sich aktivieren und deaktivieren lassen, um möglichst detaillierte und anpassbare Suchvorgänge zu ermöglichen, einschließlich facettierter Suchen und Echtzeit-Benachrichtigungen. Diese Suchfunktionen waren von Anfang an in MarkLogic integriert, denn der Gründer von MarkLogic verfügt über langjährige Erfahrungen auf diesem Gebiet: Christopher Lindblad war der Architekt von Ultraseek Server. MarkLogic unterstützt zudem viele weitere Suchfunktionen wie Wort- und Phrasensuche, Boolesche Suche, Näherung, Platzhalter, automatische Zurückführung eines Wortes auf den Wortstamm (Stemming), Tokenisierung, Zerlegung von Komposita, Unterscheidung nach Groß-/Kleinschreibung, Interpunktion, diakritische Zeichen, Einstellungen zur Dokumentenqualität, verschiedene Relevanzalgorithmen, individuelle Begriffsgewichtung, Themengruppierung, facettierte Navigation und Benutzer-indexierte Felder. Diese zahlreichen Funktionen werden durch die Nutzung des Dokumentenmodells in MarkLogic ermöglicht, aber nur MarkLogic verfügt über eine integrierte Suche. Andere Dokumentendatenbanken sind im Hinblick auf Suchfunktionen von externen Technologien wie Lucene oder Solr abhängig, was zu einer höheren Komplexität führt. Ein weiteres Unterscheidungsmerkmal besteht darin, dass Dokumente in MarkLogic unmittelbar nach dem Laden durchsucht werden können, wenn ihre Inhalte indexiert sind. Weitere Informationen darüber, wie MarkLogic die Datenbanksuche revolutioniert, erhalten Sie in der Präsentation Search, Relevance, and Context: Getting the Most out of MarkLogic Search (Suche, Relevanz und Kontext: Optimale Nutzung von MarkLogic Search). Riesenvielfalt möglicher Anwendungsbereiche Unternehmensgerechte Datenbanken, die auf dem Dokumentenmodell basieren, sind flexibel und leistungsstark genug, um als Mehrzweck-Datenbanken für vielfältige Anwendungsfälle zu fungieren. MarkLogic ist die perfekte Lösung, wenn es darum geht, Datensilos zu beseitigen, Suchen und Analysen über eine einzige Plattform abzuwickeln, Speicherkosten zu senken, Daten besser zu sichern oder Anwendungen schneller zu entwickeln. Dies gilt für fast jede Branche, von Medien und Verlagswesen über Finanzdienstleistungen bis hin zum Gesundheitswesen: MarkLogic Corporation Die NoSQL-Generation: Das Dokumentenmodell 9 • Medien und Verlagswesen: Diese Branche war die erste, die Dokumentendatenbanken eingeführt hat. Ein großer Verlag, LexisNexis, war der erste MarkLogic Kunde und setzt MarkLogic auch heute noch ein. Ein weiterer Verlag, Wiley, hat mithilfe von MarkLogic 4 Millionen Artikel, 9.000 Bücher und Tausende von Nachschlagewerken konsolidiert. Damit konnte der Verlag die Nutzung seines Angebots um 50 Prozent erhöhen und nach einigen strategischen Übernahmen von Inhaltsbibliotheken das neue Material schnell integrieren und gewinnbringend anbieten. • Finanzdienstleister: Investmentbanken benötigen zuverlässige Governance-Richtlinien und müssen in der Lage sein, schnell auf Anfragen von Regulierungsbehörden zu reagieren. Eine führende Bank hatte Probleme bei der Erstellung von Risikoprofilen und Nachhandelsberichten, weil ihre verteilten, heterogenen Datenquellen in Legacy-Mainframes und Sybase-Datenbanken abgelegt waren. Mit MarkLogic konnte die Bank diese Daten jedoch in einem zentralen System zusammenführen und war dadurch in der Lage, Millionenbeträge an IT-Kosten einzusparen und schneller auf Anfragen der Regulierungsbehörden zu reagieren. • Gesundheitswesen: Das Gesundheitswesen ist ebenfalls eine stark regulierte Branche, die sich schwertut, ihre Datenvielfalt zu verwalten, und die mit schrumpfenden Margen und behördlicher Beaufsichtigung zu kämpfen hat. Ein MarkLogic Kunde, Zynx Health, bietet im Verbund mit mehreren Krankenhäusern in den USA personalisierte Versorgungspläne an. Obwohl die Partnerschaft mit über 2.000 Krankenhäusern eine große Herausforderung darstellte, konnte Zynx Health in weniger als einem Jahr eine Anwendung entwickeln, die heute von all diesen Krankenhäusern genutzt wird, um die Qualität ihrer Versorgung zu verbessern. • Behörden: Behörden lieben Dokumente. Wenn die Budgets jedoch eng sind und bestimmte Dienste online angeboten werden sollen, stehen Behörden vor der Herausforderung, fristgerecht und effizient Anwendungen entwickeln zu müssen. Darüber hinaus wollen sie kein komplett neues System aufbauen oder ihre Daten für jede neue Anwendung immer wieder replizieren – und natürlich unterliegen sie strengsten Auflagen zum Datenschutz. MarkLogic hat US-Behörden wie die Bundesluftfahrtbehörde (FAA), die Centers for Medicare and Medicaid Services (CMS), die Arzneimittelzulassungs- und Lebensmittelüberwachungsbehörde (FDA) und das Verteidigungsministerium (DoD) sowie Nachrichtendienste bei der Bewältigung dieser Herausforderungen unterstützt. Während relationale Datenbanken und andere Arten von NoSQL-Datenbanken auch weiterhin für bestimmte Zwecke eingesetzt werden, kommen Dokumentendatenbanken wie MarkLogic bei der Lösung der dringlichsten Big DataProbleme zum Einsatz, denen sich Organisationen heutzutage gegenübersehen. Weitere Informationen zu den zahlreichen Einsatzmöglichkeiten von MarkLogic erhalten Sie in der Präsentation Reimagine: Data, Applications and MarkLogic (Neue Möglichkeiten: Daten und Anwendungen und MarkLogic). MarkLogic Corporation Die NoSQL-Generation: Das Dokumentenmodell 10 Die Definition von Enterprise NoSQL Es ist eine weitverbreitete Fehlannahme, dass NoSQL-Datenbanken nicht für „seriöse“ Anwendungsbereiche geeignet sind, sondern nur für Neuunternehmen oder als Aufbewahrungsort für nicht betriebskritische Daten. Die oben genannten Beispiele zeigen jedoch, dass dies nicht mehr der Wahrheit entspricht. „Enterprise NoSQL“ bezeichnet eine Datenbank, die wie alle anderen NoSQL-Lösungen das hohe Volumen, die Vielfalt und die Geschwindigkeit heutiger Daten bewältigen kann und darüber hinaus mit den Funktionen ausgestattet ist, um das Herzstück eines Unternehmens zu bilden. Eine NoSQL-Lösung ist erst dann „unternehmensgerecht“, wenn sie die folgenden Funktionen aufweist, und sollte andernfalls nicht für betriebskritische Anwendungen eingesetzt werden: • ACID-Transaktionen: ACID-Transaktionen kommen nicht nur im Bankwesen zum Einsatz. Ohne ACIDTransaktionen (Atomarität, Konsistenz, Isolation, Dauerhaftigkeit) steigt die Gefahr des Datenverlusts. Und wenn es zu einem Netzwerkausfall kommt, kann dies katastrophale Folgen für die Datenbank haben. Unternehmen müssen in der Lage sein, Transaktionen auszuführen, die aus mehreren Datensätzen bestehen, und detaillierte Abfragen mit mehreren Begriffen vorzunehmen – zusätzliche Funktionen, die durch ACID-Transaktionen bereitgestellt werden. • Hochverfügbarkeit und Disaster Recovery: Unternehmen sollten nicht dazu gezwungen sein, komplett neue Verfahren und Governance-Strukturen zu implementieren, um Daten in einer NoSQLDatenbank zu verwalten. Für die Disaster Recovery benötigen sie Hochverfügbarkeit mit automatischem Failover auf lokale Festplatten, zeitgenauer Wiederherstellung und asynchroner Replikation über verschiedene Rechenzentren hinweg. All diese Funktionen sind erforderlich, um zu verhindern, dass Daten verlorengehen und die Datenbank neu aufgebaut werden muss, falls es zu einem Ausfall des Rechenzentrums kommt. • Hochsicherheit: Nicht nur bei Behörden spielt Sicherheit eine zentrale Rolle. Das Risiko, das mit nicht gesicherten Daten einhergeht, ist ganz einfach zu hoch – daher werden die Investitionen in die ITSicherheit laut Gartner bis zum Jahr 2017 um etwa 39 Prozent auf 93 Mrd. US-Dollar steigen. Für Hochsicherheit bürgt eine Zertifizierung der National Information Assurance Partnership (NIAP) im Rahmen des Common Criteria Evaluation and Validation Scheme (CCEVS) für die Unterstützung der Hauptsicherheitsfunktionen wie Audits, Schutz von Benutzerdaten, Sicherheitsmanagement, Datenschutz, TOE-Zugriff (Target of Evaluation, Evaluierungsgegenstand) sowie Identifizierung und Authentifizierung (mit Drittanbieter-Support für LDAP und Kerberos). • Elastizität und Skalierbarkeit: Unternehmen sollten in der Lage sein, Aufwärts- oder Abwärtsskalierungen innerhalb von Minuten vorzunehmen, um den anfallenden Datenmengen und Zugriffsanforderungen gerecht zu werden sowie Over-Provisioning und unnötige Ausgaben zu vermeiden. Dies muss ohne Ausfallzeiten, ohne Inkonsistenzen und ohne Risiko eines Datenverlusts geschehen. Die Datenbank sollte problemlos auf Amazon Web Services oder anderen Cloud-Anbietern laufen, gleichzeitig aber flexibel genug sein, um in anderen virtualisierten Umgebungen oder vor Ort installiert werden zu können. MarkLogic Corporation Die NoSQL-Generation: Das Dokumentenmodell 11 • Überwachungs- und Leistungstools: Ausgereifte Überwachungs- und Verwaltungstools sorgen dafür, dass sowohl die Entwickler als auch die IT-Mitarbeiter mit der Wahl der Plattform zufrieden sind. Unternehmen benötigen Tools für den automatischen Lastenausgleich und die Cluster-Überwachung sowie funktionsreiche APIs für Verwaltung, Prozessautomatisierung, Zugriffssteuerung, Datenbank-Klonung und Audit-Trails. Außerdem brauchen sie sofort einsatzbereite Schnittstellen mit Tools wie Nagios oder HP OpenView. MarkLogic enthält all diese Funktionen seit jeher und wird auch in Zukunft auf die Entwicklung von Unternehmensfunktionen setzen, die keine andere NoSQL-Lösung vorweisen kann. Weitere Ressourcen finden Sie online unter MarkLogic.com. Ausführlichere Informationen enthält das Whitepaper Inside MarkLogic (Überblick über MarkLogic). Wenn Sie Fragen zur Implementierung von MarkLogic in Ihrem Unternehmen haben, rufen Sie uns unter +1 877 992 8885 an oder kontaktieren Sie einen Vertriebsmitarbeiter per E-Mail an [email protected]. MarkLogic Corporation Die NoSQL-Generation: Das Dokumentenmodell 12 Über MarkLogic MarkLogic stellt seinen Kunden seit über einem Jahrzehnt eine leistungsstarke, flexible und bewährte Enterprise NoSQL-Datenbank-Plattform bereit, die Unternehmensdaten in wertvolle und praktisch anwendbare Informationen verwandelt. Unternehmen auf der ganzen Welt verlassen sich bei Datenanwendungen der neuen Generation auf die hochsichere Technologie von MarkLogic. MarkLogic hat seinen Hauptsitz im Silicon Valley und betreibt Niederlassungen in New York, Chicago, Washington D.C., London, Frankfurt, Paris, München, Stockholm, Utrecht, Singapur und Tokio. Weitere Informationen finden Sie auf www.marklogic.com. © 2014 MarkLogic Corporation. Alle Rechte vorbehalten. Diese Technologie ist durch die US-amerikanischen Patente Nr. 7,127,469 B2, Nr. 7,171,404 B2, Nr. 7,756,858 B2 und Nr. 7,962,474 B2 geschützt. MarkLogic ist eine Marke oder eingetragene Marke der MarkLogic Corporation in den USA und/oder anderen Ländern. Alle anderen genannten Marken sind Eigentum ihrer jeweiligen Inhaber. [SS-MLIH-13-06] Skyper Villa, Taunusanlage 1, Frankfurt 60329, Germany Theatinerstr. 11, 8. Etage, Munich 80333, Germany › DE: +49-69-50 50 60588 › INT.: +1 877 992 8885 › [email protected] › [email protected] › www.marklogic.com