Die NoSQL-Generation: Das Dokumentenmodell - MarkLogic

Transcription

Die NoSQL-Generation:Das DokumentenmodellMai 2014

InhaltEinleitung 3Die Geschichte von „NoSQL“ 3Die verschiedenen Arten der NoSQL-Datenbanken 4Das Dokumentenmodell 7Die Definition von Enterprise NoSQL 11

EinleitungNoSQL-Datenbanken stellen eine neue Generation von Datenbanken dar, die äußerst erfolgreich sind, weil sie dieHerausforderungen im Hinblick auf das Volumen, die Vielfalt und die Geschwindigkeit von Big Data bewältigen.NoSQL (Not only SQL nicht nur SQL) steht für eine grundlegend neue Denkweise bezüglich der Art und Weise, wieDaten gespeichert und verwaltet werden. Diese neue Denkweise widerspricht dem Ansatz der relationalenDatenbanken, der für Oracle Database 12c, Oracle MySQL, Microsoft SQL Server, IBM DB2, Postgres u. v. a.verwendet wird. 1Der Begriff „NoSQL“ beschreibt eine Vielzahl neuer Datenbanken, die sich in vier Hauptkategorien unterteilen lassen:Dokumenten-, Key-Value-, spaltenorientierte und Graphdatenbanken. Die Dokumentendatenbanken stellen dabei diebesten Mehrzweck-Datenbanken dar. Dokumentendatenbanken verfolgen einen logischeren, „menschlicheren“Ansatz der Datenmodellierung. Sie sind in der Regel sehr flexibel und benutzerfreundlich und daher am beliebtesten.Von den Dokumentendatenbanken unterscheidet sich MarkLogic als „Enterprise NoSQL“-Datenbank, weil es sichhierbei um eine NoSQL-Datenbank mit allen wichtigen Merkmalen handelt, die Unternehmen für die Ausführungbetriebskritischer Anwendungen benötigen. Dazu gehören ACID-Transaktionen, Hochverfügbarkeit, DisasterRecovery, Hochsicherheit, Elastizität und Skalierbarkeit sowie Tools zur Leistungsüberwachung. Mit MarkLogickönnen Unternehmen das Dokumentenmodell einführen und sicher in das nächste Zeitalter der Datenbankeneintreten.Die Geschichte von „NoSQL“MarkLogic hat sich mittlerweile einen Namen als Enterprise NoSQL-Datenbank gemacht, war ursprünglich jedochaufgrund ihrer Fähigkeit bekannt, XML zu speichern und zu durchsuchen. Bei den Patenten von 2002 ging es umeine neue Methode zum Speichern von Daten mithilfe der XML-Baumstruktur und zum Abfragen dieser Daten. DiesePatente wurden vom MarkLogic Gründer Christopher Lindblad angemeldet, lange bevor der Begriff „NoSQL“ geprägtwurde. Seitdem verwendet MarkLogic diesen Begriff mit dem Zusatz „Enterprise“ oder „unternehmenserprobt“, umihn von den zahlreichen neuen Datenbanken zu unterscheiden, die seitdem entwickelt wurden, aber noch keineunternehmenskritische Funktionen umfassen.Der Begriff „NoSQL“ ist erst seit 2009 in Gebrauch. Er wurde ursprünglich als Twitter-Hashtag verwendet, um füreine Gruppe zu werben, die sich in San Francisco zusammenfand, um sich mit neuen Datenbanktechnologienauseinanderzusetzen. Diese Gruppe wurde von Johan Oskarsson organisiert, einem Entwickler aus London. EricEvans, ein Entwickler von Rackspace, schlug den Begriff „NoSQL“ vor. Eigentlich sollte „NoSQL“ nur als eine ArtArbeitstitel dienen, setzte sich aber schnell dauerhaft durch. Mit der explosionsartigen Entstehung neuer1Gartner, „Hype Cycle for Big Data, 2013“, 31. Juli 2013.MarkLogic CorporationDie NoSQL-Generation: Das Dokumentenmodell3

Datenbanken wie Cassandra, MongoDB und CouchDB, die Googles Bigtable und Amazons Dynamo nachfolgten,benötigte der Markt einen Begriff, der diese neuen Technologien beschrieb.2Ein häufiges Missverständnis ist, dass „NoSQL“ so viel bedeutet wie „Kein SQL“ und dass NoSQL-Datenbanken keinSQL (Structured Query Language) als Abfragesprache verwenden. Viele NoSQL-Datenbanken nutzen jedoch SQL alseine von vielen unterstützten Abfragesprachen. So unterstützt MarkLogic z. B. Java, SQL, XQuery und SPARQL.Daher wird NoSQL gemeinhin als Abkürzung für „Not only SQL“ („nicht nur SQL“) verstanden. Obwohl der Begriff„NoSQL“ besser beschreibt, was er nicht ist (anstatt was er ist), stellt er dennoch eine passende Beschreibung fürviele Datenbanken dar, die optimal für die Lösung moderner Datenprobleme geeignet sind.Die verschiedenen Arten der NoSQL-DatenbankenNoSQL-Datenbanken sind sehr gut für die Handhabung des hohen Volumens, der Vielfalt und der Geschwindigkeitvon Big Data geeignet. Die Handhabung dieser drei Faktoren ist allerdings je nach dem verwendeten Datenmodellsehr unterschiedlich. Darum werden NoSQL-Datenbanken gemäß ihrem Datenmodell in Dokumenten-, Key-Value-,spaltenorientierte und Graphdatenbanken unterteilt. MarkLogic ist eine Dokumentendatenbank, die jedoch auchRDF-Tripel speichern kann (diese Funktion wird als „Semantik“ bezeichnet) und daher Merkmale einerGraphdatenbank n werden auch als „dokumentenorientierte Datenbanken“ bezeichnet und verwendenDokumente als Grundeinheit für Speicherung und Abfragen. Der Begriff „Dokument“ bezeichnet hier nicht unbedingtein PDF- oder Microsoft Word-Dokument, es kann sich auch um einen einzelnen XML- oder JSON-Block handeln.Abbildung 1: MarkLogic ist eine Dokumentendatenbank, die XML, JSON, Text und großeBinärdateien wie PDF- und Microsoft Office-Dokumente speichern kann.2Fowler, Martin, NoSQL Distilled. Pearson Education, Inc., 2013.MarkLogic CorporationDie NoSQL-Generation: Das Dokumentenmodell4

Ein XML-Dokument erfordert keine vordefinierten Felder und kann auch verschachtelte Daten speichern, häufig ineiner baumartigen Struktur, die für Abfragen geeignet ist. Dokumentendatenbanken sind ideal für das Speicherngroßer Mengen an Textinformationen wie Bücher oder andere Schriften, können aber auch zur Speicherungzahlreicher anderer Informationsarten wie Finanzdaten, Krankenakten oder Metadaten eingesetzt werden. Andersgesagt, könnte ein Dokument also alle Informationen enthalten, die in der Zeile einer relationalen Tabelle enthaltensind. Aufgrund ihrer Flexibilität sind Dokumentendatenbanken die beliebtesten atenbanken weisen das einfachste Datenmodell aller NoSQL-Datenbanken auf – sie verwenden einendurchsuchbaren Indexschlüssel, der mit einem Wert verknüpft ist. Relationale Key-Value-Datenbanken gibt es bereitsseit vielen Jahren, doch die neueren Key-Value-Datenbanken fallen unter die NoSQL-Kategorie, weil sie speziell imHinblick auf Geschwindigkeit und Skalierbarkeit entwickelt wurden, was zulasten der Funktionsvielfalt geht. So gibt esz. B. generell keine Alternativschlüssel und keine Fremdschlüssel, kein implizites Ordnen und keineTextsuchfunktionen zu den Werten. Diese Datenbanken werden häufig für das Caching von Websitebesuchenverwendet, und eine der bekanntesten Key-Value-Datenbanken, „memcache“, wurde nach diesem Zweck benannt.Zu den weiteren Nutzungsmöglichkeiten gehören das Speichern der Benutzereinstellungen in einer Anwendung odergroßer nicht-transaktionaler Datenströme.Spaltenorientierte DatenbankenEine spaltenorientierte Datenbank ist theoretisch mit einer Tabelle in einer relationalen Datenbank vergleichbar, istjedoch auf zig Milliarden Zeilen skalierbar, wobei jede Zeile eine beliebige Anzahl an Spalten aufweisen kann. Jedesogenannte „Spaltenfamilie“, die mit einer Zeile verbunden ist, besteht aus einem Schlüssel-Wert-Paar (einemSpaltenschlüssel und einem Schlüsselwert).Spaltenfamilien wurden nach der Veröffentlichung des Bigtable Paper von Google bekannt, und diese Bekanntheitwurde durch die Beliebtheit von Cassandra und HBase noch gesteigert. Spaltenorientierte Datenbanken kommen vorallem bei der Überwachung von Anwendungsereignissen, in Content-Management-Systemen und bei BlogPlattformen zum Einsatz. Sie sind allerdings nicht die beste Wahl, wenn es um ACID-Transaktionen oder umkomplexe und wechselnde Abfragen geht.Abbildung 2: Spaltenorientierte Datenbanken wie Cassandra ordnen Daten nach einemZeilenschlüssel, der mit beliebig vielen Spalten verknüpft ist.MarkLogic CorporationDie NoSQL-Generation: Das Dokumentenmodell5

GraphdatenbankenBei Graphdatenbanken stehen die Beziehungen zwischen den Daten im Mittelpunkt. Daher werden Graphdaten auchals „Linked Data“ (verknüpfte Daten) bezeichnet. Datenpunkte werden als „Knoten“ bezeichnet, und dieBeziehungen zwischen den Datenpunkten heißen „Edges“. Aufgrund dieser Beziehungen sind Graphdatenbankenideal für Social-Media-Websites wie LinkedIn, Facebook oder Twitter, wo Fragen zum „Grad der Trennung“ zwischenPersonen gestellt werden.Eine Methode zur Speicherung von Linked Data beruht auf einer bestimmten Art von Graphdatenbank, die als „RDFTripel-Datenbank“ bezeichnet wird. RDF steht für „Resource Description Framework“, und ein Tripel ist eineKombination aus Subjekt, Prädikat und Objekt – z. B. „Karl [Subjekt] kennt [Prädikat] Shakespeare [Objekt].” Es gibtjedoch einige kleine, aber feine Unterschiede zwischen RDF-Tripel-Datenbanken und pel-DatenbankenBeispieleNeo4j, Titan, OrientDBMarkLogic, AllegroGraph, SesameArten der gespeichertenDatenUnbenannte Graphe, Graphe ohne Ausrichtung,gewichtete Graphe, HypergrapheRDF-TripelAbfragesprache(n)Cypher, G, GraphLog, GOOD, SoSQL, BiQL, SNQLu. v. a. m.SPARQLWeitere AttributeOptimiert für GraphentraversierungGraphentraversierung kann langsam seinKeine Schlussfolgerungen möglich (d. h. keinSchlussfolgern neuer Tripel auf der Grundlagevorhandener Daten)Schlussfolgerungen möglich (Beispiel: Wenn Menschen eineUnterklasse von Säugetieren darstellen und ein Mann eineUnterklasse von Menschen ist, kann geschlussfolgert werden,dass ein Mann eine Unterklasse von Säugetieren darstellt.)MarkLogic weist Funktionen des semantischen Web sowie Merkmale einer Graphdatenbank auf, weil diese LösungRDF-Tripel speichern und sie mit SPARQL abfragen kann. Das folgende Beispiel zeigt, wie MarkLogic Semantik für dieErstellung einer interaktiven Visualisierung verwendet werden kann – eine Funktion, die durch Linked Dataermöglicht wird.Abbildung 3: GoldmineR ist eine von FactGem entwickelte Anwendung, die Semantik von MarkLogicnutzt, um Verbindungen wie Investmentbeziehungen zwischen Risikokapitalgebern darzustellen.MarkLogic CorporationDie NoSQL-Generation: Das Dokumentenmodell6

Das DokumentenmodellDokumentendatenbanken sind die beliebtesten NoSQL-Datenbanken, weil sie leistungsstark und flexibel genug sind,um als Mehrzweck-Datenbank zu fungieren. MarkLogic weist zwar einige Funktionen einer Graphdatenbank auf, istaber im Prinzip eine Dokumentendatenbank. Dieser Ansatz hat sich bewährt, weil es wesentlich einfacher ist, eineDokumentendatenbank durch Graph-Funktionen zu erweitern als umgekehrt. Im Folgenden werden die fünfHauptargumente für die Einführung des Dokumentenmodells von MarkLogic genannt.Eine logischere und „menschlichere“ StrukturDer Mensch gliedert Informationen naturgemäß anhand von Hierarchien und Gruppierungen – was der Struktur vonDokumenten entspricht. Dies wird sogar in Branchen wie dem Finanzsektor oder dem Gesundheitswesen deutlich,von denen man annehmen könnte, dass ihre Daten immer strukturiert sind. Daten zu Derivategeschäften undGesundheitsdaten lassen sich problemlos als Dokumente modellieren. Dennoch versucht man seit Jahren, dieseDaten in relationale Schemas zu bringen, auf die sich nie alle Beteiligten einigen können. Das Dokumentenmodellerleichtert das Verständnis der Daten aus einer menschlichen Perspektive, und MarkLogic sorgt dafür, dass sie auchfür den Computer leicht verständlich sind.Weitere Informationen zum neuen MarkLogic Ansatz der Datenmodellierung erhalten Sie in der Präsentation DataModeling in NoSQL with XML, RDF, and JSON (Datenmodellierung in NoSQL mit XML, RDF und JSON).Schema-agnostisch und strukturbewusstDokumentendatenbanken sind Schema-agnostisch, können bei Bedarf jedoch ein Schema erzwingen, weil sie auchstrukturbewusst sind. Investmentbanken müssen bei der Verarbeitung von Finanztransaktionen immer wiederSchemas erzwingen. Wenn die Bank solch ein Schema später jedoch ändern muss, kann diese Änderung relativschnell vorgenommen werden. Dieser Ansatz – Verwendung von Schemas nach Bedarf – stellt einen großenUnterschied zum relationalen Ansatz dar, bei dem die Änderung eines Schemas mehrere Monate in Anspruchnehmen kann.Beim Laden von Daten muss im Vorfeld nicht viel über die Daten bekannt sein. So ist es zwar hilfreich, wenn manweiß, wie die Abfragen strukturiert werden sollen, weil dies die primären IDs der Dokumentengruppen beeinflussenkann, aber dieses Wissen ist nicht unbedingt erforderlich. Mit MarkLogic werden die Daten indexiert und könnenunabhängig vom Schema unmittelbar nach dem Import abgefragt werden.Sämtliche Daten innerhalb eines Dokuments sind eigenständig und damit unabhängig von Daten aus anderenDokumenten innerhalb der Datenbank. Das bedeutet, dass weder Fremdschlüssel noch eine Normalisierungerforderlich sind. Da alle Dokumente eigenständig sind, lassen sich Daten mühelos auf mehrere Cluster verteilen,was wiederum die Einrichtung von Clustern und die Skalierung von Dokumentendatenbanken vereinfacht. MitMarkLogic sind Sie in der Lage, einen Cluster in der Cloud innerhalb von Minuten zu erstellen oder zu entfernen.MarkLogic CorporationDie NoSQL-Generation: Das Dokumentenmodell7

Außerdem verbessert das Dokumentenmodell die Systemleistung, weil eine Gruppe von Dokumenten alsfortlaufender Inhalt für Abfragen auf der Festplatte dargestellt werden kann.Weitere Informationen darüber, wie MarkLogic mit Legacy-Schemas für Investmentbanken umgeht, erhalten Sie inder Präsentation Schema on Read in Financial Services („Schema on Read“ für Finanzdienstleister).Einfache AnwendungsentwicklungEs überrascht nicht, dass in den meisten IT-Abteilungen Entwickler die absoluten NoSQL-Verfechter sind, dennNoSQL macht ihnen das Leben leichter. Der größte Vorteil besteht in der Zeitersparnis, die dadurch erzielt wird, dassunstrukturierte Daten nicht relational modelliert und komplex strukturierte Daten nicht aggregiert werden müssen.Vor allem das Dokumentenmodell spart Zeit, weil die Datenhäufig bereits in einem Dokumentenformat wie XML oderJSON vorliegen.Founder's Online, eine Anwendung, die von der Universityof Virginia Press in Zusammenarbeit mit dem USamerikanischen Staatsarchiv entwickelt wurde, enthält z. B.annähernd 150.000 durchsuchbare Dokumente, die mitXML markiert und anschließend in MarkLogic geladenwurden. Diese Anwendung wurde von zwei Entwicklern inwenigen Monaten erstellt und zeichnet sich durch einehohe Skalierbarkeit mit Antwortzeiten von 120 ms bei5.000 gleichzeitigen Benutzerzugriffen aus.3Abbildung 4: Founder's Online, eineleistungsstarke Suchanwendung von zweiEntwicklernEntwickler bevorzugen das Dokumentenmodell, weil es mit den bei Entwicklern besonders beliebten Sprachen PHP,Ruby und JavaScript kompatibel ist, die in erster Linie objektbasiert sind. Diese Sprachen erleichtern die Darstellungdes Dokuments als Objekt. Wenn Dokumente nativ als JSON in der Datenbank gespeichert werden, sind JavaScriptund JSON in der Datenbank, auf dem Server und auf dem Front-End-Client einsetzbar. Die Daten müssen also nichttransformiert werden, um sie zwischen verschiedenen Tiers verschieben zu können. So werden die ServerAuslastung reduziert und die Entwicklung vereinfacht. Darüber hinaus profitieren Sie von höherer Flexibilität, weil dieAnwendungs- und Geschäftslogik auf jedem beliebigen Tier abgelegt werden kann. Im Falle eines Fehlers sind dieKosten einer nachträglichen Änderung minimal.3Weitere Informationen erhalten Sie in der Präsentation Planning For Growth With and Without Performance Metering(Wachstumsplanung mit und ohne Leistungsmessung) von David Sewell, Editorial and Technical Manager der Universityof Virginia Press.MarkLogic CorporationDie NoSQL-Generation: Das Dokumentenmodell8

Informationen zur schnellen Anwendungsentwicklung am Beispiel eines Unternehmens erhalten Sie in derPräsentation Building Applications on MarkLogic Fast and Easy (Schnelle und einfache Anwendungsentwicklung mitMarkLogic).Erweiterte SucheEin Nachteil von stark vereinfachten NoSQL-Datenbanken wie Key-Value-Datenbanken besteht darin, dass Abfragenin der Regel nur für den Primärschlüssel gelten. In einer Dokumentendatenbank gelten Abfragen für sämtliche Dateneinschließlich der Dokumenten-ID und der Inhalte der Dokumente. Dokumentendatenbanken können sich zurUnterstützung der Suche auch auf Indexe stützen. MarkLogic verfügt über fast 30 verschiedene Indexe, die sichaktivieren und deaktivieren lassen, um möglichst detaillierte und anpassbare Suchvorgänge zu ermöglichen,einschließlich facettierter Suchen und Echtzeit-Benachrichtigungen. Diese Suchfunktionen waren von Anfang an inMarkLogic integriert, denn der Gründer von MarkLogic verfügt über langjährige Erfahrungen auf diesem Gebiet:Christopher Lindblad war der Architekt von Ultraseek Server.MarkLogic unterstützt zudem viele weitere Suchfunktionen wie Wort- und Phrasensuche, Boolesche Suche,Näherung, Platzhalter, automatische Zurückführung eines Wortes auf den Wortstamm (Stemming), Tokenisierung,Zerlegung von Komposita, Unterscheidung nach Groß-/Kleinschreibung, Interpunktion, diakritische Zeichen,Einstellungen zur Dokumentenqualität, verschiedene Relevanzalgorithmen, individuelle Begriffsgewichtung,Themengruppierung, facettierte Navigation und Benutzer-indexierte Felder.Diese zahlreichen Funktionen werden durch die Nutzung des Dokumentenmodells in MarkLogic ermöglicht, aber nurMarkLogic verfügt über eine integrierte Suche. Andere Dokumentendatenbanken sind im Hinblick auf Suchfunktionenvon externen Technologien wie Lucene oder Solr abhängig, was zu einer höheren Komplexität führt. Ein weiteresUnterscheidungsmerkmal besteht darin, dass Dokumente in MarkLogic unmittelbar nach dem Laden durchsuchtwerden können, wenn ihre Inhalte indexiert sind.Weitere Informationen darüber, wie MarkLogic die Datenbanksuche revolutioniert, erhalten Sie in der PräsentationSearch, Relevance, and Context: Getting the Most out of MarkLogic Search (Suche, Relevanz und Kontext: OptimaleNutzung von MarkLogic Search).Riesenvielfalt möglicher AnwendungsbereicheUnternehmensgerechte Datenbanken, die auf dem Dokumentenmodell basieren, sind flexibel und leistungsstark genug,um als Mehrzweck-Datenbanken für vielfältige Anwendungsfälle zu fungieren. MarkLogic ist die perfekte Lösung, wennes darum geht, Datensilos zu beseitigen, Suchen und Analysen über eine einzige Plattform abzuwickeln, Speicherkostenzu senken, Daten besser zu sichern oder Anwendungen schneller zu entwickeln. Dies gilt für fast jede Branche, vonMedien und Verlagswesen über Finanzdienstleistungen bis hin zum Gesundheitswesen:MarkLogic CorporationDie NoSQL-Generation: Das Dokumentenmodell9

Medien und Verlagswesen: Diese Branche war die erste, die Dokumentendatenbanken eingeführt hat.Ein großer Verlag, LexisNexis, war der erste MarkLogic Kunde und setzt MarkLogic auch heute noch ein.Ein weiterer Verlag, Wiley, hat mithilfe von MarkLogic 4 Millionen Artikel, 9.000 Bücher und Tausende vonNachschlagewerken konsolidiert. Damit konnte der Verlag die Nutzung seines Angebots um 50 Prozenterhöhen und nach einigen strategischen Übernahmen von Inhaltsbibliotheken das neue Material schnellintegrieren und gewinnbringend anbieten. Finanzdienstleister: Investmentbanken benötigen zuverlässige Governance-Richtlinien und müssen inder Lage sein, schnell auf Anfragen von Regulierungsbehörden zu reagieren. Eine führende Bank hatteProbleme bei der Erstellung von Risikoprofilen und Nachhandelsberichten, weil ihre verteilten, heterogenenDatenquellen in Legacy-Mainframes und Sybase-Datenbanken abgelegt waren. Mit MarkLogic konnte dieBank diese Daten jedoch in einem zentralen System zusammenführen und war dadurch in der Lage,Millionenbeträge an IT-Kosten einzusparen und schneller auf Anfragen der Regulierungsbehörden zureagieren. Gesundheitswesen: Das Gesundheitswesen ist ebenfalls eine stark regulierte Branche, die sichschwertut, ihre Datenvielfalt zu verwalten, und die mit schrumpfenden Margen und behördlicherBeaufsichtigung zu kämpfen hat. Ein MarkLogic Kunde, Zynx Health, bietet im Verbund mit mehrerenKrankenhäusern in den USA personalisierte Versorgungspläne an. Obwohl die Partnerschaft mit über2.000 Krankenhäusern eine große Herausforderung darstellte, konnte Zynx Health in weniger als einemJahr eine Anwendung entwickeln, die heute von all diesen Krankenhäusern genutzt wird, um die Qualitätihrer Versorgung zu verbessern. Behörden: Behörden lieben Dokumente. Wenn die Budgets jedoch eng sind und bestimmte Diensteonline angeboten werden sollen, stehen Behörden vor der Herausforderung, fristgerecht und effizientAnwendungen entwickeln zu müssen. Darüber hinaus wollen sie kein komplett neues System aufbauenoder ihre Daten für jede neue Anwendung immer wieder replizieren – und natürlich unterliegen siestrengsten Auflagen zum Datenschutz. MarkLogic hat US-Behörden wie die Bundesluftfahrtbehörde (FAA),die Centers for Medicare and Medicaid Services (CMS), die Arzneimittelzulassungs- undLebensmittelüberwachungsbehörde (FDA) und das Verteidigungsministerium (DoD) sowieNachrichtendienste bei der Bewältigung dieser Herausforderungen unterstützt.Während relationale Datenbanken und andere Arten von NoSQL-Datenbanken auch weiterhin für bestimmte Zweckeeingesetzt werden, kommen Dokumentendatenbanken wie MarkLogic bei der Lösung der dringlichsten Big DataProbleme zum Einsatz, denen sich Organisationen heutzutage gegenübersehen.Weitere Informationen zu den zahlreichen Einsatzmöglichkeiten von MarkLogic erhalten Sie in der PräsentationReimagine: Data, Applications and MarkLogic (Neue Möglichkeiten: Daten und Anwendungen und MarkLogic).MarkLogic CorporationDie NoSQL-Generation: Das Dokumentenmodell10

Die Definition von Enterprise NoSQLEs ist eine weitverbreitete Fehlannahme, dass NoSQL-Datenbanken nicht für „seriöse“ Anwendungsbereichegeeignet sind, sondern nur für Neuunternehmen oder als Aufbewahrungsort für nicht betriebskritische Daten. Dieoben genannten Beispiele zeigen jedoch, dass dies nicht mehr der Wahrheit entspricht. „Enterprise NoSQL“bezeichnet eine Datenbank, die wie alle anderen NoSQL-Lösungen das hohe Volumen, die Vielfalt und dieGeschwindigkeit heutiger Daten bewältigen kann und darüber hinaus mit den Funktionen ausgestattet ist, um dasHerzstück eines Unternehmens zu bilden. Eine NoSQL-Lösung ist erst dann „unternehmensgerecht“, wenn sie diefolgenden Funktionen aufweist, und sollte andernfalls nicht für betriebskritische Anwendungen eingesetzt werden: ACID-Transaktionen: ACID-Transaktionen kommen nicht nur im Bankwesen zum Einsatz. Ohne ACIDTransaktionen (Atomarität, Konsistenz, Isolation, Dauerhaftigkeit) steigt die Gefahr des Datenverlusts. Undwenn es zu einem Netzwerkausfall kommt, kann dies katastrophale Folgen für die Datenbank haben.Unternehmen müssen in der Lage sein, Transaktionen auszuführen, die aus mehreren Datensätzenbestehen, und detaillierte Abfragen mit mehreren Begriffen vorzunehmen – zusätzliche Funktionen, diedurch ACID-Transaktionen bereitgestellt werden. Hochverfügbarkeit und Disaster Recovery: Unternehmen sollten nicht dazu gezwungen sein,komplett neue Verfahren und Governance-Strukturen zu implementieren, um Daten in einer NoSQLDatenbank zu verwalten. Für die Disaster Recovery benötigen sie Hochverfügbarkeit mit automatischemFailover auf lokale Festplatten, zeitgenauer Wiederherstellung und asynchroner Replikation überverschiedene Rechenzentren hinweg. All diese Funktionen sind erforderlich, um zu verhindern, dass Datenverlorengehen und die Datenbank neu aufgebaut werden muss, falls es zu einem Ausfall desRechenzentrums kommt. Hochsicherheit: Nicht nur bei Behörden spielt Sicherheit eine zentrale Rolle. Das Risiko, das mit nichtgesicherten Daten einhergeht, ist ganz einfach zu hoch – daher werden die Investitionen in die ITSicherheit laut Gartner bis zum Jahr 2017 um etwa 39 Prozent auf 93 Mrd. US-Dollar steigen. FürHochsicherheit bürgt eine Zertifizierung der National Information Assurance Partnership (NIAP) im Rahmendes Common Criteria Evaluation and Validation Scheme (CCEVS) für die Unterstützung derHauptsicherheitsfunktionen wie Audits, Schutz von Benutzerdaten, Sicherheitsmanagement, Datenschutz,TOE-Zugriff (Target of Evaluation, Evaluierungsgegenstand) sowie Identifizierung und Authentifizierung(mit Drittanbieter-Support für LDAP und Kerberos). Elastizität und Skalierbarkeit: Unternehmen sollten in der Lage sein, Aufwärts- oderAbwärtsskalierungen innerhalb von Minuten vorzunehmen, um den anfallenden Datenmengen undZugriffsanforderungen gerecht zu werden sowie Over-Provisioning und unnötige Ausgaben zu vermeiden.Dies muss ohne Ausfallzeiten, ohne Inkonsistenzen und ohne Risiko eines Datenverlusts geschehen. DieDatenbank sollte problemlos auf Amazon Web Services oder anderen Cloud-Anbietern laufen, gleichzeitigaber flexibel genug sein, um in anderen virtualisierten Umgebungen oder vor Ort installiert werden zukönnen.MarkLogic CorporationDie NoSQL-Generation: Das Dokumentenmodell11

Überwachungs- und Leistungstools: Ausgereifte Überwachungs- und Verwaltungstools sorgen dafür,dass sowohl die Entwickler als auch die IT-Mitarbeiter mit der Wahl der Plattform zufrieden sind.Unternehmen benötigen Tools für den automatischen Lastenausgleich und die Cluster-Überwachung sowiefunktionsreiche APIs für Verwaltung, Prozessautomatisierung, Zugriffssteuerung, Datenbank-Klonung undAudit-Trails. Außerdem brauchen sie sofort einsatzbereite Schnittstellen mit Tools wie Nagios oder HPOpenView.MarkLogic enthält all diese Funktionen seit jeher und wird auch in Zukunft auf die Entwicklung vonUnternehmensfunktionen setzen, die keine andere NoSQL-Lösung vorweisen kann. Weitere Ressourcen finden Sieonline unter MarkLogic.com. Ausführlichere Informationen enthält das Whitepaper Inside MarkLogic (Überblick überMarkLogic).Wenn Sie Fragen zur Implementierung von MarkLogic in Ihrem Unternehmen haben, rufen Sie uns unter 1 877 992 8885 an oder kontaktieren Sie einen Vertriebsmitarbeiter per E-Mail an sales@marklogic.com.MarkLogic CorporationDie NoSQL-Generation: Das Dokumentenmodell12

Über MarkLogicMarkLogic stellt seinen Kunden seit über einem Jahrzehnt eine leistungsstarke, flexible und bewährte EnterpriseNoSQL-Datenbank-Plattform bereit, die Unternehmensdaten in wertvolle und praktisch anwendbare Informationenverwandelt. Unternehmen auf der ganzen Welt verlassen sich bei Datenanwendungen der neuen Generation auf diehochsichere Technologie von MarkLogic. MarkLogic hat seinen Hauptsitz im Silicon Valley und betreibtNiederlassungen in New York, Chicago, Washington D.C., London, Frankfurt, Paris, München, Stockholm, Utrecht,Singapur und Tokio. Weitere Informationen finden Sie auf www.marklogic.com. 2014 MarkLogic Corporation. Alle Rechte vorbehalten. Diese Technologie ist durch die US-amerikanischenPatente Nr. 7,127,469 B2, Nr. 7,171,404 B2, Nr. 7,756,858 B2 und Nr. 7,962,474 B2 geschützt. MarkLogic ist eineMarke oder eingetragene Marke der MarkLogic Corporation in den USA und/oder anderen Ländern. Alle anderengenannten Marken sind Eigentum ihrer jeweiligen Inhaber. [SS-MLIH-13-06]Skyper Villa, Taunusanlage 1, Frankfurt 60329, GermanyTheatinerstr. 11, 8. Etage, Munich 80333, Germany› DE: 49-69-50 50 60588 › INT.: 1 877 992 8885› germany@marklogic.com › sales@marklogic.com › www.marklogic.com

MarkLogic Corporation Die NoSQL-Generation: Das Dokumentenmodell 4 Datenbanken wie Cassandra, MongoDB und CouchDB, die Googles Bigtable und Amazons Dynamo nachfolgten, benötigte der Markt einen Begriff, der diese neuen Technologien beschrieb. 2 Ein häufiges Missverständnis ist, dass „NoSQL" so viel bed eutet wie „Kein SQL" und dass NoSQL-Datenbanken kein