Technik 2015 – 8 Elf vielversprechende Big-Data-Startups Rund um das Wachstumsfeld Big Data entstehen viele Startups. Wir stellen die interessantesten vor. Von Stephan Wiesend, freier Autor in München B ig Data ist ein Wachstumsmarkt. Laut IDC werden die weltweiten Umsätze in diesem Geschäftsbereich bis 2017 auf 32,4 Milliarden Dollar steigen. Das würde jährliche Wachstumsraten von eindrucksvollen 27 Prozent bedeuten. Kein Wunder, dass Kapitalgeber Startups in diesem Bereich geradezu mit Geld überschütten. So hat der Entwickler der erfolgreichen NoSQLDatenbank MongoDB bei Investoren mittlerweile über 300 Millionen Dollar eingesammelt. Der Marktführer für Hadoop-Distributionen Cloudera konnte sogar 740 Millionen Dollar einwerben. Auch in deutschen Stellenanzeigen suchen die Arbeitgeber immer häufiger nach Fachleuten mit Kenntnissen in Hadoop und NoSQL, hierzulande ist der Big-Data-Markt aber noch recht klein. So überrascht es nicht, dass unter den im Folgenden vorgestellten Startups vor allem Gründungen aus den USA zu finden sind. Hadoop-Hype flaut ab In den letzten Jahren war das für Rechenprozesse mit großen Datenmengen konzipierte Hadoop-Framework ein Kernthema. Hier hat sich nach Meinung von Experten aber 2012 der Markt für Distributionen, die dessen Verwendung vereinfachen, bereits konsolidiert. Dominiert wird der Markt momentan von den Konkurrenten Hortonworks und Cloudera sowie von Amazon AWS. Es verbleiben aber noch andere Themen für Big-Data-Startups. So kann Big Data als Grundlage dienen, um Angriffe zu erkennen und die Unternehmenssicherheit zu verbessern. Ein Beispiel für solche Technik ist der israelische Anbieter ThetaRay. Momentan scheint sich außerdem die sinnvolle Verknüpfung neuer und alter Technologien, insbesondere von NoSQL und herkömmlichen Datenbanken, als Thema zu etablieren. In unserem Überblick zeigen wir elf interessante Unternehmen aus dem Big-Data-Umfeld. Framed Framed hat eine Lösung auf der Basis von Machine Learning entwickelt, mit der sich Kundendaten analysieren und das Verhalten von Kunden vorhersagen lassen sollen. Dem Anbieter zufolge ermöglicht es der Dienst, vielversprechende Kunden, die vor einer Kaufentscheidung stehen, zu identifizieren, aber auch die Abwanderungswilligen zu ermitteln. Zudem lässt sich herausfinden, für welche Kundengruppen sich welche maßgeschneiderten Promotion- und Marketing-Aktionen empfehlen. Für die Nutzung ist ein Analytics-Provider erforderlich, der User-Interaktionen im Web trackt. Unterstützt wird Mixpanel; Framed bietet aber auch weitere Möglichkeiten der Kundendaten-Integration an. (framed.io) Foto: videoshop/Shutterstock 20 Technik RStudio Als Alternative zu SAS und SPSS bietet sich die in Universitäten beliebte Open-Source-Statistiksoftware beziehungsweise Programmiersprache „R“ an. Erst kürzlich hat Microsoft den auf R spezialisierten Anbieter Revolution Analytics übernommen. RStudio ist ein ähnliches Startup, gegründet 2008 als Open-Source-Projekt in Boston. Seit Ende 2013 bietet RStudio seine Software in einer Version für Firmenkunden an. Hauptprodukt ist die plattformunabhängige integrierte R-Entwicklungsumgebung „RStudio IDE“, die als freie Open-Source- und als kostenpflichtige kommerzielle Software bereitsteht. Mit „Shiny“ hat RStudio ein Framework für die einfache Entwicklung interaktiver Web-Anwendungen im Angebot. Der Gründer J.J. Allaire entwickelte das früher weitverbreitete Content- Management-System ColdFusion. (rstudio.com) GPredictive MapD Technologies In die gleiche Marktlücke wie Framed stößt das Hamburger Startup GPredictive, das soeben 2,5 Millionen Euro Anschubhilfe von der Venture-Capital-Gesellschaft Target Partners erhalten hat. Das Unternehmen bietet eine Scoring-Lösung im SaaS-Betrieb, mit der sich Kundendatenbanken intelligent auswerten lassen. Altkunden werden daraufhin beurteilt, ob es sich lohnt, sie zu reaktivieren, Neukunden werden gewonnen, indem man analysiert, was die Bestandskunden dazu brachte, sich für neue Produkte zu entscheiden. Nvidia ist ein eher ungewöhnlicher Investor für ein Big-Data-Startup. Dass sich der Grafikkarten-Hersteller bei MapD Technologies engagiert, hängt mit der technischen Grundlage des Startups zusammen. MapD setzt auf preiswerte Grafikprozessoren, um darauf eine Big-DataAnalyse- und Visualisierungsplattform für die Realtime-Auswertung großer Datenbestände aufzusetzen. Wie der Name „Scores out of the Box“ schon andeutet, bietet GPredictive eine Komplettlösung an. Das Unternehmen benötigt dazu anonymisierte Transaktionsdaten der Kunden. Zudem verspricht es „Data Enrichment“: Die Kundendaten können mit externen Daten etwa aus sozialen Netzwerken angereichert werden, sofern diese auf einen möglichen Produktbedarf hinweisen. MapD verfolgt den nicht ganz bescheidenen Plan, die weltweit schnellste In-Memory-Plattform für Big-Data-Analysen und -Visualisierungen zu werden – basierend auf der parallelen Rechenpower von Nvidias Grafikprozessoren. Ein besonderes Speicherverfahren für Text löst ein Problem bei der Nutzung von Grafikkarten – den geringen Arbeitsspeicher. Vor allem optisch ist die Demoanwendung der Firma beeindruckend, die „TweetMap“, die TwitterFeeds in Echtzeit und interaktiv auswertet. Neben Nvidia ist Google der Hauptinvestor. (gpredictive.de/) (mapd.com) Vielversprechende, aber auch abwanderungswillige Kunden identifizieren – das verspricht Framed. Auch das Hamburger Unternehmen GPredictive, soeben mit 2,5 Millionen Euro Startkapital ausgestattet, beschäftigt sich mit Kunden-Scoring. Eine Entwicklungsumgebung für die populäre Programmiersprache R bietet RStudio. Mit In-Memory-Computing auf Basis von NvidiaGPUs beschäftigt sich MapD Technologies. 21 22 Technik 2015 – 8 Parstream DB kann neben herkömmlichen auch Streaming-Daten in Echtzeit bearbeiten. Sorgt für automatisierte Preisanpassungen beim E-Commerce: Boomerang Commerce. Parstream Um die gewaltigen Datenmengen, die mit dem Internet of Things (IoT) anfallen, auswerten zu können, hat der Big-Data-Spezialist Parstream die „Parstream Analytics Platform“ entwickelt. Grundlage ist die Datenbank „Parstream DB“, die neben herkömmlichen auch Streaming-Daten in Echtzeit verwalten kann. Hinzu kommen Werkzeuge wie „Geo Distributed Analytics“, das dafür sorgt, dass Abfragen und Analysen nahe an den Datenquellen erfolgen können, oder „Time Series Analytics“, das die Verknüpfung von historischen und Streaming-Daten ermöglicht. Als Schnittstellen unterstützt Parstream JDBC und ODBC ebenso wie ein C++-API. Die COMPUTERWOCHE hat die Software in Ausgabe 44/2014 bereits ausführlicher vorgestellt. Zu den Kunden gehören Mpreis, Etracker und BD4Travel. (parstream.com) Boomerang Commerce Amazon.com korrigiert ständig automatisiert die Preise von Millionen Produkten, um auf günstigere Angebote der Konkurrenz zu reagieren. Das können andere große Online-Händler auch. Boomerang Commerce hilft seinen Kunden aus dem E-Commerce, die Preise ständig so anzupassen, dass sie konkurrenzfähig sind. Die Parameter dazu sind frei konfigurierbar. Boomerang Commerce bedient sich dabei des Price Perception Index, der dafür sorgt, dass MemSQL will Transaktionsverarbeitung und Analysen simultan in einer operativen Datenbankumgebung ermöglichen. die richtigen Produkte niedrig beziehungsweise hoch bepreist sind. Das System kann Preisstrategien testen und simulieren. Die Preise und den möglichen Bestand der Wettbewerber überwacht Boomerang in Echtzeit. Zu den Kunden gehören unter anderem Staples, Sears, DHgate und Groupon Goods. (www.boomerangcommerce.com) MemSQL Unter den NoSQL-Datenbanken ist MongoDB unbestrittener Marktführer, doch an alternativen Engines herrscht kein Mangel. MemSQL ließ sich beim Erscheinen mit Marketing-Sprüchen nicht lumpen und sprach gleich mal von der „World Fastest Database“. Das erregte Aufmerksamkeit, aber auch Misstrauen, sind Performance-Vergleiche zwischen verschiedenen Datenbankverwaltungen doch höchst umstritten. MemSQL betont, Transaktionsverarbeitung und Analysen simultan in einer operativen Datenbankumgebung zu ermöglichen. Anwender hätten gleichzeitig Zugriff auf Echtzeitund auf historische Daten. Die Datenbank läuft komplett im Arbeitsspeicher, SQL-Befehle wandelt die Software in Echtzeit in C++ um. Erste Referenzkunden waren Zynga und Morgan Stanley, mittlerweile nutzten laut MemSQL Hunderte Firmen wie Comcast und Ziff Davis die laufend verbesserte Lösung. (memsql.com) Technik Splice Machine Splice Machine verspricht, die Vorteile von Hadoop – hohe Performance bei niedrigen Kosten – mit voller SQL-Kompatibilität zu verbinden. Damit können Anwender, die es gewohnt sind, mit einem klassischen relationalen Datenbanksystem à la Oracle oder SQL Server zu arbeiten, ohne Schulungsaufwand auf ein deutlich performanteres Hadoop-System wechseln. Splice Machine bezeichnet seine Software als „SQLon-Hadoop RDBMS“. Laut Hersteller handelt es sich um die einzige Unterstützung von ACIDTransaktionen unter Hadoop. Gründer Monte Zweben zufolge erhalten Firmen, die HadoopLösungen und ein Data Warehouse parallel nutzen, mit Splice Machine eine Komplettlösung. Im Unterschied zu ähnlichen Lösungen wie Hive oder Cloudera Impala unterstützt sie etwa Echtzeit-Updates. (splicemachine.com) Altiscale Altiscale bietet Hadoop as a Service. Kunden erhielten eine besonders flexible und vom Anbieter gewartete Hadoop-Lösung, verspricht das Unternehmen. Zielgruppe sind Nutzer von Hadoop mit eigenem Cluster oder Amazon Elastic MapReduce (EMR), die nach einer alternativen Betriebsmöglichkeit suchen. Konkurrenten sind Anbieter wie Qubole oder Treasure Data. Gegenüber anderen Managed-HadoopAnbietern will Altiscale mit besserem Support und Abrechnungsmodell punkten. Viel Aufmerksamkeit erhielt das Startup wohl auch, weil der Gründer Raymie Stata als ehemaliger Chief Technology Officer von Yahoo bekannt ist und zusammen mit Doug Cutting das Hadoop-Projekt entwickelte. (altiscale.com) Threats schützen. Dazu prüft ThetaRay Daten aus verschiedensten Quellen auf Auffälligkeiten. Registriert werden beispielsweise Geräteausfälle, Energieschwankungen oder auch auffällige Finanztransaktionen. Die Stärke des Produkts ist laut CEO Mark Gazi vor allem die vergleichsweise niedrige Fehlerrate. Zielgruppe sind unterschiedlichste Branchen wie Energieversorger, Fabriken und Finanzdienstleister. Gründer des 2012 entstandenen Startups sind zwei Professoren der Universitäten von Tel Aviv und Yale. Nach Firmenangaben wird die Lösung von den beiden Investoren General Electric und Poalim bereits verwendet. Konkurrenten sind Firmen wie Splunk, Norse, Palantir und Noise Dynamics. (thetaray.com/) Verheiratet die Hadoop- mit der SQL-Welt: Splice Machine. Crate Eine sogenannte Shared-Nothing-Architektur hat das in Berlin und Dornbirn ansässige Unternehmen Crate.io zu bieten. Um Daten hochverfügbar zu halten, kombiniert die Software als Backend relationales SQL mit NoSQL und integrierter Suche: beispielsweise MySQL mit MongoDB und Elasticsearch. Grundlagen sind die Open-Source-Technologien Presto, Lucene, Elasticsearch und Netty. Crate ist als Community Edition unter einer Apache-Lizenz kostenlos nutzbar, Business- und EnterpriseLizenzen mit zusätzlichen Funktionen und Support sind verfügbar. Referenzkunden hat die Software offenbar bisher nicht vorzuweisen. (crate.io) (sh) Altiscale bietet Hadoop as a Service – für Anwender, die es bequem möchten. Eine Big-Data-Lösung, die Unternehmen vor ZeroDay-Attacken und Advanced Persistent Threats schützt, kommt aus Israel: von ThetaRay. ThetaRay Das israelische Unternehmen ThetaRay nutzt Big Data, um Anomalien im IT-Betrieb aufzuspüren. Ohne die Hilfe von Signaturen oder Heuristik soll die Lösung Firmennetze vor Zero-Day-Attacken oder Advanced Persistent Crate kombiniert relationales SQL mit NoSQL und integrierter Suche. 23