Elf vielversprechende Big-Data

Werbung
Technik
2015 – 8
Elf vielversprechende
Big-Data-Startups
Rund um das Wachstumsfeld Big Data entstehen viele Startups. Wir stellen die
interessantesten vor.
Von Stephan Wiesend,
freier Autor in München
B
ig Data ist ein Wachstumsmarkt. Laut
IDC werden die weltweiten Umsätze in
diesem Geschäftsbereich bis 2017 auf
32,4 Milliarden Dollar steigen. Das würde jährliche Wachstumsraten von eindrucksvollen 27
Prozent bedeuten. Kein Wunder, dass Kapitalgeber Startups in diesem Bereich geradezu mit
Geld überschütten.
So hat der Entwickler der erfolgreichen NoSQLDatenbank MongoDB bei Investoren mittlerweile über 300 Millionen Dollar eingesammelt.
Der Marktführer für Hadoop-Distributionen
Cloudera konnte sogar 740 Millionen Dollar
einwerben. Auch in deutschen Stellenanzeigen
suchen die Arbeitgeber immer häufiger nach
Fachleuten mit Kenntnissen in Hadoop und
NoSQL, hierzulande ist der Big-Data-Markt aber
noch recht klein. So überrascht es nicht, dass
unter den im Folgenden vorgestellten Startups
vor allem Gründungen aus den USA zu finden
sind.
Hadoop-Hype flaut ab
In den letzten Jahren war das für Rechenprozesse mit großen Datenmengen konzipierte
Hadoop-Framework ein Kernthema. Hier hat
sich nach Meinung von Experten aber 2012 der
Markt für Distributionen, die dessen Verwendung vereinfachen, bereits konsolidiert. Dominiert wird der Markt momentan von den Konkurrenten Hortonworks und Cloudera sowie
von Amazon AWS. Es verbleiben aber noch andere Themen für Big-Data-Startups. So kann
Big Data als Grundlage dienen, um Angriffe zu
erkennen und die Unternehmenssicherheit zu
verbessern. Ein Beispiel für solche Technik ist
der israelische Anbieter ThetaRay.
Momentan scheint sich außerdem die sinnvolle Verknüpfung neuer und alter Technologien,
insbesondere von NoSQL und herkömmlichen
Datenbanken, als Thema zu etablieren. In
unserem Überblick zeigen wir elf interessante
Unternehmen aus dem Big-Data-Umfeld.
Framed
Framed hat eine Lösung auf der Basis von Machine Learning entwickelt, mit der sich Kundendaten analysieren und das Verhalten von
Kunden vorhersagen lassen sollen. Dem Anbieter zufolge ermöglicht es der Dienst, vielversprechende Kunden, die vor einer Kaufentscheidung stehen, zu identifizieren, aber auch
die Abwanderungswilligen zu ermitteln. Zudem lässt sich herausfinden, für welche Kundengruppen sich welche maßgeschneiderten
Promotion- und Marketing-Aktionen empfehlen. Für die Nutzung ist ein Analytics-Provider
erforderlich, der User-Interaktionen im Web
trackt. Unterstützt wird Mixpanel; Framed bietet aber auch weitere Möglichkeiten der Kundendaten-Integration an.
(framed.io)
Foto: videoshop/Shutterstock
20
Technik
RStudio
Als Alternative zu SAS und SPSS bietet sich
die in Universitäten beliebte Open-Source-Statistiksoftware beziehungsweise Programmiersprache „R“ an. Erst kürzlich hat Microsoft den
auf R spezialisierten Anbieter Revolution Analytics übernommen. RStudio ist ein ähnliches
Startup, gegründet 2008 als Open-Source-Projekt in Boston. Seit Ende 2013 bietet RStudio
seine Software in einer Version für Firmenkunden an. Hauptprodukt ist die plattformunabhängige integrierte R-Entwicklungsumgebung
„RStudio IDE“, die als freie Open-Source- und
als kostenpflichtige kommerzielle Software bereitsteht. Mit „Shiny“ hat RStudio ein Framework für die einfache Entwicklung interaktiver
Web-Anwendungen im Angebot. Der Gründer
J.J. Allaire entwickelte das früher weitverbreitete Content- Management-System ColdFusion.
(rstudio.com)
GPredictive
MapD Technologies
In die gleiche Marktlücke wie Framed stößt
das Hamburger Startup GPredictive, das soeben 2,5 Millionen Euro Anschubhilfe von der
Venture-Capital-Gesellschaft Target Partners
erhalten hat. Das Unternehmen bietet eine
Scoring-Lösung im SaaS-Betrieb, mit der sich
Kundendatenbanken intelligent auswerten
lassen. Altkunden werden daraufhin beurteilt,
ob es sich lohnt, sie zu reaktivieren, Neukunden werden gewonnen, indem man analysiert,
was die Bestandskunden dazu brachte, sich
für neue Produkte zu entscheiden.
Nvidia ist ein eher ungewöhnlicher Investor
für ein Big-Data-Startup. Dass sich der Grafikkarten-Hersteller bei MapD Technologies engagiert, hängt mit der technischen Grundlage des
Startups zusammen. MapD setzt auf preiswerte Grafikprozessoren, um darauf eine Big-DataAnalyse- und Visualisierungsplattform für die
Realtime-Auswertung großer Datenbestände
aufzusetzen.
Wie der Name „Scores out of the Box“ schon
andeutet, bietet GPredictive eine Komplettlösung an. Das Unternehmen benötigt dazu
anonymisierte Transaktionsdaten der Kunden. Zudem verspricht es „Data Enrichment“:
Die Kundendaten können mit externen
Daten etwa aus sozialen Netzwerken angereichert werden, sofern diese auf einen möglichen Produktbedarf hinweisen.
MapD verfolgt den nicht ganz bescheidenen
Plan, die weltweit schnellste In-Memory-Plattform für Big-Data-Analysen und -Visualisierungen zu werden – basierend auf der parallelen
Rechenpower von Nvidias Grafikprozessoren.
Ein besonderes Speicherverfahren für Text
löst ein Problem bei der Nutzung von Grafikkarten – den geringen Arbeitsspeicher. Vor allem optisch ist die Demoanwendung der Firma
beeindruckend, die „TweetMap“, die TwitterFeeds in Echtzeit und interaktiv auswertet.
Neben Nvidia ist Google der Hauptinvestor.
(gpredictive.de/)
(mapd.com)
Vielversprechende, aber auch abwanderungswillige
Kunden identifizieren – das verspricht Framed.
Auch das Hamburger Unternehmen GPredictive,
soeben mit 2,5 Millionen Euro Startkapital ausgestattet, beschäftigt sich mit Kunden-Scoring.
Eine Entwicklungsumgebung für die populäre Programmiersprache R bietet RStudio.
Mit In-Memory-Computing auf Basis von NvidiaGPUs beschäftigt sich MapD Technologies.
21
22
Technik
2015 – 8
Parstream DB kann neben herkömmlichen auch
Streaming-Daten in Echtzeit bearbeiten.
Sorgt für automatisierte Preisanpassungen beim
E-Commerce: Boomerang Commerce.
Parstream
Um die gewaltigen Datenmengen, die mit dem
Internet of Things (IoT) anfallen, auswerten zu
können, hat der Big-Data-Spezialist Parstream
die „Parstream Analytics Platform“ entwickelt.
Grundlage ist die Datenbank „Parstream DB“,
die neben herkömmlichen auch Streaming-Daten in Echtzeit verwalten kann. Hinzu kommen
Werkzeuge wie „Geo Distributed Analytics“,
das dafür sorgt, dass Abfragen und Analysen
nahe an den Datenquellen erfolgen können,
oder „Time Series Analytics“, das die Verknüpfung von historischen und Streaming-Daten
ermöglicht. Als Schnittstellen unterstützt
Parstream JDBC und ODBC ebenso wie ein
C++-API. Die COMPUTERWOCHE hat die Software in Ausgabe 44/2014 bereits ausführlicher
vorgestellt. Zu den Kunden gehören Mpreis,
Etracker und BD4Travel.
(parstream.com)
Boomerang Commerce
Amazon.com korrigiert ständig automatisiert
die Preise von Millionen Produkten, um auf
günstigere Angebote der Konkurrenz zu reagieren. Das können andere große Online-Händler
auch. Boomerang Commerce hilft seinen Kunden aus dem E-Commerce, die Preise ständig
so anzupassen, dass sie konkurrenzfähig sind.
Die Parameter dazu sind frei konfigurierbar.
Boomerang Commerce bedient sich dabei des
Price Perception Index, der dafür sorgt, dass
MemSQL will Transaktionsverarbeitung und Analysen simultan in einer operativen Datenbankumgebung ermöglichen.
die richtigen Produkte niedrig beziehungsweise hoch bepreist sind. Das System kann Preisstrategien testen und simulieren. Die Preise
und den möglichen Bestand der Wettbewerber
überwacht Boomerang in Echtzeit. Zu den
Kunden gehören unter anderem Staples, Sears,
DHgate und Groupon Goods.
(www.boomerangcommerce.com)
MemSQL
Unter den NoSQL-Datenbanken ist MongoDB
unbestrittener Marktführer, doch an alternativen Engines herrscht kein Mangel. MemSQL
ließ sich beim Erscheinen mit Marketing-Sprüchen nicht lumpen und sprach gleich mal von
der „World Fastest Database“. Das erregte Aufmerksamkeit, aber auch Misstrauen, sind Performance-Vergleiche zwischen verschiedenen
Datenbankverwaltungen doch höchst umstritten. MemSQL betont, Transaktionsverarbeitung und Analysen simultan in einer operativen
Datenbankumgebung zu ermöglichen. Anwender hätten gleichzeitig Zugriff auf Echtzeitund auf historische Daten.
Die Datenbank läuft komplett im Arbeitsspeicher, SQL-Befehle wandelt die Software in
Echtzeit in C++ um. Erste Referenzkunden waren Zynga und Morgan Stanley, mittlerweile
nutzten laut MemSQL Hunderte Firmen wie
Comcast und Ziff Davis die laufend verbesserte
Lösung.
(memsql.com)
Technik
Splice Machine
Splice Machine verspricht, die Vorteile von Hadoop – hohe Performance bei niedrigen Kosten
– mit voller SQL-Kompatibilität zu verbinden.
Damit können Anwender, die es gewohnt sind,
mit einem klassischen relationalen Datenbanksystem à la Oracle oder SQL Server zu arbeiten,
ohne Schulungsaufwand auf ein deutlich performanteres Hadoop-System wechseln. Splice
Machine bezeichnet seine Software als „SQLon-Hadoop RDBMS“. Laut Hersteller handelt
es sich um die einzige Unterstützung von ACIDTransaktionen unter Hadoop. Gründer Monte
Zweben zufolge erhalten Firmen, die HadoopLösungen und ein Data Warehouse parallel
nutzen, mit Splice Machine eine Komplettlösung. Im Unterschied zu ähnlichen Lösungen
wie Hive oder Cloudera Impala unterstützt sie
etwa Echtzeit-Updates.
(splicemachine.com)
Altiscale
Altiscale bietet Hadoop as a Service. Kunden
erhielten eine besonders flexible und vom Anbieter gewartete Hadoop-Lösung, verspricht
das Unternehmen. Zielgruppe sind Nutzer von
Hadoop mit eigenem Cluster oder Amazon
Elastic MapReduce (EMR), die nach einer alternativen Betriebsmöglichkeit suchen. Konkurrenten sind Anbieter wie Qubole oder Treasure
Data. Gegenüber anderen Managed-HadoopAnbietern will Altiscale mit besserem Support
und Abrechnungsmodell punkten. Viel Aufmerksamkeit erhielt das Startup wohl auch,
weil der Gründer Raymie Stata als ehemaliger
Chief Technology Officer von Yahoo bekannt
ist und zusammen mit Doug Cutting das
Hadoop-Projekt entwickelte.
(altiscale.com)
Threats schützen. Dazu prüft ThetaRay Daten
aus verschiedensten Quellen auf Auffälligkeiten. Registriert werden beispielsweise Geräteausfälle, Energieschwankungen oder auch auffällige Finanztransaktionen. Die Stärke des
Produkts ist laut CEO Mark Gazi vor allem die
vergleichsweise niedrige Fehlerrate. Zielgruppe sind unterschiedlichste Branchen wie Energieversorger, Fabriken und Finanzdienstleister.
Gründer des 2012 entstandenen Startups sind
zwei Professoren der Universitäten von Tel Aviv
und Yale. Nach Firmenangaben wird die Lösung
von den beiden Investoren General Electric
und Poalim bereits verwendet. Konkurrenten
sind Firmen wie Splunk, Norse, Palantir und
Noise Dynamics.
(thetaray.com/)
Verheiratet die Hadoop- mit der SQL-Welt: Splice
Machine.
Crate
Eine sogenannte Shared-Nothing-Architektur
hat das in Berlin und Dornbirn ansässige
Unternehmen Crate.io zu bieten. Um Daten
hochverfügbar zu halten, kombiniert die Software als Backend relationales SQL mit NoSQL
und integrierter Suche: beispielsweise MySQL
mit MongoDB und Elasticsearch. Grundlagen
sind die Open-Source-Technologien Presto,
Lucene, Elasticsearch und Netty. Crate ist als
Community Edition unter einer Apache-Lizenz
kostenlos nutzbar, Business- und EnterpriseLizenzen mit zusätzlichen Funktionen und
Support sind verfügbar. Referenzkunden hat
die Software offenbar bisher nicht vorzuweisen.
(crate.io) (sh)
Altiscale bietet Hadoop as a Service – für Anwender, die es bequem möchten.
Eine Big-Data-Lösung, die Unternehmen vor ZeroDay-Attacken und Advanced Persistent Threats
schützt, kommt aus Israel: von ThetaRay.
ThetaRay
Das israelische Unternehmen ThetaRay nutzt
Big Data, um Anomalien im IT-Betrieb aufzuspüren. Ohne die Hilfe von Signaturen oder
Heuristik soll die Lösung Firmennetze vor
Zero-Day-Attacken oder Advanced Persistent
Crate kombiniert relationales SQL mit NoSQL und
integrierter Suche.
23
Herunterladen