DE
SAMEN­
SQLSMELTING
ON-HADOOPDATAVAN VIRTUALI­
SATIE
EN
ENGINES
door onze gastschrijver Rick van der Lans, onafhankelijk adviseur, docent en auteur business intelligence
In mijn werk wordt het me elke keer weer duidelijk dat Hadoop ongekend populair is,
en dat geldt ook voor SQL-on-Hadoop. Een SQL-on-Hadoop-engine biedt toegang tot
big data in Hadoop HDFS of Hbase, via een taal waar veel ontwikkelaars mee werken,
namelijk SQL. Daarnaast maakt SQL-on-Hadoop het eenvoudiger om de big data in
Hadoop te openen met populaire rapportage- en analysetools.
DATAVIRTUALISATIESERVERS
INTRODUCTIE RICK VAN DER LANS
Toegang tot non-SQL-databronnen via SQL was al langer mogelijk door middel van datavirtualisatie­
servers. De meeste van deze servers bieden SQL-toegang tot gegevens die zijn opgeslagen in
spreadsheets, XML-documenten, sequentiële bestanden, pre-relationele databaseservers, gegevens
die verborgen zijn achter API’s als SOAP en REST, en gegevens die zijn opgeslagen in applicaties
als SAP en Salesforce.com.
Rick van der Lans is onafhankelijk
(ON)MOGELIJKHEDEN VAN SQL-ON-HADOOP
adviseur, docent en auteur op het
terrein van datawarehousing, business
intelligence, datavirtualisatie en
databasetechnologie. Als consultant
Het merendeel van de huidige SQL-on-Hadoop-engines biedt alleen SQL-toegang tot één of twee
databronnen: HDFS en HBase. Dat lijkt misschien simpel, maar dat is het niet. Het technische
probleem is de omzetting van alle niet-relationele data die in Hadoop is opgeslagen, zoals variabele,
zelfbeschrijvende en schemaloze data, in platte relationele structuren.
heeft hij door de jaren heen veel grote
bedrijven (nationaal en internationaal)
geadviseerd bij het ontwerpen van hun
datawarehouse-architectuur en bij het
maken van een toolkeuze. Rick heeft als
spreker op conferenties een zeer goede
naam verworven zowel in binnen- als
buitenland. Hij weet als geen ander een
goede balans te vinden tussen op de
praktijk toegesneden technologische en
strategische zaken. Tevens verschenen
‘Wat er ook gebeurt,
het lijkt erop dat deze
twee markten geleidelijk
zullen samensmelten.’
van zijn hand honderden artikelen
op toonaangevende websites en in
vakbladen. Verschillende van zijn boeken,
waaronder het populaire SQL Leerboek,
zijn in vele talen gepubliceerd. In 2012
is zijn nieuwe boek verschenen “Data
Virtualisatie voor Business Intelligence
Systemen”.
Lees ook onze andere blogs op
www.playitsmart.nl/blog
Omdat de lat voor SQL-on-Hadoop-engines steeds hoger wordt gelegd, is het echter de vraag of het
voldoende is om Hadoop te voorzien van query-capaciteit. Sommige engines, zoals SpliceMachine,
bieden naast query-toegang ook transactionele ondersteuning binnen Hadoop. Andere, bijvoorbeeld
Cirro en ScleraDB, ondersteunen datafederatie, waardoor gegevens die zijn opgeslagen in SQLdatabases geïntegreerd kunnen worden met Hadoop-gegevens. Misschien is het in de toekomst dus
niet meer voldoende om Hadoop te voorzien van query-capaciteit.
SAMENSMELTING
Sommige datavirtualisatieservers zijn inmiddels ook uitgerust met Hadoop en begeven zich daarmee
op de markt van SQL-on-Hadoop-engines. Hierdoor komt de lat voor SQL-on-Hadoop-engines
nóg hoger te liggen. De datavirtualisatieservers van tegenwoordig zijn meer dan simpele runtimeengines die SQL-toegang bieden tot uiteenlopende databronnen. De meeste servers bieden ook
de mogelijkheid tot datafederatie van diverse non-SQL-bronnen, een geavanceerde ontwerp- en
modelleeromgeving met dataherkomst- en impactanalyses, caching-functionaliteit om de toegang
tot de databron te beperken, optimalisatietechnieken voor het samenvoegen van gedistribueerde
databases, en gegevensbeveiliging.
De verwachting is dat SQL-on-Hadoop-engines in de nabije toekomst zullen worden uitgebreid
met deze functies, die nu nog kenmerkend zijn voor datavirtualisatieservers. Tegelijkertijd zullen
datavirtualisatieservers uitgerust worden met volledige Hadoop-ondersteuning. Wat er ook gebeurt,
het lijkt erop dat deze twee markten geleidelijk zullen samensmelten. Sommige producten worden
samengevoegd, terwijl andere juist uitgebreid worden. Het is in ieder geval een markt die we de
komende jaren in de gaten gaan houden.
OP 12 JANUARI A.S. ORGANISEERT KADENZA EEN WEBINAR
OVER DATAVIRTUALISATIE. MELD JE AAN.
MEER INFORMATIE? NEEM CONTACT OP MET KADENZA
MAIL [email protected] OF BEL +31 (0)35 - 5394490.
WERKEN BIJ KADENZA? KIJK OP PLAYITSMART.NL.