DE SAMEN­ SQLSMELTING ON-HADOOPDATAVAN VIRTUALI­ SATIE EN ENGINES door onze gastschrijver Rick van der Lans, onafhankelijk adviseur, docent en auteur business intelligence In mijn werk wordt het me elke keer weer duidelijk dat Hadoop ongekend populair is, en dat geldt ook voor SQL-on-Hadoop. Een SQL-on-Hadoop-engine biedt toegang tot big data in Hadoop HDFS of Hbase, via een taal waar veel ontwikkelaars mee werken, namelijk SQL. Daarnaast maakt SQL-on-Hadoop het eenvoudiger om de big data in Hadoop te openen met populaire rapportage- en analysetools. DATAVIRTUALISATIESERVERS INTRODUCTIE RICK VAN DER LANS Toegang tot non-SQL-databronnen via SQL was al langer mogelijk door middel van datavirtualisatie­ servers. De meeste van deze servers bieden SQL-toegang tot gegevens die zijn opgeslagen in spreadsheets, XML-documenten, sequentiële bestanden, pre-relationele databaseservers, gegevens die verborgen zijn achter API’s als SOAP en REST, en gegevens die zijn opgeslagen in applicaties als SAP en Salesforce.com. Rick van der Lans is onafhankelijk (ON)MOGELIJKHEDEN VAN SQL-ON-HADOOP adviseur, docent en auteur op het terrein van datawarehousing, business intelligence, datavirtualisatie en databasetechnologie. Als consultant Het merendeel van de huidige SQL-on-Hadoop-engines biedt alleen SQL-toegang tot één of twee databronnen: HDFS en HBase. Dat lijkt misschien simpel, maar dat is het niet. Het technische probleem is de omzetting van alle niet-relationele data die in Hadoop is opgeslagen, zoals variabele, zelfbeschrijvende en schemaloze data, in platte relationele structuren. heeft hij door de jaren heen veel grote bedrijven (nationaal en internationaal) geadviseerd bij het ontwerpen van hun datawarehouse-architectuur en bij het maken van een toolkeuze. Rick heeft als spreker op conferenties een zeer goede naam verworven zowel in binnen- als buitenland. Hij weet als geen ander een goede balans te vinden tussen op de praktijk toegesneden technologische en strategische zaken. Tevens verschenen ‘Wat er ook gebeurt, het lijkt erop dat deze twee markten geleidelijk zullen samensmelten.’ van zijn hand honderden artikelen op toonaangevende websites en in vakbladen. Verschillende van zijn boeken, waaronder het populaire SQL Leerboek, zijn in vele talen gepubliceerd. In 2012 is zijn nieuwe boek verschenen “Data Virtualisatie voor Business Intelligence Systemen”. Lees ook onze andere blogs op www.playitsmart.nl/blog Omdat de lat voor SQL-on-Hadoop-engines steeds hoger wordt gelegd, is het echter de vraag of het voldoende is om Hadoop te voorzien van query-capaciteit. Sommige engines, zoals SpliceMachine, bieden naast query-toegang ook transactionele ondersteuning binnen Hadoop. Andere, bijvoorbeeld Cirro en ScleraDB, ondersteunen datafederatie, waardoor gegevens die zijn opgeslagen in SQLdatabases geïntegreerd kunnen worden met Hadoop-gegevens. Misschien is het in de toekomst dus niet meer voldoende om Hadoop te voorzien van query-capaciteit. SAMENSMELTING Sommige datavirtualisatieservers zijn inmiddels ook uitgerust met Hadoop en begeven zich daarmee op de markt van SQL-on-Hadoop-engines. Hierdoor komt de lat voor SQL-on-Hadoop-engines nóg hoger te liggen. De datavirtualisatieservers van tegenwoordig zijn meer dan simpele runtimeengines die SQL-toegang bieden tot uiteenlopende databronnen. De meeste servers bieden ook de mogelijkheid tot datafederatie van diverse non-SQL-bronnen, een geavanceerde ontwerp- en modelleeromgeving met dataherkomst- en impactanalyses, caching-functionaliteit om de toegang tot de databron te beperken, optimalisatietechnieken voor het samenvoegen van gedistribueerde databases, en gegevensbeveiliging. De verwachting is dat SQL-on-Hadoop-engines in de nabije toekomst zullen worden uitgebreid met deze functies, die nu nog kenmerkend zijn voor datavirtualisatieservers. Tegelijkertijd zullen datavirtualisatieservers uitgerust worden met volledige Hadoop-ondersteuning. Wat er ook gebeurt, het lijkt erop dat deze twee markten geleidelijk zullen samensmelten. Sommige producten worden samengevoegd, terwijl andere juist uitgebreid worden. Het is in ieder geval een markt die we de komende jaren in de gaten gaan houden. OP 12 JANUARI A.S. ORGANISEERT KADENZA EEN WEBINAR OVER DATAVIRTUALISATIE. MELD JE AAN. MEER INFORMATIE? NEEM CONTACT OP MET KADENZA MAIL [email protected] OF BEL +31 (0)35 - 5394490. WERKEN BIJ KADENZA? KIJK OP PLAYITSMART.NL.