(Illustrasjon: Istock)

Store verktøy fra Microsoft

Microsoft har for lengst gått fra å ha svært proprietære løsninger og omfavner stadig flere standarder. Så også innen Big Data.

Tidligere i år lanserte Microsoft Azure Data Lake Store som skal kunne håndtere store analysejobber. Den er kompatibel med HDFS (Hadoop Distributed File System). "Lake" er et begrep innen Big Data om massive datalagre som er satt til side for senere bearbeiding.

Mye innen Big Data dreier seg om umiddelbar prosessering og bearbeiding i sanntid. Hadoop fra Apache fremstår som bransjestandard som rammeverk for håndtering av store datamengder, og er utviklet i Java og distribueres som åpen kildekode. På Javazone-konferansen i Oslo stilte Microsoft med bannere hvor de hevder å elske Linux. En ganske stor endring i strategi en for bare noen få år siden.

Tre elementer

I en blogg skriver T. K. Rengarajan, som er direktør for dataplattform i Microsoft, at Azure Data Lake består av tre deler, hvor Store er en av dem. Den utgjør ett datalager (repository) hvor brukere kan lagre data uavhengig av type, størrelse eller format uten å måtte bry seg med endringer etter hvert som datamengden skalerer.
I Data Lake Store skal data være lagret sikkert og kunne deles, søkes i og prosesseres med HDFS-baserte applikasjoner og verktøy.

Rengarajan skriver at den andre delen er Azure Data Lake Analytics, som er en tjeneste basert på Apache YARN (Yet Another Resource Negotiator), som også er kjent som MapReduce 2.0.

Azure Data Lake Analytics er basert på U-SQL, et språk som skal forene fordelene med SQL med et programmeringsspråk. Kombinasjonen av databaseforespørsler med SQL og prosedyre-orienterte språk som C#. U-SQLs skalerbare distribuerte muligheter for spørring (query) skal la deg på effektivt vis la deg analysere data i "sjøen" (du tok den?) og samtidig data i SQL Servere i Azure, Azure SQL Database og Azure Data Warehouse.

Oppe og hoppe

Den tredje delen i Microsofts verktøy for Big Data er Azure HD Insight. Det er en fullstendig administrerbar Apache Hadoop klyngetjeneste (cluster service). Her er det fritt frem for analyseverktøy i åpen kildekode, som HBase, Spark, Hive og Storm.

Microsoft tilbyr administrerte Linux-klynger med SLA (tjenestenivåavtale) på 99,9 prosent oppetid. Computerworld har ikke opplysninger om når det vil være tilgjengelig i Norge.

Ifølge Michael Rys, som siteres av Network World, er U-SQL bygget på Microsofts erfaringer med SCOPE, og spørrespråk som T-SQL, ANSI SQL og Hive. Det bruker datatyper fra C# og benytter C#-syntaks for å håndtere data innenfor SELECT-uttrykk og dermed en "operativ" måte å spørre om data på,

Les om:

Big Data