Store verktøy fra Microsoft

Microsoft har for lengst gått fra å ha svært proprietære løsninger og omfavner stadig flere standarder. Så også innen Big Data.

Frank Johnsen

Publisert fredag 09. oktober 2015 - 14:56 Sist oppdatert fredag 09. oktober 2015 - 14:56

Tidligere i år lanserte Microsoft Azure Data Lake Store som skal kunne håndtere store analysejobber. Den er kompatibel med HDFS (Hadoop Distributed File System). "Lake" er et begrep innen Big Data om massive datalagre som er satt til side for senere bearbeiding.

Mye innen Big Data dreier seg om umiddelbar prosessering og bearbeiding i sanntid. Hadoop fra Apache fremstår som bransjestandard som rammeverk for håndtering av store datamengder, og er utviklet i Java og distribueres som åpen kildekode. På Javazone-konferansen i Oslo stilte Microsoft med bannere hvor de hevder å elske Linux. En ganske stor endring i strategi en for bare noen få år siden.

Tre elementer

I en blogg skriver T. K. Rengarajan, som er direktør for dataplattform i Microsoft, at Azure Data Lake består av tre deler, hvor Store er en av dem. Den utgjør ett datalager (repository) hvor brukere kan lagre data uavhengig av type, størrelse eller format uten å måtte bry seg med endringer etter hvert som datamengden skalerer.I Data Lake Store skal data være lagret sikkert og kunne deles, søkes i og prosesseres med HDFS-baserte applikasjoner og verktøy.

Rengarajan skriver at den andre delen er Azure Data Lake Analytics, som er en tjeneste basert på Apache YARN (Yet Another Resource Negotiator), som også er kjent som MapReduce 2.0.

Azure Data Lake Analytics er basert på U-SQL, et språk som skal forene fordelene med SQL med et programmeringsspråk. Kombinasjonen av databaseforespørsler med SQL og prosedyre-orienterte språk som C#. U-SQLs skalerbare distribuerte muligheter for spørring (query) skal la deg på effektivt vis la deg analysere data i "sjøen" (du tok den?) og samtidig data i SQL Servere i Azure, Azure SQL Database og Azure Data Warehouse.

Oppe og hoppe

Den tredje delen i Microsofts verktøy for Big Data er Azure HD Insight. Det er en fullstendig administrerbar Apache Hadoop klyngetjeneste (cluster service). Her er det fritt frem for analyseverktøy i åpen kildekode, som HBase, Spark, Hive og Storm.

Microsoft tilbyr administrerte Linux-klynger med SLA (tjenestenivåavtale) på 99,9 prosent oppetid. Computerworld har ikke opplysninger om når det vil være tilgjengelig i Norge.

Ifølge Michael Rys, som siteres av Network World, er U-SQL bygget på Microsofts erfaringer med SCOPE, og spørrespråk som T-SQL, ANSI SQL og Hive. Det bruker datatyper fra C# og benytter C#-syntaks for å håndtere data innenfor SELECT-uttrykk og dermed en "operativ" måte å spørre om data på,

big data computerworld

Store verktøy fra Microsoft

Microsoft har for lengst gått fra å ha svært proprietære løsninger og omfavner stadig flere standarder. Så også innen Big Data.

Tre elementer

Oppe og hoppe

Innfører Helseplattformen som planlagt

Visma holder oppkjøpstakten

Komplett svake i første kvartal

Tiden er inne for en strategisk sikkerhetsomstilling

Ny markedsdirektør til Advania

Dette kom de frem til i statene

Google sier opp ansatte etter Gaza-protester

Børsopptur for Nordic etter tall

Machine Identity Management Is the Foundation for Zero Trust

Er de tomme grønne løfters tid forbi?

Cognizant og Microsoft inngår partnerskap om generativ AI

Voyager sender atter data fra 24 milliarder kilometer unna

Nok et godt år for Buypass

Får ikke lansert digitalt HC-kort

Digitalisering må skje samlet

Emagine har funnet femtegiret i Norge

Utropstegn ved AI i rapport om cyberkriminalitet

Fortsatt vekst i digital signering

Kryptovaluta må føres i skattemeldingen

Hva er kommunesektorens digitaliseringsstrategi – egentlig?

På slottsplassen igjen - nå som helseminister

Vi må prate mer om det som ikke synes

- Vi får en helseminister uten helsepolitisk bakgrunn