Less is more...

DND: Tenk arkitektur. Hold kompleksiteten nede.

Publisert Sist oppdatert

Av: Frode Finnes Larsen, Produktdirektør, EVRY

Jeg er over snittet interessert i musikk og har flerfoldige hyllemeter med CDer (til yngre lesere: små plastikkplater som inneholder data).

Nå er riktignok CD-platene dumpet inn i iTunes og arkivert i boden.

De siste par årene har jeg betalt abonnement i Spotify, noe som i prinsippet har gitt meg uendelige mengder med musikk tilgjengelig på HIFI-anlegget, PC og mobiltelefonen.

Hva har så disse enorme datamengdene gjort med mitt bruksmønster?

Tidligere når jeg skulle hygge meg med musikk, sto jeg gjerne en stund foran CD-samlingen og skummet over katalogen, før jeg kanskje fant frem en skive jeg ikke hadde hørt på lenge. Ved å ha en systematisk oversikt fikk jeg god variasjon innenfor tilgjengelig katalog. Med Spotify har jeg en ubegrenset katalog. Jeg har i prisnippet alle CD-plater (sannhet med modifikasjoner). Men jeg ender ofte opp med å høre på de samme sangene. Typisk de som er merket som favoritter eller ligger i spillelistene. Utvalget gjøres ut fra den mest synlige, tilgjengelige og åpenbare informasjonen.

Paradoksalt nok fører disse enorme datamengdene til en mindre variasjon, et mindre beslutningsgrunnlag, enn da jeg hadde en begrenset katalog som jeg hadde oversikt over. Less is more...

Dette kan overføres til forretningssystemer og eksploderende mengde strukturerte og ustrukturerte data i virksomhetene. Det hjelper lite å ha enorme datamengder om vi ikke nyttegjør oss dem eller vet hvilke potensielt skjulte skatter og verdier som ligger lagret. Faktisk vil disse ubrukte datamengdene i tillegg føre til økt vedlikehold og være en tikkende bombe datasikkerhetsmessig.

Med tiden lærer man seg noen triks i ludo. I Spotify bruker jeg de sosiale egenskapene og krysskopling av artister for å utvide datagrunnlaget og øke variasjonen av musikk. Det har også kommet et par gode apper. Videre er Live365 og Last.fm fine tjenester som spiller tilfeldig utvalgt musikk basert på mine preferanser. Datautvalget økes ved hjelp av IT-støtte.

Overført må man altså ta grep for å nyttegjøre seg de store datamengdene i norske virksomheter.

Big Data er et moteord for å beskrive trenden rundt eksplosive datamengder. Extreme Information Management er kanskje mer beskrivende og Gartner forklarer dette med egenskaper i data som går utover tradisjonell IT innen dimensjonene "volum", "hastighet", "kompleksitet" og "variasjon". Vi ser altså et drastisk skifte og økning innenfor disse dimensjonene.

Vesentlige drivere for Big Data er sosiale medier og mobilitet. Vi har kun sett starten, etter vært som strømmålere, biler, kjøleskap og andre dingser skal på nett, vil mengder, kompleksitet og krav til hastighet virkelig eksplodere. Offentlig sektor og modernisering av helse er også tunge drivere for Big Data. Økt digitalisering, automatisering og innbyggerdialog krever mer av systemene. Eller hvordan gikk det med selvangivelsene i år?

Det å håndtere ekstreme datamengder er ikke noe nytt. Flere aktører har jobbet med dette lenge. I EVRY har vi jobbet med dette i mange år: Analyser av banktransaksjoner for å avdekke hvitvasking, håndtering av folkeregisteret og andre store offentlige registre, gjennomføring av valg, vesentlig del av Norges EDI-transaksjonene, efaktura, energi trading, og så videre. Dette har gitt oss solid erfaring i å håndtere ekstreme datamengder.

Viktigheten av å kunne mestre Big Data kan enkelt illustreres ved aksjehandel. Prisen på en aksje settes ut fra forventinger om fremtidig inntjening. Det er et veddemål eller psykologisk spill. Det finnes ekstreme mengder variert informasjon tilgjengelig på nett som kan være med å påvirke forventinger og da pris: Pressemeldinger, nyhetsoppslag, rapporter, diskusjonsforum, Facebook, tweets, Linkdin, kredittinfo, Brønnøysund og ikke minst krysskoplinger av alt dette. Det å lage en aggregert rapport basert på dette datagrunnlaget er ganske heavy.

For å dra det ned på bakken igjen: Den samme gamle leksa; det handler om arkitektur. I første omgang virksomhetsarkitektur, deretter en systemarkitektur og infrastruktur som støtter denne.

For å nyttegjøre seg store datamengder og de skjulte skatter:

  • Ta utgangspunkt i virksomhetens forretningsmodell. Finnes ikke denne, sørg for at den blir laget! Bruk gjerne http://www.businessmodelgeneration.com/
  • Beskriv en virksomhetsarkitektur som støtter opp under forretningsmodellen. Bruk gjerne Zachman eller Togaf, eller mer lettbente varianter. Hensikten er å beskrive hvordan virksomheten og IT henger sammen.
  • Beskriv en overordnet datamodell (egentlig en del av virksomhetsarkitekturen). En tradisjonell datamodell er nytteløs. Her er det snakk om å beskrive informasjonsbehov og mulige kilder – og hvordan dette henge sammen.

Om disse elementene er på plass, er du langt på vei i å håndtere paradokset beskrevet tidligere. Du har CD-samlingen, og ikke et uendelig sort hull. Nå mangler man bare systemkomponenter for å håndtere komplekse og enorme mengder data¿

I årene som kommer vil tilgangen på teknologi for å håndtere ekstreme informasjonsmengder øke kraftig. Verktøy for tekstanalyse, prediktiv BI, prosessering i minne, semantisk, kunstig intelligens, MapReduce, cloud, for ikke å snakke om maskinvare og teknisk infrastruktur. Men man kommer langt med tradisjonelle systemkomponenter gitt at man har oversikt over informasjonsbehov og mulige kilder. En integrasjonsmotor av god ytelse, noen data management verktøy og kanskje en søkemotor så er du godt i gang.

En ting er sikkert. Informasjonsmengden og kompleksiteten kommer bare til å akselerere. Den som vinner er de som evner å utnytte og verdiøke relevant informasjon. Skal man henge med må man starte nå og vokse med utfordringene som de kommer.

Tenk arkitektur. Hold kompleksiteten nede. Less is more¿