INNOVATØRER: Aims Innovation, her representert ved daglig leder Ivar Sagemo, har holdt til i Startuplab-inkubatoren på Forskningparken i ti år. De har brukt tiden godt, og har et produkt de mener er verdensledende. (Foto: Stig Øyvann)
INNOVATØRER: Aims Innovation, her representert ved daglig leder Ivar Sagemo, har holdt til i Startuplab-inkubatoren på Forskningparken i ti år. De har brukt tiden godt, og har et produkt de mener er verdensledende. (Foto: Stig Øyvann)

KI-støttet it-drift er framtiden

Norske Aims Innovation er godt plassert for å kjempe i AIOps-markedet.

Publisert

Når et selskap driver med noe som senere blir fagterminologi, eller i alle fall et fellesnavn for en teknikk, kan man trygt si at selskapet har skaffet seg et forsprang i markedet. Dette er situasjonen for norske Aims Innovation. De begynte å jobbe med kunstig intelligens KI (AI - «Artificial Intelligence») i forbindelse med overvåking, drift og operasjoner av it-systemer, fem-seks år før analyseselskapet Gartner lanserte begrepet «AIOps».

Dette er en teknologi som «kombinerer stordataanalyse og maskinlæring for å automatisere prosessene innen it-operasjoner, som korrelasjon av hendelser, deteksjon av anomalier og årsaksbestemmelse», kan vi lese i Gartners definisjon.

Dette er altså systemovervåking og -administrasjon tilpasset vår tid, som preges av både lokale og skybaserte systemer, der både topologi og systemer er fleksible, elastiske og kan endre seg i fart. Dette er en kompleksitet som ingen manuelle prosesser kan følge, og derfor er AIOps eller andre automatiserte metoder den eneste farbare veien videre.

Du kan ikke ansette deg ut av denne problemstillingen i it-drift.

Mot denne bakgrunnen spår analytikerne hos Gartner en stor vekst for denne teknologien framover. De antyder en markedsverdi på 1,5 milliarder dollar i 2020, og en samlet årlig vekst på 15 prosent fram mot 2025. Om tre år vil 30 prosent av verdens selskap være avhengige av AIOps-verktøy, spår de. Og i midten av dette bildet sitter altså et lite norsk selskap som ser store muligheter framover.

Det manuelle uføret

Det er jo så logisk når du får det fortalt: Å bruke KI på drifts- og ytelsesdata fra it-systemene våre. Vi har lenge hørt at en viktig del av KI-revolusjonen gjennom disiplinen maskinlæring er på grunn av at nå er det svært store datamengder tilgjengelig innen de fleste fagfelt. I tillegg har hvem som helst tilgang til nær sagt uendelig prosesseringskapasitet gjennom sky-gigantenes tilbud. Summen av dette har vært med å drive de siste årenes KI-revolusjon.

Samtidig vet alle som har vært borti drift og operasjon på it-infrastrukturer, enten det er nettverk, servere eller systemer, at det finnes store mengder av måledata det går an å hente ut fra infrastruktur og systemer. Dette er også i høyeste grad sant når vi ser på de skybaserte tjenestene som mange bruker for å realisere sine løsninger. Gjennom API-er kan masser av ytelsesmålinger og andre driftsdata hentes ut derfra.

Før i tiden var dette ganske enkelt. Om miljøet var heterogent og fokuset var på nettverks- og kommunikasjonsdelen av driften, valgte man gjerne et SNMP-basert verktøy som for eksempel HP Openview for å hente ut ytelsesdata. Om man var mer system- og serverorientert, kunne et agentbasert verktøy som CA Unicenter være svaret.

UNIKT: I kommende versjoner av Aims-systemet vil brukerne få oversikt over hvilke systemer og komponenter som snakker med hvem, og hvor mye. Dette sier Sagemo er informasjon ingen besitter i dag. (Foto: Stig Øyvann)
UNIKT: I kommende versjoner av Aims-systemet vil brukerne få oversikt over hvilke systemer og komponenter som snakker med hvem, og hvor mye. Dette sier Sagemo er informasjon ingen besitter i dag. (Foto: Stig Øyvann)

I begge tilfeller handlet det om å holde øye med om komponentene var oppe eller nede, og periodisk måle enkeltverdier som via grenseverdier kunne avstedkomme en advarsel om noe. De mest ambisiøse hentet inn måleverdier regelmessig til loggfiler, som havnet i grafer på overvåkingskonsollet. Der kunne en erfaren operatør i tide kanskje se trender som krevde oppmerksomhet.

Det store problemet med disse strategiene er at om det skjer en endring i infrastruktur eller systemer, så måtte overvåkingen omkonfigureres manuelt for at den skulle kunne fortsette. Når antallet komponenter og kompleksiteten i systemene øker, så blir dette en umulig stor oppgave.

– Du kan ikke ansette deg ut av denne problemstillingen i it-drift, med å ansette flere for å gjøre den jobben. Du må gjøre det smartere, fastslår daglig leder Ivar Sagemo i Aims Innovation for Computerworld.

Det ligger i sakens natur, med tanke på hvordan it-tjenester produseres i dag. Både i skyen og i eget datasenter kan servere opprettes og tas ned i fart, og mikrotjenester og elastiske systemer gjør at det ikke er sikkert at operatørene eksakt kan gjøre rede for hvilke ressurser som er i bruk akkurat nå – langt mindre kjøre kontinuerlig manuell overvåking av dem på den tradisjonelle måten.

Modent etter ti år

Svaret på dette problemet er en langt høyere grad av automatisering. Overvåkingssystemet må klare å oppdage nye komponenter og tjenester etter hvert som de kjøres i gang. Innhentingen av drifts- og ytelsesmålinger må deretter starte opp uten at en operatør er nødt til å konfigurere og starte den opp.

Siden dette uansett er automatisk og programvarebasert, så kan systemet i samme slengen hente inn langt flere datapunkter enn det de menneskelige operatørene forholdt seg til før, og da begynner vi å bygge datamengdene som KI baserer seg på for å lære noe om det dataene representerer. Det grunnleggende er at systemet lærer noe om den normale driftssituasjonen, slik at den er i stand til å identifisere avvik fra denne normalen. I tillegg kan KI-en lære noe om hvilke komponenter og systemer som henger sammen, både med tanke på systemtopologi, men særlig hvilke som utveksler informasjon, og som dermed inngår i prosesskjeder. Ved hjelp av disse sammenhengene kan systemet bistå med å finne opprinnelig årsak til driftsbrudd eller avvik, slik Gartner-definisjonen innledningsvis nevner.

Når overvåkingssystemet agerer på denne måte, kan vi altså snakke om AIOps, og denne disiplinen er nå i ferd med å modnes og oppnå høyere markedsaksept, forteller Sagemo.

– Det har vært et langt løp, men markedet modnes veldig fort nå. Det har vært en tung salgsøvelse å selge inn til de første kundene, men nå ser vi et skikkelig skift i hele markedet. Spesielt på måten du presenterer det i forhold til AIOps og Gartner og disse tingene. Alle lytter på det, sier han.

Selskapet har virkelig holdt på med dette en god stund, og det er liten tvil om at de var tidlig ute med sin teknologi. Aims Innovation ble etablert i 2011, blant annet basert på forskningsresultater fra Universitetet i Oslo, og har holdt hus i Startuplab på Forskningsparken i Oslo siden da. Sagemo forteller at selskapet lanserte den første utgaven av programvaren sin i 2014, mens Gartner altså lanserte begrepet AIOps to år etter det.

Fra Biztalk til det meste

Programvaren Aims lanserte i 2014 var en løsning som kjørte lokalt, som i all hovedsak fokuserte på å overvåke Microsoft Biztalk-teknologi, som er en on-premise integrasjonsmotor.

– Vi greide å lage en fantastisk løsning for å overvåke alle detaljene innenfor det, det er kanskje ti tusen parametre for å forstå forsinkelse i porter, orkestrering og alt mulig sånt, sier Sagemo.

På det tidspunktet var det ikke særlig respons å få i det norske markedet for dette. Det var ingen modenhet for det i Norge, så Aims kikket raskt utenfor landets grenser.

– Så solgte vi inn til to av de ti største selskapene i USA, sier Sagemo fornøyd.

Det er mange som lenge har trodd at det å ta i bruk en skyleverandør løser alle driftsproblemene dine, og det er bare sprøyt.

Han forteller at i USA var markedet mye mer modent, og at kundene der raskt etterspurte støtte for å overvåke Microsoft SQL Server i tillegg til Biztalk, så da implementerte Aims agenter for å gjøre dette. Siden har støtte for Microsft IIS og Windows Server også blitt realisert.

I takt med at selskapets kunder i større og større grad tok i bruk skytjenester, kom behovet for å overvåke dem også. Sagemo forteller at da lagde Aims en integrasjon mot målings-API-en som Microsoft Azure tilbyr, slik at Aims-løsningen kunne hente ut måledata derfra også. Dette grensesnittet for dataoverføring inn i Aims har selskapet standardisert, og det åpner for at systemet ikke lenger er bundet til de teknologiene som selskapet har agenter for selv.

– Vi sier ikke nødvendigvis at agentene våre er framtiden, men det er der vi begynte. Så har vi standardisert det API-et nå, som betyr at du veldig enkelt kan koble til hva som helst av datakilder, forklarer Sagemo.

– Så vi støtter også noe som heter Influx Telegraf, som er en åpen kildekode agent, legger han til.

Denne integrasjonen åpner for at Aims-løsningen favner adskillig bredere. Via Telegraf får Aims støtte for å overvåke over 200 andre teknologier innen en rekke disipliner. Amazon Web Services, Docker og Kubernetes er kanskje blant de mest kjente navnene, men listen er lang og omfattende.

Parallelt med at Aims har fått stadig bredere systemstøtte, har selve plattformen og tjenestene også flyttet på seg. De er nå implementert som en SaaS-tjeneste, som huses hos Microsoft Azure.

Over de samme årene har Aims fått flere kunder, også her hjemme i Norge. På nettsidene til selskapet nevnes Bama, Obos, Agder Energi og Helse Midt-Norge som eksempler på norske virksomheter som har fått øynene opp for AIOps. Det finnes også flere europeiske virksomheter på kundelista.

Topologi og avvik

Den overordnete virkemåten til Aims-løsningen er egentlig ikke så vanskelig å beskrive, til tross for at det er avanserte algoritmer som ligger i bunnen: Systemet tar inn store mengder måledata fra en rekke kilder, og disse dataene normaliseres i standard tidsserier. Deretter gyver KI-en løs på å analysere dataene, for å finne topologier og normaltilstanden til systemene.

Ut fra dette kjøres det Aims-sjefen omtaler som «korrelasjonsalgoritmen» og «avviksalgoritmen», som henholdsvis kartlegger sammenhengen mellom systemer og tjenester, i form av samhandling mellom delsystemer i løsningen, i tillegg til en avviksanalyse som peker ut endringer nå, sammenlignet med systemenes normaltilstand.

– Forskjellen på det vi gjør og det mange andre gjør, er at vi bruker de to algoritmene, korrelasjonsalgoritmen og avviksalgoritmen, på alle dataene vi putter inn. Så uansett hvor mye data du putter inn, så kjører vi algoritmene. Mens alle andre konkurrenter prøver å begrense det til noen veldig få, men da får du ikke tryggheten om at du overvåker alt, understreker Sagemo.

KORRELASJONSTOPOLOGI: Underlaget for denne framstillingen er enorme mengder måledata fra alle systemer og komponenter i infrastrukturen. Deretter finner KI-en mønstrene, og viser dem på denne måten til brukeren. Det går også an å drille dypere ned i de enkelte sammenhengene. (Skjermbilde: Aims Innovation)
KORRELASJONSTOPOLOGI: Underlaget for denne framstillingen er enorme mengder måledata fra alle systemer og komponenter i infrastrukturen. Deretter finner KI-en mønstrene, og viser dem på denne måten til brukeren. Det går også an å drille dypere ned i de enkelte sammenhengene. (Skjermbilde: Aims Innovation)

Han forteller at overvåkingen av deres egne systemer, altså inklusive tjenestene selskapets kunder kjører, så overvåkes intet mindre enn 115.293 «metrics», altså separate måledata i tidsserier. Sagemo legger til at selskapets største kunde behandler oppunder en million slike metrics. Dette er et dramatisk større omfang enn det vi så i de tradisjonelle overvåkingssystemene.

– Vår hypotese er at alle dataene skal være i en kjempestor «data lake», og så ser vi på dataene på tvers. Alle andre tradisjonelle systemer er silobaserte. Da får du ikke ut informasjon på tvers, og det er det viktige for virksomhetene, understeker Sagemo.

Utdataene fra hovedalgoritmene er alarmer om avvik, dashbord som viser tilstanden i systemene som overvåkes, og grafiske framstillinger av sammenhengene mellom systemene, med tanke på sammenkobling og datautveksling.

– Der vi ser at det er bevegelse i dataene, så begynner vi å korrelere. Er det sannsynlighet for at disse to samhandler? Så begynner vi å tegne opp kartet, forklarer Sagemo.

– Dette er informasjon ingen besitter i dag, legger han til.

«Den hellige gralen»

Sluttresultatet som Aims-løsningen leverer er såre enkelt, og det er lett å bli forledet til å tro at dette betyr at prosesseringen under er tilsvarende enkel. Det er den slett ikke, men Aims har lagt ned mye krefter i å få resultatene enkle og tilgjengelige for brukerne.

– Dette er enkelheten i kompleksiteten. Det vi prøver å gjøre er å lage noe som er super-intuitivt basert på uhyre kompliserte data med en utrolig stor datafangst på tvers av systemer og datasentre. Og gi dem mening på en enkel måte, sier Sagemo.

– Det vi prøver å sørge for er at vi setter selskapene i stand til å forhindre noe, ved å gi informasjon tidlig. Og god informasjon, som setter dem i stand til å begynne å feilsøke. Med det omfanget av data vi henter inn, så er sannsynligheten for at vi gir den typen signaler tidlig, mye høyere enn om du hadde valgt enkelte parametre selv, og har satt statiske terskelverdier, utdyper han.

Sagemo mener likevel at teknologien som selskapet har utviklet slett ikke har kommet til enden, og har blitt komplett og fullstendig. Det er mulig å dra AIOps lenger, om bare kundene og markedet er mottakelige for det.

– Det ultimate er å ta aksjon. «Den hellige gralen» vi jobber med nå er å koble alarmene med automatiske handlinger. At systemet gjør automatiske aksjoner basert på innsikten lenger ned i informasjonen, forteller han.

Sagemo tenker på å la systemet selv kjøre i gang vedlikeholdsskripter som restarter prosesser eller tar andre grep som menneskelige operatører i dag gjør som en del av feilretting under drift.

– Hvis vi får det til, tenk på hvor mye tid du kan spare! Tenk hvor mye mennesker som sitter i sånne overvåkingssentraler og bare venter på avvikssituasjoner, legger han til.

I tillegg til automatiserte aksjoner jobber Aims Innovation også sammen med Norsk Regnesentral og Forskningsrådet på et prosjekt for å få systemet til å forutse avvikssituasjoner som en del av avviksalgoritmen. Det vil kunne gi operatørene av driftskritiske systemer enda mer tid på å gjennomføre tiltak som forhindrer driftsavbrudd før de faktisk skjer.

Verdensledende?

Da Computerworld ble tipset om AIOps og teknologien deres, ble de omtalt som «verdensledende». Det er naturligvis en omtale som vekker vår interesse, og vi har nå mot slutten av samtalen blitt imponert nok av det vi har fått se. Men hvorfor er dette verdensledende teknologi?

– Det er mest basert på det vi ser i markedet og responsen fra kundene. Så har vi analysert nesten alle som beveger seg der ute, og så er det masse samtaler med Gartner. Vi har snakket med alle analytikerne på dette området, og vi gjør det på en annen måte. Men det er primært evnen til å automatisere dette som gjør av vi er verdensledende på AIOps, svarer Sagemo.

det er primært evnen til å automatisere dette som gjør av vi er verdensledende på AIOps

Det er jo også slik at idet en teknologi eller en nisje som AIOps får stor nok markedsverdi, så vil de store it-aktørene også melde sin ankomst på området. Er ikke det en stor trussel mot posisjonen Aims har opparbeidet seg?

– Et marked som vokser fra tre til tretti prosent i løpet av noen år, det er jo superinteressant. Forrester sier omtrent det samme, og det gjør IDC også. Så de amerikanske selskapene vi stort sett konkurrerer mot, der er det «build or buy». Det er jo sånn de tenker, enten må de bygge det eller så må de kjøpe det. For de kommer ikke til å ignorere det markedet, det er sikkert, kommenterer Sagemo.

Ett av mottrekkene mot de store er å gjøre seg tilgjengelig for flere enn bare de aller største selskapene i verden. Aims-løsningen er priset slik at selv små virksomheter kan ta seg råd til å ta den i bruk, det finnes til og med en community-versjon som kan lastes ned gratis, forteller Sagemo.

– Alle konkurrentene våre har produkter som ligger på 100.000 dollar og oppover, og alle selskapene har jo ikke råd til det, så da må du komme med noe i det mellomsjiktet, og ta det markedet, sier han.

Sagemo påpeker også at deres største konkurransefortrinn er at løsningen ikke krever stor innsats for å komme i gang. Det aller meste er automatisert, slik at systemet begynner å arbeide etter timer, i stedet for måneder og år, uten de store prosjektene som mange av konkurrentene trenger for å komme i gang.

Aims Innovation skal også øke trykket på salg og markedsføring framover. Av de 10-11 personene som er ansatt der nå, er det i tillegg til Sagemo en markedsansvarlig som kommuniserer med omverdenen. Resten er matematikere og utviklere. Det vil altså endre seg noe framover, for selv om markedet er globalt, er Sagemo smertelig klar over at det er konkurransen også. Han innser at det er vanskelig å slippe til orde, og i det hele tatt bli lagt merke til på den globale markedsplassen.

Om Aims Innovation skal vokse til å bli en ekte markedsleder på sitt område i verden, vil bare framtiden vise. Dersom de mislykkes, så er det i alle fall ikke fordi de kom for seint til bordet. Dagens trend der virksomhetene flytter mer og mer av sine systemer ut til de store skytjenestene vil gi selskapet drahjelp, for det er mange som fremdeles har oppdagelsen av utfordringene med å overvåke sine tjenester i skyen foran seg.

– Det er mange som lenge har trodd at det å ta i bruk en skyleverandør løser alle driftsproblemene dine, og det er bare sprøyt. Det gjør det egentlig bare enda mer uoversiktlig, og det at tjenester er elastiske er ikke nødvendigvis bare en fordel. Det har også kostnader, avslutter en entusiastisk leder av Aims Innovation, Ivar Sagemo.