ESSENSEN: Mye handler om å forstå hvilke data som er aktuelle, nøyaktige og relevante – i dagens kontekst, skriver Bret Greenstein i Cognizant. (Foto: Cognizant) 

Data- og analysemodeller har en «best før»-dato

KRONIKK: Å forstå data og modellforfall handler om mye mer enn tradisjonelle størrelser som alder eller tid, skriver Bret Greenstein.

Publisert Sist oppdatert

Ved å kontinuerlig å sikre seg oppdaterte, nøyaktige og relevante forretningskritiske data og analysemodeller, kan organisasjoner bedre forutse og proaktivt løse eventuelle utfordringer før de dukker opp. Data med tidsbegrenset verdi (perishable data) og tilsvarende analysemodeller gjør det imidlertid mye vanskeligere både å forutse og respondere på plutselige endringer. Det være seg i etterspørselen etter produkter og tjenester, prisene på råvarer eller forbrukernes holdninger.

Virksomheter som sørger for å holde data og analysemodeller oppdaterte øker ikke bare sjansen for å overleve, men også muligheten til å skaffe seg en større markedsandel, inntekter og fortjeneste. Jo dypere og mer nøyaktig innsikt en bedrift kan generere, jo større verdi produseres internt og eksternt. Tenk for eksempel på en nærbutikkjede som identifiserer hvilke produkter som selger raskest i butikkene sine under pandemien. Dette gjør at de kan være sikre på at de har nok av varene på lager, og plassere dem i nærheten av kassene, slik at kundene kan tilbringe så lite tid i butikken som mulig. På den måten øker de salget av produktene – og bidrar til at kundene føler seg trygge.

Aktuelle nok data:

Dette er oppdaterte data som reflekterer de siste endringene som kan ha en vesentlig innvirkning på virksomheten. Disse inkluderer for eksempel åpninger eller innstramminger i forbindelse med korona, eller en oppfordring på sosiale medier om en protest nær (eller mot) virksomheten. Avanserte AI-teknologi maskinlæring kan bidra til å identifisere slike data ved for eksempel å identifisere hvilke datakilder som ble brukt til å generere modellene.

Modellene blir kontinuerlig utviklet og bruker avansert AI for å trene på «virtuelle tvillinger» i den virkelige verdenen, fremfor å trene én gang på statistiske data. For eksempel er mange prediktive modeller basert på ansatt- eller forbrukeratferd registrert før korona, åpenbart ikke relevante lenger. Men modeller basert på dagens atferdsmønster vil også endres i takt med blant annet infeksjonsrater, åpning eller stenging av samfunnet, protester og naturkatastrofer.

Presise nok data:

Disse dataene er vasket og validert for å sikre at de kommer fra en nøyaktig kilde, som ikke har blitt kompromittert og er lagret i et brukbart format. Dette er spesielt viktig for ustrukturerte data, eller data som er hentet fra nyere kilder som sosiale medier eller Internet of Things (IoT). Slike data kan være kilde til viktig innsikt, for eksempel når geodata fra mobiltelefoner brukes sammen med koronatesting til å spore sykdomsutbredelsen og nye infeksjoner.

Presise modeller er ikke bare testet for nøyaktighet under dagens forhold, men kan ved hjelp av avansert AI gi mer nøyaktige forutsigelser eller anbefalinger. En virksomheter som klarer å planlegge

for noe som er lite sannsynlig, men har store konsekvenser, for eksempel at millennials kan finne på å gi opp urbane strøk som en konsekvens av korona, kan skaffe seg store fordeler i markedet. Et annet eksempel er analytiske modeller som klarer å oppdage ukentlige eller sesongavhengige mønstre i finansielle transaksjoner. Disse har liten verdi hvis konkurrentene allerede har oppdaget disse variasjonene, og justert for det i sin virksomhet. For å unngå slike situasjoner er modeller som er presise også lært opp til å se bort fra mønstre i dataene når disse mønstrene ikke lenger har noen betydning.

Relevante nok data:

Disse dataene er vesentlige eller er kausale nok til å ha en signifikant innvirkning på forventninger om fremtidige forhold, og/eller handlinger som anbefales som en mulig respons. Før "Me Too"-bevegelsen ville for eksempel en ufølsom tweet fra en administrerende direktør kanskje ikke vært et datapunkt som var verdt å spore. I dag kan boikotten i kjølvannet av en slik tweet gi dramatisk omsetningsfall, tap av markedsandeler og merkevareverdi.

Ved å utvikle og foredle relevante modeller kan organisasjoner bruke maskinlæring for å avgjøre hvilke data som er mest nyttige, og å se bort ifra mindre nyttige data. Og nesten like viktig; på denne måten unngår man også å sløse med penger, tid og krefter på å trene analysemodellene på data som ikke lenger er brukbare.

 

Bret Greenstein, SVP and Global Head of Data, Cognizant