DEBATT | Egil Fujikawa Nes

EVALUERING: Bedrifter bør bygge egne evalueringssett, eller såkalte "evals", med oppgaver du selv definerer med fasit på forhånd, skriver Egil Fujikawa Nes.

Fra magefølelse til datadrevne valg

Markedet for kunstig intelligens vokser i rekordfart. Nye modeller lanseres nærmest daglig, og det er krevende å vite hvilke som faktisk er best egnet for å løse konkrete oppgaver. Dessverre blir altfor ofte modellvalg basert på magefølelsen, antagelser, eller rett og slett hvem som roper høyest.

Publisert Sist oppdatert

Det finnes flere tjenester som forsøker å score og rangere AI-modeller basert på matematikktester og kunnskapstester. Det som er mest relevant for Norge er EuroEval. Et EU-finansiert prosjekt som tester både norsk bokmål og nynorsk, norske kunnskapstester – og til og med NRK-quizzer.

EuroEval har rangert de 500 mest brukte modellene. Noe som gir et godt utgangspunkt når man skal navigere i AI-landskapet. Men i et univers med over tre millioner modeller publisert på Hugging Face, er det åpenbart at ingen generisk rangering kan dekke alle behov.

Bygg egne evals

Bedrifter bør bygge egne evalueringssett, eller såkalte "evals", med oppgaver du selv definerer med fasit på forhånd. Når en modell testes, får du svart på hvitt om den leverer korrekt resultat eller ikke. På den måten kan du sammenligne gamle og nye modeller, avdekke feil og vurdere om billigere alternativer faktisk holder mål.

Evals er også nyttige for såkalt «regression testing». Hvilket vil si å teste at gamle feil ikke på nytt dukker opp når nye modeller tas i bruk. Mange dekker over promptene sine for å dekke over svakheter i en modell. Med evals kan du faktisk se om svakheten er borte i neste generasjon som betyr at du slipper å bygge inn unødvendige omveier.

Egil Fujikawa Nes, CTO i 99x Solutions

Betydelige kostnadsbesparelser

Evals handler ikke bare om å teste det nyeste og «beste». Det gjør det mulig å sammenligne åpne, selvhostede modeller opp mot kommersielle varianter fra OpenAI, Anthropic og Google. For norske bedrifter kan det være et stort poeng å velge enklere modeller til rutineoppgaver, da det kan gi betydelige besparelser i både kostnader, tid og miljøavtrykk. Det uten å gå på bekostning av kvaliteten.

Varig investering

Det å bygge Evals er ikke en engangsøvelse. Men heller ikke en kontinuerlig byrde. Når testcasene først er laget, kan de brukes om og om igjen. Daglig, ukentlig eller månedlig etter hvert som nye modeller dukker opp. Over tid bygges det en base med historiske data som gir et klart konkurransefortrinn. Etablert bransjekunnskap og realistiske syntetiske datasett gjør det enklere å lage gode evals-caser enn en oppstartsbedrift klarer med begrenset erfaringsgrunnlag.

Det å bygge Evals er ikke en engangsøvelse. Men heller ikke en kontinuerlig byrde.

Teknologer må ta føringen

I dag er det mye synsing og lite dokumentert testing i AI-debatten. Amerikanske selskaper lanserer stadig nye produkter med store ord, men uten harde data. Derfor må norske teknologer ta ledelsen og sette standarden. Det er våre tall, våre erfaringer og våre evalueringscaser som må avgjøre hva som god kunstig intelligens. Ikke magefølelsen eller markedsføringstriks. AI er i endring, men evals består. Det er gjennom faktiske tester, ikke antakelser, at vi kan bygge trygghet, spare ressurser og skape reell verdi.