KOMMENTAR | Åse Wetås, Språkrådet

GOD: Sjølv om nasjonale alternativ truleg aldri vil få like god generell yting som produkta til tek-gigantane, ser me at det er fullt mogleg å utvikla modellar og produkt som utfører spesifikke oppgåver med betre kvalitet, som til dømes å skriva korrekt norsk, skriv Åse Wetås i Språkrådet.

Digital sjølvråderett? Ja, det er mogleg

Det er naudsynt å forsyna Noreg med gode, norske språkmodellar. No er det òg mogleg.

Publisert Sist oppdatert

Digitaliseringsminister Karianne Tung har kunngjort at Noreg skal vera verdsmeister i digitalisering. Skal Noreg bli best i verda på dette feltet, treng me dei beste norske språkmodellane.

Det har vore diskutert om Noreg treng ein exitstrategi for oversjøiske sky-løysingar – altså om me må gjera oss mindre avhengige av digital infrastruktur frå land utanfor EU. Den same logikken bør òg gjelda for språkmodellar. Når me ikkje rår over teknologien, gjer me oss sårbare for sabotasje, openberr og subtil desinformasjon og driftsavvik, og me blir sårbare for politiske endringar i verda. Teknologigigantane får dessutan meir makt over framstillinga og utviklinga av språk, kultur, verdiar og haldningar.

Det må leggjast til rette for alternative norske språkmodellar, og no som det ser ut til å vera realistisk å få laga slike modellar, meiner me at det ikkje er nokon grunn til å venta med å gjera det.

Pølser, politikk og språkmodellar 

Om Språkrådet

Språkrådet er statens forvaltningsorgan i språkspørsmål og følger opp den norske språkpolitikken på oppdrag fra Kultur- og likestillingsdepartementet. Språkrådet skriver fast i Computerworld om temaer hvor språk møter teknologi. Språkrådets direktør er Åse Wetås (bildet). 

Språkmodellar og produkt som byggjer på dei, er i dag i utbreidd bruk i både privat og offentleg samanheng. Ifølgje tal frå SSB er det generativ KI som driv veksten i KI-bruk. Mange bruker ChatGPT og Microsoft Copilot til tekstproduksjon i offentleg forvalting, skule og næringsliv. Nokre svært få internasjonale teknologigigantar har bortimot total dominans i denne marknaden, og produkta deira er gjerne integrerte i ulike digitale løysingar. Dette gjer oss digitalt og kulturelt sårbare.

Den som veit korleis pølser og politikk blir laga, får aldri meir ei roleg natts søvn, skal Otto von Bismarck ha sagt. Kanskje gjeld det same for språkmodellar frå teknologigigantane, for desse modellane har me ikkje kontroll over. Me veit ikkje kva datagrunnlag dei er trena på, korleis dei er finjusterte til oppgåvene dei skal utføra, eller kva interesser som ligg (og i framtida vil liggja) bak utviklinga. Dessutan er utviklarane i land utanfor EU ikkje bundne av dei same restriksjonane på bruk av opphavsrettsleg verna materiale som dei som opererer innanfor Europa.

Måten dei store, generelle modellane blir utvikla på, krev enorme ressursar som ikkje finst i små land som Noreg. Men me ser at det er mogleg å utvikla eller finjustera meir spesifikke modellar som produserer like god eller betre norsk enn modellane til tek-gigantane.

Eigenproduserte modellar gjer det bra 

I mars i år skreiv eg her i Computerworld at Språkrådet skulle testa kvaliteten til språkteknologiske verktøy for å kunna gi oppdaterte og kunnskapsbaserte råd om språket i slike verktøy. Til no har me testa språket i skriveprogram som blir brukte i skulen, og språket som blir produsert i nyare versjonar av generative modellar.

Måten dei store, generelle modellane blir utvikla på, krev enorme ressursar som ikkje finst i små land som Noreg. Men me ser at det er mogleg å utvikla eller finjustera meir spesifikke modellar som produserer like god eller betre norsk enn modellane til tek-gigantane.

I undersøkinga av tekstar frå dei generative modellane, testa me fire ulike modellar. Tre av dei var utanlandske modellar som i stor grad er trena på engelskspråkleg materiale. Den siste modellen var utvikla i Noreg, og finjusteringa og instruksjonstreninga på den norske modellen var gjort eine og aleine på norskspråklege datasett, der ingenting var maskinomsett frå engelsk. Resultata viser at

  • den norskproduserte modellen, som var basert på ein Mistral-arkitektur og trena på norske data, gjorde det vel så bra språkleg som modellane frå dei store tek-gigantane
  • den norske modellen produserte færre feil som er vanlege både i bokmål og nynorsk, som til dømes omsetjingslån frå engelsk
  • alle modellane hadde langt fleire feil i dei nynorske tekstane enn i bokmålstekstane
  • det var mykje språkleg rusk i dei mest brukte modellane – på begge skriftspråka

Me forventa ikkje at den norske modellen, som vart utvikla nesten utan budsjett, skulle kunna måla seg med dei utanlandske modellane. Men testresultata viser at han var like god eller betre enn dei andre modellane me testa. Det er altså god grunn til å vera optimistisk på vegner av eigenproduserte modellar.

Typisk norsk å vera god? 

Sjølv om nasjonale alternativ truleg aldri vil få like god generell yting som produkta til tek-gigantane, ser me at det er fullt mogleg å utvikla modellar og produkt som utfører spesifikke oppgåver med betre kvalitet, som til dømes å skriva korrekt norsk. Utviklinga av modellar går raskt, og me ser at det no er mogleg å oppnå gode resultat med ein brøkdel av trenings- og datakostnadene av det som var i bruk i den første generasjonen av store generative språkmodellar.

Modellane frå tek-gigantane er i utstrekt bruk i Noreg. Det inneber at Silicon Valley kan koma til å styra korleis ein skriv norsk. Dette står i sterk kontrast til dagens situasjon, der norsk språk blir definert ut ifrå demokratiske prinsipp gjennom Stortinget, lovgjevinga, Språkrådet og høyringar. I tillegg kjem alle dei andre problema som er knytte til opphavsrett, personvern, treningsdata og digital sjølvråderett. Men det er ikkje for seint å endra dette! Med målretta innsats og kloke val kan og bør me bli verdsmeistrar i å laga norske språkmodellar.