Glem ikke språket

KOMMENTAR: Når det offentlige tar i bruk språkteknologi i digitale løsninger, er det påfallende at det ikke snakkes mer om språk, skriver direktør i Språkrådet, Åse Wetås.

Åse Wetås Åse Wetås

Språkrådet Språkrådet

Publisert 07.01.2019 - 16:29 Sist oppdatert 07.01.2019 - 16:29

Når samfunnet satser mer og mer på kunstig intelligens og digital kommunikasjon, er det tilgjengeliggjøringen av digital informasjon som kartdata, journaler, transaksjoner og posisjonsdata som får mest oppmerksomhet. Den språklige komponenten i de digitale løsningene kommer i skyggen. Det ønsker Språkrådet å gjøre noe med.

Åpne data

Språkteknologien er blitt en del av hverdagen vår. Vi møter den i alt fra stavekontroller og maskinoversettelser til samtaleroboter (chatbots) og smarthøyttalere. Teknologien er avgjørende for sømløs universell utforming og for utvikling av talegjenkjenning, talesyntese, tekstanalyse og ulike former for kunstig intelligens.

Fordelen med språkteknologien er at den effektiviserer kommunikasjonen mellom det offentlige, næringslivet og privatpersoner. Ulempen er at de språkteknologiske løsningene foreløpig fungerer bedre på engelsk enn på norsk.

Heldigvis kan vi gjøre noe med dette. All språkteknologisk programvare bruker språkdata, og jo mer og bedre data man mater programvaren med, jo bedre blir resultatet som kommer ut. Språkrådet og Nasjonalbiblioteket samler inn slike data og legger dem i Språkbanken, en åpen plattform for deling av data og verktøy til språkteknologi.

Spredte data

Språkdata kommer i mange innpakninger: stordata (big data), termbaser, synonymordlister, oversettelsesminner, tekster fra spesialiserte fagområder, taledata og mye mer. I mange tilfeller er dataene produsert for andre formål enn språkteknologi. De ligger spredt, og er uten faglig merkelapp. For eksempel vil ikke en oversettelse ligge lagret under merkelappen "språkdata", siden det opprinnelige formålet med den ikke er å fungere som «mat» for fremtidige oversettelser. Likevel er det nettopp tidligere oversettelser som brukes for å lære opp programmer som produserer nye oversettelser.

Jo flere oversettelser et program arbeider med, jo bedre blir neste oversettelse, og jo mer områdespesifikke oversettelsene er, jo bedre blir nye oversettelser innenfor samme område.

Dyre data

Noen typer data utvikles spesielt for språkteknologiske formål, for eksempel bearbeidede taledata som brukes i talegjenkjenning. Slike data er dyre å produsere, særlig fordi en norsk talegjenkjenner skal kunne håndtere det norske dialektmangfoldet. Bare store aktører som Google har tilstrekkelig med midler til selv å utvikle data til språkteknologiske løsninger på norsk – i den grad de finner det hensiktsmessig.

Når mindre bedrifter skal utvikle teknologiske produkter og verktøy som inneholder språkkomponenter, må de ha tilgang til gode språkdata for at deres produkter skal kunne konkurrere med produkter fra de store aktørene. Det er ikke realistisk å regne med at hver enkelt bedrift skal klare å samle inn eller produsere data til slike formål.

Skal vi nå målene i den norske språkpolitikken og gi norske språkbrukere gode digitale tjenester og produkter, må vi ha mulighet til å gjenbruke de dyre dataene som er utviklet for språkteknologiske formål. Vi må også ha rutiner for å samle inn og nyttiggjøre oss de spredte dataene som er produsert for andre formål enn språkteknologi. Det offentlige må være villig til å ta regningen slik at teknologien virker like bra på norsk som på engelsk.

Glem ikke språket

KOMMENTAR: Når det offentlige tar i bruk språkteknologi i digitale løsninger, er det påfallende at det ikke snakkes mer om språk, skriver direktør i Språkrådet, Åse Wetås.

Åpne data

Spredte data

Dyre data

Nå betaler Europa prisen for innovasjonslatskap

Når Windows 11 nyser, blir Azure forkjølet

BankID kan miste godkjenning på høyeste sikkerhetsnivå

Vil sikre norsk digital suverenitet

Konsentrasjonsrisiko er et problem som myndighetene må løse

Donald Trump henter inn kjente teknologitopper som rådgivere

Rekordmange tok doktorgrad i Norge i fjor

Velger Twoday som digital samarbeidspartner i Ålesund

Meta og Google dømt i California

Høyre vil få bukt med KI-juks på skolene

Finland snur – skal ikke flytte valgsystemet til AWS

Europeisk teknologiflukt til USA utgjør enorme verdier

Upcloud med ny utfordrer for skygigantene

Man skrur ikke en jetmotor på et propellfly

KoSy gir kommuneleger sanntidsdata – vinner eHelseprisen

Erstatter Cathrine Kloumann i Møller Digital

Tieto stikker fra Oslo Børs, men blir i Stockholm

Trumps rakettforsvar Golden Dome er under bygging

Cegal vokser og øker lønnsomheten

Tieto inngår velferdsavtale med Stockholm

Norge signerer utviklingsavtale for 5G-nødnett

Cisco vil gjøre KI-agenter sikre for produksjon

Microsoft: Fanget i kryssilden av Iran-krigen