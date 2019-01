Når samfunnet satser mer og mer på kunstig intelligens og digital kommunikasjon, er det tilgjengeliggjøringen av digital informasjon som kartdata, journaler, transaksjoner og posisjonsdata som får mest oppmerksomhet. Den språklige komponenten i de digitale løsningene kommer i skyggen. Det ønsker Språkrådet å gjøre noe med.

Åpne data

Språkteknologien er blitt en del av hverdagen vår. Vi møter den i alt fra stavekontroller og maskinoversettelser til samtaleroboter (chatbots) og smarthøyttalere. Teknologien er avgjørende for sømløs universell utforming og for utvikling av talegjenkjenning, talesyntese, tekstanalyse og ulike former for kunstig intelligens.

Fordelen med språkteknologien er at den effektiviserer kommunikasjonen mellom det offentlige, næringslivet og privatpersoner. Ulempen er at de språkteknologiske løsningene foreløpig fungerer bedre på engelsk enn på norsk.

Heldigvis kan vi gjøre noe med dette. All språkteknologisk programvare bruker språkdata, og jo mer og bedre data man mater programvaren med, jo bedre blir resultatet som kommer ut. Språkrådet og Nasjonalbiblioteket samler inn slike data og legger dem i Språkbanken, en åpen plattform for deling av data og verktøy til språkteknologi.

Spredte data

Språkdata kommer i mange innpakninger: stordata (big data), termbaser, synonymordlister, oversettelsesminner, tekster fra spesialiserte fagområder, taledata og mye mer. I mange tilfeller er dataene produsert for andre formål enn språkteknologi. De ligger spredt, og er uten faglig merkelapp. For eksempel vil ikke en oversettelse ligge lagret under merkelappen "språkdata", siden det opprinnelige formålet med den ikke er å fungere som «mat» for fremtidige oversettelser. Likevel er det nettopp tidligere oversettelser som brukes for å lære opp programmer som produserer nye oversettelser.

Jo flere oversettelser et program arbeider med, jo bedre blir neste oversettelse, og jo mer områdespesifikke oversettelsene er, jo bedre blir nye oversettelser innenfor samme område.

Dyre data

Noen typer data utvikles spesielt for språkteknologiske formål, for eksempel bearbeidede taledata som brukes i talegjenkjenning. Slike data er dyre å produsere, særlig fordi en norsk talegjenkjenner skal kunne håndtere det norske dialektmangfoldet. Bare store aktører som Google har tilstrekkelig med midler til selv å utvikle data til språkteknologiske løsninger på norsk – i den grad de finner det hensiktsmessig.

Når mindre bedrifter skal utvikle teknologiske produkter og verktøy som inneholder språkkomponenter, må de ha tilgang til gode språkdata for at deres produkter skal kunne konkurrere med produkter fra de store aktørene. Det er ikke realistisk å regne med at hver enkelt bedrift skal klare å samle inn eller produsere data til slike formål.

Skal vi nå målene i den norske språkpolitikken og gi norske språkbrukere gode digitale tjenester og produkter, må vi ha mulighet til å gjenbruke de dyre dataene som er utviklet for språkteknologiske formål. Vi må også ha rutiner for å samle inn og nyttiggjøre oss de spredte dataene som er produsert for andre formål enn språkteknologi. Det offentlige må være villig til å ta regningen slik at teknologien virker like bra på norsk som på engelsk.