Ser forskjell på Jordan og Jordan

Ser forskjell på Jordan og Jordan

Et norskutviklet dataprogram kan ha tatt et kvantesprang innen søk ved å skille mellom egennavn i tekster.

Google kan ikke skille mellom elven Jordan, nakenmodellen Jordan og tannbørstemerket Jordan. En ny doktoravhandling ved Universitetet i Oslo viser at dette er mulig.

Ved Institutt for lingvistiske og nordiske studier har Åsne Haaland utviklet et program som gjør det mulig for en datamaskin å skille forskjellige typer egennavn i en tekst, avhengig av om egennavnet er en person, et sted, en organisasjon eller noe annet.

– Det er naturlig at menneskehjernen kombinerer forskjellige trekk ved egennavnet i konteksten: Kanskje har vi hørt egennavnet før. Kanskje gjenkjenner vi deler av egennavnet eller det har stått tidligere i teksten. Poenget er: Akkurat som menneskehjernen skal datamaskinen kombinere forskjellige trekk ved egennavnet og sammenhengen navnet forekommer i, for å kunne klassifisere egennavnet riktig, forteller Åsne Haaland til forskningsmagasient Apollon.

Haaland er den første ved Universitetet i Oslo som har tatt doktorgrad i statistikkbasert språkteknologi. Fagfeltet er tolv år gammelt og kombinerer fagområdene språk, statistikk og informatikk. Dette er også første gang metoden blir testet ut på det norske språket.

Eksempelbanken

Haaland har klassifisert 7500 egennavn fra norske tekster i ukeblad og aviser. Deretter lager dataprogrammet en sannsynlighetsmatrise som ranker hvilken kategori som er mest sannsynlig. I dag klarer dataprogrammet hennes å få riktig svar i mer enn fire av fem tilfeller.

– Datamaskinen skal selv oppdage gode og klare sammenhenger. Dette kalles mønsterlæring.

Teknologien kan også være nyttig for nyhetsredaksjoner og andre som bruker automatisert nyhetsovervåking. Men også etterretningsvesenet og politiet kan få glede av teknologien når de skal overvåke store mengder tekst.

Les mer her på websiden til Apollon.