GIFTIG: Dersom datagrunnlaget ikke er godt nok, vil generativ AI gi dårlige råd. Etter å ha dumpet data i data-lakes, eller private datasjøer i årevis, har vi egentlig kontroll på hva som er der? (Foto: Istock)

Er forgiftet vann i den private datasjøen døden for etisk AI?

LEDER: Å slippe generativ kunstig intelligens løs på data-lakes, eller private datasjøer er både fristende og potensielt livsfarlig.

Data-lakes, eller private innsjøer med data, er den fristende arvtakeren etter de mer komplekse datavarehusene. Et datavarehus krever en datamodell man må importere data til. Det passer dårlig i en tid der mesteparten av datagrunnlaget er ustrukturert, eller kommer fra forskjellige kilder som er strukturert på forskjellige måter.

Men når man samtidig vet at «the devil is in the details», er det veldig fristende å ta vare på stort og smått fra det enorme havet av data vi kontinuerlig skaper. Uten å måtte bruke tunge ETL (Extract, Transform, Load)-verktøy for å få dataene til å passe med datamodellen i datavarehuset først.

I sin egen private sjø, kan man dumpe akkurat det man vil, for senere å gå på jakt etter informasjon og kunnskap i dataene. Men for å skape mening av informasjonen som ligger gjemt i dataene, er man nødt til å forstå dem. Det har skapt problemer for mange som jobber med å analysere grunnlaget som ligger der.

Prinsippet er i bunn og grunn svært fornuftig. Vi visste ikke i går hvilken informasjon som kan skape verdi i dag. Nå har vi fått en helt ny verktøykasse i form av maskinlæring og generativ kunstig intelligens.

Men slipper vi egentlig jobben med å forstå og holde orden på dataene selv? Selv om det kan være fristende, advares det mot å slippe verktøyene løs på datasjøene ukritisk.

Det store problemet med den private datasjøen er mangelen på kontroll på datagrunnlaget. Eller hvordan man skal forstå dataene. Selve vannet i innsjøen – altså datagrunnlaget – kan rett og slett være forgiftet. Noe som ikke nødvendigvis er så enkelt å få øye på. Listen over mulige utfordringer er fryktelig lang. Like data kan være representert på forskjellige måter. Metadata, altså forklaring på data, kan være forskjellig for like data, og likt for forskjellige. Fordelingen av forskjellige typer data kan være feil, enten fordi det er riktig for virksomheten, eller det rett og slett er feil. For å nevne noe.

På toppen av det hele kan noen av dataene – uten at noen har tenkt over det – inneholde personopplysninger. Selv om lagring av personopplysningene er i tråd med GDPR i seg selv, krever den samme forordningen at hvis det trekkes lærdom eller konklusjoner av personopplysningene, må man være i stand til å forklare hvordan og hvorfor. Det kan man ikke i dag med generativ kunstig intelligens. Det er faktisk et helt eget forskningsfelt.

Det grunnleggende problemet er uansett det samme: vannet i datasjøen kan være giftig. Jo større datasettet er, jo vanskeligere vil det være både å få øye på, og forstå.

Det er et fryktelig dårlig utgangspunkt for trening av generativ kunstig intelligens. Men samtidig veldig fristende. Hvem vil ikke gripe muligheten til å trene opp og skape egne modeller, basert på egne data, for å få helt tilpasset innsikt, og se unike muligheter og konkurransefortrinn ingen andre har.

Man risikerer å få skråsikre råd som både er dårlige og i ytterste konsekvens ulovlige. Det er under ingen omstendighet en etisk måte å bruke generativ kunstig intelligens – før man har kontroll på dataene. Og er sikker på at de ikke inneholder gift.

Kanskje akkurat det – altså ikke å trekke konklusjoner fra datasjøen, men å forstå hva som er i den – er den første og viktigste jobben AI bør brukes til.