GIFTIG: Dersom datagrunnlaget ikke er godt nok, vil generativ AI gi dårlige råd. Etter å ha dumpet data i data-lakes, eller private datasjøer i årevis, har vi egentlig kontroll på hva som er der? (Foto: Istock)

Er forgiftet vann i den private datasjøen døden for etisk AI?

LEDER: Å slippe generativ kunstig intelligens løs på data-lakes, eller private datasjøer er både fristende og potensielt livsfarlig.

Anders Løvøy Anders Løvøy

Publisert 05.05.2023 - 13:17

Data-lakes, eller private innsjøer med data, er den fristende arvtakeren etter de mer komplekse datavarehusene. Et datavarehus krever en datamodell man må importere data til. Det passer dårlig i en tid der mesteparten av datagrunnlaget er ustrukturert, eller kommer fra forskjellige kilder som er strukturert på forskjellige måter.

Men når man samtidig vet at «the devil is in the details», er det veldig fristende å ta vare på stort og smått fra det enorme havet av data vi kontinuerlig skaper. Uten å måtte bruke tunge ETL (Extract, Transform, Load)-verktøy for å få dataene til å passe med datamodellen i datavarehuset først.

I sin egen private sjø, kan man dumpe akkurat det man vil, for senere å gå på jakt etter informasjon og kunnskap i dataene. Men for å skape mening av informasjonen som ligger gjemt i dataene, er man nødt til å forstå dem. Det har skapt problemer for mange som jobber med å analysere grunnlaget som ligger der.

Prinsippet er i bunn og grunn svært fornuftig. Vi visste ikke i går hvilken informasjon som kan skape verdi i dag. Nå har vi fått en helt ny verktøykasse i form av maskinlæring og generativ kunstig intelligens.

Men slipper vi egentlig jobben med å forstå og holde orden på dataene selv? Selv om det kan være fristende, advares det mot å slippe verktøyene løs på datasjøene ukritisk.

Det store problemet med den private datasjøen er mangelen på kontroll på datagrunnlaget. Eller hvordan man skal forstå dataene. Selve vannet i innsjøen – altså datagrunnlaget – kan rett og slett være forgiftet. Noe som ikke nødvendigvis er så enkelt å få øye på. Listen over mulige utfordringer er fryktelig lang. Like data kan være representert på forskjellige måter. Metadata, altså forklaring på data, kan være forskjellig for like data, og likt for forskjellige. Fordelingen av forskjellige typer data kan være feil, enten fordi det er riktig for virksomheten, eller det rett og slett er feil. For å nevne noe.

På toppen av det hele kan noen av dataene – uten at noen har tenkt over det – inneholde personopplysninger. Selv om lagring av personopplysningene er i tråd med GDPR i seg selv, krever den samme forordningen at hvis det trekkes lærdom eller konklusjoner av personopplysningene, må man være i stand til å forklare hvordan og hvorfor. Det kan man ikke i dag med generativ kunstig intelligens. Det er faktisk et helt eget forskningsfelt.

Det grunnleggende problemet er uansett det samme: vannet i datasjøen kan være giftig. Jo større datasettet er, jo vanskeligere vil det være både å få øye på, og forstå.

Det er et fryktelig dårlig utgangspunkt for trening av generativ kunstig intelligens. Men samtidig veldig fristende. Hvem vil ikke gripe muligheten til å trene opp og skape egne modeller, basert på egne data, for å få helt tilpasset innsikt, og se unike muligheter og konkurransefortrinn ingen andre har.

Man risikerer å få skråsikre råd som både er dårlige og i ytterste konsekvens ulovlige. Det er under ingen omstendighet en etisk måte å bruke generativ kunstig intelligens – før man har kontroll på dataene. Og er sikker på at de ikke inneholder gift.

Kanskje akkurat det – altså ikke å trekke konklusjoner fra datasjøen, men å forstå hva som er i den – er den første og viktigste jobben AI bør brukes til.

Er forgiftet vann i den private datasjøen døden for etisk AI?

LEDER: Å slippe generativ kunstig intelligens løs på data-lakes, eller private datasjøer er både fristende og potensielt livsfarlig.

Halden kommune tar grep med norskutviklet KI

Vil Trump slå hardt ned på Microsoft?

Solide resulater i tredje kvartal for Nordic Semiconductor

Nvidia investerer – Nokia-aksjen rett til værs

De offentlige KI-ambisjonene trenger en realitetssjekk

Planlegger stort datasenter i München

Microsoft kjøper opp 27 prosent av OpenAI

Adite: Vil overlisensiering av sky-tjenester til livs

Musk lanserer KI-generert konkurrent til Wikipedia

Oslo kommune inngår kontrakt på samhandlingsløsning

Vi har revolusjonert måten vi jobber på

Amazon kan sende opptil 30.000 på dør

Oracle utnytter sin sky 2.0

Stor Dynamics 365-kontrakt til Evidi på Vestlandet

– Vi har høy digital modenhet, men undervurderer risiko

Flere cyberangrep mot virksomheter i Norge

Nokios 2025 – fra strategi til virkelighetssjokk

Maskinlæring gir stor gevinst til norske banker

Teknisk gjeld kan stoppe digitalisering

Wifi 8 kommer – og vil gjøre KI mye raskere

Cyviz satser mer på forskning

Det er «Keep calm and carry on» i teknologisektoren

KI-klare selskaper leder an i verdiskapingen