NYHETER:

Sundar Pichai, CEO Google og Alphabet. Keynote Google I/O 2024. (Foto: Google).
Google A/I: Toppsjef i Google og Alphabet brukte nesten to timer på å legge frem nyhetene på årets Google I/O. (Foto: Google).

Google I/O-konferansen med mange AI-nyheter

Årets I/O-konferanse dreier seg om lite annet enn kunstig intelligens, og kunne like gjerne hett «Google AI».

Publisert Sist oppdatert

Google I/O er selskapets årlige utviklerkonferanse, hvor det gjerne lanseres produkter og prosjekter og åpnes for gjennomgang av disse sammen med utviklere. I fjor delte Google planene for Gemini – en familie med multimodale AI-modeller som skal være et skritt i retning av å gjøre enhver input om til enhver output – en «I/O» for en ny generasjon, som Google skriver i en pressemelding.

Multimodalitet

«Multimodalitet er en betegnelse innen AI som står for innovasjoner på tvers av produkter, forskning og infrastruktur, og hvordan det tar oss nærmere vårt endelige mål om å gjøre AI nyttig for alle», forklarer Science Direct.

Nå hevder Google at de er inne i Gemini-æraen for fullt. Den preges av AI-innovasjoner på tvers av produkter, forskning og infrastruktur, og hvordan det tar selskapet nærmere sitt endelige mål om å gjøre kunstig intelligens nyttig for alle.

– I dag jobber Gemini under panseret på tvers av nær sagt alle våre produkter, og når gjennom disse mer enn to milliarder mennesker. I dag delte vi hvordan det hjelper oss å skape nye opplevelser og gjøre produktene våre enda mer nyttige, skriver Google.

En god del nytt for utviklere

Det er et nytt tillegg til Firebase-plattformen, kalt Firebase Genkit, som tar sikte på å gjøre det enklere for utviklere å bygge AI-drevne applikasjoner i JavaScript / TypeScript, med Go-støtte kommer snart. Det er et rammeverk med åpen kildekode, ved hjelp av Apache 2.0-lisensen, som gjør det mulig for utviklere å raskt bygge AI inn i nye og eksisterende applikasjoner.

LearnLM er en ny familie av generative AI-modeller «finjustert» for læring. Det er et samarbeid mellom Googles DeepMind AI-forskningsavdeling og Google Research. LearnLM-modellene er designet for å «samtale» veilede studenter på en rekke emner, sier Google.

Google Photos får en AI-innsprøytning med lanseringen av en eksperimentell funksjon, Ask Photos, drevet av Googles Gemini AI-modell. Det nye tillegget, som rulles ut senere i sommer, vil tillate brukere å søke på tvers av Google Foto-samlingen sin ved hjelp av naturlige språksøk som utnytter en AIs forståelse av bildets innhold og andre metadata.

Nye prosessorer

Google avduket sin neste generasjon – den sjette, av sine Tensor Processing Units (TPU) AI-brikker. Vi snakker altså om maskinvare. De har fått navnet Trillium, og lanseres senere i år.

Disse nye TPU-ene vil ha en ytelsesøkning på 4,7 ganger i databehandlingsytelse per brikke sammenlignet med femte generasjon. Det som kanskje er enda viktigere, er at Trillium har tredje generasjon SparseCore, som Google beskriver som «en spesialisert akselerator for behandling av ultrastore innbygginger som er vanlige i avanserte rangerings- og anbefalingsarbeidsbelastninger».

Søk, selvfølgelig

Google legger til mer AI i søket sitt, og tviler på at selskapet mister markedsandeler til konkurrenter som ChatGPT og Perplexity. Det ruller ut AI-drevne oversikter til brukere i USA I tillegg ønsker selskapet også å bruke Gemini som agent for ting som turplanlegging.

Google planlegger å bruke generativ AI til å organisere hele søkeresultatsiden for noen søkeresultater. Det er i tillegg til den eksisterende AI-oversiktsfunksjonen, som lager et kort utdrag med samlet informasjon om et emne du søkte etter. AI Oversikt-funksjonen blir allment tilgjengelig tirsdag, etter en periode i Googles AI Labs-program

Og det er mer

Google har som nevnt kommet med en pressemelding om det hele, og dette er hva som står i den:

Utvidelse av AI-oversikter i Søk. Med en ny, tilpasset Gemini-modell – kapabel til flertrinns resonnering, planlegging og multimodalitet – kombinert med den beste søkemotoren, vil du snart kunne stille komplekse, flertrinns spørsmål, tilpasse søkeresultater, og til og med stille spørsmål med videoer [Blogginnlegg].

Introduksjon av Ask Photos. Over seks milliarder bilder lastes opp til Google Foto hver dag. Med Geminis multimodale evner redefinerer vi hvordan du kan søke i bildene og videoene dine. Vil du finne et spesifikt minne eller informasjon gjemt i galleriet ditt? Bare spør! [Blogginnlegg].

Nye måter å bruke Gemini i Workspace på. Geminis evner vil utvides til flere brukere og integreres i sidepanelet i Gmail, Docs, Drive, Slides og Sheets. Gemini-funksjoner vil også legges til Gmail-mobilappen [Blogginnlegg].

Gemini for Android. Vi bygger AI rett inn i Android-operativsystemet. Studenter kan nå få hjelp med lekser ved å sirkle rundt problemer med «Circle to Search». Geminis overlegg vil gi dynamiske forslag relatert til det som er på skjermen din – oppsummer en PDF eller «spør denne videoen» – mens TalkBack med Gemini vil være i stand til enda mer detaljerte bildebeskrivelser [Blogginnlegg].

Vi lanserer også Gemini 1.5 Pro til Gemini Advanced-abonnenter på mer enn 35 språk, sammen med et kontekstvindu på 1 million tokens – det lengste av alle allment tilgjengelige chatboter i verden. Dette betyr at den kan forstå mer informasjon enn noen gang før, som en PDF på 1500 sider, 30 000 linjer med kode, eller en times lang video.

Gemini Advanced-abonnenter vil også snart få tilgang til Live, en ny samtaleopplevelse på mobil. Med Live kan du snakke med Gemini og velge mellom forskjellige naturlig klingende stemmer. Du kan snakke i ditt eget tempo og til og med avbryte med spørsmål, noe som gjør samtaler mer intuitive [Blogginnlegg].

Vi ser også fremover til de neste modellene: Vi delte flere detaljer om Gemini 1.5 Flash, en mer kostnadseffektiv modell bygget på brukertilbakemeldinger, med lavere ventetid; og Project Astra, vår visjon for neste generasjon AI-assistenter, en responsiv agent som kan forstå og reagere på konteksten i samtaler [Blogginnlegg].

Vi har også jobbet tett med det kreative miljøet for å utforske hvordan generativ AI best kan støtte den kreative prosessen, og for å sikre at våre AI-verktøy er så nyttige som mulig for alle: 

I dag introduserer vi Veo, vår mest kapable modell for å generere video i høy definisjon, og Imagen 3, vår tekst-til-bilde-modell. Vi deler også nye demoinnspillinger – med globale artister – laget med vår Music AI Sandbox [Blogginnlegg].

Selvfølgelig er disse fremskrittene innen AI kun muliggjort av banebrytende infrastrukturteknologi. Trening av toppmoderne modeller krever mye datakraft. 

I dag avduket vi den sjette generasjonen av våre TPU-er, kalt Trillium, som leverer en 4,7x forbedring i ytelse per brikke sammenlignet med forrige generasjon, TPU v5e, og som vi vil gjøre tilgjengelig for Cloud-kunder senere i år [Blogginnlegg].

Dristig innovasjon må underbygges av ansvarlig innovasjon. Så vi utvikler en banebrytende teknikk vi kaller AI-assistert red teaming, som bygger på Google DeepMinds gjennombrudd innen spill som AlphaGo og utvider våre tekniske innovasjoner innen vannmerking som SynthID i to nye modaliteter – tekst og video – slik at AI-generert innhold er lettere å identifisere [Blogginnlegg].

Ved hjelp av Gemini, planlegger vi å gjøre AI nyttig for alle. Googles oppdrag er å organisere verdens informasjon på tvers av alle input, gjøre den tilgjengelig via enhver output, og kombinere verdens informasjon med informasjonen i DIN verden, på en måte som er virkelig nyttig for deg. Gemini vil hjelpe oss å nå det målet.