Ny multimodal og samtalevenlig ChatGPT

ChatGPT har i snart halvandet år været synonym med AI. Med ChatGPT har det været muligt at have en samtale gennem tekst, mens Dall-e fra samme firma, har været i stand til at generere AI-billeder.
Nu har OpenAI sendt en ny model på gaden som både kan forstå og svare gennem tekst, lyd og billeder på samme tid.


13. maj 2024 | Sune Kuntz

OpenAI logo.

GPT-4o (o for omni) er en ny model fra OpenAI, firmaet bag den populære ChatGPT LLM (Large Language Model). Modellen er en udvikling fra deres forrige GPT-4 model.

Det nye ved GPT-4o er, at det nu er muligt at kommunikere med både tekst, billede og lyd med Chat-GPT. Før var det muligt at indtale en besked som så blev transkriberet til tekst og sendt til Chat-GPT, men GPT-4o er i stand til at forstå lyde og tale direkte.

Det betyder at ChatGPT bliver gjort multimodal, hvilket vil sige, at flere modaliteter – tekst, lyd, billeder og endda video – kan benyttes sammen for at give et svar. Et eksempel kunne være, at du spørger ChatGPT om, hvad du ser. Den benytter kameraet til at se verdenen, hvorefter den giver et svar gennem lyd.

OpenAI skriver selv, at den nye model har svartider på så lidt som 232 millisekunder, med et gennemsnit på 320 millisekunder. Ifølge dem selv, er det tilsvarende den tid det tager et menneske af svare i en normal samtale.

Med GPT-4o er i stand til at forstå intonation, latter, og kan gennemskue tonen i ens tale. Den kan ligeledes selv modulere sine svar, så disse tre passer til det, som modellen svarer.

Derudover er modellen også trænet på mere data, så svarende den giver burde være mere præcis end den nuværende GPT-3.5 som benyttes af den gratis ChatGPT, og GPT-4 model som benyttes hvis man er GPT Plus abonnent.

GPT-4o billedegenkendelse og forbedret svar kommer til den gratis udgave af Chat-GPT fra i dag, mens GPT Plus abonnenter vil få adgang til lydsamtaler og videogenkendelse i løbet af de næste måneder.

Se en demonstration af den nye og yderst imponerende model herunder, hvor to ChatGPT chats snakker sammen:

Interessen for multimodale LLM-modeller har været på et højt niveau det seneste år. Interessen har i høj grad været på grund af Humanes AI Pin og Rabbits R1, som begge er håndholdte, multimodale LLM-maskiner.

Flere funktioner til gratis brugere

Sammen med GPT-4o fortæller OpenAI også, at en række funktioner der før var forbeholdt betalende ChatGPT-brugere, vil blive gjort tilgængeligt for gratis brugere.

Helt præcist skriver OpenAI, at følgende funktioner bliver gjort tilgængelige for gratis brugere:

Farvel til Google Assistant og Siri?

Med lanceringen af GPT-4o står det klart, at OpenAI er langt foran, hvad både Siri og Google Assistant er i stand til. Det er da heller ikke nogen hemmelighed, at begge firmaer ser frem mod at erstatte deres aldrende assistenter med en LLM-kyndig assistent.

Google har for nyligt erstattet Google Assistant med deres Gemini – deres pendant til ChatGPT – på deres Pixel telefoner, og med Google I/O der kun er en dag væk, er det svært ikke at forestille sig flere Gemini nyheder.

Faktisk så smed Google en lille teaser video på X lige efter OpenAIs demonstration af deres GPT-4o model. I videoen kan man se Google Gemini ligeledes fungere multimodalt, ligesom den nye model fra OpenAI.

Det har sågar været rygtet, at Apple har arbejdet på deres egen LLM version af Siri, men nu ser det ud til at et partnerskab er indgået med OpenAI. Det betyder højst sandsynligt, at Siri inden for den nærmeste fremtid kommer til at fungere som en ChatGPT proxy, og altså derfor bliver mere samtalevenlig.

Apple har længe været kendt for at tage brugernes sikkerhed seriøst (selvom det måske ikke er helt så sandt), og netop her ligger problemet. En LLM er afhængig af en masser træningsdata. Hvis ikke man har data at træne LLM’en på, så kommer den ganske enkelt ikke til at være særlig god.

Apple har ikke nær så meget data som Google eller OpenAI, og det betyder at de enten skal til at indhente noget mere data, eller købe sig til data. Det ser altså ud til at de har valgt løsning nummer to.

© Positron 2024