Imagine generată cu GPT-4o

Noutățile din GPT-4o: asistent virtual ca în Her, funcționalități noi fără abonament și răspunsuri mult mai rapide în română14 min read

De Ionuț Preda 14.05.2024

Noua versiune a modelului OpenAI propune un asistent virtual văzut până acum doar în filmele SF, dar și multe funcționalități noi pentru utilizatorii fără abonament

OpenAI a lansat o nouă versiune a propriului model de AI generativ, numit GPT-4o (de la „omni”), în cadrul evenimentului Spring Update, transmis luni seara.//„Hello GPT-4o”, openai.com //

Noul model aduce o variantă complet schimbată a funcționalității vocale Voice Mode, care nu doar că poate răspunde aproape la fel de rapid ca un interlocutor uman, dar poate reacționa și analiza acum și imagini sau video live, transformându-l într-un veritabil asistent virtual de tipul celor din filme ca Her sau 2001: A Space Oddysey. 

Probabil chiar asta a fost impresia dorită de către OpenAI, care a efectuat, în cadrul evenimentului, o demonstrație live a noilor capacități multimedia ale lui GPT-4o. CTO-ul Mira Murati și cercetătorii Barret Zoph și Mark Chen au arătat cum noua variantă vocală a modelului poate răspunde aproape instant și să poarte conversații fluide, cel puțin în limba engleză. Răspunsurile modelului pot fi întrerupte, punct din care acesta ajustează conversația, destul de apropiat de modul în care decurge o conversație reală.

Una dintre cele mai interesante demonstrații a fost capacitatea lui GPT-4o de a traduce, aproape instant, câteva proproziții vorbite în italiană în engleză și vice-versa, ceea ce demonstrează că modelul ar putea funcționa și ca un translator universal.

Adițional, GPT-4o poate chiar să schimbe tonul redării și inflexiunile vocale, după cum Zoph și Chen au arătat atunci când au cerut modelului să spună o poveste despre roboți pe un ton tot mai dramatic, și chiar să înceapă un cântec către sfârșitul acesteia.

Însă noutatea și mai impresionantă este că modelul integrează acum și o componentă vizuală, care poate analiza imagini live, precum cele captate cu camera unui telefon sau webcam-ul unui laptop. În cadrul demonstrației, GPT-4o a ajutat, în timp real, la rezolvarea unor probleme de matematică care erau scrise pe foaie și a recunoscut emoțiile de pe chipul unui prezentator. Iar într-o serie de clipuri postate pe contul oficial de YouTube OpenAI, modelul a recunoscut (și lingușit) un câine, a oferit sfaturi vestimentare pentru un interviu și chiar a dialogat cu un alt model GPT-4o – e adevărat, într-o manieră destul de repetitivă.

În orice caz, upgrade-ul față de varianta vocală integrată în prezent este semnificativ, chiar și dacă te uiți numai la timpii de răspuns – în momentul de față, Voice Mode-ul din ChatGPT are nevoie de secunde bune pentru a răspunde prompturilor vocale, în timp ce GPT-4o face, în general, pauze de doar una sau două secunde înainte de a oferi răspunsul.

Diferența vine de la modul în care au fost implementate noile funcționalități. Versiunile anterioare de GPT folosesc trei modele separate pentru a oferi un mod de voce: un model care transcrie înregistrarea audio în text, modelul principal de generare a conținutului, și ulterior un model text-to-speech care îi conferă voce. GPT-4o, în schimb, este descris de OpenAI drept un algoritm „multimodal”, care procesează text, sunet și video concomitent pe aceeași rețea neuronală, ceea ce scade semnificativ timpul necesar pentru procesarea unor prompturi multimedia complexe.

Pe partea de text, compania susține că GPT-4o atinge o acuratețe similară în limba engleză cu GPT-4 Turbo, dar că, față de această versiune, GPT-4o aduce îmbunătățiri semnificative pentru conversațiile în alte limbi.

Mai multe funcționalități pentru utilizatorii neplătitori

O altă noutate pentru GPT-4o este că acesta va fi disponibil atât pentru utilizatorii ChatGPT Plus, cât și pentru cei care folosesc varianta gratuită a platformei. Astfel, utilizatorii care folosesc platforma gratuit vor primi acces la mai multe funcționalități anterior rezervate abonaților. Aceștia vor putea accesa GPT Store, platforma cu sute de mii de modele dezvoltate pe baza ChatGPT care sunt specializate pe diverse domenii sau subiecte; vor putea încărca documente text sau imagini în conversații și vor beneficia de funcționalități precum Memory, care îi permite modelului să își amintească detalii din conversații anterioare.

Pentru moment, noul model vocal este confirmat doar pentru utilizatorii cu abonament, iar o versiune alpha va fi implementată pentru aceștia în următoarele săptămâni. Abonamentele vor avea, în continuare, limite de până la cinci ori mai mari de mesaje față de conturile gratuite. În cazul GPT-4o, limitele inițiale sunt de 80 de mesaje la fiecare trei ore pentru abonații ChatGPT Plus. Aceștia din urmă vor fi și primii care vor putea încerca varianta de desktop a ChatGPT, care va fi lansată inițial exclusiv pentru sisteme de operare Mac OS.

Ce este disponibil acum în România?

Deocamdată, singura noutate care poate fi încercată din România este opțiunea de a folosi varianta text a GPT-4o pe un cont cu abonament. Aceasta integrează aproape toate capabilitățile majore deja existente pe GPT-4, precum capacitatea de a genera imagini pe baza conversației, abilitatea de a căuta link-uri pe internet,

Lipsește, însă, funcționalitatea Memory, care fusese implementată la începutul lunii pentru aproape toți abonații GPT Plus pe modelul 4.0. Zic aproape pentru că din această listă au fost excluși abonații din Europa și Coreea de Sud, cel mai probabil din cauza faptului că implementarea ei nu este conformă cu regulamente de protecția datelor aflate în vigoare în spațiul comunitar.

În ceea ce privește conturile gratuite, acestea nu par să fi primit încă vreuna din funcționalitățile anunțate. Nici varianta de desktop nu a putut fi accesată cu un cont de ChatGPT Plus.

Funcționează mai bine GPT-4o pe limba română?

Prima diferență vizibilă atunci când interacționezi cu GPT-4o, chiar și în conversații în limba română, este viteza mult mai mare de răspuns pentru orice tip de solicitare, în unele cazuri fiind chiar și cu jumătate de minut mai rapid decât GPT-4.

De exemplu, atunci când au fost puse să genereze un text de 2000 de semne în limba română, cu același prompt, GPT-4 a avut nevoie de 51 de secunde, în timp ce noul model al celor de la OpenAI a reușit să îl genereze în doar 19 secunde. Noul model a fost semnificativ mai rapid și atunci când a fost pus să genereze imagini (13 secunde GPT-4o/23 de secunde GPT-4), să descrie o imagine încărcate (șase secunde față de 15) și să rezume un document încărcat în conversație – în cazul acestui test, un studiu științific în limba română, în format PDF (25 de secunde față de 65).

Cât despre acuratețea modelului, nu par să fie extrem de multe diferențe; la o primă vedere, GPT-4o pare că preferă să ofere răspunsuri ceva mai succinte în limba română decât GPT-4, însă, la fel ca acesta din urmă continuă să creeze text pe alocuri bizar, mai ales atunci când trebuie să genereze texte creative.

Este de menționat și că una dintre funcționalitățile anunțate de OpenAI pentru GPT-4o, și anume că acesta poate genera imagini cu text lizibil, nu pare să funcționeze în română. În mai multe prompturi de complexități diferite, care specificau includerea textului în limba română, modelul a generat doar text care nu avea niciun sens.

 

Rămâne de văzut cum se va comporta și noua funcție vocală în limba română. Chiar și în cadrul demonstrațiilor OpenAI, GPT-4o a avut parte de câteva erori, în care a intervenit peste interlocutor, încercând să răspundă la prompturi anterioare care au fost întrerupte, precum și un moment în care a confundat fața unui prezentator cu o masă de lemn.

 



Text de

Ionuț Preda

Redactor cu câțiva ani de experiență în presa centrală. Este curios despre aplicarea tehnologiilor SF în lumea reală și evoluția ideilor de-a lungul istoriei.

TEHNOLOGIE|SLOW FORWARD

Xiaomi 14 Ultra marchează oficial sfârșitul camerelor de travel

De
Senzorul de 1 inch Sony LYT-900 cu diagramă variabilă și kitul opțional de fotografie te lasă să treci acest model la o categorie hibrid, telefon-cameră foto.
SĂNĂTATE|FYI

A fost descoperită regiunea din creier care provoacă paranoia

De
Cercetătorii de la Yale au legat anumite regiuni ale creierului de paranoia, printr-un nou studiu. Rezultatele ar putea conduce către tratamente mai sigure. 
ȘTIINȚĂ|FYI

Cutremurele majore ar putea fi detectate cu până la 19 zile în avans, prin date de satelit

De
Un studiu de caz bazat pe date de satelit din regiunea cutremurului de 7,8 care a avut loc în Turcia și Siria în 2023 ar putea deschide calea pentru avertizări foarte timpurii ale seismelor majore.
MEDIU|FYI

Războiul Rusiei în Ucraina accelerează criza climatică

De
Numai în primii doi ani, costul climatic al războiului provocat de ruși în Ucraina depășește emisiile anuale cumulate generate de 175 de țări, se arată într-un nou raport.