Imagine generată cu GPT-4o

Noutățile din GPT-4o: asistent virtual ca în Her, funcționalități noi fără abonament și răspunsuri mult mai rapide în română14 min read

De Ionuț Preda 14.05.2024

Noua versiune a modelului OpenAI propune un asistent virtual văzut până acum doar în filmele SF, dar și multe funcționalități noi pentru utilizatorii fără abonament

OpenAI a lansat o nouă versiune a propriului model de AI generativ, numit GPT-4o (de la „omni”), în cadrul evenimentului Spring Update, transmis luni seara.//„Hello GPT-4o”, openai.com //

Noul model aduce o variantă complet schimbată a funcționalității vocale Voice Mode, care nu doar că poate răspunde aproape la fel de rapid ca un interlocutor uman, dar poate reacționa și analiza acum și imagini sau video live, transformându-l într-un veritabil asistent virtual de tipul celor din filme ca Her sau 2001: A Space Oddysey. 

Probabil chiar asta a fost impresia dorită de către OpenAI, care a efectuat, în cadrul evenimentului, o demonstrație live a noilor capacități multimedia ale lui GPT-4o. CTO-ul Mira Murati și cercetătorii Barret Zoph și Mark Chen au arătat cum noua variantă vocală a modelului poate răspunde aproape instant și să poarte conversații fluide, cel puțin în limba engleză. Răspunsurile modelului pot fi întrerupte, punct din care acesta ajustează conversația, destul de apropiat de modul în care decurge o conversație reală.

Una dintre cele mai interesante demonstrații a fost capacitatea lui GPT-4o de a traduce, aproape instant, câteva proproziții vorbite în italiană în engleză și vice-versa, ceea ce demonstrează că modelul ar putea funcționa și ca un translator universal.

Adițional, GPT-4o poate chiar să schimbe tonul redării și inflexiunile vocale, după cum Zoph și Chen au arătat atunci când au cerut modelului să spună o poveste despre roboți pe un ton tot mai dramatic, și chiar să înceapă un cântec către sfârșitul acesteia.

Însă noutatea și mai impresionantă este că modelul integrează acum și o componentă vizuală, care poate analiza imagini live, precum cele captate cu camera unui telefon sau webcam-ul unui laptop. În cadrul demonstrației, GPT-4o a ajutat, în timp real, la rezolvarea unor probleme de matematică care erau scrise pe foaie și a recunoscut emoțiile de pe chipul unui prezentator. Iar într-o serie de clipuri postate pe contul oficial de YouTube OpenAI, modelul a recunoscut (și lingușit) un câine, a oferit sfaturi vestimentare pentru un interviu și chiar a dialogat cu un alt model GPT-4o – e adevărat, într-o manieră destul de repetitivă.

În orice caz, upgrade-ul față de varianta vocală integrată în prezent este semnificativ, chiar și dacă te uiți numai la timpii de răspuns – în momentul de față, Voice Mode-ul din ChatGPT are nevoie de secunde bune pentru a răspunde prompturilor vocale, în timp ce GPT-4o face, în general, pauze de doar una sau două secunde înainte de a oferi răspunsul.

Diferența vine de la modul în care au fost implementate noile funcționalități. Versiunile anterioare de GPT folosesc trei modele separate pentru a oferi un mod de voce: un model care transcrie înregistrarea audio în text, modelul principal de generare a conținutului, și ulterior un model text-to-speech care îi conferă voce. GPT-4o, în schimb, este descris de OpenAI drept un algoritm „multimodal”, care procesează text, sunet și video concomitent pe aceeași rețea neuronală, ceea ce scade semnificativ timpul necesar pentru procesarea unor prompturi multimedia complexe.

Pe partea de text, compania susține că GPT-4o atinge o acuratețe similară în limba engleză cu GPT-4 Turbo, dar că, față de această versiune, GPT-4o aduce îmbunătățiri semnificative pentru conversațiile în alte limbi.

Mai multe funcționalități pentru utilizatorii neplătitori

O altă noutate pentru GPT-4o este că acesta va fi disponibil atât pentru utilizatorii ChatGPT Plus, cât și pentru cei care folosesc varianta gratuită a platformei. Astfel, utilizatorii care folosesc platforma gratuit vor primi acces la mai multe funcționalități anterior rezervate abonaților. Aceștia vor putea accesa GPT Store, platforma cu sute de mii de modele dezvoltate pe baza ChatGPT care sunt specializate pe diverse domenii sau subiecte; vor putea încărca documente text sau imagini în conversații și vor beneficia de funcționalități precum Memory, care îi permite modelului să își amintească detalii din conversații anterioare.

Pentru moment, noul model vocal este confirmat doar pentru utilizatorii cu abonament, iar o versiune alpha va fi implementată pentru aceștia în următoarele săptămâni. Abonamentele vor avea, în continuare, limite de până la cinci ori mai mari de mesaje față de conturile gratuite. În cazul GPT-4o, limitele inițiale sunt de 80 de mesaje la fiecare trei ore pentru abonații ChatGPT Plus. Aceștia din urmă vor fi și primii care vor putea încerca varianta de desktop a ChatGPT, care va fi lansată inițial exclusiv pentru sisteme de operare Mac OS.

Ce este disponibil acum în România?

Deocamdată, singura noutate care poate fi încercată din România este opțiunea de a folosi varianta text a GPT-4o pe un cont cu abonament. Aceasta integrează aproape toate capabilitățile majore deja existente pe GPT-4, precum capacitatea de a genera imagini pe baza conversației, abilitatea de a căuta link-uri pe internet,

Lipsește, însă, funcționalitatea Memory, care fusese implementată la începutul lunii pentru aproape toți abonații GPT Plus pe modelul 4.0. Zic aproape pentru că din această listă au fost excluși abonații din Europa și Coreea de Sud, cel mai probabil din cauza faptului că implementarea ei nu este conformă cu regulamente de protecția datelor aflate în vigoare în spațiul comunitar.

În ceea ce privește conturile gratuite, acestea nu par să fi primit încă vreuna din funcționalitățile anunțate. Nici varianta de desktop nu a putut fi accesată cu un cont de ChatGPT Plus.

Funcționează mai bine GPT-4o pe limba română?

Prima diferență vizibilă atunci când interacționezi cu GPT-4o, chiar și în conversații în limba română, este viteza mult mai mare de răspuns pentru orice tip de solicitare, în unele cazuri fiind chiar și cu jumătate de minut mai rapid decât GPT-4.

De exemplu, atunci când au fost puse să genereze un text de 2000 de semne în limba română, cu același prompt, GPT-4 a avut nevoie de 51 de secunde, în timp ce noul model al celor de la OpenAI a reușit să îl genereze în doar 19 secunde. Noul model a fost semnificativ mai rapid și atunci când a fost pus să genereze imagini (13 secunde GPT-4o/23 de secunde GPT-4), să descrie o imagine încărcate (șase secunde față de 15) și să rezume un document încărcat în conversație – în cazul acestui test, un studiu științific în limba română, în format PDF (25 de secunde față de 65).

Cât despre acuratețea modelului, nu par să fie extrem de multe diferențe; la o primă vedere, GPT-4o pare că preferă să ofere răspunsuri ceva mai succinte în limba română decât GPT-4, însă, la fel ca acesta din urmă continuă să creeze text pe alocuri bizar, mai ales atunci când trebuie să genereze texte creative.

Este de menționat și că una dintre funcționalitățile anunțate de OpenAI pentru GPT-4o, și anume că acesta poate genera imagini cu text lizibil, nu pare să funcționeze în română. În mai multe prompturi de complexități diferite, care specificau includerea textului în limba română, modelul a generat doar text care nu avea niciun sens.

 

Rămâne de văzut cum se va comporta și noua funcție vocală în limba română. Chiar și în cadrul demonstrațiilor OpenAI, GPT-4o a avut parte de câteva erori, în care a intervenit peste interlocutor, încercând să răspundă la prompturi anterioare care au fost întrerupte, precum și un moment în care a confundat fața unui prezentator cu o masă de lemn.

 



Text de

Ionuț Preda

Redactor cu câțiva ani de experiență în presa centrală. Este curios despre aplicarea tehnologiilor SF în lumea reală și evoluția ideilor de-a lungul istoriei.

SPAȚIU|FYI

ROSPIN, o inițiativă creată de studenți români, strânge fonduri pentru a lansa un satelit ce ar putea monitorizarea pădurile din țară

De
Proiectul ROSPIN-SAT-1 are nevoie de 150.000 de euro pentru a lansa un satelit care ar putea identifica zonele cu defrișări ilegale sau nevoie de reîmpădurire.
MEDIU|FYI

Bureții din melamină eliberează trilioane de fibre microplastice lunar 

De
Bureții din melamină, cunoscuți și ca „bureți magici”, eliberează trilioane de fibre microplastice în fiecare lună, punând în pericol mediul, arată un nou studiu. Soluțiile recomandate includ fabricarea unor bureți mai denși și utilizarea metodelor alternative de curățare.
TEHNOLOGIE|SLOW FORWARD

Economia trickle-down a telefoanelor cu AI

De
Inteligența artificială generativă ajunge pe mid-range-uri Android, precum seria Oppo Reno 12, la doar câteva luni de la adoptarea pe flagshipuri. Și cu mult înaintea iPhone-ului.
TEHNOLOGIE|SOLUȚII

Grafenul, un material miraculos, ajunge în lumina reflectoarelor cu sprijin european

De
Grafenul a ieșit din laboratoare și a ajuns pe piață datorită contribuției deloc neglijabile a UE, potrivit prof. Patrik Johansson.