Foto via Google

Google DeepMind a lansat Veo 2, un nou model de generare video5 min read

De Paul Petrache 19.12.2024

Laboratorul de cercetare în domeniul inteligenței artificiale al Google promite un concurent serios la Sora.

Concurența în domeniul modelelor de inteligență artificială „text to video” a devenit mai strânsă odată cu lansarea celei de-a doua versiuni Veo, dezvoltată de DeepMind, laboratorul de cercetare AI al Google. Pe 16 decembrie au mai fost anunțate// „State-of-the-art video and image generation with Veo 2 and Imagen 3”, blog.google // o nouă versiune a modelului de generare de imagini, Imagen 3, dar și Whisk, un nou instrument folosit ca prompt de imagini în loc de text.

Comparațiile dintre Veo 2 și Sora, a cărei nouă versiune a fost lansată pe 9 decembrie,// „OpenAI Sora officially launches to change AI video – 5 things you need to know”, techradar.com // nu puteau să lipsească, iar dacă e să te iei după promisiunile Google, acesta depășește modelul dezvoltat de OpenAI la cel puțin două capitole: mișcări mult mai realiste și o calitate superioară a imaginii.// 4K, în loc de 1080p. // Din păcate, nu o să poți decide între cele două prea curând, pentru că Veo 2 este momentan disponibil doar în SUA.

Veo 2 poate să genereze clipuri video într-o gamă variată de stiluri, creează imagini mult mai clare, dar are și o înțelegere mai bună a mișcărilor de cameră, a legilor fizicii, a luminii sau a dinamicii fluidelor. Deși Google insistă că șansele de a genera „halucinații” AI sunt mult mai scăzute, mai e mult de lucru până la a scăpa complet de acel vibe cringe specific imaginilor generate de inteligența artificială.

„Coerența și consistența sunt domenii de creștere. Veo poate să respecte constant un prompt timp de câteva minute, dar [nu poate] să respecte prompturi complexe pe durate lungi. În mod similar, consistența personajului poate fi o provocare. De asemenea, există loc de îmbunătățire în generarea detaliilor, a mișcărilor rapide și complexe, și continuarea depășirii limitelor realismului”, a declarat pentru TechCrunch// „Google DeepMind unveils a new video model to rival Sora”, techcrunch.com // Eli Collins, vicepreședinte de produs la DeepMind. Pentru a înțelege mai bine procesul creativ, echipa a lucrat îndeaproape cu artiști precum The Weeknd, d4vd sau Donald Glover. În timp, modelul va fi integrat și pe platforma de dezvoltatori Vortex AI.

O altă știre interesantă este lansarea Whisk, un instrument experimental care combină modelul Imagen 3 cu capacitățile de înțelegere și descriere vizuală ale Gemini, pentru a genera imagini prin utilizarea altor imagini ca sugestii. Practic, poți folosi mai multe imagini ca prompt, pentru a defini subiectul, scena și stilul dorit, și, la nevoie, să completezi cu text, pentru detalii suplimentare.

După cum au declarat cei de la DeepMind, „în testele noastre timpurii cu artiști și creatori, oamenii au descris Whisk ca un nou tip de instrument creativ – nu un editor de imagini tradițional. L-am construit pentru explorarea vizuală rapidă, nu pentru editări perfecte pe pixel. Este vorba despre explorarea ideilor în moduri noi și creative, care vă permite să treceți prin zeci de opțiuni și să le descărcați pe cele care vă plac”. Whisk este, de asemenea, disponibil doar în SUA.



Text de

Paul Petrache

Doomscroller profesionist. S-a apucat de jurnalism ca să aibă un pretext să documenteze subiecte pe care poate nu le-ar aborda în mod normal.

TEHNOLOGIE|CE URMEAZĂ?

Internetul (post)universal

De
De la fragmentarea Internetului la controlul total prin monede digitale centralizate și de la izolarea noilor generații în „grădini închise” la transformarea AI-ului în companion sau chiar divinitate, provocările lumii viitorului sunt deja aici.
TEHNOLOGIE|CE URMEAZĂ?

Revoluția (post)industrială

De
De la incertitudinea despre o posibilă bulă speculativă a inteligenței artificiale la promisiunea unei inteligențe generale, de la integrarea roboților umanoizi în fluxurile de lucru la bătălia globală pentru pământuri rare, de la visul mobilității urbane verticale la tranziția spre o sustenabilitate high-tech, economia și industria se reconfigurează sub presiunea inovației și a necesității climatice.
TEHNOLOGIE|GAMING SPOTLIGHT

AOC Q27G4ZR: 260 FPS pe un monitor de buget? Surprinzător de competent

De
E posibil să ai și imagine bună, și framerate ultrarapid pe un monitor de buget, dacă nu vrei nimic altceva în plus.
TEHNOLOGIE|GADGETS

Samsung Galaxy Tab S11 Ultra: subțirime extremă, hardware performant, limitări familiare

De
Cu un ecran impresionant de 14,6 inchi și un profil ultrasubțire, Samsung Galaxy Tab S11 Ultra e o adevărată realizare inginerească. Este însă și un dispozitiv de nișă, cu un preț care îl pune în competiție directă cu laptopurile profesionale.