Foto via Google
Google DeepMind a lansat Veo 2, un nou model de generare video5 min read
Laboratorul de cercetare în domeniul inteligenței artificiale al Google promite un concurent serios la Sora.
Concurența în domeniul modelelor de inteligență artificială „text to video” a devenit mai strânsă odată cu lansarea celei de-a doua versiuni Veo, dezvoltată de DeepMind, laboratorul de cercetare AI al Google. Pe 16 decembrie // „State-of-the-art video and image generation with Veo 2 and Imagen 3”, blog.google // o nouă versiune a modelului de generare de imagini, Imagen 3, dar și Whisk, un nou instrument folosit ca prompt de imagini în loc de text.
Comparațiile dintre Veo 2 și Sora, a cărei nouă versiune a fost // „OpenAI Sora officially launches to change AI video – 5 things you need to know”, techradar.com // nu puteau să lipsească, iar dacă e să te iei după promisiunile Google, acesta depășește modelul dezvoltat de OpenAI la cel puțin două capitole: mișcări mult mai realiste și o // 4K, în loc de 1080p. // Din păcate, nu o să poți decide între cele două prea curând, pentru că Veo 2 este momentan disponibil doar în SUA.
Veo 2 poate să genereze clipuri video într-o gamă variată de stiluri, creează imagini mult mai clare, dar are și o înțelegere mai bună a mișcărilor de cameră, a legilor fizicii, a luminii sau a dinamicii fluidelor. Deși Google insistă că șansele de a genera „halucinații” AI sunt mult mai scăzute, mai e mult de lucru până la a scăpa complet de acel vibe cringe specific imaginilor generate de inteligența artificială.
„Coerența și consistența sunt domenii de creștere. Veo poate să respecte constant un prompt timp de câteva minute, dar [nu poate] să respecte prompturi complexe pe durate lungi. În mod similar, consistența personajului poate fi o provocare. De asemenea, există loc de îmbunătățire în generarea detaliilor, a mișcărilor rapide și complexe, și continuarea depășirii limitelor realismului”, a declarat pentru // „Google DeepMind unveils a new video model to rival Sora”, techcrunch.com // Eli Collins, vicepreședinte de produs la DeepMind. Pentru a înțelege mai bine procesul creativ, echipa a lucrat îndeaproape cu artiști precum The Weeknd, d4vd sau Donald Glover. În timp, modelul va fi integrat și pe platforma de dezvoltatori Vortex AI.
O altă știre interesantă este lansarea Whisk, un instrument experimental care combină modelul Imagen 3 cu capacitățile de înțelegere și descriere vizuală ale Gemini, pentru a genera imagini prin utilizarea altor imagini ca sugestii. Practic, poți folosi mai multe imagini ca prompt, pentru a defini subiectul, scena și stilul dorit, și, la nevoie, să completezi cu text, pentru detalii suplimentare.
După cum au declarat cei de la DeepMind, „în testele noastre timpurii cu artiști și creatori, oamenii au descris Whisk ca un nou tip de instrument creativ – nu un editor de imagini tradițional. L-am construit pentru explorarea vizuală rapidă, nu pentru editări perfecte pe pixel. Este vorba despre explorarea ideilor în moduri noi și creative, care vă permite să treceți prin zeci de opțiuni și să le descărcați pe cele care vă plac”. Whisk este, de asemenea, disponibil doar în SUA.