Foto via Google

Google DeepMind a lansat Veo 2, un nou model de generare video5 min read

De Paul Petrache 19.12.2024

Laboratorul de cercetare în domeniul inteligenței artificiale al Google promite un concurent serios la Sora.

Concurența în domeniul modelelor de inteligență artificială „text to video” a devenit mai strânsă odată cu lansarea celei de-a doua versiuni Veo, dezvoltată de DeepMind, laboratorul de cercetare AI al Google. Pe 16 decembrie au mai fost anunțate// „State-of-the-art video and image generation with Veo 2 and Imagen 3”, blog.google // o nouă versiune a modelului de generare de imagini, Imagen 3, dar și Whisk, un nou instrument folosit ca prompt de imagini în loc de text.

Comparațiile dintre Veo 2 și Sora, a cărei nouă versiune a fost lansată pe 9 decembrie,// „OpenAI Sora officially launches to change AI video – 5 things you need to know”, techradar.com // nu puteau să lipsească, iar dacă e să te iei după promisiunile Google, acesta depășește modelul dezvoltat de OpenAI la cel puțin două capitole: mișcări mult mai realiste și o calitate superioară a imaginii.// 4K, în loc de 1080p. // Din păcate, nu o să poți decide între cele două prea curând, pentru că Veo 2 este momentan disponibil doar în SUA.

Veo 2 poate să genereze clipuri video într-o gamă variată de stiluri, creează imagini mult mai clare, dar are și o înțelegere mai bună a mișcărilor de cameră, a legilor fizicii, a luminii sau a dinamicii fluidelor. Deși Google insistă că șansele de a genera „halucinații” AI sunt mult mai scăzute, mai e mult de lucru până la a scăpa complet de acel vibe cringe specific imaginilor generate de inteligența artificială.

„Coerența și consistența sunt domenii de creștere. Veo poate să respecte constant un prompt timp de câteva minute, dar [nu poate] să respecte prompturi complexe pe durate lungi. În mod similar, consistența personajului poate fi o provocare. De asemenea, există loc de îmbunătățire în generarea detaliilor, a mișcărilor rapide și complexe, și continuarea depășirii limitelor realismului”, a declarat pentru TechCrunch// „Google DeepMind unveils a new video model to rival Sora”, techcrunch.com // Eli Collins, vicepreședinte de produs la DeepMind. Pentru a înțelege mai bine procesul creativ, echipa a lucrat îndeaproape cu artiști precum The Weeknd, d4vd sau Donald Glover. În timp, modelul va fi integrat și pe platforma de dezvoltatori Vortex AI.

O altă știre interesantă este lansarea Whisk, un instrument experimental care combină modelul Imagen 3 cu capacitățile de înțelegere și descriere vizuală ale Gemini, pentru a genera imagini prin utilizarea altor imagini ca sugestii. Practic, poți folosi mai multe imagini ca prompt, pentru a defini subiectul, scena și stilul dorit, și, la nevoie, să completezi cu text, pentru detalii suplimentare.

După cum au declarat cei de la DeepMind, „în testele noastre timpurii cu artiști și creatori, oamenii au descris Whisk ca un nou tip de instrument creativ – nu un editor de imagini tradițional. L-am construit pentru explorarea vizuală rapidă, nu pentru editări perfecte pe pixel. Este vorba despre explorarea ideilor în moduri noi și creative, care vă permite să treceți prin zeci de opțiuni și să le descărcați pe cele care vă plac”. Whisk este, de asemenea, disponibil doar în SUA.



Text de

Paul Petrache

Doomscroller profesionist. S-a apucat de jurnalism ca să aibă un pretext să documenteze subiecte pe care poate nu le-ar aborda în mod normal.

TEHNOLOGIE|FYI

Danemarca folosește legea drepturilor de autor ca să combată deepfake-urile. Ce se întâmplă în România?

De
Danemarca vrea să le ofere cetățenilor drepturi de autor asupra propriului chip, ca să oprească folosirea deepfake-urilor – imagini sau videoclipuri false create cu ajutorul inteligenței artificiale, care pot păcăli sau afecta reputația cuiva. Alte țări europene au luat deja măsuri în acest sens, dar România abia începe să contureze o legislație clară.
TEHNOLOGIE|SOLUȚII

Descifrarea codului cuantic: lumina și sticla sunt pe cale să transforme tehnica de calcul

De
Cercetătorii europeni dezvoltă computere cuantice utilizând lumina și sticla, în cadrul unei colaborări care ar putea revoluționa puterea de calcul, tehnologia bateriilor și descoperirile științifice.
TEHNOLOGIE|GAMING SPOTLIGHT

Bucureștiul are acum arenă de shootere virtuale

De
Conceptul francez Esports Virtual Arenas a ajuns și în București, iar experiența e cel puțin interesantă.
MEDIU|FYI

Studiu: orcile, supranumite balenele ucigașe, își împart prada cu oamenii 

De
Orcile au fost observate cum oferă hrană oamenilor. Gestul, considerat de cercetători o formă de „interacțiune socială intenționată”, a fost observat în 34 de cazuri în ultimii 20 de ani.