OpenAI

Slow Forward: Videoclipurile AI generate de Sora au pus în umbră Gemini 1.5 

De Mihai Ghiduc 19.02.2024, ultima actualizare: 22.02.2024

Două noi modele AI s-au lansat în aceeași zi, dar cel de la OpenAI s-a dovedit mut mai bun la marketing.

OpenAI a anunțat Sora,// „Sora”, openai.com // primul lor model de inteligență artificială care transformă text în video, și a postat o serie de clipuri impresionante realizate cu ajutorul acestui model. Momentan, programul nu este public, ci este testat pentru vulnerabilități cu ajutorul unui „red team”, // Red team este denumirea dată grupurilor care, în acest caz, pretind că vor să folosească modelul AI pentru lucruri imorale sau ilegale pentru a verifica limitele sistemului. // și poate genera clipuri de cel mult un minut, cu destule limitări în înțelegerea fizicii

Nu e singura noutate din lumea inteligenței artificiale, dar e cea mai spectaculoasă. Sau măcar cea mai bine promovată, printr-o metodă care pare furată direct de la campionul marketingului tech, Apple – de la strategie până la look-ul comunicatelor de presă.

Sora impresionează în Full HD

Anunțul făcut de OpenAI a venit doar la câteva ore după ce Google anunța noutăți despre Gemini, în ceea ce pare o reeditare a situației de anul trecut, când cei de la Alphabet s-au grăbit să ia fața concurenței. De data aceasta, efectul a fost mai degrabă inexistent, anunțul despre Sora a „îngropat” alte discuții despre AI în spatele entuziasmului pentru calitatea clipurilor generate de noul model.

Într-un raport tehnic// „Video generation models as world simulators”, openai.com // în care AI-ul generativ pentru video e numit „simulator al lumii”, OpenAI arată că, așa cum modelele de limbaj folosesc token-uri, modelele video folosesc așa-numitele patch-uri, fragmente de informație vizuală, în generarea imaginilor. Ce e impresionant la Sora este că ceea ce până acum se întâmpla la rezoluție mică (de obicei un pătrat cu latura de 256 pixeli) și pe o durată limitată (4 secunde) este posibil în prezent  până la rezoluții Full HD (1920×1080, orizontal sau vertical) pentru la până un minut. 

OpenAI e mai puțin deschis în a explica pe ce baze de date și-a bazat antrenamentul modelelor folosite și, deși se discută despre folosirea unor clipuri generate cu Unreal Engine 5// Cum ar fi în acest tweet: twitter.com // și se poate bănui că a fost folosită baza de date a Shutterstock, cu care OpenAI are un parteneriat, detaliile lipsesc intenționat pentru a evita discuțiile// „What was Sora trained on? Creatives demand answers”, mashable.com // despre cât de etic este să folosești gratuit munca altor oameni. 

Despre ce este dispus OpenAI să vorbească sunt capabilitățile și chiar limitările Sora. Noul model poate anima imagini generate de DALL-E, dar e capabil la rândul său să genereze imagini (până la 2048×2048 pixeli), poate completa clipuri deja generate, poate conecta videouri diferite, are continuitate în spațiul tridimensional, chiar și la schimbarea unghiului, înțelege (uneori) cum funcționează lumina și reflexiile sau interacțiunea dintre obiecte și poate genera lumi virtuale, precum cele din Minecraft.

Limitările țin în special de înțelegerea fizicii și a modului în care se comportă unele obiecte în anumite contexte, în probleme de continuitate și în apariția subită a unor obiecte în cadre, cel puțin din exemplele oferite de OpenAI.

Deși modele care generează video există, inclusiv de la Google sau Stable Diffusion, care e open source, niciunul dintre acestea nu este capabil de performanțele Sora. Până ca testerii să decidă ce modificări trebuie făcute înainte de a-i da drumul „în sălbăticie”, lumea începe să se îngrijoreze deja de potențialele utilizări nefaste: de la dezinformare la scam-uri mai sofisticate, orice e posibil. La fel de bine cum ar putea fi un instrument benefic pentru lumea entertainmentului, în special cea a filmelor și jocurilor video. 

Până acum, soluția preferată pare a fi marcarea digitală// „How OpenAI is approaching 2024 worldwide elections”, openai.com // a imaginilor și clipurilor create de AI, invizibilă pentru ochiul liber, dar transparentă pentru programe care pot analiza aceste imagini.

Gemini 1.5 ar putea fi cel mai puternic AI generativ de până acum

Cu doar câteva ore înaintea Open AI, într-o postare semnată de CEO-ul Alphabet și CEO-ul Deep Mind, Google anunța lansarea lui Gemini 1.5,// „Introducing Gemini 1.5, Google’s next-generation AI model”, blog.google // care, cel puțin în varianta Pro, ar obține rezultate similare lui Gemini 1.0 Ultra, dar folosind mai puține resurse. De asemenea, Gemini 1.5 poate folosi până la un milion de token-uri, pentru a înțelege mai bine contextul întrebărilor sau prompturilor primite, de aproape opt ori mai multe decât ChatGPT și de 32 de ori mai multe ca Gemini 1.0.

Gemini Ultra 1.0 tocmai ce a început să ajungă la utilizatorii (plătitori) cu o săptămână mai devreme, prin Gemini Advanced, și la dezvoltatori, printr-un API disponibil în AI Studio și Vertex AI, odată cu lansarea Gemini 1.5. Tot pe 8 februarie, Google anunțase că Bard își schimbă numele și devine Gemini. Dacă ți se pare confuzant, chiar este.

Iată o explicație simplificată. Pentru un utilizator obișnuit, există două variante: cea gratuită, bazată pe Gemini Pro 1.0, și cea Advanced, care costă 109,99 lei/lună, cu Gemini 1.0 Ultra, 2 TB de spațiu de stocare și (în curând) cu Gemini în Gmail, Docs și alte produse Google. 

Gemini 1.5 e disponibil, momentan, doar unui număr limitat de testeri, dar primele reacții// Cum ar fi cele postate pe X de @ItakGol sau @rowancheung // îl descriu drept un AI multimodal care poate genera răspunsuri pe baza unor input-uri foarte lungi (cum ar fi un întreg video), este capabil să traducă lucruri în limbi obscure pe baza unui dicționar sau chiar să analizeze clipurile generate de Sora pentru a identifica dacă sunt făcute sau nu cu AI.

Alte știri, pe scurt

MindcraftStories_1Topul vânzărilor de telefoane e neschimbat; vivo pleacă din România

Topul vânzărilor de telefoane în trimestrul 4 din 2023, efectuat de Canalys, arată poziții neschimbate în clasament, primele cinci locuri fiind ocupate în ordine de Samsung (34%), Xiaomi (20%), Apple (15%), Lenovo (cu Motorola, 11%) și OPPO (care include OnePlus, 8%).  Anunțul vine de la Xiaomi,// „Cum arată piața de smartphone-uri din România: împărțită între Samsung, Xiaomi, Apple, Motorola și OPPO”,  start-up.ro // care se laudă cu o creștere de 20% față de trimestrul anterior. 

Topul local e diferit radical de cel global,// „Global smartphone market grows 8% in Q4, with Apple the year’s top vendor for the first time”, canalys.com // unde ordine e Apple (24%), Samsung (17%), Xiaomi (13%) Transsion (cu brandurile Tecno, Itel, and Infinix, 9%), și vivo (7%).

Știrea vine într-un moment în care vivo a anunțat ieșirea// „Exclusiv: vivo a părăsit piața din România. Ce se întâmplă cu suportul software și service?”, connect.ro // de pe piața din România. 

Cifre Articol MindcraftStories_2Universal și-a retras muzica de pe TikTok

La expirarea contractului cu platforma de social media TikTok, cei de la Universal Music Group au decis să nu-l mai prelungească, nemulțumiți de bani. O scrisoare deschisă// „An open letter to the artist and songwriter community – Why we must call time out on TikTok”, universalmusic.com // invocă și avansul conținutului generat de AI pe platformă, dar mai ales faptul că TikTok au încercat să forțeze un contract dezavantajos. Printre artiștii reprezentanți de Universal se numără Taylor Swift, Lady Gaga, Drake, Billie Eilish, Ariana Grande, Queen sau The Beatles. 

Într-un comunicat, cei de la TikTok s-au arătat// „TikTok statement in response to Universal Music Group”, tiktok.com // „dezamăgiți” de faptul că Universal a pus „lăcomia în fața interesului artiștilor”. 

Cifre Articol MindcraftStories_3Meta și TikTok nu vor să împartă veniturile cu UE

Meta și TikTok se arată nemulțumite de banii pe care ar trebuie să-i plătească Uniunii Europene în urma adoptării Regulamentului pentru Servicii Digitale (DSA) și au decis să apeleze la judecata Curții Europene de Justiție. Conform Politico,// „Meta, TikTok take EU to court over online content rulebook”, politico.eu // Meta ar trebui să plătească 11 milioane de euro în 2024, în timp ce TikTok nu a vrut să dezvăluie suma.

Regulamentul UE cere platformelor mari (cu peste 45 de milioane de utilizatori) să contribuie, proporțional cu veniturile, la finanțarea organismului care urmează să le verifice. Meta și TikTok nu sunt de acord cu principiul proporționalității, argumentând că toate platformele foarte mari, inclusiv X, Pinterest sau Wikipedia, ar trebui să plătească proporțional. 

CITEȘTE ȘI: „Investiți 1.100 RON pentru profit garantat!” Cum sunt păcăliți românii cu reclame deepfake 

Cifre Articol MindcraftStories_4Amazon renunță la achiziționarea Roomba

Uniunea Europeană i-a forțat pe cei de la Amazon să renunțe la achiziția iRobot, compania care produce aspiratoarele-robot Roomba. Practic, firma a constatat că n-are nicio șansă să-i convingă pe europeni că nu ar încălca regulile antimonopol// „Amazon, Roomba-parent iRobot abandon $1.4 billion merger deal”, reuters.com // dacă ar deveni proprietara companiei, așa că a decis să abandoneze planul. Amazon era dispusă să plătească 1,4 miliarde de dolari.

Recomandările Mindcraft Stories

  1. The Verge// „With the rise of AI, web crawlers are suddenly controversial”, theverge.com // scrie despre felul în care goana companiilor AI după informații folosite pentru antrenarea unor modele schimbă felul în care site-urile se raportează la „roboții” care caută informații. Dacă până acum aceștia erau percepuți ca benefici, pentru că aduceau trafic pe site, AI-ul are tendința să ia informația și să nu dea nimic în loc – motiv pentru care, cred autorii, s-ar putea ca internetul să nu mai arate la fel în viitor.
  2. O dovadă că unele instrumente create cu intenții bune, cum ar fi claim-urile de copyright, sunt utilizate de diverși actori pentru a ascunde informații esențiale sau investigații despre diverse fraude este dezvăluită de un think-tank englezesc, Tax Policy,// „The epidemic of fraudulent DMCA takedowns taxpolicy.org.uk // care a descoperit schema aprope întâmplător. Metoda e simplă: cineva face un site pe care postează articolul-țintă, îl antedatează, după care trimite o cerere standard către Google de la o firmă-fantomă (numele par generate automat), iar motorul de căutare ascunde informații la căutări, fără a verifica autenticitatea cererii.
  3. The Dial a făcut un reportaj// „Ireland’s Memory Machines”, thedial.world // despre centrele de date deschise în Irlanda și costurile ascunse asociate acestora. Ocazie cu care am aflat și că 88% din ceea ce e stocat în cloud sunt date „junk”, care nu vor mai fi accesate vreodată de către utilizator. 


Text de

Mihai Ghiduc

Redactor-șef. A oscilat între print (Opinia studențească, Men's Health, Maxim, Marie Claire) și online (Vice, Glamour, Slow Forward) până l-a prins din urmă revoluția tehnologică.

ȘTIINȚĂ|FYI

Google prezintă AlphaFold 3, noua iterație a modelului AI care a prezis structurile a sute de milioane de proteine

De
AI-ul Google care prezice structurile proteinelor poate fi acum folosit pentru a modela molecule de ARN, ADN și multe tipuri de interacțiuni biomoleculare
TEHNOLOGIE|FYI

Apple intră în cursa AI cu noile tablete iPad Pro și iPad Air

De
Compania americană se laudă cu „cel mai subțire produs Apple făcut vreodată”, dar și cu o nouă generație de chipseturi.
TEHNOLOGIE|FYI

Un nou pas către calculatoare cuantice performante: s-a descoperit o tehnică de a crea siliciu ultrapur

De
Unul din materialele folosite des în electronicele convenționale ar putea fi cheia pentru calculatoarele cuantice de înaltă performanță.
MEDIU|FYI

Luna aprilie 2024 a fost cea mai caldă din istorie

De
Aprilie 2024 a înregistrat o temperatură medie globală cu 1,6 grade Celsius peste media perioadei preindustriale. E a unsprezecea lună consecutivă în care s-au doborât recordurile globale de temperatură.