Guliver/Getty Images

Un start-up românesc promite că ADN-ul tău digital va munci pentru tine31 min read

De Mihai Ghiduc 28.07.2020, ultima actualizare: 01.11.2022

Humans e un start-up de deep tech care promite să creeze synthetic media folosind vocea, imaginea și gesturile unor persoane fără a mai fi necesară prezența fizică a acestora

Să presupunem că lucrezi la o editură și ai vrea ca actori celebri să-ți nareze audiobook-urile cărților din portofoliu. Respectivii actori vor trebui să petreacă zeci de ore într-un studio de înregistrări. Sau lucrezi la un site de știință și tehnologie și ai vrea să ai un canal de YouTube în care să prezinți cele mai noi știri din domeniu. Ai nevoie de un studio video, de o echipă – un cameraman, un editor video, un prezentator – și poate n-ai buget pentru asta. Și da, acesta nu este un exemplu ipotetic. Sau poate vrei să ai o reclamă TV în zece limbi. Cel mai probabil o vei face în una și vei apela la voice over.

Dar dacă actorii ți-ar da acces la ADN-ul lor digital și ai putea genera audiobook-ul fără ca ei să vină în studio? Sau ar vorbi în orice limbă vrei, iar buzele li s-ar sincroniza cu ceea ce spun? Aceasta este promisiunea pe care o face Humans,Site-ul oficial: joinhumans.com un start-up românesc de deep tech, care pune bazele unei tehnologii inovatoare capabile să genereze synthetic media, adică video și audio creat de la zero cu ajutorul inteligenței artificiale pornind de la ADN-ul digital al unei persoane.

Humans a primit, în plină pandemie, o finanțare de 330.000 de euro de la Early Game Ventures, un fond de venture capital care investește în start-up-uri românești din industrii emergente, de la ROCA X, parte a Impetum Group, un proiect destinat afacerilor disruptive, și de la un investitor privat.

Am vorbit cu Sabin Dima, CEO-ul Humans, despre cât de aproape de realitate este viziunea acestui start-up, despre provocările etice pe care le ridică (în contextul îngrijorărilor despre „deep fakes”),„What are deepfakes – and how can you spot them?”, theguardian.com despre ce înseamnă, până la urmă, să ai posibilitatea de a-ți crea această extensie digitală care-ți permite – ca să-l citez pe Sabin – să scalezi timpul.

Cum ați început acest start-up? Care e povestea lui?

Sabin Dima: Proiectul Humans a început după ce am descoperit o nevoie în piață. Și anume că oamenii se așteaptă ca produsul cu care interacționează să fie personalizat, cum e în cazul Netflix sau pe Facebook, de exemplu.

Ce nu poți să personalizezi însă, este interacțiunea artiștilor cu fanii. Ei se trezesc dimineața, lansează un mesaj, dar e același pentru milioane de oameni. Așa că am creat o platformă prin care să poți obține videouri personalizate de la artiști. Numai că, după ce am făcut platforma și am lansat-o în variantă alpha, am realizat că problema cea mai mare a artiștilor este timpul. Iar tehnologia nu putea scala timpul.

În perioada aceea, a fost un shift în AI. De când exista tehnologia aceasta, era focusată mai ales pe segmentat date, pe înțeles lumea care ne înconjoară, însă a apărut acest shift, un AI care permite să creezi pixeli care nu există, să creezi sunet etc. Și atunci ne-am dat seama că, prin intermediul AI, am putea să scalăm timpul.

De fapt, noi mergeam către artiști cu o propunere falsă – și anume că platforma noastră îi ajută să economisească timp conectându-se mai ușor cu fanii. Dar în realitate le încărcam și mai mult programul. Pe când, cu această nouă tehnologie, putem să le câștigăm timp. Apoi am privit dincolo de artiști și ne-am dat seama că am putea să scalăm timpul tuturor oamenilor, pentru că tehnologia nu ține cont de numărul de followeri. O dată ce poți să creezi ADN-ul digital al unei persoane, aceasta poate fi un prieten sau cea mai mare vedetă.

Prin ADN digital ne referim la toate acele data points care te definesc pe tine ca om: cum arăți, cum te miști, cum zâmbești, cum se modifică pupila – că și asta e o caracteristică umană și dă identitate –, care este forma feței etc. Chiar putem să-i adăugăm și personalitate. De exemplu, intonația se schimbă în funcție de personalitatea pe care o ai și contextul în care îți este pusă o anumită întrebare. Vocea poate sună la fel, dar stilul este diferit.

Propriu-zis, cum înregistrezi un ADN digital?

S.D.: Trebuie să ne uităm la acest ADN digital ca la orice are o rezoluție. Inițial aveam camere digitale care făceau fotografii la rezoluție mică, dar tehnologia a evoluat și am ajuns să facem fotografii la sute de megapixeli. Noi ne propunem să democratizăm această tehnologie, să nu fii nevoit să te duci să te scanezi într-un centru specializat. Mai ales acum, când telefoanele devin din ce în ce mai performante.

Trebuie să ne uităm la acest ADN din punct de vedere conceptual. Aducem date, dar ce date? Putem să ne scanăm fața cu telefonul, poți să dai sample-uri de voce, să citești anumite lucruri, să faci anumite expresii. Poți să ne dai acces la datele pe care le ai. Sunt oameni născuți în 2000 odată cu tehnologia, cu camera digitală, e ca și cum ar fi fost urmăriți de o echipă de paparazzi în permanență. Există sute de ore de înregistrări cu noi, mii de poze. Toate aceste date pe care noi le avem deja pot să ajute mașina să ne înțeleagă și, cu ajutorul lor, putem crea această rețea neuronală. Partea de creare va fi din ce în ce mai precisă pe măsură ce vom avea acces la mai multe date, o înțelegere mai bună.

Deci mai multe date presupun un ADN digital mai precis. Dar când e vorba de actori, aceștia au personaje pe care le joacă. Trebuie să-și creeze un ADN digital pentru fiecare personaj?

S.D.: În esență e doar o manipulare diferită a aceluiași ADN digital. Până la urmă, și biologic e un singur ADN. Trebuie să înțelegem ce forme poate lua acest ADN digital, cum poate fi utilizat în moduri diferite. E greu de prezis acum unde va ajunge toată chestia asta, dar dacă ne uităm la ce s-a întâmplat în fotografie, va fi la fel. Și când reușeam să surprindem doar 30 de pixeli conceptul era același; acum prindem din ce în ce mai mulți, cu o luminozitate mai bună, cu o acuratețe mai mare. Așa și ADN-ul digital. Va ajunge ca, dacă actorul X va avea un anumit scenariu, dintr-un anumit film, să știe ce ar spune actorul și cu ce intonație. Acolo va ajunge tehnologia, cu siguranță.

Revenind la ce se poate acum. Vor fi pachete separate de audio și de video? Poți folosi doar părțile care te interesează?

S.D.: În mare, ADN-ul digital este împărțit în două sau trei componente: partea de look, de feel, de cum arăți, de cum te miști – corpul și fața –, de cum suni. Și toate pot fi folosite separat. De exemplu, se vor putea genera videouri cu tine dansând ca Michael Jackson. Sau poți să spui propoziții pe care le-au spus alții și buzele să se sincronizeze sau să vorbești în chineză.

Dar pe lângă componenta asta, mai există și partea „OK, dar ce-ar spune X?”. E partea de conștiință, de knowledge. Ce-ar spune Beyonce dacă o întrebi unde s-a născut? Și chiar ne-au căutat companii (interesant, una fondată și de români), care ar vrea să ni se alăture în acest proces și să ne ajute cu partea de knowledge. Dacă l-ai întreba pe Einstein dacă pământul este plat, e nevoie de altă companie care înțelege creierul, informațiile…

Știu că sunt oameni care vor să existe după moarte și să-și încarce conștiința într-un calculator. Noi nu vrem să intrăm în domeniul ăsta, noi vrem ca, dacă cineva știe ce ar spune Einstein, să-l arătăm spunând-o cu vocea lui.

Nu e mai complicat să generezi ADN-ul digital al lui Einstein, dacă nu ai atâtea informații din acea vreme?

S.D.: A existat un proiect de advertising în care au creat o replică a lui Dali din footage-ul pe care-l aveau – parcă vreo 18.000 de frame-uri. A fost o încercare și a funcționat într-un muzeu – era un totem cu Dali care răspundea la câteva întrebări. Deci tehnologia există. Ce e de înțeles este că, odată ce ai deslușit codul sursă al omului, poți să creezi cu identitatea lui orice vrea el.

Care sunt ramificațiile ADN-ului digital din punct de vedere etic, legal și financiar?

S.D.: Legat de etică, dacă ne uităm la Facebook-ul de acum, acesta are un departament de etică, dar l-au creat mult prea târziu. Algoritmii sunt atât de avansați în sistemul lor și structurile atât de complexe încât e mult prea târziu să implice acum un departament de etică.

Noi vrem să facem chestia asta din momentul zero și să avem integrată partea de etică în funcționarea sistemului. Adică, prin aplicație îți generezi acest ADN digital, dai acces la date, dar doar tu, cel care ai oferit datele, poți să aprobi ce iese din sistem atunci când datele tale sunt folosite. Dacă Amazon te va întreba dacă vrei să narezi bestselleurile SF din 2020, tu spui „da” sau „nu”. Dacă Trump va alege să transmită un mesaj în rusă prin platforma noastră, e dreptul lui. La fel de bine putea să o facă și în offline – învăța rusă, se înregistra și filma un mesaj. Și dacă o vedetă ar vrea să joace într-o reclamă, o poate face și fizic. Atâta timp cât doar deținătorul de date este cel care aprobă ce iese din sistem, nu poți crea fake news. Și cred că răspunsul acoperă și partea de legalitate.

Un mare antreprenor din tehnologie a venit cu sugestia să semnăm în blockchain fiecare fișier media pe care-l creăm, dar deocamdată discuția asta este la nivel pur teoretic.

O altă parte legată de etică este că organizăm un summit, Digital DNA Summit – primulsummit care vorbește despre ADN-ul digital. Îl vom împărți în două zile. În prima zi vorbim despre accelerarea tehnologiei. Vin researcheri, oameni de bussines, oameni de producție. Iar în a doua zi vorbim despre cadrul etic în care se face asta.

Am putea ajunge ca AI-ul să poată crea orice idee pe care o avem. Dacă vrei să filmezi ceva, trebuie să închiriezi camere, să ai bugete, iar asta e o frână în calea creativității. În viitor o să ai o poveste, un scenariu, dai play și vei vedea filmul pe care l-ai făcut. Se mai spune că tehnologia asta e un fel de Photoshop pentru video și cu ușurința cu care creezi acum un poster de nivelul Hollywood, vei crea și un video de nivelul Hollywood-ului. Va trebui să discutăm ce înseamnă asta din punct de vedere comercial și din punct de vedere etic.

Și financiar? Dacă o agenție folosește modele create digital, cum funcționează?

S.D.: Avem două modele de business. Unul este pay per use, adică vei plăti că folosești platforma și că îți generăm synthetic media, adică pixeli care nu există în realitate. Sau poate să fie de forma revenue share. Dacă ai găsit modelele prin platformă, putem să împărțim banii.

La ce nivel este în momentul ăsta tehnologia?

S.D.: Suntem în faza în care trebuie să maturizăm tehnologia. Ce am făcut în laborator trebuie îmbrăcat într-o formă comercială și să ajungă la un prim client. Asta e misiunea unui start-up – să identifice o problemă, să creeze o soluție, apoi să o valideze cu un client. Suntem în discuții cu companii pentru a începe un prim use case, pe care am vrea să-l facem în cam două luni.

Adică aveți capacitatea de a scana un ADN digital și de a-l folosi în ceva, dar nu și contextul?

S.D.: Avem tot workflow-ul creat. Dar tehnologia asta este una care se dezvoltă, cu voia noastră, dar și fără voia noastră. Pur și simplu, sunt progrese tehnologice. Și hardware – putem să preluăm date mult mai repede –, dar și software. Suntem foarte conectați la domeniul ăsta, și aflăm despre tot felul de lucrări și descoperiri în zona asta.

Ce presupune din punctul de vedere al puterii de calcul?

S.D.: Rulează în cloud și cloud-ul are frumusețea că e foarte scalabil, deci n-avem probleme de putere de procesare.

Mai sunt companii care fac ceva similar?

S.D.: Sunt companii în zona de synthetic media, care se folosesc de AI ca să genereze pixeli și lucruri care nu există, dar e un domeniu de pionierat, nu a luat nimeni leadership-ul. E similar cu ce s-a întâmplat în anii 2000. Mai mulți oameni au făcut website-uri, dar Amazon și Google au ieșit în față. E o revoluție, dar e la început.

Ați primit o finanțare de 330.000 euro pentru asta. E singura? Cât de mult vă ajută?

S.D.: Cel mai mult ne-a ajutat că am luat-o într-un moment economic foarte dificil, în plină pandemie și într-un moment de incertitudine maximă, când absolut toată piața de investment era blocată. Asta ne-a dat foarte multă încredere, iar încrederea e mai importantă decât capitalul. Și am avut-o din partea a două fonduri de investiții și a unui investitor privat din domeniu. Financiar, ne ajută să ne mărim echipa și să ne dezvoltăm mai mult.

Pe ce perioadă? Cât de mare este echipa?

S.D.: Un an și jumătate. Suntem în jur de zece oameni. Zic în jur, pentru că sunt și persoane în teste. Suntem destul de flexibili. De când fac tehnologie, pentru proiectul ăsta mi-a fost cel mai ușor să aduc oameni.

Este un proiect business to business?

S.D.: Da. Noi dăm acces ȋn platformă distribuitorilor de conținut.

Cum va funcționa? Va fi un CMS (Content Mangement System) pentru useri, un API (Application Programming Interface) pentru business-uri?

S.D.: Va fi API based pentru platforme, iar utilizatorii vor avea o aplicație.

Cât va dura până va fi matură tehnologia asta?

S.D.: Depinde pentru ce. Sunt unele situații pentru care poate fi matură încă de acum. La modul în care ne-o imaginăm noi, probabil că va fi nevoie de ani de zile. Probabil că pe parcurs o să ne vină și mai multe idei. Ca să ajungem ca această aplicație să creeze orice idee avem acum și să umple golul dintre idee și produs final, probabil 5-10 ani.

Ce ar putea face repede, acum?

S.D.: Să genereze audio, să modifice video. Să traducă în mai multe limbi sau să personalizeze fișiere video. Dar e doar primul pas. Îmi place exemplul ăsta în care, acum, copiii care trebuie să scrie o compunere, la școală, vin cu caietul. În viitor, vor scrie o compunere și oamenii se vor uita la compunerea ecranizată. Și fiecare copil o să aibă filmul lui, așa cum l-a visat. E foarte greu de prezis cât va dura. Evoluează tehnologia incredibil după ce a depășit acest point of no return. Cel mai probabil va fi cărămidă cu cărămidă. Foarte probabil că atunci când această tehnologie va produce bani, se va investi și mai mult și va crește exponențial.

Ați putea extinde utilizarea ei și la aplicații de telefonie mobilă?

S.D.: Apple a aplicat deja cu un patent pentru a face synthetic group photo, adică să creezi o poză de grup fără ca oamenii să fie prezenți acolo. De fapt, Apple chiar face o chestie super interesantă, de care lumea nu este conștientă. Când ai un apel pe Facetime, tu te uiți în ecran, aplicația îți ridică puțin pupilele, ca să pară că te uiți în cameră și să fie mult mai personală experiența, să te uiți în ochii interlocutorului. Și asta e o formă de modificare a unui video. Doar că aceste lucruri se întâmplă sporadic, fiecare face câte ceva, nimeni nu a venit să strângă la un loc ADN-ul digital.

În ce proiecte ai mai fost implicat și cum e să lucrezi în acesta?

S.D.: Sunt în zona asta de 15 ani, fac asta de la 15-16 ani. Am avut o firmă de programare cu care am dezvoltat una dintre primele rețele sociale din Iordania, cu o gașcă de programatori din Constanța. În timpul liceului, în casa părinților unui prieten, într-o mansardă, ne-am făcut primul birou. De-a lungul timpului, am fost implicat în fonduri de investiții, am fost partener, la 21 de ani, în Geekcelerator, unul dintre primele asemenea fonduri din România – am investit numai în companii din afară. Apoi am fost implicat în zona de start-up și de outsourcing. Iar cu băieții cu care sunt acum am tot lucrat, de-a lungul timpului, în diferite proiecte, mai ales pe zona de AI, deci aveam legătura asta cu partea de deep tech.

A fost mai simplu să atragem colegi ultratalentați și „scary smart” cu proiectul ăsta decât cu absolut orice alt proiect din ultimii 15 ani. Și vrem și mai mulți colegi pasionați de machine learning, de AI, iar România are specialiștii care să construiască acest sistem. Dacă a crea o platformă comercială – să faci un Facebook din România –, este dificil, n-aș zice chiar imposibil, o platformă cum este cea pe care o construim noi avem cum să o facem de aici, de acasă, din România. Noi avem viziunea. Până acum ne-a fost frică, dar vecinii de la UiPath, care au acum sediul în capătul străzii pe care suntem și noi, ne-au dat voie să visăm.

Interviu de

Mihai Ghiduc

Redactor-șef. A oscilat între print (Opinia studențească, Men's Health, Maxim, Marie Claire) și online (Vice, Glamour, Slow Forward) până l-a prins din urmă revoluția tehnologică.

AI&ROBOȚI

MS TALKS