Audio și video generat de AI, avertismente de inundații și internetul în 1.000 de limbi

De Mihai Ghiduc 02.11.2022

Cercetătorii de la Google Research și-au prezentat cele mai noi descoperiri în domeniul inteligenței artificiale.

Cercetătorii de la Google Research au anunțat miercuri, 2 noiembrie, în cadrul evenimentului AI @22,Îl poți urmări aici: youtube.com noile proiecte la care lucrează și care au devenit produse mai mult sau mai puțin utilizabile, bazate pe modele noi și inovative de machine learning. Inteligența artificială își face loc în tot mai multe domenii creative, de la muzică la video, dar și în alte domenii în care pot ajuta oamenii, de la înțelegerea limbajului, la aplicații medicale și avertismente rapide în caz de incendii sau inundații.

Am avut ocazia să vorbesc cu cercetători Google la o masă rotundă pe aceste teme, desfășurată (virtual) săptămâna trecută, și să-i întreb despre provocările pe care le întâmpină atunci când încearcă să creeze noi produse AI.

AI-ul creativ generează acum muzică și video

„Cred că vom schimba felul în care oamenii se exprimă creativ. Aceștia vor învăța să genereze cod, text, imagini, sunet și chiar video”, spune Doug Eck, Senior Research Manager la Google Research. Dacă la imagini și text lucrurile sunt deja destul clare, Google a intrat în zone creative mai complexe.

Asta nu înseamnă că le-a neglijat pe cele explorate deja de toată lumea. „Anul acesta, ne-am întrebat cum putem folosi LaMDA pentru scris creativ”, spune Eck. „Poate un program creat pentru a dialoga să ofere scriitorilor material brut pentru a spune povești sau chiar idei noi?”. LaMDA„LaMDA: our breakthrough conversation technology”, blog.google este un AI conversațional care a fost anunțat anul trecut, dar probabil ai auzit de el atunci când l-a convins pe un inginer Google că ar fi un AI inteligent.„Google engineer says Lamda AI system may have its own feelings”, bbc.com 

CITEȘTE ȘI: AI cu conștiință sau doar un chatbot care a învățat filosofie?

Pentru a testa ipoteza (că e util pentru creatori, nu că ar fi inteligent), Google a colaborat cu scriitori profesioniști, care au folosit LaMDA ca instrument, în Wordcraft Writers Workshop.Detalii pe appspot.com Concluzia – „am învățat că nu e ușor și că nu face toată munca” – va fi publicată curând într-un studiu.

În domeniul generării imaginilor, Google a anunțat recent Imagen„Imagen: Text-to-Image Diffusion Models”, imagen.research.google și Parti,„Parti: Pathways Autoregressive Text-to-Image Model”, parti.research.google două modele care, „la nivel de cercetare, au avut abordări foarte diferite în ceea ce privește generarea imaginii din text”, spune Eck. „Parti e mai mult despre text, folosește un model bazat pe limbaj pentru a genera imagine, Imagen e mai mult legat de imagine, folosește o tehnică numită difuzie și e din ce în ce mai bun în a genera imagini cu rezoluție înaltă.” Cercetarea Google ar putea încerca să combine cele două abordări, dar nu se știe încă unde va duce acest lucru, a mai spus Eck.  

Până atunci, într-un mic experiment, Google a creat Dream Fusion,„Text-to-3D using 2D Diffusion”, dreamfusion3d.github.io care folosește același model ca Imagen pentru a crea imagini 3D. Acestea pot fi apoi urcate în softuri specializate, precum engine-uri de jocuri, și pot fi animate.

Acum, Google intră și în alte zone creative. AudioLM,„AudioLM – A Language Modeling Approach to Audio Generation”, google-research.github.io un alt instrument anunțat recent, folosește AI-ul pentru a genera voce și muzică bazate pe sample-uri de la utilizator. „Modelul e antrenat doar pe sunet brut, deci nu e nevoie ca utilizatorul să-i ofere conținut scris sau note muzicale”, spune Eck.

În zona video, lucrurile sunt mai complicate. „E surprinzător de greu să generezi video cu o rezoluție înaltă, adică fiecare cadru să arate bine și să fie coerent în timp, iar secvența de imagini să creeze o poveste inteligibilă”, spune Eck. 

„Ai o cameră și lumea”, explică el. „Dacă muți camera, explorezi lumea în spațiul 3D, iar videoul înseamnă explorarea lumii în timp. Ai circa 24 de cadre pe secundă de generat. Imaginează-ți un video cu cineva jucându-se cu o minge de baschet. Dacă prezici un frame din cel precedent, obții ceva blurat, iar modelul își pierde coerența – obții frame-uri individuale, dar nu pe cineva jucându-se cu mingea.”

Ca și la imagini, Google are două abordări complementare pentru asta, care n-au rezolvat complet problema, dar arată un progres: PhenakiDetalii pe phenaki.github.io și Imagen Video.Detalii pe imagen.research.google Primul folosește o tehnică bazată pe învățarea secvențelor temporale, în timp ce Imagen utilizează difuzia, care creează imagini individuale, înlănțuite, apoi,într-un video. „Asta înseamnă o calitate mai ridicată a imaginii, pentru Imagen, în timp ce Phenaki are abilitatea de a spune povești mai lungi”, explică Eck.

Oportunitate sau amenințare?

Cu atâtea instrumente creative care folosesc AI-ul, apar și o serie de probleme, nu doar oportunități. „Trebuie să înțelegem că sunt niște riscuri reale aici”, spune Eck, „și că poate fi dăunător, dacă nu avem grijă. Aceste instrumente pot duce la o pierdere semnificativă a încrederii în mass-media și în știri. Nu vrem să facem și mai ușoară estomparea distincției dintre ce e adevărat și ce e fals”. 

Pentru aceasta, Google încearcă să aibă grijă ca modelele să poată fi controlate la nivelul generării de conținut, în așa fel încât, de exemplu, să nu poată genera imagini dăunătoare. Instrumente care să poată detecta conținutul general sunt, de asemenea, construite de echipele de cercetători. 

Eck, care este și muzician în timpul liber – „nu spun că sunt bun, dar sunt serios”, glumește el –, a vorbit și de potențialele riscuri pe care aceste noi instrumente le aduce muncii creative. „M-am gândit mult la interacțiunea dintre tehnologie și artă. Ceea ce văd este că artiștii iau tehnologia și o folosesc pentru a creea ceva frumos. Exemplul meu favorit este chitara electrică, care scoate niște sunete grozave, dar dacă o scoți din priză îți dai seama cât din muncă e făcut de tehnologie. Din workshop-ul cu scriitori am aflat că e interesant să folosești tehnologia ca un condiment, ca un adaos la ce vrei să faci. Dacă o lași să spună singură povești nu iese ceva interesant. Și cred că aceste instrumente AI vor rămâne unele care ne vor permite să spunem lucrurile diferit.”

CITEȘTE ȘI: Sunt DALL-E sau GPT-3 o amenințare pentru munca creativă?

Contribuția comunității la a crea AI-uri mai bune și mai sigure e de asemenea importantă. „O mare parte din munca noastră e open source, multe dintre modelele noastre sunt acolo”, spune Eck. Dar, cu cele noi, „o vom face doar în așa fel încât să respectăm principiile noastre cu privire la AI”. Cu alte cuvinte, Google ar vrea să fie sigur că lucrurile pe care le face disponibile comunității de programatori nu sunt dăunătoare. 

De asemenea, cercetătorii Google ar dori să știe cât de utile sunt aceste aplicații pentru creatori și pentru societate, în general. AI Test Kitchen,Detalii pe blog.google; Aplicația e disponibilă în PlayStore, play.google.com și AppStore, apps.apple.com o aplicație introdusă la Google I/O, este folosită tocmai pentru acest tip de feedback. 

În Sezonul 2, anunțat acum, Google are două noi demo-uri. Primul se numește City Dreamer și folosește o combinație de LaMDA și modelele de generare de imagini pentru a crea rapid orașe tematice; al doilea demo se numește Wobble și folosește LaMDA, modele de generare de imagini și cele mai recente tehnici de animație 2D-to-3D pentru a crea monștri prietenoși care pot dansa.

Spre un internet mai inclusiv?

Google a mai anunțat un nou proiect, numit 1000 Languages Initiative, prin care și-au propus să construiască un model de inteligență artificială care va funcționa în cele mai vorbite 1.000 de limbi din lume. „Nu toată lumea poate accesa azi informația în limba sa natală”, spune Johan Schalkwyk de la Google Research. „Ce se întâmplă dacă un utilizator nou de internet din Africa, vorbitor de wolof, o limbă din Senegal, întreabă unde e cea mai apropiată farmacie sau cine a câștigat meciul de aseară? Sunt lucruri pe care le luăm de-a gata, dar care nu sunt disponibile peste tot în lume.” 

Pentru a ajunge la cele 1.000 de limbi, „ca prim pas, am dezvoltat un model universal de vorbire – Universal Speech Model, USM –, antrenat în peste 400 de limbi, cea mai mare acoperire lingvistică văzută într-un model de vorbire astăzi”, a spus Schalkwyk.

Proiectul va lua mulți ani, dar deja apelează la tehnici noi. Una dintre acestea e multimodalitatea. Google folosește nu doar limbajul scris, ci și cel audio-video pentru a antrena model universal de vorbire USM. De asemenea, cercetătorii vor lucra direct cu comunitățile interesate din întreaga lume, inclusiv Africa și sudul și sud-estul Asiei.

„Modelarea unui limbaj înseamnă mai mult decât să o faci în engleză și apoi să traduci”, explică Schalkwyk. „Și asta îl face mai bun în a înțelege nuanțele unei limbi. De exemplu, deși portugheza e vorbită în Portugalia și Brazilia, sunt foarte diferite, iar utilizatorul nu vrea să primească un răspuns în varianta greșită.” 

AI-ul poate fi folosit pentru a salva vieți

Utilizarea AI-ul în domenii care pot salva vieți este o altă direcție în care se îndreaptă Google. Yossi Matias, vicepreședinte pentru inginerie la Google Research, spune că, în contextul creșterii dezastrelor naturale din cauza schimbărilor climatice, a apărut necesitatea unor forme timpurii de avertizare, mai ales în zonele cu resurse financiare scăzute, unde aceste lipsesc. 

Noile zone în care vor exista avertismente de inundații. Foto: Google

Inundații și incendii de vegetație

„Sistemul de avertizare a inundatiilor de la Google, o inițiativă începută în 2007”, spune Matias, „folosește machine learning-ul pentru a estima pe unde va curge apa și pentru a trimite predicții și alerte persoanelor expuse riscului.” Acest sistem e parte a Google Crisis Response,Detalii pe crisisresponse.google un program care își propune să ofere resurse de calitate persoanelor aflate într-o situație de criză. 

Sistemul inundații a fost testat, din 2020 în India și Bangladesh,„A big step for flood forecasts in India and Bangladesh”, blog.google două țări în care inundațiile sunt frecvente în timpul musonului de vară.Acesta se desfășoară, în mare, între lunile iulie și septembrie, cu variații în funcție de zonă. Aici, sistemul a triplat numărul persoanelor care au primit avertismente de inundații. Sistemul este acum extins la 18 noi țări, dintre care 15 din Africa,Acestea sunt Burkina Faso, Camerun, Ciad, Republica Democratică Congo, Coasta de Fildeș, Ghana, Guinea, Malawi, Nigeria, Sierra Leone, Angola, South Sudan, Namibia, Liberia și Africa de Sud. la care se adaugă Brazilia, Columbia și Sri Lanka. Datele pot fi urmărite pe Google FloodHub.Îl poți accesa pe research.google

De asemenea, Google a anunțat acum un sistem de predicție a incendiilor de vegetație, bazat pe modele de machine learning antrenate pe imagini din satelit, care devine disponibil în SUA, Canada, Mexic și Australia. 

Ecografii și retinopatii mai simple

Folosirea AI-ul în medicină este una dintre temele discutate mereu când vine vorba despre potențialele aplicații ale inteligenței artificiale. Ar fi de-a dreptul ciudat ca inginerii de la Google să nu aibă inițiative în această direcție. 

Unul dintre aceste programe adresează problema femeilor gravide din regiunile fără acces la ecografii. Într-un parteneriat cu Northwestern University, aceștia au dezvoltat un program„Teaching AI to Read Fetal Ultrasound in Low- and Middle-Income Countries”, northwestern.edu ce folosește AI-ul pentru a ajuta moașele și asistenții medicali să colecteze și interpreteze date cu dispozitive ieftine. „Uneltele AI dezvoltate de noi au abilitatea să determine poziția și vârsta fetusului, ceea ce este important pentru ca personalul sanitar să poată identifica eventuale probleme în stadiile inițiale ale sarcinii”, a spus Yossi Matias.

Un alt instrument, care folosește AI-ul în aplicații de telefon, este folosit pentru a analiza imagini ale retinei. Prin intermediul aplicației ARDA (Automatic Retinal Disease Assessment) se poate face un screening pentru a depista retinopatiaDetalii pe sfatulmedicului.ro în faze incipiente, care poate duce la orbire dacă nu este tratată. „Este o afecțiune care afectează persoanele cu diabet”, explică Matias, „și e prevenibilă”. 

Analiza unor markeri de sănătate, precum ritmul cardiac sau stadiile somnului, este deja implementată de toți producătorii de telefoane și wearable. Google anunță acum că va adăuga capabilități pentru a avertiza utilizatorii că tușesc sau sforăie în timpul somnului. Funcția era deja disponibilă pe Nest, dar și pe ceasuri Fitbit mai recente (Sense și Versa 3), și acum va veni și pe Pixel. 

Desigur, multe dintre aceste modele de machine learning sunt încă în faze incipiente, dar arată că AI-ul poate fi folosit pentru a liberaliza accesul la sănătate, mai ales în zonele în care metodele tradiționale de prevenție și tratament sau mai greu sau imposibil de accesat.



Text de

AI&ROBOȚI|FYI

AI-urile ușoare și fără abonament se înmulțesc

De
În timp ce „Big AI” îți cere 20 de dolari pe lună, apar modele alternative pe care le-ai putea folosi gratuit. Dacă știi programare. Sau dacă-ți cumperi ochelari.
ENERGIE|SOLUȚII

Turnurile și turbinele eoliene sunt regândinte pentru a fi mai verzi

De
Materialele noi și designul inovator pot face ca una dintre principalele surse regenerabile de energie să devină mai ecologică și mai ieftină.
AI&ROBOȚI|FYI

Boston Dynamics a lansat un model electric al robotului umanoid Atlas, care va fi testat prima dată în fabricile auto Hyundai

De
Boston Dynamics, liderul mondial în dezvoltarea de roboți mobili, și-a luat la revedere de la unul dintre modelele principale, dar nu pentru mult timp.
SOCIETATE|SOLUȚII

Un semnal de alarmă: reducerea accidentelor rutiere cu ajutorul alertelor personalizate pentru șoferi

De
Cercetătorii din UE creează tehnologii avansate pentru a detecta semnele timpurii de oboseală și de comportament haotic al șoferilor, pentru a reduce numărul accidentelor rutiere.