Inteligența artificială e imprecisă, dar poate ajuta la rezolvarea problemelor matematice complexe. Interviu cu Petar Veličković (DeepMind)
Am vorbit cu cercetătorul sârb de la DeepMind despre cercetarea de dragul cercetării vs. cea care rezolvă probleme reale și despre cum au ajuns matematicienii să folosească inteligența artificială pentru a descoperi noi teoreme.
Petar Veličković este Staff Research Scientist la DeepMind, lector afiliat la Universitatea din Cambridge și lector asociat la Clare Hall, Cambridge. Poate cele mai cunoscute contribuții ale sale la lumea inteligenței artificiale sunt o serie de algoritmi de deep learning.
Veličković a folosit atenția în arhitectura rețelelor neuronale, în ceea ce se numește „Graph Attention Networks”, mila.quebec (PDF) E destul de greu de explicat cum funcționează acestea, dar – pe scurt –, un GAT face un AI mai rapid, pentru că nu mai pierde timp cercetând reperat căi care nu duc nicăieri, ci se concentrează pe cele cu potențial. Practic, rețelelor neurale care funcționează cu date structurate sub formă de grafuri (precum rețelele de drumuri sau cele electrice) li se adaugă un strat de atenție (attention layer), adică un mecanism care permite rețelei să extragă doar informațiile importante. La fel de important, acest lucru permite cercetătorilor să afle ce anume din date este văzut important de algoritm.
GAT nu este însă singura metodă de deep learning, adică de învățare nesupravegheată, dezvoltată de Veličković. El a creat, tot în 2018, și „Deep Graph Infomax | OpenReview”, openreview.net Mai aproape de telefonul tău, Peter este unul dintre cercetătorii care au contribuit la îmbunătățirea acurateții felului în care Google Maps „Traffic prediction with advanced Graph Neural Networks”, deepmind.com o metodă folosită din 2020.
Petar Veličković a vorbit despre GAT la AI Days, o întâlnire care s-a desfășurat pe 13 și 14 octombrie la Oradea, la care au participat specialiști în inteligența artificială din întreaga Românie. A fost una dintre prezentările care au pornit de la o discuție aproape netehnică despre funcționarea AI-lui (începută într-o limbă română aproape perfectă, pe care Veličković a învățat-o de la soția sa) și a ajuns până la folosirea acestuia matematici superioare.
Asta pentru că munca lui Veličković nu se rezumă doar la aplicații practice pentru șoferi (și pietoni) grăbiți. Algoritmii lui Petar au fost folosiți într-o cercetare care l-a dus Poți vedea coperta chiar la Petar pe twitter.com
„Advancing mathematics by guiding human intuition with AI”, nature.com arată cum, cu ajutorul machine learning-ului, matematicienii au putut să demonstreze teoreme importante pentru două domenii matematice, Domeniu matematic studiază nodurile din punct de vedere topologic. și Ramură a matematicii care studiază structurile algebrice abstracte reprezentând elementele acestora sub forma unor transformări liniare de spații vectoriale.
Este vorba de probleme cu care matematicienii s-au lupta de decenii. Specialiștii au observat care parte din date a dus la rezultate corecte. Observând că acesta concentrează mereu pe același tip de subseturi ale unui graf, au folosit asta pentru a stabili și demonstra teoremele.
Am vorbit cu Petar despre faptul că abia acum AI-ul a ajuns să pătrundă în lumea matematicii, despre cât de important este să lași algoritmul să greșească și ce poți să înveți din asta, despre folosirea dimensiunilor multiple în machine learning și despre cât de dificil este pentru cercetătorii care n-au acces la putere de calcul să folosească AI-ul.
Mindcraft Stories: A fost ciudat să aflu că inteligența artificială nu este atât de implicată în matematica pură. La urma urmei, grafurile care stau la baza algoritmilor AI vin din matematică. De ce colaborarea este atât de târzie?
Petar Veličković: Principalul obstacol este că lucrurile pe care inteligența artificială le poate face foarte bine astăzi se bazează pe observarea a cantități uriașe de date. Din acestea, un sistem învăța să extragă tipare care să ducă la luarea unor decizii. Și, atunci când rezolvi o problemă din lumea reală, este OK să ai un sistem care să rezolve o problemă corect în 80-90 la sută din cazuri. Este mai bine decât ceea ce poate face un om pentru acea problemă.
Matematica este mai complicată pentru că, mai ales în domeniile mai obscure ale sale, este greu să colectezi date care să aibă forma potrivită ca un AI să învețe din ele.
Apoi, argumentul că am un sistem cu o precizie de 90% nu funcționează. În matematică, ori rezolvi problema, ori nu rezolvi problema, nu există o cale de mijloc.
Când am vorbit cu matematicieni, la începturile AI-ului, acestea au fost principalele motive pentru care au crezut că ne va fi foarte greu să intrăm în acest domeniu. Sunt de acord că multe domenii ale matematicii sunt pregătite pentru intervenții cu machine learning, doar că este foarte greu să o faci așa cum s-ar aștepta matematicienii să se întâmple.
M.S.: Deci AI-ul ar putea găsi conjecturi, dar nu și teoreme.
P. V.: Sistemele AI, cel puțin cele pe care le-am construit până acum, nu prea găsesc teoreme, nu au o precizie de sută la sută. Poate merge o mare parte a drumului, ceea ce poate fi conjectural – poate să observe că două lucruri sunt legate.
Totuși, AI-ul are această putere că, odată antrenat, poate fi întrebat ce a văzut în date. Deci ai un fel de microscop de precizie care privește un obiect matematic foarte complicat și mărește o mică parte din el, cea pe care sistemul o consideră cu adevărat importantă.
Mă rog, nu este chiar un microscop de precizie, pentru că în realitate ceea ce oferă sistemul AI este foarte zgomotos. Adică obține probabil patternul potrivit, dar și multe alte corelații invalide în jurul acestuia.
De ce este util pentru un matematician? Acum, acesta nu mai trebuie să se uite la întregul obiect, ci poate privi o mică parte din el. Și este mult mai ușor să reperezi patternuri într-o parte mai mică.
Sistemul AI nu oferă teoreme, dar poate permite matematicianului să vadă ce este necesar pentru a defini o teoremă. Și în asta cred că stă puterea inteligenței artificiale.
Așa cum a spus unul dintre colaboratorii mei, ar fi ca și cum m-aș întoarce în istorie să-i dau lui Gauss un calculator de buzunar. Gauss a făcut niște lucruri fantastice în matematică, fără calculatoare. Poți să-ți imaginezi ce ar fi făcut dacă ar fi avut acces la unul?
M.S.: Trecând acum la o perspectivă mai largă, cred că Richard Dawkins a spus că omul este foarte bun să observe pattern-uri, dar și să observe pattern-uri care nu există, precum cele din numerele de la loto. De ce există așteptarea asta de la AI de a da doar răspunsuri corecte, de ce râdem când greșește?
P.V.: Aș spune că pot fi multe beneficii în sistemele de inteligență artificială care nu produc cele mai bune răspunsuri posibile. Un lucru foarte evident care îmi vine în minte, în special în lumina succesului recent al modelelor de limbaj, este că pot fi parteneri fantastici de brainstorming.
Aceste sisteme AI au observat întregul internet, așa că, atunci când pui anumite întrebări, pot să aducă ceva pe care să te concentrezi, chiar dacă nu e neapărat răspunsul pe care-l vrei. Poate fi chiar o greșeală, dar te poate duce în noi zone creative. Au existat recent lucrări care au folosit inteligența artificială pentru a scrie piese de teatru.
În multe domenii, nici nu poți definești în mod concret acuratețea, poți vedea doar cum un om folosește rezultatul unui sistem AI pentru a genera ceva creativ.
Motivul pentru care oamenii cred că sunt ceva mai serioși în ceea ce privește analiza acestor sisteme este pentru că sunt sisteme proiectate. Există această prejudecată că atunci când ai un sistem AI de ultimă generație trebuie să facă ceea ce trebuie, altfel pare e stricat. Cred că avem nevoie de mai multă educație despre inteligența artificială, pentru a-i face pe oameni să înțeleagă ce poate face AI-ul, ce nu poate face, care sunt lucrurile distractive și uimitoare pe care le poți face cu ajutorul suu și, de asemenea, care sunt lucrurile potențial periculoase pe care le poți face cu aceasta. Toate aceste lucruri, inclusiv înțelegerea faptului că un sistem de ultimă generație nu are 100% precizie, lipsesc acum.
M.S.: La Deep Mind te implici mai mult în zona științifică și în cercetare teoretică sau în cea comercială?
P.V.: Aș spune că încerc să ating un echilibru.Sunt un om de știință, prin formare, și încerc să fac ca linia mea principală de activitate să fie legată de cercetarea fundamentală. Dar nu mai fac cercetare de dragul de a face cercetare. Încerc să fiu mereu cu picioarele pe pământ, chiar și în cercetarea fundamentală, gândindu-mă la o problemă din lumea reală pe care o putem rezolva folosind acele tehnici.
Dincolo de a dezvolta ceva ce ar putea deveni un produs în cinci-zece ani, încerc să mă gândesc la modurile în care pot fi folosite acum tehnicile pe care le avem la dispoziție pentru a crea produse cu un impact semnificativ. Așa am ajuns să punem rețele neurale în Google Maps.
A fost modul nostru de a spune că aceste modele sunt suficient de mature ca să le folosim pentru a estima durata unei călătorii în timp real. Și s-a dovedit că am avut dreptate, acest sistem este acum utilizat în întreaga lume și a îmbunătățit semnificativ ceea ce putea să facă modelul anterior. Iar acesta este doar exemplul despre care pot vorbi pe larg, pentru că am publicat lucrarea. Încerc să-mi petrec cel puțin 20-30% din timpul meu fie în cercetare științifică, fie în cea comercială, aplicată.
M.S.: La un moment dat ai vorbit despre trecerea grafurilor din 2D la mesh-uri 3D și chiar la dimensiuni superioare. Cât de util poate fi să crești numărul dimensiunilor?
P.V.: Sunt destul de încântat de ideea creșterii numărului de dimensiuni, în principiu. Aici apare însă un contrast între ceea ce ar putea face o rețea neuronală într-un spațiu multidimensional, adică să facă calcule, să extragă date pe care n-am putea să le interpretăm, dar care pare puternic prin în comparație cu metodele mai tradiționale, ce funcționează într-un spațiu cu mai puține dimensiuni, unde putem interpreta și raționaliza ce fac și putem chiar să avem niște garanții de performanță.Cred că ambele metode au meritele lor și există circumstanțe în care ai putea prefera să utilizezi una sau alta.
De ce cred că sistemele AI cu mai multe dimensiuni sunt mai potrivite pentru rezolvarea problemelor din lumea reală? Pur și simplu pentru că lumea reală este dezordonată.
Datele obținute din lumea reală au mult mai multe dimensiuni decât spațiul în care se petrece procedura AI. Însuși actul de a mapa acele date complexe într-un spațiu în care pot fi aplicate, într-un mod robust, tehnicile cu mai puține dimensiuni nu poate fi făcut de oameni – e un lucru știut din anii 1950.
Rămânerea într-un spațiu înalt dimensional ți-ar permite să profiți de bogăția datelor tale din natură, fără a fi vulnerabil la blocaje. Deoarece însuși actul de a comprima marele și zgomotosul tău set de date multidimensionale într-unul bi sau tridimensional creează blocaje. S-ar putea să ai un algoritm perfect corect care funcționează pe acele intrări bi sau tridimensionale, dar dacă faci orice greșeală, dacă renunți la orice parte importantă din date, nu contează că algoritmul tău este corect.
Dacă intră gunoi, iese gunoi. Algoritmul este la fel de bun ca datele pe care i le dai.
În al doilea rând, pentru majoritatea problemelor din lumea reală, putem fi întotdeauna siguri că algoritmul pe care l-am proiectat este corect? Atunci când analizezi traficul, de exemplu, s-ar putea să vrei să spui cuiva care este cel mai rapid mod prin care vei ajunge de la A la B. Dar este un mod îngust de a privi lucrurile, pentru că asta o persoană să ajungă cel mai repede la destinație. Dacă trimiți pe toată lumea pe același drum ajungi să congestionezi o arteră majoră.
Dacă ar exista o metodă mai atentă la modul în care se mișcă traficul în ansamblu, atunci când decizi cum să direcționezi agenții în trafic, s-ar putea să obții rezultate mai bune. Și, în acest moment, ajungi la trei, patru, cinci algoritmi care se aplică în același timp.
Spațiile cu multe dimensiuni sunt o idee grozavă, dar nu sunt convins că știm să valorificăm acele spații în mod corect. Este unul dintre lucrurile importante la care lucrez în momentul de față, să încerc să duc aceste metode de calcul clasice într-un spațiu cu mai multe dimensiuni fără a pierde controlul asupra lor.
M.S.: Cât de importantă e puterea de calcul? Duce la o limitare a accesului la AI? Spunea cineva de la un institut din Serbia că trebuie să împartă un singur cluster de plăci grafice pentru experimentele lor.
P.V.: Fluxul dominant actual de metode de machine learning este avid după date și după putere de calcul. Suntem într-o fază de explorare. Evident, sunt unele idei cu adevărat semnificative care circulă, ici și colo, dar există această arhitectură cu scop general, Detalii pe wikipedia.org pe care îl poți folosi la diverse probleme.
Cu cât îi arunci mai multe date și îi dai mai multă putere de calcul unui transformer, cu atât obții rezultate mai bune fără o noutate semnificativă la nivelul algoritmului.
Ne aflăm într-o fază de exploatare și asta presupune că vom fi limitați de puterea de calcul dacă dorim să concurăm cu cei mai buni jucători. Dar nu înseamnă că instituțiile care nu au acces la acest tip de putere de calcul nu pot participa la discuții. Pentru că, atunci când aceste modele sunt lansate, se oferă, de obicei, o formă de API care-ți permite să folosești unele dintre aceste modele, să le cercetezi etc. Deci poți să lași un jucător mare sau un grup de institute să se ocupe de antrenarea prealabilă a modelului, și apoi îl poți lua pentru a-l folosi pentru ceva de care îți pasă. Este o limitare, dar nu trebuie să te împiedice, dacă vrei să aplici un model AI și nu ai acces la un computer de top.