University of Massachusetts/amherst

Richard Sutton și Andrew Barto câștigă Premiul Turing pentru progresele în învățarea prin recompensă7 min read

De Adriana Moscu 06.03.2025

Richard Sutton și Andrew Barto, cei care au pus bazele învățării prin recompensă, au fost recompensați cu Premiul Turing, cea mai prestigioasă distincție din informatică, pentru contribuțiile lor fundamentale la AI.

Andrew Barto și Richard Sutton au câștigat Premiul Turing 2024,// Mai multe, aici: amturing.acm.org // supranumit Nobelul informaticii, pentru contribuțiile lor fundamentale la învățarea automată, o tehnică cheie în formarea modelelor de inteligență artificială precum AlphaGo de la Google DeepMind și și ChatGPT de la OpenAI. 

Barto este profesor emerit de Informatică și Știința Calculatoarelor la Universitatea din Massachusetts, Amherst. Sutton este profesor de Informatică la Universitatea din Alberta și cercetător la Keen Technologies. 

În valoare de un milion de dolari, premiul poartă numele lui Alan M. Turing, matematicianul britanic care a pus bazele teoretice ale informaticii.

Învățarea prin recompensă, cunoscută și ca „reinforcement learning” (RL), este o tehnică în care un algoritm este antrenat să ia decizii pe baza unui sistem de stimulente. Atunci când o acțiune duce la un rezultat dorit, sistemul primește o recompensă, ceea ce îl motivează să repete comportamentul respectiv. 

Dacă acțiunea nu este eficientă, algoritmul primește un feedback negativ și învață să o evite. Acest principiu este inspirat din experimentele psihologului Edward Thorndike,// Mai multe despre el, aici: en.wikipedia.org // care a demonstrat cum își adaptează animalele comportamentele în funcție de consecințele acțiunilor lor.

În 1950, Alan Turing a scris lucrarea „Computing Machinery and Intelligence”/„Mașini de calcul și inteligență”,// O poți citi aici: courses.cs.umbc.edu (PDF) // în care s-a întrebat dacă mașinile pot gândi și a propus o metodă de învățare automată prin recompense și pedepse.

Abia în anii 1980, inspirat de psihologie, Barto și doctorandul său, Sutton, au început să dezvolte învățarea prin recompensă ca un cadru general de rezolvare a problemelor.

Barto și Sutton s-au bazat pe procesele decizionale Markov (MDP), unde un agent ia decizii într-un mediu aleatoriu și primește recompense după fiecare acțiune, încercând să maximizeze câștigul pe termen lung. Spre deosebire de teoria MDP standard, care presupune că agentul cunoaște toate detaliile mediului, în învățarea prin recompensă acestea pot fi necunoscute. Această flexibilitate face ca RL să fie aplicabil în multe domenii.

Însă această metodă de învățare automată a devenit faimoasă în 2016, când DeepMind, companie deținută de Google, a folosit-o pentru a dezvolta AlphaGo, un program care a reușit să învingă campioni mondiali la jocul de strategie Go. 

Mai recent, modelul este utilizat pentru a ghida răspunsurile modelelor lingvistice mari, precum cele folosite în ChatGPT, dar și pentru optimizarea consumului de energie, finanțe și proiectarea cipurilor. În robotică, această tehnică ajută mașinile să învețe prin încercare și eroare și să se adapteze din mers la diferite sarcini.

Barto și Sutton au avut un rol esențial în transformarea învățării prin recompensă dintr-un concept teoretic într-o metodă practică. Printre contribuțiile lor cheie se numără metodele „policy gradient”, care ajută algoritmii să ia decizii mai eficiente, și „temporal difference learning”, o tehnică care permite sistemelor să învețe progresiv, fără a avea nevoie de un feedback imediat pentru fiecare acțiune. 

Învățarea prin recompensă a avut succes în multe domenii. Un exemplu notabil este învățarea mișcărilor motorii de către roboți, cum ar fi manipularea unui cub Rubik. Cercetările au arătat că antrenarea unui algoritm în simulare poate duce la rezultate eficiente și în lumea reală, chiar dacă mediile sunt diferite.

Învățarea prin recompensă este folosită și în alte domenii, precum controlul congestionării rețelelor, proiectarea de cipuri, publicitatea online, optimizarea lanțurilor globale de aprovizionare și îmbunătățirea comportamentului chatbot-urilor. De asemenea, a contribuit la perfecționarea algoritmilor pentru una dintre cele mai vechi probleme din informatică: înmulțirea matricilor.



Text de:

Adriana Moscu

Este jurnalistă și, de peste 20 de ani, se bucură de principalul avantaj al profesiei, pentru că nicio zi nu seamănă cu alta. Are o relație de love-hate cu oamenii, pe care, de cele mai multe ori, îi îmblânzește prin interviuri.

ȘTIINȚĂ|RO-CERCETARE

Cercetarea românească în iunie: Top 3 cele mai deprimante lecturi școlare

De
În luna iunie, cercetătorii s-au preocupat de pesimismul învățat de elevi, soarta nefericită a echipelor de fotbal feminin în anii ‘90 și regulile etice pe care ar trebui să le respecte AI-ul când comunică cu tine.
MEDIU|FYI

Studiu: orcile, supranumite balenele ucigașe, își împart prada cu oamenii 

De
Orcile au fost observate cum oferă hrană oamenilor. Gestul, considerat de cercetători o formă de „interacțiune socială intenționată”, a fost observat în 34 de cazuri în ultimii 20 de ani.
ȘTIINȚĂ|FYI

De ce dorm pisicile pe partea stângă? 

De
Un grup internațional de cercetători a descoperit că pisicile preferă să doarmă pe partea stângă. Acest comportament ar putea avea legătură cu o strategie evolutivă de supraviețuire. 
MEDIU|FYI

Ambalajele din sticlă pot elibera mai mult microplastic decât cele din PET

De
Băuturile vândute în ambalaje de sticlă, inclusiv apă, bere și sucuri, conțin de până la 50 de ori mai multe microplastice decât cele din PET sau doze metalice.