University of Massachusetts/amherst
Richard Sutton și Andrew Barto câștigă Premiul Turing pentru progresele în învățarea prin recompensă7 min read
Richard Sutton și Andrew Barto, cei care au pus bazele învățării prin recompensă, au fost recompensați cu Premiul Turing, cea mai prestigioasă distincție din informatică, pentru contribuțiile lor fundamentale la AI.
Andrew Barto și Richard Sutton au câștigat // Mai multe, aici: amturing.acm.org // supranumit Nobelul informaticii, pentru contribuțiile lor fundamentale la învățarea automată, o tehnică cheie în formarea modelelor de inteligență artificială precum AlphaGo de la Google DeepMind și și ChatGPT de la OpenAI.
Barto este profesor emerit de Informatică și Știința Calculatoarelor la Universitatea din Massachusetts, Amherst. Sutton este profesor de Informatică la Universitatea din Alberta și cercetător la Keen Technologies.
În valoare de un milion de dolari, premiul poartă numele lui Alan M. Turing, matematicianul britanic care a pus bazele teoretice ale informaticii.
Învățarea prin recompensă, cunoscută și ca „reinforcement learning” (RL), este o tehnică în care un algoritm este antrenat să ia decizii pe baza unui sistem de stimulente. Atunci când o acțiune duce la un rezultat dorit, sistemul primește o recompensă, ceea ce îl motivează să repete comportamentul respectiv.
Dacă acțiunea nu este eficientă, algoritmul primește un feedback negativ și învață să o evite. Acest principiu este inspirat din experimentele psihologului // Mai multe despre el, aici: en.wikipedia.org // care a demonstrat cum își adaptează animalele comportamentele în funcție de consecințele acțiunilor lor.
În 1950, Alan Turing a scris lucrarea // O poți citi aici: courses.cs.umbc.edu (PDF) // în care s-a întrebat dacă mașinile pot gândi și a propus o metodă de învățare automată prin recompense și pedepse.
Abia în anii 1980, inspirat de psihologie, Barto și doctorandul său, Sutton, au început să dezvolte învățarea prin recompensă ca un cadru general de rezolvare a problemelor.
Barto și Sutton s-au bazat pe procesele decizionale Markov (MDP), unde un agent ia decizii într-un mediu aleatoriu și primește recompense după fiecare acțiune, încercând să maximizeze câștigul pe termen lung. Spre deosebire de teoria MDP standard, care presupune că agentul cunoaște toate detaliile mediului, în învățarea prin recompensă acestea pot fi necunoscute. Această flexibilitate face ca RL să fie aplicabil în multe domenii.
Însă această metodă de învățare automată a devenit faimoasă în 2016, când DeepMind, companie deținută de Google, a folosit-o pentru a dezvolta AlphaGo, un program care a reușit să învingă campioni mondiali la jocul de strategie Go.
Mai recent, modelul este utilizat pentru a ghida răspunsurile modelelor lingvistice mari, precum cele folosite în ChatGPT, dar și pentru optimizarea consumului de energie, finanțe și proiectarea cipurilor. În robotică, această tehnică ajută mașinile să învețe prin încercare și eroare și să se adapteze din mers la diferite sarcini.
Barto și Sutton au avut un rol esențial în transformarea învățării prin recompensă dintr-un concept teoretic într-o metodă practică. Printre contribuțiile lor cheie se numără metodele „policy gradient”, care ajută algoritmii să ia decizii mai eficiente, și „temporal difference learning”, o tehnică care permite sistemelor să învețe progresiv, fără a avea nevoie de un feedback imediat pentru fiecare acțiune.
Învățarea prin recompensă a avut succes în multe domenii. Un exemplu notabil este învățarea mișcărilor motorii de către roboți, cum ar fi manipularea unui cub Rubik. Cercetările au arătat că antrenarea unui algoritm în simulare poate duce la rezultate eficiente și în lumea reală, chiar dacă mediile sunt diferite.
Învățarea prin recompensă este folosită și în alte domenii, precum controlul congestionării rețelelor, proiectarea de cipuri, publicitatea online, optimizarea lanțurilor globale de aprovizionare și îmbunătățirea comportamentului chatbot-urilor. De asemenea, a contribuit la perfecționarea algoritmilor pentru una dintre cele mai vechi probleme din informatică: înmulțirea matricilor.