Nobel 2024. Structura proteinelor, primul premiu în care AI-ul e folosit în cercetare26 min read
Nobelul pentru Chimie din 2024 este primul acordat unor descoperiri realizate cu ajutorul inteligenței artificiale, una care a revoluționat lumea cercetării biochimice.
La doar o zi după ce Nobelul pentru fizică a fost acordat pentru cercetări care au pus bazele învățării automate și AI-ului generativ, Academia Regală de Științe din Suedia a decis să premieze o descoperire realizatp cu ajutorul modelelor de învățare automată.
Astfel, // „They have revealed proteins’ secrets through computing and artificial intelligence”, nobelprize.org // este împărțit, pe de o parte, de David Baker (Statele Unite), pentru descoperirea unei soluții computaționale cu care pot fi create noi proteine, respectiv de Demis Hassabis și John Jumper (Marea Britanie), creatorii modelului AlphaFold2, primul care a putut face predicții precise despre structura tridimensională a proteinelor.
Viața nu ar putea exista fără proteine. Aceste macromoleculele create pe baza instrucțiunilor codului genetic sunt esențiale pentru funcționarea celulelor și a țesuturilor, a reacțiilor chimice vitale din metabolism, a sistemului imun sau pentru diverse proprietăți ale pielii, oaselor sau părului, printre multe alte roluri.
În organismele vii, proteinele se formează din 22 de aminoacizi, care se pot înlănțui în nenumărate secvențe diferite. Pe baza acestor secvențe, proteinele se pliază pe o structură tridimensională, crucială în determinarea rolului specific al fiecărei proteine în organism.
Dar, pentru că proteinele sunt prea mici pentru a putea fi observate chiar și cu cele mai puternice microscoape, aflarea structurii lor este un proces dificil și anevoios – poate dura luni de zile pentru o singură proteină. Și sunt peste 200 de milioane cunoscute în natură.
În același timp, cercetătorii încearcă de decenii bune să creeze proteine diferite de ce există în natură, pe baza unor structuri asamblate pentru a adresa probleme specifice – ceea ce ar fi un instrument extrem de folositor în multe arii de cercetare.
Ei bine, ambele probleme au fost rezolvate prin intermediul modelelor computaționale și al AI-urilor complexe, de către laureații de anul acesta. Prima, chiar în ultimii câțiva ani.
Cum poate fi prezisă structura unei proteine?
Cea mai folosită metodă fizică pentru a afla structura tridimensională a unei proteine este cristalografia cu raze X. Pe scurt, cristalizezi proteina vizată, o bombardezi cu raze X și calculezi unghiul și intensitatea cu care acestea se difractă pentru a obține o structură 3D. Este și prima metodă folosită vreodată pentru a determina structura unei proteine, pentru care britanicii John Kendrew și Max Perutz au primit // „The Nobel Prize in Chemistry 1962”, nobelprize.org //
Problema este că pentru aflarea structurii unei singure proteine ai nevoie de săptămâni sau chiar câteva luni. Procesul de cristalizare diferă de la proteină la proteină și are nevoie de condiții foarte specifice pentru a reuși. Când ai de-a face cu 20.000 de proteine (identificate până acum) doar în corpul uman și peste 200 de milioane în natură, rezolvarea structurii tuturor s-ar întinde pe o perioadă extrem de lungă.
Însă o posibilă soluție a început să se contureze în urma unor alte descoperiri din deceniile ulterioare.
Christian Anfinsen, un alt laureat al Nobelului pentru chimie, // „The Nobel Prize in Chemistry 1972”, nobelprize.org // a observat că, dacă o proteină tridimensională s-ar deplia în lanțul de aminoacizi din care a originat, după care s-ar plia din nou în trei dimensiuni, ar reveni la aceeași structură, indiferent de câte ori ar face asta. Singura explicație este că structura proteinei se păstrează, cumva, în secvența aminoacizilor din aceasta.
Ulterior, Cyrus Levinthal a folosit exemplul unei proteine cu lanț de 100 de aminoacizi pentru a formula un paradox. O astfel de proteină ar putea avea până la 1047 structuri tridimensionale diferite. Dacă aminoacizii ar forma structura ei tridimensională în mod aleatoriu, ar putea dura miliarde de ani până să ajungă la cea potrivită, pentru care au fost create instrucțiunile genetice. Numai că plierea proteinelor are loc, de fiecare dată, în decurs de milisecunde. Prin urmare, el a conchis că structura proteinei trebuie să fie predeterminată – din nou, tot pe baza lanțului de aminoacizi.
Astfel, dacă știi secvența aminoacizilor, ar trebuie să existe un mod prin care să poți prezice, pe baza lor, și structura proteinei. Găsirea acestor algoritmi de predicție a devenit una dintre cele mai mari provocări din lumea biochimiei. Anul 1994 a dat startul unui concurs bianual, numit CASP (Critical Assessment of Structure Prediction) în care echipele de cercetare își puneau modelele la lucru, iar rezultatele erau comparate cu cele obținute prin cristalografia cu raze X.
Cu toate acestea, timp de peste două decenii, rezultatele nu au fost satisfăcătoare. Pentru a putea fi considerat eficient în cercetare, un astfel de algoritm trebuia să prezică structura diverselor tipuri de proteine cu o acuratețe de peste 90%. Ori, până în 2016, cele mai eficiente modele atingeau doar în jur de 40%.
Un fost programator de jocuri video și maestru șahist intră în scenă
Demis Hassabis a arătat capacități intelectuale ridicate încă de la o vârstă fragedă. A început să joace șah de la patru ani, iar la 13 ani atinsese deja titlul de maestru. Cu banii câștigați din șah și-a cumpărat un calculator ZX Spectrum, // „Demis Hassabis, Ph.D”, achievement.org //
Hassabis a trecut examenele de sfârșit de liceu cu doi ani mai devreme decât cei de vârsta sa, și, deși a fost acceptat imediat la Universitatea Cambridge, i s-a cerut, în 1994, să ia un an sabatic înainte de-a începe studiile. A folosit acest an lucrând ca programator principal pentru Theme Park, un joc video care simula managementul unui parc de distracții. Jocul a avut un succes imens pentru acea vreme. Ulterior, a continuat să lucreze pentru jocuri video, precum Black & White și chiar și-a fondat propriul studio, Elixir Games, care a activat până în 2005.
După ce și-a terminat periplul prin lumea jocurilor video, Hassabis a continuat parcursul academic, obținând un doctorat în neuroștiințe cognitive. urmat, de cercetări revoluționare //„Using imagination to understand the neural basis of episodic memory”, nih.gov // Însă, de la început, și-a dorit să înțeleagă mai bine mecanismele creierului uman pentru //„Is the brain a good model for machine intelligence?”, gatsby.ucl.uk //
Toate aceste zone de interes s-au intersectat în 2010, atunci când a cofondat DeepMind, un start-up de machine learning care și-a propus să dezvolte pe termen lung o inteligență artificială generală, prin crearea iterativă a diverselor tipuri de rețele neuronale artificiale. Inițial, acestea au fost antrenate pentru a deveni competitive în jocuri video și jocuri de masă.
Conceptul i-a convins pe Google să achiziționeze DeepMind în 2014, la scurt timp după, au lansat primul lor model AI important, AlphaGo, specializat în jocul de strategie Go. În doar doi ani, AlphaGo a reușit să învingă campionul mondial în exercițiu.
Pe baza succesului acestuia, Hassabis a decis să treacă DeepMind în zona cercetării, unde a ales predicția proteinelor tocmai pentru importanța unei potențiale soluții. Așa a apărut AlphaFold, un model AI antrenat prin deep learning pe toate structurile de proteine și secvențele de aminoacizi descoperite până atunci.
Modelul a participat la ediția din 2018 a concursului CASP, pe care l-a câștigat, deși rezultatele nu erau încă aplicabile în cercetarea reală. A obținut un scor de 60 din 100, cel mai mare de până atunci, dar tot departe de pragul de 90 necesar.
Diferența urma să fie eliminată în doar doi ani, cu ajutorul lui John Jumper, un alt savant multidisciplinar care a adus ajustările necesare.
La fel ca Hassabis, și John Jumper era autodidact în programare și avea un background care l-a împins, încet-încet, către problema computațională a structurii proteinelor: a studiat matematica, fizica și chimia teoretică.
Experiența care i-a marcat parcursul profesional a venit în 2008, când era angajat la o companie de cercetare biochimică din New York. Aici a avut acces la supercomputere // „How AI Revolutionized Protein Science, but Didn’t End It”, quantamagazine.org //
El a devenit atât de pasionat de studiul proteinelor încât a ales să-l facă tema principală a programului său doctoral în chimie teoretică. Numai că s-a lovit de o barieră: hardware-ul la care avea acces în zona academică era mult mai limitat decât cel pe care lucrase anterior și, implicit, ritmul de cercetare era mult mai lent. Pentru a-l accelera, Jumper a început să-și optimizeze cercetările folosind algoritmi de machine learning și rețele neuronale artificiale.
Prin 2017, el a auzit zvonuri că Google DeepMind lucrează la un proiect care folosește deep learning-ului pentru a obține predicții despre structura proteinelor. A aplicat la un post de cercetător și s-a alăturat echipei destul de târziu în procesul de dezvoltare al lui AlphaFold 1.
Impresia pe care a lăsat-o i-a adus poziția de colider, alături de Hassabis, în echipa de cercetare pentru următoarea iterație a proiectului, AlphaFold. Împreună au reconstruit complet rețeaua neuronală artificială din prima versiune și au adoptat o arhitectură dezvoltată intern de Google, numită rețea neuronală cu transformatoare. Aceasta era mult mai eficientă în identificarea tiparelor din cantități mari de date și în prioritizarea unor informații specifice, cum ar fi secvențele de aminoacizi.
La fel ca precedenta iterație, noul model a fost antrenat pe toate secvențele de aminoacizi și structuri verificate de proteine existente. Atunci când i se dă o secvență care nu are structură, AlphaFold 2 caută secvențe similare, de la mai multe specii, printre cele pe care a fost antrenat. Pe baza lor, alcătuiește o hartă a distanței dintre varii perechi de aminoacizi în structurile identificate.
Asta îi permite să învețe nu doar statistic, dar și din date evoluționare – de exemplu, poate recunoaște faptul că perechile de aminoacizi care sunt critice pentru stabilitatea structurii unei proteine au șanse mari să fie conservate în specii diferite.
Astfel de schimbări au crescut semnificativ eficiența de predicție a lui AlphaFold 2 față de predecesorul său. Atunci când modelul a fost evaluat în cadrul competiției CASP în 2020, el a trecut cu brio de pragul de eficiență de 90, fiind în multe situații aproape la fel de exact precum cristalografia cu raze-X.
Având confirmarea că modelul funcționează, DeepMind a făcut public codul pentru AlphaFold 2, precum și baza de date cu predicțiile pe care le-a obținut pentru diverse proteine. De atunci au trecut un pic peste trei ani, timp în care modelul a fost folosit pentru a prezice structurile a 210 milioane de proteine, de către peste două milioane de persoane, în 190 de țări.
Impactul asupra cercetării a fost atât de puternic, și practic instantaneu, încât AlphaFold 3 – care a fost prezentat oficial în luna mai – a fost extins pentru a face predicții asupra unei game largi de structuri biomoleculare, incluzând structuri de tip ADN și ARN, dar și molecule de dimensiuni mai mici, precum anticorpi sau liganzi.
Invers, poți asambla o proteină de la zero?
Dacă există posibilitatea de a obține structura unei proteine pe baza secvențelor de aminoacizi, atunci nu s-ar putea crea și proteine noi? Nu de alta, dar o astfel de posibilitate fi extrem de utilă – pentru că ai putea modela proteine cu roluri specifice în foarte multe arii de cercetare.
E o întrebare pe care și-au pus mulți cercetărorii. În anii 1990, unii dintre aceștia au reușit să altereze proteine existente – un pas masiv, dar limitat în gama de aplicări. Spre finalul deceniului, au fost obținute și primele proteine de novo, construite complet de la zero. Ele aveau, însă, structuri simple, cu până la 30 de aminoacizi, și continuau să aibă multe caracteristici similare cu proteinele naturale – precum modul în care se pliau.
David Baker, celălalt laureat din 2024, a fost atras către această zonă de cercetare tot dinspre concursul CASP. El a debutat la ediția din 1998 cu un program numit Rosetta, specializat pe predicții de structuri. Acolo, i-a venit ideea de a-l folosi în sens invers: să-i dea programului structuri de proteine, pentru care Rosetta să-i recomande secvențele de aminoacizi necesare.
Ambiția lui Baker era să creeze de la zero o proteină complet diferită de cele naturale. A dezvoltat o variantă modificată a programului, RosettaDesign, care, atunci când primește structura unei proteine artificiale, poate căuta fragmente scurte din alte proteine cu similitudini. Pe baza acestor fragmente, programul poate propune o secvență de aminoacizi care să permită crearea proteinei respective.
Așa a fost obținută, în 2003, proteina Top7. Spre deosebire de alte proteine de novo de la acea vreme, Top7 era mult mai complexă: avea 93 de aminoacizi și un tipar de pliere care nu era cunoscut în nicio proteină identificată până la acel moment. Pentru a o testa, echipa de cercetare a lui Baker a codat o genă care ar produce proteina într-o bacterie, cu instrucțiunile oferite de Rosetta, iar apoi au analizat-o prin cristalografia cu raze X. Și au observat că structura proteinei era aproape identică cu cea pe care au trecut-o prin program.
La fel ca DeepMind, Baker a făcut public codul pentru Rosetta și, în timp, programul s-a transformat // Detalii pe bakerlab.org // cu peste 50.000 de computere care împreună contribuie cu puterea de procesare la crearea de proteine de novo (și nu numai). După succesul lui AlphaFold, Baker i-a adăugat o rețea neuronală pe bază de transformator, pentru a o face mai eficientă.
Rețeaua a creat numeroase tipuri de proteine, cercetate în prezent pentru aplicații clinice sau în diverse alte domenii. Acestea pot fi folosite pentru detecția fentanilului, vaccinuri cu nanoparticule împotriva gripei, tratamente pentru cancer sau chiar noi nanomateriale sau senzori.
Inovații care au schimbat fundamental cercetarea
E clar că vor fi controverse despre acordarea a două din cele trei premii Nobel importante pentru științe naturale unor cercetări și invenții care au legătură cu AI și machine learning. Mai ales pentru că AlphaFold2 a apărut atât de recent, în timp ce alți potențiali candidați cu șanse mari la Nobel așteaptă chiar și de decenii să primească telefonul de la Academia de Științe a Suediei.
Însă nu poate fi negat cât de transformaționale sunt soluții precum AlphaFold și Rosetta pentru întreg domeniul biochimiei, și mai ales pentru cercetarea medicală. Prezicerea rapidă a structurii unei proteine, cu acuratețe ridicată oferă unei echipe de cercetare posibilitatea să exploreze alte ipoteze și scenarii pe baza ei, cât timp așteaptă confirmarea rezultatelor prin metode tradiționale. Iar crearea unei proteine de la zero, complet diferită de ce se poate găsi în natură, deschide nenumărate posibilități pentru dezvoltarea unor tratamente sau materiale inovatoare.