Just_Super / Getty Images
Inteligența artificială și limbajul natural36 min read
Cele mai populare sisteme de inteligență artificială sunt construite pe modele lingvistice mari, antrenate pe mulți terabiți de texte diverse pentru a scrie cod, face calcule și răspunde la întrebări tehnice. Dar adevărata provocare este să pui AI-ul să stea la taifas cu tine.
În minutul de reclamă din pauza Super Bowl 2025, care i-a costat 14 milioane de dolari, OpenAI au prezentat // Vezi pe youtube.com // Prin puncte care reprezintă la început diviziunea celulară și apoi pixeli și informație binară, clipul rezumă evoluția omenirii, tot mai strâns legată de tehnologia digitală. Punctul culminant și singura pată de culoare din reclamă este cea mai recentă iterație a asistentului virtual ChatGPT, în care se concentrează toate bulinele de până atunci. „What do you want to create next?”, întreabă el.
Cu doar două luni în urmă, // „Google Pixel 9 with Gemini Live | Now We’re Talking”, youtube.com // la noua versiune a concurentului Gemini Live. Sub titlul Now We’re Talking, clipul arată conversații naturale între utilizatori de pe tot globul și telefoanele Pixel 9, dotate cu acest produs de inteligență artificială.
Cam în același timp, Microsoft prezentau și ei Copilot Chat, alături de asistentul vocal corespunzător, iar încă de când au anunțat Apple Intelligence anul trecut, cei din Cupertino promovează serviciul cu numeroase reclame bazate pe conversații.
Interacțiunea cu computerele s-a făcut de la început prin limbaje de programare, instrucțiuni codificate prin care programatorul sau utilizatorul învățau să vorbească pe limba dispozitivului, nu invers. Totuși, pionieri vizionari ca Alan Turing, Norbert Wiener, John McCarthy sau Marvin Minsky au imaginat un viitor în care mașinăriile să poată conversa cu oamenii. În chiar primul articol care vorbește despre „jocul imitației“, publicat în 1949 de Alan Turing, testul propus pentru verificarea inteligenței computerelor se bazează pe conversații și limbaj natural – previzibil, pe marginea sonetelor lui Shakespeare.
Apoi, în arhitectura primului limbaj de programare alcătuit special pentru inteligență artificială în anii ’50, Lisp, McCarthy și colaboratorii lor au inclus elemente de logică matematică prin care să ușureze nu atât lucrul cu numere, cât procesarea textelor. Apoi, primul chatbot de succes, ELIZA, lansat în 1964 de Joseph Weizenbaum (MIT), a propus o conversație satirică prin repetitivitate cu un psiholog.
Un computer depășește cu mult priceperea oamenilor la calcule numerice și proceduri repetitive, dar conversația în limbaj natural a fost, pentru multă vreme, un atu al nostru. Ba chiar, printr-un bestseller controversat din 1994, The Language Instinct, psiholingvistul canadian Steven Pinker afirma că limbajul este un „instinct“, că oamenii ar începe să vorbească în mod natural, fără să fie învățați, la fel cum respirăm.
Dacă, însă, companiile producătoare ale sistemelor de inteligență artificială urmăresc un număr cât mai mare de consumatori în publicul larg, nu există altă cale decât prin a învăța AI-ul să poarte conversații.
Geometria limbajului
Studiul riguros, logico-matematic, al limbajului, nu este o noutate. De exemplu, la începutul secolului XX, matematicieni, logicieni și filosofi ca Bertrand Russell, Alfred N. Whitehead sau Gottlob Frege au urmărit să elimine, pe cât posibil, ambiguitatea conversațiilor. De fapt, scopul așa-numitului logicism era să arate că întreaga matematică se poate reduce la logică.
Cel mai grăitor exemplu este tratatul // Titlul e o trimitere la opera omonimă a lui Isaac Newton, care a revoluționat fizica în secolul XVII // publicat de Russell și Whitehead între 1910-1913 și revizuit între 1925-1927, care după 379 de pagini cu preliminarii, demonstrează pur formal că 1 + 1 = 2.
Evident că o propoziție matematică precum această egalitate nu trece drept „conversație“, așa că logica trebuie să fie mult mai flexibilă. În consecință, de-a lungul anilor, au apărut mai multe ramuri (logici) care țin cont de diverse formulări imprecise: logica modală înțelege posibilitatea și necesitatea, logica temporală e atentă la timpurile verbale, iar logica epistemică tratează adevărurile pe care le poți cunoaște – dependente, deci, de facultățile umane.
Indiferent de teorie, rămâne adevărat că limbajul natural sau conversațional este bazat pe reguli greu de impus cu aceeași rigoare cu care operează matematica. Există reguli de sintaxă, prin care alăturările de litere și simboluri devin cuvinte corecte (care interzic, de pildă, în română amestecul de litere și cifre în același cuvânt), reguli de semantică, prin care cuvintele capătă sens(uri) și reguli de gramatică (sau gramatici), care se referă la practicile generale de alcătuire a expresiilor, propozițiilor, frazelor, paragrafelor etc.
Însă atunci când cercetătorii operează cu astfel de reguli, de cele mai multe ori se referă la versiuni idealizate ale limbajului sau la exemple foarte simple. O construcție complicată, precum poeziile lui Mihai Eminescu, frazele de o pagină ale lui William Faulkner, madlenele lui Marcel Proust sau fluxurile conștiinței lui James Joyce nu sunt niciodată studiate fără ambiguități sau lipsuri.
Și totuși, ChatGPT scrie poezii, eseuri sau proze, exact așa cum te-ai aștepta de la un asistent virtual cu capacități conversaționale. Așadar, cercetarea și implementarea au reușit să găsească metode prin care să evite astfel de limitări.
// Natural Language Processing sau NLP, cum este cunoscut în literatura de specialitate // domeniu în cadrul lingvisticii matematice și computaționale, oferă uneltele potrivite și, totodată, surprinzătoare. Ce nu surprinde este cantitatea imensă de date cu care modelele de inteligență artificială sunt „educate“, inclusiv romane, volume de poezii, eseuri și texte care au făcut mai mulți autori // „Famous authors’ lawsuit against ChatGPT developer gets underway”, abcnews.go.com // pentru copyright la puțin timp după ce s-a lansat.
Dar nu ar numi-o nimeni inteligență artificială dacă doar ar combina frânturi de citate, la limita plagiatului și dincolo de ea. Procesarea limbajului natural nu înseamnă o simplă selecție a unor cuvinte, cu mai mult sau mai puțin sens împreună, ci un studiu cantitativ, în majoritate statistic, astfel încât să surprindă specificul vocabularului, cu tot cu alegeri stilistice.
Mai mult, problema se împarte în două sarcini în mare parte diferite, inclusiv din punctul de vedere al dificultății: analiza și generarea limbajului. Prima procesează texte diverse, în timp ce a doua scrie sau vorbește, sarcină cu mult mai dificilă și abordată de așa-numitele modele lingvistice generative.
Studiile statistice, care să arate cele mai frecvente cuvinte și alăturări, sunt folosite demult, pe scară largă: de la // „The Math of Winning Wordle: From Letter Distribution to First-Word Strategies”, artofproblemsolving.com // la cuvinte ale zilei sau anului, publicate de dexonline.ro sau Oxford Dictionary. Dar și acestea sunt doar studii de suprafață; dacă afli cele mai populare cuvinte dintr-o limbă nu înseamnă și că știi să o vorbești.
În plus, problemele principale ridicate de limbajul natural sunt // Faptul că același cuvânt poate avea mai multe înțelesuri // și construcții precum paronimele, omonimele, omografele sau omofonele. Toate se bazează pe faptul că (aproape) același cuvânt sau expresie poate să aibă sensuri diferite în funcție de context sau de pronunție, detaliu ce nici nu se reflectă în scris. Așa se face că provocarea principală din domeniul NLP este dezambiguizarea cu ajutorul contextului.
În anii 1980-1990, a apărut o direcție surprinzătoare în cercetările limbajului natural, inspirată din geometrie. În loc de puncte organizate sub formă de word clouds și cu mărimi date de frecvența de apariție, a fost propus modelul spațiilor vectoriale. Cuvintele se modelează ca vectori (săgeți), orientați preferențial după asocieri. Mai multe săgeți paralele sau care indică aproximativ aceeași direcție reprezintă, astfel, fie cuvinte care se asociază des, fie (aproape) sinonime – în funcție de model.
Flexibilitatea limbajului natural mai ridică o problemă, pe care sigur ai remarcat-o când ai învățat o limbă străină. Multe cuvinte își schimbă forma pentru a face acordul într-o frază, procedură numită flexionare. Terminații specifice, declinări, articole sau prepoziții – toate pot face rădăcinile cuvintelor greu de recunoscut. De aceea, înaintea studiului de precizie cu ajutorul modelului spațiilor vectoriale, cuvintele trebuie reduse la nivelul rădăcinii, apoi clasificate după rolul din propoziție. Procedeul se numește (cu un barbarism) tokenizare și, odată aplicat unei propoziții, // Detalii și exemple aici. //
De exemplu, din propoziția „Citesc articolul pe care mi l-ai recomandat.“ se elimină prepozițiile și se identifică rădăcinile cuvintelor: cit-, articol, mi, l-, ai, recomand-. Analiza sintactică a frazei semănă cu exercițiile din gimnaziu: Subiect = eu (subînțeles), Complement direct = articol, Predicat = cit-, Prepoziție = pe care, Complement indirect = mi, Subiect = tu (inclus), Complement direct = l-, Predicat = recomand-.
Transformarea cuvintelor
Într-un // „Attention is all you need”, arxiv.org // o echipă de cercetători de la Google descrie precis această metodă, împreună cu pași ulteriori care să ajute la dezambiguizare. Procedura a devenit standard într-o arhitectură numită transformator, pe care se bazează metoda deep learning, specializată în clasificare și reprezentare, prin // De exemplu, vocabularul lui Lev Tolstoi din romanul „Război și pace“, transformat prin tokenizare și reprezentare în modelul spațiilor vectoriale arată așa: giphy.com //
La baza acestei abordări cantitative, combinată cu // „How ‘Embeddings’ Encode What Words Mean — Sort Of”, quantamagazine.com // în modelul spațiilor vectoriale stă o teorie care datează din anii 1950: semantica distribuțională, propusă de John R. Firth. Ipoteza distribuțională este că asocierile de cuvinte se fac pe baza sensurilor (semanticii).
Altfel spus, cuvintele care apar împreună, într-un anumit context, mai mult sau mai puțin larg, au în comun elemente de sens ori familii lexicale. De pildă, într-un paragraf în care este vorba despre roboți trimiși în misiuni spațiale, e puțin probabil să găsim cuvinte ca „elefant“, „înot“ sau „postmodernism“. De aceea, cuvintele care chiar apar în acel paragraf înclină și balanța semantică: „rover“, „gravitație“, „misiune“ oferă un scor de similaritate mare.
Și aici apare o problemă suplimentară, de o importanță aparte: ce trece drept context? Cât de departe trebuie să se afle cuvintele într-un text pentru ca ele să fie considerate asociate? Un discurs poate să schimbe subiectul în fiecare paragraf sau poate să revină asupra unei teme introduse cu zeci de rânduri în urmă, iar concluzia unui text argumentativ concentrează informația din întreg conținutul. Care este, atunci, cea mai potrivită unitate de text pe care ar trebui să o proceseze inteligența artificială pentru a o „înțelege“?
Conform documentației oficiale, cel mai performant model ChatGPT disponibil public (versiunea 4o) poate lucra cu maximum 128,000 de token-uri, extrase din cuvintele introduse de utilizator. Ele alcătuiesc așa-numita „fereastră de context“ (context window), ceea ce înseamnă că, în ipoteza distribuțională, un cuvânt sau token poate fi considerat înrudit cu altul care se află în același text la o distanță de // În NLP, „cuvânt“ nu este mereu echivalent cu „token“, acesta din urmă putând însemna și semn de punctuație, spațiu, rădăcină ș.a. //
Mecanismul introdus de transformatoare în 2017 se numește atenție și se inspiră, desigur, din capacitățile umane. Pe parcursul procesării, după tokenizare, se atribuie ponderi variabile cuvintelor, indiferent de locul în care s-ar afla în text, ca și cum atenția unui cititor sau vorbitor s-ar concentra selectiv asupra lor. Aceste ponderi se schimbă până la finalul algoritmului, sub influența contextului, astfel că într-o situație ideală, ponderea maximă aparține cuvintelor care chiar apar des împreună în aceeași frază sau expresie.
Modelele actuale, folosite în deep learning, se bazează pe multi-atenție, procedură care poate să se concentreze separat și în paralel asupra mai multor cuvinte. Îmbunătățirea semnificativă adusă de acest algoritm este că propozițiile nu mai sunt procesate cuvânt cu cuvânt, în ordinea în care au fost scrise, ci mecanismul de multi-atenție urmărește selectiv cuvintele, indiferent de pozițiile lor.
Această capacitate de atenție distributivă implementată algoritmic, împreună cu fereastra mare de context alcătuiesc trăsăturile definitorii pentru popularele modele lingvistice mari, cum sunt cele de la Google, OpenAI sau Microsoft, care au atât capacități de procesare a limbajului, cât și generative.
AI-ul și sentimentele
Deși dificilă, în primul rând prin flexibilitate și umanizare, procesarea limbajului natural, astfel încât inteligența artificială să se poată exprima cu sens este doar începutul. Asistenții virtuali, multi-agenții personalizați, anunțați de Google, Microsoft și ceilalți trebuie să se adapteze interlocutorului, ținând cont și de tonul conversației.
Analiza sentimentelor este o tehnică de procesare a limbajului natural apărută în anii 1980 și folosită mai întâi în campaniile de marketing. În epoca inteligenței artificiale, ea face asistenții virtuali să pară empatici, entuziaști, profesioniști, colocviali, până la provocări amuzante în care imită stilul unor anumite clase socio-profesionale, grupuri etnice, personalități istorice sau scriitori.
Metoda analizei sentimentelor este folosită și în afara AI-ului generativ, pentru studiul limbajului uman, în direcții literare, sociologice și chiar de sănătate publică. În România, unul dintre primii cercetători ai lingvisticii computaționale a fost matematicianului Solomon Marcus (1925-2016), care, alături de fizicianul Ioan Ioviț Popescu (1932-2023), a publicat numeroase studii cantitative de analiză a limbajului literar în poezia lui Eminescu, piese de teatru și nu numai.
Centrul de Cercetare în Tehnologii ale Limbajului Uman, asociat Facultății de Matematică și Informatică a Universității din București, este condus de Liviu P. Dinu, unul dintre discipolii lui Marcus. Împreună cu studenți, doctoranzi și colaboratori, prof. Dinu a publicat mai multe articole în care analizează din punct de vedere emoțional limbajul unor comunități online. De exemplu, într-un // „Natural language processing as a tool to identify the Reddit particularities of cancer survivors around the time of diagnosis and remission: A pilot study”, aclanthology.com // echipa sa a evidențiat empatia și optimismul pacienților oncologici și în remisie, pe baza postărilor de pe Reddit.
„Am ales Reddit în primul rând pentru că oferă mai multă informație, cantitativ. Postările și comentariile pot fi lungi, asemenea unor texte de blog uneori, care oferă nu doar mai multe cuvinte-cheie, dar și context“, au spus aceștia. De fapt, accentul prea mare asupra cuvintelor-cheie este o limitare a unor metode, explică Dinu, pentru că gramatica și topica pot induce în eroare.
Unii algoritmi lucrează cu liste de cuvinte care sunt memorate ca transmițători ai unui anume sentiment, ca și cum contextul nu ar conta și le scapă prepoziții sau particule negative. Cuvinte din câmpul lexical al iubirii, bucuriei, fericirii sunt automat clasificate drept „pozitive“ și nu se mai scanează dacă nu cumva apare un „nu“ sau altă negație în preajma lor, ca să nu mai vorbim de subtilități precum sarcasmul sau ironia.
„De aceea, în abordarea noastră, a trebuit să apelăm la etichetare manuală și am alcătuit un algoritm de procesare personalizat, specific sarcinii propuse, cu care am găsit corelații complet neașteptate. De exemplu, am avut mai multe cercetări care au arătat că persoanele predispuse la depresie folosesc un limbaj agresiv pe rețelele sociale și chiar că au o topică și sintaxă aparte în comentarii și postări. Astfel de rezultate au fost mai puțin interesante pentru matematicieni sau programatori și mai mult pentru psihologi și psihiatri.“, concluzionează Dinu.
Tot legat de discursul public și interacțiunile online stârnite de subiecte sensibile este și // „Fertilizarea in vitro, «un carusel de emoții». Efectele psihologice ale tratamentului FIV”, mindcraftstories.ro // despre fertilizarea in vitro. „Am scris despre efectele psihologice ale acestei proceduri. Dar, fiind un subiect aproape tabu în spațiul public din România, am vrut să discut și cu cineva care nu se ferește de microfon. Așa am ajuns la un videoclip al lui Marilu Dobrescu, în care vorbește deschis sutelor de mii de urmăritori de pe YouTube despre infertilitate și propriile încercări cu FIV.“.
Popularitatea clipului a oferit Danielei mai mult decât un exemplu public: miile de comentarii ale utilizatorilor alcătuiesc un corpus relevant pentru un mic studiu cantitativ al limbajului. „Analiza sentimentelor mi s-a părut o abordare naturală, fiind vorba despre un subiect intim și polarizant. Din 5.000 de comentarii analizate, aproape 2.000 conțineau cuvinte încărcate de negativitate, jignitoare față de Marilu a fost numită „obsedată“ [de a face copii], „păcălită [de medicii din România]“) sau cu sensuri triste („despărțit“, „greu“, „dureros“) și cam 1000 pozitive („puternică“, „mulțumim“, „mă bucur“, „minunat“).“
Articole precum cel al echipei conduse de Liviu Dinu și al Danielei Vasilache apelează la interpretarea semanticii distribuționale. Cuvintele cu sensuri sau referințe înrudite apar în contexte alăturate, dar mai relevant din punct de vedere psihologic și al interacțiunilor umane este gruparea lor după încărcătura emoțională. Nu de puține ori, însă, este necesară intervenția umană pentru subtilitățile limbajului, mai ales când vine vorba despre emoții și sentimente, cu impact psihologic.
În ce privește limbajul generat de AI și conversațiile pe care le purtăm cu acesta, suntem departe de vreun fel de empatie sau implicare emoțională, dacă se poate măcar vorbi despre așa ceva din partea unui model AI. De altfel, chiar primul chatbot al istoriei, // Al cărui cod original a fost dat dispărut, dar recuperat recent, arxiv.org // a fost programat încât să converseze asemenea școlii de psihoterapie a lui Carl Rogers, din anii ’40 – simpatetic, dar mașinal, repetând sau reformulând o parte din afirmațiile clientului ca întrebări ulterioare. Deși rudimentar, modelul lui Weizenbaum arată că nu este necesară o arhitectură ultra-sofisticată pentru ca un discurs să transmită un mesaj și un sentiment.
Libertatea de creație artificială
Ca în orice sistem complex, de îndată ce apar mai mulți parametri, cu care se intenționează controlul cît mai fin al rezultatului, cu atât apar, de fapt, mai multe componente ce se pot defecta. Recent, modelele lingvistice mari au produs răspunsuri complet inventate pentru întrebări precise sau, când le-a fost stârnită „creativitatea“ printr-o cerere mai vagă, au arătat că nu au niciun fel de simț al realității.
Sunt celebre imaginile generate în care oamenii nu au numărul corect de degete sau, dacă îi ceri câteva strofe dintr-o poezie ca „Luceafărul“, // Vezi pe gemini.google.com // Modelul poate fi apărat, în acest ultim caz, cu argumentul că este vorba de conținut protejat de drepturi de autor, dar în același timp, a fost și suficient de încăpățânat încât să nu-și recunoască limitele .
Fenomenul a fost numit „halucinație“ și, în proporții variabile, afectează toate modelele lingvistice mari. În plus, în afara soluțiilor specifice, care să atace exact această problemă, dar totodată să-și limiteze capacitățile generale ale modelelor, nu există multe alternative. // Citește pe ibm.com // accentuează, de exemplu, importanța testelor, dar și a feedback-ului uman. Dacă modelul răspunde greșit, corectează-l sau măcar spune-i că nu e în regulă.
Apoi, în timp ce modele precum cel de la Google DeepMind // „Google’s AI Can Beat the Smartest High Schoolers in Math”, scientificamerican.com // performanțe de matematică echivalente cu medalia de argint pe probleme de Olimpiada Internațională, probleme de raționament logic, fără calcule sau formule matematice pun în dificultate GPT-4. Anil Ananthaswamy arată într-un // „Chatbot Software Begins to Face Fundamental Limitations”, quantamagazine.com // că, așa-numitul „puzzle al lui Einstein“, alcătuit din 15 propoziții între care există legături logice subtile, surclasează majoritatea modelelor actuale.
Însă astfel de limitări și probleme reușesc să deschidă noi oportunități de cercetare. Puzzle-ul lui Einstein este tratat abstract, la nivel pur logic, de modele precum // „Are LLMs capable of non-verbal reasoning?”, arstechnica.com // Numărul de degete de la mâini nu mai este un indicator clar al folosirii unui model de generare foto-video, iar problemele de matematică sunt tot mai ușor de rezolvat. Și, în timp ce majoritatea modelelor disponibile public și comercial se concentrează pe conversații naturale, există // Agents are not enough, arxiv.org // care arată că (multi)agenții ar trebui să fie doar o piesă dintr-un viitor ecosistem AI, care conține asistenți multipli și simulări parțiale ale preferințelor și comportamentului utilizatorului. În plus, ca și modelele al căror punct forte este raționamentul logico-matematic sau structura proteinelor, dezvoltarea variantelor specializate rămâne un domeniu cât se poate de activ.

