Primul LLM românesc. Cum va arăta viitorul inteligenței artificiale în România?30 min read
Cercetatori de la Universitatea Politehnica din București, Universitatea din București și Institutul de Logică și Știința Datelor (ILDS) au dezvoltat primele modele de limbaj (Large Language Model – LLM) în limba română. Proiectul este un prim pas în dezvoltarea inteligenței artificiale generative în România.
Modelele de limbaj generativ precum ChatGPT au ajuns din ce în ce mai populare, dar au și o problemă. Acestea sunt antrenate în principal în limba engleză, astfel încât pot da răspunsuri bizare sau inexacte când sunt folosite într-o limbă care nu e de circulație internațională. Cum e româna, de exemplu.
În acest context, o echipă de cercetători afiliați Universității Politehnica din București, Universității din București și Institutului de Logică și Știința Datelor a creat un // Mai multe detalii pe ilds.ro/llm-for-romanian și https://openllm.ro // dedicat limbii române. Practic, acesta a fost antrenat pe seturi de date cu milioane de documente în limba română și 2, 3 milioane de instrucțiuni și conversații traduse în limba română.
//„OpenLLM-Ro — Technical Report on Open-source Romanian LLMs”, arxiv.org // am vorbit cu Alin Ștefănescu, directorul Departamentului de Informatică din cadrul Universității din București și vicepreședintele Institutului de Logică și Știința Datelor, și cu Horia Velicu, Head of Innovation Lab în cadrul BRD Groupe Société Générale, care a susținut proiectul.
Scurtă definiție a unui LLM
Horia Velicu: „Un LLM este un model de limbaj. În practică, este o rețea neurală, un model de inteligență artificială care este antrenat să-și reprezinte cât mai bine textele pe care le procesează, adică să înțeleagă ceea ce citește. Unele LLM-uri sunt în stare să creeze text pornind de la o întrebare sau de la un prompt, de la o instrucțiune. Dar nu toate LLM-urile sunt făcute să genereze text, nu toate sunt generative, doar cele de tip GPT (Generative Pre-training Transformer), // Mai multe despre ChatGPT pe openai.com // Unele sunt create doar pentru a înțelege textul și a și-l reprezenta intern, cum sunt modelele de transformer mai vechi, ca //„BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, arxiv.org // care este un model de encoding. De acolo vine și numele: Bidirectional Encoder Representations from Transformers. În concluzie, un LLM este o rețea neurală care, în primul rând, trebuie să înțeleagă textul și, uneori, este capabilă să-l genereze.”
De ce e necesar un LLM românesc
Alin Ștefănescu: „Ideea a fost dată de apariția celebrului ChatGPT, care este în engleză, dar funcționează și în limba română. Însă ChatGPT este un produs comercial, modelul nu este deschis, open. Și atunci există, în paralel, eforturi în lumea academică, dar și în cea a startupurilor, de a crea LLM-uri deschise, care pot fi folosite cu licențe mai permisive.
Există de mai mulți ani, aproape de când a apărut și ChatGPT, mai multe eforturi de a obține modele de acest tip, care să fie open și să fie specializate pentru limbile comunităților. Sunt exemple în Germania, în Spania, în Bulgaria. Noi am fost printre primii care ne-am coagulat și am pornit acest proiect de a face un model deschis pentru limba română. Aceasta s-a întâmplat acum vreun an.
De aproape doi ani, ne tot gândeam la a lucra în zona aceasta. Suntem un grup care a mai colaborat recent, format din cercetători de la Universitatea din București și de la Universitatea Politehnică din București, Horia și alți doctoranzi, dar și alți membri ai comunității academice și de startupuri.”
Horia Velicu: „La mine a fost, să zicem, un mod mai specific de gândire, pentru că vin dintr-o companie mare, cu diverse provocări legate de automatizări. Anul trecut, în martie, ne gândeam intern cam în ce direcție am putea face genul acesta de cercetări științifice aplicate, pe lângă institutul pe care l-a menționat Alin. Tocmai apăruse ChatGPT și intuiam că vom avea nevoie de tehnologia acesta în companie. Cum a zis și Alin, tehnologia numită ChatGPT vine de la compania // Site oficial: openai.com // și este destul de costisitoare pe termen mediu și lung.
Ne-am gândit că vom avea nevoie de un model open, care să poată fi folosit gratuit și că merită investit în această inițiativă. De fapt, fiind vorba de o sponsorizare și de o cercetare cu un rezultat public, era destul de evident că întreaga societate, în special companii din România sau alte entități, parlamentare sau guvernamentale, vor avea nevoie de modele de limbaj specializate pe română, care să nu coste. Și atunci am zis să investim în așa ceva.”
Antrenament specific pentru limba română
Alin Ștefănescu: „Am pornit de la un model existent, // „Llama 2: open source, free for research and commercial use” , llama.meta.com // care era state-of-the-art (cea mai avansată tehnologie) pe modele deschise. Între timp a apărut Llama 3 și au mai apărut și modele ca // Site oficial: mistral.ai // dar noi am pornit cu Llama 2 și am folosit documente dintr-o bază de date // „CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages”, arvix.org // plus alte texte extrase de pe forumuri, pentru a capta și un mod conversațional, pentru că în documente de obicei îți lipsește această tentă a dialogului. Am antrenat pe servere, timp de mai multe luni, modelul respectiv, pe acest set de date de câteva milioane de documente. // Mai multe despre fine tuning pe llama.meta.com // ”.
Horia Velicu: „Inițial erau 50 de milioane de documente românești în acest data set de pe CulturaX, dar este destul de costisitor să antrenezi rețelele neuronale foarte mari. Llama2 cred că avea 7 miliarde de neuroni, 7 miliarde de parametri care trebuie învățați sau, cu fine tuning, adaptați. Și, deși am avut la dispoziție aceste zeci de milioane de documente, // Adică factorul limitator. // a fost infrastructura de plăci video. Nu am reușit să procesăm decât zece milioane de documente, deci 20% din total.”
Probleme legate de ambiguitatea limbii române
Horia Velicu: „Am avut această situație: modelul fiind antrenat cu un limbaj generic sau colocvial clasic, dacă vorbești despre bancă, nu te referi la o bancă din parc sau la un obiect de mobilier. În lumea finanțelor, evident că bancă înseamnă o companie. Această ambiguitate de limbaj depinde extrem de mult de dataset-ul pe care faci fine tuningul. Apar foarte multe probleme de acest fel în funcție de dataset-ul cu care modelul a fost antrenat inițial.
Nu am rezolvat complet problema, suntem conștienți de asta și una din direcțiile în care vrem să dezvoltăm cercetarea este să avem instanțe diferite ale acestui model românesc pentru diferite domenii de activitate: pentru domeniul financiar, pentru domeniul juridic, pentru domeniul medical. Asta presupune dataset-uri, colecții de documente distincte și specializate. Nu am pornit încă acest tren, dar suntem conștienți că asta e direcția, în următoarea perioadă, pentru că e esențial, în momentul în care încerci să folosești modelul în industrie, să ai acuratețe.”
O întreagă comunitate, pe OpenLLM.ro
Alin Ștefănescu: „Am creat o comunitate numită //Accesibilă pe https://openllm.ro // cu modele si cod pe // Accesibilă pe huggingface.co // și pe // Accesibilă pe github.com // unde oamenii pot să dezvolte și să se ducă pe asemenea verticale (în contextul ambiguității de limbaj), pe medicină sau pe alte domenii. Dar asta înseamnă specialiști pe domeniul respectiv. Îți trebuie seturi de date pe acel domeniu, îți trebuie fine tuning, deci reantrenare pe domeniul respectiv.
Noi sperăm ca acestea să se dezvolte nu neapărat de la sine, ci să oferim cadru pentru așa ceva. Comunități specializate să încerce să pornească de la fundamentul de limbă pe care îl avem noi și să-l specializeze în diverse direcții, pentru a fi într-adevăr folositor. Sunt aceste modele open, dar there is no free lunch (nimic nu e gratis). Utilizatorul final va beneficia poate de un model bun și deschis și care poate va fi mai ieftin, dar munca tot trebuie făcută într-un fel sau altul de specialiști, pentru a avea ceva de calitate, altfel e prea generic.”
Horia Velicu: „Asta e frumos la genul ăsta de abordare open source. Noi sperăm ca această comunitate incipientă să atragă cât mai mulți participanți. Ei pot să preia ceea ce există deja, să ducă aceste modele mai departe, să le antreneze singuri, să le facă orice doresc și să le întoarcă înapoi către comunitate în forme din ce în ce mai diverse. Asta e tonul și spiritul abordării open source. Depinde foarte mult de cât se implică fiecare și în ce direcție.
Și, într-adevăr, there is no free lunch. Adică, cineva din medicină, de exemplu, trebuie să stea să facă munca de a strânge date și de a antrena modelul pe limbajul specific. Dar pentru unii va exista free lunch, pentru că dacă cineva va face această specializare, sigur va fi și un alt spital sau o altă entitate care va lua totul de-a gata. Și nu e nimic în neregulă cu asta.”
Cât de imparțial este modelul?
Alin Ștefănescu: „Deocamdată, ne bazăm pe faptul că am pornit de la ceva preantrenat. Sperăm ca destul de mult din proprietățile de corectitudine sau de imparțialitate să fie preluate cumva de acolo. Încă nu ne-am ocupat serios de acest aspect, dar vrem să stabilizăm puțin modelul și, mai spre final, să avem și instrumente care să asigure că nu este prea biased. Este încă un obiectiv în tot acest proiect, pe lângă multe altele. Echipa e mică și problema e foarte complexă, dar trebuie luat în calcul și acest lucru, altfel vei avea rezultate nedorite. Iar utilizatorul final, dacă se lovește de chestii care nu sunt în regulă, nu o să mai folosească modelul.”
Horia Velicu: „Noi avem un principiu că folosim modele care au grijă de acest aspect. Adică Facebook, Google și Mistral, companii responsabile, care nu pun la dispoziție modele fără genul ăsta de limite. Există și modele fără limite, cum e Grok de la xAI, care nu te restrânge în niciun fel, poți să discuți orice și să vorbești oricum. Pentru unii este un feature, pentru noi nu. Și atunci folosim doar companii responsabile”.
AI-ul va schimba radical societatea
Horia Velicu: „Asistăm la o transformare a felului în care se lucrează în companie, cel puțin de unde vin eu. Practic, AI-ul este o sabie cu două tăișuri.
Pe de o parte, va deveni un ajutor esențial în munca de zi cu zi, pentru că sunt multe sarcini care implică text și alte modalități. O să avem nu doar LLM-uri, ci și modele pentru imagini sau sunet. O să transforme felul în care lucrăm, o să devină un ajutor, un fel de asistent personal sau de grup. Lucru care e bun, pentru că va crește eficiența, atât personală, cât și pe cea organizațională.
Pe de altă parte, însă, AI-ul implică o adaptare a forței de muncă la aceste instrumente, fiindcă vor trebui să-și dezvolte anumite abilități. Cineva spunea că seamănă foarte mult cu învățatul limbii engleze. La un moment dat a devenit esențial, în multe companii, să știi cât de cât engleză ca să poți să interacționezi cu partenerii sau clienții.
Cam așa va fi și în cazul ăsta. Va trebui să învățăm să interacționăm cu inteligența artificială, astfel încât lucrurile să funcționeze, pentru că dacă nu înțelegi cum să interacționezi, o să scadă eficiența. Și atunci va fi preferat un angajat care știe cum să facă lucrul ăsta, la fel cum în trecut era preferat cineva care știa engleză. Deci cam așa văd eu impactul pe termen scurt.”
Alin Ștefănescu: „Deja este o lume nouă, și din punct de vedere tehnic și din punct de vedere business. Toate acestea trebuie luate în calcul de către companii, iar companiile cele mai agile vor avea un avantaj. În câțiva ani se va ajunge acolo, dar până atunci vor trebui să fie niște oameni care să ajute companiile să facă acest pas, iar acești experți încă se formează. Așa cum noi învățăm acum cum să facem un LLM pentru limba română, vor fi companii care vor trebui să învețe sau experți care să-i învețe. Vor apărea businessuri noi de consultanță, vor fi necesare multe eforturi: și de proces, și de tehnologii, și de adoptare, și de inerție, și de legislație. În plus, un LLM are un anumit nivel de nedeterminism care trebuie luat în calcul, la fel și partea de bias.”
Horia Velicu: „E nevoie de un întreg ecosistem care, exact cum spunea Alin, acum se formează. Nimeni nu știe rețeta, descoperim pe măsură ce facem. Ce am constatat noi – și nu suntem singurii și nici primii – este că dacă punem în comun mai multe resurse, din industrie, din mediul academic, chiar și din mediul guvernamental, lucrurile ar trebui să se miște mai bine, pentru că problemele sunt complexe. Nimeni nu știe tot și cred că avem nevoie foarte mare unii de alții în această transformare enormă la nivel de societate. Cumva, e un fel de revoluție industrială, cum a fost și cu internetul, cum a fost și cu mecanizarea mașinilor, cu Ford. Acum suntem în stadiul primelor mașini și nu știm la ce se folosesc sau câte să producem, dar vor ajunge să fie peste tot.”
Tinerii vor avea un rol important în dezvoltarea AI
Alin Ștefănescu: „Noi ne-am dus spre liceu și organizăm // Mai multe pe olimpiada-ai.ro // care are ca scop selecția unei echipe ce va reprezenta România la prima olimpiadă internațională de AI. Deocamdată ne-am dus spre cei foarte buni la matematică și informatică, pentru că acestea sunt niște abilități necesare.
Ca sfat general, nu prea sunt scurtături, este un domeniu destul de profund. Ai nevoie și de matematică, și de informatică și de // Cunoștințe despre subiect. // Însă poți să te specializezi pe un singur rol, pentru că vor fi și aici mai multe roluri. Nu trebuie toți să știe foarte bine toți algoritmii. Vor exista și roluri puțin mai «ușoare», în care, să zicem, integrezi mai multe lucruri deja prefabricate. Sau poate te duci în zona de a face fine tuning și nu trebuie neapărat să știi exact tot ce se întâmplă, dar ai experiență și ai văzut destul de mult care sunt efectele atunci când antrenezi pe un set de date.
E bine să știi puțin din toate și din fundamente, dar să te uiți și pe orizontală. Care e dinamica pieței, care e cererea, dacă sunt nevoi pe partea de infrastructură, cum pui aceste modele în cloud. Mai există de asemenea partea de user experience și de prompt engineering.
Orice ai alege, este nevoie de muncă, să studiezi, să vezi ce au făcut alții, să te implici, să participi într-o comunitate și atunci lucrurile se mișcă. Pe studenți îi învățăm deja aceste noțiuni, avem cursuri despre large language models la Facultatea de Matematică și Informatică, din cadrul Universității din București.”
Horia Velicu: „Cred că foarte multe profesii vor fi sub influența acestei noi tehnologii. Știm deja că există modele de limbaj care sunt extraordinar de bune la scris cod sau la corectat cod software. Important e, indiferent de profesia pe care o ai, să fii la curent cu ce pot face aceste soluții, fie prin intermediul companiei, fie printr-un abonament personal. Pentru că asta va face diferența. Dacă activezi într-o profesie și te folosești de un avantaj de genul acesta, vei fi cu siguranță mai productiv și mai apreciat și mai de succes decât cineva care rămâne pe stilul vechi.
Aș încuraja pe toată lumea, pe termen lung, indiferent de profesie, să se familiarizeze cu tehnologia asta. Iar cei care vor să activeze chiar în profesia legată de implementarea AI, sunt total de acord cu Alin, trebuie să petreacă multe ore, nu există scurtături.
Si poți să-ți alegi rolul. Noi, de exemplu, în companie avem o paradigmă, în care poți să împarți în trei mari roluri distincte. Unul mai aproape de business, în care identifici use case-uri și încerci să legi capacitatea de tehnologie de un challenge al companiei, fie că e vorba de clienți sau de angajați. Apoi în mijloc, ai pe cei care fac modelele sau adaptează modele existente. Și, în ultima zonă, foarte aproape de infrastructură, sunt cei care se ocupă de data engineering, de a păstra infrastructura, de a pune în practică acele modele, de a le industrializa.
Vor fi și specialiști care vor face o interfață om-AI din ce în ce mai bună. Sunt multe lucruri de făcut, poate să găsească fiecare ce-i mai aproape de pasiunea lui. Asta e foarte important.”