Getty Images

RoLlama: A fost lansat primul model de limbaj dedicat limbii române pentru AI-ul generativ5 min read

De Ionuț Preda 17.05.2024

AI-ul generativ devine specializat pe limba română, în urma unui proiect derulat în comun de două universități mari din Capitală.

O echipă de cercetători români a anunțat crearea unui prim model de limbaj (LLM) pentru AI generativ dedicat limbii române, în cadrul inițiativei OpenLLM-Ro. Inițiatorii au lansat și o platformă cu același nume, destinată dezvoltării open source a tehnologiilor AI pentru limba română.

Proiectul este dezvoltat de către Universitatea Politehnică din București și Institutul de Logica și Știința Datelor (Universitatea din București), cu sprijinul BRD Groupe Société Générale. Primul model lansat în cadrul acestuia, RoLlama, este dezvoltat în regim open source, iar cea mai recentă variantă este disponibilă gratuit pe platforma Hugging Face.// Detalii pe huggingface.co //

Chiar dacă multe din modelele de limbaj folosite în AI-urile conversaționale populare pot genera răspunsuri în limba română, dezvoltatorii acestora se concentrează în principal pe antrenarea modelelor în limba engleză. În consecință, atunci când sunt folosite în limba română, există șanse mari ca acestea să ofere răspunsuri bizare când generează text sau rezultate inexacte atunci când sunt folosite pentru a căuta informații.

Soluția constă în antrenarea unui model de limbaj specific pe baze de date cu cantități mari de articole, postări de social media, cărți digitale, crawluri și alte tipuri de texte digitale în limba română. Pe acest principiu se bazează modelul RoLlama, care este o variantă adaptată al LLM-ului open source Llama 2 dezvoltat de către Meta. Acesta a fost antrenat pe seturi de date// „LLM for Romanian: Pre-training and fine-tuning of Large Language Models to obtain a foundation model for the Romanian language”, ilds.ro // cu peste 40 de milioane de documente în limba română și 2,3 milioane de instrucțiuni și conversații traduse în limba română.

„Câteva dintre exemplele de utilizare ale modelului românesc sunt: căutarea de informații în baza de cunoștințe a unei organizații, cu ghiduri și proceduri de lucru, sau roboți conversaționali pentru clienții companiilor sau ai instituțiilor, care să îi ghideze în parcurgerea pașilor necesari pentru utilizarea unui produs sau serviciu. În ambele cazuri, angajații și/sau clienții economisesc timp în accesarea informației, beneficiind în multe situații și de îmbunătățirea calității acesteia”, explică Alin Ștefănescu, directorul Departamentului de Informatică din cadrul Universității din București și vicepreședintele Institutului de Logică și Știința Datelor.

Totodată, cercetătorii au mai dezvoltat un model specializat în limba română pe baza unui alt LLM disponibil open-source, Mistral, și au anunțat că urmăresc dezvoltarea unor iterații pe baza acestuia sau a versiunii mai recente a LLM-ului de la Meta, Llama 3, care sunt mai performante decât cel folosit ca bază pentru modelul actual. În acest sens, comunitatea OpenLLM-Ro,// Detalii pe huggingface.co // construită în jurul proiectului, țintește să adune la un loc modele similare specializate pe limba română și să faciliteze dezvoltarea acestora și a altor tehnologii AI în regim open-source.



Text de

Ionuț Preda

Redactor cu câțiva ani de experiență în presa centrală. Este curios despre aplicarea tehnologiilor SF în lumea reală și evoluția ideilor de-a lungul istoriei.

TEHNOLOGIE|CE URMEAZĂ?

Internetul (post)universal

De
De la fragmentarea Internetului la controlul total prin monede digitale centralizate și de la izolarea noilor generații în „grădini închise” la transformarea AI-ului în companion sau chiar divinitate, provocările lumii viitorului sunt deja aici.
TEHNOLOGIE|CE URMEAZĂ?

Revoluția (post)industrială

De
De la incertitudinea despre o posibilă bulă speculativă a inteligenței artificiale la promisiunea unei inteligențe generale, de la integrarea roboților umanoizi în fluxurile de lucru la bătălia globală pentru pământuri rare, de la visul mobilității urbane verticale la tranziția spre o sustenabilitate high-tech, economia și industria se reconfigurează sub presiunea inovației și a necesității climatice.
TEHNOLOGIE|GAMING SPOTLIGHT

AOC Q27G4ZR: 260 FPS pe un monitor de buget? Surprinzător de competent

De
E posibil să ai și imagine bună, și framerate ultrarapid pe un monitor de buget, dacă nu vrei nimic altceva în plus.
TEHNOLOGIE|GADGETS

Samsung Galaxy Tab S11 Ultra: subțirime extremă, hardware performant, limitări familiare

De
Cu un ecran impresionant de 14,6 inchi și un profil ultrasubțire, Samsung Galaxy Tab S11 Ultra e o adevărată realizare inginerească. Este însă și un dispozitiv de nișă, cu un preț care îl pune în competiție directă cu laptopurile profesionale.