ChatGPT 4 cu DALL·E

2023: Anul în care inteligența artificială a devenit mainstream

De Mihai Ghiduc 29.12.2023

Nu e niciun dubiu că, dincolo de evenimentele politice, inteligența artificială a fost subiectul anului. Dar cât e hype și cât e cu adevărat avans tehnologic se va stabili ceva mai târziu.

Aproape orice top de știință și tehnologie din acest an, inclusiv cel pe care l-am făcut pe Mindcraft Stories, a pus inteligența artificială pe primul loc. Meritul este aproape exclusiv al celor de la OpenAI, care, pe 30 noiembrie 2022, au făcut public chatbot-ul ChatGPT.// Disponibil pe chat.openai.com // Unde GPT vine de la Generative Pre-trained Transformer,// Detalii pe wikipedia.org // tehnologia din spatele acestui software.

CITEȘTE ȘI: Topul Mindcraft Stories al celor mai importante 20 de momente din știință și tehnologie în 2023 

Faptul că au lansat un produs care până atunci era interesant doar pentru zona academică și insideri a generat nenumărate reacții, mai mult sau mai puțin entuziaste. Articole peste articole, scrisori deschise care cereau un moratoriu pe cercetare, concurența care s-a grăbit să lanseze chatboți proprii, politicienii care au pregătit reglementări serioase au fost doar câteva dintre aceste (re)acțiuni. Plus foarte multe speculații despre viitorul AI și iminența momentului în care această inteligență o va depăși pe cea umană, cu consecințele de rigoare.

De la distanța anului care a trecut, însă, mult discutata inteligență artificială generală nu pare să fie prea aproape. În schimb, AI-ul multimodal, care răspunde la inputuri diverse (text, imagine, audio, video) e deja aici și, cel mai probabil, va schimba multe lucruri în 2024.

GPT-4 și „inteligența artificială ca serviciu”

Dacă în 2022 contactul publicului larg cu inteligența artificială generativă s-a făcut prin intermediul imaginilor, cu ajutorul Midjourney și DALL-E 2, dar și ceva mai discretului Stable Diffusion, iar vedeta articolelor despre tehnologie era Metaversul promis de Meta, ChatGPT i-a făcut cunoștință cu modelele de limbaj. Un chatbot care înțelege contextul și funcționează în mai multe limbi, chit că n-a fost antrenat pentru asta,// „ChatGPT is multilingual but monocultural, and it’s learning your values”, jilltxt.net // și care răspunde în fraze complete și coerente a stârnit imaginația tuturor și a pornit discuții despre multiplele posibilități pe care le deschide.

CITEȘTE ȘI: ChatGPT e o fereastră asupra viitorului și ce-am văzut îmi dă sentimente amestecate 

Bazat pe GPT-3.5,// Un Generative Pre-trained Transformer (GPT) funcționează prin analiza și generarea de texte bazate pe context, folosind un vast set de date pre-învățate și algoritmi de rețea neurală pentru a anticipa și produce următoarea parte dintr-un text, bazându-se pe informațiile anterioare. (conform ChatGPT) Open AI a început să lucreze la produs în 2015, dar variantele 1-3 nu erau suficient de avansate pentru a fi lansate public. // programul de la OpenAI a atins în doar două luni peste 100 de milioane de utilizatori curioși, un record de adopție până la acel moment (depășit ulterior de Threads de la Meta, prin trucul legării noi aplicații de Instagram). 

Însă ChatGPT venea cu niște limitări: nu avea acces la internet, se baza pe informații de până în ianuarie 2022 și, mai grav, halucina. Mai exact, ChatGPT inventa informații cu nonșalanța unui mitoman, iar asta nu-l făcea prea util pentru aplicații practice. O variantă bazată pe același model și cu acces la internet a apărut destul de rapid în Bing, motorul de căutare de la Microsoft, care a fost și rămâne principalul finanțator al OpenAI.

Pe 14 aprilie 2023, OpenAI a anunțat o versiune de ChatGPT bazată pe GPT-4, noul și mai avansatul model de limbaj al companiei, care avea acces la informații mai noi și era mai rezistent la halucinații. Lansarea venea încă cu un nou model de business. Doar cei care își fac un abonament ChatGPT Plus, de 20 dolari/lună, au acces la model. Inteligența artificială ca serviciu își începea cariera. 

Tot atunci au apărut plug-in-urile, care permiteau o serie de lucruri interesante, precum accesarea directă a unor link-uri, iar programatorii obțineau acces la API, pentru a-și dezvolta propriile aplicații bazate pe ChatGPT.

În septembrie,// „ChatGPT can now see, hear, and speak”, openai.com // OpenAI extindea modul în care poți interacționa cu ChatGPT. Acesta poate primi acum prompturi vocale sau sub formă de imagini,și poate răspunde vocal, cu ajutorul unui generator de voce, dar doar în aplicațiile mobile de Android și iOS și în variantele pe bani. 

În octombrie, OpenAI anunța integrarea DALL-E 3 în ChatGPT Plus și Enterprise,// „DALL·E 3 is now available in ChatGPT Plus and Enterprise”, openai.com // adăugându-i astfel modelului generarea de imagini. În plus, acesta primea dreptul de a accesa internetul direct, prin Bing. Cel mai nou AI generator de imagini al companiei fusese anunțat în septembrie. Practic, în momentul de față, ChatGPT funcționează multimodal, cel puțin pentru abonați.

Microsoft a vrut să ia crema

Deloc suprinzător, principala companie care a încercat să profite de succesul OpenAI a fost Microsoft, care finanțează firma condusă de Sam Altman de ceva vreme și pe serverele căreia au fost antrenate GPT-urile. 

Microsoft s-a grăbit să integreze GPT-4 în Bing, site-ul aflat pe un distant loc doi în topul motoarelor de căutare, sau Edge, încă din februarie, când a anunțat Bing Chat. Ulterior, Microsoft a adus GPT-4 și în software-urile lor de bază, suita 365 (mai cunoscută ca Office), Teams și Windows. La finalul lui septembrie, Microsoft a anunțat// „Announcing Microsoft Copilot, your everyday AI companion”, microsoft.com // reunirea tuturor aplicațiilor AI sub denumirea de Microsoft Copilot, pe care l-a pictat drept asistentul personal care a înlocuit Cortana – care funcționa precum Siri sau Alexa. 

În ciuda entuziasmului Microsoft, cota de piață a Bing a variat în continuare în jurul a 3%,// „Bing’s search market share fails to budge despite big AI push”, zdnet.com // asta chiar dacă Google a cam dat-o în bară cu integrarea AI-lui în produsele sale. Poate că hype-ul e mai mare decât utilitatea – OpenAI n-a făcut publice date despre numărul abonaților la ChatGPT Plus, iar unele estimări pun cifra la doar un sfert de milion de persoane.// „0.1% of ChatGPT users are Plus users?”, reddit.com //

Revenind la interesul Microsoft pentru OpenAI, pe care-l finanțează, dar nu-l controlează, în noiembrie era cât pe ce să capete o întreagă divizie, cu toți angajații start-up-ului, pe gratis, după neașteptatul scandal de la companie. Pe scurt, CEO-ul Sam Altman a fost demis, doar pentru a reveni la conducere cinci zile mai târziu, după ce a amenințat că pleacă la Microsoft. În schimb, s-a modificat componența consiliului de administrație și s-au oprit discuțiile despre încetinirea cercetării.

CITEȘTE ȘI: Slow Forward: Drama OpenAI s-a terminat cu victoria comercialului 

Google se tot străduie să vină din urmă

Direct amenințați de avansul OpenAI au părut a fi cei de la Google, care s-au grăbit să lanseze în februarie propriul chatbot, Bard,// „Google AI updates: Bard and new AI features in Search”, blog.google // bazat pe modelul de limbaj LaMDA. Că mișcarea a fost intempestivă și determinată de ChatGPT a fost și mai evident când, după ce a fost observată o eroare comisă de Bard în materialele promoționale, acțiunile Alphabet au luat-o în jos.// „Alphabet shares dive after Google AI chatbot Bard flubs answer in ad”, reuters.com // Publicul a intuit panica.

Primul Bard n-a impresionat prea tare, însă Google a insistat că lucrează la un model mult mai puternic, numit Gemini. Acesta a fost făcut public, într-un final, la începutul lui decembrie,// „Introducing Gemini: Google’s most capable AI model yet”, blog.google // în mai multe variante (nu și pe piața europeană). Într-un test făcut de publicația americană The Verge,// „Google’s ChatGPT competitor Bard is nearly as good — just slower”, theverge.com // Bard cu Gemini Plus s-a dovedit suficient de competent ca să facă față lui ChatGPT, deși ceva mai lent și fără a fi multimodal. Avantajul e că e gratis și că versiunea Ultra, anunțată pentru primăvară, probabil va fi mult mai capabilă. Dezavantajul, cum spuneam, e că nu e disponibil în Europa. 

Iată că până la urmă, le-a luat un an celor de la Google să prindă din urmă mai fâșnețul competitor (dacă au făcut-o), ceea ce e surprinzător, pentru că la Google lucrează unii dintre cei mai buni cercetători în AI, cei de la DeepMind. Ca să nu mai spun că Google a creat, practic, transformerul,// „Transformer: A Novel Neural Network Architecture for Language Understanding”, blog.research.google // tipul de rețea neurală pe care se bazează toate modelele de limbaj. 

DeepMind și-a văzut însă de cercetarea științifică,// „2023: A Year of Groundbreaking Advances in AI and Computing”, deepmind.google // pe lângă Bard și Gemini. În 2023, cercetătorii de acolo au lucrat, printre altele, la GraphCast, un model mai bun pentru predicții meteo, la AlphaMissense, prin care au catalogat modificări genetice cu potențial malign, la GNoME, cu care au descoperit milioane de noi cristale. Dacă nu intervine sindromul Killed by Google,// Există un site care cataloghează peste 250 de produse lansate și apoi închise de companie, killedbygoogle.com // s-ar putea ca în 2024 terenul de joacă să se mai echilibreze.

AI-ul Open Source și alți concurenți care speră la o felie de piață

ChatGPT și Bard nu sunt singurii jucători din piață. De fapt, pe lângă modelul pe bani oferit de OpenAI și cel gratuit, dar controlat, al lui Google, mai mulți jucători vin cu alternative open source. Surpinzător, aici, este că Meta a luat-o pe această cale, cu Llama 2, anunțat în iulie. Și mai surprinzător e că a făcut-o în parteneriat cu Microsoft,// „Meta and Microsoft Introduce the Next Generation of Llama”, fb.com // care nu pune toate investițiile în același coș.

Un alt model open source este cel de la MistralAI,// Detalii pe https://mistral.ai // care a lansat variantele 7B și 8X7B (cea din urmă, mai precisă și mai puțin biasată – o altă problemă a AI-urilor, care preiau părerile dominante din textele pe care au fost antrenate). 

Multe dintre modelele open source se găsesc pe Hugging Face,// Detalii pe huggingface.co // o comunitate care pune la dispoziția celor interesați algoritmi de tip transformer și alte instrumente pentru construirea unor AI-uri personalizate. De remarcat că e o companie franco-americană și că are un parteneriat cu Amazon pentru folosirea serverelor gigantului Big Tech.

Pe piața AI-urilor care generează text mai joacă Claude de la Anthropic, o companie pornită de foști angajați OpenAI, Grok-ul lui Elon Musk, disponibil pe X și, la nivel declarativ, necenzurat, dar și modele mai puțin promovate, precum Overflow AI.// Disponibil pe stackoverflow.co //

O nișă interesantă și cu mulți jucători e cea a creării unor chatboți personalizați și cu personalitate, efectiv a unor personaje virtuale. Cel mai cunoscut jucător din această piață e Character AI,// Disponibil pe character.ai // – singurul alt chatbot trending pe Google în 2023, pe lângă ChatGPT –, iar cea mai celebră (și la îndemână) utilizare este crearea unor iubite virtuale.

CITEȘTE ȘI: 10 ani de la Her: Tu cât timp stai de vorbă cu inteligența artificială? 

În zona generării de imagini, pe lângă deja pomenitul DALLE-3, mai există Stable Diffusion și mult mai capabilul Midjourney, ajuns la versiunea a șasea, lansată chiar înaintea Crăciunului,// Disponibil pe mid-journey.ai // – faultat însă de accesul complicat, care de face doar prin Discord. Însă probabil cel mai important avans din 2023 este integrarea Adobe Firefly în produse precum Photoshop sau Illustrator, ceea ce înseamnă că practic inteligența artificială a ajuns în produse profesionale de design și editare de imagine.

Lucrurile se mișcă și în zona AI-ului care produce video, cu Stable Diffusion Video,// „Introducing Stable Video Diffusion”, stability.ai // anunțat în noiembrie de Stability AI, drept cel mai important avans în domeniu.

Este AI-ul un pericol?

În timp ce start-up-urile și companiile se străduiau „să se miște repede și să strice lucruri”,// O frază care îi aparține lui Mark Zuckerberg, snopes.com // s-a auzit și un „stop” colectiv, atât din direcția cercetătorilor, cât și a autorităților.

Apariția ChatGPT a generat o serie întreagă de scrisori deschise despre iminența apariției unei inteligențe artificiale generale a cărei scopuri să fie nealiniate cu cele ale omenirii – cu efecte potențial catastrofale – și care cereau oprirea (sau măcar o pauză) a cercetărilor. 

CITEȘTE ȘI: Musk, Wozniak și Harari cer o pauză în dezvoltarea AI-urilor puternice

După o primă scrisoare lansată de Institutul pentru Viitorul Vieții, una mult mai scurtă,// „Statement on AI Risk”, safe.ai // care vorbea de riscul de extincție a omenirii datorat AI-ului, a fost semnată în luna mai inclusiv de cercetători în domeniu de la OpenAI sau Google. Mesajul e clar:

“Mitigarea riscului de dispariție din cauza AI ar trebui să fie o prioritate globală alături de alte riscuri la scară societală, cum ar fi pandemiile și războiul nuclear.”

Se pare că însuși scandalul de la OpenAI a fost provocat de un conflict între cei care sunt îngrijorați de riscurile AI-ului și vor o dezvoltare controlată și etică și „acceleraționiști”, dar ăsta e un lucru care se va afla din cărțile care, inevitabil, vor apărea anul viitor. 

Politicienii încearcă să-l reglementeze înainte să strice prea multe

Între timp, politicienii s-au băgat și ei în discuție. Nu ca să reglementeze încă ipotetica (și potențial îndepărtata) inteligență artificială generală, ci problemele mult mai stringente aduse de AI-urile actuale: discriminarea, confidențialitatea, lipsa transparenței, drepturile de autor, efectul asupra unor joburi etc.

Uniunea Europeană a dat startul prin adoptarea, în noiembrie, a AI Act,// „Artificial Intelligence Act: deal on comprehensive rules for trustworthy AI”, europarl.europa.eu // pentru care a fost co-raportor și europarlamentarul român Dragoș Tudorache. Documentul a stabilit un set de reguli pe care orice program de inteligență artificială folosit în Europa va trebui să le respecte. 

Mișcarea (împreună cu Pachetul legislativ pentru Serviciile Digitale) este unul dintre motivele pentru care Google a întârziat atât introducerea Bard, cât și a noi variante bazate pe Gemini, în țările UE. Legislația e văzut și ca o potențială barieră în calea inovației, o opinie împărtășită inclusiv de Macron.// „EU’s new AI Act risks hampering innovation, warns Emmanuel Macron”, ft.com //

Între timp, și președintele Biden a semnat un ordin executiv// „FACT SHEET: President Biden Issues Executive Order on Safe, Secure, and Trustworthy Artificial Intelligence”, whitehouse.gov // pentru dezvoltarea unei inteligențe artificiale sigure și de încredere, dar nivelul de reglementare e ceva mai lax.

Toată lumea e afectată, dar mai ales justiția, educația și programarea

Până să rezolve legislația eventualele efecte negative ale AI-ului, multe domenii au încercat să se autoreglementeze. În frunte cu justiția, după ce în vară, niște avocați americani care s-au bazat pe ChatGPT într-un proces au aflat la prima mână cum funcționează halucinațiile modelului de limbaj. Efectiv, acesta a inventat niște cazuri.// „Lawyer Used ChatGPT In Court—And Cited Fake Cases. A Judge Is Considering Sanctions”, forbes.com // 

Totuși, firmele de avocatură sunt prea tentate de posibilitatea folosirii AI-ului pentru a scotoci prin mult prea stufoasa legislație a oricărei țări ca să renunțe definitiv la idee. Atâta vreme cât există o verificare umană a corectitudinii, // „How are law firms using AI to take on more business?”, legal.thomsonreuters.com // AI-ul va fi utilizat intens în domeniu.

Administrația e un alt domeniu în care AI-ul ar putea fi (și va fi) folosit, cu tot felul de probleme care vin la pachet, legate în special de discriminare și chiar de o potențială subminare a democrației.

CITEȘTE ȘI: ChatGPT, Bing & co și pericolele guvernării algoritmice 

Situația e mai complicată în educație, unde utilizarea unor instrumente precum ChatGPT pentru scrierea temelor nu e văzută la fel de pozitiv. Se presupune că elevii și studenții trebuie să muncească pentru a-și documenta și scrie eseurile. S-a creat practic o piață pentru instrumente de detectare a utilizării AI-ului,// „10 Best AI Detection Tools for Teachers & Professors”, collegetransitions.com // cum există și cea pentru detectoarele de plagiat, dar adevărul este că e destul de dificil să te prinzi ce e generat de AI într-o zonă în care, adesea, e încurajată conformitatea și limbajul de lemn. Există însă mereu și soluția examinării orale.

CITEȘTE ȘI: Inteligența artificială în educație: oportunitate sau amenințare? 

Programarea pare a fi un alt domeniu afectat,// „Will AI take your programming job”, appdevelopermagazine.com // pentru că limbajele folosite în domeniu sunt înțelese mai ușor de chatboții AI, capabili deja să scrie cod. Există însă și aici o dispută între cei care văd AI-ul drept un concurent și cei care îl consideră un instrument care ar putea crește productivitatea programatorilor.

Cine deține drepturile și cât de legal au fost antrenați cahtboții?

O discuție și mai actuală e cea legată de drepturile de autor. Sunt două teme distincte aici: cine deține drepturile unei opere create de AI și cât de corect este ca firmele care utilizează AI-ul să fi utilizat, în antrenarea modelelor, opere aflate sub copyright.

În primul caz, oficiul pentru drepturile de autor din SUA și, ulterior, un judecător au decis// „AI-Created Art Isn’t Copyrightable, Judge Says in Ruling That Could Give Hollywood Studios Pause”, hollywoodreporter.com // că o operă creată nu e protejată, deci poate fi folosită de oricine. Evident, situația e complicată de faptul că cel care o face publică trebuie să recunoască folosirea AI-ului, dar și de instrumente precum cele din suita Adobe, în care utilizarea AI e parțială.

În cazul antrenării AI-ului pe baza unort opere protejate, situația nu e lămurită. Actrița Sarah Silverman a dat în judecată Meta și OpenAI pentru că i-ar fi folosit operele în antrenarea chatboților, dar judecătorii au ținut cu firmele AI// „Sarah Silverman Hits Stumbling Block in AI Copyright Infringement Lawsuit Against Meta”, hollywoodreporter.com // – cărțile lui Silverman n-ar fi putut avea un impact semnificat, a fost unul dintre argumente. Nici alți artiști, în general din zona ilustrației, n-au avut mai mult succes,// „Judge dismisses most of artists’ copyright lawsuit against AI image generators”, theartnewspaper.com // iar între timp OpenAI a creat prevenit opțiunea ca artiștii să-și excludă operele din baza de date.// „OpenAI unveils DALL-E 3, allows artists to opt out of training”, techcrunch.com // 

Finalul anului vine însă cu un proces mult mai serios. Cel mai mare ziar american, The New York Times, a dat în judecată OpenAI și Microsoft// „The Times Sues OpenAI and Microsoft Over A.I. Use of Copyrighted Work”, nytimes.com // pentru încălcarea legii, cu argumente mult mai serioase. De exemplu, baza de date a ziarului e după un paywall, dar adesea ChatGPT a produs răspunsuri în care copia cuvânt cu cuvânt bucăți din articole – mai ales în situații în care ziarul e singura sau sursa primară. The New York Times spune că e afectat direct, mai puține click-uri, lipsa unui link către sursă, iar asta întrevede o problemă pe care o vor avea în curând mai toți producătorii de conținut scris din cauza AI-urilor multimodale: scăderea traficului.

Ce va aduce viitorul imediat?

Cred că AI-ul multimodal va fi tema care va domina anul 2024, mai degrabă decât un eluziv AGI. OpenAI arată deja care este potențialul, dar aș spune că Google are aici avantajul unor produse pe care le pot integra rapid cu Gemini, dacă acesta se dovedește la nivelul așteptărilor. Un Google Assistant pe toate telefoanele Android, care să răspundă atât la prompturi scrise sau vocale, cât și la unele care vin de la camera foto sau din Photos (oarecum după modelul Google Lens), combinat cu recomandările și informațiile de pe Google Maps, poate scoate AI-ul din casă și să-l transforme într-unul audio-video din unul scris.

Asta desigur dacă nu cumva Apple, care lipsește în mod misterios din bătălia pentru chatboții AI nu cumva vine cu o supriză. Faptul că în toamnă a făcut public informații despre un discret model open source, numit Ferret,// „Ferret: Refer and Ground Anything Anywhere at Any Granularity”, arxiv.org // sau că discută cu publisherii pentru a le folosi articolele în antrenamente// „Apple explores AI deals with news publishers”, reuters.com // arată că posibilitatea apariției un iPhone cu AI înainte ca Googe Pixel să devină mainstream e ridicată. Iar efectul Apple asupra unui nou domeniu, pe care-l poate revoluționa, rămâne în continuare unul puternic.

Tot 2024 va aduce în prim plan și modele care vor genera video sau audio din ce în ce mai performant.

Între timp, îngrijorarea cu privire la apariția unei inteligențe artificiale generale va rămâne în background, mai ales că în cursa pentru descoperirea sa a intrat și China// „China works to be first source of general AI says think tank”, theregister.com // – avantajele geopolitice și militare ale deținerii unui asemenea instrument fiind majore.



Text de

Mihai Ghiduc

Redactor-șef. A oscilat între print (Opinia studențească, Men's Health, Maxim, Marie Claire) și online (Vice, Glamour, Slow Forward) până l-a prins din urmă revoluția tehnologică.

ȘTIINȚĂ|OVERVIEW

Primul dinozaur a fost atestat științific acum exact 200 de ani

De
Prezentarea lui Megalosaurus într-o conferință științifică de la Oxford din 1824 a deschis calea către Jurassic Park.
AI&ROBOȚI|FYI

Slow Forward: Videoclipurile AI generate de Sora au pus în umbră Gemini 1.5 

De
Două noi modele AI s-au lansat în aceeași zi, dar cel de la OpenAI s-a dovedit mut mai bun la marketing.
TEHNOLOGIE|OVERVIEW

Ransomware-ul care a blocat spitalele românești este vândut și ca abonament

De
Atacul care a criptat computerele a peste 100 de spitale românești să treacă offline a utilizat o variantă modificată a unui ransomware cu care au mai fost blocate, în ultimii ani, spitale autohtone. În cercurile de criminalitat cibernetică, acesta este comercializat pe modele similare cu „software-as-a-service”
SPAȚIU|OVERVIEW

Furtuni geomagnetice, aurore boreale și HAARP

De
Anul trecut, teorii ale conspirației s-au creat datorită unui fenomen natural rar, dar nu atât de rar ca să nu-l întâlnești de câteva ori într-o viață de om.