Sunt DALL-E sau GPT-3 o amenințare pentru munca creativă?60 min read
Inteligența artificială va influența mai mult decât orice piața muncii creative. Înțelegând cum funcționează, această influență ar putea fi una pozitivă.
Odată la câteva luni, o nouă tehnologie pe baza de machine learning face vâlvă prin spațiul public. Discuțiile se polarizează între cei convinși că Singularitatea tehnologică ar fi momentul în creșterea tehnologică devine ireversibilă și incontrolabilă, fiind asociată adesea cu momentul în care inteligența artificială devine conștientă, wikipedia.org și ludiți vulgari, care insistă că inteligența artificială nu are cum să afecteze în vreun fel viața oamenilor.
Cel mai recent exemplu este cazul sistemului LaMDA de la Google, care l-a convins pe Blake LeMoine, unul dintre dezvoltatorii care avea acces la el, că are conștiință de sine. Acest caz este poate cel mai cunoscut de publicul larg, probabil și din cauza dimensiunii etice, celelalte controverse rămânând adeseori închise în anumite sfere profesionale. Dar nu e nici pe departe singurul, iar intervalul dintre exemple doar se scurtează.
CITEȘTE ȘI: AI cu conștiință sau doar un chatbot care a învățat filosofie?
Cu siguranță ai remarcat pe rețelele de socializare acele postări cu o frază cheie și nouă imagini foarte dubioase, generate de o inteligență artificială. Acel sistem este o versiune a DALL-E, de la Open AI, care a primit un frate mai mic și mult mai deștept în luna aprilie. „DALL·E 2”, openai.com nu doar că poate genera imagini după descrieri făcute în limbaj natural, de la reprezentări fotorealiste la redări stilizate și desene, ba și poate modifica ulterior desenele. Rezultatul este atât de impresionant încât, cel puțin în primele zile după anunț, tot mai mulți oameni se întrebau „DALL-E: Did picture-generating AI just make artists obsolete?”, substack.com
Un alt proiect de la Open AI, GPT-3, ar fi trebuit „A robot wrote this entire article. Are you scared yet, human?”, theguardian.com și, apoi, „OpenAI’s GPT-3: The End Of Cargo Cult Programmers”, towardsdatascience.com Mai amintesc și de momentul când lumea se temea că „It’s Getting Harder to Spot a Deep Fake Video”, youtube.com
Însă mai există încă artiști, jurnaliști în presa scrisă și programatori, chiar și din cei care doar dau copy-paste de pe Stack Overflow, iar propaganda de modă veche își face bine-mersi treaba în continuare. Mai mult, prea multe companii care s-au finanțat promițând că automatizează varii procese migăloase s-au dovedit că, de fapt, în spatele unor aplicații moderne, „Potemkin AI”, reallifemag.com adesea prost remunerată.
Așadar, s-ar putea zice că ludiții au dreptate și că „roboții” nu vor schimba în niciun fel modul în se desfășoară activitățile umane, în special cele creative. Și, chiar dacă ar face-o, asta nu se va întâmpla în niciun caz prea curând. Realitatea este însă mai complicată.
De exemplu, mulțumită arhitecturii Turing cu nuclee tensor concepute pentru calcule matriciale, cei de la Nvidia au dezvoltat două procese care accelerează generarea de imagini de bună calitate, depășind limitele fizice de care tehnica computațională începe să se lovească. „NVIDIA Deep Learning Super Sampling (DLSS)”, nvidia.com este conceput pentru Aceste aplicații „pictează” imaginea dintr-o bucată, folosind diverse euristici și scurtături computaționale pentru a trata felul în care lumina interacționează cu obiectele. iar „NVIDIA OPTIX™ RAY TRACING ENGINE”, nvidia.com sau mai exact denoiserul folosit de acesta, pentru Din fiecare pixel de pe ecran se „trage” câte o rază de lumină, al cărei parcurs este simulat în scena virtuală urmărind regulile fizice. Simplist vorbind, în cazul ambelor sisteme, algoritmii dezvoltați de Nvidia au învățat cu ce valori tind anumiți pixeli să fie înconjurați, putând astfel să supradimensioneze imagini realizate la rezoluție mică, respectiv să umple golurile zgomotoase dintre pixeli răzleți.
Despre aceste tehnologii s-a vorbit foarte mult „Nvidia DLSS in 2020: Stunning Results”, techspot.com din motive evidente, dar ele au aplicații însemnate în tot ce înseamnă grafică digitală, cum ar fi vizualizări arhitecturale, randări de produs sau efecte speciale, pentru că scad semnificativ necesarul tehnic de a opera în câmpurile respective.
Tot o tehnologie augmentativă este și „Introducing GitHub Copilot: your AI pair programmer”, github.blog un asistent virtual pentru programatori. Folosind OpenAI Codex, un urmaș al lui GPT-3 antrenat pe cod sursă în diferite limbaje de programare, Copilot nu scrie programe de capul lui pornind de la sugestiile unui utilizator, așa cum s-a arătat în demonstrațiile care au speriat programatorii și entuziasmat pe cei care au de-a face cu ei, ci anticipează ceea ce programatorul va scrie. Cei care îl folosesc spun că este util pentru codul boillerplate repetitiv și sporește încrederea programatorilor cu mai puțină experiență.
URMĂREȘTE PE CANALUL NOSTRU DE YOUTUBE: „Huge if Real” – Episodul 1: CodeTruck
În ciuda promisiunilor de marketing care nu se adeveresc, încetul cu încetul lumea înconjurătoare este creată, dacă nu de inteligențe artificiale, atunci măcar de persoanele care le folosesc. Pe de altă parte, utilizarea acestor tehnologii are și un efect de poluare, de la chatbots agasanți care apar pe toate site-urile la aplicații care există doar pentru a colecta date care poate vor fi folosite să antreneze vreun model de machine learning. Chiar mai tulburător, unele dintre aceste aplicații au efecte clar nocive, cum ar fi programele predictive folosite de tribunalele din SUA pentru a prezice riscul unui condamnat de a recidiva și a-i ajusta în conformitate pedeapsa, programe care „AI is sending people to jail—and getting it wrong”, technologyreview.com
În momentul de față, tehnologiile nu sunt mature și nu s-au împământenit practicile de folosire a lor, așa că societatea încă are un cuvânt de spus despre cum vor evolua de acum încolo. Dar pentru asta trebuie să nu nu fie tratate ca niște obiecte magice, niște programe care scuipă miraculos cuvinte, imagini și sunete, chiar adevărul lăuntric despre ființa umană. Lumea trebuie să aibă câteva cunoștințe de bază despre felul în care funcționează.
Pentru asta, am stat de vorbă cu Ciprian Știrbu, un inginer și cercetător în industria AI. Am discutat de asemenea și cu o serie de artiști comerciali pentru a-mi face o idee referitoare la felul în care un sistem ca DALL-E 2, de exemplu, le-ar influența profesia.
CITEȘTE ȘI: Etică și AI. Putem avea încredere în roboți?
Cât de inteligentă este inteligența artificială?
Cultura populară abundă de exemple de inteligențe artificiale generale, mașinării care par că pot gândi singure. Se produc astfel enorme probleme morale și filosofice. Termeni ca rețele neurale sau machine learning tind să sugereze că și industria contemporană operează în același domeniu, cel al reproducerii minții umane.
Din ceea ce înțeleg eu în schimb, machine learning presupune de fapt foarte sofisticate metode numerice. Ciprian descrie domeniul ca „un ceaun în care amesteci algebră liniară, analiză matematică și statistică”. Termenul de rețea neurală e doar o metaforă, ba mai mult, una imprecisă. „Modelele care încearcă să imite mai mult structura neurală funcționează în multe cazuri mai prost”. Inginerul mai amintește de un citat din Dijkstra, celebrul informatician olandez: „Să întrebi dacă o mașină poate gândi e ca și cum ai întreba dacă un submarin poate înota”. Așadar e o eroare categorială să ai aceleași așteptări de la inteligența artificială pe care le ai de la cea umană.
Caracterul neuronal din rețelele neurale face referire la un principiu abstract al teoriei plasticității sinaptice, adică al învățării și memoriei, elaborată de Donald Hebb în 1949. Acesta spune că celulele care se activează împreună se și conectează. Adică, răspunzându-se repetat la stimuli, se produc trasee neuronale care facilitează repetarea acelui răspuns pe viitor. Care este parțial, cercetări ulterioare descoperind mult mai multe mecanisme implicate în învățare. „Beyond the Synapse”, www.cambridge.org rezultă intuiția din spatele acestor rețele, care sunt de fapt un mecanism pentru obținerea unui răspuns satisfăcător de la niște sisteme de ecuații liniare. Așa cum, pentru fiecare răspuns la un stimul, neuronii din sistemul nervos se activează sau dezactivează reciproc, pot fi înlănțuite sisteme de ecuații generale care trec un element din domeniul problemei în codomeniul său, găsind influența fiecărei ecuații dintr-un sistem asupra următorului. Această influență reprezintă cât de mari sunt șansele ca primind o anumită intrare (sau stimul) să se ajungă la un anumit rezultat (sau răpuns). Se vede doar din această descriere schematică a principiilor matematice că paralela dintre cele două tipuri de rețele se destramă cu cât se intră mai mult în detaliile mecanismelor biologice ale memorie, însă este una importantă.
Ba chiar este „A visual proof that neural nets can compute any function”, neuralnetworksanddeeplearning.com Ciprian povestește că „există „Universal Approximation Theorem”, wikipedia.com care îți spune că orice funcție poate fi aproximată oricât de bine de o rețea neurală. Tu trebuie doar să găsești rețeaua aia și pentru asta ai algoritmi care îți antrenează rețeaua aleatorie de la care pornești, încercând, cu fiecare exemplu, să o aducă mai aproape de funcția adevărată.”
Faptul că așa ceva funcționează este aproape miraculos. Dar teoria este un miracol al statisticii și analizei matematice, iar practica este de multe ori un miracol al proiectării procesoarelor și al resurselor investite. Pentru a fi antrenate, rețelele neurale au nevoie de cantități enorme de date. Iar ele nu oferă răspunsuri sigure, ci probabile, în niciun caz rețelele nu dezvoltă modele inteligibile ale problemelor pe care le rezolvă, nici nu „înțeleg” fundamental ce rezolvă, Asta cel puțin în cazul sistemelor cu învățare supravegheată. Mai există și sisteme cu învățare nesupravegheată, unde răspunsul nu este cunoscut, ele fiind folosite pentru a descoperi tipare în seturi foarte mari de date. Însă și acele tipare trebuie verificate și analizate apoi de experți umani. Într-un fel, ceea ce fac aceste rețele este să înmagazineze o muncă computațională deja făcută, fie de om sau de alte calculatoare. Într-un fel nici nu se poate spune că învață, ci că după ce au procesat o cantitate substanțială de informație se calibrează să arate ca și cum ar fi învățat.
De aceea, rezolvarea unei anumite probleme folosind machine learning în general, și rețele neurale în particular, inversează felul în care este folosit de obicei calculatorul. În loc să fie dezvoltat un algoritm specific, prin spargerea conceptuală a problemei în subprobleme mai mici și înlănțuirea rezolvării fiecăreia într-un set complicat de instrucțiuni, se creează o „structură” stratificată, formată din funcții foarte simple, neuronii, care ajunge să aproximeze rezultatul dorit, „învățând” cu ce rezultat este asociată o anumită intrare. Este demonstrat matematic că această structură, parametrizată corespunzător, poate aproxima orice altă funcție, trebuie doar să fie găsiți acei parametri. Acest proces de descoperire este denumit învățare. Ce învață de fapt rețeaua este cât de strâns legat este fiecare neuron dintr-un strat de neuronii din stratul următor. Prozaic, asta înseamnă multe operații matematice.
Limitele inteligenței artificiale
Lucrul cu machine learning pune în cap ingineria tradițională doar până la un nivel. Odată ce este depășit acest nivel, se revine la principiile clasice de inginerie, iar rezultatul reflectă mai mult inteligența umană, decât pe cea artificială. De aceea, în ciuda faptului că sunt personalizate, aplicațiile care domină periodic discursul public sunt de fapt formate dintr-un ansamblu de componente – fie unele neinteligente, fie alte rețele neurale –, fiecare rezolvând o sarcină ceva mai simplă.
De exemplu, DALL-E 2 este format din CLIP (Contrastive Language-Image Pre-Training) și un decodor. CLIP este o rețea neurală care știe să descrie imagini. Este formată din două subrețele, un codificator de text pentru descriere și un codificator de imagine, care generează împreună o valoare intermediară. Decodorul este antrenat să (re)genereze imagini pornind de la acea valoare intermediară generată de CLIP. La rândul său, este format din mai multe rețele, una pentru a decodifica imaginea, altele pentru a o supradimensiona de la 64×64 pixeli, cât generează decodorul, la 256×256 și apoi la 1024×1024.
De unde vin atunci acele rezultate spectaculoase? Pe de-o parte de unde au venit de-a lungul timpului tot felul de rezultate spectaculoase, din capacitatea oamenilor de a proiecta sisteme care rezolvă o anumită problemă. Pe de altă parte, din cantitatea enormă de resurse de care a dispus proiectul. Rețeaua CLIP folosită de DALL-E 2 a fost antrenată pe 400.000.000 de perechi de imagini și descrieri, obținute de pe internet. Codificatorul de text a fost antrenat timp de optsprezece zile pe 592 de plăci grafice Nvidia V100, iar cel de imagine timp de douăsprezece zile pe „Learning Transferable Visual Models From Natural Language Supervision”, arcxiv.org Aici este vorba doar de configurarea care a dat cel mai bun rezultat din mai multe teste și de doar una dintre componentele lui DALL-E 2. Teste de o asemenea amploare sunt prohibitive pentru oricine, în afara celor mai mari laboratoare de cercetare.
Apoi, luate la bani mărunți, rezultatele nu sunt chiar atât de impresionante, cum lasă de crezut marketingul oficial. O sumă de limitări ale sistemului sunt menționate „Hierarchical Text-Conditional Image Generation with CLIP Latents”, arxiv.org care a fost publicat o dată cu anunțarea lui DALL-E 2.
Una dintre ele ar fi că eșuează la ceea ce experții în machine learning numesc attribute binding, adică capacitatea de a asocia caracteristici obiectelor. Dacă i se spune să reprezinte un cub roșu peste un cub albastru, DALL-E 2 va înțelege că trebuie să reprezinte niște cuburi, într-o imagine care conține roșu și albastru, iar unele dintre cuburi să fie peste altele, dar foarte puține dintre rezultate vor reda toate caracteristicile cerute într-o manieră coerentă. Pentru că nu știe că desenează cuburi, nu știe ce înseamnă albastru sau roșu, mic sau mare, deasupra sau sub. El știe că unele dintre datele cu care a fost antrenat conțineau unele din aceste cuvinte (e.g. cub roșu și cub albastru, cub mic și cub mare, două cuburi unul peste altul) pentru a descrie anumite imagini. Probabil că această înșiruire de caracteristici a fost prea rară pentru a o învăța, așa că DALL-E 2 umple golurile cum poate, într-o manieră aparent aleatoare, dictată de probabilitatea ca un cuvânt să fie urmat de altul și ca această secvență să corespundă unei imagini.
Din același document aflăm că DALL-E 2 nu prea știe să scrie. Cerându-i-se să picteze un marcaj pe care să fie însemnat „deep learning”, robotul pare că mai degrabă maimuțărește cercetătorii. Dar nu-i vina lui, căci pur și simplu nu înțelege legătura dintre cuvintele pe care le primește ca intrări și felul în care sunt reprezentate ele pictorial ca șiruri de semne.
Tot legat de reprezentarea simbolică, persoanele care au avut posibilitatea să se joace cu DALL-E 2 au remarcat că nu prea poate să proiecteze lucruri funcționale, cum ar fi planul unei clădiri sau „DALL-E is bad at making coherent plans for things”, twitter.com
Iar, deși nu a fost menționată ca limitare în articol, „GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models”, arxiv.org proiectul în cadrul căruia Open AI a dezvoltat tehnica de la baza decodorului prin difuzie folosit în CLIP și deci în DALL-E 2, nu reușea să reprezinte obiecte neobișnuite sau modificate în vreun fel. Nu știe să deseneze pisici cu mai multe membre sau să reprezinte situații inedite, cum ar fi un șoarece vânând un leu. Acolo unde am văzut testat cazul respectiv, DALL-E 2 are în continuare această limitare.
Trebuie artiștii să se sperie de AI?
Ar părea că ludiții vulgari au câștigat și de această dată. Mai ales dacă te gândești că sarcina unui artist este și de a imagina, și de a reda subiectul. Rareori i se cere cu precizie să ilustreze ceva anume, iar atunci când se întâmplă, artistul sau artista s-ar putea să aibă idei mai bune.
Maria Surducan, printre altele „Douăsprezece prințese dansatoare”, grafic-art.ro ilustratoare de coperte de carte și de afișe, precum și co-creatoarea jocului de societatea „Zestrea”, zestrea.net îmi povestește că de obicei primește briefuri destul de generale și că „e treaba ei să propună soluția vizuală”. Lucrurile variază în funcție de tipul de ilustrație, dar așteptarea e, de exemplu, să citească articolele sau măcar anumite fragmente din ele, iar desenele ei să reflecte atât ceea ce a citit, dar și o direcție editorială generală.
În cazul ilustrațiilor publicitare lucrurile sunt mai stricte, se poate să i se ceară elemente specifice. În schimb, apare un proces de revizie. Artista prezintă o serie de schițe clientului, interpretând cerința în varii feluri, iar odată aleasă schița și realizată ilustrația în culoare, clientul mai poate cere mici modificări care nu implică schimbarea compoziției.
Tot despre nevoia de a înțelege subiectul și despre „du-te, vino”-uri îmi povestește și Diana Necșulescu, ilustratoare freelance care a lucrat la cărți pentru copii și care face mai nou ilustrații pentru scurt-metraje sau animează ea însăși. Ilustrațiile pentru astfel de proiecte colaborative implică și crearea de materiale intermediare, cum ar fi storyboard-uri sau moodboard-uri care sunt utile întregii echipe, pentur că asigură o coerență artistică și facilitează colaborarea.
Ar părea că acest lucru e un avantaj pentru artiști. La fel cum, în cazul majorității obiectelor fizice, o variantă produsă industrial este net inferioară celei realizată artizanal, asta pentru cel puțin câteva iterații ale mecanismului de producție, și ilustrațiile unui AI vor fi inferioare celor clasice. Totuși, lumea se îmbracă cu haine fast fashion, mănâncă destul de mult fast-food, iar tot ce înseamnă electronică e deja imposibil de reprodus cu letconul pe stația de lipit. Însă cu mult înainte ca industria să bată artizanul, timpii mult mai mici de producție și costurile reduse i-au înlocuit pe aceștia.
În mod similar, vor exista clienți care se vor mulțumi și cu o fracțiune din calitatea unei ilustrații realizată de un artist, dacă va fi mai ieftină și dacă nu trebuie să aștepte câteva zile sau chiar săptămâni pentru ea ori dacă va putea înlocui calitatea cu cantitatea.
Mai există de asemenea și categoria creatorilor de conținut sau a organizațiilor pentru care nu rentează contractarea unui artist, dar care poate ar vrea să-și augmenteze proiectele cu o nuanță creativă. De exemplu, în 2017, pe când găzduiam un podcast despre artiștii români de bandă desenată, am folosit Jukedeck, un sintetizator online pe bază de machine learning, pentru a obține fragmente muzicale pentru jingle-uri. Unul dintre avantajele acelei aplicații în fața bibliotecilor cu muzică stock era că puteam controla precis durata unui segment audio și seta momentul când muzica sporește sau scade în intensitate. Pentru urechea mea neantrenată și scopul meu fără mare miză, rezultatele erau mai mult decât mulțumitoare. Între timp „It looks like TikTok has acquired Jukedeck, a pioneering music AI UK startup”, techcrunch.com
De aceea cred că din ce în ce mai multe astfel de programe vor fi folosite din ce în ce mai des, în ciuda limitărilor pe care le au la momentul de față.
Apocalipsa AI va fi din vina omului
O parte dintre acele limitări vor fi incorporate în procedeele și „bunele practici” ale industriilor unde sunt folosite inteligențele artificiale. Asta s-a întâmplat în cazul tuturor tehnologiilor de-a lungul istoriei.
Tiparul a eliminat ilustrațiile migăloase și jocurile de pe marginea manuscriselor iluminate. Posibilitatea de a turna beton și a produce industrial panouri înalte de sticlă a scos decorația din arhitectură și design, dar a determinat apariția modernismului și minimalismului. Istoric, pelicula color folosită în film și fotografie „Color film was built for white people. Here’s what it did to dark skin.”, youtube.com un factor care a contribuit la excluderea actorilor afro-americani din Hollywood; acum însă, camerele digitale ca Arri Alexa, noi filtre și dispozitive de iluminat „Keeping ‘Insecure’ lit: HBO cinematographer Ava Berkofsky on properly lighting black faces”, mic.com
În privința machine learning, deja există conceptul de „Prompt Engineering: The Career of Future”, medium.com adică folosirea cunoștințelor despre cum funcționează o anumită rețea neurală pentru a formula problemele care îi sunt puse în așa manieră încât rezultatul să fie mai aproape de cel dorit. Apoi, strict în lumea lui DALL-E 2, nu e de neimaginat să dispară așteptarea ca un director artistic să poată solicita un desen cu o mașină cu roți triunghiulare sau cu o pisică cu opt picioare, ci în schimb să fie nevoit sau nevoită să găsească un fel de a ilustra același concept prin reprezentări mai puțin neobișnuite. Iar acolo unde chiar e nevoie de ceea ce nu poate face inteligența artificială, poate interveni omul.
Cei de la Cosmopolitan „The World’s Smartest Artificial Intelligence Just Made Its First Magazine Cover”, cosmopolitan.com cum ar putea decurge în viitorul apropiat realizarea unei ilustrații editoriale sau a unei coperte. De la artistul uman nu ar mai exista așteptarea să fie motorul principal al procesului de ideație, poate nici măcar să participe în el, ci doar să stăpânească destul de bine instrumentele din Photoshop, cât să retușeze pe alocuri creația inteligenței artificiale sau să adauge elemente, cum ar fi text. Cu timpul, asta ar putea duce la un proces de deskilling, ceea ce nu e nemaiîntâlnit în istorie. Călugării medievali copiști poate nu erau toți mari cărturari, dar erau mai mult decât alfabetizați. În schimb, lucrătorii din tipografii trebuiau să știe doar să pună literele în ordine, nu neapărat să cunoască în ce cuvinte se așază, cu atât mai puțin să prindă sensul propozițiilor și frazelor pe care le formează.
Aici Ciprian ridică o problemă interesantă, vorbind despre poate nu o neutralitate a tehnologiei, cât despre o contingență a formelor pe care o ia aceasta față de societatea care o produce. Într-adevăr, dacă inteligența artificială va împinge industriile creative în scenariul de mai sus, o va face doar pentru că lucrurile merg deja în acea direcție. Un alt artist cu care am vorbit mi-a povestit cum i s-a cerut deja să retușeze o „ilustrație” realizată de client, prelucrând o poză printr-una dintre acele multe aplicații mobile care aplică filtre peste imagini pentru a le face să semene cu desene în creion sau picturi în ulei.
Oricine a lucrat în domenii care țin de design grafic, sau a trebuit să compună măcar o prezentare cu slide-uri, a ajuns pe site-urile de ilustrații stoc și a fost bombardat de pachetele de iconițe sau ilustrații, unele gratuite, majoritatea mai mult decât accesibile pentru companii, ONG-uri sau chiar liber profesioniștii care-și câștigă existența folosindu-le. Cam orice subiect descris în bara de căutare aduce suficiente exemple, care pot fi apoi filtrate în funcție de nevoi și specificații stilistice.
Toate acele decorații, iconițe sau chiar desene întregi sunt realizate de artiști umani, într-o manieră a cărei sustenabilitate pe termen lung asupra ecologiei lumii artistice ar face „’Pumping Raw Sewage Into The Water Supply’: A Conversation About Tech And Stock Illustrations With Roman Muradov”, tcj.com însă merită remarcat cum rezultatul muncii umane deja pare algoritmic și robotic, artiștii înșiși trasându-și ca obiectiv „How I’m learning to draw illustrations in the Notion style”, medium.com Rezultatul ne afectează pe noi toți, pentru că toată lumea ajunge să consume într-o formă sau alta astfel de ilustrații, iar unele stiluri ajung victimele propriei ușurințe de a fi folosite și reproduse, cum demonstrează ura populară pentru infamul stil Corporate Memphis.
În această enumerație trebuie menționate și platformele de freelancing precum Fiverr sau Upwork. Diana îmi povestește că pe Upwork contează în primul rând timpul de livrare al operei, apoi că bugetele clienților tind să fie mai mici și mult mai greu de negociat. De asemenea, clienții de pe astfel de platforme sunt mai puțin interesați de tot procesul artistic. Aceste platforme infiltrează și ele acea logică algoritmică în procesul creativ și încurajează artiștii să-și sistematizeze operele în maniere ușor de descris în recenzii și care îi înalță în rezultate căutărilor de pe platformă.
Dacă viitorul profesiilor creative este această auto-robotizare care elimină creativitatea din tot procesul, poate că, într-un fel, e de dorit să vină inteligențele artificiale să scutească oamenii de aceste munci.
Poate inteligența artificială să salveze omul de el însuși?
Așa cum stau lucrurile, pare că artiștii și creatorii sunt prinși între două perspective neatractive: ori acceptă să fie înlocuiți de mașini ori se comportă ca unele, acceptând locuri de muncă din ce în ce mai alerte și totuși prost plătite, cel puțin până când noile tehnologii vor crea alte oportunități. Iar ambele perspective ar cam omorî arta în sine. Cine știe ce s-ar întâmpla cu alte profesii?
Asta ar însemna și o irosire a potențialului inteligenței artificiale. Ciprian vede relația dintre om și AI mai mult ca pe o simbioză, felul neobișnuit al inteligenței artificiale de a interpreta realitatea putând să trezească noi intuiții în creatorii umani. Există încă de pe acum exemple care prefigurează astfel de opere ciborgice, cum ar fi banda desenată intitulată ironic „Abolition Of Man, First Comic Book Entirely Drawn By A.I. Algorithm”, bleedingcool.com realizată de Carson Grubaugh folosindu-se de MidJourney AI și fragmente din prelegerea lui C.S. Lewis cu același nume. Grubaugh, în loc să fugă de caracterul coșmaresc al operelor generate automat, le-a îmbrățișat, rezultând ceva care amintește poate de Dave McKean sau Kent Williams în ulei și demonstrează clar cum aceste instrumente pot fi utilizate productiv de artiști.
Eu cred că potențialul unor astfel de roboți s-ar putea vedea în feluri mai banale, dar nu mai puțin transformative pe termen lung. În crearea unei opere intră tot felul de activități care nu sunt deosebit de creative sau solicitante tehnic, ci cer mai degrabă răbdare. Lucruri precum așezarea unui strat preliminar de vopsea pe mari suprafețe sau terminarea unor figuri din fundal.
Aceste activități „Five of the Most Influential Artists’ Assistants”, anothermag.com inclusiv în zilele noastre, uneori „Mangaka Assistants Explained (Use, Abilities, and How Much They Make)”, mangascout.com Dar utilizarea asistenților impune o ierarhie în procesul de creație, nu degeaba pictorilor care conduceau un atelier li se spunea maeștri. Pe lângă asta, la momentul de față, utilizarea asistenților poate fi prohibitivă. Destul de mulți rămân fie întreaga carieră la acel nivel, fie trec în domeniul artei comerciale, despre ale cărei presiuni am discutat deja.
Instrumente care folosesc inteligența artificială pot prelua din astfel de sarcini, „Top 10 AI tools in Photoshop (and is the rise of one-click editing a good thing?)”, digitalcameraworld.com Așa ceva ar deschide drumul către o carieră artistică mai multor categorii de persoane, cu perspective și istorii care nu au fost la fel de des sublimate în opere artistice.
Întrebarea care se pune este, desigur, când și cum se va ajunge în acest viitor care s-ar putea să pară utopic. Un răspuns cred că se găsește studiind ludiții, dar în ludiții istorici, așa cum au fost ei descriși, de exemplu, de Eric Hobsbawm în eseul său „The Machine Breakers”, jstor.com Muncitorii englezi nu urau utilajele în sine, nu erau niște troglodiți anti-tehnologie care stăteau în fața progresului, ci doreau să-și păstreze demnitatea care survenea din muncă și ar fi fost distrusă de șomaj.
La începutul anilor 1800, în Anglia, și cam în restul lumii, nu exista o reglementare robustă a pieței muncii care să o mențină competitivă și eficientă, nu existau programe de asistență socială, mobilitatea era scăzută și nici nu existau sindicate prin care lucrătorii să se organizeze. Astfel, folosirea tactică a sabotajul industrial era o formă de protest prin care se încerca, și pe moment se reușea, forțarea industriașilor să reinvestească o parte din profiturile generate de mașini în păstrarea fibrei sociale locale.
Hobsbawm mai sugerează și că, în ciuda caricaturilor ulterioare, ludiții discriminau în funcție de cine și cum foloseau utilajele, iar atunci când prosperitatea adusă de tehnologie se răspândea la nivelul întregii societăți nu apăreau revolte.
Se vede astfel că dihotomia dintre acceptarea progresului sau conservatorismul tehnologic este falsă. Există și posibilitatea de a accepta noile tehnologii, dar de a cere ca oamenii să aibă un cuvânt de spus asupra felului în care sunt folosite și de a beneficia colectiv de pe urma lor. Ludiții au fost înfrânți în cele din urmă, dar, din fericire, societatea modernă dispune de mult mai multe instrumente civice decât ei, cele mai multe democratice și pașnice. În plus, există și o justificare etică.
În primul rând, revenind la exemplul lui DALL-E 2, toate acele subrețele din care este format sunt mult mai sofisticate „Using neural nets to recognize handwritten digits”, neuralnetworksanddeeplearning.com Dar dezvoltatorii de la Open AI nu au trebuit să le inventeze de capul lor, ci au fost proiectate în timp de echipe de cercetători, atât din mediul privat, cât și din universități din întreaga lume. Principiile de implementare sunt puse la dispoziție public pentru a fi utilizate, perfecționate și pentru a se experimenta cu ele, iar, cum descriere Ciprian, „majoritatea companiilor de AI, fie lucrează colaborativ cu universități de prestigiu a la MIT sau Oxford, fie îi conving pe unii academicieni oferindu-le un laborator și un sac de resurse, fie ele computaționale sau financiare.”
Inovația în domeniul acesta, ca în orice alt domeniu științific se întâmplă incremental, relativ lent, într-un întreg ecosistem de influențe, inspirații și validări reciproce, iar aplicațiile practice ca DALL-E 2 sau GPT-3 apar mai degrabă ca implementări ale unor sisteme teoretizate de această întreagă rețea, contribuția științifică a proiectanților lor fiind adeseori de a găsi soluții inginerești pentru a optimiza diferite procese. Este nu doar contraintuitiv, ci și injust, ca ceva dezvoltat într-o manieră atât de deschisă, colaborativă și socială, să fie apoi închis și controlat de o singură companie.
După care apare problema datelor folosite pentru a antrena acele rețele. După cum am spus, DALL-E 2 a fost antrenat folosindu-se 400.000.000 de perechi de imagini cu descrieri preluate de pe internet. Cel mai probabil de pe rețelele de socializare, de pe Instagram, Deviant Art, Twitter. În cazul acesta, ce a făcut DALL-E 2 a fost să înmagazineze munca computațională pe care au întreprins-o utilizatorii acestor rețele atunci când au completat câmpul alt dedicat descrierii imaginilor pentru utilizatorii cu probleme de vedere. Copilot a fost antrenat pe O zonă de stocare a codului sursă în sistemul de versionare git. publice ținute de programatori pe GitHub. Iar „GPT-3”, wikipedia.org a fost antrenată, printre altele, pe arhiva publică „Common Crawl”, wikipedia.org și pe Wikipedia.
Nu este ilegal ce au făcut, cel puțin nu până acum, dar este împotriva spiritului punerii în domeniul public a acelor resurse. Mai ales dacă se ține cont de faptul că programatorii care și-au făcut aplicațiile publice și gratuite pe GitHub acumulează în continuare reputație de pe urma lor, care se poate traduce în oportunități profesionale. Iar artiștii care și-au descris mecanic operele din portofoliu, înșirând ceea ce conțin, materialele folosite și stilul abordat, au făcut asta și pentru a fi ușor găsiți de clienți. Astfel, acele creații intelectuale sunt expuse liber în baza unui contract social care cred că a fost încălcat de unele dintre companiile responsabile de AI.
Inteligența artificială permite deja oamenilor să facă lucruri imposibile și ne-ar elibera de tot felul de munci anoste. Dar ca să fie folosită la întregul său potențial, trebuie în primul rând să fie înțeles felul în care cum funcționează, pentru a-i concepe limitele, vulnerabilitățile și a nu cădea pradă campaniilor de marketing mult prea pline de entuziasm care nasc apoi reacții catrastofiste.
Apoi, merită studiată istoria altor revoluții industriale și a transformărilor sociale produse de acestea, pentru a ieși din dileme simpliste. Iar în final, poate cel mai important, trebuie conștientizat faptul că dacă o tehnologie pare să aibă un impact negativ asupra unei profesii, o înlocuiește sau vulnerabilizează în vreun fel, asta e din cauză că ample procese sociale și economice merg deja în acea direcție. Schimbarea tehnologică se întâmplă, dar o putem controla astfel încât să evităm cele mai sumbre scenarii.