fbpx

I modelli di intelligenza artificiale come i large language models e i text to image stanno rivoluzionando la nostra comprensione del linguaggio e della produzione artistica. Questo articolo esplora come questi strumenti possano essere analizzati criticamente attraverso l’iconografia, mettendo in luce le potenzialità e i limiti delle reti neurali.

Il discorso critico sui modelli generativi, siano questi di testo, immagini, video o altro, cade spesso in un’ingenua fallacia analogica. Tale fallacia può avere varie forme, ma proviamo a specificare quella che risulta essere più prominente. I large language models (LLM) e i text to image (TTI) sono architetture composte da diverse reti neurali, addestrate per simulare il comportamento umano nell’espressione del linguaggio e della produzione d’immagini o altri contenuti. Sebbene vi sia una sovrapposizione e un dialogo fra neuroscienze e ingegneria informatica, vi sono anche profonde differenze. Tali differenze derivano dal fatto che attualmente ci sono molte cose che non sappiamo sulla neurologia dell’apprendimento, della percezione e dell’elaborazione di concetti. Come sottolineano Lev Manovich ed Emanuele Arielli, si tende ad attribuire un’agentività o una capacità sovraumana a questi modelli perché si conosce poco del sistema che essi simulano: la mente umana.

Un caso peculiare di questa prospettiva è rappresentato appunto da ingegneri informatici, che spesso proclamano dichiarazioni euforiche o disforiche rispetto alla natura senziente o quasi-biologica di questi modelli. D’altro canto c’è anche chi, come il filosofo Noam Chomsky, le reputa mere macchine statistiche. C’è poi la prospettiva di chi usa questi strumenti per scopi artistici, scandagliandone i limiti e le possibilità.

In questo testo ci occuperemo di un argomento particolare: com’è possibile fare una critica estetica di ciò che questi modelli fanno? Si è scelto di trattare in particolare il tema dell’iconografia, ovvero quella parte delle discipline storico-artistiche deputata all’analisi e scomposizione delle opere d’arte in soggetti, temi e unità culturali complesse, la quale ha uno specifico interesse per lo studio della relazione fra immagine e parola. L’iconografia, infatti, nasce come una tecnica per descrivere il contenuto di un’opera, e spesso la sua prassi consiste nel reperimento di fonti testuali che attestino il programma che sta dietro alla realizzazione di un’opera complessa.

L’iconografia di un’opera prodotta da un modello TTI presenta delle caratteristiche interessanti che altri media non posseggono. L’iconografia procede, in maniera non troppo dissimile dalla struttura della percezione visiva nel cervello umano e nei modelli neurali di riconoscimento visivo, per astrazioni successive. Le immagini vengono scomposte in parti di cui si riconoscono gli oggetti naturali o artificiali, poi si passa al raggruppamento di queste parti in unità di senso più complesse, come temi, allegorie, personificazioni. Si studiano inoltre: la serie sincronica di queste rappresentazioni, ad esempio analizzando le comunanze di stili su base geografica (una città, una bottega, una nazione) e la serie diacronica, ovvero come le rappresentazioni mutano nel corso del tempo e come gli stili vengono creati, rielaborati, abbandonati e ripresi.

Anche le reti neurali deputate al riconoscimento delle immagini procedono per una gerarchia di livelli di complessità e profondità crescenti. Il primo livello è la segmentazione semantica: si tracciano confini fra le varie parti, segue poi la classificazione e localizzazione degli oggetti, che li ritaglia dallo sfondo e li colloca in riquadri distinti. Infine, si studia la composizione complessiva dell’immagine con una segmentazione delle istanze degli oggetti (ad es. nell’immagine compaiono due esseri umani e una panchina).

Si può quindi affermare che l’analisi iconografica e il riconoscimento artificiale d’immagini siano per certi versi simili. In sostanza l’iconografia non è altro che una percezione visiva più dettagliata, nella quale l’insieme delle figure viene composto in unità che hanno significato solo se si riconosce un certo codice visivo (ad es. una donna con una bilancia è personificazione della giustizia). Essi sono però diversi sotto altri punti di vista: il riconoscimento delle immagini è una tecnica che nasce da esigenze militari e mediche, come il raffinamento dei dispositivi di puntamento, la profilazione e lo studio di malattie neurologiche da risonanze magnetiche funzionali. Date queste premesse risulterà chiaro che è possibile addestrare una rete neurale per identificare temi e soggetti, e perfino stili, influenze e serie storiche, creando di fatto il modello della percezione di un critico. Invertendo il processo si dà la possibilità di generare immagini secondo le categorie apprese durante la fase di addestramento per il riconoscimento: questo è ciò che fanno i TTI.

Come genera immagini un TTI?

Le premesse per l’esistenza di un TTI coinvolgono varie innovazioni mediali e tecnologiche. Innanzitutto ci deve essere un archivio digitale di immagini e testi. Questo archivio deve essere organizzato in categorie e sottocategorie. Poi ci deve essere l’elaborazione di un metodo di ricerca in questo archivio – e qui entrano in gioco gli algoritmi di ranking (motori di ricerca) e di riconoscimento per immagini. Infine si deve creare un modello in grado di comprendere il linguaggio naturale e un modello che connetta due strutture semantiche diverse – parole e immagini – all’interno dello stesso spazio concettuale. Il linguaggio, la struttura alfabetica, la stampa a caratteri mobili, la fotografia, il cinema e i calcolatori digitali sono compresi in questa serie storica che culmina nei TTI. Ma, in questa serie ci sono anche innovazioni stilistiche ed estetiche e non a caso Lev Manovich parla di archivio come forma simbolica e di poetica dei frammenti in rifermento allo stile delle TTI. L’origine estetica delle TTI proviene dalle avanguardie artistiche del ‘900, oltre che dalle tecnologie menzionate precedentemente. Da un punto di vista molto astratto, i TTI operano con frammenti, o tokens, ovvero unità minime d’immagini e testi, espressi come punti in uno spazio vettoriale a n dimensioni. Per certi versi, le TTI operano in una linea estetica che comprende puntinismo, arte astratta e dadaismo. Nel puntinismo un’immagine viene scomposta e ricomposta come insieme di macchie colorate, nel dadaismo, frammenti di testo e immagini vengono ricomposti aleatoriamente, nell’arte astratta, si estraggono figure geometriche e colori dalla percezione sensibile per ricomporli secondo un codice visivo. C’è anche una componente surrealista, che, come vedremo a breve, afferisce alla caratteristica di operare con vettori di parole e immagini in uno spazio compresso, detto spazio latente, che viene assimilato all’inconscio freudiano.

Per spiegare cosa fa un TTI, propongo due metafore: il taumatropio e la mappa-puzzle. Il taumatropio è un antenato del cinema: si tratta di quei dischetti tondi con due figure (ad esempio un uccello e una gabbia) una per verso, che permettono, se mossi velocemente da una cordicella, di creare nella percezione un effetto di sovrapposizione. Il taumatropio è un archivio digitale, dato che contiene un bit d’informazione. Sebbene ci sia un solo bit (ad es. uccello = 0, gabbia = 1), la messa in moto del taumatropio genera un continuum d’intersezioni fra le due immagini, che però collassa, nella percezione, in un’immagine composita. I TTI sono una specie di taumatropio molto complicato, composto non solo da milioni di immagini, ma da frammenti d’immagini (tokens) e frammenti di testo e da raggruppamenti fra questi. Digitando un prompt io chiedo al modello di selezionare una serie di taumatropi e li metto in movimento: il risultato è un caos o casualità controllata guidata dalle mie parole.

Continua a leggere l’articolo su L’indiscreto.



Artness
Se questo articolo ti è piaciuto o lo hai ritenuto interessante,
iscriviti alla nostra newsletter gratuita!

Rimani aggiornato con le tendenze del mercato dell’arte italiano e internazionale

ISCRIVITI ALLA NEWSLETTER
Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Related Posts




Artness è un progetto di Thetis SRL
Ufficio operativo: Via Oliveti, 110 Centro Direzionale Olidor 54100 Massa (MS) Tel. +39 0585 091214 P.IVA 01020100457
Sede commerciale: Via Mengoni, 4 20121 Milano (MI) Tel. +39 02 40741330
E-mail: info@artness.it


Privacy Policy | Cookie Policy