DALL-E 2, che cos’è

Francesca Dalla Mora

3 Febbraio 2023
9 min read

Indice

Come funziona DALL-E
Ispirato dal cervello
Il lato “cartoon” della creatività umana
Tecniche e risultati a confronto
Onore al processo creativo
Agire, non pensare
Il pensiero diretto della IA
Pensieri finali: ancora un’esperienza umana

Le immagini spesso affascinanti create dall’ultima generazione di generatori text-to-image, esemplificate da DALL-E 2, Midjourney e Stable Diffusion, hanno suscitato molto scalpore sia nel mondo delle arti che in quello dell’IA. Le immagini, generate da semplici istruzioni di testo assomigliano molto ai prodotti della creatività umana intelligente.

Per esplorare quanto siano creativi questi modelli e cosa possano insegnarci sulla natura delle nostre propensioni innovative, leggiamo il pensiero di quattro autorità sull’intelligenza artificiale. Tutti ci spiegano cosa pensano delle capacità e del potenziale artistico di DALL-E.

Come funziona DALL-E

DALL-E inizia prendendo miliardi di bit di testo da Internet e traducendoli in un’astrazione, che memorizza in una posizione in uno spazio “latente” o logico.

Anche le immagini vengono lette da Internet e vengono associate alle loro didascalie e trasposte nelle stesse aree logiche. Quindi, il testo e le relative descrizioni delle immagini, sebbene ancora distinti, si trovano da forti associazioni vicine l’una all’altra. Ciò consente a DALL-E di trovare i tipi di immagini negli spazi indicati dal prompt di testo dell’utente. Quindi genera una serie di funzionalità chiave che ha appreso che questa immagine potrebbe includere.

Nel nostro esempio di “koala in aeroplano”, presenterebbe caratteristiche per il koala, ad esempio il colore della sua pelliccia, le sue braccia e mani simili a quelle di altri mammiferi marsupiali, o la forma della sua testa, così come le caratteristiche di un aeroplano, ad esempio il missile con le ali. Quindi, DALL-E distribuisce quello che viene chiamato un modello di diffusione, che inizia con il rumore statico e poi scolpisce i pixel in un modo informato dalla rappresentazione latente della descrizione del testo, costruendo così immagini uniche ogni volta che il programma viene eseguito.

Il primo modello di diffusione è stato inventato a Stanford nel 2015 da Jascha Sohl-Dickstein, ora ricercatore nel gruppo Brain di Google. Sette anni fa, quando Sohl-Dickstein era un studente di post dottorato, con il direttore del laboratorio, Surya Ganguli, “stavano esplorando idee nella termodinamica di non equilibrio”, dice Ganguli. “Quel lavoro ha portato all’idea che si potrebbe invertire il flusso del tempo in un processo di diffusione che trasforma i dati in rumore addestrando una rete neurale, che potrebbe quindi trasformare il rumore in dati”, dice Ganguli.

Ispirato dal cervello

Isaac Kauvar, studente di post-dottorato interdisciplinare del Wu Tsai Neurosciences Institute, indica due analogie tra il modo in cui DALL-E genera le sue immagini e il modo in cui gli artisti umani creativi creano le loro.

Il più ovvio è che DALL-E è costruito attorno a un’architettura software nota come “rete neurale” che nel concetto, se non nel dettaglio, imita la composizione dei neuroni del cervello, ognuno dei quali ha connessioni con molti altri. Queste connessioni possono essere rafforzate o indebolite durante l’apprendimento, formando così modelli significativi di associazioni.

Inoltre, “ad alto livello, il modo in cui DALL-E costruisce immagini dal proprio spazio latente non è del tutto dissimile dal modo in cui il cervello umano potrebbe memorizzare e identificare i concetti e quindi tradurli in output”, afferma Kauvar. Questi concetti astratti ci aiutano a collegare, ad esempio, la parola koala a una serie di diverse associazioni e immagini: alberi di eucalipto, recinti di zoo, foresta australiana.

Il lato “cartoon” della creatività umana

Il neuroscienziato, affiliato all’Istituto Wu Tsai Neuro, e scrittore David Eagleman concorda sul fatto che modelli come DALL-E hanno almeno una cosa in comune con l’intelligenza umana: funzionano “assorbendo molti esempi e quindi generando nuove cose basate sulla loro combinazione e ricombinazione. Anche le persone creative assorbono il mondo, generano remix e poi creano versioni completamente nuove“.

Ma, quando si tratta di creatività, dice Eagleman, “ciò che manca a questi generatori di immagini è almeno altrettanto importante di ciò che condividono con noi. Cioè, non hanno alcun modo di filtrare ciò che è buono, per non parlare di ciò che è profondo o bello.”

Tecniche e risultati a confronto

Eagleman definisce il modo in cui i generatori di immagini imparano e producono arte “una versione cartoon” del modo in cui gli esseri umani fanno queste cose. Per essere pienamente creativa, una persona o una macchina creativa dovrebbe essere in grado di filtrare quelle cose nuove e selezionare le più risonanti e rilevanti in base a criteri umani. “DALL-E non può farlo. Produce una novità verso il basso, ma non il filtraggio, la selettività. Dovrebbe imparare cosa significa essere una persona prima di poter filtrare in base a criteri umani, prima di poter sapere se o perché gli umani apprezzerebbero un particolare disegno”.

“Queste IA sono così impressionanti“, dice Eagleman, “ma non stanno facendo quello che fa il cervello umano. Niente affatto. Usano tecniche molto diverse per ottenere risultati stranamente simili e spesso meravigliosi. Ma la cosa più interessante potrebbe essere il modo in cui qualcosa di così diverso da un essere umano possa ottenere risultati così impressionanti”.

Onore al processo creativo

Paul Kauvar, che è un artista visivo, sottolinea un’altra differenza fondamentale tra il modo in cui funziona DALL-E e il modo in cui molte persone lo fanno. “Quando disegno”, dice, “è un processo iterativo. Di solito non so dove andrò a finire. Per prima cosa ottengo qualcosa e questo ispira l’iterazione successiva, e questo ispira la successiva, e così via. DALL-E, d’altra parte, determina cosa disegnare e poi va direttamente a fare quella cosa in una volta sola e in pochi secondi. DALL-E può produrre rapidamente molte varianti, ma si affida a un essere umano per valutarle o modificarle”.

L’importanza di onorare il processo nell’atto umano del fare arte è qualcosa che identificano anche Michele Elam e William Robertson Coe Professore alla facoltà dell’Institute for Human-Centered Artificial Intelligence. Inoltre, riconoscono una differenza fondamentale tra la creatività di un essere umano e quella di una macchina. Gli artisti apprezzano il processo creativo, considerandolo una parte fondamentale dell’atto di creazione e persino essenziale per il significato dell’opera stessa.

“L’idea che qualcosa come DALL-E possa ‘liberare la tua creatività’ semplicemente rendendo più veloce e semplice ottenere un prodotto utilizzabile suggerisce che gli artisti sono gravati dal pensiero, dalla riflessione, dall’esperienza, dalla cura e dal tempo che vanno nel loro lavoro“, dice. “Ma per molti artisti, il significato del lavoro è un’espressione di quegli sforzi, di quel processo, non incidentale per loro.”

Agire, non pensare

Il neuroscienziato computazionale Manish Saggar, anche lui affiliato al Wu Tsai Neuro e affiliato HAI e assistente professore di psichiatria e scienze comportamentali, ha studiato la creatività umana e il cervello per più di un decennio. In un articolo del 2017 su Cerebral Cortex, ha scoperto che una qualità misurabile di un cervello in uno stato altamente creativo è la disattivazione simultanea di una porzione prefrontale destra della corteccia e la maggiore connettività tra molte regioni disparate del cervello. Questa maggiore connettività include la comunicazione tra la corteccia e il cervelletto che, tra le altre cose, dice Saggar, può essere pensato come l’unità di elaborazione grafica del cervello, o GPU.

“È come se la CPU e le sue inibizioni si stessero spegnendo e la GPU stesse prendendo il controllo del lavoro creativo”. Nella misura in cui ciò è come un ritiro dal controllo esecutivo rigoroso e un passaggio a un processo più distribuito e basato sull’immagine, potrebbe essere sostanzialmente analogo a ciò che fa DALL-E, dice Saggar.

Il team di Saggar ha anche scoperto che la maggior parte delle persone straordinariamente creative hanno una forte propensione verso l’azione. Non pensano solo (o anche principalmente, all’inizio) a ciò che potrebbero disegnare; prendono semplicemente carta e penna e iniziano a disegnare. “Pensa di meno, fai di più” è un buon consiglio che induce alla creatività, dice Saggar.

Il pensiero diretto della IA

Allo stesso modo, un modello text-to-image può essere così generativo forse perché non sta cercando di forzare aspettative preconcette e applicare approcci tradizionali a un problema. E’ semplicemente alla ricerca di associazioni modellate. DALL-E non pensa affatto, lo fa e basta.

Ma ad un certo punto, sostiene Eagleman, per completare il processo creativo, bisogna impiegare quello che lui chiama “il filtro umano” per identificare tra tutte quelle cose nuove le migliori e poi, di tanto in tanto, continuare a lavorare con una cosa nuova preferita fino a quando non diventa anche una cosa veramente grande. Per quanto sorprendenti e impressionanti siano questi potenti generatori di testo-immagine, non sono ancora vicini ad essere artisti in quel senso pienamente creativo.

Quando si sono paragonati DALL-E con GPT-3, sono emerse le differenze tra creatività umana e intelligenza artificiale. “Un modo importante in cui gli umani sono ancora più bravi a generare nuove idee è che gli umani hanno emozioni. Le emozioni aiutano a identificare quali idee sono buone e quali sono cattive. Danno la motivazione per perseguire alcune idee e non altre”.

Pensieri finali: ancora un’esperienza umana

Come il cervello umano, DALL-E può generalizzare da idee o suggerimenti specifici a reti di associazione più ampie, permettendogli di creare immagini convincenti basate sulla sua “esperienza”. E può anche combinare concetti in modi che ci sembrano divertenti o creativi. Le abbiamo chiesto di mettere il koala su un aeroplano nel cielo, per esempio, e di ritrarlo nello stile di Pablo Picasso; ha creato un koala spigoloso, ottagonale in un cielo fatto di sole e nuvolette color neve.

Ma ci sono un paio di cose centrali per la creatività umana che mancano ancora a DALL-E. Intanto, non ha alcuna valutazione emotiva di ciò che rende un’immagine importante, nuova, divertente o significativa. Forse correlato a questo è che DALL-E non ha un processo artistico esteso. Per gli artisti umani, questo processo è centrale: provare le cose, valutarle, iterare alla versione successiva o all’idea successiva per scoprire o concentrarsi sull’impeto dell’artista per fare l’arte in primo luogo.

Per queste ragioni, la piena creatività rimane, almeno per ora, nel regno dell’umano. Forse è per questo che i migliori prodotti di DALL-E riflettono una partnership tra il generatore di immagini algoritmico e la creatività, la selettività e l’intuizione di un creatore o artista umano che lo sta maneggiando.