banner

Blog

Dec 03, 2023

3 domande: in che modo i generatori di immagini AI potrebbero aiutare i robot

Immagine precedente Immagine successiva

I generatori di immagini AI, che creano panorami fantastici all'intersezione tra sogno e realtà, ribollono in ogni angolo del web. Il loro valore di intrattenimento è dimostrato da un tesoro in continua espansione di immagini stravaganti e casuali che fungono da portali indiretti per il cervello dei designer umani. Un semplice suggerimento testuale produce un'immagine quasi istantanea, soddisfacendo il nostro cervello primitivo, che è programmato per una gratificazione immediata.

Sebbene apparentemente nascente, il campo dell’arte generata dall’intelligenza artificiale può essere fatto risalire agli anni ’60 con i primi tentativi di utilizzare approcci simbolici basati su regole per creare immagini tecniche. Mentre la progressione dei modelli che districano e analizzano le parole ha acquisito una crescente sofisticazione, l’esplosione dell’arte generativa ha scatenato il dibattito su copyright, disinformazione e pregiudizi, il tutto impantanato in clamori e controversie. Yilun Du, uno studente di dottorato presso il Dipartimento di ingegneria elettrica e informatica e affiliato al Laboratorio di informatica e intelligenza artificiale (CSAIL) del MIT, ha recentemente sviluppato un nuovo metodo che rende modelli come DALL-E 2 più creativi e consentono una migliore comprensione della scena. Qui, Du descrive come funzionano questi modelli, se questa infrastruttura tecnica può essere applicata ad altri domini e come tracciamo il confine tra intelligenza artificiale e creatività umana.

Q: Le immagini generate dall'intelligenza artificiale utilizzano modelli chiamati "diffusione stabile" per trasformare le parole in immagini sorprendenti in pochi istanti. Ma per ogni immagine utilizzata, di solito c'è un essere umano dietro. Allora qual è il confine tra intelligenza artificiale e creatività umana? Come funzionano realmente questi modelli?

UN: Immagina tutte le immagini che potresti ottenere su Ricerca Google e i relativi modelli associati. Questa è la dieta con cui si nutrono queste modelle. Sono addestrati su tutte queste immagini e sulle relative didascalie per generare immagini simili ai miliardi di immagini viste su Internet.

Diciamo che una modella ha visto molte foto di cani. È addestrato in modo tale che quando riceve un messaggio di input di testo simile come "cane", è in grado di generare una foto che assomiglia molto alle numerose immagini di cani già viste. Ora, più metodologicamente, il modo in cui tutto questo funziona risale a una classe di modelli molto antica chiamata "modelli basati sull'energia", originaria degli anni '70 o '80.

Nei modelli basati sull'energia viene costruito un paesaggio energetico sulle immagini, utilizzato per simulare la dissipazione fisica per generare immagini. Quando si lascia cadere un punto di inchiostro nell'acqua e questo si dissolve, ad esempio, alla fine, si ottiene semplicemente questa trama uniforme. Ma se provi a invertire questo processo di dissipazione, gradualmente ritroverai il punto di inchiostro originale nell'acqua. Oppure diciamo che hai questa torre di blocchi molto intricata e, se la colpisci con una palla, crolla in una pila di blocchi. Questa pila di blocchi è quindi molto disordinata e non c'è molta struttura. Per resuscitare la torre, puoi provare a invertire questo processo di piegatura per generare la pila di blocchi originale.

Il modo in cui questi modelli generativi generano immagini è molto simile, dove, inizialmente, hai questa immagine davvero bella, dove inizi da questo rumore casuale, e fondamentalmente impari come simulare il processo di come invertire questo processo di andare dal rumore all'immagine originale, dove provi a perfezionare iterativamente questa immagine per renderla sempre più realistica.

In termini di quale sia il confine tra intelligenza artificiale e creatività umana, si può dire che questi modelli sono realmente formati sulla creatività delle persone. Internet offre tutti i tipi di dipinti e immagini che le persone hanno già creato in passato. Questi modelli sono addestrati a ricapitolare e generare le immagini che sono state su Internet. Di conseguenza, questi modelli sono più simili a cristallizzazioni di ciò su cui le persone hanno dedicato la loro creatività per centinaia di anni.

CONDIVIDERE