Le opere d’arte generate dall’intelligenza artificiale stanno silenziosamente iniziando a rimodellare la cultura. Negli ultimi anni, la capacità dei sistemi di apprendimento automatico di generare immagini a partire da suggerimenti testuali è aumentata notevolmente in termini di qualità, precisione ed espressione. Ora questi strumenti stanno uscendo dai laboratori di ricerca per arrivare nelle mani degli utenti di tutti i giorni, dove stanno creando nuovi linguaggi visivi di espressione e, molto probabilmente, nuovi tipi di problemi.

Si pensa che attualmente esistano solo poche decine di IA che generano immagini di alto livello. La loro creazione è complicata e costosa, in quanto richiede l’accesso a milioni di immagini utilizzate per addestrare il sistema (che cerca modelli nelle immagini e li copia) e una grande quantità di risorse computazionali (i cui costi variano, ma il prezzo di un milione di dollari non è fuori questione).

Al momento, i risultati di questi sistemi sono per lo più trattati come una novità, quando vengono pubblicati sulla copertina di una rivista o su un sito web. utilizzati per generare meme. Ma mentre parliamo, artisti e designer stanno integrando questo software nel loro flusso di lavoro e, in breve tempo, l’arte generata e aumentata dall’IA sarà ovunque. Le questioni relative al copyright (chi è il proprietario dell’immagine? Chi l’ha fatta?) e ai potenziali pericoli (come la produzione distorta o la disinformazione generata dall’IA) dovranno essere affrontate rapidamente.

Mentre la tecnologia si diffonde, tuttavia, un’azienda potrà prendersi il merito della sua ascesa: un laboratorio di ricerca di 10 persone chiamato Midjourney, che produce un generatore di immagini IA omonimo. a cui si accede attraverso un server di chat Discord. Anche se il nome non vi è familiare, probabilmente avrete già visto i risultati del sistema di Midjourney circolare sui vostri social media. Per generare la propria, basta entrare nel Discord di Midjourney, digitare una richiesta e il sistema crea un’immagine per voi.

“Molte persone ci chiedono: perché non fate un’app per iOS che vi faccia un’immagine?”. Il fondatore di Midjourney, David Holz, ha detto a The Verge in un’intervista. “Ma la gente vuole creare cose insieme, e se lo fai su iOS, devi creare il tuo social network. Ed è piuttosto difficile. Quindi, se si vuole un’esperienza sociale propria, Discord è davvero fantastico”.

Registrandovi per un account gratuito, otterrete 25 crediti, con tutte le immagini generate nelle chat pubbliche. Dopodiché dovrete pagare: 10 o 30 dollari al mese, a seconda del numero di immagini che volete creare e del fatto che siano private o meno.

Questa settimana, però, Midjourney sta ampliando l’accesso al suo modello, permettendo a chiunque di creare il proprio server Discord con il proprio generatore di immagini AI. “Stiamo passando da un universo Midjourney a un universo Midjourney. multiverso“, come dice Holz. E pensa che i risultati saranno incredibili: un’esplosione di creatività potenziata dall’intelligenza artificiale che è ancora solo la punta dell’iceberg.

Per saperne di più sulle ambizioni di Holz con Midjourney, sul perché sta costruendo un “motore per l’immaginazione” e sul perché pensa che l’IA sia più simile all’acqua che a una tigre, gli abbiamo chiesto un’intervista. E, naturalmente, abbiamo chiesto a Midjourney di illustrare la nostra conversazione.

Questa intervista è stata condensata e leggermente modificata per chiarezza.

Sarebbe bello iniziare parlando un po’ di te e di Midjourney. Qual è il tuo background? Come sei arrivato in questa scena? E cos’è Midjourney – un’azienda, una comunità? Come la descriveresti?

Mi chiamo David Holz e credo di essere un imprenditore seriale. La mia storia è breve: Avevo un’attività di design alle superiori. Ho frequentato l’università in fisica e matematica. Stavo lavorando a un dottorato di ricerca in meccanica dei fluidi mentre lavoravo alla NASA e a Max Planck. A un certo punto sono stato sopraffatto e ho messo da parte tutte queste cose. Così mi sono trasferito a San Francisco e ho fondato un’azienda tecnologica chiamata Leap Motion intorno al 2011. Abbiamo venduto questi dispositivi hardware che eseguivano la cattura del movimento sulle mani, inventando in un certo senso lo spazio delle interfacce gestuali.

Ho fondato Leap Motion e l’ho gestita per 12 anni, [but] alla fine ho cercato un ambiente diverso da quello di una grande azienda sostenuta da venture e ho lasciato l’azienda per fondare Midjourney. Al momento è piuttosto piccola: siamo circa 10 persone, non abbiamo investitori e non siamo molto motivati finanziariamente. Non siamo sotto pressione per vendere qualcosa o per diventare una società pubblica. Si tratta solo di avere una casa per i prossimi 10 anni per lavorare su progetti interessanti che contano – si spera non solo per me, ma per il mondo – e per divertirci.

Stiamo lavorando su molti progetti diversi. Sarà un laboratorio di ricerca ampio e diversificato. Ma ci sono dei temi: cose come la riflessione, l’immaginazione e la coordinazione. E quello per cui stiamo iniziando a diventare famosi è la creazione di immagini. E non pensiamo che si tratti di arte o di creazione di deepfakes, ma di come espandere i poteri immaginativi della specie umana. E cosa significa? Cosa significa quando i computer sono più bravi del 99% degli esseri umani nell’immaginazione visiva? Questo non significa che smetteremo di immaginare. Le automobili sono più veloci degli esseri umani, ma questo non significa che abbiamo smesso di camminare. Quando spostiamo grandi quantità di cose su grandi distanze, abbiamo bisogno di motori, che si tratti di aerei, barche o automobili. E noi vediamo questa tecnologia come un motore per l’immaginazione. Si tratta quindi di un aspetto molto positivo e umanistico.

Prompt: “Un disegno tecnico dettagliato che illustra un rivoluzionario ‘motore per l’immaginazione'”.
Immagine: The Verge / Midjourney

Molti laboratori e aziende stanno lavorando a tecnologie simili che trasformano il testo in immagini. Google ha Imagen, OpenAI ha DALL-E, e ci sono una manciata di progetti più piccoli come Craiyon. Da dove è nata questa tecnologia, dove la vedete andare in futuro e in che modo la visione di Midjourney si differenzia da quella di altri operatori del settore?

Quindi, ci sono state due scoperte [in AI that led to image generation tools]. Una è la comprensione del linguaggio e l’altra è la capacità di creare immagini. E quando si combinano queste cose, si possono creare immagini attraverso la comprensione del linguaggio. Abbiamo visto che queste tecnologie stanno nascendo, e abbiamo visto le tendenze – che queste saranno più brave delle persone a creare immagini – e saranno molto veloci. Entro il prossimo anno o due, sarà possibile creare contenuti in tempo reale: 30 fotogrammi al secondo, ad alta risoluzione. Sarà costoso, ma sarà possibile. Poi, tra 10 anni, si potrà acquistare una Xbox con un gigantesco processore AI e tutti i giochi saranno dei sogni.

Dal punto di vista della tecnologia, questi sono solo fatti, e non c’è modo di aggirarli. Ma da un punto di vista umano, cosa diavolo significa? “Tutti i giochi sono sogni, e tutto è malleabile, e avremo cuffie AR” – che diavolo significa? Quindi l’elemento umanistico è piuttosto insondabile. E il software necessario per renderlo un oggetto che possiamo maneggiare è completamente fuori dalla mappa, e credo che il software sia un po’ troppo complesso per essere utilizzato. che sia il nostro obiettivo.

Prompt: “Una Xbox con un gigantesco processore AI e tutti i giochi sono sogni”.
Immagine: The Verge / Midjourney

Abbiamo iniziato a testare la tecnologia grezza nel settembre dell’anno scorso e abbiamo scoperto subito cose molto diverse. Abbiamo scoperto molto rapidamente che la maggior parte delle persone non sa cosa vuole. Voi dite: “Ecco una macchina con cui puoi immaginare qualsiasi cosa: cosa vuoi?”. E loro rispondono: “Un cane”. E tu: “Davvero?” e loro: “Cane rosa”. Quindi si dà loro l’immagine di un cane, e loro dicono “ok” e poi vanno a fare qualcos’altro.

Se invece li mettete in gruppo, loro diranno “cane” e qualcun altro dirà “cane spaziale” e qualcun altro ancora “cane spaziale azteco”, e tutto d’un tratto le persone capiscono le possibilità, e si crea questa immaginazione aumentata, un ambiente in cui le persone possono imparare e giocare con questa nuova capacità. Abbiamo scoperto che alle persone piace molto immaginare insieme, e così abbiamo realizzato [Midjourney] sociale. Abbiamo una comunità Discord gigantesca, una delle più grandi, con circa un milione di persone che immaginano insieme in questi spazi condivisi.

Vede questo collettivo umano come parallelo al collettivo delle macchine? Come una sorta di contrappeso a questi sistemi di intelligenza artificiale?

Beh, non c’è un vero e proprio collettivo di macchine. Ogni volta che si chiede all’IA di fare un’immagine, essa non ricorda o non conosce nulla di ciò che ha fatto. Non ha volontà, non ha obiettivi, non ha intenzione, non ha capacità di raccontare storie. Tutto l’ego, la volontà e le storie – siamo noi. È come un motore. Un motore non ha un posto dove andare, ma le persone hanno dei posti dove andare. È una specie di mente alveare di persone, superpotenziata dalla tecnologia.

All’interno della comunità, ci sono un milione di persone che creano immagini e che si riffano l’un l’altro e, per impostazione predefinita, tutti possono vedere le immagini degli altri. Per uscire dalla comunità bisogna pagare un extra – e di solito, se lo si fa, significa che si è un qualche tipo di utente commerciale. Quindi tutti si fregano l’un l’altro e ci sono tutte queste nuove estetiche. È quasi un accelerazionismo estetico. E tutte queste cose stanno nascendo e girano vorticosamente, e non sono estetiche dell’IA. Sono nuove, interessanti estetiche umane che credo si diffonderanno nel mondo.

Prompt: “Una comunità di un milione di esseri umani, la cui immaginazione è aumentata dall’intelligenza artificiale”.
Immagine: The Verge / Midjourney

Questa apertura aiuta anche a mantenere le cose sicure? Perché si discute molto del fatto che i generatori di immagini dell’intelligenza artificiale vengano usati per generare materiale potenzialmente dannoso, sia che si tratti di immagini chiaramente negative – gore e violenza – sia che si tratti di disinformazione. Come si fa a impedire che ciò accada?

Sì, è incredibile. Quando metti il nome di qualcuno su tutte le foto che fa, è molto più disciplinato nell’uso che ne fa. Questo aiuta molto.

Detto questo, a volte abbiamo avuto qualche problema, perché purtroppo, per come funzionano i social media in ogni altro luogo, ci si può guadagnare da vivere suscitando indignazione, e c’è una motivazione per cui alcune persone entrano nella comunità, pagano per la privacy, poi passano un mese a cercare di creare le immagini shock più oltraggiose e terrificanti possibili, e poi cercano di pubblicarle su Twitter. A quel punto, dobbiamo mettere i piedi in testa e dire: “Non è questo il nostro scopo; non è questo il tipo di comunità che vogliamo”.

Ogni volta che lo vediamo, lo stronchiamo. Se necessario, vietiamo le parole. Abbiamo raccolto parole per cose come ultragore fotorealistico, e abbiamo bandito ogni parola nel raggio di un miglio.

Che dire dei volti realistici, perché questo è un altro vettore per creare disinformazione. Il modello genera volti realistici?

Genera volti di celebrità e cose del genere. Ma in genere non lo facciamo: abbiamo uno stile e un look predefiniti, che sono artistici e belli, ed è difficile da spingere. [the model] , il che significa che non è possibile forzarlo a fare un deepfake in questo momento. Forse, se si passano 100 ore a provarci, si può trovare una combinazione di parole che la faccia sembrare davvero realistica, ma bisogna lavorare sodo per farla assomigliare a una foto. Personalmente, non credo che il mondo abbia bisogno di altri deepfake, ma ha bisogno di cose più belle, quindi ci stiamo concentrando per rendere tutto bello e artistico.

Prompt: “Manifesto di propaganda dell’epoca sovietica che avverte dei pericoli di un’intelligenza artificiale malvagia”.
Immagine: The Verge / Midjourney

Da dove hai preso i dati di addestramento del modello?

I nostri dati di addestramento provengono più o meno dallo stesso posto di tutti gli altri, cioè da Internet. Ogni grande modello di intelligenza artificiale prende tutti i dati che può, tutti i testi che può, tutte le immagini che può. Dal punto di vista scientifico, siamo in una fase iniziale del settore, in cui tutti prendono tutto quello che possono, lo scaricano in un file enorme e lo incendiano per addestrare qualche cosa di enorme, e nessuno sa ancora quali dati nel mucchio contano davvero.

Così, per esempio, il nostro ultimo aggiornamento ha reso tutto molto, molto più bello, e si potrebbe pensare che l’abbiamo fatto inserendo un sacco di dipinti… [into the training data]. Ma non è così: abbiamo semplicemente utilizzato i dati degli utenti in base a ciò che piaceva alle persone. [with the model]. Non c’è stata alcuna arte umana. Ma dal punto di vista scientifico siamo molto, molto in anticipo. L’intero spazio ha formato forse solo due dozzine di modelli come questo. Si tratta quindi di scienza sperimentale.

Quanto è costato addestrare il vostro?

Non posso parlare dei nostri costi specifici, ma posso dire qualcosa di generale. L’addestramento dei modelli di immagine costa probabilmente circa 50.000 dollari ogni volta che lo si fa. E non si riesce mai a farlo in un solo tentativo, quindi bisogna fare tre tentativi, o 10 tentativi, o 20 tentativi, e ne servono molti, quindi il conto torna. È costoso. È più di quanto la maggior parte delle università potrebbe spendere, ma non è così costoso da richiedere un miliardo di dollari o un supercomputer.

Sono certo che i costi si ridurranno sia per l’addestramento che per la gestione. Ma il costo di gestione è in realtà piuttosto elevato. Ogni immagine costa. Ogni immagine viene generata su un server da 20.000 dollari, che dobbiamo affittare al minuto. Credo che non sia mai esistito un servizio per i consumatori che utilizza migliaia di trilioni di operazioni nell’arco di 15 minuti senza pensarci. Probabilmente con un fattore 10, direi che è più calcolo di qualsiasi altra cosa toccata dal consumatore medio. È davvero pazzesco.

Parlando di dati di addestramento, un aspetto controverso è la questione della proprietà. L’attuale legge statunitense dice non è possibile tutelare il diritto d’autore sull’arte generata dall’IA, ma non sappiamo se le persone possono rivendicare il diritto d’autore sulle immagini utilizzate nei dati di addestramento. Artisti e designer lavorano duramente per sviluppare uno stile particolare, ma cosa succede se il loro lavoro può essere copiato dai bot AI? Avete avuto molte discussioni in merito?

Abbiamo molti artisti nella comunità, e direi che sono universalmente positivi riguardo allo strumento, e pensano che li renderà molto più produttivi e migliorerà molto le loro vite. E noi parliamo costantemente con loro e chiediamo: “Stai bene? Ti senti bene?”. Facciamo anche queste ore d’ufficio in cui mi siedo a voce per quattro ore con circa 1.000 persone e rispondo alle loro domande.

Molti degli artisti famosi che usano la piattaforma dicono tutti la stessa cosa, ed è davvero interessante. Dicono: “Sento che Midjourney è uno studente d’arte, ha il suo stile e quando si invoca il mio nome per creare un’immagine, è come chiedere a uno studente d’arte di creare qualcosa”. ispirato dalla mia arte. E in generale, come artista, voglio che le persone siano ispirate dalle cose che faccio”.

Ma c’è sicuramente un enorme pregiudizio di autoselezione in atto, perché gli artisti che sono attivi nella Midjourney Discord sono per forza quelli che ne saranno entusiasti. E che dire delle persone che dicono: “È una stronzata; non voglio il mio arte per essere divorata da queste enormi macchine”. Permetterebbe a queste persone di eliminarsi dal suo sistema?

Non abbiamo ancora un processo per questo, ma siamo aperti a questo. Finora direi che non ci sono molti artisti. Non è un set di dati così profondo. E quelli che sono riusciti a entrare ci hanno risposto “non ci sentiamo intimiditi da questo”. In questo momento è così nuovo che credo abbia senso giocare d’anticipo ed essere dinamici. Quindi parliamo costantemente con le persone. E in effetti, la richiesta numero uno che ci viene fatta dagli artisti è che vogliono che sia migliore a rubare i loro stili, in modo da poterli usare come parte del loro flusso artistico ancora meglio. E questo mi ha sorpreso.

Potrebbe essere diverso per altri [AI image] generatori, perché cercano di far assomigliare qualcosa alla stessa cosa. Ma noi abbiamo più uno stile predefinito, per cui sembra davvero che uno studente d’arte si sia ispirato a qualcos’altro. E il motivo per cui lo facciamo è che abbiamo sempre dei valori predefiniti, quindi se dite “cane”, potremmo darvi la foto di un cane, ma è noioso. Da un punto di vista umano, perché mai dovresti volerlo? Basta andare a cercare le immagini su Google. Quindi cerchiamo di dare un aspetto artistico alle cose.

È un aspetto che hai menzionato più volte nel corso della nostra conversazione – lo stile artistico predefinito di Midjourney – e mi affascina molto l’idea che ogni generatore di immagini dell’intelligenza artificiale sia un microcosmo di cultura, con le proprie preferenze ed espressioni. Come descriverebbe lo stile particolare di Midjourney e come lo ha sviluppato consapevolmente?

[Laughing] È un po’ ad hoc! Proviamo un sacco di cose e ogni volta che ne proviamo una nuova, produciamo un migliaio di immagini. E non c’è un’intenzione precisa. Dovrebbe avere un aspetto generalmente bello. Dovrebbe rispondere a cose specifiche e a cose vaghe. Vogliamo assolutamente che non assomigli alle foto. Potremmo creare una versione realistica a un certo punto, ma non vorremmo che fosse l’impostazione predefinita. Le foto perfette mi mettono un po’ a disagio in questo momento, anche se potrei capire le ragioni legittime per cui si potrebbe volere qualcosa di più realistico.

Penso che lo stile sarebbe un po’ stravagante e astratto e strano, e tende a mescolare le cose in modi che non si chiederebbero, in modi che sono sorprendenti e belli. Tende a usare molti blu e arancioni. Ha alcuni colori preferiti e alcune facce preferite. Se gli si dà un’istruzione molto vaga, deve andare verso i suoi preferiti. Quindi, non sappiamo perché accade, ma c’è un particolare volto di donna che gli piace disegnare – non sappiamo da dove provenga, da uno dei nostri 12 set di dati di addestramento – ma la gente lo chiama semplicemente “Miss Journey”. C’è poi il volto di un uomo, piuttosto squadrato e imponente, che compare ogni tanto, ma non ha ancora un nome. Ma è come un artista che ha i suoi volti e i suoi colori.

Prompt: “Un ritratto ad olio della signorina Journey”.
Immagine: The Verge / Midjourney

Parlando di questo tipo di impostazioni predefinite, una grande sfida nell’ambito della generazione di immagini è la gestione dei pregiudizi. C’è ricerca che dimostra che se si chiede a un modello di immagine AI di disegnare un amministratore delegato, l’amministratore delegato è sempre un uomo bianco, mentre quando si chiede di disegnare un’infermiera, l’infermiera è sempre una donna e spesso una persona di colore. Come avete affrontato questa sfida? È un grosso problema per Midjourney o è più preoccupante per le aziende che vogliono monetizzare questi sistemi?

Beh, Miss Journey è sicuramente più un problema che una caratteristica, e ora stiamo lavorando a qualcosa che cercherà di spezzare le facce e dare più varietà. Ma ci sono anche degli aspetti negativi. Ad esempio, avevamo una versione che distruggeva completamente Miss Journey, ma se volevate davvero, ad esempio, Arnold Schwarzenegger nei panni di Danny DeVito, allora avrebbe distrutto completamente la richiesta. [too]. La cosa difficile è far funzionare questo sistema senza cancellare interi generi espressivi. Perché è molto facile avere un interruttore che aumenta la diversità, ma è difficile che si accenda solo quando dovrebbe.

Quello che posso dire è che non è mai stato così facile creare un’immagine con qualsiasi diversità si voglia: basta usare la parola. Sei sempre a una sola parola di distanza dal creare, sai – ad esempio, stavo giocando con “maghi cyberpunk africani”, ed è bellissimo, ed è fottutamente figo, e tutto quello che mi serviva era una parola per dire al modello quello che volevi.

Allora, per tornare un po’ indietro, hai parlato molto del fatto che non vedi il lavoro che stai facendo in Midjourney come, diciamo, pratico. Voglio dire, è ovviamente molto pratico, ma la tua motivazione è più astratta: riguarda il rapporto tra gli esseri umani e l’IA; come possiamo usare l’IA in modo umanistico, come dici tu. Alcune persone nello spazio dell’IA tendono a pensare a questa tecnologia nei termini più grandiosi possibili; la paragonano agli dei, alla vita senziente. Lei cosa ne pensa?

Per un po’ di tempo ho cercato di capire “che cosa è [Midjourney’s AI image generator]?” Perché si può dire che è come un motore per l’immaginazione, ma c’è anche qualcos’altro. La prima tentazione è quella di guardarlo attraverso la lente dell’arte. Chiedersi: è come l’invenzione della fotografia? Perché quando è stata inventata la fotografia, i dipinti sono diventati più strani perché chiunque può fotografare un volto, quindi perché dovrei dipingere quel quadro ora?

Ed è così? No, non è così. È decisamente più strano. In questo momento è come l’invenzione di un motore: stai producendo un mucchio di immagini al minuto e stai percorrendo la strada dell’immaginazione, ed è una bella sensazione. Ma se si prende un altro passo nel futuro, dove invece di fare quattro immagini alla volta, ne fai 1.000 o 10.000, è diverso. E un giorno l’ho fatto: Ho scattato 40.000 immagini in pochi minuti e, all’improvviso, ho avuto davanti a me un’enorme quantità di natura – tutte queste creature e ambienti diversi – e mi ci sono volute quattro ore solo per guardarla tutta, e durante questo processo mi sono sentito come se stessi annegando. Mi sentivo come un bambino piccolo, che guardava nel fondo di una piscina, sapendo di non saper nuotare e avendo la sensazione della profondità dell’acqua. E all’improvviso, [Midjourney] non mi sentivo come un motore, ma come un torrente d’acqua. Mi ci sono volute alcune settimane per metabolizzare la cosa, ci ho pensato e ripensato, e ho capito che – sapete cosa? – questa è davvero acqua.

In questo momento, le persone fraintendono completamente cosa sia l’IA. La vedono come una tigre. Una tigre è pericolosa. Potrebbe mangiarmi. È un avversario. Anche l’acqua è pericolosa – si può annegare – ma il pericolo di un fiume d’acqua che scorre è molto diverso da quello di una tigre. L’acqua è pericolosa, sì, ma ci si può anche nuotare, si possono costruire barche, si può arginare e produrre elettricità. L’acqua è pericolosa, ma è anche un motore della civiltà e noi stiamo meglio come esseri umani che sanno come vivere e lavorare con l’acqua. È un’opportunità. Non ha volontà, non ha dispetto e sì, ci si può annegare, ma questo non significa che dovremmo bandire l’acqua. E quando si scopre una nuova fonte d’acqua, è davvero una buona cosa.

E Midjourney è una nuova fonte d’acqua?

[Laughing] Sì, è un po’ spaventoso se lo dici in questo modo.

Penso che noi, collettivamente come specie, abbiamo scoperto una nuova fonte d’acqua, e quello che Midjourney sta cercando di capire è: ok, come possiamo usarla per le persone? Come insegniamo alle persone a nuotare? Come costruiamo le barche? Come la arginiamo? Come possiamo passare da persone che hanno paura di annegare a bambini che in futuro faranno surf sull’onda? Stiamo costruendo tavole da surf piuttosto che acqua. E credo che ci sia qualcosa di profondo in questo.

Prompt: “Un’illustrazione astratta ma dettagliata che raffiguri l’intelligenza artificiale come l’acqua: una forza potente che può essere sfruttata per il bene o per il male”.
Immagine: The Verge / Midjourney

Source link