L’Allen Institute for AI (AI2), la divisione dell’Allen Institute senza scopo di lucro che si occupa di ricerca sull’apprendimento automatico, ha pubblicato oggi il suo lavoro su un sistema di IA, chiamato Unified-IO, che sostiene di essere tra i primi a svolgere una serie “ampia e diversificata” di compiti di IA. Unified-IO è in grado di elaborare e creare immagini, testi e altri dati strutturati, un’impresa che, secondo il team di ricerca, rappresenta un passo avanti verso la costruzione di sistemi di IA generici e unificati.

“Siamo interessati a costruire sistemi di intelligenza artificiale [AI systems]che possono consentire ai professionisti di addestrare [machine learning] modelli per nuovi compiti con poca o nessuna conoscenza dei macchinari sottostanti”, ha dichiarato via e-mail a TechCrunch Jaisen Lu, ricercatore di AI2 che ha lavorato a Unified-IO. “Queste architetture unificate alleviano la necessità di parametri specifici per le attività e di modifiche al sistema, possono essere addestrate congiuntamente per eseguire una grande varietà di attività e possono condividere le conoscenze tra le attività per aumentare le prestazioni”.

I primi sforzi di AI2 nella costruzione di sistemi di intelligenza artificiale unificati hanno portato a GPV-1 e GPV-2, due sistemi di “linguaggio di visione” di uso generale che supportavano una manciata di carichi di lavoro, tra cui la sottotitolazione di immagini e la risposta a domande. Secondo Lu, per realizzare Unified-IO è stato necessario tornare al tavolo da disegno e progettare un nuovo modello da zero.

Unified-IO ha caratteristiche in comune con il GPT-3 di OpenAI, nel senso che è un “Transformer”. A partire dal 2017, il Transformer è diventato l’architettura preferita per i compiti di ragionamento complessi, dimostrando un’attitudine a riassumere documenti, generare musica, classificare oggetti in immagini e analizzare sequenze di proteine.

Come tutti i sistemi di intelligenza artificiale, Unified-IO ha imparato con l’esempio, ingerendo miliardi di parole, immagini e altro sotto forma di token. Questi token servivano a rappresentare i dati in modo comprensibile per Unified-IO.

Unified-IO può generare immagini con una breve descrizione.

“La comunità dell’elaborazione del linguaggio naturale (NLP) ha avuto un grande successo nella costruzione di [AI systems] che supportano molti compiti diversi, poiché molti compiti NLP possono essere rappresentati in modo omogeneo – parole come input e parole come output. Ma la natura e la diversità delle attività di computer vision ha fatto sì che in passato i modelli multitask si limitassero a un piccolo insieme di compiti, e per lo più a compiti che producono output linguistici (risposta a una domanda, didascalia di un’immagine, ecc.)”, ha dichiarato in un’e-mail a TechCrunch Chris Clark, che ha collaborato con Lu a Unified-IO presso AI2. “Unified-IO dimostra che, convertendo una serie di output strutturati diversi come immagini, maschere binarie, bounding box, set di punti chiave, mappe in scala di grigi e altro ancora in sequenze omogenee di token, possiamo modellare una serie di compiti classici della computer vision in modo molto simile a come modelliamo i compiti in NLP”.

A differenza di alcuni sistemi, Unified-IO non può analizzare o creare video e audio, una limitazione del modello “dal punto di vista della modalità”, ha spiegato Clark. Ma tra i compiti di Unified-IO può sono la generazione di immagini, il rilevamento di oggetti all’interno di immagini, la stima della profondità, la parafrasi di documenti e l’evidenziazione di regioni specifiche all’interno di foto.

“Questo ha enormi implicazioni per la computer vision, poiché inizia a trattare modalità diverse come le immagini, le maschere, il linguaggio e i riquadri di delimitazione come semplici sequenze di token, simili al linguaggio”. Clark ha aggiunto. “Inoltre, l’unificazione su questa scala può ora aprire le porte a nuove strade nella computer vision, come il pre-training massivo unificato, il trasferimento di conoscenza tra i compiti, l’apprendimento a pochi colpi e altro ancora”.

Matthew Guzdial, assistente alla cattedra di informatica dell’Università di Alberta che non è stato coinvolto nella ricerca di AI2, è stato riluttante a definire Unified-IO una svolta. Ha osservato che il sistema è paragonabile a Gato di DeepMind, un modello singolo in grado di eseguire oltre 600 compiti, dai giochi al controllo di robot.

“La differenza [between Unified-IO and Gato] è ovviamente che si tratta di una serie di compiti diversi, ma anche che questi compiti sono in gran parte molto più utilizzabili. Con questo intendo dire che ci sono casi d’uso chiari e attuali per le cose che questa rete Unified-IO può fare, mentre Gato poteva per lo più solo giocare. Questo rende più probabile che Unified-IO o un modello simile abbia un impatto sulla vita delle persone in termini di potenziali prodotti e servizi”, ha detto Guzdial. “La mia unica preoccupazione è che, sebbene la demo sia appariscente, non c’è alcuna nozione di quanto sia efficace in questi compiti rispetto ai modelli addestrati su questi singoli compiti separatamente. Dato che Gato ha ottenuto risultati inferiori ai modelli addestrati sui singoli compiti, mi aspetto che la stessa cosa si verifichi in questo caso”.

Unificato-IO

Unified-IO è anche in grado di segmentare le immagini, anche con schiarite impegnative.

Tuttavia, i ricercatori di AI2 considerano Unified-IO una solida base per il lavoro futuro. Hanno in programma di migliorare l’efficienza del sistema, aggiungendo il supporto per altre modalità, come l’audio e il video, e scalandolo per migliorare le prestazioni.

“Lavori recenti come Imagen e DALL-E 2 hanno dimostrato che, con un numero sufficiente di dati di addestramento, i modelli… possono essere addestrati per produrre risultati molto impressionanti. Tuttavia, questi modelli supportano solo un compito”, ha detto Clark. “Unified-IO può permetterci di addestrare modelli multitask su larga scala. La nostra ipotesi è che l’aumento delle dimensioni dei dati e dei modelli produrrà risultati nettamente migliori”.

Source link