Gemini è sorprendente, ma anche un segnale che il clamore per l’IA forse ha toccato il suo massimo

07/12/2023 19:20
Gemini è sorprendente, ma anche un segnale che il clamore per l’IA forse ha toccato il suo massimo
Sundar Pichai, Ceo Google

Il modello di Google supera il GPT-4 in quasi tutti gli aspetti, ma solo di poco. Ne è valsa la pena? La prima reazione degli esperti è più quella di una nuova release dell’iPhone. Una prima analisi di MIT Technology Review

Sono mesi che si parla di Gemini, la tanto attesa risposta di Google DeepMind al GPT-4 di OpenAI. Il 7 dicembre l'azienda ha finalmente rivelato ciò a cui ha lavorato in segreto per tutto questo tempo. Il clamore era giustificato? Se lo è chiesto MIT Technology Review, il media della prestigiosa università americana, in un commento di Melissa Heikkilä e Will Douglas Heaven. E lo loro risposta è stata: Sì e no.

"Il modello è intrinsecamente più capace", ha dichiarato Sundar Pichai, CEO di Google e della sua società madre Alphabet, a MIT Technology Review. "È una piattaforma. L'intelligenza artificiale è un cambiamento profondo della piattaforma, più grande del web o della telefonia mobile. E quindi rappresenta un grande passo per noi".

È un grande passo per Google, sostengono gli autori, ma non necessariamente un passo da gigante per il settore nel suo complesso. Google DeepMind sostiene che Gemini supera GPT-4 in 30 su 32 misure standard di prestazioni. Eppure, i margini tra i due sono sottili. Google DeepMind ha riunito le migliori capacità attuali dell'intelligenza artificiale in un unico potente pacchetto. A giudicare dalle dimostrazioni, fa molte cose molto bene, ma poche cose che non abbiamo mai visto prima. Con tutto il clamore che c'è per la prossima grande novità, Gemini potrebbe essere il segno che abbiamo raggiunto il picco del clamore sull'IA. Almeno per ora.

Gemini è multimodale

Chirag Shah, professore dell'Università di Washington specializzato nella ricerca online, paragona il lancio alla presentazione di un nuovo iPhone da parte di Apple ogni anno. "Forse siamo saliti a una soglia diversa, in cui non ci si impressiona più di tanto perché abbiamo già visto molto", afferma.

Come il GPT-4, Gemini è multimodale, addestrato a gestire diversi tipi di input: testo, immagini, audio. Può combinare questi diversi formati per rispondere a domande su qualsiasi argomento, dalle faccende domestiche alla matematica universitaria, all'economia.

In una dimostrazione per i giornalisti, il 7 dicembre, Google ha mostrato la capacità di Gemini di prendere una schermata esistente di un grafico, analizzare centinaia di pagine di ricerca con nuovi dati e quindi aggiornare il grafico con le nuove informazioni. In un altro esempio, a Gemini viene mostrata l'immagine di un'omelette che cuoce in una padella e viene chiesto (usando il parlato, non il testo) se l'omelette è già cotta. La risposta è: "Non è pronta, perché le uova sono ancora sode".

La maggior parte delle persone, tuttavia, dovrà aspettare per avere un'esperienza completa. La versione lanciata finora è un back end di Bard, il chatbot di ricerca testuale di Google, che secondo l'azienda avrà capacità di ragionamento, pianificazione e comprensione più avanzate. Il rilascio completo di Gemini sarà scaglionato nei prossimi mesi. Il nuovo Bard potenziato da Gemini sarà inizialmente disponibile in inglese in oltre 170 Paesi, esclusi l'UE e il Regno Unito. Questo per consentire all'azienda di "impegnarsi" con le autorità di regolamentazione locali, ha dichiarato Sissie Hsiao, vicepresidente di Google responsabile del Bard.

Più grande, migliore, più veloce, più forte?

Il modello più potente di OpenAI, GPT-4, è considerato il gold standard del settore. Sebbene Google si sia vantata del fatto che Gemini supera il modello precedente di OpenAI, GPT 3.5, i dirigenti dell'azienda hanno evitato di rispondere alle domande su quanto il modello superi il GPT-4. Ma l'azienda sottolinea un benchmark in particolare, chiamato MMLU (massive multitask language understanding). Si tratta di una serie di test progettati per misurare le prestazioni dei modelli su compiti che coinvolgono testo e immagini, tra cui la comprensione della lettura, la matematica universitaria e i quiz a scelta multipla di fisica, economia e scienze sociali. Nelle domande di solo testo, Gemini ha ottenuto un punteggio del 90%, mentre gli esperti umani hanno ottenuto circa l'89%, ha dichiarato Pichai. Il GPT-4 ottiene l'86% su questo tipo di domande. Nelle domande multimodali, Gemini ottiene un punteggio del 59%, mentre GPT-4 del 57%. "È il primo modello a superare questa soglia", afferma Pichai.

Le prestazioni di Gemini rispetto ai set di dati di riferimento sono davvero impressionanti, afferma Melanie Mitchell, ricercatrice di intelligenza artificiale presso il Santa Fe Institute del New Mexico

"È chiaro che Gemini è un sistema di intelligenza artificiale molto sofisticato", afferma Mitchell. Ma "non mi sembra ovvio concludere che Gemini sia sostanzialmente più capace di GPT-4", aggiunge.

Sebbene il modello abbia ottenuto buoni punteggi di benchmark, è difficile sapere come interpretare questi numeri dato che non sappiamo cosa c'è nei dati di addestramento, afferma Percy Liang, direttore del Centro di ricerca sui modelli di fondazione di Stanford.

Mitchell osserva inoltre che Gemini si comporta molto meglio su benchmark linguistici e di codice che su immagini e video. "I modelli di fondazione multimodali hanno ancora molta strada da fare per essere generalmente e solidamente utili per molti compiti", afferma.

Utilizzando il feedback dei tester umani, Google DeepMind ha addestrato Gemini a essere più preciso nei fatti, a dare un'attribuzione quando gli viene chiesto di farlo e a non rispondere in modo insensato quando si trova di fronte a una domanda a cui non può rispondere. L'azienda sostiene che ciò attenua il problema delle allucinazioni. Ma senza una revisione radicale della tecnologia di base, i grandi modelli linguistici continueranno a inventare cose non vere.

"Google pubblicizza Gemini come una macchina universale, un modello di uso generale che può essere utilizzato in molti modi diversi", afferma Emily Bender, docente di linguistica computazionale all'Università di Washington. Ma l'azienda sta usando dei benchmark ristretti , "Ciò significa che non è possibile valutarli in modo approfondito", afferma Bender.

In definitiva, per l'utente medio, il miglioramento incrementale rispetto ai modelli concorrenti potrebbe non fare molta differenza, afferma Shah. "È più una questione di convenienza, di riconoscimento del marchio, di integrazione esistente, che di persone che pensano davvero 'Oh, questo è meglio'", dice Shah.

Una lunga e lenta crescita

Gemini ha avuto una lunga gestazione. Nell'aprile del 2023, Google ha annunciato la fusione dell'unità di ricerca sull'intelligenza artificiale Google Brain con DeepMind, il laboratorio di ricerca sull'intelligenza artificiale di Alphabet con sede a Londra. Così Google ha avuto tutto l'anno per sviluppare la sua risposta al modello linguistico più avanzato di OpenAI, GPT-4, che ha debuttato a marzo ed è la spina dorsale della versione a pagamento di ChatGPT.

Google ha subito forti pressioni per dimostrare agli investitori di essere in grado di eguagliare e superare i concorrenti nel campo dell'IA. Sebbene l'azienda sviluppi e utilizzi da anni potenti modelli di IA, ha esitato a lanciare strumenti con cui il pubblico possa giocare per timore di danni alla reputazione e problemi di sicurezza.

"Google è stata molto cauta nel rilasciare queste cose al pubblico", ha dichiarato Geoffrey Hinton al MIT Technology Review in aprile, quando ha lasciato l'azienda. "Ci sono troppe cose brutte che potrebbero accadere e Google non voleva rovinare la sua reputazione". Di fronte a una tecnologia che sembrava inaffidabile o non commercializzabile, Google ha giocato d'anticipo, fino a quando il rischio maggiore è stato quello di non riuscire a farcela.

Google ha imparato a sue spese come il lancio di prodotti difettosi possa ritorcersi contro. Quando a febbraio ha presentato il suo concorrente ChatGPT Bard, gli scienziati si sono subito accorti di un errore di fatto nella pubblicità dell'azienda per il chatbot, un incidente che ha poi fatto perdere 100 miliardi di dollari al valore di borsa del suo titolo azionario.

A maggio Google ha annunciato l'introduzione dell'intelligenza artificiale generativa nella maggior parte dei suoi prodotti, dalle e-mail ai software di produttività. Ma i risultati non hanno impressionato i critici: il chatbot ha fatto riferimenti a e-mail che non esistevano, per esempio.

Questo è un problema costante dei modelli linguistici di grandi dimensioni. Sebbene siano eccellenti nel generare testi che sembrano scritti da un essere umano, i sistemi di intelligenza artificiale generativa inventano regolarmente. E questo non è l'unico problema. Sono anche facili da hackerare e pieni di pregiudizi. Inoltre, il loro utilizzo è altamente inquinante per le emissioni di CO2 legate all’energia impiegata.

Google non ha risolto né questi problemi né quello delle allucinazioni. La soluzione a quest'ultimo problema è uno strumento che consente alle persone di utilizzare la ricerca di Google per verificare le risposte del chatbot, ma che si basa sull'accuratezza dei risultati della ricerca online stessa.

Gemini potrebbe essere l'apice di questa ondata di IA generativa. Ma non è chiaro quale sarà il prossimo passo : anzi, alcuni ricercatori ritengono che questo potrebbe essere un plateau piuttosto che la base del prossimo picco.

Pichai non si scoraggia. "Guardando al futuro, vediamo molto spazio ancora", dice a MIT Technology Review, "Penso che la multimodalità sarà importante. Man mano che insegneremo a questi modelli a ragionare di più, ci saranno progressi sempre più grandi. E le scoperte più profonde sono ancora di là da venire. "Quando considero la totalità di tutto questo, mi sembra davvero che siamo all'inizio".


Informativa Privacy  -  Informativa Cookie