I ricercatori di Apple hanno sviluppato un nuovo metodo per addestrare i grandi modelli linguistici (LLM) che integrano in modo fluido sia le informazioni testuali che visive.
I risultati della ricerca, presentati nel documento intitolato “MM1: Metodi, Analisi e Approfondimenti dalla Preparazione Multimodale dei LLM”, mostrano un approccio innovativo alla creazione di sistemi di intelligenza artificiale più intelligenti e flessibili. Utilizzando un dataset diversificato che comprende coppie immagine-didascalia, documenti intercalati immagine-testo e dati solo testuali, Apple sostiene che il modello MM1 stabilisca un nuovo standard nell’abilità dell’IA di eseguire compiti come la creazione di didascalie per le immagini, la risposta a domande visive e l’inferenza del linguaggio naturale con un alto livello di precisione.
La ricerca di Apple si concentra sulla combinazione di diversi tipi di dati di addestramento e architetture di modelli, consentendo all’IA di comprendere e generare linguaggio basato su una combinazione di indizi visivi e linguistici. Questa capacità è fondamentale per compiti che richiedono una comprensione sfumata del mondo, come l’interpretazione di immagini complesse o la risposta a domande che coinvolgono elementi visivi.
Il documento mette anche in evidenza le eccezionali capacità di apprendimento in contesto del modello MM1, in particolare nella configurazione più grande con 30 miliardi di parametri. Questa versione sembra mostrare capacità straordinarie per il ragionamento multi-step su più immagini utilizzando l’input di “chain-of-thought” con pochi esempi, una tecnica che consente all’IA di risolvere problemi complessi ed aperti basandosi su esempi minimi.
Questa ricerca emerge come parte dell’iniziativa più ampia di Apple per potenziare le sue capacità di intelligenza artificiale in mezzo a una crescente concorrenza. Ieri, Mark Gurman di Bloomberg ha riferito che Apple è in trattative con Google per ottenere la licenza dei grandi modelli linguistici generativi del colosso della ricerca, Gemini, per alimentare nuove funzionalità in arrivo sull’iPhone come parte di iOS 18.