Il CTO di Microsoft Germania, Andreas Braun, ha confermato che GPT-4 arriverà entro una settimana dal 9 marzo 2023 e che sarà multimodale. L’intelligenza artificiale multimodale significa che sarà in grado di operare all’interno di molteplici tipi di input, come video, immagini e suoni.
Modelli linguistici multimodali di grandi dimensioni
Il grande vantaggio dell’annuncio è che GPT-4 è multimodale (SEJ ha previsto che GPT-4 sarà multimodale nel gennaio 2023).
La modalità è un riferimento al tipo di input che (in questo caso) tratta un modello di linguaggio di grandi dimensioni.
Il multimodale può comprendere testo, parlato, immagini e video.
GPT-3 e GPT-3.5 funzionavano solo in una modalità, testo.
Secondo il notiziario tedesco, GPT-4 potrebbe essere in grado di operare in almeno quattro modalità, immagini, suono (uditivo), testo e video.
Il Dr. Andreas Braun, CTO Microsoft Germania è citato:
“Introdurremo GPT-4 la prossima settimana, lì avremo modelli multimodali che offriranno possibilità completamente diverse – per esempio video…”
Il rapporto mancava di specifiche per GPT-4, quindi non è chiaro se ciò che è stato condiviso sulla multimodalità fosse specifico per GPT-4 o solo in generale.
Il direttore della strategia aziendale di Microsoft Holger Kenn ha spiegato le multimodalità, ma il rapporto non era chiaro se si riferisse alla multimodalità GPT-4 o alla multimodalità in generale.
Credo che i suoi riferimenti alla multimodalità fossero specifici per GPT-4.
La notizia ha condiviso:
“Kenn ha spiegato di cosa tratta l’IA multimodale, che può tradurre il testo non solo di conseguenza in immagini, ma anche in musica e video.”
Un altro fatto interessante è che Microsoft sta lavorando su “metriche di fiducia” per fondare la propria intelligenza artificiale con fatti per renderla più affidabile.
Microsoft Kosmo-1
Qualcosa che apparentemente è stato sottostimato negli Stati Uniti è che Microsoft ha rilasciato un modello di linguaggio multimodale chiamato Kosmos-1 all’inizio di marzo 2023.
Secondo quanto riportato dal sito di notizie tedesco, Heise.de:
“…il team ha sottoposto il modello pre-addestrato a vari test, con buoni risultati nella classificazione delle immagini, rispondendo a domande sul contenuto dell’immagine, etichettatura automatica delle immagini, riconoscimento ottico del testo e attività di generazione vocale.
…Il ragionamento visivo, cioè trarre conclusioni sulle immagini senza utilizzare il linguaggio come passaggio intermedio, sembra essere una chiave qui…”
Kosmos-1 è un modale multimodale che integra le modalità del testo e delle immagini.
GPT-4 va oltre Kosmos-1 perché aggiunge una terza modalità, il video, e sembra includere anche la modalità del suono.
Funziona in più lingue
GPT-4 sembra funzionare in tutte le lingue. Viene descritto come poter ricevere una domanda in tedesco e rispondere in italiano.
Questo è un esempio strano perché, chi farebbe una domanda in tedesco e vorrebbe ricevere una risposta in italiano?
Questo è quanto è stato confermato:
“…la tecnologia è arrivata così lontano che praticamente “funziona in tutte le lingue”: puoi fare una domanda in tedesco e ottenere una risposta in italiano.
Con la multimodalità, Microsoft (-OpenAI) “renderà i modelli completi”.
Credo che il punto della svolta sia che il modello trascende il linguaggio con la sua capacità di trasferire la conoscenza attraverso lingue diverse. Quindi se la risposta è in italiano lo saprà e potrà fornire la risposta nella lingua in cui è stata posta la domanda.
Ciò lo renderebbe simile all’obiettivo dell’IA multimodale di Google chiamata MUM. Si dice che la mamma sia in grado di fornire risposte in inglese per le quali i dati esistono solo in un’altra lingua, come il giapponese.
Applicazioni GPT-4
Al momento non è stato annunciato dove verrà visualizzato GPT-4. Ma Azure-OpenAI è stato specificamente menzionato.
Google sta lottando per raggiungere Microsoft integrando una tecnologia concorrente nel proprio motore di ricerca. Questo sviluppo esacerba ulteriormente la percezione che Google sia in ritardo e manchi di leadership nell’IA rivolta ai consumatori.
Google integra già l’intelligenza artificiale in più prodotti come Google Lens, Google Maps e altre aree in cui i consumatori interagiscono con Google. Questo approccio consiste nell’utilizzare l’intelligenza artificiale come tecnologia assistiva, per aiutare le persone in piccoli compiti.
Il modo in cui Microsoft lo sta implementando è più visibile e di conseguenza sta catturando tutta l’attenzione e rafforzando l’immagine di Google che si agita e fatica a recuperare il ritardo.
Leggi il rapporto originale tedesco qui:
GPT-4 arriverà la prossima settimana e sarà multimodale, afferma Microsoft Germania
Immagine in primo piano di Shutterstock/Master1305