Over 10 years we help companies reach their financial and branding goals. Engitech is a values-driven technology agency dedicated.

Gallery

Contacts

411 University St, Seattle, USA

engitech@oceanthemes.net

+1 -800-456-478-23

AI Technology

Ecco perchè Google ci ha mentito sul Progetto Gemini 1.0

Lanciato da Google, Gemini è in grado di interpretare testi, immagini, audio, video e codice.

Lo scorso maggio, alla conferenza annuale degli sviluppatori, la Google I/O, il Ceo del colosso, Sundar Pichai, aveva accennato ad una «intelligenza artificiale di nuova generazione», limitandosi però a divulgarne il nome, lasciando a bocca asciutta la curiosità famelica di tutti i presenti alla conferenza.

Questa settimana, aggiungerei finalmente, Google ha posto un punto di fine all’attesa ansiosa di tutti gli esperti del settore (e non), lanciando a sorpresa il suo nuovo Large Language Model (LLM) Gemini 1.0, un modello di intelligenza artificiale capace lavorare con i testi, le immagini e i video.

Gemini è il risultato del lavoro corale dei più importanti centri di ricerca e sviluppo all’interno dell’ecosistema Alphabet, da DeepMind a Google Research, nonchè l’asso nella manica con cui Google andrà in netto vantaggio, rispetto a tutti i suoi rivali, nella corsa allo sviluppo dell’intelligenza artificiale.

Cos’è Gemini

Gemini 1.0 è il nome della prima generazione di un  nuovo modello di intelligenza artificiale, il LLM Gemini sviluppato da Google, che andrà a sostituire PaLM 2 (l’attuale modello alla base degli strumenti AI di Google, tra cui Bard). Essendo il nuovo arrivato destinato a diventare il “cervello” di Google Bard, risulta importante sottolineare la differenza che intercorre tra il LLM e il chatbot: Gemini è un modello linguistico, Large Language Model (LLM), che verrà utilizzato dal già conosciuto chatbot Google Bard, il prodotto che viene invece sviluppato e con cui l’utente finale interagisce. Gemini sarà quindi il “cervello” del chatbot, da cui dipenderanno le prestazioni del chatbot stesso.

Già introdotto, nella sua versione più leggera, in Google Bard in oltre 170 Paesi, il nuovo arrivato è subito diventato la star della scena facendo parlare di sè su tutti i media, in quanto, stando alle dichiarazioni di Google, le prestazioni di Gemini supererebbero quelle di GPT-4 di OpenAI.

Modello Multimodale

La prima caratteristiche fondamentale del nuovo modello di AI è il suo essere «multimodale», ovvero essere in grado di comprendere e operare attraverso diverse tipologie di informazioni. Non si parla solo di informazioni testuali e scritte, ma anche immagini, audio, video e addirittura codice. La seconda caratteristica importante è che è «flessibile» e dunque in grado di adattarsi al device che lo contiene, nell’ottica di ottimizzarne le funzioni.

Gemini 1.0 è stato testato su diversi parametri ed ha ottenuto un punteggio del 90 per cento nel test MMLU (massive multitask language understanding), che utilizza una combinazione di 57 materie (come matematica, fisica, storia o diritto) per valutare la conoscenza del mondo e le capacità di problem solving degli stromenti (giusto per avere un confronto, Gpt-4 aveva ottenuto un punteggio dell’86,4 per cento).

Tre versioni

Gemini 1.0 è stato lanciato in tre diversi formati: Gemini Ultra, Gemini Pro e Gemini Nano. Le tre varianti differiscono per capacità di risoluzione dei compiti assegnati, compatibilità con i dispositivi mobili e tempo necessario ad accuratezza della risposta.

Gemini Ultra è il modello più avanzato dei tre, costruito per svolgere i compiti più complessi. Nel test valutativo svolto da Google, i risultati hanno mostrato come Gemini Ultra abbia superato anche i risultati degli esperti umani.

Gemini Pro è il modello migliore, questo per quanto riguarda la scalabilità e per la diversificazione di compiti che può andare a svolgere.

“Abbiamo testato Gemini Pro attraverso una serie di benchmark standard del settore. In sei benchmark su otto, Gemini Pro ha sovraperformato GPT-3.5 , incluso MMLU (Massive Multitask Language Understanding), uno degli standard principali per la misurazione di grandi modelli di intelligenza artificiale”

Gemini Nano, il modello più piccolo, è pensato soprattutto per essere implementato sui dispositivi mobili, risulta personalizzato quindi sull’utente finale.

Il futuro di Bard

Gemini consentirà al chatbot di Google di dotarsi di potenzialità altamente superiori a quelle attuali.

Bard è il chatbot di intelligenza artificiale creati da Google in risposta al debutto di ChatGpt. Ad oggi è integrato nel motore di ricerca e risponde alle domande degli utenti sfruttando il patrimonio di informazioni disponibile in rete. Bard è stato fino ad ora basato sul modello di linguaggio PaLM2. Da oggi invece sfrutterà Gemini Pro e, dall’anno prossimo, ci sarà una nuova versione – Bard Advanced – basato su Gemini Ultra, che supporterà anche altre di interpretazione delle richieste e di risposta, inclusa la voce.


Ma sarà tutto vero quello che Google ci ha raccontato su Gemini 1.0?

Il caso della Demo fake

L’annuncio è stato accolto da un’ondata di polemiche dopo che un editoriale della testata Bloomberg ha affermato che la società ha modificato un po’ le carte in gioco riguardo le effettive capacità dell’LLM.

Nel video mostrato all’interno della presentazione della nuova AI, venivano mostrate le capacità multimodali di Gemini, tra cui la capacità di interpretare in tempo reale quanto viene mostrato dall’utente tramite fotocamera, “conversando” con quest’ultimo tramite testo e voce.

“Il video non è reale” è la prima segnalazione effettuata da Parmy Olson di Bloomberg su Twitter X. Google ha ammesso successivamente che la demo video non è avvenuta in tempo reale, ma al contrario, ha utilizzato fotogrammi di immagini fisse dal girato grezzo e ha poi scritto suggerimenti di testo a cui Gemini ha risposto. L’azienda di Mountain View ha dichiarato che il contenuto “mostra i risultati reali di Gemini. […] Abbiamo apportato alcune modifiche alla demo (ma siamo stati sinceri e trasparenti su questo)“.

Scopri di più

Welcome to Gemini era

Fonti

Geopop

Google lancia Gemini e sfida GPT-4: cosa potrà fare il nuovo modello di intelligenza artificiale

LOGIN: Corriere della Sera

Google presenta Gemini, un nuovo modello di intelligenza artificiale: è in grado di interpretare testi, immagini, audio, video e codice

Leave a comment

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *