Proprio ora è uscito il Gemini 3.1 Pro! Yao Shunyu della Tsinghua University lo ha promosso e Karpathy ha dichiarato: “L’era degli app store è finita”.

3 Marzo 2026

Dopo aver vissuto il momento più imbarazzante all'AI Summit in India, il CEO di Google Sundar Pichai si è voltato e ha annunciato ufficialmente l'ultimo modello, Gemini 3.1 Pro, questa mattina presto.

Il tempismo è stato impeccabile, incredibilmente preciso (doge).

▲I CEO di OpenAI e Anthropic si sono rifiutati di stringersi la mano durante una sessione fotografica, alzando invece i pugni.

Sebbene siano trascorsi solo pochi giorni dall'aggiornamento Gemini 3 Deep Think della scorsa settimana, Google ha reso molto chiaro il posizionamento del 3.1 Pro: è progettato per attività in cui "una risposta semplice è ben lungi dall'essere sufficiente", fungendo da base fondamentale per risolvere problemi complessi.

Come di consueto, un aggiornamento alla versione 0.1 comporta solitamente piccole modifiche. Tuttavia, nel benchmark ARC-AGI-2, che testa la capacità di un modello di risolvere pattern logici completamente nuovi, la versione 3.1 Pro ha ottenuto il 77,1%, più del doppio rispetto alla precedente generazione 3 Pro (31,1%), e ha anche superato Opus 4.6 di Anthropic (68,8%) e GPT-5.2 di OpenAI (52,9%).

In altri ambiti, il punteggio GPQA Diamond per la conoscenza scientifica è stato del 94,3%, mentre i benchmark MCP Atlas e BrowseComp per gli agenti intelligenti hanno ottenuto rispettivamente il 69,2% e l'85,9%.

In termini di capacità di programmazione, il benchmark di programmazione competitivo LiveCodeBench Pro ha ottenuto un punteggio Elo di 2887, superando i 2439 del 3 Pro e i 2393 del GPT-5.2. Nel test SWE-Bench Verified, il 3.1 Pro ha ottenuto un punteggio dell'80,6%, eguagliando sostanzialmente l'80,8% dell'Opus 4.6.

Naturalmente, il 3.1 Pro non è perfetto sotto ogni aspetto.

Nel benchmark multimodale MMMU Pro, la precedente generazione 3 Pro ha ottenuto risultati leggermente migliori (81,0% contro 80,5%); in Humanity's Last Exam con il supporto degli strumenti abilitato, Opus 4.6 si è classificato al primo posto con il 53,1%. Gli strumenti di Google sono stati a lungo criticati per essere meno efficienti rispetto ai suoi concorrenti, e questa volta non è ancora riuscita a mettere a tacere del tutto queste critiche.

Artificial Analysis, una nota società di analisi di terze parti, ha fornito una valutazione piuttosto oggettiva.

Il 3.1 Pro si è classificato al primo posto nel loro indice di intelligenza, con un punteggio di 4 punti superiore a quello di Opus 4.6; l'intero test ha utilizzato circa 57 milioni di token e il costo per completarlo è stato inferiore alla metà rispetto a Opus 4.6. Altamente efficiente e conveniente, questa combinazione è piuttosto interessante.

Jeff Dean, capo scienziato di Google DeepMind, ha anche condiviso un'applicazione che utilizza 3.1 Pro per simulare la pianificazione urbana e progettare nuove città, generando da zero una demo dell'interfaccia di pianificazione interattiva.

Il blog ufficiale di Google ha presentato diverse altre applicazioni quotidiane. Per quanto riguarda l'animazione del codice, la versione 3.1 Pro può generare direttamente SVG dinamici basati su prompt di testo. Poiché viene generata esclusivamente da codice anziché da pixel, la qualità rimane invariata indipendentemente dal ridimensionamento e le dimensioni del file sono significativamente inferiori rispetto ai video tradizionali.

In termini di sistemi complessi, il modello accede direttamente ai flussi di dati di telemetria disponibili al pubblico, creando un pannello di strumenti spaziali che traccia l'orbita della Stazione Spaziale Internazionale in tempo reale.

Ancora più interessanti sono le due demo creative.

Una è una simulazione 3D di uno stormo di storni, che non solo genera codice visivo, ma supporta anche il controllo gestuale dello stormo ed è dotata di musica generata che cambia dinamicamente con lo stormo.

Un altro approccio consiste nel trasformare l'atmosfera letteraria di "Cime Tempestose" in un moderno sito web personale. Invece di limitarsi a riassumere la trama, il modello analizza il tono generale del romanzo e progetta uno stile di interfaccia che rispecchia il temperamento del protagonista.

Inoltre, gli utenti hanno fornito molti esempi impressionanti. Un utente ha fatto generare a Google 3.1 Pro un'animazione dinamica in loop SVG di un "cacciatore di fantasmi che viaggia attraverso una casa infestata", e il risultato è stato così sorprendente che l'utente ha commentato: "Questa volta Google fa sul serio".

Alcuni internauti credono anche che l'animazione interattiva del seme che spunta dal terreno, delle radici che si estendono, dello stelo che emerge, delle foglie che si aprono e infine della crescita in un albero completo, con ogni fase di crescita che si svolge in modo fluido e naturale, sia il migliore effetto simile che abbiano mai visto.

Anche Yao Shunyu, vincitore di un premio speciale del dipartimento di fisica dell'Università di Tsinghua, passato da Anthropic a Google DeepMind lo scorso anno, ha sostenuto Gemini, affermando: "Gemini non è solo un modello eccellente, ma modelli ancora migliori stanno arrivando in modo inarrestabile".

Naturalmente, tutte queste demo insieme parlano della stessa cosa: le cose che i modelli possono fare si sono espanse, passando dal semplice rispondere a domande al completamento di un'intera serie di flussi di lavoro professionali o creativi.
In termini di prezzo, l'API è suddivisa in livelli e rimane in linea con la precedente generazione 3 Pro, ma è comunque relativamente più economica della serie Anthropic Opus.

Per i token inferiori a 200.000, l'input è di 2 dollari per milione di token e l'output è di 12 dollari. Per i token superiori a 200.000, l'input aumenta a 4 dollari e l'output è di 18 dollari. La funzione di ricerca è gratuita per le prime 5.000 ricerche al mese, per poi costare 14 dollari ogni 1.000 ricerche successive.

Gli sviluppatori possono ora utilizzare AI Studio, Gemini API, Gemini CLI, la piattaforma di sviluppo di agenti intelligenti Google Antigravity e Android Studio; gli utenti aziendali possono utilizzare Vertex AI e Gemini Enterprise; e gli utenti generici possono utilizzare le applicazioni Gemini e NotebookLM, quest'ultimo disponibile solo con gli abbonamenti Pro e Ultra.

Vale la pena notare che la versione 3.1 Pro è attualmente solo una versione di anteprima. Molto probabilmente Google continuerà a perfezionare il flusso di lavoro dell'agente intelligente prima di rilasciare la versione ufficiale, dimostrando al mondo esterno che non ha ancora dato il massimo.

Per quanto riguarda cosa accadrebbe se questa capacità arrivasse a livello individuale, mi viene in mente un tweet appena pubblicato dal co-fondatore di OpenAI Andrej Karpathy:

Il suo obiettivo è abbassare la frequenza cardiaca a riposo da 50 a 45 entro 8 settimane, impostando un obiettivo di attività aerobica in Zona 2, abbinato a una sessione HIIT a settimana. Per monitorare i suoi progressi, ha dedicato un'ora alla creazione di una dashboard personalizzata utilizzando Vibe Coding.

Il processo si è rivelato più complicato del previsto. Claude ha dovuto effettuare il reverse engineering dell'API cloud del tapis roulant Woodway, estrarre i dati grezzi, elaborarli e filtrarli, e creare l'interfaccia web front-end. C'erano anche bug che dovevano essere individuati e corretti manualmente, come la combinazione di unità di misura metriche e imperiali e date di calendario non corrispondenti.

L'osservazione di Karpathy è stata acuta: due anni fa ci sarebbero volute 10 ore, ora ce ne vuole 1. Ma ciò che gli interessava di più era che ci sarebbe voluto solo 1 minuto.
Secondo la sua valutazione, il modello dell'app store sta diventando obsoleto.

Uno strumento personalizzato con 300 righe di codice e una libreria LLM generata in pochi secondi non deve necessariamente essere un'app completa da cercare e scaricare. Ha anche evidenziato un problema del settore: il 99% dei prodotti non dispone ancora di interfacce di comando AI native e continua a mantenere interfacce front-end leggibili dall'uomo invece di fornire API facili da chiamare per gli agenti.

Il tapis roulant Woodway è essenzialmente un sensore, ma richiede comunque un LLM per sottoporlo a reverse engineering, il che è del tutto superfluo.

Confrontando la demo di pianificazione urbana di Jeff Dean con la dashboard di Karpathy, emergono due facce della stessa medaglia. L'era in cui le persone comuni possono creare uno strumento altamente personalizzato in una sola ora, composto da sensori e attuatori basati sull'intelligenza artificiale, orchestrati da un LLM (Local Management Model) e generati spontaneamente in un'applicazione altamente personalizzata, è già a portata di mano.

Blog ufficiale allegato:
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

#Benvenuti a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il prima possibile.

ifanr | Link originale · Visualizza commenti · Sina Weibo