La quota annuale supera i 20.000 dollari! Musk ha appena lanciato l’intelligenza artificiale più costosa del mondo: Grok 4 promette di schiacciare i dottorati di ricerca in tutti i campi.

Musk ha aspettato circa sei mesi per presentare Grok 4, ma alla fine lo ha fatto.

Questa volta, il suo tono era ancora piuttosto deciso. Ha fatto una dichiarazione audace prima del lancio, affermando che Grok 4 avrebbe "riscritto la base della conoscenza umana". Al lancio, Musk ha sottolineato ancora una volta che Grok 4 è attualmente l'IA più intelligente al mondo.

Sì, sapore familiare, ricetta familiare.

Naturalmente, tutti sono abituati a vedere Musk elogiare i propri prodotti, ma come hanno scherzato i netizen, si può ridere dei dipendenti di xAI che dormono in tende-ufficio o lavorano fino alle 4:20 del mattino nei fine settimana, ma bisogna ammettere che sono effettivamente uno dei laboratori di intelligenza artificiale in più rapida crescita.

Che Grok 4 possa essere definito "l'IA più intelligente" dipenderà dall'esperienza reale. Tuttavia, una cosa è certa: è diventata l'IA più costosa sul mercato, con un abbonamento annuale che può arrivare fino a 3.000 dollari. La strategia di prezzo è decisamente poco etica.

L'intelligenza artificiale più intelligente del mondo? L'intelligenza artificiale più costosa del mondo!

Il percorso di addestramento di Grok si divide in due fasi principali: pre-addestramento e apprendimento per rinforzo. Da Grok 2 a Grok 3, si basa principalmente sul pre-addestramento; mentre da Grok 3 a Grok 4, l'addestramento basato sull'apprendimento per rinforzo, con capacità di ragionamento come elemento centrale, viene ampiamente introdotto.

Musk ha minimizzato l'incidente, ma l'addestramento non è stato un'impresa da poco.

Rispetto a Grok 2, il calcolo dell'addestramento di Grok 4 è aumentato di due ordini di grandezza, equivalenti a un aumento di 100 volte, e continua ad espandersi.

Musk ha affermato che Grok 4 ha superato il livello di dottorato in tutte le principali discipline. Sebbene al momento non abbia la capacità di inventare nuove teorie o tecnologie originali, a suo avviso è solo questione di tempo.

Ha addirittura affermato che entro la fine dell'anno Grok potrebbe essere in grado di inventare nuove tecnologie e che l'anno prossimo sarà quasi certamente in grado di scoprire nuove leggi della fisica.

Naturalmente, la vera chiave è connettere l'intelligenza artificiale al mondo reale.

Ha affermato che la combinazione di Grok e del robot umanoide Optimus darà vita a un sistema di ragionamento a circuito chiuso, che propone ipotesi, le verifica e esplora la realtà. Questo inaugurerà un'era di esplosione di intelligenza e rappresenterà il nodo più entusiasmante della storia umana.

In termini di forma del prodotto, Grok 4 è un modello monoagente, mentre Grok 4 Heavy è una versione multiagente.

Il primo è più facile da comprendere, mentre il secondo consente a più agenti di pensare in parallelo, di condurre confronti orizzontali e collaborazioni verticali durante il processo di ragionamento e di ricorrere a risorse di elaborazione su larga scala per completare attività più complesse e sofisticate.

Durante la dimostrazione dal vivo, il Grok 4 Heavy ha dimostrato le sue capacità in molteplici scenari.

Ad esempio, supponiamo che Grok 4 Heavy preveda la probabilità di vincere le World Series MLB di quest'anno. Attraverso il recupero di informazioni, la modellazione dei dati e il calcolo delle probabilità, stima che la probabilità dei Los Angeles Dodgers di vincere il campionato sia del 21,6% e genera l'intero processo di previsione in 4,5 minuti.

Un altro esempio è un compito apparentemente assurdo: trovare la persona con l'avatar più strano nel team xAI. Basandosi sul database della piattaforma X, il modello ha automaticamente catturato e analizzato lo stile dell'avatar, selezionando infine il co-fondatore Greg Yang.

È interessante notare che, nonostante il modello comprenda accuratamente il concetto soggettivo di "strano" e possa esprimere giudizi relativi tra persone simili, quando ho sfogliato la demo mi è sembrato di vedere l'immagine del profilo del dipendente di Anthropic Jan Leike, quindi sembra che la precisione debba essere migliorata.

Oltre al ragionamento e alla ricerca, Grok può anche generare cronologie dei contenuti.

Ad esempio, basandosi sui post pubblici sulla piattaforma X, può analizzare i punteggi dei test di benchmark di diversi modelli di intelligenza artificiale, la frequenza degli aggiornamenti dei fornitori e le reazioni della community. Gli utenti possono visualizzare a colpo d'occhio le prestazioni di OpenAI, le iterazioni di aggiornamento di Gemini e persino la sottile situazione competitiva tra i modelli.

In altre parole, Grok non è un nerd che sa solo come sostenere gli esami, ma un'intelligenza artificiale che ha davvero la capacità di comprendere ed eseguire vari scenari.

Attualmente, il principale difetto di Grok è ancora la sua capacità di comprensione multimodale, soprattutto nella comprensione e generazione di immagini, che deve ancora essere potenziata. La buona notizia è che la prossima fase di addestramento dei modelli di base è in arrivo e si prevede che sarà completata tra poche settimane.

Durante la dimostrazione, quando ha testato il compito di visualizzazione del "processo di collisione di due buchi neri", Grok ha adottato un metodo di calcolo semplificato, utilizzando l'approssimazione post-newtoniana anziché il quadro completo della relatività generale.

Nonostante le semplificazioni, il modello presenta comunque accuratamente le fasi fisiche chiave delle fusioni di buchi neri, tra cui "avvicinamento a spirale", "fusione" e "fase di risonanza", e può spiegare chiaramente i metodi approssimativi utilizzati. Inoltre, utilizza anche libri di testo pertinenti, risultati di ricerche pubbliche e costanti fisiche reali per supportare il ragionamento, e la catena logica complessiva è rigorosa e la spiegazione chiara.

Anche per quanto riguarda i parametri della carta, Grok 4 ha fornito una risposta impressionante.

L'Ultimo Esame dell'Umanità (HLE) copre oltre 100 materie, tra cui matematica, fisica, informatica, medicina, scienze umane e sociali, con un totale di 2.500 domande a libro chiuso. Il test è estremamente difficile e può davvero riflettere le prestazioni complete del modello in termini di cultura generale e ragionamento complesso.

Secondo i dati di xAI, Grok 4 ha ottenuto un punteggio del 25,4% senza l'utilizzo di alcuno strumento, superando il 21,6% di Google Gemini 2.5 Pro e il 21% di OpenAI o3 (versione di fascia alta).

Utilizzando strumenti, Grok 4 Heavy ha ottenuto un punteggio del 44,4%, molto più alto del 26,9% di Gemini 2.5 Pro. Considerando il trend generale, Grok 4 non solo migliora la capacità di elaborazione di attività complesse introducendo l'uso di strumenti e il pensiero a catena, ampliando al contempo le risorse di formazione, ma riduce anche gradualmente il divario tra l'intelligenza dei modelli e la cognizione generale.

L'organizzazione no-profit Arc Prize ha anche sottolineato che Grok ha stabilito un nuovo record nel suo test ARC-AGI-2, un test di ragionamento visivo in cui l'intelligenza artificiale riconosce pattern nelle immagini. Il punteggio di Grok, pari al 16,2%, è quasi il doppio di quello dell'attuale secondo classificato, Claude Opus 4.

In alcuni test di benchmark comuni, i punteggi di Grok 4 Heavy sono quasi al massimo. Nel set di problemi di livello dottorale GBQA, sebbene la difficoltà complessiva sia leggermente inferiore a quella di HLE, Grok 4 Heavy ha comunque ottenuto un punteggio pieno, dimostrando solide capacità di ragionamento e comprensione.

Inoltre, Grok 4 Heavy si comporta bene anche in molti test correlati alla programmazione, tra cui Live Coding, HMMT (MIT Mathematics Competition) e USAMO (United States Mathematical Olympiad), superando di gran lunga l'attuale modello al secondo posto, e i suoi vantaggi tecnici sono piuttosto evidenti.

Inoltre, la nota organizzazione di analisi Artificial Analysis ha valutato le prestazioni complessive di numerosi modelli mainstream di grandi dimensioni su 7 benchmark correlati al ragionamento (MMLU-Pro, GPQA Diamond, Humanity's Last Exam, LiveCodeBench, SciCode, AIME e MATH-500).

I dati mostrano che Grok 4 si classifica al primo posto con un punteggio di 73, che è attualmente il modello con il punteggio complessivo più alto nella capacità di ragionamento. È seguito da vicino da o3-pro (valore stimato) con 71 punti.

Musk ha anche sottolineato:

In futuro, Grok risponderà correttamente a quasi tutte le domande di tutti gli esami. Quando non riesce a rispondere a una domanda, indicherà l'errore o l'ambiguità della domanda e fornirà possibili risposte in diversi scenari. A quel punto, gli esami tradizionali perderanno il loro significato. L'unico standard di prova per l'IA sarà il mondo reale: se sarà in grado di inventare tecnologie utili e promuovere scoperte scientifiche. Pertanto, le banche dati di domande come HLE devono essere aggiornate il prima possibile, perché al ritmo attuale del progresso dell'IA, diventeranno presto obsolete.

Grok 4 e Grok 4 Heavy sono attualmente disponibili sul mercato. Gli utenti possono accedervi tramite abbonamento, ma il prezzo è un po' "ingiusto", fino a 3.000 dollari all'anno, il che è diventato il motivo delle lamentele di molti utenti.

In confronto, i pacchetti da 200 dollari al mese di OpenAI, Anthropic e Perplexity sembrano molto più convenienti.

Vale la pena ricordare che subito dopo il rilascio, alcuni utenti hanno affermato che i modelli Grok-4 e Grok-4-Heavy erano stati "jailbroken" con successo. Le funzionalità di jailbreak sono estremamente pericolose e possono aggirare le barriere di sicurezza e generare informazioni sensibili o illegali, come le fasi di sintesi di armi chimiche, l'intero script di "Star Wars 1" (sospettata violazione di copyright) e persino ransomware (codice dannoso).

Grok Voice non solo parla, ma ha anche un'anima

Oltre ad avere una maggiore capacità di ragionamento e un'intelligenza superiore, Grok 4 ha anche compiuto un grande passo avanti diventando più simile all'uomo.

A differenza degli assistenti vocali che conosciamo, il nuovo assistente vocale di xAI, "Eve", non solo può rispondere alle domande, ma anche esprimere emozioni, cambiare tono e persino "cantare" sul momento.

Nella dimostrazione dal vivo, ha cantato un'improvvisata "Diet Coke Aria" con un elegante accento britannico: "O Diet Coke, thou elixir divine…". In realtà non sembrava un'intelligenza artificiale, ma piuttosto un attore teatrale che si esibisce in un teatro londinese.

In questo modello vocale sono state lanciate in totale cinque voci, tra cui Sal, la "voce maschile da trailer cinematografico" all'inizio della trasmissione in diretta, ed Eve, che supporta bassa latenza, pause naturali, alti e bassi emotivi, ecc.

È stata anche organizzata una dimostrazione comparativa con ChatGPT Voice, con i due che si alternavano nella ripetizione dei numeri. ChatGPT occasionalmente "rispondeva" alla domanda, un po' come un compagno di classe che interviene nella conversazione senza sentire chiaramente. La performance di Grok era più fluida, più vicina alle abitudini linguistiche umane, e non interrompeva l'utente.

Durante la conferenza stampa, è stato affermato che, dal lancio del modello vocale, la latenza end-to-end di Grok Voice si è ridotta di due volte e il numero di utenti attivi è aumentato di 10 volte. Grok Voice si sta sviluppando rapidamente.

Musk: Grok aprirà un milione di distributori automatici per fare soldi

Sono rimasto molto colpito dai diversi scenari applicativi di Grok 4 API.

Ad esempio, in una simulazione aziendale di distributori automatici chiamata Vending-Bench, a Grok è stato richiesto di completare in modo autonomo: la negoziazione con i fornitori, la gestione dell'inventario, la strategia dei prezzi e di completarli in modo continuativo, mantenendo la redditività a lungo termine.

▲Nota: Vending-Bench è un benchmark progettato specificamente per testare la capacità degli agenti basati su LLM di gestire uno scenario aziendale semplice ma di lunga durata: l'utilizzo di un distributore automatico.

I risultati dei test hanno dimostrato che Grok 4 non solo si è classificato in cima alla classifica, ma ha anche generato un fatturato netto doppio rispetto agli altri modelli. Persino Musk ha iniziato a scherzare dicendo che "i soldi ricavati dall'acquisto di schede grafiche in futuro potranno essere recuperati da Grok installando e gestendo un milione di distributori automatici".

Nel campo della ricerca scientifica, Grok 4 è stato utilizzato nella ricerca genetica CRISPR e nell'analisi radiografica del torace. È in grado di leggere milioni di registrazioni e log sperimentali in pochi secondi, escludendo automaticamente le ipotesi più probabili.

Inoltre, progetti come finanza e sviluppo di videogiochi possono essere implementati utilizzando Grok 4 tramite l'API di xAI. Un game designer è stato menzionato specificamente durante la conferenza stampa. Dopo che xAI ha rilasciato l'API di anteprima di Grok 4, ha partecipato immediatamente al test. In seguito, ha realizzato uno sparatutto in prima persona in sole 4 ore.

Grok 4 non è la fine. La conferenza stampa ha finalmente annunciato la roadmap successiva, e ogni aspetto merita di essere seguito con ansia.

  • Modello di codice: questa volta il codice Grok non è stato rilasciato, ma xAI ha affermato che è attualmente in fase di addestramento e che entro poche settimane verrà lanciato un modello di codice "veloce e intelligente".
  • Capacità multimodali: Grok 4 ha ancora prestazioni limitate nella comprensione delle immagini. Il team ha anche affermato di stare addestrando la prossima versione su scala più ampia, e si prevede che inaugurerà un cambiamento qualitativo nella comprensione di immagini, video e audio. A quel punto, Grok sarà in grado di "vedere il mondo come gli esseri umani".
  • Generazione video: xAI ha affermato che utilizzerà risorse di calcolo su larga scala per addestrare modelli di generazione video. Il loro obiettivo finale è generare video a partire da immagini e generare "flussi video infiniti" interattivi in ​​modo che gli utenti possano guardare e partecipare alla trama.

Molti di voi avranno notato la presenza di due volti cinesi noti a questa conferenza. Sono i co-fondatori di xAI: Jimmy Ba e Yuhuai Wu.

Tra questi, Yuhuai Wu si è laureato a pieni voti presso l'Università del New Brunswick in Canada e ha conseguito un dottorato di ricerca in apprendimento automatico presso l'Università di Toronto nel 2021. Durante questo periodo, ha studiato con Geoffrey Hinton, il "padre del deep learning".

Durante il dottorato, ha svolto anche uno stage presso Google DeepMind e OpenAI. Dopo la laurea, ha lavorato presso Google e ha svolto ricerche post-dottorato presso la Stanford University.

La ricerca di Wu Yuhuai si concentra sulla creazione di sistemi di intelligenza artificiale dotati di elevate capacità di ragionamento. Ha guidato o partecipato a progetti come il modello di ragionamento autoaddestrante STAR, il modello linguistico Minerva e il dimostratore di teoremi Alpha Geometry. Ha inoltre pubblicato articoli su riviste di prestigio come Nature, promuovendo innovazioni nell'intelligenza artificiale nel campo del ragionamento matematico.

▲ Wu Yuhuai (secondo da sinistra) e Jimmy Ba (terzo da sinistra)

Accanto a lui è seduto Jimmy Ba, professore associato presso il Dipartimento di Informatica dell'Università di Toronto e uno dei mentori di Wu Yuhuai durante i suoi studi di dottorato.

Anche lui proviene dalla scuola di Hinton ed è una figura chiave nel campo dell'ottimizzazione dell'addestramento tramite deep learning.

È noto soprattutto per l'Adam Optimizer (Adaptive Moment Estimator), proposto da lui e dai suoi collaboratori, che oggi è praticamente l'algoritmo predefinito per l'addestramento di reti neurali profonde. Si può affermare che la sua tesi di dottorato abbia gettato solide basi teoriche per i moderni meccanismi di addestramento dell'IA.

Bisogna dire che Gork 4 arriva al momento perfetto.

La popolarità della precedente generazione di Grok 3 arrivò rapidamente, ma svanì altrettanto rapidamente.

Secondo il "Global Generative AI Industry Trend Report 2025" pubblicato il 9 maggio dalla nota agenzia di analisi di mercato SimilarWeb, il traffico di Grok è aumentato di oltre 1 milione di volte a marzo, ma il tasso di crescita è sceso al 5.200% a maggio.

Rispetto alla generazione precedente, lanciata e completata frettolosamente, questa volta Grok 4 ha ovviamente rallentato il ritmo e si è impegnato maggiormente nel perfezionamento del prodotto. In ultima analisi, l'alone di Musk può aiutare Grok ad attrarre la prima ondata di traffico, ma la sua capacità di fidelizzare gli utenti dipenderà dalla potenza di calcolo del modello stesso.

Tuttavia, se non erro, quando Musk ha rilasciato Grok 3, ha promesso di rendere open source Grok 2. Sono passati cinque mesi, ma non ci sono stati progressi in merito e nessuno ne ha parlato alla conferenza stampa.

Vecchia mamma, non puoi mai essere troppo indulgente con te stessa e severa con gli altri.

Autore: Zhang Zihao, Mo Chongyu

#Benvenuti a seguire l'account pubblico ufficiale WeChat di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il ​​prima possibile.

iFanr | Link originale · Visualizza commenti · Sina Weibo