Dopo aver provato il nuovo GLM-5 di Zhipu, ho finalmente capito perché è stato oggetto di tante speculazioni nella Silicon Valley.

Da una settimana circolano su Internet voci sul misterioso modello "Pony Alpha".

Alcuni dicono che si tratti di un Claude 5 ribattezzato, altri che sia un'arma segreta di una grande azienda. Proprio ora, il mistero è stato risolto: questo nuovo modello, nome in codice "Pony Alpha", non è altro che la grande sorpresa di Zhipu AI per la Festa di Primavera: GLM-5.

▲Screenshot dall'account ufficiale WeChat di Zhipu

Inoltre, era open source.

Se il 2025 è stato l'anno in cui l'intelligenza artificiale ha imparato a scrivere codice, all'inizio del 2026, come previsto da Andrej Karpathy, ex direttore dell'intelligenza artificiale presso Tesla, potremmo essere sul punto di entrare nell'era dell'"Agentic Engineering".

Tuttavia, rispetto a GPT-5.3-Codex e Claude Opus 4.6, il primo a trasformarlo in un'infrastruttura open source è stato il modello nazionale GLM-5.

Ecco il link per provarlo:

  • Z.ai: https://chat.z.ai
  • Versione APP/Web Zhipu Qingyan: https://chatglm.cn

Il prodotto che ha ingannato Pony.a. Alpha nella Silicon Valley era in realtà una copertura per Zhipu GLM-5.

Non sorprende più vedere l'intelligenza artificiale scrivere programmi come Snake o Tetris. La vera sfida è metterla alla prova con qualcosa di impegnativo.

Abbiamo presentato al GLM-5 un requisito di simulazione fisica molto specifico:

Creare un programma di simulazione di un sistema satellitare interattivo in HTML, CSS e JavaScript che simuli il processo di invio di segnali da parte di un satellite a ricevitori terrestri. La simulazione dovrebbe mostrare un satellite in orbita attorno alla Terra che invia periodicamente segnali che vengono ricevuti da più ricevitori terrestri.

Invece di fornire immediatamente il codice, si è fermato brevemente (simulando un processo di pensiero) prima di generare finalmente una pagina web HTML in base alle mie esigenze. Sullo schermo, il satellite non si limitava a ruotare; la trasmissione del segnale presentava persino un'animazione a onde che si diffondeva, simile alla metafora visiva dell'effetto Doppler.

Comprende le leggi fisiche che stanno dietro alla parola "simulazione", non solo l'azione di "disegnare".

Poi abbiamo aumentato la difficoltà.

Un utente di nome @scaling01 su X gli ha dato una valutazione molto alta: "Pony-Alpha è un AGI oppure ha memorizzato la mia banca dati di domande SVG."

Per verificarlo, abbiamo testato un compito Python estremamente astratto: "Visualizza come funzionano i semafori su una strada a senso unico, con veicoli che entrano a velocità casuale".

In meno di 3 minuti è apparsa una mappa dinamica di simulazione del flusso del traffico.

La logica è impeccabile: il semaforo verde consente il passaggio, il semaforo rosso richiede la coda e la casualità dell'accelerazione e della decelerazione dei veicoli è simulata molto bene. Tuttavia, l'estetica di questa interfaccia… beh, diciamo che è un po' "rudimentale".

Un utente della rete, @anurudhsharmaa, ha addirittura utilizzato una singola riga di prompt per creare un sito web esteticamente gradevole.

Nel frattempo, l'utente @zakarinoo7 ha creato un lettore multimediale completamente funzionale che supporta la decodifica MP4/MP3, la gestione delle playlist e include persino un'interfaccia utente in modalità scura, il tutto in soli 15 MB dopo la compilazione.

Questa scena mi ha fatto venire una gran voglia di provarlo. Così, ho usato ancora una volta Claude Code per far sì che GLM-5 creasse per me un gioco open world con personaggi stickman.

Invece di affrettarmi a scrivere codice, ho adottato un approccio molto "umano": partendo dallo stack tecnologico, dal gameplay di base e dalla creazione del mondo, il tutto si è gradualmente allineato alle mie esigenze.

E durante il processo di "costruzione", posso comportarmi come un cliente esigente, spingendo i miei limiti oltre i requisiti originali e inserendo nuove idee in qualsiasi momento:

  • Correre sulla mappa è troppo noioso; ci vorrebbe un sistema economico, con monete d'oro che spuntano casualmente sul terreno.
  • Aggiungiamo alcuni elementi d'azione: premi J per scoccare una freccia e K per eseguire un attacco corpo a corpo.
  • Dove metto gli oggetti che trovo? Inoltre, vorrei aggiungere un'interfaccia utente per lo zaino a cui posso accedere premendo il tasto I.
  • Le figure stilizzate sul ciglio della strada non possono essere solo delle decorazioni: devono poter interagire con i PNG.

Quando finalmente è stato eseguito, l'effetto poteva essere descritto solo come "perfetto":

Poiché lui sostiene di essere un architetto di sistemi, dopo che GLM-5 è stato rilasciato sul sito web ufficiale, gli ho chiesto di creare anche un sistema Mac per esso.

Sebbene il design generale sia un po' grezzo, lo sfondo classico dello schermo, la visualizzazione della sincronizzazione dell'ora nella barra di stato superiore e la disposizione delle icone nel Dock inferiore sono tutti "disegnati". E, sorprendentemente, ogni singola app presente può essere effettivamente aperta.

Compatibile con metà dei chip presenti nel settore, questa è la "caratteristica chiave" del GLM-5.

I risultati del benchmark mostrano che GLM-5 raggiunge prestazioni allo stato dell'arte (SOTA) sia nella codifica che nelle capacità degli agenti.

I dati non mentono. Nei due benchmark di programmazione più notoriamente difficili, SWE-bench-Verified e Terminal Bench 2.0, GLM-5 ha ottenuto rispettivamente 77,8 e 56,2 punti. In termini di esperienza di programmazione nel mondo reale, è molto vicino a Claude Opus 4.5.

Come riesce a raggiungere questo obiettivo il GLM-5? Esaminando il rapporto ufficiale, dietro una serie di parametri, abbiamo individuato alcuni punti chiave: l'architettura del MoE e l'apprendimento per rinforzo asincrono.

Con un totale di 744 byte di parametri e solo 40 byte di parametri di attivazione, è allo stesso tempo intelligente e leggero. Ma la sua vera caratteristica distintiva è il nuovissimo framework "Slime" sviluppato da Zhipu.

Per dirla in parole povere: in passato, l'addestramento del modello era come sostenere un "esame", in cui si otteneva un punto per ogni domanda a cui si rispondeva correttamente, e il modello memorizzava freneticamente le domande per ottenere un punteggio elevato; l'addestramento GLM-5, invece, è come uno "stage". In un ambiente chiamato Slime, il modello impara completando una serie di progetti a lungo termine e attraverso feedback e interazioni continui.

Inoltre, integra per la prima volta DeepSeek Sparse Attention. Ciò significa che, quando si gestiscono contesti contenenti centinaia di migliaia di righe di codice, non solo si eviterà di perdersi, ma si ridurranno anche significativamente i costi di implementazione.

Ma ciò che mi ha colpito di più è stata la lunga lista di ringraziamenti in fondo all'annuncio ufficiale. Il modello su larga scala sviluppato a livello nazionale può ora raggiungere un funzionamento stabile con elevata produttività e bassa latenza su cluster di chip prodotti a livello nazionale.

Huawei Ascend, Moore's Threads, Cambricon, Kunlun Chip, Muxi, Suiyuan, Hygon…

▲ Sembra di essere di fronte a un Khan che tiene una grande rassegna militare.

Ciò rappresenta quasi la metà dell'industria cinese dei semiconduttori, il che significa che l'open source di GLM-5 non è solo una vittoria software. Significa che l'ecosistema di intelligenza artificiale nazionale – dalla potenza di calcolo del chip sottostante al framework intermedio e poi al modello di livello superiore – ha gradualmente formato un circuito completamente chiuso.

Con il rilascio open source di GLM-5 e la sua integrazione con strumenti tradizionali come Claude Code e OpenCode, potremmo essere alle soglie del Software Engineering 2.0.

L'era dell'"ingegneria degli agenti", prevista da Andrej Karpathy, ex direttore dell'intelligenza artificiale di Tesla, sta arrivando prima del previsto. In futuro, potrebbe non essere più necessario disporre i componenti fondamentali riga per riga. Basterà definire il sistema, definirne l'estetica e definire cosa è "divertente" e "utile".

Poi, osservare un modello di grandi dimensioni come GLM-5 agire come un caposquadra, dirigendo la potenza di calcolo sottostante per costruire grattacieli.

L'era tradizionale dei "programmatori" potrebbe davvero giungere al termine.

Ma niente panico, questo non significa che gli esseri umani siano inutili. Al contrario, quando l'intelligenza artificiale si occuperà delle complessità dell'implementazione, il tuo senso estetico, il tuo giudizio e la tua capacità di porre una buona domanda diventeranno l'ultima e più solida barriera protettiva dell'umanità.

#Benvenuti a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il ​​prima possibile.

ifanr | Link originale · Visualizza commenti · Sina Weibo