Musk ha dato il suo benestare! L’articolo di Kimi ha scosso le “basi ancestrali” dei modelli su larga scala.

A parità di potenza di calcolo e di dati, perché i risultati sono diversi? La risposta più comune è: modelli più complessi, dati migliori e ingegneri più qualificati. Ma Kimi ha fornito una risposta più inaspettata.

Il 16 marzo, Kimi, il Lato Oscuro della Luna, ha pubblicato un importante rapporto tecnico intitolato "Residui di Attenzione".

Questa tecnica modifica la struttura di connessione residua utilizzata in quasi tutti i modelli moderni di grandi dimensioni, e gli esperimenti hanno dimostrato che, con la stessa potenza di calcolo, il modello addestrato con il nuovo metodo raggiunge lo stesso effetto del modello di riferimento, che richiede 1,25 volte la potenza di calcolo.

Come prevedibile, dopo la sua pubblicazione il rapporto ha ricevuto elogi e il sostegno di molte figure di spicco nel campo dell'intelligenza artificiale nella Silicon Valley.

▲Indirizzo open-source su GitHub: github.com/MoonshotAI/Attention-Residuals

Ad esempio, Musk ha dichiarato sui social media che "l'impressionante lavoro di Kimi" è stato un risultato fondamentale. Jerry Tworek, il principale inventore di OpenAI o1, lo ha definito l'inizio del "Deep Learning 2.0".

L'ex co-fondatore di OpenAI, Andrej Karpathy, ha affermato: "Sembra che non abbiamo ancora compreso appieno il significato letterale di 'L'attenzione è tutto ciò di cui hai bisogno'". Ma, ancor più degni di nota di questi elogi, sono i segnali che si celano dietro gli articoli tecnici: il paradigma più fondamentale del deep learning sta cambiando.

Le fondamenta, che non erano state toccate per dieci anni, sono state spostate.

Negli ultimi due anni, la competizione tra i grandi modelli si è svolta principalmente nella "sovrastruttura": varianti di attenzione migliori, strategie di routing MoE più intelligenti e metodi di allineamento più sofisticati. Tutti si stanno dedicando all'arredamento interno di alto livello dell'edificio Transformer.

C'è un aspetto che è rimasto pressoché invariato da quando l'articolo su ResNet è stato pubblicato nel 2015: le connessioni residue.

Per comprendere questa tecnologia, è necessario innanzitutto conoscere la struttura di base all'interno del modello di grandi dimensioni.

I moderni modelli su larga scala sono in realtà composti da molti strati di reti neurali sovrapposti, da decine a centinaia di strati. Le informazioni vengono inserite dal basso e trasmesse verso l'alto strato per strato, con ogni strato che elabora le informazioni e infine restituisce il risultato in cima.

Si può immaginare come una catena di montaggio: le materie prime arrivano dalla prima fase, ogni operaio le lavora, poi vengono passate alla fase successiva e infine viene prodotto il prodotto finito. Il problema è che, più lunga è la catena di montaggio, più difficile è addestrare gli operai.

Supponiamo che un operaio nella cinquantesima fase del processo commetta un errore e che si desideri correggerlo. Questo "segnale di correzione" deve essere ritrasmesso attraverso 49 operai prima di raggiungere il primo. Durante la trasmissione, il segnale si disperde e gli operai in fondo alla catena non hanno idea di dove si sia verificato il problema.

Per consentire l'addestramento di reti neurali profonde di questo tipo, il team del rinomato studioso Kaiming He ha pubblicato nel 2015 un articolo intitolato "Deep Residual Learning for Image Recognition", introducendo un modello chiave chiamato Residual Connections:

Ogni strato, durante l'elaborazione delle informazioni, mantiene anche un "percorso rettilineo" che aggiunge l'input originale al risultato elaborato senza modifiche, prima di propagarlo verso il basso. Questo percorso rettilineo permette al gradiente di bypassare le trasformazioni intermedie durante la retropropagazione e di fluire direttamente fino allo strato inferiore, risolvendo in modo fondamentale il problema della difficoltà di addestramento delle reti neurali profonde.

In parole semplici, ciò significa aggiungere un "percorso rettilineo" accanto a ciascuna fase del processo, consentendo alle materie prime di bypassare tale fase ed essere unite direttamente ai prodotti finiti prima di essere trasmesse al flusso successivo. In questo modo, i segnali di correzione degli errori possono viaggiare senza intoppi verso lo strato inferiore lungo il percorso rettilineo, senza andare persi.

Questo articolo è poi diventato uno dei più citati nel campo della visione artificiale e persino nell'intero settore del deep learning. Le connessioni residue sono ancora utilizzate oggi e costituiscono la pietra angolare di quasi tutti i modelli di grandi dimensioni.

Sebbene le connessioni residue siano utili, il loro metodo di aggregazione delle informazioni è molto rudimentale: sommano gli output di tutti i livelli precedenti con uguale peso, senza alcuna distinzione.

Riprendiamo l'analogia della catena di montaggio. Al 51° passaggio, l'operaio riceve una quantità uguale del prodotto ottenuto nei 50 passaggi precedenti, dove il prodotto di ogni passaggio rappresenta una porzione, né più né meno. Non può dire: "Voglio più materie prime dal terzo passaggio", né può dire: "Il prodotto del ventesimo passaggio non mi serve, dammene di meno".

Questo porta a un problema pratico chiamato diluizione di PreNorm: man mano che la rete si fa più profonda e la quantità di informazioni accumulate aumenta, il contributo di ogni strato diventa sempre più insignificante nel vasto totale. Più è profondo lo strato, maggiore deve essere l'output per essere "udito", altrimenti verrà sovrastato.

Di conseguenza, molti strati intermedi non svolgono correttamente la loro funzione. Ricerche precedenti hanno dimostrato che la rimozione di un numero significativo di strati da modelli di grandi dimensioni non influisce quasi per nulla sulle prestazioni, indicando che il contributo di questi strati è in realtà estremamente limitato.

La maggior parte dei team è da tempo consapevole di questo problema e ha scelto di aggirarlo, aggiungendo alle proprie architetture esistenti rapporti di dati migliori, strategie di addestramento più sofisticate e finestre di contesto più ampie. Questo lavoro è certamente prezioso, ma si tratta essenzialmente di un'ottimizzazione incrementale all'interno di un framework tecnico esistente.

Kimi ha scelto un percorso più solitario e difficile: tornare alla struttura più elementare e riesaminare quei modelli "dati per scontati" utilizzando i principi fondamentali.

Questa mattina presto, il fondatore di Kimi, Yang Zhilin, ha affermato nel suo intervento al GTC 2026: "Molti degli standard tecnici attualmente utilizzati nel settore sono essenzialmente prodotti di otto o nove anni fa e stanno gradualmente diventando un collo di bottiglia per la scalabilità".

Yang Zhilin ritiene che, per superare continuamente il limite superiore dell'intelligenza dei modelli di grandi dimensioni, sia necessario ricostruire le fondamenta sottostanti, come gli ottimizzatori, i meccanismi di attenzione e le connessioni residue.

Un'elegante "rotazione"

La vera svolta dello studio del team di Kimi deriva da un'elegante scoperta basata su un'analogia.

Anche le prime reti neurali ricorrenti (RNN) presentavano un problema aggiuntivo simile nell'elaborazione di sequenze di testo: una memoria insufficiente. Dopo aver letto un intero brano, il contenuto letto in precedenza veniva continuamente sovrascritto da quello successivo, e quando si arrivava all'ultima parola, il contenuto delle frasi precedenti risultava sbiadito.

In seguito, Transformer ha risolto questo problema con un meccanismo di attenzione, equivalente a fornire al modello una "nota full-text". Durante l'elaborazione di ogni parola, il modello può tornare indietro e cercare qualsiasi parola apparsa in precedenza, e dove e quante parole cercare sono determinate dal contenuto corrente stesso.

I ricercatori hanno scoperto che i problemi riscontrati dalle connessioni residue nella direzione della profondità e i problemi riscontrati dalle RNN nella direzione del tempo hanno esattamente la stessa struttura matematica. In altre parole, immaginate il Transformer come una mesh bidimensionale:

L'asse orizzontale rappresenta la direzione della sequenza, da sinistra a destra per ogni parola di una frase; l'asse verticale rappresenta la direzione della profondità, dallo strato inferiore a quello superiore della rete. I meccanismi di attenzione tradizionali funzionano lungo l'asse orizzontale, verificando le informazioni relative ad altre parole nello stesso strato durante l'elaborazione di una parola specifica.

Il meccanismo di Attention Residuals non fa altro che ruotare lo stesso identico meccanismo sull'asse verticale. Durante l'elaborazione di un determinato livello, il meccanismo analizza l'output di tutti i livelli precedenti per determinare a quali livelli fare riferimento e quanti. L'oggetto dell'operazione cambia da "parole diverse nello stesso livello" a "lo stato della stessa parola in livelli diversi". Il meccanismo in sé è esattamente lo stesso, come se la direzione fosse stata ruotata di 90 gradi.

Poiché il meccanismo di attenzione risolve il problema dell'orientamento della sequenza, ruotarlo nella direzione della profondità funziona altrettanto bene.

Ecco una scoperta teorica più approfondita che merita di essere menzionata. I ricercatori, attraverso un'analisi matematica, hanno scoperto che tutti i miglioramenti apportati alle connessioni residue negli ultimi dieci anni – tra cui le connessioni residue standard, le reti Highway, mHC e varie varianti – sono matematicamente diverse forme della stessa cosa, tutte equivalenti a una sorta di "attenzione lineare orientata alla profondità". In altre parole, tutti hanno lavorato nella stessa direzione, ma semplicemente non ce ne eravamo resi conto all'epoca.

L'idea centrale di AttnRes è quella di trapiantare il meccanismo di attenzione dalla dimensione dell'"elaborazione di sequenze di testo" alla dimensione della "profondità di attraversamento della rete".

L'approccio specifico consiste nell'equipaggiare ogni livello con un piccolo "vettore di query", in modo simile all'assegnazione di una lista di richieste agli operatori di ciascun processo. Prima di iniziare il lavoro, gli operatori utilizzano la lista di richieste per esaminare l'output di tutti i processi precedenti, calcolare una serie di rapporti di utilizzo basati sulla rilevanza e quindi miscelare le materie prime necessarie in base a tale rapporto.

In questo modo, ogni strato non riceve più passivamente la somma ponderata degli output di tutti gli strati precedenti, ma decide attivamente e selettivamente da quali strati estrarre quante informazioni, e le proporzioni cambiano dinamicamente in base al contenuto del compito corrente. Ogni strato aggiunge solo un vettore e un'operazione di normalizzazione, e l'aumento del numero di parametri è pressoché trascurabile per l'intero modello.

Per garantire la stabilità nelle prime fasi dell'addestramento, questo vettore di query deve essere inizializzato con tutti zeri. Ciò equivale a far sì che i lavoratori non abbiano preferenze all'inizio e trattino tutti gli output precedenti allo stesso modo, in modo che possano gradualmente formarsi i propri giudizi man mano che l'addestramento procede.

Vale la pena notare che i ricercatori hanno anche testato una versione più radicale: invece di utilizzare parametri fissi, il vettore di query veniva generato dinamicamente in base all'input corrente a ogni livello. Questa versione ha effettivamente ottenuto risultati migliori, con un valore di perdita ulteriormente ridotto.

Tuttavia, questo approccio non è stato infine adottato perché richiede l'accesso sequenziale alla memoria durante l'inferenza, il che aumenterebbe la latenza. Questo compromesso riflette la filosofia ingegneristica che permea l'intero articolo: una soluzione teoricamente migliore non è necessariamente quella da scegliere nella pratica.

Tutte le nuove tecnologie per i modelli su larga scala devono prima o poi superare questo ostacolo.

L'algoritmo Full AttnRes funziona bene negli esperimenti su piccola scala, ma presenta problemi quando si tratta di addestramento su larga scala.

Questo approccio richiede che ogni strato acceda agli output di tutti gli strati precedenti. Il modello ha oltre cento strati e l'output di ciascun strato deve essere memorizzato e trasferito avanti e indietro tra i diversi nodi di calcolo. Il sovraccarico di memoria e di comunicazione aumenta linearmente con il numero di strati, il che risulta semplicemente insostenibile per modelli di grandi dimensioni.

La soluzione del team di Kimi è molto pratica: Block AttnRes. Dividono tutti i livelli della rete in diversi blocchi (8-9 blocchi nel modello 48B, ciascun blocco con circa 6 livelli). All'interno di ogni blocco vengono utilizzate connessioni residue tradizionali, mentre tra i blocchi viene utilizzata l'attenzione softmax. In parole semplici, non serve un ascensore a ogni piano; è sufficiente un passaggio veloce tra i piani principali.

In questo modo, la quantità di dati da salvare e trasmettere si riduce dal "numero totale di livelli" al "numero di blocchi", diminuendo significativamente il sovraccarico. Gli esperimenti hanno dimostrato che la suddivisione dei dati in circa 8 blocchi mantiene la maggior parte del miglioramento delle prestazioni del metodo completo.

In termini di implementazione ingegneristica specifica, il team ha inoltre apportato due ottimizzazioni.

La fase di addestramento è progettata con un meccanismo di caching tra le fasi. Nell'addestramento parallelo a pipeline, solo il piccolo blocco di dati appena aggiunto viene trasmesso ogni volta che si passa da una fase all'altra, anziché ritrasmettere l'intera cronologia. Nei test reali, l'overhead complessivo dell'addestramento non supera il 4%.

La fase di inferenza è progettata con una strategia di calcolo a due stadi, che raggruppa tutte le query di un blocco in un'unica operazione matriciale per un'elaborazione unificata e ammortizza gli accessi ripetuti alla memoria, in modo che la latenza finale dell'inferenza aumenti di non più del 2%.

Com'è andato dunque l'esperimento? I ricercatori hanno testato cinque modelli di diverse dimensioni.

I risultati mostrano che Block AttnRes supera il modello di riferimento con una perdita di validazione inferiore su tutte le scale, e il miglioramento rimane stabile all'aumentare della scala. In base alle curve di adattamento, Block AttnRes raggiunge lo stesso costo computazionale del modello di riferimento, richiedendo 1,25 volte la potenza di calcolo.

Negli esperimenti con un'architettura Kimi Linear a 48 miliardi di parametri (3 miliardi di attivazioni), Block AttnRes ha dimostrato una forte capacità di generalizzazione: ha ottenuto prestazioni pari o superiori a quelle del modello di riferimento PreNorm in tutti i 15 benchmark principali.

Ad esempio, ha ottenuto un balzo del 7,5% nel ragionamento scientifico di livello dottorale GPQA-Diamond e ha anche registrato guadagni significativi nei compiti di generazione di codice Math (+3,6%) e HumanEval (+3,1%).

Dal processo di addestramento, i valori di output di ogni strato del modello di base aumentano monotonicamente con la profondità, confermando il problema di diluizione di PreNorm; mentre i valori di output di ogni strato di AttnRes vengono azzerati ai confini dei blocchi, mostrando cambiamenti periodici, e la distribuzione del gradiente di ogni strato è più uniforme, indicando che più strati sono effettivamente coinvolti nell'apprendimento efficace.

Inoltre, i ricercatori hanno visualizzato i pesi di attenzione appresi dal modello addestrato e hanno scoperto diversi schemi interessanti.

Ogni livello si basa ancora fortemente sull'output del livello immediatamente precedente e la località rimane la modalità principale di flusso delle informazioni. Tuttavia, sono emerse alcune connessioni a salto, come ad esempio alcuni livelli che risalgono stabilmente a livelli molto primitivi e altri che prestano particolare attenzione all'output iniziale dell'embedding delle parole.

Un altro schema ricorrente è che i modelli di "riflessione" degli strati di attenzione e degli strati MLP differiscono: gli strati di attenzione tendono a concentrarsi su un contesto storico più ampio, mentre gli strati MLP si basano maggiormente sugli strati vicini più prossimi. Ciò è in linea con la loro divisione funzionale del lavoro all'interno del modello.

AttnRes ha inoltre fornito un risultato prezioso per la progettazione di modelli futuri. I ricercatori, con un costo computazionale totale e un numero di parametri fissi, hanno enumerato 25 diverse combinazioni di profondità e larghezza e hanno confrontato il modello di riferimento con l'architettura ottimale preferita da AttnRes.

I risultati hanno mostrato che le connessioni residue standard favorivano i modelli con "ampiezze maggiori e meno strati", mentre i punti ottimali di AttnRes favorivano i modelli con "ampiezze minori e più strati". Ciò indica che AttnRes può utilizzare la profondità in modo più efficace, garantendo che ogni strato aggiuntivo generi effettivamente valore, anziché trasformare la profondità in una mera accumulazione con rendimenti marginali decrescenti.

Le implicazioni di questa scoperta vanno ben oltre. Significa che AttnRes non è semplicemente una patch per l'architettura esistente, ma un cambiamento fondamentale nell'efficienza dell'utilizzo della profondità di rete e fornisce un nuovo riferimento per come allocare le risorse di profondità e larghezza nella progettazione di modelli di grandi dimensioni in futuro.

Yang Zhilin una volta disse che dieci anni fa non era che mancassero le buone idee, ma piuttosto che non ci fosse la potenza di calcolo necessaria per verificarle. Ora, con risorse sufficienti e una "scalabilità", a quelle domande accantonate si può finalmente dare una risposta seria.

Dietro i "mi piace" dei pezzi grossi si cela un punto di svolta dei tempi.

È estremamente raro che un team cinese ottenga un riconoscimento sostanziale da parte di figure di spicco della Silicon Valley per le sue innovazioni architetturali fondamentali. Il loro riconoscimento non riguarda solo l'articolo in sé, ma anche il fatto che il lavoro di Kimi indica una direzione completamente nuova: l'ottimizzazione è passata da moduli di livello superiore come l'attenzione e il MoE alle connessioni residue più fondamentali.

Nella sua presentazione al GTC 2026, Yang Zhilin ha anche rivelato una serie di innovazioni tecnologiche sottostanti: l'ottimizzatore MuonClip raggiunge un miglioramento di 2 volte nell'efficienza computazionale rispetto ad AdamW (vale la pena notare che l'ottimizzatore Adam è rimasto praticamente ineguagliato dal 2014, considerato una tecnologia "intoccabile" nel deep learning); Kimi Linear (architettura KDA) raggiunge un'accelerazione di decodifica di 5-6 volte in contesti ultra-lunghi che vanno da 128.000 a milioni di caratteri; e l'addestramento cross-modale di Vision RL ha addirittura migliorato il benchmark del testo semplice di circa il 2,1%.

Yang Zhilin riassume queste innovazioni in un framework di scalabilità tridimensionale: efficienza dei token × contesto a lungo termine × sciami di agenti.

"L'attuale scalabilità non si limita più ad accumulare risorse, ma consiste nel trovare economie di scala nell'efficienza di calcolo, nella memoria a lungo termine e nella collaborazione automatizzata, tutto contemporaneamente."

Un'azienda che progredisce simultaneamente in tutti i campi di battaglia fondamentali – ottimizzatori, connessioni residue, architetture di attenzione e formazione cross-modale – è davvero unica nel settore.

Ecco perché Jerry Tworek ha espresso il giudizio di "Deep Learning 2.0". Naturalmente, questo non significa che l'articolo sugli Attention Residuals possa stravolgere tutto, ma piuttosto che rappresenta un ritorno a una metodologia: non più sufficiente a rattoppare i framework esistenti, ma volta a riesaminare le infrastrutture che tutti considerano "problemi risolti".

Se le connessioni residue possono essere riprogettate, che dire dell'ottimizzatore Adam? E della normalizzazione dei layer? Della codifica di posizione? Il paradigma fondamentale del deep learning stesso sta cambiando e, una volta aperta questa porta, la storia che seguirà non sarà più prevedibile tramite estrapolazione lineare.

L'osservazione di Karpathy secondo cui "L'attenzione è tutto ciò di cui hai bisogno" non è stata ancora pienamente compresa riflette probabilmente questo sentimento.

Negli ultimi anni, i contributi dei team cinesi di intelligenza artificiale si sono concentrati maggiormente sull'implementazione ingegneristica e sull'innovazione applicativa, con relativamente poche scoperte originali nella teoria dell'architettura sottostante. L'articolo di Kimi adotta un approccio completamente diverso: un quadro teorico unificato, un'elegante implementazione ingegneristica e una rigorosa verifica sperimentale su larga scala.

Naturalmente, l'articolo di Kimi lascia ancora molti interrogativi aperti. La validazione su larga scala è stata eseguita su un modello con 48 miliardi di parametri totali (3 miliardi di parametri di attivazione), una scala non particolarmente elevata nemmeno per gli standard odierni. Resta da vedere se il vantaggio equivalente di 1,25 volte potrà essere mantenuto su modelli con miliardi o addirittura trilioni di parametri.

Nel frattempo, l'articolo mostra solo i benefici della fase di pre-addestramento. Mancano dati per stabilire se i vantaggi di AttnRes verranno attenuati dopo le fasi successive all'addestramento, come la messa a punto delle istruzioni e RLHF.

Tuttavia, queste limitazioni sono proprio la fonte dell'immaginazione. Una modifica leggera che richiede solo circa 100 righe di codice e aumenta il sovraccarico di addestramento di meno del 4% può portare a un miglioramento di tale portata su una scala di 48 miliardi.

Quando viene applicato a un modello di nuova generazione su scala più ampia, nessuno può dire con certezza quale sarà il limite massimo dei rendimenti.

Attention Residuals alza il livello massimo di efficienza dei token, Kimi Linear espande i confini dei contesti lunghi e Agent Swarms indica il futuro della collaborazione tra agenti. Quando queste tre linee tecnologiche convergeranno nella prossima generazione di modelli, potrebbero rappresentare un nuovo cambio di paradigma.

Nella costruzione della Torre di Babele dell'IA, tutti si contendono il primato nell'aggiungere mattoni e tegole, ma Kimi si è chinato e ha affondato una pesante pala nel letto stradale, riuscendo così a dissotterrare le fondamenta del deep learning.

Autori: Mo Chongyu, Li Chaofan

#Vi invitiamo a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove troverete al più presto contenuti ancora più interessanti.