Per una settimana l’intera rete ha speculato su DeepSeek V4, ma alla fine si è scoperto che era opera di Xiaomi.

20 Marzo 2026

La scorsa settimana, due modelli anonimi e senza nome, denominati "Hunter Alpha" e "Healer Alpha", sono apparsi silenziosamente sulla nota piattaforma di aggregazione API OpenRouter. Senza alcuna promozione, il loro utilizzo ha iniziato a crescere a un ritmo insolitamente rapido.

Hunter Alpha ha dominato le classifiche giornaliere per diversi giorni, con un utilizzo cumulativo superiore a 1 trilione di token. Questo ha scatenato un dibattito all'interno della community. L'ipotesi più accreditata punta a DeepSeek, suggerendo che si tratti di una versione beta interna di DeepSeek V4.

Peter Steinberger, il fondatore di OpenClaw, ha anch'egli pubblicato un messaggio sulla piattaforma X per chiedere chiarimenti, alimentando ulteriormente l'entusiasmo della comunità per le speculazioni.

Xiaomi ha annunciato ufficialmente che Hunter Alpha e Healer Alpha sono entrambe versioni beta interne preliminari del modello di grandi dimensioni Xiaomi MiMo. Insieme alla rivelazione, Luo Fuli, responsabile del progetto del modello di grandi dimensioni Xiaomi MiMo, ha anche confermato pubblicamente la loro esistenza sulla piattaforma X.

Casualmente, Luo Fuli è un'ex ricercatrice di DeepSeek. In altre parole, lei, che proveniva da DeepSeek, ha creato un modello per Xiaomi che ha fatto credere a tutto il web che fosse stato sviluppato da DeepSeek.

Punto chiave: Xiaomi ha lanciato tre modelli contemporaneamente, ognuno con un proprio obiettivo specifico, ma tutti orientati nella stessa direzione: far evolvere l'intelligenza artificiale dalla semplice "capacità di conversare" alla "capacità di completare compiti".

MiMo-V2-Pro è una piattaforma di punta basata su testo, progettata per carichi di lavoro intensivi degli agenti, con particolare attenzione all'inferenza, alla pianificazione e all'invocazione degli strumenti.
MiMo-V2-Omni è una piattaforma multimodale che integra nativamente testo, immagini e percezione audio, creando un collegamento completo dalla comprensione all'esecuzione.
MiMo-V2-TTS è un modello di sintesi vocale su larga scala che dota gli agenti di capacità di espressione vocale calde ed emozionali, costituendo l'anello finale dell'intera catena.

MiMo-V2-Pro: Grande capacità, formula "all-you-can-eat", a un prezzo pari a un quinto di quello della concorrenza.

Il numero totale di parametri per MiMo-V2-Pro supera 1T, con un parametro di attivazione di 42B, circa 3 volte superiore rispetto alla precedente generazione MiMo-V2-Flash.

Nonostante un aumento significativo del numero di parametri, l'efficienza dell'inferenza non è diminuita, grazie all'innovativa architettura Hybrid Attention.

Il rapporto di miscelazione dell'architettura è stato ulteriormente migliorato, passando da 5:1 nella generazione precedente a 7:1, e l'introduzione di un livello MTP (Multi Token Prediction) leggero ha inoltre accelerato la velocità di generazione effettiva.

Nel frattempo, MiMo-V2-Pro supporta finestre di contesto ultra-lunghe fino a 1M, il che rappresenta un significativo vantaggio strutturale nella gestione di attività dell'agente di lunga durata.

Nella classifica globale di Artificial Analysis, autorevole per i modelli intelligenti su larga scala, MiMo-V2-Pro si posiziona attualmente all'ottavo posto a livello mondiale e al secondo in Cina.

Oltre ai test di benchmark, Xiaomi pone l'accento sull'"esperienza utente nel mondo reale". In termini di Coding Agent, General Agent e utilizzo degli strumenti, MiMo-V2-Pro si colloca allo stesso livello di Claude Sonnet 4.6.

In valutazioni approfondite condotte dagli ingegneri interni di Xiaomi, le capacità di programmazione del MiMo-V2-Pro si avvicinano a quelle di Claude Opus 4.6, vantando funzionalità di progettazione di sistema superiori e uno stile di programmazione più elegante.

Durante la fase di beta testing anonimo di Hunter Alpha, le tipologie di applicazioni più utilizzate sono state principalmente strumenti di programmazione, il che rappresenta di per sé la convalida più diretta sul mercato delle capacità del modello.

Nell'ambito del framework OpenClaw, MiMo-V2-Pro ha inoltre dimostrato le sue capacità di sviluppo front-end, consentendo la generazione in un unico passaggio di pagine web dal design raffinato e completamente funzionali, in grado di coniugare l'estetica con la praticità d'uso.

In termini di prezzo, il costo dell'API di MiMo-V2-Pro è solo 1/5 di quello dei prodotti concorrenti nella stessa categoria. In un contesto da 256.000 token, l'input ha un costo di 1 dollaro per milione di token e l'output di 3 dollari; in un contesto da 1 milione di token, l'input è di 2 dollari e l'output di 6 dollari.

Questa strategia di prezzo invia un segnale chiaro: Xiaomi spera di sfruttare il suo vantaggio di prezzo per aumentare rapidamente la diffusione del MiMo-V2-Pro all'interno dell'ecosistema degli sviluppatori.

A tal fine, Xiaomi ha stretto una partnership con cinque importanti team di sviluppo di framework Agent (OpenClaw, OpenCode, KiloCode, Blackbox e Cline) per offrire supporto API gratuito per un periodo limitato di una settimana. Per informazioni specifiche sul supporto gratuito per ciascun framework, si prega di consultare il sito web ufficiale di MiMo e gli annunci della piattaforma MiMo Open.

Attualmente, MiMo-V2-Pro ha ufficialmente aperto il suo servizio API e gli sviluppatori possono accedervi e provarlo all'indirizzo https://platform.xiaomimimo.com. La pagina ufficiale di prova del modello, https://aistudio.xiaomimimo.com, ha inoltre lanciato la funzionalità MiMo Claw, che consente agli sviluppatori di provare gratuitamente le funzionalità Agent di MiMo-V2-Pro.

MiMo-V2-Omni: Può vedere, può sentire e può persino negoziare il prezzo da solo.

Se il MiMo-V2-Pro rappresenta il cervello, il MiMo-V2-Omni ha ambizioni ancora maggiori: si propone di dotare questo cervello di occhi, orecchie e mani.

MiMo-V2-Omni è il primo modello full-modale di Xiaomi che unifica percezione e azione a livello di base, integrando profondamente testo, immagini e audio dall'architettura sottostante.

La comprensione audio è una delle caratteristiche più distintive del MiMo-V2-Omni. Supporta oltre 10 ore di comprensione audio continua e prolungata, coprendo scenari complessi che vanno dalla classificazione del suono ambientale alla separazione di più altoparlanti, superando il Gemini 3 Pro in termini di prestazioni complessive.

In termini di comprensione delle immagini, MiMo-V2-Omni supera Claude Opus 4.6 e si avvicina al livello dei migliori modelli proprietari come Gemini 3 Pro nel ragionamento visivo multidisciplinare e nell'analisi di grafi complessi.

In termini di comprensione video, il modello supporta l'input congiunto nativo audio e video, anziché elaborare audio e video separatamente, il che offre vantaggi concreti in termini di comprensione multimodale a livello architetturale.

In scenari reali con Agent, MiMo-V2-Omni ha dimostrato notevoli capacità di completamento delle attività dall'inizio alla fine.

Grazie al framework OpenClaw, è in grado di controllare il browser come una persona reale: consultare le recensioni su Xiaohongshu, organizzare suggerimenti di acquisto, passare a JD.com per confrontare i prezzi tra i vari negozi, contattare il servizio clienti per negoziare sconti e completare l'ordine. Può inoltre gestire il passaggio tra più schede contemporaneamente e le esigenze di interazione in tempo reale.

Un'altra dimostrazione più rappresentativa: agli utenti basta dire "Crea un video introduttivo, aggiungi degli effetti sonori tecnologici e pubblicalo su TikTok", e il modello si occuperà dell'intero processo, inclusa la correzione automatica degli errori di font durante il rendering e, infine, la conferma che il video ha superato la revisione ed è stato pubblicato con successo.

Nel compito di elaborazione di testo puro, MiMo-V2-Omni ha mantenuto un elevato livello di competitività, con prestazioni sul benchmark OpenClaw PinchBench paragonabili a quelle di Gemini 3 Pro.

Durante la fase di beta testing anonimo di Healer Alpha, il modello ha ottenuto il punteggio medio più alto su PinchBench, e il feedback positivo degli utenti della community e i risultati del benchmark hanno costituito una rara conferma reciproca.

Per quanto riguarda gli scenari d'ufficio, MiMo-V2-Omni ha stretto una partnership con Kingsoft Office e si è integrato con WPS Lingxi, supportando la generazione diretta di documenti Word di alta qualità, file Excel strutturati, PDF formattati e presentazioni PowerPoint complete. Il modulo Claw di MiMo Studio si è inoltre completamente integrato con l'ecosistema Kingsoft WebOffice, supportando nativamente i quattro principali formati: Word, Excel, PPT e PDF, coprendo oltre il 95% dei tipi di documenti di uso quotidiano.

Indirizzo di prova di WPS Lingxi: lingxi.wps.cn

MiMo-V2-Omni ha reso pubblica la sua API, supportando una lunghezza di contesto di 256K, con un prezzo di input di 0,4 dollari per milione di token e un prezzo di output di 2 dollari. È inoltre possibile integrarla tramite il sito https://platform.xiaomimimo.com.

MiMo-V2-TTS: Può sbadigliare, ubriacarsi e cantare.

Un agente completo non dovrebbe solo pensare e agire, ma anche parlare. MiMo-V2-TTS è progettato per colmare questa lacuna.

MiMo-V2-TTS si basa sul tokenizzatore audio sviluppato internamente da Xiaomi e sull'architettura di modellazione congiunta parlato-testo multi-codebook, ed è stato sottoposto a un pre-addestramento su larga scala con centinaia di milioni di ore di dati vocali.

L'enorme mole di dati, "centinaia di milioni di ore", fa sì che il modello possa coprire una varietà estremamente ricca di stili di parlato, accenti e scenari, il che costituisce la base della sua capacità di generalizzazione.

Nella fase di post-addestramento dell'apprendimento per rinforzo multidimensionale, il modello viene continuamente ottimizzato in base a diverse dimensioni, come la naturalezza prosodica, la stabilità della qualità del suono, la qualità della clonazione del timbro e l'adattamento al tono della scena.

Grazie all'architettura di modellazione del codebook multistrato, la fase di apprendimento per rinforzo può utilizzare direttamente i segnali di ricompensa relativi al parlato per ottimizzare il modello, anziché affidarsi a un feedback indiretto lato testo. Ciò consente ai segnali di ricompensa multidimensionali di agire in modo più efficace sul processo di generazione.

MiMo-V2-TTS supporta un controllo granulare che va dalla regolazione generale del tono alle emozioni specifiche all'interno delle frasi, consentendo variazioni di tono e cambiamenti emotivi all'interno della stessa frase, una caratteristica rara in prodotti simili.

Il modello è in grado di riconoscere in modo intelligente i segnali di formattazione, come segni di punteggiatura, interiezioni e segni di enfasi, e di convertirli automaticamente in espressioni vocali naturali, senza richiedere annotazioni manuali da parte dell'utente.

Il supporto dialettale comprende il mandarino nord-orientale, il sichuanese, il dialetto dell'Henan, il cantonese e gli accenti taiwanesi, e offre inoltre prestazioni in stile role-playing e capacità di sintesi vocale di alta qualità, consentendo allo stesso modello di parlare, recitare e cantare.

La dichiarazione ufficiale indica che in futuro MiMo-V2-TTS sarà profondamente integrato con MiMo-V2-Omni, consentendo all'Agente non solo di vedere e comprendere il mondo, ma anche di raccontarne la storia con una voce espressiva.

L'intelligenza artificiale è il vero filo conduttore che collega l'intero ecosistema di persone, automobili e abitazioni.

Il lancio simultaneo dei tre modelli, sia in termini di tempistica che di combinazione di prodotti, non è stato casuale. In una dichiarazione, Luo Fuli ha ammesso che il passaggio da un paradigma di chat a un paradigma di agente è avvenuto così rapidamente che "persino noi stessi facciamo fatica a crederci".

Tuttavia, il team Xiaomi MiMo aveva pianificato tutto in anticipo. Luo Fuli ha rivelato che il modello base 1T aveva già iniziato l'addestramento diversi mesi prima, con l'obiettivo iniziale di migliorare l'efficienza dell'inferenza di contesto a lungo termine. L'architettura di attenzione ibrida, la finestra di contesto ultra-lunga 1M e l'inferenza a bassa latenza MTP non sono decisioni architetturali prese per seguire le tendenze, ma piuttosto vantaggi strutturali sviluppati prima ancora che se ne presentasse la necessità.

Il cambiamento di rotta del team, che ha iniziato a concentrarsi sugli Agenti, è scaturito da un momento cruciale. Quando Luo Fuli ha sperimentato per la prima volta la complessa struttura degli Agenti, ne è rimasta profondamente colpita e ha immediatamente impartito una direttiva perentoria al team: qualsiasi membro del team MiMo che avesse effettuato meno di 100 conversazioni il giorno successivo avrebbe potuto dimettersi.

Dietro questa richiesta alquanto estrema si cela la sua ferma convinzione nel paradigma dell'agente. Il risultato fu che la fantasia del team si scatenò completamente e la velocità della ricerca aumentò drasticamente.

Questo ritmo di ricerca e sviluppo, unito all'ecosistema esistente di Xiaomi, fa sì che il significato di questo lancio vada ben oltre una semplice competizione tra modelli.

Da tempo Xiaomi Group promuove la strategia "Ecosistema integrato uomo-veicolo-casa", utilizzando Surge OS per connettere completamente smartphone, automobili (serie SU7) e dispositivi per la casa intelligente. Questo ecosistema è già fisicamente interconnesso, ma in precedenza mancava un hub veramente intelligente in grado di comprendere le intenzioni dei dispositivi, pianificare autonomamente e completare le attività.

Attualmente, MiMo-V2-Pro si occupa di inferenza e pianificazione, MiMo-V2-Omni di percezione ed esecuzione multimodale e MiMo-V2-TTS di espressione vocale. Insieme, i tre formano uno stack completo di funzionalità di intelligenza artificiale che alimenta l'intero ecosistema.

miclaw (l'agente AI di Xiaomi per telefoni cellulari) è stato integrato nel modello MiMo, acquisendo capacità di esecuzione a livello di sistema e una profonda integrazione con l'"ecosistema umano, veicolo e casa", rappresentando la prima implementazione concreta di questo stack di funzionalità. La successiva integrazione di WPS Lingxi e Xiaomi Browser illustra ulteriormente questo concetto: MiMo non è solo un prodotto di dialogo, ma un livello di funzionalità fondamentale che viene incorporato in diversi scenari applicativi.

Da anni, le principali aziende tecnologiche descrivono la visione secondo cui "l'intelligenza artificiale connetterà ogni cosa", e Xiaomi, con i suoi modelli basati su agenti e la profonda conoscenza delle strategie di ecosistema, è chiaramente pronta a rendere tutto ciò possibile.

#Vi invitiamo a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove troverete al più presto contenuti ancora più interessanti.