Test sul campo del MiniMax M2.7: quando l’intelligenza artificiale si fa seria, finisce per combinare pasticci anche lei.

Dopo il successo di Lobster, l'intero internet si è concentrato su "come usarlo": installazione locale o cloud, installazione con un clic o da riga di comando, connessione a WeChat o a Lark… Invece, nessuno si è posto seriamente la vecchia domanda: il "cervello" che controlla Lobster è abbastanza intelligente?
Non c'è da stupirsi. I nuovi modelli rilasciati di recente da OpenAI e Google sono tutti in versione Mini o Flash, e l'implicazione ufficiale è quasi ovvia: sono specificamente progettati per consentire agli agenti di consumare grandi quantità di token.
I limiti delle capacità del modello sono diventati l'argomento meno discusso.

Un modello veramente adatto per le aragoste richiede non solo una grande quantità di gettoni che siano abbondanti, sazianti ed economici, ma anche un modello sufficientemente intelligente, con forti capacità pratiche e una solida capacità di apprendimento.
Di recente, MiniMax ha lanciato ufficialmente il nuovo modello MiniMax M2.7, incentrato sulla " abilitazione dell'autoevoluzione dell'IA " e sul suo ruolo di " modello di agente per coworking più potente ". È in grado di gestire attività di programmazione e comuni attività d'ufficio, e può anche apprendere attivamente per costruire un sistema di agenti stabile.

Nello specifico, è in grado di svolgere una gamma più ampia di attività rispetto alla maggior parte dei modelli . Per quanto riguarda la scrittura del codice, M2.7 comprende veramente cosa accade a un sistema durante l'esecuzione, raggiungendo un livello di ragionamento di sistema pari a quello di SRE (Site Reliability Engineering): analizza i log, correla le sequenze temporali, deduce le cause principali e fornisce soluzioni prioritarie. Il nuovo modello ha raggiunto una performance del 56,2% su SWE-Pro, quasi eguagliando Opus 4.6.
In ambito lavorativo, è sufficiente . Per la modifica complessa e le revisioni multiple di documenti Excel, Word e PowerPoint, M2.7 mostra un miglioramento significativo, soprattutto in scenari che richiedono conoscenze specialistiche e formattazione standardizzata, come l'analisi finanziaria. Pur non potendo sostituire completamente i professionisti, è perfettamente adeguato come strumento di supporto nei flussi di lavoro.
Non si verificheranno "collassi" nella collaborazione multi-agente . Questa è una capacità specificamente affinata da M2.7, con confini ben definiti negli scenari multi-ruolo, e può mantenere un livello di conformità ai comandi estremamente elevato anche in ambienti complessi contenenti oltre 50 competenze.
Ecco quindi il punto chiave di questo aggiornamento: inizia a partecipare all'auto-ottimizzazione . MiniMax afferma che M2.7 è il loro primo modello a partecipare attivamente alla propria iterazione, non solo "assistendo l'iterazione", ma "partecipando attivamente alla propria iterazione". Capace di auto-evoluzione, M2.7 può iterare autonomamente l'Agent Harness per gestire la maggior parte del flusso di lavoro.
Le prestazioni migliorate nei test sul campo hanno inoltre permesso al MiniMax M2.7 di scalare rapidamente la classifica di Lobster dopo il suo lancio, raggiungendo il quarto posto nella classifica dei punteggi più alti.

▲La classifica PinchBench è un benchmark di valutazione dei modelli pensato appositamente per OpenClaw. Testa le prestazioni di modelli di grandi dimensioni in scenari aziendali reali di OpenClaw. L'immagine mostra la metrica del tasso di successo delle attività. MiniMax M2.7 si classifica al quarto posto, dopo Claude Opus 4.6. | https://pinchbench.com/
Abbiamo inoltre integrato il modello MiniMax M2.7 e MaxClaw di MiniMax in Claude Code e nell'ambiente Lobster distribuito localmente, e abbiamo poi affidato a quest'ultimo tutti i bug, i dati finanziari complessi e un gran numero di attività di lunga durata riscontrate durante l'effettivo processo di sviluppo.
Dopo due giorni di test, abbiamo scoperto che non solo il software doveva essere ricostruito per l'IA, ma il modello di IA stesso, oltre a comprendere le intenzioni umane e a produrre risultati che soddisfino gli esseri umani, deve anche capire come funziona l'IA e il suo flusso di lavoro, e imparare a ottimizzarsi da solo .
Utilizzo dei flussi di lavoro basati sull'IA come assistenti umani
Dopo il successo di framework basati su agenti come OpenClaw, il vero "flusso di lavoro dell'era dell'IA" dovrebbe prevedere che l'IA funga da centro operativo principale, richiamando decine di strumenti, dirigendo altri membri del team IA e persino ottimizzando il proprio codice.
Prima di testare come il MiniMax M2.7 si evolve autonomamente, voglio innanzitutto esaminare il suo flusso di lavoro basato sull'intelligenza artificiale. Si tratta davvero di un modello di agente utile, o è valido solo per i test di benchmark ma deludente nell'uso pratico?
Abbiamo scaricato i dati storici di borsa dal noto sito web di sfide di machine learning Kaggle e, come richiesto dalla competizione, abbiamo incaricato MiniMax M2.7 di eseguire l'elaborazione dei dati e l'ingegneria delle caratteristiche appropriate in base ai dati forniti, al fine di generare un report di analisi visiva.
Il dataset è piuttosto ampio, contenente oltre 3.000 righe di dati tabellari, con una dimensione totale del file di 446,35 MB. Dopo aver scaricato i cinque file di dati tabellari sul nostro computer locale, abbiamo utilizzato Claude Code, integrato con MiniMax M2.7, per completare questa operazione.

Per condurre efficacemente questa analisi, sono necessari i seguenti passaggi: un analista di dati per pulire e organizzare i dati; un macroanalista per fornire approfondimenti sui mercati finanziari di riferimento; un analista statistico per completare la modellazione matematica iniziale; un ingegnere di algoritmi per costruire il modello corrispondente; e infine, un ingegnere web per fornire una soluzione di visualizzazione.
Di fronte a un compito così complesso, MiniMax M2.7 ha sfruttato appieno le diverse funzionalità che avevo installato. Dapprima ha utilizzato il file xlsx fornito da Anthropic per leggere le informazioni della struttura dati tabellare, quindi ha iniziato a scrivere codice Python per installare automaticamente la libreria Pandas (spesso utilizzata per elaborare dati tabellari), procedendo passo dopo passo.

Infine, MiniMax M2.7 ha offerto anche una soluzione di visualizzazione completa, in grado di generare simultaneamente più immagini per mostrare la distribuzione dei rendimenti, l'importanza e la classificazione per categoria delle diverse caratteristiche, oltre a una dashboard completa.

Nella pagina web visualizzata, viene utilizzata la libreria Streamlit per convertire direttamente lo script dei dati in un sistema di pagina web interattivo, in cui tutte le informazioni possono essere visualizzate dinamicamente.

MiniMax è in grado di portare a termine con successo progetti di tale portata, per non parlare delle nostre attività quotidiane di ufficio e di programmazione.
Per prima cosa, abbiamo utilizzato l'app Lobster sul nostro telefono, chiedendole di riassumere i file che avevamo sul computer. Poi, abbiamo chiesto al MiniMax M2.7 di redigere un documento Word con il piano di ricerca basato su questi file, di organizzare un documento Excel con i documenti pertinenti e, infine, di creare una presentazione PowerPoint per le riunioni di gruppo, il tutto direttamente dal telefono.

▲Lobster, collegato a MiniMax M2.7, è in grado di rispondere rapidamente alle richieste.

▲Gestire la suite Office ora è un gioco da ragazzi.
I suoi vantaggi in ambito ufficio hanno inoltre permesso al MiniMax M2.7 di raggiungere un punteggio ELO di 1495 nella valutazione GDPval-AA, che misura le conoscenze professionali e le capacità di svolgimento dei compiti, il più alto tra i modelli nazionali.
Qualche tempo fa, il pannello di visualizzazione per assistenti di lavoro basati sull'IA è diventato virale, posizionando un'aragosta in un ufficio realistico in stile anime e consentendo agli utenti di installare OpenClaw con una sola frase. Siamo anche riusciti a dare a quest'aragosta di Appso una casa tutta sua, ma cosa succede se voglio modificare la disposizione della stanza in stile anime? Lasciate fare a MiniMax.

Nell'interfaccia locale visuale di OpenClaw, possiamo inviare direttamente la richiesta "Come posso cambiare lo stile di questa casetta?", e MiniMax M2.7 leggerà automaticamente il codice del progetto e ci indicherà quali parti possono essere modificate e come modificarle.

Poiché la mia richiesta era di creare un'immagine in stile redazionale scientifica e tecnologica, il programma l'ha trasformata in un poster di Star Wars, aggiungendo una dozzina di persone sedute davanti a dei computer intente a digitare.
Tuttavia, poiché non abbiamo configurato la chiave API di Nano Banana Pro all'interno di OpenClaw, MiniMax M2.7 ha selezionato automaticamente il metodo basato sul codice per generare immagini semplici all'interno di OpenClaw.

Quindi, interagendo con esso, possiamo progettare un gioco gestionale editoriale basato su questo stile. Chi completa più compiti avrà un ufficio più grande e potrà salire di livello.

Se si tratta di MaxClaw, il software ufficiale di MiniMax, supporta direttamente la generazione multimodale e può generare video, audio, immagini, ecc. in un unico passaggio, senza bisogno di configurare API aggiuntive.
Abbiamo utilizzato la skill ufficiale per la creazione di GIF animate per generare diversi meme su Musk. MaxClaw, distribuito nel cloud, garantisce un ambiente di runtime sufficientemente sicuro, ma non ci permette di installare file di libreria diversi a piacimento, come faremmo su un computer locale.
Infine, durante la conversione del video in GIF, MaxClaw mi ha ricordato che non disponeva di autorizzazioni sufficienti per installare ffmpeg (una libreria open-source per l'elaborazione multimediale) sul server cloud.

▲All'interno di MaxClaw, è possibile utilizzare direttamente MiniMax M2.7, che richiamerà automaticamente modelli di generazione di video, audio e immagini come Conch per generare file multimediali senza la necessità di configurare una chiave API speciale.
Cliccando su "Competenze" in fondo alla finestra di dialogo di MaxClaw, verranno visualizzati i dettagli di tutte le competenze installate in MaxClaw. Cliccando su "Chiedi a MaxClaw" verrà generato automaticamente un messaggio con la scritta "Dimmi cosa può fare frontend-dev e come usarlo", che ti guiderà nell'apprendimento dell'utilizzo di questa competenza.

Oltre alla funzionalità di generazione GIF, MiniMax offre anche una libreria di competenze che include sviluppo front-end, back-end full-stack, sviluppo di applicazioni Android e iOS e tecnologia di shading GLSL per la creazione di straordinari effetti visivi. Possiamo inviare direttamente a Lobster la richiesta "Puoi aiutarmi a installare le competenze di questo progetto? https://github.com/MiniMax-AI/skills", e Lobster recupererà automaticamente la documentazione e completerà l'installazione.

▲Link per il download: https://github.com/MiniMax-AI/skills
Quando l'IA diventa davvero ostica, può persino intervenire direttamente.
Oltre al flusso di lavoro completo e alle effettive capacità di erogazione in ambienti di lavoro e d'ufficio quotidiani, ciò che ci ha maggiormente colpito del MiniMax M2.7 è stato il suo " ciclo chiuso auto-iterativo del modello ".
MiniMax una volta disse che i ricercatori umani devono solo controllare la direzione generale e lasciare il compito di costruire il sistema al modello, che può quindi costruire autonomamente l'infrastruttura dell'agente di sviluppo come un architetto di soluzioni.
Un framework per agenti può essere inteso come uno strato di infrastruttura operativa che circonda un agente di intelligenza artificiale. Il modello è responsabile della capacità di pensare, mentre il framework si occupa di trasformare questa entità "pensante" in un sistema in grado di svolgere i compiti in modo stabile. Questo sistema funge da strato operativo, responsabile di garantire che l'agente funzioni stabilmente nell'ambiente reale.

Per testare i limiti di M2.7, MiniMax gli ha affidato il compito di ottimizzare le prestazioni di ingegneria del software di un sistema di impalcature interno. Il risultato? M2.7 ha eseguito un ciclo iterativo di oltre 100 iterazioni senza alcun intervento umano.
Analizza la propria traiettoria di errore, pianifica le proprie modifiche, esegue nuovamente la valutazione dopo aver modificato il codice di base e, infine, confronta i risultati per decidere se mantenerlo o annullare la modifica. Attraverso questa incessante lotta interna, scopre la soluzione ottimale, che si traduce in un aumento delle prestazioni del 30% sul set di valutazione.
Questa capacità dell'IA di svolgere "ricerca scientifica" è stata verificata anche su set di test disponibili pubblicamente. Il MiniMax M2.7 è stato inserito nel set di test MLE Lite di Kaggle, la più grande competizione di machine learning al mondo.

Con 22 impegnativi problemi di competizione, M2.7 si affida ai suoi file di memoria a breve termine interni e a un meccanismo di auto-feedback per fornire suggerimenti di ottimizzazione dopo ogni esecuzione.
In 24 ore ha vinto 9 medaglie d'oro, 5 medaglie d'argento e 1 medaglia di bronzo, con una percentuale di medaglie del 66,6%.
Questo risultato è secondo solo a Opus-4.6 (75,7%) e GPT-5.4 (71,2%), ed è a pari merito con Gemini-3.1.
Quando un modello può fungere da architetto di soluzioni, costruendo un sistema di agenti che include test e revisione del codice in soli 4 giorni senza alcuna programmazione manuale, è probabile che lo sviluppo dell'IA sia già passato alla trasmissione automatica.
Oltre alla sua elevatissima produttività, l'architettura di base del MiniMax M2.7 gli conferisce anche una memoria stabile a lungo termine e una forte intelligenza emotiva, permettendogli di ottenere prestazioni nettamente superiori rispetto ai chatbot tradizionali nei giochi di ruolo interattivi.
Il team ufficiale ha reso open source su GitHub un sistema di interazione multimodale chiamato OpenRoom . Si tratta di uno spazio con interfaccia grafica web in cui tutto può interagire, consentendo all'intelligenza artificiale di interagire con lo spazio in tempo reale.
L'intelligenza artificiale sta iniziando a imparare a "lavorare in autonomia", e questo è più importante che scrivere un buon codice.
Dopo averlo provato, ciò che ci ha davvero colpito del MiniMax M2.7 non è stato il suo tasso di successo del 66,6% nelle competizioni di Kaggle, né la perfetta erogazione della suite Office.
Piuttosto, si tratta di risolvere un problema più fondamentale: consentire all'intelligenza artificiale di comprendere veramente i flussi di lavoro e di partecipare alla loro evoluzione .
In passato, il software veniva scritto e utilizzato dagli esseri umani. Ora, l'intelligenza artificiale sta iniziando a scrivere, modificare e utilizzare il software. Quando un modello è in grado di costruire un sistema, testarlo e ripristinarlo autonomamente senza bisogno di programmazione umana, gli ingranaggi della "Ricerca e Sviluppo sull'IA" sono, in una certa misura, passati alla trasmissione automatica.
La questione di "come utilizzare le aragoste" presto non sarà più un problema, perché non spetterà più a noi deciderlo.
Piuttosto, è l'intelligenza artificiale che ha iniziato a imparare a lavorare in autonomia.
#Vi invitiamo a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove troverete al più presto contenuti ancora più interessanti.

