Costruire Labubu da 0 a 1, MiniMax Agent mi ha dato un’idea di come sarà il futuro degli agenti intelligenti

Nella prima metà dell'anno, la novità più attesa ed entusiasmante sono gli Agent Tools, che promettono grandi risultati: ora quelle attività quotidiane ripetitive, che bruciano tempo e faticano il cervello, possono essere svolte semplicemente muovendo le dita e digitando qualche comando.
La torta è davvero allettante, ma pensateci bene: se volete essere davvero utili, avete bisogno di un modo di pensare e di pianificare simile al mio e al vostro, e persino della capacità di competere con voi stessi e di riflettere su voi stessi.
Con questo in mente, abbiamo testato l'ultimo MiniMax Agent per una serie di test approfonditi: non più soddisfatti delle valutazioni di livello base, ma lo abbiamo inserito in alcuni scenari lavorativi interessanti e stimolanti ma realistici per vedere quanto può essere intelligente.
C'è solo una cosa che posso dire di MiniMax Agent: puoi portare a termine il tuo lavoro mentre giochi.
Contenuti creativi: narrazione visiva oltre l'immaginazione
MiniMax vanta una profonda esperienza nei modelli multimodali, un vantaggio che agevola chi vuole realizzare opere creative.
Labubu è stato estremamente popolare ultimamente, quindi è capitato che dovessimo elaborare un piano promozionale per Labubu. Sembra complicato, ma questo agente non si è lasciato prendere dal panico. Ha prima sviluppato un piano strategico promozionale completo, ha definito l'elenco dei prodotti da consegnare, ha generato i poster in modo ordinato e poi ha preparato i poster promozionali passo dopo passo.

Durante l'intero processo, MiniMax Agent usa il suo cervello per pensare e allo stesso tempo utilizza gli strumenti appropriati, rendendo tutto fluido e ordinato.
Per quanto riguarda i risultati ottenuti, è stata una vera sorpresa: non solo l'estetica visiva era online, ma anche il testo introduttivo era chiaramente descritto, e c'erano una serie di gallerie di poster a tema una dopo l'altra. A quanto pare, MiniMax Agent non solo è in grado di svolgere il suo compito, ma ha anche un certo "gusto".
Allo stesso modo, puoi continuare a usare Labubu come protagonista e lasciare che MiniMax Agent scriva un libro illustrato di 20 pagine.

In poco più di dieci minuti, MiniMax Agent ha completato il disegno + la scrittura della storia + l'impaginazione della pagina web in tre passaggi.

L'effetto è inaspettatamente eccezionale: le immagini dei personaggi sono relativamente coerenti, il testo e le immagini su ogni pagina non sono superficiali, la lettura è piacevole e non noiosa. Supporta anche la distribuzione web, il layout è ragionevole e i dettagli sono squisiti.
Certo, preferisco che Labubu venga cambiato nel soprannome di "Little Bunny Hat Bear". Suona carino ed è piacevole alla vista. Con immagini e testo, è adatto sia ai bambini che agli adulti.
Produzione PPT: non solo bella, ma anche "intagliata"
Una delle novità più interessanti di questo aggiornamento è la possibilità di creare splendide presentazioni PPT, una necessità per chi lavora.
Per MiniMax Agent, anche il PPT è un tipo di prodotto multimodale. Appare come un insieme di immagini e testi, ma che si tratti di impaginazione, pianificazione e organizzazione dei contenuti, deve avere un tema, idee, una logica ed essere in grado di completare il contenuto in modo autonomo.
Ad esempio, progetta una presentazione PPT di fisica per gli studenti delle scuole medie:

Oppure un report aziendale per gli investitori:

In parole povere, realizzare una buona presentazione PPT non significa solo cercare informazioni, ma anche mettere alla prova la capacità di filtrare, eliminare il rumore e correlare le informazioni tra più domini.
I prodotti finiti hanno tutti un aspetto fantastico, il che induce a chiedersi: cosa ha fatto MiniMax Agent durante il processo di produzione?
Abbiamo condotto un test utilizzando presentazioni PowerPoint per ricerche di mercato, che di solito richiedono un elevato apporto di dati e informazioni. Questa è stata un'ottima opportunità per verificare quanto le presentazioni PowerPoint comprendessero i dati, selezionassero i grafici appropriati e presentassero i risultati.
Innanzitutto, riesce a suddividere accuratamente le attività e a organizzare i contenuti in base alla struttura a tre livelli "layout di pagina + tipo di grafico + stile dati", e la pianificazione delle pagine è molto buona.

La visualizzazione non solo mostra in modo completo e completo i punti chiave dei dati, ma utilizza anche metodi di visualizzazione appropriati per visualizzarli in base alle diverse caratteristiche dei dati. Anche la transizione dell'animazione dell'intera presentazione PPT è molto fluida, evidenziando in modo naturale i punti chiave, e consente di risparmiare anche lo sforzo di perfezionamento dell'animazione.

Nella consegna finale, oltre ai documenti PPT richiesti, sono stati forniti anche file Web e PDF aggiuntivi, nonché file Markdown.
Nel complesso, l'agente Minimax ha ottime capacità nell'intera catena "comprensione-integrazione-ragionamento-generazione-espressione", in particolare nell'analisi non di codice, di copywriting e di business, e può essere pienamente descritto come "professionale".
Dall'audio al sito web: un flusso di lavoro intelligente per i contenuti
Se le immagini e i testi non sono sufficientemente avanzati, appare una scena che mette ulteriormente alla prova le capacità dell'agente: questo compito richiede la conversione del formato del file audio caricato e la sua successiva conversione in una trascrizione con marca temporale. Infine, è necessario generare una mappa mentale basata sul contenuto.
Presi singolarmente, questi compiti non sono difficili, ma la difficoltà sta nel completarli tutti insieme.

In passato, dovevamo padroneggiare gli strumenti di conversione o dedicare tempo alla ricerca e alla sperimentazione di diversi strumenti di conversione online. MiniMax Agent può farlo direttamente internamente, risparmiandoci notevolmente la fatica di trovare, installare e utilizzare strumenti esterni.
MiniMax Agent è estremamente efficiente e pratico durante l'intero processo. La sensazione più intuitiva è la conversione di formato senza interruzioni. Dalla finestra del processo, è possibile osservare che MiniMax Agent è veloce e preciso nella generazione delle trascrizioni.

Oltre a poter convertire il contenuto audio in testo, è possibile anche acquisire una conoscenza approfondita del contenuto audio, che si riflette nella mappa mentale fornita.

Le mappe mentali non solo riescono a ordinare chiaramente le idee principali e il contesto logico dell'audio, ma anche a catturare accuratamente la gerarchia e i punti informativi chiave del contenuto.
Ciò va ben oltre la semplice estrazione di parole chiave e dimostra la potente capacità di MiniMax Agent di strutturare e visualizzare informazioni sparse.
Sebbene avessi fornito i requisiti, in realtà non avevo idea di come implementarli. Invece, ha preso l'iniziativa di organizzare il lavoro da solo: dall'installazione dei pacchetti di dipendenza all'avvio del server, ha completato il lavoro da solo, senza alcuna preoccupazione.
Progettazione dell'interfaccia utente: apprendimento attraverso la pratica, output efficiente
Quando torneremo davvero al nostro lavoro quotidiano, dovremo seguire i seguenti passaggi: ricerca e comprensione – apprendimento e comprensione – pratica pratica. Questo è il processo lavorativo più basilare per gli esseri umani. Dopotutto, senza ricerca, non ci saranno idee.
Quindi, se si vuole essere un buon agente, anche questo processo è essenziale: è complicato, ma necessario.
Il seguente caso di studio esamina l'implementazione dell'intero processo: studiare lo stile di design del vetro liquido di Apple iOS 26 e creare un'interfaccia utente simile.

Ovviamente, anche MiniMax Agent sapeva che si trattava di un compito piuttosto complicato e si sforzò di elaborare un piano di lavoro completo.

Il passo successivo è progettare, implementare e scrivere il codice passo dopo passo. Ci sono molti passaggi, ma vengono eseguiti in modo ordinato senza alcun bisogno di intervento umano, anche solo pensando di trovare materiali "visivamente d'impatto".

La consegna finale include non solo un pacchetto di codice, ma anche un sito web per presentare i risultati dell'intero processo di ricerca e visualizzarli in diverse dimensioni.
C'è anche un'area dedicata all'esperienza interattiva, dove puoi semplicemente provare l'effetto: supera di gran lunga le impostazioni del prompt originale e soddisfa ampiamente il compito.
Il prompt originale è in realtà molto semplice. Confrontandolo con i risultati finali forniti, possiamo vedere che MiniMax Agent non solo è in grado di condurre ricerche approfondite e completare attività con il codice, ma possiede anche una "propria comprensione" delle attività .
Ricerca approfondita: più che una semplice ricerca, più ragionamento
La ricerca di dati è un'abilità fondamentale. Non è difficile, ma è un lavoro meticoloso: soprattutto quando si fa ricerca basata sulle ultime notizie, l'acquisizione di informazioni dovrebbe essere il più ampia possibile.

A giudicare dal processo di pensiero e dai risultati della consegna, la prestazione dell'agente nel completare questo rapporto di ricerca ha superato di gran lunga le aspettative: non solo ha completato l'integrazione delle informazioni strutturate, ma ha anche dimostrato la sua capacità di ragionamento.
Nel rapporto, MiniMax Agent non si limita a elencare i dati, ma individua l'enorme differenza tra le dimensioni del mercato "dall'alto verso il basso" e "dal basso verso il basso" e le presenta come "un'importante analisi di mercato".

Ovviamente, il semplice elenco di informazioni non può essere definito una vera e propria "ricerca approfondita". Gli agenti devono identificare gli schemi, le tendenze e le relazioni causali alla base dei dati e, sulla base di questi, elaborare preziose "intuizioni" e "punti di vista fondamentali": ciò richiede capacità di ragionamento che vanno oltre la semplice corrispondenza di testo .
Riepilogo: Modello nella mano sinistra, Agente nella mano destra, MIniMax mi permette di vedere come sarà il futuro degli agenti intelligenti
Agent è uno dei trend più in voga quest'anno nel campo dell'intelligenza artificiale. Tutti parlano del futuro di Agent, ma in realtà sono pochissimi gli strumenti in grado di trasformarlo da una dimostrazione di facciata e un giocattolo "da cinque minuti" in uno strumento in grado di cambiare la produttività.
MiniMax, che ha un proprio modello sviluppato internamente, ha lanciato il suo prodotto Agent, mostrandoci un modo di giocare diverso. Dopo i test, abbiamo anche una nuova comprensione di Agent: ciò che determina l'esperienza di Agent non è solo il modello in sé, ma anche l'infrastruttura invisibile.
C'è un dettaglio che vale la pena di menzionare qui: in quanto azienda indipendente, MiniMax è praticamente l'unico produttore in grado di fornire funzionalità full-modali complete.

▲ Il modello vocale MiniMax Speech-02-HD si è classificato al primo posto nella lista Artificial Analysis Speech Arena

Il modello video MiniMax Hailuo 02 si è classificato al secondo posto nella lista Artificial Analysis Video Arena
La maggior parte delle capacità dell'agente si basa sul motore del modello e la tendenza del "modello come agente" sta diventando sempre più evidente.
A questo punto, i vantaggi delle aziende modello nelle applicazioni di intelligenza artificiale sono pienamente dimostrati. Poiché controllano direttamente il modello sottostante, possono ottimizzare in modo più efficace la logica di pianificazione, ridurre i costi operativi e costruire un volano di dati per l'iterazione autonoma .
MiniMax ne è un tipico esempio. Man mano che le capacità del suo modello migliorano, i costi operativi dell'agente vengono costantemente ottimizzati e le sue prestazioni migliorano significativamente.

Oggi, MiniMax ha reso open source il primo modello di inferenza con architettura ibrida su larga scala al mondo, MiniMax-M1, che supporta nativamente una lunghezza di input di 1 milione di token e la lunghezza di output più lunga del settore, pari a 80.000 token. La potenza di calcolo inferenziale necessaria per generare 100.000 token richiede solo il 25% di DeepSeek R1, il che ha ulteriormente ridotto il prezzo dei modelli di inferenza.
Mentre altre startup sono ancora preoccupate per gli elevati costi dei token, MiniMax è riuscita a ridurre sistematicamente i costi operativi degli agenti aumentando la quota dei propri modelli, il che è molto importante affinché gli utenti possano avere un'esperienza continua e stabile.
Questa è l'interpretazione definitiva di "Minimizzare gli sforzi, massimizzare l'intelligenza". In parole povere, significa usare il minimo sforzo per ottenere la massima intelligenza.
La struttura "modello nella mano sinistra, agente nella mano destra" di MiniMax consente all'azienda di trovare il miglior equilibrio tra capacità tecniche e valore per l'utente e, di fatto, possiede le condizioni per distinguersi in questa competizione tra agenti intelligenti.
Ci troviamo di fronte a una svolta senza precedenti: l'intelligenza artificiale si sta evolvendo da strumento a entità intelligente composita dotata di "cervello, sensi, mani e piedi", aprendo nuovi e interessanti spazi di immaginazione per il lavoro e la vita del futuro.
#Benvenuti a seguire l'account pubblico ufficiale WeChat di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il prima possibile.

