Versione open source di GPT Image 2: infografiche, grafica continua e testo, e distribuzione locale, tutto in uno | Test nel mondo reale di SenseTime SenseNova U1

Da quando GPT Image 2 è diventato popolare, internet è stato inondato di immagini incredibilmente realistiche generate dall'intelligenza artificiale. I modelli su larga scala stanno spingendo al limite le capacità di visualizzazione, il che è allo stesso tempo entusiasmante e impressionante.

Nel campo attuale dell'elaborazione di immagini tramite intelligenza artificiale, GPT Image 2 è praticamente indiscusso. Tuttavia, se GPT Image 2 rappresenta il miglior modello proprietario a pagamento disponibile nel cloud, allora SenseNova U1 potrebbe essere il miglior modello gratuito e open-source implementabile localmente .

▲Generato da SenseNova U1

SenseNova U1 è un modello multimodale open-source di recente rilascio sviluppato da SenseTime. Le sue versioni Lite con parametri 8B e A3B sono attualmente open-source su Hugging Face e GitHub.

Dai parametri del modello e dalla scelta del software open source, possiamo notare che è piuttosto diverso dall'immagine GPT 2.

APPSO ha inoltre ottenuto in anticipo le qualifiche per i test e abbiamo constatato che la nuova generazione di comprensione nativa e il modello unificato di SenseTime hanno raggiunto il livello migliore tra i modelli open source.

Questa tecnologia introduce un'innovativa generazione continua di immagini e testo nel settore dei modelli di grandi dimensioni, consentendo di produrre immagini e testo in modo continuo utilizzando un singolo modello. Vale sicuramente la pena provare questa nuova funzionalità.

I pesi del modello open-source SenseNova U1 sono ora disponibili per il download su Hugging Face e GitHub.

GitHub: https://github.com/OpenSenseNova/SenseNova-U1

Hugging Face: https://huggingface.co/collections/sensenova/SenseNova-U1

Pensare per immagini

Potremmo trovarci nella situazione di dover utilizzare l'intelligenza artificiale per spiegare un concetto complesso, corredando il tutto con un diagramma, il quale deve seguire la logica del testo, mostrando il passaggio corrispondente nella spiegazione.

I modelli tipici potrebbero risolvere direttamente questo problema generando codice, come la composizione fluida utilizzata da Claude, o alcune pagine web di Vibe Coding che includono testo e immagini.

Tuttavia, i modelli esistenti generalmente non sono in grado di generare simultaneamente testo e immagini all'interno del flusso di risposta utilizzando un singolo modello senza ricorrere a strumenti esterni. Questo perché la generazione di testo e la generazione di immagini sono in genere due processi separati a livello del modello.

La prima caratteristica della SenseNova U1 è la sua capacità di creare e riprodurre continuamente immagini e testo su un singolo modello.

Ad esempio, abbiamo proposto uno scenario in cui gli abbiamo chiesto di creare una semplice storia illustrata su un orsetto che attraversa le quattro stagioni.

▲ Richiesta: Crea un libro illustrato con un orso bruno come protagonista e racconta la sua esperienza durante le quattro stagioni.

Il testo e le immagini generate in modo continuo non solo sono facili da comprendere e possiedono una certa qualità narrativa, ma mantengono anche una buona coerenza. Allo stesso tempo, la resa del testo delle immagini è accurata e l'orsetto indossa un maglione e un cappello invernali.

Durante i test pratici, si è scoperto che utilizzare il SenseNova U1 per alcuni lavori creativi era anche molto interessante.

Nel test ufficiale, è stata caricata una foto del viso sul modello ed è stato richiesto di creare diverse acconciature. Si può notare che, durante l'intero processo di generazione continua di immagini e testo, SenseNova U1 ha mantenuto con precisione la coerenza del personaggio, nonché la struttura e i dettagli.

▲ Richiesta: Per favore, disegna per me alcune acconciature adatte. Spero che siano sia belle che originali, e poi aiutami a scegliere quella che mi si addice di più.

Potresti anche chiedergli di progettare un personaggio per un videogioco e di illustrare il processo iterativo logico che va dal tono visivo generale e dai dettagli interattivi principali fino alla narrazione ambientale e alla rappresentazione del personaggio.

La cosa ancora più interessante è che, data la natura cronologica della risposta, SenseNova U1 si è rivelato lo strumento perfetto per creare l'immagine. Gli abbiamo chiesto di generare il processo di trasformazione di un avocado in una pianta da interno in vaso, e il testo e le immagini in sequenza hanno presentato in modo impeccabile l'intero processo di crescita.

▲ Suggerimento: come coltivare un normale avocado in vaso da interno

Dopo una serie di test, le immagini non si sono mai discostate dalla logica del testo; ovunque conducesse il ragionamento, le immagini lo seguivano.

In precedenza, la combinazione di testo e immagini poteva richiedere l'utilizzo di diversi modelli e strumenti per garantire che testo e immagini nella risposta trasmettessero lo stesso messaggio. Ora, questo processo di scrittura avviene direttamente all'interno del modello, al livello più basso. Non è necessario ricorrere a strumenti o software per l'allineamento; è sufficiente visualizzare il risultato finale.

Per i creatori di contenuti, i designer e i professionisti del marketing, l'avvento di SenseNova U1 ha iniziato a risolvere un problema di lunga data: come consentire all'intelligenza artificiale di scrivere e disegnare simultaneamente, con un'integrazione perfetta di testo e grafica.

Il più potente open source con una grande quantità e soddisfa le esigenze

Dopo aver confermato la sua capacità nativa di generare una comprensione unificata, ora dobbiamo verificare se SenseNova U1 può raggiungere il livello migliore dei modelli open-source in termini di generazione di infografiche complesse.

Un'infografica è un modo per condensare una grande quantità di testo o dati complessi in un'unica immagine facilmente comprensibile. In realtà, si tratta di un'operazione molto più complessa del semplice "disegnare una bella immagine". Richiede la comprensione del contenuto, la capacità di distinguere le parti centrali da quelle supplementari, la comprensione delle relazioni logiche tra le informazioni e un'efficace resa del testo: tutti aspetti che presentano notevoli difficoltà.

Il software proprietario GPT Image 2 offre già ottime prestazioni in questo ambito, e all'inizio dei nostri test non nutrivamo grandi speranze che SenseNova U1 potesse superarlo. Tuttavia, le prestazioni di SenseNova U1 meritano a pieno titolo il titolo di software open-source all'avanguardia (SOTA).

Inizieremo utilizzando la frase "Spiega DeepSeek V4 con un'infografica" senza ulteriori suggerimenti per vedere quanto bene si comporta l'infografica che genera.

▲ Generato da SenseNova U1

È chiaro che SenseNova U1 ha effettuato ricerche online e trovato informazioni relative a DeepSeek V4, come la multimodalità nativa, trilioni di parametri e milioni di token di contesto.

Oltre ai semplici comandi vocali, è possibile inviare direttamente un link. SenseNova U1 dispone anche di un apposito strumento di web scraping per estrarre il contenuto delle pagine web e generare infografiche.

La SenseNova U1 gestisce con facilità la maggior parte di queste infografiche didattiche. Può anche generarne rapidamente di più semplici, come un diagramma 3D che spiega cos'è una sigaretta elettronica.

▲Generato da SenseNova U1

Se le istruzioni sono leggermente più dettagliate, il sistema può convertire accuratamente il testo in un'infografica altamente visiva, proprio come suggerito dalle istruzioni stesse.

Ad esempio, per la ricetta della sfoglia di tofu a tre sapori in stile Wuhan, recentemente diventata popolare, è possibile indicare direttamente a SenseNova U1 di generare un diagramma dettagliato dell'intero processo di produzione.

Con l'avvicinarsi dell'estate, la scelta della crema solare più adatta può essere facilitata anche da un'infografica che spiega in modo chiaro parametri di selezione complessi come i valori SPF e PA.

Può persino disegnare un diagramma che illustra il principio di funzionamento di un modello di intelligenza artificiale complesso, dall'addestramento all'inferenza, rendendolo facilmente comprensibile anche a chi non ha competenze tecniche; SenseNova U1 può inoltre utilizzare uno stile leggero e divertente per descrivere in modo semplice il processo di funzionamento di un modello di intelligenza artificiale complesso.

In altri scenari applicativi, come marketing, ufficio, riferimento di design e analisi aziendale, abbiamo testato le prestazioni di SenseNova U1 con diversi esempi.

In generale, gli scenari di marketing pongono le massime esigenze in termini di stile visivo e sono il miglior indicatore per capire se un modello comprende veramente "quali emozioni l'utente desidera trasmettere". Una buona immagine di marketing, inserita nel mezzo di un articolo, potrebbe persino essere scambiata per una pubblicità in-articolo su WeChat.

Proprio come questa infografica di viaggio su Shanghai, generata da SenseNova U1, che non solo raffigura la mappa, ma elenca anche le caratteristiche uniche di Shanghai.

In un ambiente d'ufficio, l'impatto visivo è più importante della precisione e dell'efficienza. Abbiamo testato le sue capacità di elaborazione delle informazioni comprimendo il verbale di una riunione di cinque pagine in un unico grafico riassuntivo di facile consultazione. Il grafico doveva essere logicamente chiaro, evidenziare i punti chiave ed essere adatto a essere inoltrato direttamente ai colleghi che non avevano partecipato alla riunione.

Oltre a fornire informazioni complesse, SenseNova U1 offre anche eccellenti riferimenti di stile visivo. Partendo dalla descrizione del tono di un marchio, è in grado di generare un'immagine di riferimento stilistica che includa suggerimenti per la combinazione di colori, il layout e parole chiave evocative, e il risultato è sorprendentemente buono.

Abbiamo inoltre testato le capacità di visualizzazione dei dati del SenseNova U1 in alcune attività di analisi dati, presentando infografiche più logiche sotto forma di grafici.

Come potete vedere, SenseNova U1 svolge un ottimo lavoro nell'estrazione delle informazioni; comprende veramente il contenuto e sa distinguere ciò che è importante da ciò che è secondario.

Tuttavia, c'è ancora margine di miglioramento nell'espressione visiva. A volte si verificano ancora errori nella visualizzazione di alcuni testi. Ma per scenari che richiedono una rapida generazione di immagini e non si vuole perdere tempo a effettuare ripetutamente modifiche con gli strumenti di progettazione, è già più che sufficiente.

Come sarà il prossimo modello multimodale

Dopo aver testato SenseNova U1, abbiamo scoperto che la sua importanza risiede nel fatto che è il primo modello open-source ad aver raggiunto seriamente un'unificazione di "comprensione e generazione". E questa potrebbe essere la prossima direzione per l'intero campo multimodale.

L'ampia diffusione di GPT Image 2 dimostra che i modelli proprietari hanno già fissato uno standard elevato per la qualità della generazione di immagini. Se i modelli open source continueranno a perseguire questo obiettivo nella stessa direzione, probabilmente ci vorrà molto tempo prima che riescano a raggiungerlo, e il valore dell'open source si ridurrà al solo "economicità".

SenseNova U1 offre un percorso tecnologico diverso ed è significativo per la direzione dell'intera comunità open-source. Oltre ad affrontare il tema di "come generare grafici migliori", ci indica anche come potrebbe essere il prossimo passo nei modelli multimodali.

▲ SenseNova U1 adotta l'architettura nativa NEO-unify, una novità assoluta nel settore, che consente una comprensione e una generazione multimodale efficienti e unificate.

Nei modelli multimodali tradizionali, la comprensione del grafo e la sua generazione sono due sistemi collaborativi. Un sistema si occupa di comprendere l'input, l'altro di disegnare l'output, con le informazioni trasmesse tramite un'interfaccia. Ogni sistema ha un proprio linguaggio interno e durante la trasmissione si verificano perdite di informazioni. È come se due persone comunicassero usando un software di traduzione: il significato generale viene compreso, ma manca sempre qualcosa.

SenseNova U1, d'altro canto, integra questi due elementi in un unico spazio di rappresentazione fin dalle fondamenta. Il loro post tecnico sul blog, pubblicato a marzo di quest'anno, si è concentrato sulla spiegazione dell'architettura NEO-unify.

La prassi attuale del settore per i modelli su larga scala prevede che l'elaborazione multimodale delle immagini AI si basi su un "encoder visivo (VE)" per comprimere ed elaborare le immagini prima di consegnarle al generatore. Nell'architettura NEO-unify, SenseTime ha completamente abbandonato questo paradigma tradizionale e macchinoso.

SenseNova U1, che incorpora l'architettura NEO-unify, utilizza un'interfaccia visiva quasi senza perdita di dati che incorpora direttamente porzioni di immagine senza alcuna compressione tramite encoder pre-addestrato. Successivamente, all'interno della stessa rete neurale di base, l'addestramento del testo e della visione viene eseguito end-to-end in modo unificato.

Nella comprensione e nella generazione di vari test di benchmark, le prestazioni di SenseNova U1 hanno raggiunto il livello di stato dell'arte (SOTA) dei modelli open-source della stessa scala, e le sue prestazioni in molte metriche sono addirittura paragonabili a quelle di modelli closed-source come Nano Banana.

▲ Questi sono i risultati dei test di riferimento per la comprensione delle immagini, la generazione di immagini e il ragionamento visivo, rispettivamente.

Si ritorna ai principi fondamentali dell'informatica multimodale, partendo dai pixel e dal testo sottostanti, e costruendo una propria cognizione interna.

Questo spiega anche perché consuma meno token e ha una maggiore efficienza di generazione. Persino la versione con soli 8 byte di parametri può raggiungere un rapporto costi-benefici estremamente elevato.

Questa versione open-source è di SenseNova U1 Lite, una versione leggera di SenseNova U1. Attualmente, sono disponibili due versioni: SenseNova-U1-8B-MoT con 8 miliardi di parametri, che può essere eseguita su dispositivi edge; e SenseNova-U1-A3B-MoT con un totale di 38 miliardi di parametri, di cui solo 3 miliardi attivi, che offre funzionalità più avanzate mantenendo i costi di inferenza molto bassi.

▲SenseNova U1 è già open source su GitHub e Hugging Face, link: https://github.com/OpenSenseNova/SenseNova-U1, https://huggingface.co/collections/sensenova/sensenova-u1

Entrambe le versioni possono essere distribuite localmente, ottimizzate e integrate nella propria pipeline di dati. Gli sviluppatori che necessitano di incorporare funzionalità di generazione di immagini nei propri prodotti hanno il controllo completo sul comportamento del modello e non è necessario esportare i dati.

Se hai bisogno di un modello in grado di raggiungere in modo efficiente comprensione e generazione, SenseNova U1, in quanto rappresentante più valido dei modelli open-source, merita sicuramente di essere provato.

SenseTime ha inoltre reso open source su GitHub SenseNova-Skills, una libreria di skill AIGC per runtime di agenti. Possiamo quindi integrare direttamente le potenti funzionalità di SenseNova U1 nei nostri flussi di lavoro per agenti.

Grazie a questo toolkit, possiamo richiamarlo direttamente con un solo clic all'interno di piattaforme Agent come OpenClaw e Hermes. Il modello valuta automaticamente i nostri input, seleziona il layout appropriato e, dopo diversi cicli di generazione, produce risultati infografici professionali di alta qualità.

▲ Link alle competenze: https://github.com/OpenSenseNova/SenseNova-Skills

Ripercorrendo l'intero test, SenseNova U1 ha fornito ottime prestazioni, risultando il modello open-source più performante della sua categoria tra quelli attualmente a nostra disposizione.

Per i creatori, la sua capacità, una novità assoluta nel settore, di generare testo e immagini in modo continuo, supera il limite della separazione tra testo e immagini, rendendo finalmente possibile la creazione coerente di pensieri, scrittura e inserimento simultaneo di immagini.

#Vi invitiamo a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove troverete al più presto contenuti ancora più interessanti.