Il nuovo Doubao Big Model 1.6 mi ha salvato dagli straordinari! C’è anche uno strumento video che supera Veo 3 e si piazza al primo posto al mondo.
In che misura questo grande modello è diventato involuto?
Guardando al ritmo di quest'anno, ByteDance propone nuove idee quasi ogni mese, e persino più di un modello al mese. Ha lanciato un modello dopo l'altro, e non sono solo nuovi, ma presentano anche veri e propri aggiornamenti, che continuano ad alzare la soglia competitiva del settore.
A gennaio è stato lanciato il modello Doubao 1.5 Pro.
Ad aprile sono stati aggiornati simultaneamente il modello di pensiero profondo Doubao 1.5, il modello Wenshengtu 3.0 e il modello di comprensione visiva.
A maggio sono richiesti il modello di generazione video Seedance 1.0 lite, il modello di pensiero profondo visivo Doubao 1.5 e il modello musicale, testo, immagini, suoni e byte.
Alla Force Power Conference tenutasi oggi da Volcano Engine, la linea di prodotti AI di ByteDance ha continuato a realizzare prodotti privi di metafisica, concentrandosi su grandi quantità e sul pieno utilizzo immediato.
Sono comparsi uno dopo l'altro nuovi modelli come Doubao Big Model 1.6, il modello di generazione video Seedance 1.0 pro, DeepResearch in grado di redigere report di settore e servizi cloud nativi di intelligenza artificiale come la piattaforma di sviluppo Agent.
In definitiva, potresti non comprendere appieno Transformer, ma puoi sicuramente percepire che questi prodotti di intelligenza artificiale possono davvero fare cose per le persone.
I punti salienti dell'aggiornamento del prodotto sono i seguenti:
Modelli della serie Doubao 1.6
- Capacità di ragionamento migliorate, supportando "pensa durante la ricerca" e "ricerca approfondita"
- Ottima capacità di comprensione multimodale, migliore comprensione e gestione dei problemi del mondo reale
- Il funzionamento dell'interfaccia utente grafica è più intelligente e interagisce in modo fluido con altri strumenti
- Ottimo rapporto qualità prezzo
Modello di generazione video Seedance 1.0 pro
- Riprese multiple e diversi cambi di scena, che aumentano la quantità di informazioni e la narrazione
- Miglioramento della continuità del movimento, della stabilità dell'immagine e della consistenza complessiva
Doubao Big Model 1.6: ottimo per sostenere gli esami, in grado di prenotare hotel e con un rapporto costi-benefici elevato
Il pezzo forte di questa conferenza è la serie Doubao Big Model 1.6, composta da tre modelli.
Doubao-Seed-1.6: un modello completo “tutto in uno”
Supporta il pensiero profondo, la comprensione multimodale e il funzionamento dell'interfaccia grafica. Il pensiero profondo ha tre modalità: attiva, disattiva e automatica. In modalità adattiva, il modello decide automaticamente se abilitare il pensiero profondo in base alla difficoltà del compito, risparmiando tempo e token. Inoltre, è il primo modello in Cina a supportare il contesto a 256k.
Doubao-Seed-1.6-thinking: una versione migliorata in termini di pensiero profondo
1.6 – Il pensiero è al centro di questo aggiornamento. La capacità di pensiero è stata rafforzata e ora è in grado di comprendere e gestire compiti complessi con maggiore precisione. Sono stati apportati ulteriori miglioramenti nella codifica, nella matematica, nel ragionamento logico e nel seguire le istruzioni. Supporta anche il contesto a 256k e il ragionamento multimodale.
Doubao-Seed-1.6-flash: la versione più veloce della serie 1.6
La latenza è estremamente bassa, il che lo rende ideale per scenari sensibili alla bassa latenza. La comprensione del testo è migliore rispetto a Doubao 1.5-lite e la comprensione visiva è paragonabile ai migliori prodotti di altri produttori.
Alla conferenza, i modelli della serie Doubao 1.6 hanno annunciato una serie di autorevoli risultati di valutazione. In particolare, le prestazioni della Doubao 1.6-thinking si sono classificate tra le migliori al mondo.
capacità di ragionamento
Non è una novità sostenere esami di modellismo, ma è raro ottenere un punteggio alto come quello dell'Università di Pechino o dell'Università di Tsinghua.
Prendendo come esempio le capacità di ragionamento, Doubao 1.6 ha compiuto progressi significativi rispetto ai modelli precedenti. Quest'anno, Doubao ha ottenuto 144 punti nelle domande di matematica del nuovo esame nazionale di ammissione all'università, classificandosi al primo posto nel Paese. Utilizzando il test completo simulato di Haidian, rispetto ai 500-600 punti dell'anno scorso, Doubao 1.6 ha ottenuto oltre 700 punti sia in arti liberali che in scienze quest'anno.
Uno dei punti di forza di Doubao in termini di ragionamento logico è che non solo pensa autonomamente, ma sa anche "cercare mentre pensa". Prima scompone il problema, trova le informazioni chiave, effettua un ciclo di riflessione e poi effettua diversi cicli di ricerca in base alle informazioni mancanti.
Ad esempio, quando a Doubao è stato chiesto di "descrivere dettagliatamente la distribuzione di insetti e specie comuni nella provincia del Guangdong e presentarli sotto forma di rapporto di ricerca", l'azienda ha innanzitutto considerato i requisiti di formato del rapporto di ricerca durante la sua approfondita riflessione, per poi definire rapidamente la struttura di ordinamento. A quel punto, Doubao ha ritenuto che "il contenuto dovesse essere supportato da dati ed esempi specifici", quindi ha iniziato a ricercare autonomamente dati sull'ambiente naturale nella provincia del Guangdong e ricerche correlate precedenti.
Durante l'incontro è stato anche menzionato che Doubao sta attualmente testando la funzione DeepResearch. In passato, i professionisti impiegavano diverse ore o giorni per scrivere un report professionale, ma Doubao può completarlo in 5-30 minuti. Può anche estrarre automaticamente le informazioni e riassumerle in una pagina web consultabile da chiunque.
Inoltre, per facilitare gli utenti aziendali nell'uso delle funzioni "pensa mentre cerchi" e "DeepResearch", il sito Web ufficiale di Volcano Engine ha lanciato un grande laboratorio di applicazioni modello e ha reso open source il codice, consentendo agli utenti di creare i propri prototipi di applicazioni di intelligenza artificiale e di orchestrare in modo flessibile le proprie entità intelligenti.
Capacità di comprensione multimodale
L'intera serie Doubao 1.6 supporta in modo nativo le capacità di pensiero multimodale, consentendo al modello di comprendere e gestire meglio i problemi del mondo reale.
La comprensione multimodale supporta l'ultima funzionalità di Doubao per le "videochiamate in tempo reale". In ambito aziendale, può essere ampiamente utilizzata nella revisione di prodotti e-commerce, nell'etichettatura per la guida autonoma, nelle ispezioni di sicurezza e in altri scenari.
Ad esempio, il modello può essere utilizzato per condurre recensioni standardizzate di immagini caricate dai commercianti oppure per confrontare rapidamente i prezzi di prodotti simili.
Nel settore automobilistico, i modelli possono essere utilizzati per identificare con maggiore precisione la direzione di marcia di un'auto e le intenzioni di guida, nonché per selezionare segmenti specifici da enormi quantità di dati stradali per addestrare modelli di guida autonoma successivi.
In scenari più offline, Doubao può individuare e contare con precisione le informazioni presenti nell'immagine, completando così attività quali ispezioni di sicurezza e ispezioni dei negozi.
Ad esempio, lasciamo che Doubao 1.6-thinking verifichi se ci siano potenziali rischi per la sicurezza causati dalla mancanza del casco in una foto di esplorazione speleologica. Attraverso un'analisi approfondita, non solo può contare con precisione il numero di caschi indossati nella foto, ma anche, sorprendentemente, può riflettere ulteriormente sulla domanda "È sicuro indossare un casco?", e quindi analizzare se i caschi nella foto sono indossati correttamente, se l'abbigliamento è appropriato, se l'impianto di illuminazione è completo, se la distanza di sicurezza percorribile è appropriata, ecc., e infine stabilire la priorità di correzione.
Capacità di funzionamento GUI
Grazie alla sua capacità leader di pensiero visivo profondo e alla precisa capacità di posizionamento visivo, Doubao 1.6 consente agli agenti intelligenti di interagire e operare senza problemi con browser e altri strumenti, e di eseguire in modo efficiente attività quali lo screening delle prenotazioni alberghiere e l'ordinamento dei biglietti.
Il funzionamento dell'interfaccia utente grafica (GUI) del modello non sostituisce solo la comodità di cliccare sull'APP con le dita, ma può superare i limiti delle APP e delle GUI tradizionali per soddisfare le esigenze essenziali delle persone in modo più intelligente e automatico.
Efficacia dei costi
Doubao Big Model 1.6 adotta un modello di prezzo unificato. Indipendentemente dal fatto che la modalità di pensiero profondo sia attivata o meno, che si tratti di testo o di immagini, il prezzo dei token è lo stesso e si basa sull'intervallo di lunghezza del contesto di input.
Nell'intervallo di input da 0 a 32k utilizzato dalla maggior parte delle aziende, il prezzo è di 0,8 yuan/milione di token per l'input e di 8 yuan/milione di token per l'output.
Nell'intervallo di input compreso tra 32k e 128k, il prezzo è di 1,2 yuan/milione di token per l'input e di 16 yuan/milione di token per l'output.
Nell'intervallo di input compreso tra 128k e 256k, il prezzo è di 2,4 yuan/milione di token per l'input e di 24 yuan/milione di token per l'output.
Dal punto di vista del costo complessivo, la maggior parte degli input richiesti rientra nei 32.000 e il rapporto input-output è di 3:1. Il costo complessivo di Doubao Large Model 1.6 (2,6 yuan) è inferiore del 63% rispetto al costo complessivo di Doubao Large Model 1.5 Deep Thinking Model e DeepSeek R1 (7 yuan). Ciò significa che è possibile utilizzare un nuovo modello con funzionalità più potenti e multimodalità nativa a solo un terzo del prezzo originale.
Questa volta, Volcano Engine ha anche aggiunto una speciale zona di sconto. Per le richieste con un input di 32.000 e un output inferiore a 200 token, il prezzo del Doubao Large Model 1.6 sarà ulteriormente ridotto a 0,8 yuan/milione di token per l'input e 2 yuan/milione di token per l'output. Questo è equivalente alle esigenze della maggior parte dei modelli non pensanti, e anche voi potrete utilizzare il nuovo modello con effetti migliori in tutta tranquillità.
Seedance 1.0 pro è ora disponibile: puoi girare film di successo senza spendere soldi
Oltre ai modelli della serie Doubao Big Model 1.6, Volcano Engine ha presentato alla conferenza stampa anche un nuovo modello di generazione video, Seedance 1.0 pro.
Il primo cambiamento degno di nota in questo modello è la svolta nel linguaggio delle lenti.
Il modello supporta l'inserimento di testo e immagini e può generare video 1080P di alta qualità con commutazione multi-obiettivo fluida. Seedance 1.0 Pro si concentra su un caso d'uso multi-azione e sul movimento libero della telecamera, che non solo supporta la generazione di video di 10 secondi con commutazione di 2-3 obiettivi, ma anche la commutazione tra campi lunghi, medi e primi piani, migliorando notevolmente il contenuto informativo e la narrazione del video.
Inoltre, grazie al set di dati multidimensionali e al meccanismo di apprendimento tramite feedback introdotto nella fase di post-addestramento, il nuovo modello mantiene un livello molto elevato in termini di continuità del movimento, stabilità dell'immagine e consistenza complessiva.
Il nuovo modello video di Doubao non si ferma alla fase di demo. Che si tratti di creare spot pubblicitari, di realizzare rapidamente bozzetti per storyboard o di offrire ai clienti la possibilità di creare personaggi e video di trama per videogiochi, il nuovo modello video di Doubao si sta muovendo passo dopo passo verso questi scenari altamente produttivi.
Le classifiche di Artificial Analysis, un'agenzia di valutazione indipendente, mostrano che Seedance 1.0 è attualmente il modello più quotato sia nella classifica cinese che in quella inglese.
Nella classifica dei video di Wensheng, Seedance 1.0 ha un punteggio ELO di 1299, superando Veo 3 Preview di Google, Veo 2 e la serie Keling di Kuaishou. Nella classifica dei video di Tusheng, Seedance 1.0 ha un punteggio ELO di 1343, superando Runway Gen 4, Keling 2.0, ecc., ed è invincibile.
Sebbene le prestazioni siano massimizzate, il prezzo è sorprendentemente conveniente.
Con un budget di 10.000 RMB, è possibile generare 2.725 video (5 secondi a 1080P) con Seedance 1.0 Pro, equivalenti a 9.708 video (5 secondi a 720P) con Seedance 1.0 Lite. A titolo di confronto, la produzione di prodotti concorrenti come KeLing v2.1 Master Edition e Veo2 (5 secondi a 1080P) è inferiore a 1.000.
Oltre al modello di generazione video, Doubao ha lanciato contemporaneamente anche un modello vocale in tempo reale su vasta scala, spingendo l'antropomorfismo e il controllo semantico a nuovi livelli.
Può regolare in modo flessibile tono, volume, ecc. in base al contesto; supporta interazioni vocali espressive come il canto e il sussurro; e supporta persino i dialetti locali, incluso il dialetto del Sichuan. Durante la dimostrazione dal vivo, il modello vocale Doubao ha anche cantato "La luna rappresenta il mio cuore". Sapete cosa? Sembra davvero interessante.
Per quanto riguarda gli scenari applicativi concreti, oltre alla collaborazione con Mercedes-Benz per sviluppare l'interazione vocale in auto, Doubao ha anche lanciato un "modello di generazione di podcast" basato sulla tecnologia vocale in tempo reale, che supporta strutture vocali complesse come conversazioni naturali, interruzioni e pause tra più persone.
È in grado di riconoscere automaticamente il contenuto in ingresso (prompt, link web, testo lungo) e quindi generare automaticamente uno script completo per il podcast + contenuti audio antropomorfi. Dal ritmo all'interiezione, fino al tono di una clip di podcast mostrata sul sito, non c'è quasi traccia di intelligenza artificiale.
Il 2025 è il primo anno di Agent. Come integrare realmente un Agent nel sistema aziendale è diventato un problema pratico per tutti i produttori.
Per supportare al meglio lo sviluppo e l'applicazione degli agenti, Volcano Engine ha lanciato in un'unica soluzione un set completo di prodotti AI cloud-native full-stack, dai servizi MCP, agli strumenti di prompt intelligenti PromptPilot, ai sistemi di gestione della conoscenza AI, ai framework di apprendimento rinforzato veRL, ai data lake multimodali, al private computing AICC e ai firewall per applicazioni di modelli di grandi dimensioni.
Tan Dai, presidente di Volcano Engine, ha sottolineato l'importanza della "sicurezza" per Agentic AI e ha presentato due prodotti di sicurezza AI che saranno lanciati a breve: "AICC Confidential Computing" e "Large Model Application Firewall".
Tra queste, l'AICC Confidential Computing può consentire alle aziende di utilizzare i servizi cloud in modo sicuro e conforme, proprio come se si utilizzassero modelli privati, garantendo al contempo l'effetto di ragionamento.
Il firewall applicativo di grandi dimensioni è derivato da "Volcano Ark" ed è in grado di intercettare varianti di attacco con bassa latenza ed elevata precisione, creando uno spazio di ragionamento sicuro e affidabile per le applicazioni aziendali intelligenti.
Per tutta la conferenza stampa, Volcano Engine non ha continuato a elevare la narrazione dell'intelligenza artificiale (AGI). Ha invece riportato la sua prospettiva al presente, concentrandosi sui prodotti di intelligenza artificiale che possono essere implementati, distribuiti ed eseguiti in ambienti di produzione già oggi.
Negli ultimi sei mesi, il consenso del settore è diventato sempre più chiaro: la seconda metà dell'IA è in realtà la prima metà del prodotto. Le differenze nei parametri continueranno a essere eliminate, ma l'efficienza delle chiamate, il percorso di integrazione e il costo di utilizzo del prodotto determineranno il tasso di fidelizzazione degli utenti.
Ecco perché, nella conferenza stampa di oggi, oltre al Doubao Big Model 1.6 e al modello di generazione video Seedance 1.0 pro, Volcano Engine ha lanciato contemporaneamente anche una serie di funzionalità del prodotto che non sembrano così esplosive, ma sono estremamente importanti.
Dalla chiamata del modello alla combinazione di scenari specifici fino all'esecuzione in ciclo chiuso sicura e stabile, queste capacità devono essere collegate tra loro per formare un sistema di produzione di intelligenza artificiale realmente utilizzabile.
Forse non sarà la soluzione più accattivante, ma potrebbe essere la più fattibile e quella più vicina all'"usabilità".
Autore: Wang Xin, Mo Chongyu
#Benvenuti a seguire l'account pubblico ufficiale WeChat di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il prima possibile.