Ho riprogettato manualmente macOS utilizzando il Doubao Big Model 2.0. Dopo Seedance 2.0, ByteDance ci farà un altro regalo di intelligenza artificiale per il Capodanno cinese.

Negli ultimi giorni, i miei WeChat Moments sono stati inondati di video di Seedance 2.0, dando l'impressione che chiunque possa diventare regista. Tuttavia, proprio mentre tutti guardavano con entusiasmo e discutevano di come l'intelligenza artificiale avrebbe rivoluzionato Hollywood, è stata ufficialmente rilasciata l'intera suite di Doubao Big Model 2.0.

Si tratta anche del primo aggiornamento generazionale del modello Doubao di grandi dimensioni dalla sua uscita ufficiale nel maggio 2024.

A dire il vero, come persona che usa l'intelligenza artificiale come strumento di produttività, sono principalmente due le cose che mi preoccupano: può davvero portare a termine i compiti? E ​​può essere più economica? L'ultimo aggiornamento di Doubao Big Model 2.0 offre una risposta molto semplice: può comprendere grafici e documenti, comprendere lunghi video, scrivere codice utilizzabile e ridurre i costi.

Inoltre, non si tratta semplicemente dell'aggiornamento di un singolo modello, ma di un intero set di "pugni combinati".

La serie Doubao Big Model 2.0 include tre modelli di Agent generici (Pro, Lite e Mini) e un modello di Codice, che si adattano in modo flessibile a diversi scenari aziendali. Ora puoi provare la nuova versione aggiornata di Doubao Big Model 2.0 Pro aprendo l'app Doubao, il client per PC o la versione web e cliccando su "Modalità Esperto".

  • Doubao 2.0 Pro: un concentrato di componenti ad alte prestazioni, specializzato in inferenza profonda e attività a catena lunga. Ufficialmente, è considerato pienamente paragonabile a GPT-5.2 e Gemini 3 Pro.
  • 2.0 Lite: si propone di essere una macchina "due in uno", un maestro nel bilanciare prestazioni e costi, e le sue capacità complessive hanno superato quelle del pilastro della generazione precedente, il Beanbag 1.8.
  • 2.0 Mini: bassa latenza, elevata concorrenza, progettato specificamente per scenari in cui i costi sono estremamente sensibili.
  • Versione del codice (Doubao-Seed-2.0-Code): progettata specificamente per i programmatori. Si consiglia di utilizzarla insieme allo strumento IDE TRAE per risultati migliori.

Quanto è potente la comprensione multimodale del video da parte di Doubao, che supera persino le capacità umane?

Se i modelli di testo sono il cervello dell'intelligenza artificiale, la comprensione multimodale è il suo occhio.

I rapporti tecnici ufficiali mostrano che la serie Doubao Big Model 2.0 ha ottenuto i punteggi più alti del settore in benchmark quali VLMsAreBiased e OmniDocBench.

I dati possono essere aridi, quindi abbiamo trovato una divertente immagine creata dagli internauti: una bottiglia di shampoo da uomo che vanta un effetto "20 in 1". La bottiglia è densamente riempita con vari tipi di prodotti.

Anche dopo aver troncato il testo, Doubao 2.0 Pro lo ha riconosciuto chiaramente attraverso il contesto. Inoltre, invece di limitarsi a presentare il prodotto, ha dichiarato esplicitamente che si trattava di un "espediente".

Ciò corrisponde alle prestazioni di alto livello di ChartQAPro e OmniDocBench 1.5 menzionate nei dati ufficiali: non solo analizzano, ma comprendono anche le relazioni gerarchiche delle informazioni.

Questa "comprensione" si traduce in produttività sul posto di lavoro.

Un gran numero di query utente reali riguardava immagini complesse: screenshot, grafici, documenti scansionati. Ho provato a inviargli un documento tecnico sul Big Model 2.0 di Doubao e a chiedergli di analizzarlo. Con mia sorpresa, non solo ha estratto le informazioni chiave, ma ha anche generato una mappa mentale e una presentazione PowerPoint, creando un framework piuttosto completo.

Anche nella comprensione dei video, ha dimostrato il potenziale di un "dipendente dal binge-watching". Il rapporto tecnico menziona che il modello 2.0 di Doubao ha superato i punteggi umani nel benchmark EgoTempo.

Si tratta davvero di essere migliori degli altri? Gli abbiamo mostrato un'immagine della serie TV "My Sunshine" e gli abbiamo chiesto: "Da questa foto, riesci a capire se l'uomo è del Sud o del Nord?"

Si tratta di una tipica domanda di un test misto che combina "percezione visiva, conoscenza e ragionamento". Il Big Model 2.0 di Doubao ha reagito molto rapidamente, non solo riconoscendo la serie TV "My Sunshine" e l'attore Wallace Chung, ma anche fornendo un rapporto di analisi chiaro e approfondito basato sull'ambientazione del romanzo originale.

Anche nella comprensione di video di lunga durata, i suoi punteggi elevati su TVBench e MotionBench si riflettono nei test pratici: riesce ad analizzare con precisione il ritmo dei movimenti in un video di lunga durata. Per i settori che necessitano di elaborare flussi di sorveglianza e analizzare eventi sportivi, questo è di gran lunga più prezioso.

Un genio della ricerca incontra un novizio della vita

In termini di ragionamento logico, i risultati dei test di benchmark mostrano che Doubao 2.0 Pro ha ottenuto un punteggio superiore a GPT-5.2 nel SuperGPQA (Q&A a livello universitario) e ha persino vinto una medaglia d'oro nel test IMO (Olimpiade Internazionale della Matematica).

Che si tratti di "Dato che Sun Wukong ha imparato l'arte dell'immortalità, perché è morto comunque all'età di 342 anni?" o "Due armi, una con un attacco di 1-5 e l'altra con un attacco di 2-4, da un punto di vista dei dati, quale delle due è più potente?", queste domande ovviamente non lasceranno Doubao perplesso.

Tuttavia, anche questo "genio accademico" in grado di risolvere problemi di matematica delle Olimpiadi ha sbagliato una domanda di buon senso su un autolavaggio a 50 metri di distanza: "Voglio farmi lavare la macchina. L'autolavaggio è a 50 metri da casa mia. Devo andarci in auto o a piedi?".

Una persona normale penserebbe: "Guida fin lì, altrimenti perché lavarla?". Doubao 2.0 Pro, tuttavia, è caduto in un profondo "ragionamento eccessivo". Ha iniziato ad analizzare i costi delle distanze, i benefici per la salute del camminare, i costi di avviamento del veicolo… e alla fine, mi ha seriamente consigliato di andare a piedi.

Questo è anche un problema comune con gli attuali modelli di grandi dimensioni. Pur avendo capacità di ragionamento a livello di ricerca scientifica, mancano ancora di un'intuizione basata sul buon senso e sul mondo fisico. Si può solo dire che c'è ancora molta strada da fare.

Una buona intelligenza artificiale è quella che ti aiuta a lasciare il lavoro prima.

L'ambizione più grande di questo aggiornamento risiede in realtà nell'Agent (agente intelligente). Il team di Seed ha scoperto un punto debole: il modello può risolvere i problemi, ma non è in grado di gestire attività a lungo termine (come la scrittura di un'app completa o la progettazione di un esperimento).

Per affrontare questo problema, il modello 2.0 di Doubao si concentra sul miglioramento dell'aderenza alle istruzioni e delle attività a lungo termine. Ha ottenuto il primo posto su HealthBench e ha ottenuto ottimi risultati su FrontierSci.

Nei test pratici, questo si traduce nella sua capacità di funzionare come un vero e proprio "assistente di ricerca". Quando gli è stato presentato un problema biologico impegnativo – "l'analisi delle proteine ​​del Golgi" – non ha offerto spiegazioni vaghe. Non solo ha fornito una tabella di marcia generale, ma ha anche integrato ingegneria genetica, costruzione di modelli murini e analisi multi-omica in un processo completo.

Per quanto riguarda la programmazione, per verificare il "contenuto del codice" di Doubao Big Model 2.0, abbiamo aperto direttamente l'IDE di ByteDance, TRAE, e lo abbiamo chiamato Doubao-Seed-2.0-Code, che è specificamente ottimizzato per la programmazione.

Ad esempio, può essere utilizzato con p5js per creare splendide animazioni interattive multicolore, con un effetto davvero impressionante. Il codice funziona senza intoppi al primo tentativo e i colori che scorrono sullo schermo non solo sono fluidi, ma anche la logica interattiva soddisfa tutte le aspettative.

Successivamente, gli abbiamo chiesto di creare un sistema desktop macOS interamente da zero, utilizzando codice puro. Le animazioni del dock, la gerarchia delle finestre e la barra dei menu in alto erano piuttosto ben fatte, ma l'estetica poteva essere migliorata e le prestazioni complessive erano mediocri.

Come ha affermato il team Doubao Big Model nella sua scheda modello:

È importante notare che la serie Seed 2.0 è ancora in ritardo rispetto ai principali modelli linguistici internazionali. Seed ha chiaramente definito la propria direzione: migliorare la capacità del modello di affrontare le complessità del mondo reale e ha investito notevoli sforzi nell'ottimizzazione della serie di modelli Seed a tal fine.

Ma niente di tutto ciò ha importanza quando si parla di prezzo. Perché, sebbene il Big Model 2.0 di Doubao migliori le prestazioni, riduce anche il prezzo dei token di circa un ordine di grandezza.

Questa è una logica aziendale molto realistica. Quando i costi di ragionamento diventano più convenienti, molti scenari, come l'analisi completa dei documenti e il monitoraggio dei flussi video in tempo reale, diventano improvvisamente realizzabili.

immagine

Sulla base di quel lungo report di benchmark, la mia conclusione più importante può essere riassunta in due parole: pratico. Non è perfetto, ma per i professionisti, un'intelligenza artificiale che aiuti a comprendere grafici, scrivere codice solido e che sia conveniente potrebbe essere molto più utile.

Dopotutto, una buona intelligenza artificiale è quella che ci aiuta a lasciare il lavoro prima.

In allegato una scheda modello di 79 pagine:
https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/seed2/0214/Seed2.0%20Model%20Card.pdf

#Benvenuti a seguire l'account WeChat ufficiale di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il ​​prima possibile.

ifanr | Link originale · Visualizza commenti · Sina Weibo