Affinché l’hardware AI entri davvero nella nostra vita quotidiana, abbiamo bisogno di un nuovo “motore”

Il 2025 è considerato il primo anno di introduzione dell'AI Agent. Aziende tecnologiche come OpenAI, Google e Microsoft hanno proposto che gli Agent inizino a entrare a far parte della forza lavoro e persino a cambiare il modo di lavorare.
Allo stesso tempo, aziende come Google e OpenAI, i cui prodotti principali sono i software, hanno iniziato a lanciare hardware più intelligenti.
Questi due eventi non sono coincidenze isolate: insieme indicano un segnale chiaro.
Alla "Force Power Conference" di Volcano Engine tenutasi qualche giorno fa, Wu Di, responsabile dell'algoritmo intelligente a grande modello di Volcano Engine, ha ritenuto che rendere accessibili le capacità dell'intelligenza artificiale aiuterà l'aggiornamento completo dell'hardware IoT e dell'hardware leggero e che l'intero sistema di valori hardware potrebbe anche essere rimodellato .
In Cina, Volcano Engine, in quanto piattaforma di servizi cloud e AI, non è un produttore di hardware tradizionale, ma partecipa all'integrazione di prodotti hardware e AI in un altro modo. Nove dei primi dieci produttori di telefoni cellulari al mondo collaborano attivamente con Volcano Engine e l'architettura collaborativa end-cloud di Volcano Engine sta diventando il "cervello" e il "nervo" dell'hardware intelligente.
Nella nostra comunicazione con gli operatori del settore, abbiamo scoperto che le sfide che i produttori di hardware generalmente affrontano nell'integrazione con l'IA sono la frammentazione dell'ecosistema di mercato e gli elevati costi di sviluppo. Questo è anche un motivo importante per cui alcuni hardware per l'IA hanno vita breve, pur non diventando mai dispositivi di uso comune per gli utenti.
I concetti di "capacità atomiche" e "integrazione end-cloud" che Volcano Engine sottolinea ripetutamente nelle sue soluzioni hardware intelligenti colpiscono precisamente il nocciolo dell'attuale processo di intelligenza artificiale dei dispositivi IoT: come abbattere le barriere tra la fine e il cloud e consentire alle capacità di intelligenza artificiale di fluire più agevolmente verso ciascun terminale hardware.

Un'ampia quantità di hardware AIoT è diventata un punto di accesso importante per gli agenti. Chiunque assuma la leadership nel garantire una risposta end-to-end dei dispositivi sarà in grado di assumere la leadership in questo mercato emergente dell'AIoT.
Smontare la "potenza atomica" del Volcano Engine: la cassetta degli attrezzi dell'AIoT
Un bambino di 3 anni ha abbracciato un peluche e gli ha chiesto "Perché il cielo è blu?". Il peluche ha risposto immediatamente con una voce infantile, adattando il tono in base all'espressione del viso del bambino. Non si tratta di un film di fantascienza, ma di una scena che giocattoli di intelligenza artificiale come Haivivi hanno già realizzato.
Dietro tutto questo c'è in realtà la cassetta degli attrezzi dell'intelligenza artificiale di Volcano Engine composta da "capacità atomiche", un concetto proposto da Jiang Nan, responsabile delle soluzioni industriali pan-Internet di Volcano Engine.

Jiangnan ritiene che i fornitori di tecnologia dovrebbero " fornire servizi in modo atomico e componentistico ", ovvero suddividere le capacità dei grandi modelli di intelligenza artificiale (come voce, linguaggio, multimodalità, ecc.) in API/SDK standardizzati e componibili, affinché i partner possano utilizzarli in modo flessibile.
Le capacità atomiche non sono punti funzionali isolati, bensì "capacità come servizio", che non solo migliorano la flessibilità della cooperazione, ma abbassano anche notevolmente la soglia di sviluppo per i produttori, promuovendo così l'innovazione e la prosperità ecologica dell'intero settore.
Le capacità atomiche di Volcano Engine sono come mattoncini Lego: forniscono ai produttori di hardware una cassetta degli attrezzi intelligente praticamente "pronta all'uso".
iFan ha spiegato le "capacità atomiche" che Volcano Engine ha preparato per l'hardware intelligente:
- Bean bag modello grande: il “cervello intelligente” del dispositivo
- Piattaforma Coze: un "incubatore rapido" per applicazioni IA
- Tecnologia ASR/TTS: un motore vocale che consente ai dispositivi di “ascoltare e parlare”
- Comunicazione in tempo reale RTC: collegamento del cloud e dei dispositivi a una “rete neurale ad alta velocità”
- VLM Visual Language Model – Il cervello visivo che aiuta i dispositivi a “capire il mondo”
- Chiamata di funzione: uno strumento universale per chiamare servizi esterni

▲Un'immagine per comprendere la "cassetta degli attrezzi" del Volcano Engine Atomic Power
Nel campo dell'AIoT, il ruolo svolto da Doubao Big Model è ben più di quello di un semplice chatbot. Oltre a essere in grado di riconoscere le intenzioni dell'utente, possiede anche capacità di ragionamento logico sempre più avanzate, consentendo ai dispositivi hardware di esprimere un certo grado di autonomia di giudizio in scenari complessi.
Allo stesso tempo, il supporto del modello Doubao per l'interazione multimodale implica che i futuri dispositivi intelligenti non saranno più limitati a un singolo input vocale o di testo, ma saranno in grado di elaborare in modo completo più informazioni, come immagini e suoni, il che getta le basi per ottenere un'interazione uomo-computer più naturale, più vicina al modo in cui comunicano gli esseri umani.
Ad esempio, l'ultimo modello Seed 1.6 Flash di Doubao, in quanto modello combinato di linguaggio leggero e visivo, può generare 100 token in 1 secondo, migliorando notevolmente la velocità di risposta end-to-end.
Per quanto riguarda la piattaforma di sviluppo di agenti AI KouZi, questa permette ai product manager senza una profonda esperienza di programmazione di creare rapidamente applicazioni di intelligenza artificiale da zero. È come fornire un set di modelli di sviluppo "tutto in uno", accorciando notevolmente il ciclo dalla creatività al prodotto finale.
La capacità di integrazione del pulsante è particolarmente degna di nota. Permette al corpo intelligente di interagire direttamente con il mondo fisico: ad esempio, l'assistente AI non solo può rispondere alla domanda "che tempo fa oggi", ma anche aiutare attivamente ad accendere il condizionatore e a regolarlo alla temperatura desiderata. Questa capacità consente all'hardware di passare da una risposta passiva a un servizio attivo.
Nella fase di comunicazione, il riconoscimento vocale ASR e la tecnologia di sintesi vocale TTS rendono il dispositivo "in grado di ascoltare e parlare". L'ASR del Volcano Engine è in grado di riconoscere accuratamente i comandi anche in ambienti rumorosi, e la tecnologia TTS rende la voce del dispositivo non più fredda e più "umana". Dopo la connessione di Tuya Smart, la precisione del riconoscimento vocale è aumentata di oltre il 20%.
Un'altra tecnologia chiave è la tecnologia di comunicazione in tempo reale RTC, che è come un'"autostrada" che collega i dispositivi al cloud, garantendo che i dati audio e video possano essere trasmessi con bassa latenza ed elevata stabilità.
Questo è fondamentale per i giocattoli basati sull'intelligenza artificiale: quando un bambino pone una domanda, se deve attendere 3-5 secondi per una risposta, l'esperienza sarà notevolmente ridotta. Il Volcano Engine ottimizza il tempo di risposta a meno di 1 secondo, rendendo la conversazione naturale come la comunicazione nella vita reale.

Xing Xiaoci, responsabile dell'hardware intelligente di grandi dimensioni di Volcano Engine, ha sottolineato che le prestazioni end-to-end in tempo reale rappresentano la più grande sfida tecnica per l'implementazione dell'hardware intelligente AI , in particolare negli scenari di ragionamento basati su cloud, in cui la velocità di risposta influisce direttamente sull'esperienza dell'utente.
Grazie all'ottimizzazione integrata end-cloud, Volcano Engine ha migliorato notevolmente la velocità di risposta dell'interazione vocale tramite intelligenza artificiale e ha ottenuto conversazioni vocali in tempo reale: la più veloce impiega solo 1 secondo, mentre la media è inferiore a 1,5 secondi.
Per consentire al dispositivo di "comprendere il mondo", il modello di linguaggio visivo VLM consente alla telecamera non solo di "vedere" l'immagine, ma anche di "comprenderne" il contenuto. Ad esempio, può riconoscere i gesti e le espressioni dei bambini, oppure analizzare il contenuto dell'immagine e rispondere a domande correlate. Tutti i moduli intelligenti di Quectel sono stati collegati a questa capacità, consentendo ai dispositivi terminali di integrare perfettamente le funzioni di intelligenza artificiale multimodale.
La funzione di chiamata è come un telecomando universale che consente all'intelligenza artificiale di richiamare attivamente vari servizi esterni: controllare gli elettrodomestici, controllare il meteo, impostare promemoria e altre operazioni coerenti possono essere eseguite con un clic.
La vera competitività della soluzione di Volcano Engine non risiede nelle "capacità atomiche" in sé, ma nel modo in cui queste capacità vengono integrate organicamente.
Jiangnan ha dichiarato a iFanr che l'apertura delle capacità atomiche consente a Volcano Engine di servire l'intero ecosistema hardware, inclusi produttori di chip, produttori di macchine complete, marchi di terminali, ecc., formando un sistema di potenziamento integrato "cloud + terminale" .
Un sistema di servizi end-to-end così completo copre l'intera catena, dalla raccolta dei dati dei dispositivi all'elaborazione tramite edge computing fino al ragionamento su larga scala nel cloud. Questo "servizio unico" è completamente diverso dalla prassi dei tradizionali fornitori di servizi cloud che forniscono interfacce di intelligenza artificiale isolate.
Allo stesso tempo, grazie alla stretta collaborazione con produttori di moduli chip come Espressif, Broadcom Integrated Circuit, Quectel e Fibocom, Volcano Engine offre un supporto completo per "hardware + algoritmo + piattaforma". Questo modello di cooperazione consente alle aziende produttrici di hardware di integrare le funzionalità di intelligenza artificiale nei prodotti in modo più fluido.
Più che dire che Volcano Engine è un fornitore di tecnologia, si tratta piuttosto di un "gruppo consultivo militare di intelligenza artificiale" che supporta i produttori di hardware. Non solo fornisce tecnologia, ma, cosa ancora più importante, combina liberamente tecnologia di intelligenza artificiale ed esperienza operativa verificata da ByteDance in prodotti di fascia C come TikTok, come blocchi di costruzione, per supportare le aziende hardware di fascia B.
La nuova ondata di prodotti AIoT
Naturalmente, la vera prova del nove arriva dalla prima linea del mercato. Lo scheletro dell'architettura tecnica deve essere messo in pratica prima che possa avere nuova linfa vitale. Il "modello più solido, costi inferiori, implementazione più semplice" che Volcano Engine ha sempre sottolineato può davvero far sì che questi prodotti AIoT creino scompiglio nel mercato?

Haivivi non è più la "bambola intelligente" che può solo ripetere voci preimpostate. Grazie all'interazione a lungo termine con i bambini, è in grado di comprendere con maggiore precisione le espressioni linguistiche leggermente immature e a volte persino non standard dei bambini, di apprendere i loro interessi e preferenze, di offrire contenuti di compagnia personalizzati e persino di offrire conforto e incoraggiamento quando i bambini sono depressi. Pertanto, è apprezzata da molti genitori e bambini.
La chiave è la soluzione di dispositivi interattivi audio e video intelligenti. Haivivi ha creato un sistema interattivo AIoT completo integrando profondamente il modello vocale Doubao del Volcano Engine e i "pulsanti" per la costruzione degli agenti.
Secondo Gao Feng, co-fondatore di Haivivi, per ottenere un effetto interattivo naturale, il team di Haivivi e gli ingegneri di Volcano Engine hanno eseguito ottimizzazioni approfondite su più livelli.
Ad esempio, in termini di velocità di risposta dell'interazione vocale, ottimizzando il collegamento collaborativo end-cloud, il ritardo end-to-end dal comando vocale dell'utente al feedback del giocattolo viene controllato a un livello leader nel settore e in alcuni scenari può essere ottenuto entro 300 millisecondi.

▲Gao Feng, co-fondatore di Haivivi
Questo giocattolo di intelligenza artificiale può raccontare storie interessanti con passione ed emozione, e può anche fungere da compagno di pratica di inglese per i bambini, permettendo loro di esercitarsi a parlare e di giocare con le catene di modi di dire. In questi scenari di utilizzo comuni, è fondamentale garantire che i bambini si sentano immersi nel processo di conversazione.
A differenza di marchi come Haivivi che si rivolgono direttamente ai consumatori di fascia C, Tuya Smart, in qualità di fornitore globale di servizi di piattaforme di sviluppo IoT, si concentra maggiormente su come aiutare un gran numero di sviluppatori attraverso la sua collaborazione con Volcano Engine.
All'inizio di quest'anno, Volcano Engine e Tuya Smart hanno stretto una collaborazione per integrare completamente il modello Doubao nella piattaforma di sviluppo cloud Tuya AI e promuovere congiuntamente l'implementazione su larga scala di modelli AI di grandi dimensioni e tecnologie cloud native in molteplici scenari. Un po' come l'App Store nel mercato AIoT.

Un focus importante della cooperazione tra le due parti è il settore dei giocattoli di intelligenza artificiale. Gli sviluppatori possono integrare e richiamare in modo più semplice e centralizzato funzionalità di intelligenza artificiale multimodale come audio, video, immagini e testo sulla piattaforma Tuya.
Ciò significa che anche gli sviluppatori di giocattoli di piccole e medie dimensioni possono dotare i propri prodotti di funzioni di interazione AI avanzate a una soglia inferiore e a una velocità maggiore, e avere l'opportunità di sviluppare prodotti popolari più naturali e interessanti come Haivivi.
Non sono solo i giocattoli a vedere le vecchie categorie rimodellare le proprie esperienze grazie all'intelligenza artificiale. Anche i televisori, che hanno registrato un calo del tasso di apertura negli ultimi anni, stanno iniziando a cambiare.
Se gli utenti vogliono trovare un film con protagonista una determinata star in TV, devono cliccare sul telecomando strato per strato e navigare attraverso menu complessi.
Ora, basta dire "Voglio guardare il film di xx" e la TV non solo troverà immediatamente i video correlati, ma genererà anche in modo intelligente un poster esclusivo. La velocità di risposta dell'intero processo è controllata entro 1 secondo.
Nel suo discorso alla "Force Conference", Guo Shangfeng, Presidente dello Skyworth Research Institute e CTO di Coocaa, ha sottolineato un punto semplice ma fondamentale: il feedback in tempo reale è il fulcro dell'interazione ad alta frequenza con l'utente.

▲ Guo Shangfeng, Direttore dello Skyworth Research Institute e CTO di Coocaa
Coocaa definisce l'esperienza interattiva televisiva di cui sopra "un corpo super intelligente". Dietro si cela la comprensione semantica e le capacità di generazione personalizzata del modello Doubao Big, che comprende meglio le preferenze di visione dell'utente e integra a fondo la tecnologia di interazione vocale di Volcano Engine per ottenere dialoghi naturali e fluidi, semplificando la complessa modalità di interazione della TV che si affida al telecomando per cliccare strato per strato.
Questo servizio personalizzato si estende a molteplici scenari verticali come istruzione, sanità e servizi alla persona. Guo Shangfeng ha rivelato che la libreria di libri illustrati basata sull'intelligenza artificiale di Coocaa è in grado di generare storie personalizzate in 12 secondi, aumentando così il tasso di attività giornaliera dell'utente di oltre il 60%.
Se i giocattoli intelligenti e gli schermi intelligenti rappresentano gli aggiornamenti intelligenti dell'AIoT nel mercato esistente, allora gli occhiali AR (realtà aumentata) rappresentano la combinazione di intelligenza artificiale e hardware e hanno un grande potenziale nella creazione di mercati incrementali e nell'esplorazione della prossima generazione di terminali personali.
Wang Junjie, vicepresidente di Rokid e responsabile dell'XR Center, ritiene che gli occhiali AR diventeranno la prossima generazione di terminali per la fruizione delle informazioni personali, in grado di migliorare notevolmente l'efficienza e l'esperienza di interazione delle informazioni nel mondo tridimensionale.
La realizzazione di questa visione richiede in particolare la profonda integrazione tra calcolo spaziale e intelligenza artificiale multimodale. Attualmente, Rokid è completamente integrato nel modello di intelligenza artificiale multimodale Doubao.

▲Wang Junjie, vicepresidente di Rokid e responsabile del centro XR
In qualità di azienda leader nel campo della realtà aumentata nazionale, la collaborazione di Rokid con Volcano Engine ci rivela il ruolo chiave che l'intelligenza artificiale può svolgere nell'era dell'informatica spaziale.
Secondo Wang Junjie, attraverso la ricerca e lo sviluppo congiunti con Volcano Engine Doubao Big Model, Rokid non solo ha ottimizzato il collegamento dati dell'assistente AI integrato nei suoi occhiali AR, migliorato la precisione del riconoscimento vocale e la profondità della comprensione del linguaggio naturale, ma soprattutto, può combinare le capacità di comprensione multimodale di Doubao Big Model per integrare e sovrapporre meglio i risultati dell'analisi AI con l'ambiente fisico reale dell'utente, migliorando così l'esperienza complessiva delle applicazioni AR.
Ad esempio, quando un utente indossa occhiali AR e vede un dipinto, l'assistente AI non solo può identificare le informazioni sul dipinto, ma anche consigliare mostre d'arte correlate in base alle preferenze dell'utente; oppure, in uno scenario industriale, gli occhiali AR possono identificare guasti alle apparecchiature in tempo reale e sovrapporre le guide di manutenzione sotto forma di modello tridimensionale davanti ai lavoratori.
Dai giocattoli intelligenti in grado di "leggere" le emozioni dei bambini, ai maggiordomi da salotto in grado di prevedere le esigenze degli utenti, fino agli occhiali AR che integrano perfettamente il mondo virtuale e quello fisico, una nuova ondata di prodotti AIoT ha iniziato a emergere nel mercato hardware maturo.
Costruire la “Nuova Infrastruttura” nell’era dell’IA
Ciò che Volcano Engine fa sull'hardware intelligente è un percorso leggermente diverso nel mondo odierno, in cui i parametri dei modelli e le iterazioni degli algoritmi sono in forte crescita: vuole essere molto più di un semplice "fornitore di tecnologia" per l'hardware, e non si limita ad addestrare un modello più bravo a "sostenere esami" o un robot più bravo a "chiacchierare".
Nella sceneggiatura di Volcano Engine, l'intelligenza artificiale deve davvero "passare all'azione", con un gran numero di dispositivi AIoT naturalmente integrati nella vita degli utenti, diventando un partner percettivo, pensante e caloroso.
Per integrare l'intelligenza artificiale in dispositivi terminali a basso consumo energetico, hanno addirittura compresso l'SDK del terminale in un dispositivo a basso consumo con soli 100 KB di memoria, in modo che anche un hardware dal valore di poche centinaia di yuan possa avere un "cervello intelligente".
Dietro tutto questo c'è la rifinitura quasi maniacale dell'architettura collaborativa end-cloud e la ricerca ultima del controllo dei costi. Quando il costo del ragionamento su modelli di grandi dimensioni sarà notevolmente ridotto, l'IA non sarà più il "giocattolo esclusivo" di pochi giganti, ma ci si aspetterà davvero che "entri nelle case della gente comune".
Volcano Engine ha recentemente lanciato il servizio MCP. Le aziende tradizionali o i team di startup che si trovano ancora nel "villaggio dei principianti" in termini di accumulo di tecnologia AI potrebbero utilizzare il servizio MCP per installare in modo rapido, comodo e a basso costo i motori di IA sui propri prodotti, ottenendo così un upgrade con un solo clic da "feature phone" a "smartphone". Come ha affermato Xing Xiaoci nella sua condivisione:
Nuovi servizi come MCP abbassano ulteriormente la soglia di sviluppo complessiva e innalzano il limite superiore dell'intelligenza, rendendo le esperienze di intelligenza artificiale più complesse e intelligenti ampiamente applicabili a vari settori.
Questa integrazione tra hardware e intelligenza artificiale non riguarda solo la fornitura di un'interfaccia API, ma un servizio completo dal "chip" alle "vendite":
Dalle tecnologie di base "hard dish" come il modello Doubao Big e la comunicazione in tempo reale RTC, alla piattaforma di sviluppo "quick dish" di applicazioni AI come Button, fino al coinvolgimento di produttori di moduli chip come Broadcom Integrated e Fibocom per un'ottimizzazione congiunta, possiamo persino aiutarti a connetterti ai canali di e-commerce per "portare merci".
Questo ciclo ecologico completo, dalla tecnologia di base all'applicazione di livello superiore, non è una semplice estensione aziendale, ma piuttosto una ridefinizione del livello infrastrutturale. Xing Xiaoci ci ha detto che l'hardware intelligente sta evolvendo da "funzionale" a "orientato al servizio" .
Quindi, che si tratti di software o hardware, Volcano Engine sembra cercare di costruire una "nuova infrastruttura" nell'era dell'intelligenza artificiale .
Nel flusso in continua evoluzione dell'intelligenza artificiale, non solo i nostri metodi di lavoro subiranno cambiamenti, ma anche il mercato dell'hardware intelligente probabilmente inaugurerà un "rimpasto", aprendo un nuovo panorama competitivo. In questo nuovo scenario, Volcano Engine sta già funzionando a pieno ritmo e anche altri produttori si stanno unendo al gioco.
Potremmo anche essere in grado di guardare avanti a una nuova vita dopo l'emergere di questi prodotti AIoT: l'architettura tecnica della fusione multimodale, la collaborazione end-cloud e le capacità di servizi autonomi basati su agenti, consentendo all'hardware intelligente di passare alla prossima dimensione di "intelligenza": comprendere veramente gli utenti, essere più personalizzato e passare da un servizio passivo a uno attivo.
#Benvenuti a seguire l'account pubblico ufficiale WeChat di iFanr: iFanr (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il prima possibile.

