Il fondatore ideale Li Xiang parla ancora: non perseguire Tesla FSD, il tuo insegnante è DeepSeek

Nel marzo di quest'anno, alla conferenza GTC di primavera 2025 di NVIDIA, Jia Peng, responsabile della ricerca e sviluppo della tecnologia di guida autonoma presso Li Auto, ha presentato sul palco il suo ultimo risultato: il modello grande MindVLA.

Si tratta di un modello VLA (Vision-Language-Action Model) con 2,2 miliardi di parametri. Jia Peng ha inoltre affermato di aver implementato con successo il modello sull'auto. Idealmente, il modello VLA è il modo più efficace per risolvere il problema dell’interazione tra l’intelligenza artificiale e il mondo fisico.

Nell’ultimo anno, l’architettura end-to-end è diventata un hotspot tecnologico nel campo della guida intelligente, spingendo le case automobilistiche a passare dalla tradizionale progettazione di regole modulari a sistemi integrati. Le case automobilistiche che un tempo guidavano facendo affidamento su regole e algoritmi stanno affrontando il dolore della trasformazione, mentre i ritardatari hanno colto l’opportunità di sorpassare in curva.

L'ideale è uno dei rappresentanti.

Lo scorso anno Ideal ha compiuto rapidi progressi nel campo della guida intelligente. A luglio, ha preso l'iniziativa di realizzare la NOA (Navigation Assisted Driving) nazionale senza mappe e ha anche lanciato un'architettura unica "end-to-end (sistema veloce) + VLM (sistema lento)", che ha attirato l'attenzione diffusa nel settore.

Stasera, con il procedere della seconda stagione di Ideal AI Talk, avremo una comprensione più profonda della "società di intelligenza artificiale" come la chiama Li Xiang.

È il “grande modello dell’autista” ed è anche il tuo autista.

Li Xiang, CEO di Li Auto, ha menzionato VLA per la prima volta nella prima stagione di AI Talk con Zhang Xiaojun, redattore capo di Tencent News Technology, nel dicembre dello scorso anno. In quel momento disse:

I compagni di classe ideali e la guida autonoma su cui stiamo lavorando sono attualmente separati secondo gli standard del settore e sono nelle fasi iniziali. Il Mind GPT che stiamo realizzando è in realtà un modello linguistico di grandi dimensioni; la guida autonoma che stiamo facendo si chiama internamente intelligenza comportamentale, ma come la definisce Li Feifei (professore di ruolo a Stanford ed ex capo scienziato di Google), si chiama intelligenza spaziale. Solo quando lo farai davvero su larga scala saprai che un giorno i due saranno sicuramente collegati. Lo chiamiamo internamente VLA (Vision Language Action Model).

Li Xiang ritiene che il modello base ad un certo punto diventerà sicuramente un VLA. La ragione è che i modelli linguistici possono comprendere il mondo tridimensionale solo attraverso il linguaggio e la cognizione, il che ovviamente non è sufficiente. "Deve essere veramente vettoriale, utilizzando il metodo Diffusion (modello di diffusione) e utilizzando il metodo generativo (per comprendere il mondo)."

Si può dire che la nascita di VLA non sia solo un coraggioso tentativo di coniugare profondamente intelligenza linguistica e intelligenza spaziale, ma anche una reinterpretazione del concetto di “auto intelligenti” di Li Auto.

Li Xiang lo ha ulteriormente definito nell'AI Talk di stasera: "VLA è un modello di conducente di grandi dimensioni che funziona come un conducente umano". Non è solo una tecnologia, ma anche un partner intelligente in grado di comunicare in modo naturale con gli utenti e prendere decisioni in modo indipendente.

Quindi, cos’è esattamente un VLA? Il nocciolo della questione è in realtà molto semplice: integrando percezione visiva, comprensione del linguaggio naturale e capacità di generazione di azioni, il veicolo diventa un "agente conducente" in grado di comunicare con le persone e prendere decisioni da solo.

▲ Durante la navigazione in ETC, il conducente può comandare direttamente al sistema di prendere il canale manuale (guida assistita attiva)

Immagina di essere seduto in macchina e di dire con nonchalance: "Sono un po' stanco oggi, guida più lentamente". Il veicolo non solo capirà cosa intendi, ma regolerà anche la velocità e sceglierà persino un percorso più agevole. Questa interazione naturale e fluida è esattamente ciò che VLA vuole ottenere. Li Xiang ha rivelato che tutte le istruzioni brevi vengono elaborate direttamente dall'auto, mentre le istruzioni complesse vengono analizzate dal modello da 3,2 miliardi di parametri del cloud per garantire efficienza e intelligenza.

Raggiungere un simile obiettivo non è facile. La particolarità di VLA è che collega le tre dimensioni di visione, linguaggio e movimento. Dietro un semplice comando da parte dell'utente può comportare la percezione in tempo reale dell'ambiente circostante, la comprensione precisa delle intenzioni linguistiche e il rapido adattamento del comportamento di guida, tutti e tre elementi indispensabili.

La cosa grandiosa di VLA è che consente a questi tre di lavorare insieme senza problemi.

Dalla visione alla realtà, la ricerca e lo sviluppo di VLA erano una terra di nessuno. Li Xiang ha detto francamente: "L'acquisizione di dati visivi e di movimento è la cosa più difficile e nessuna azienda può sostituirla".

Per comprendere il background tecnico di VLA, dobbiamo guardare all'evoluzione di Li Auto nella guida intelligente.

Li Xiang ha affermato che i primi sistemi erano intelligenti “a livello di insetto”, con solo un milione di parametri, guidati da regole e mappe ad alta precisione, ed erano indifesi quando incontravano condizioni stradali complesse. Successivamente, l'architettura end-to-end e il modello del linguaggio visivo hanno consentito alla tecnologia di passare al "livello dei mammiferi", eliminando la dipendenza dalle mappe, e la NOA nazionale priva di mappe è diventata una realtà.

In effetti, questo passo ha messo Li Auto in prima linea nel settore, ma ovviamente non ne sono soddisfatti. Secondo Li Xiang, l’emergere di VLA segna che la tecnologia di guida intelligente di Li Auto è entrata in una nuova fase di “intelligenza umana”.

Rispetto ai sistemi precedenti, VLA non solo può percepire il mondo fisico 3D, ma anche eseguire ragionamenti logici e persino generare comportamenti di guida vicini ai livelli umani.

Per fare un semplice esempio, supponiamo di dire "trova un posto per fare un'inversione a U" in una strada congestionata. VLA non eseguirà l'istruzione meccanicamente. Invece, combinerà le condizioni stradali, il flusso del traffico e le regole del traffico per trovare il tempo e il luogo più ragionevoli per completare l’inversione a U.

Li Xiang ha affermato che VLA può adattarsi rapidamente a nuovi scenari generando dati. Anche se incontra per la prima volta lavori stradali complessi, può ottimizzare la risposta entro tre giorni. Questa flessibilità e giudizio sono i punti di forza principali di VLA.

L'insegnante ideale è DeepSeek

A supportare VLA c'è un sistema tecnico complesso e sofisticato sviluppato in modo indipendente da Li Auto. Questo sistema consente all'auto non solo di "comprendere" il mondo, ma anche di pensare e agire come un guidatore umano.

La prima è la tecnologia di rappresentazione gaussiana 3D, che utilizza molti "punti gaussiani" per descrivere un oggetto 3D. Ogni punto contiene la propria posizione, colore, dimensione e altre informazioni. Questa tecnologia utilizza enormi quantità di dati reali per addestrare un potente modello di comprensione spaziale 3D attraverso l'apprendimento auto-supervisionato. Con esso, VLA può "comprendere" il mondo che lo circonda come un essere umano, sapendo dove sono gli ostacoli e dove si trova l'area percorribile.

▲Quando il parcheggio in memoria è occupato, il sistema cercherà automaticamente altri parcheggi. Puoi anche comprendere le istruzioni dell'autista e trovare "Area C3" attraverso i cartelli sul muro.

La prossima è l'architettura ibrida esperta (MoE), che consiste di reti esperte, reti chiuse e combinatori. Quando i parametri del modello superano i 100 miliardi di livelli, il metodo tradizionale coinvolgerà tutti i neuroni in ciascun calcolo, il che rappresenta uno spreco di risorse. La rete controllata nell'architettura del MoE chiamerà diversi esperti in base ai diversi compiti per garantire che i parametri di attivazione non aumentino in modo significativo.

Parlando di questo, Li Xiang ha anche elogiato DeepSeek:

DeepSeek utilizza le migliori pratiche umane… Quando stavano realizzando DeepSeek V3, V3 era in realtà un MoE, un modello 671B. Penso che MoE sia un'ottima architettura. Equivale a mettere insieme un gruppo di esperti e ognuno ha le proprie capacità.

Infine, Ideal introduce in VLA un meccanismo di attenzione sparsa (Sparse Attention). In termini umani, VLA regolerà automaticamente il peso dell'attenzione delle aree chiave, migliorando così l'efficienza del ragionamento del dispositivo.

Li Xiang ha affermato che durante il processo di formazione di questo nuovo modello base, gli ingegneri di Ideal hanno dedicato molto tempo a trovare il miglior rapporto dati, integrando una grande quantità di dati 3D e grafici relativi alla guida autonoma e riducendo la percentuale di dati culturali e storici.

Dalla percezione al processo decisionale, VLA attinge alla combinazione veloce-lento del pensiero umano. Può produrre rapidamente semplici decisioni di azione, come evitare le emergenze, e può anche eseguire un "pensiero lento" attraverso brevi catene di pensiero per affrontare scenari più complessi, come pianificare temporaneamente un percorso per aggirare l'area di costruzione. Al fine di migliorare ulteriormente le prestazioni in tempo reale, VLA introduce anche il ragionamento speculativo e la tecnologia di decodifica parallela per sfruttare appieno la potenza di calcolo del chip di bordo per garantire che il processo decisionale sia veloce e non caotico.

Quando genera comportamenti di guida, VLA utilizza il modello di diffusione e l'apprendimento per rinforzo basato sul feedback umano (RLHF). Il modello Diffusion è responsabile della generazione di traiettorie di guida ottimizzate, mentre RLHF rende queste traiettorie più vicine alle abitudini umane, il che è allo stesso tempo sicuro e confortevole. Ad esempio, il VLA rallenterà automaticamente durante la svolta o lascerà una distanza di sicurezza sufficiente durante l'immissione. Tutti questi dettagli riflettono un profondo apprendimento del comportamento di guida umano.

Il modello mondiale è un'altra tecnologia chiave che fornisce idealmente un ambiente virtuale di alta qualità per l'apprendimento per rinforzo attraverso la ricostruzione e la generazione di scene. Li Xiang ha rivelato che World Model ha ridotto i costi di verifica da 170.000 a 180.000 yuan per 10.000 chilometri a 4.000 yuan. Consente a VLA di ottimizzare continuamente durante la simulazione e di gestire con facilità scenari complessi.

Parlando di formazione, il processo di crescita di VLA è stato piuttosto metodico. L'intero processo è diviso in tre fasi: pre-formazione, post-formazione e apprendimento di rinforzo. "La formazione preliminare è come apprendere conoscenze, la formazione successiva è come imparare a guidare in una scuola guida e l'apprendimento intensivo è come pratica sociale." Li ha detto.

Nella fase di pre-addestramento, Li Auto ha creato un modello base del linguaggio visivo per VLA, ricco di ricchi dati visivi 3D, immagini 2D ad alta definizione e corpus relativi alla guida, in modo che potesse prima imparare a "vedere" e "ascoltare"; poi all'addestramento è stato aggiunto un modulo di azione per generare una traiettoria di guida di 4-8 secondi e il modello è stato distillato da 320 milioni di parametri a 400 milioni.

L'apprendimento per rinforzo è diviso in due fasi: in primo luogo utilizzare RLHF per allineare le abitudini umane, analizzare i dati di acquisizione e garantire sicurezza e comfort; quindi utilizzare l'ottimizzazione dell'apprendimento per rinforzo puro per fare in modo che VLA "guida meglio degli umani" in base al valore G (comfort), alle collisioni e al feedback delle regole del traffico. Li Xiang ha affermato che questa fase viene completata nel modello mondiale, simulando scenari di traffico reali, e l'efficienza è di gran lunga superiore rispetto alla verifica tradizionale.

Questo metodo di formazione non solo garantisce il progresso tecnologico, ma rende anche VLA sufficientemente affidabile per le applicazioni pratiche.

Li Xiang ha ammesso che il successo di VLA è inseparabile dall’ispirazione dei benchmark del settore. L'architettura MoE di DeepSeek non solo migliora l'efficienza della formazione, ma fornisce anche una preziosa esperienza per gli ideali. Si è lamentato: "Siamo sulle spalle dei giganti e acceleriamo la ricerca e lo sviluppo di VLA". Questo atteggiamento di apprendimento aperto consente all'ideale di andare oltre nella terra di nessuno.

Dagli “strumenti di informazione” agli “strumenti di produzione”

Attualmente, l’industria dell’intelligenza artificiale sta attraversando una profonda trasformazione da “strumenti di informazione” a “strumenti di produzione”. Con la maturazione della tecnologia dei modelli di grandi dimensioni, l’intelligenza artificiale non si limita più a elaborare dati e fornire suggerimenti, ma ha iniziato ad avere la capacità di prendere decisioni ed eseguire compiti in modo autonomo.

Li Xiang ha proposto nella seconda stagione di AI Talk che l'intelligenza artificiale può essere suddivisa in strumenti di informazione (come la ricerca), strumenti ausiliari (come la navigazione vocale) e strumenti di produzione. Ha sottolineato: "Nel momento in cui l'intelligenza artificiale diventerà uno strumento di produzione, esploderà davvero". Con la maturazione della tecnologia dei modelli di grandi dimensioni, l’intelligenza artificiale non si limita più all’elaborazione dei dati, ma ha iniziato ad avere la capacità di prendere decisioni ed eseguire compiti in modo indipendente.

Questa tendenza è particolarmente evidente nel concetto di “intelligenza incarnata”: i sistemi di intelligenza artificiale sono dotati di entità fisiche e possono percepire, comprendere e interagire con l’ambiente.

Il modello VLA di Li Auto è una vivida pratica di questa tendenza. Integrando intelligenza visiva, linguistica e di movimento, trasforma l'auto in un corpo intelligente in grado di guidare autonomamente e interagire in modo naturale con gli utenti, interpretando perfettamente il concetto centrale di "intelligenza incarnata".

Finché gli esseri umani assumeranno autisti professionisti, l’intelligenza artificiale potrà diventare uno strumento di produzione. L’intelligenza artificiale esploderà davvero quando diventerà uno strumento di produzione.

Le parole di Li Xiang illustrano il valore fondamentale di VLA: non è più un semplice strumento ausiliario, ma un "agente trainante" in grado di svolgere compiti e assumersi responsabilità in modo indipendente. Questa trasformazione non solo aumenta il valore pratico delle automobili, ma apre anche la strada all’immaginazione per l’applicazione dell’intelligenza artificiale in altri campi.

Il pensiero di Li Xiang sull'intelligenza artificiale assume sempre una prospettiva fuori dagli schemi. Ha anche menzionato: "VLA non è un processo di mutazione, ma un processo evolutivo". Questa frase riassume accuratamente il percorso tecnico dell'auto ideale——

Dalle prime regole guidate, alle scoperte end-to-end, fino all'attuale livello di "intelligenza umana" di VLA. Questo tipo di pensiero evolutivo non solo rende il VLA più tecnicamente fattibile, ma fornisce anche un paradigma da cui l’industria può imparare. Rispetto ad alcuni tentativi di perseguire ciecamente la sovversione, il percorso pragmatico ideale potrebbe essere più adatto al complesso mercato cinese.

Dalla tecnologia alla convinzione, l’esplorazione ideale dell’IA non è una strada agevole. Li Xiang ha detto francamente: "Abbiamo sperimentato molte sfide nel campo dell'intelligenza artificiale, proprio come l'oscurità prima dell'alba, ma crediamo che se persistiamo, vedremo la luce". La ricerca e lo sviluppo di VLA devono affrontare problemi come i colli di bottiglia della potenza di calcolo e l'etica dei dati, ma Ideal ha gradualmente inaugurato gli albori della propria tecnologia attraverso modelli di base e modelli mondiali auto-sviluppati.

Li Xiang ha anche affermato nell'intervista che il successo di VLA è inseparabile dall'ascesa dell'intelligenza artificiale cinese.

Ha affermato che l’emergere di modelli come DeepSeek e Tongyi Qianwen ha fatto sì che il livello di intelligenza artificiale della Cina si avvicinasse rapidamente a quello degli Stati Uniti. Tra questi, lo spirito open source sostenuto da DeepSeek è particolarmente entusiasmante, poiché promuove direttamente il sistema operativo Starlink open source ideale. Li Xiang ha detto: "Questo non è dovuto a considerazioni strategiche dell'azienda. DeepSeek ci ha dato così tanto aiuto e dovremmo contribuire in qualche modo alla società".

Pur perseguendo scoperte tecnologiche, Li Auto non ha ignorato le questioni etiche e di sicurezza della tecnologia AI. La tecnologia di “super allineamento” introdotta da VLA rende il comportamento del modello più vicino alle abitudini umane attraverso l’apprendimento per rinforzo basato sul feedback umano (RLHF). I dati mostrano che l'applicazione del VLA ha aumentato l'MPI ad alta velocità (chilometraggio medio di intervento) da 240 km a 300 km.

Ancora più importante, Li Auto sottolinea la costruzione di “AI con valori umani” e considera l’etica e la fiducia come la pietra angolare dello sviluppo tecnologico. Da una prospettiva più macro, il significato di VLA è che ridefinisce il ruolo delle case automobilistiche.

In passato l’auto era il mezzo di trasporto dell’era industriale; ora si stanno evolvendo in “robot spaziali” nell’era dell’intelligenza artificiale. Li Xiang ha menzionato nell'AI ​​Talk: "L'ideale era nella terra di nessuno delle automobili, ma in futuro sarà nella terra di nessuno dell'intelligenza artificiale". Questa trasformazione di Ideal ha portato nuovo spazio all’immaginazione nel modello di business dell’industria automobilistica.

Naturalmente, lo sviluppo di VLA non è privo di sfide. Gli investimenti continui nella potenza di calcolo, nell’etica dei dati e nella creazione della fiducia dei consumatori nella guida autonoma sono tutte questioni che le auto ideali devono affrontare. Inoltre, la concorrenza nel settore dell’intelligenza artificiale sta diventando sempre più agguerrita. Giganti nazionali e stranieri come Tesla, Waymo e OpenAI stanno accelerando l’implementazione di modelli multimodali. Idealmente, devono rimanere all’avanguardia nell’iterazione tecnologica e nella promozione del mercato. "Non abbiamo scorciatoie, possiamo solo scavare in profondità", avrebbe voluto dire Li.

Non c’è dubbio che l’implementazione del VLA sarà un nodo chiave.

Li Auto prevede di rilasciare la VLA contemporaneamente al SUV elettrico puro Li Li i8 nel luglio 2025 e di raggiungere la produzione di massa nel 2026. Questo non è solo un esame completo della tecnologia, ma anche un'importante pietra di paragone per il mercato.

Chiunque abbia le ruote è interessato e benvenuto a comunicare. E-mail: [email protected]

# Benvenuti a seguire l'account pubblico WeChat ufficiale di Aifaner: Aifaner (ID WeChat: ifanr). Contenuti più interessanti ti verranno forniti il ​​prima possibile.

Ai Faner | Link originale · Visualizza commenti · Sina Weibo