Come posso convincere il nuovo agente di Kimi a crearmi una guida turistica per la Festa Nazionale? Incontrerò delle insidie se viaggio con l’intelligenza artificiale?

Durante le festività della Festa Nazionale, i grandi modelli di intelligenza artificiale hanno reso omaggio sotto forma di ondate di aggiornamenti.
OpenAI ha rilasciato improvvisamente Sora2, DeepSeek ha aggiornato alla versione V3.2, Zhipu ha aggiornato alla versione GLM-4.6 e Kimi ha aggiornato l'app, per poi scrivere silenziosamente questa frase nella cronologia delle versioni.

Anche Kimi ha sicuramente un "tributo". Giovedì scorso hanno iniziato a testare la modalità Agente e hanno lanciato un agente intelligente chiamato "OK Computer".
A differenza delle ricerche approfondite che abbiamo condiviso in precedenza, OK Computer va oltre la semplice fornitura di un report visivo. Ci fornisce un computer. Tutto ciò che possiamo fare con un computer, lo può fare anche l'agente OK Computer.
Ma c'è una grande differenza tra essere in grado di fare qualcosa e farla bene. Come in precedenza, utilizzeremo test reali per vedere come si comporta il nuovo OK Computer di Kimi nella categoria Agent.
L'intelligenza artificiale ti aiuta a pianificare una guida di viaggio per la Festa Nazionale
Innanzitutto, diamo un'occhiata alle sue capacità di distribuzione sul sito web. La velocità è molto più elevata rispetto a una ricerca approfondita, ma credo che l'effetto sia ancora al livello di un "agente popolare", in particolare il colore di sfondo di alcune pagine è ancora viola sfumato.




▲ Suggerimento: Voglio creare un sito web di viaggi multipagina per la Festa Nazionale. Requisiti: 1. La homepage dovrebbe contenere un'introduzione su "Dove andare per la Festa Nazionale" e consigliare tre destinazioni nazionali adatte a un viaggio di 3-5 giorni. Il contenuto dovrebbe essere accattivante. 2. La seconda pagina dovrebbe essere un pianificatore di itinerari: organizzare cibo, intrattenimento e alloggio per ogni giorno e generare un foglio di calcolo. 3. La terza pagina dovrebbe essere un calcolatore di budget: suddividere le spese in quattro categorie: trasporti, alloggio, ristoranti e biglietti, fornire una fascia di prezzo approssimativa e aggiornare automaticamente il budget se cambio il numero di persone. 4. Il design dovrebbe essere mobile-first, adatto alla navigazione su dispositivi mobili, con una pagina pulita e ordinata e preferibilmente con emoji.
https://dpcbcrcmrjbym.ok.kimi.link/
In termini di contenuti, layout e selezione delle immagini sono molto ragionevoli; tuttavia, le località consigliate sono Pechino, Hangzhou e il Lago dell'Ovest. Se andate al Lago dell'Ovest durante le festività della Festa Nazionale, probabilmente incontrerete solo persone. Pertanto, ritengo che lo sviluppo di questo "Sito web di viaggi per la Festa Nazionale" non possa essere considerato eccezionale.
D'altro canto, se chiedessi a OK Computer di generare direttamente un itinerario di viaggio per me e gli dicessi di comportarsi come un pianificatore di viaggi di prim'ordine e di progettare due itinerari che evitassero completamente la Golden Week della Festa Nazionale, i risultati che otterrebbe sarebbero piuttosto buoni.



▲ Suggerimento: la Settimana d'Oro della Festa Nazionale è alle porte e io e tre amici (per un totale di quattro persone) stiamo pianificando un viaggio on the road di sette giorni. I nostri requisiti principali sono "poche persone, paesaggi meravigliosi e un'esperienza intensa", eliminando completamente code e folle. Vi preghiamo di assumere il ruolo di un organizzatore di viaggi di alto livello e di progettare per noi due distinti itinerari "inversi". Create una presentazione dettagliata e accattivante per ogni itinerario, così potremo votarlo internamente.
https://3hhjy4acccol4.ok.kimi.link/
L'estetica è piuttosto buona, il font, l'immagine di sfondo e i colori sono tutti scelti con cura. Tuttavia, trovo che il contenuto sia ancora un po' vuoto e che non ci siano molti contenuti che possano davvero aiutarmi nei miei viaggi.
Il più delle volte, so che questi posti esistono, ma non ho idea del perché o di come arrivarci. Inoltre, tendo a essere un po' diffidente nei confronti di questi contenuti. Se mi venissero presentati un'attrazione consigliata dall'intelligenza artificiale e la foto di un'attrazione filtrata da Xiaohongshu, sceglierei comunque quella pubblicata da un utente di Xiaohongshu.
OK Computer ha completato entrambi i progetti molto rapidamente. Abbiamo anche provato a utilizzare la ricerca approfondita di Kimi. Il risultato è stato un'ora e alla fine abbiamo prodotto un report di anteprima di oltre 50 pagine.

▲ A causa delle limitazioni di spazio, il contenuto completo è disponibile su https://www.kimi.com/preview/19984f16-9a42-89a6-8000-05d52a6374b9
Poiché Deep Research è diverso da OK Computer, Deep Research ha solo un report di anteprima e il report non può essere modificato.
Anche Qianwen ha recentemente aggiornato un gran numero di nuovi modelli. Nel loro blog ufficiale, ho visto un assistente intelligente chiamato "Travel Planner". Se gli impongo gli stessi requisiti, il risultato sarà migliore dell'OK Computer di Kimi?

▲Il PDF di 10 pagine elenca chiaramente il periodo di tempo, il tipo di attività e i possibili costi del carburante. https://chat.qwen.ai/s/15769740-974a-4fbb-b0bf-dd835ea999ec
La risposta è sicuramente migliore. Qwen, un pianificatore di viaggi, sfrutta appieno il vasto ecosistema di Alibaba. Invece di limitarsi a fornire alcune attrazioni e collegarle in un itinerario, utilizza AutoNavi Maps per determinare l'itinerario appropriato utilizzando latitudine e longitudine specifiche. Questo approccio è molto simile alla recente piattaforma di pianificazione di viaggi Fliggy AI, anch'essa un'azienda.
Gli effetti di altri prodotti non sono in realtà molto diversi da quelli dell'OK Computer di Kimi. L'agente ChatGPT ha generato una presentazione PPT di 10 pagine, concisa come prima; e Manus era uguale, bello ma non di grande valore pratico.










▲ Contenuto generato dall'agente ChatGPT, in base alla stessa parola di prompt
Tuttavia, il vantaggio di Kimi è che può produrre risultati simili senza richiedere impostazioni di rete aggiuntive.
Inoltre, hanno recentemente lanciato un piano di abbonamento a pagamento, che consente di dedurre tutti gli importi delle mance precedenti come quote di iscrizione, e gli utenti gratuiti possono anche ottenere un numero limitato di opportunità di prova di OK Computer.
iPhone contro Xiaomi 17 Pro Max
Basandosi anche sulle capacità Agentic di Kimi K2, OK Computer esplorerà automaticamente il Web, cercherà contenuti pertinenti e genererà immagini per completare il design della pagina Web.
Questa volta le informazioni sono più complete e accurate. Quando OK Computer ha cercato contenuti web, ho visto che la maggior parte delle fonti utilizzate erano media tecnologici internazionali come The Verge. Nel processo di utilizzo di Kimi per una ricerca approfondita, le fonti di informazione utilizzate erano per lo più pagine web in cinese semplificato.

▲ Richiesta: Aiutami a creare un sito web con un layout dinamico e reattivo, adatto a telefoni cellulari e computer. Il contenuto è "Confronto tra iPhone 17 Pro Max e Xiaomi 17 Pro Max". Requisiti: Ottieni le informazioni più recenti sui due telefoni cellulari online, confronta i principali punti di forza, crea tabelle accattivanti ed evidenzia aspetti come fotocamera, chip, batteria, prezzo, ecc. Deve esserci un confronto orizzontale tra i due prodotti, così come un confronto verticale, come il confronto tra iPhone 17promax e 16 promax, e Xiaomi 17promax e 15 promax. Fornisci anche una conclusione: quale vale la pena acquistare? Utilizza punti elenco concisi per riassumere vantaggi e svantaggi. Ogni pagina deve essere concisa, non troppe parole, ma informazioni sufficienti e utilizzare illustrazioni più appropriate.
https://rwsh4gkhckrxy.ok.kimi.link/
Inoltre, OK Computer ha anche la funzione di generare audio dalle immagini, come questa foto dello smontaggio della fotocamera di un cellulare, che mi ha stupito a prima vista.

Agent Delivery: una demo sorprendente, ma difficile da implementare
Dopo questi test, non è che le capacità Agentic di Kimi K2 siano inadeguate, ma ho la sensazione che la maggior parte dei prodotti simili ad Agent siano ancora fermi alla fase " Posso creare qualcosa, ma potrebbe non essere utile ".
Quasi tutti gli agenti affermano di essere in grado di realizzare presentazioni PowerPoint, report di analisi aziendale, pianificazione di itinerari di viaggio, sviluppo e distribuzione di siti web, ecc. Tuttavia, ritengo che sia difficile trovare risultati finali che possano essere realmente utilizzati con sicurezza.

▲ GPDval è un nuovo metodo di valutazione utilizzato per misurare le prestazioni dei modelli su attività del mondo reale con valore economico nelle 44 occupazioni mostrate sopra
Qualche giorno fa, OpenAI ha pubblicato un nuovo test di riferimento, GDPval. Viene descritto come una "gara di competenze professionali" condotta da agenti di intelligenza artificiale. Il test non è più accademico, ma presenta 44 professioni reali tratte dai nove settori che contribuiscono maggiormente al PIL degli Stati Uniti.
Questi compiti sono stati progettati da esperti senior (come avvocati, ingegneri e infermieri) con una media di 14 anni di esperienza e il contenuto fornito non era testo normale, ma formati complessi tra cui diapositive, fogli di calcolo, file di progettazione CAD, ecc., proprio come i prodotti finiti forniti ora da Agent.
L'emergere del GDPval serve in realtà a iniziare a risolvere il problema dalla fase "posso farlo" a quella "posso farlo bene".

Valutatori professionisti hanno confrontato i risultati del modello con quelli di esperti umani. Claude Opus 4.1 ha prodotto risultati valutati pari o superiori a quelli ottenuti da esperti umani in quasi la metà dei compiti (47,6%).
Sebbene si tratti di una ricerca di OpenAI, il primo posto spetta ancora a Claude Opus 4.1. Credo che sia per questo che il modello Claude è ampiamente apprezzato nel campo della programmazione. Claude sa scrivere codice, ma sa anche scrivere un buon codice.
Per quanto riguarda le ragioni dell'incapacità dell'agente di funzionare correttamente, Thinking Machines Lab, co-fondato dall'ex dirigente di OpenAI Mira Murati, ha pubblicato un post sul blog. In esso, si afferma che i problemi di incertezza attualmente riscontrati nei modelli linguistici di grandi dimensioni non sono dovuti alla casualità dei calcoli GPU, ma piuttosto alla mancanza di invarianza batch durante l'elaborazione dei dati di training.
Un altro motivo è la mancanza di dati di addestramento disponibili . A differenza dell'addestramento di un'IA per generare una singola immagine, video o testo, il contenuto che un agente deve fornire è complesso e le attività nel mondo reale sono numerose e non possono essere classificate in un unico tipo di media.

▲ A differenza degli esseri umani che imparano a completare un compito, i modelli di grandi dimensioni richiedono un ambiente di apprendimento di rinforzo simulato
La maggior parte dei compiti degli agenti che vediamo oggi sono incentrati sulla creazione di una presentazione PowerPoint, di una pagina web, sulla prenotazione di un ristorante, sulla navigazione sui social media per nostro conto, sullo shopping automatico, ecc. Questa è solo una piccolissima parte del mondo reale, per non parlare del fatto che non esistono criteri di valutazione chiari per questi compiti.
TechCrunch, un noto organo di stampa specializzato in tecnologia, ha recentemente riportato che la Silicon Valley sta investendo molto nella creazione di campi di addestramento simulati per agenti, chiamati "Reinforcement Learning Environments". Alcuni fondatori di aziende di intelligenza artificiale descrivono questi "ambienti" come noiosi videogiochi, che includono browser simulati, siti web di shopping e persino editor di codice.

▲ Per verificare il completamento del compito dell'agente, è necessario suddividere il compito complessivo in passaggi più piccoli e creare uno standard di punteggio per verificare se il modello di intelligenza artificiale ha eseguito correttamente ogni passaggio. Fonte dell'immagine: https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers
In un simile "ambiente", l'agente IA, come un giocatore alle prime armi, impara a completare autonomamente una serie di compiti complessi in più fasi, come l'acquisto di beni e la riparazione di codici, attraverso ripetuti tentativi, fallimenti e ricompense.
All'epoca, Fei-Fei Li fece compiere un grande passo avanti alla visione artificiale con il dataset ImageNet, ampiamente etichettato, ed è anche conosciuta come la "madrina dell'intelligenza artificiale".
L'attuale sviluppo degli agenti sembra essere lo stesso. Senza un gran numero di attività etichettate come "ambienti di apprendimento per rinforzo", è difficile per gli agenti diventare tecnologie di apprendimento profondo affidabili come il riconoscimento facciale; soprattutto quando l'essenza dell'"alchimia" non è cambiata.

▲Copertina dell'album OK Computer, questo è il terzo album in studio della rock band britannica Radiohead, pubblicato nel 1997. Sono passati quasi 30 anni da allora e ha vinto numerosi premi, tra cui la Top 100 Albums.
Nonostante il suo pervasivo stato d'animo di paura e malinconia, "OK Computer" resta fiducioso, trasmettendo la convinzione che il percorso futuro della società non significhi necessariamente la perdita della nostra bontà.
Se il ritmo accelerato della vita imposto dalla tecnologia ti sopraffà, la soluzione è in realtà molto semplice: proprio come canta Yorke alla fine del brano conclusivo, "The Tourist": "Idiota, rallenta".
Il lancio di OK Computer da parte di Kimi sembra riflettere il modo in cui la tecnologia sta cambiando le nostre abitudini lavorative e accelerando il nostro ritmo di vita. Tuttavia, è chiaro che gli attuali prodotti disponibili sul mercato difficilmente ci sopraffanno.
Che si tratti di Kimi o ChatGPT, esistono molti prodotti simili. Quando vengono lanciati, spesso si dice che il nostro agente ha queste funzioni e cosa può fare, ma raramente si dice cosa può fare.
Non c'è bisogno di rallentare, il vero OK Computer ci sta ancora raggiungendo.
#Benvenuti a seguire l'account pubblico ufficiale WeChat di iFaner: iFaner (ID WeChat: ifanr), dove vi verranno presentati contenuti ancora più interessanti il prima possibile.
