新聞資訊 NEWS
“今天,AI第一次不靠人類點擊,就獨立完成了一首Rap并同步生成MV?!?月26日下午,上海世博中心主論壇,階躍星辰CEO姜大昕按下啟動鍵后,Agent在40秒內寫完歌詞、匹配鼓點并推送至大屏。臺下掌聲響起,不是因為歌詞押韻,而是因為這意味著大模型從“對話”躍遷到“執(zhí)行”——2025世界人工智能大會(WAIC 2025)用一整天的議程,把“Agent”確立為年度關鍵詞。
如果把2023年的大模型比作會說話的百科全書,2025年的Agent就是拿著工具箱、能進辦公室的“超級員工”。在階躍星辰的展臺,終端Agent接入Mac Studio,調用本地GPU云主機(8×A100 80G顯存,峰值算力5 PFLOPS)實時推理,把用戶哼出的三小節(jié)旋律擴展成完整編曲;MiniMax則在隔壁展廳演示“全棧通用智能體”,對著一段“幫我做一款記賬App”的自然語言需求,Agent自動完成需求拆解、代碼生成、單元測試、Docker鏡像打包,全程耗時11分27秒——這背后是一套“思維鏈-行動鏈”雙循環(huán)架構:大模型先輸出任務圖(planning),再調用沙箱里的代碼解釋器、瀏覽器、數(shù)據(jù)庫工具依次執(zhí)行(acting),失敗即回溯重試,直至通過CI/CD流水線。MiniMax技術副總裁曾國洋在媒體群訪中解釋:“我們把工具的API schema當作'外語'教給模型,讓它學會像程序員一樣閱讀文檔、寫調用?!?/span>
行業(yè)級Agent的落地更早也更重。螞蟻數(shù)科聯(lián)合意言科技首發(fā)的“金融合規(guī)Agent”已在三家股份行試運行:讀取新監(jiān)管條文后,Agent在2小時內遍歷銀行全部存量產(chǎn)品合約,標出143處潛在違規(guī)條款并給出修訂模板,準確率達96.4%(來源:螞蟻數(shù)科《2025Q2金融Agent評估報告》,2025-07-15)。工業(yè)場景里,某頭部汽車廠把產(chǎn)線質檢Agent部署在邊緣GPU云主機(NVIDIA L40 48G顯存×4),Agent通過視覺-語言模型實時解析工人語音指令“檢查車門縫隙”,自動調取3D相機點云,將誤差大于0.2毫米的部件打上紅框,單件檢測時間從45秒壓縮到3秒。
算力是Agent“自主”的前提。WAIC發(fā)布的《中國AI算力發(fā)展指數(shù)》顯示,2025年上半年國內GPU云主機租賃量同比增長312%,其中65%用于Agent推理與微調(國家信息中心&IDC,2025-07)。階躍星辰工程負責人透露,其音樂Agent單次創(chuàng)作需并行跑通歌詞、旋律、混音三條擴散模型,顯存峰值占用74 GB,“如果按一年前的H800卡,用戶得等三分鐘;現(xiàn)在A100×8的云集群把延遲壓到12秒,體驗才像'實時'?!?/span>
技術原理上,Agent的核心是“大模型+工具調用+記憶系統(tǒng)”。MiniMax在模型側引入“混合專家-工具路由”機制:每一層Transformer中插入輕量級門控網(wǎng)絡,決定當前token是否需要調用外部工具,從而把工具API的調用延遲從230 ms降到41 ms。記憶系統(tǒng)則借鑒了操作系統(tǒng)分頁思想,把長期記憶(用戶歷史、行業(yè)知識)分頁存儲在分布式KV數(shù)據(jù)庫,短期記憶(當前任務上下文)留在GPU顯存,換頁由模型自主觸發(fā),避免顯存溢出。姜大昕比喻:“Agent的內存管理就像程序員手動開換,只是現(xiàn)在由模型自己決定何時換入換出。”
走出世博中心,夜幕下的上海依舊車流如織。只是此刻,一部分紅綠燈的配時決策已由交通Agent接管;而在看不見的云端,更多Agent正排隊領取下一塊GPU——它們不再等待人類提問,而是在尋找下一個需要被解決的問題。