韩国三级一区-韩国三级香港三级日本三级la-韩国三级香港三级日本三级-韩国三级视频网站-日韩欧美一及在线播放-日韩欧美一二三区

字節Seed開源UI-TARS-1.5：基于視覺語言模型構建的多模態智能體

2025年4月18日 08:23 CCTIME飛象網

IT之家 4 月 18 日消息，IT之家從豆包大模型團隊獲悉，UI-TARS-1.5 昨日正式發布并開源。這是一款基于視覺-語言模型構建的開源多模態智能體，能夠在虛擬世界中高效執行各類任務。

有關的鏈接如下：

GitHub：https://github.com/bytedance/UI-TARSWebsite：https://seed-tars.com/Arxiv：https://arxiv.org/abs/2501.12326

UI-TARS-1.5 基于字節此前提出的原生智能體方案 UI-TARS，通過強化學習進一步增強了模型的高階推理能力，使模型能夠在“行動”前先進行“思考”。

該版本的模型中，團隊還展示了一個新的愿景：以游戲為載體來增強基礎模型的推理能力。與數學、編程等領域相比，游戲更多依賴直觀的、常識性的推理，并較少依賴專業知識，因此，游戲通常是評估和提升未來模型通用能力的理想測試場景。

據介紹，UI-TARS 是一個原生 GUI 智能體，具備真實操作電腦和手機系統的能力，同時，還可操控瀏覽器、完成復雜交互任務。UI-TARS-1.5 能夠實現精準 GUI 操作，基于團隊在四個維度的技術探索：

視覺感知增強：依托大規模界面截圖數據，模型可理解元素的語義與上下文，形成精準描述。System 2 推理機制：在動作前生成“思維（thought）”，支持復雜任務的多步規劃與決策。統一動作建模：構建跨平臺標準動作空間，通過真實軌跡學習提升動作可控性與執行精度。可自我演化的訓練范式：通過自動化的交互軌跡采集與反思式訓練，模型持續從錯誤中改進，適應復雜環境變化。

編輯：魏德齡

飛象網版權及免責聲明:
1.本網刊載內容，凡注明來源為“飛象網”和“飛象原創”皆屬飛象網版權所有，未經允許禁止轉載、摘編及鏡像，違者必究。對于經過授權可以轉載，請必須保持轉載文章、圖像、音視頻的完整性，并完整標注作者信息和飛象網來源。
2.凡注明“來源：XXXX”的作品，均轉載自其它媒體，在于傳播更多行業信息，并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題，請在相關作品刊發之日起30日內與本網聯系，我們將第一時間予以處理。
本站聯系電話為86-010-87765777，郵件后綴為cctime.com，冒充本站員工以任何其他聯系方式，進行的“內容核實”、“商務聯系”等行為，均不能代表本站。本站擁有對此聲明的最終解釋權。

推薦新聞

·臺積電董事長回應關稅問題：尚未見客戶態度改變	·臺積電否認與英特爾商談合作的傳聞稱無意共享技術
·英偉達回應黃仁勛到訪北京：定期與政府領導人會面，討..	·360智語全新升級：AI驅動政企協同加速行業智能躍遷
·中國5G引領全球移動經濟增長，2030年貢獻GDP8.3%	·3D網格模型質量評價技術進展、挑戰及建議
·《數據中心算力碳效可信評價技術規范》發布	·集體出手！中國零售巨頭如何幫外貿企業“解困”？
·工信部批復鐵路新一代移動通信系統現場試驗頻率持續推..	·騰訊云計劃新建日本第三個數據中心
·小米盧偉冰：小米手機Q1拿下中國市場“雙第一”	·華為申請注冊華為玄甲商標：聚焦于提升手機的耐用性和..
·余承東：問界M8采用三重車門安全解鎖機制，碰撞后斷電..	·美國晶圓廠訂單猛增臺積電擬漲價30%