人形機(jī)器人加速“進(jìn)化”，專家：距離像人一樣思考和行動(dòng)還很遠(yuǎn) -- 飛象網(wǎng)

從簡單的獨(dú)立行走到精準(zhǔn)的前后空翻，從經(jīng)過反復(fù)訓(xùn)練才能抓取物品到無須訓(xùn)練就能聽從指令處理家務(wù)……人形機(jī)器人的“進(jìn)化”速度令人驚訝。最近，硅谷機(jī)器人創(chuàng)新公司Figure AI的最新大模型Helix亮相，業(yè)內(nèi)有觀點(diǎn)認(rèn)為，Helix的能力“前所未有”，讓機(jī)器人能夠像人一樣思考與行動(dòng)。Figure AI這次發(fā)布究竟有哪些重大突破？它會(huì)是現(xiàn)階段人形機(jī)器人的主流發(fā)展方向嗎？中外人形機(jī)器人具有哪些不同的發(fā)力方向？《環(huán)球時(shí)報(bào)》記者對(duì)此進(jìn)行了采訪和調(diào)查。

Figure AI公司兩個(gè)共用“大腦”的機(jī)器人配合完成一系列復(fù)雜任務(wù)

這個(gè)刷屏的美國機(jī)器人有啥絕活

在Figure AI公布的一段近3分鐘視頻里，兩臺(tái)Figure人形機(jī)器人按照工作人員的指令，配合默契地將一堆食物與雜貨放入冰箱等相應(yīng)的位置。

美國機(jī)器人網(wǎng)站The Robot Report提到，視頻中有幾個(gè)值得注意的要點(diǎn)，例如兩個(gè)機(jī)器人并不進(jìn)行語言交流，但它們?cè)诨?dòng)過程中會(huì)有明顯的停頓，它們盯著對(duì)方，似乎是一種不可思議的“心靈感應(yīng)”。

按照Figure AI公司的說法，兩臺(tái)機(jī)器人共用一個(gè)大模型“大腦”，協(xié)作完成復(fù)雜任務(wù)，這在行業(yè)內(nèi)是首例。此外，Helix還創(chuàng)造了其他多項(xiàng)“第一”：它是全球首個(gè)能夠?qū)φ麄€(gè)人形機(jī)器人上半身進(jìn)行高頻率、連續(xù)控制的視覺-語言-動(dòng)作（VLA）模型；它僅需接收自然語言指令，就能拾取幾乎任何小型家用物品，包括數(shù)千種它從未見過的物品。這些體現(xiàn)了人形機(jī)器人的“泛化”能力。

“Helix最大的突破在于它是一個(gè)‘通用’的視覺-語言-動(dòng)作（VLA）模型。這意味著它將機(jī)器人的視覺感知、自然語言理解和動(dòng)作控制整合到了一個(gè)統(tǒng)一的框架中，這就是有點(diǎn)奔著端到端具身智能大模型方向去了。”一位人工智能專家告訴《環(huán)球時(shí)報(bào)》記者，傳統(tǒng)的機(jī)器人系統(tǒng)往往針對(duì)特定任務(wù)進(jìn)行設(shè)計(jì)，需要大量的編程工作，難以適應(yīng)新的環(huán)境和任務(wù)。而Helix模型則具備更強(qiáng)的泛化能力，能夠理解自然語言指令，并處理之前從未見過的任務(wù)，這大大減少了對(duì)特定任務(wù)演示或大量手動(dòng)編程的需求。

《環(huán)球時(shí)報(bào)》記者在調(diào)查和采訪中了解到，Helix模型目前還存在一些短板。首先，Helix目前主要應(yīng)用于Figure機(jī)器人的上半身控制，包括手腕、頭部、手指甚至軀干。這意味著，對(duì)于下半身的控制，比如行走、奔跑等，可能還需要進(jìn)一步研發(fā)和完善。其次，盡管Helix在數(shù)據(jù)利用效率上表現(xiàn)出色，但其訓(xùn)練所用的數(shù)據(jù)量仍然相對(duì)較少，這可能會(huì)影響它在處理更復(fù)雜、更多樣化任務(wù)時(shí)的表現(xiàn)。

代表未來發(fā)展方向嗎

值得關(guān)注的是，大模型與人形機(jī)器人的融合日益加深。Helix模型不僅讓機(jī)器人能夠“看懂”“聽懂”，更重要的是，能夠讓機(jī)器人根據(jù)所見所聞，做出相應(yīng)的行動(dòng)。這打破了以往機(jī)器人技術(shù)中感知、理解和行動(dòng)之間的壁壘，實(shí)現(xiàn)了更高層次的智能化。有專家告訴記者，Helix模型可以被視為人形機(jī)器人發(fā)展歷程中的一個(gè)重要節(jié)點(diǎn)，是數(shù)字化的AI模型與物理世界的真實(shí)交互，是一種“虛實(shí)融合”。

《環(huán)球時(shí)報(bào)》記者在采訪中了解到，從Helix的架構(gòu)來看，它與最近一篇發(fā)表在2024年機(jī)器人學(xué)習(xí)大會(huì)（CoRL）上的論文“非常相似”。

“Figure AI認(rèn)可了這條路線并成功移植到實(shí)體機(jī)器人上。Helix的出現(xiàn)證明了‘具身智能’方向的迭代速度越來越快，許多最新提出的技術(shù)路線能迅速落地到真實(shí)機(jī)器人身上。不過，目前我們依然處在技術(shù)爬坡階段，量產(chǎn)仍是具身智能機(jī)器人領(lǐng)域面臨的最大挑戰(zhàn)。”深圳市人工智能與機(jī)器人研究院具身智能中心主任劉少山對(duì)《環(huán)球時(shí)報(bào)》記者表示。

業(yè)內(nèi)普遍認(rèn)為，“端到端”具身智能大模型是人形機(jī)器人發(fā)展的重要方向之一。即希望機(jī)器人能夠像人一樣，直接根據(jù)眼睛看到的、耳朵聽到的信息，做出相應(yīng)的反應(yīng)，然后去執(zhí)行任務(wù)。

“像Helix這樣的通用型VLA（視覺-語言-動(dòng)作）模型，很可能代表了人形機(jī)器人大模型的一種主流發(fā)展方向。從目前的技術(shù)趨勢(shì)來看，人形機(jī)器人需要的大模型，不僅僅是‘大’，更重要的是‘通’（指的是模型的通用性和泛化能力）和‘精’（模型的高效性和精確性）。”專家說。

不過，“端到端”具身智能大模型并非是人形機(jī)器人發(fā)展的唯一目標(biāo)，也不是現(xiàn)階段的全部。業(yè)界還存在另一種技術(shù)路線，即基于LLM（大語言模型）或VLM（視覺-語言模型）的分層大模型。此方案難度低一些，一般將任務(wù)分解為感知、決策、執(zhí)行等多個(gè)模塊，每個(gè)模塊可以使用不同的模型來實(shí)現(xiàn)，更易于快速落地和迭代。一些行業(yè)內(nèi)的頭部企業(yè)，都采用了這種方案。

劉少山表示，與聊天式大模型相比，具身智能大模型更需要的是強(qiáng)大的“學(xué)習(xí)能力”——它必須能在陌生環(huán)境中，通過與環(huán)境的交互不斷學(xué)習(xí)和進(jìn)化。當(dāng)前大模型大多是從海量數(shù)據(jù)中提取知識(shí)，而具身智能則強(qiáng)調(diào)“學(xué)習(xí)如何學(xué)習(xí)”，而非簡單記憶已有的知識(shí)。只有具備這類元學(xué)習(xí)、上下文強(qiáng)化學(xué)習(xí)等理論基礎(chǔ)，才能真正實(shí)現(xiàn)通用智能。雖然這類研究方向提供了思路，但還需要時(shí)間來發(fā)展和完善。

國內(nèi)外機(jī)器人各有側(cè)重

全球人形機(jī)器人的技術(shù)競賽正在升溫，新技術(shù)亮相越來越密集。近日，國產(chǎn)“天工”機(jī)器人成為全球首例可在室外連續(xù)攀爬多級(jí)階梯的人形機(jī)器人。“天工”實(shí)現(xiàn)了基于視覺的感知行走，可實(shí)現(xiàn)無磕碰、不踩棱、不踏空地跨越連續(xù)多級(jí)樓梯和35厘米大高差臺(tái)階，奔跑時(shí)速提高至12公里，并且能在雪地進(jìn)行高速奔跑。深圳一家機(jī)器人公司的產(chǎn)品則完成了全球首例人形機(jī)器人“前空翻”特技。

“與Figure的最新機(jī)器人技術(shù)相比，國內(nèi)的機(jī)器人是在不同領(lǐng)域各有側(cè)重。”一位人工智能專家告訴《環(huán)球時(shí)報(bào)》記者，國內(nèi)機(jī)器人公司在運(yùn)動(dòng)控制方面取得了顯著成果，例如跳舞、空翻等。這些機(jī)器人可能在部分處理復(fù)雜任務(wù)，特別是涉及與環(huán)境的深度交互、理解自然語言指令等方面，與Figure相比可能有一定差距。

何時(shí)能像人一樣思考

在Helix的加持下，人形機(jī)器人能夠直接理解自然語言、解析視覺信息，并執(zhí)行相應(yīng)動(dòng)作。有科技媒體評(píng)論稱，Helix讓機(jī)器人像人一樣思考和行動(dòng)。Figure AI首席執(zhí)行官宣稱，“Helix的思維方式類似于人類。”劉少山認(rèn)為，“目前仍處于行業(yè)的早期階段，要讓人形機(jī)器人真正具備與人類相似的思維能力，還有很長的路要走。即便最先進(jìn)的大模型，在幾乎無限算力的支持下，與人類的思維方式和水平依然存在顯著差距。”

另一位專家稱，綜合國內(nèi)外多篇論文來看，目前最先進(jìn)的大模型應(yīng)該定性于“初始AGI（通用人工智能）”階段，雖然能力很強(qiáng)，但仍局限于特定領(lǐng)域，比如做題目等，無法在所有通用任務(wù)中始終超越人類。要實(shí)現(xiàn)真正像人一樣思考，人形機(jī)器人需要實(shí)現(xiàn)通用人工智能（AGI）乃至超級(jí)人工智能（ASI）。這就得包括更先進(jìn)的算法、更強(qiáng)大的計(jì)算能力、更完善的感知系統(tǒng)，以及對(duì)人類大腦工作機(jī)制的更深入理解。“這是一個(gè)長期、漸進(jìn)的過程，可能需要十幾年、幾十年甚至更長時(shí)間。”

“大家都是在黑暗中摸索，你現(xiàn)在走的路線看似取得了一定成果，最后這個(gè)路線就一定能走得通嗎？這個(gè)問題沒有人能夠給出答案。”上述不具名專家告訴《環(huán)球時(shí)報(bào)》記者，發(fā)展未來產(chǎn)業(yè)的精神，就是在不確定性中尋找最大的確定性。階段性的成果也能夠形成較好的規(guī)模應(yīng)用，造福社會(huì)，賦能產(chǎn)業(yè)。“我們一開始奔著終極目標(biāo)，哪怕遭遇挫折，有部分技術(shù)轉(zhuǎn)化為成果也可以，并不強(qiáng)求非得造出一個(gè)全知全能的AGI。”

專家在受訪時(shí)還提到，未來人形機(jī)器人可能會(huì)出現(xiàn)新的形態(tài)。一方面，機(jī)器人不必非得是人形，“實(shí)際上人形態(tài)并不是專業(yè)場景下最好的選擇，有時(shí)候輪式甚至機(jī)械臂工作效果更好、性價(jià)比更高。”另一方面，人形機(jī)器人可能會(huì)呈現(xiàn)虛擬形態(tài)，類似更智能、更完善的數(shù)字人。“類似于電影《流浪地球2》中的MOSS系統(tǒng)，也有一定的可能，但這些距離現(xiàn)實(shí)還相當(dāng)遙遠(yuǎn)。”

韩国三级一区-韩国三级香港三级日本三级la-韩国三级香港三级日本三级-韩国三级视频网站-日韩欧美一及在线播放-日韩欧美一二三区

人形機(jī)器人加速“進(jìn)化”，專家：距離像人一樣思考和行動(dòng)還很遠(yuǎn)