從簡單的獨(dú)立行走到精準(zhǔn)的前后空翻,從經(jīng)過反復(fù)訓(xùn)練才能抓取物品到無須訓(xùn)練就能聽從指令處理家務(wù)……人形機(jī)器人的“進(jìn)化”速度令人驚訝。最近,硅谷機(jī)器人創(chuàng)新公司Figure AI的最新大模型Helix亮相,業(yè)內(nèi)有觀點(diǎn)認(rèn)為,Helix的能力“前所未有”,讓機(jī)器人能夠像人一樣思考與行動。Figure AI這次發(fā)布究竟有哪些重大突破?它會是現(xiàn)階段人形機(jī)器人的主流發(fā)展方向嗎?中外人形機(jī)器人具有哪些不同的發(fā)力方向?《環(huán)球時(shí)報(bào)》記者對此進(jìn)行了采訪和調(diào)查。

Figure AI公司兩個(gè)共用“大腦”的機(jī)器人配合完成一系列復(fù)雜任務(wù)
這個(gè)刷屏的美國機(jī)器人有啥絕活
在Figure AI公布的一段近3分鐘視頻里,兩臺Figure人形機(jī)器人按照工作人員的指令,配合默契地將一堆食物與雜貨放入冰箱等相應(yīng)的位置。
美國機(jī)器人網(wǎng)站The Robot Report提到,視頻中有幾個(gè)值得注意的要點(diǎn),例如兩個(gè)機(jī)器人并不進(jìn)行語言交流,但它們在互動過程中會有明顯的停頓,它們盯著對方,似乎是一種不可思議的“心靈感應(yīng)”。
按照Figure AI公司的說法,兩臺機(jī)器人共用一個(gè)大模型“大腦”,協(xié)作完成復(fù)雜任務(wù),這在行業(yè)內(nèi)是首例。此外,Helix還創(chuàng)造了其他多項(xiàng)“第一”:它是全球首個(gè)能夠?qū)φ麄(gè)人形機(jī)器人上半身進(jìn)行高頻率、連續(xù)控制的視覺-語言-動作(VLA)模型;它僅需接收自然語言指令,就能拾取幾乎任何小型家用物品,包括數(shù)千種它從未見過的物品。這些體現(xiàn)了人形機(jī)器人的“泛化”能力。
“Helix最大的突破在于它是一個(gè)‘通用’的視覺-語言-動作(VLA)模型。這意味著它將機(jī)器人的視覺感知、自然語言理解和動作控制整合到了一個(gè)統(tǒng)一的框架中,這就是有點(diǎn)奔著端到端具身智能大模型方向去了。”一位人工智能專家告訴《環(huán)球時(shí)報(bào)》記者,傳統(tǒng)的機(jī)器人系統(tǒng)往往針對特定任務(wù)進(jìn)行設(shè)計(jì),需要大量的編程工作,難以適應(yīng)新的環(huán)境和任務(wù)。而Helix模型則具備更強(qiáng)的泛化能力,能夠理解自然語言指令,并處理之前從未見過的任務(wù),這大大減少了對特定任務(wù)演示或大量手動編程的需求。
《環(huán)球時(shí)報(bào)》記者在調(diào)查和采訪中了解到,Helix模型目前還存在一些短板。首先,Helix目前主要應(yīng)用于Figure機(jī)器人的上半身控制,包括手腕、頭部、手指甚至軀干。這意味著,對于下半身的控制,比如行走、奔跑等,可能還需要進(jìn)一步研發(fā)和完善。其次,盡管Helix在數(shù)據(jù)利用效率上表現(xiàn)出色,但其訓(xùn)練所用的數(shù)據(jù)量仍然相對較少,這可能會影響它在處理更復(fù)雜、更多樣化任務(wù)時(shí)的表現(xiàn)。
代表未來發(fā)展方向嗎
值得關(guān)注的是,大模型與人形機(jī)器人的融合日益加深。Helix模型不僅讓機(jī)器人能夠“看懂”“聽懂”,更重要的是,能夠讓機(jī)器人根據(jù)所見所聞,做出相應(yīng)的行動。這打破了以往機(jī)器人技術(shù)中感知、理解和行動之間的壁壘,實(shí)現(xiàn)了更高層次的智能化。有專家告訴記者,Helix模型可以被視為人形機(jī)器人發(fā)展歷程中的一個(gè)重要節(jié)點(diǎn),是數(shù)字化的AI模型與物理世界的真實(shí)交互,是一種“虛實(shí)融合”。
《環(huán)球時(shí)報(bào)》記者在采訪中了解到,從Helix的架構(gòu)來看,它與最近一篇發(fā)表在2024年機(jī)器人學(xué)習(xí)大會(CoRL)上的論文“非常相似”。
“Figure AI認(rèn)可了這條路線并成功移植到實(shí)體機(jī)器人上。Helix的出現(xiàn)證明了‘具身智能’方向的迭代速度越來越快,許多最新提出的技術(shù)路線能迅速落地到真實(shí)機(jī)器人身上。不過,目前我們依然處在技術(shù)爬坡階段,量產(chǎn)仍是具身智能機(jī)器人領(lǐng)域面臨的最大挑戰(zhàn)。”深圳市人工智能與機(jī)器人研究院具身智能中心主任劉少山對《環(huán)球時(shí)報(bào)》記者表示。
業(yè)內(nèi)普遍認(rèn)為,“端到端”具身智能大模型是人形機(jī)器人發(fā)展的重要方向之一。即希望機(jī)器人能夠像人一樣,直接根據(jù)眼睛看到的、耳朵聽到的信息,做出相應(yīng)的反應(yīng),然后去執(zhí)行任務(wù)。
“像Helix這樣的通用型VLA(視覺-語言-動作)模型,很可能代表了人形機(jī)器人大模型的一種主流發(fā)展方向。從目前的技術(shù)趨勢來看,人形機(jī)器人需要的大模型,不僅僅是‘大’,更重要的是‘通’(指的是模型的通用性和泛化能力)和‘精’(模型的高效性和精確性)。”專家說。
不過,“端到端”具身智能大模型并非是人形機(jī)器人發(fā)展的唯一目標(biāo),也不是現(xiàn)階段的全部。業(yè)界還存在另一種技術(shù)路線,即基于LLM(大語言模型)或VLM(視覺-語言模型)的分層大模型。此方案難度低一些,一般將任務(wù)分解為感知、決策、執(zhí)行等多個(gè)模塊,每個(gè)模塊可以使用不同的模型來實(shí)現(xiàn),更易于快速落地和迭代。一些行業(yè)內(nèi)的頭部企業(yè),都采用了這種方案。
劉少山表示,與聊天式大模型相比,具身智能大模型更需要的是強(qiáng)大的“學(xué)習(xí)能力”——它必須能在陌生環(huán)境中,通過與環(huán)境的交互不斷學(xué)習(xí)和進(jìn)化。當(dāng)前大模型大多是從海量數(shù)據(jù)中提取知識,而具身智能則強(qiáng)調(diào)“學(xué)習(xí)如何學(xué)習(xí)”,而非簡單記憶已有的知識。只有具備這類元學(xué)習(xí)、上下文強(qiáng)化學(xué)習(xí)等理論基礎(chǔ),才能真正實(shí)現(xiàn)通用智能。雖然這類研究方向提供了思路,但還需要時(shí)間來發(fā)展和完善。
國內(nèi)外機(jī)器人各有側(cè)重
全球人形機(jī)器人的技術(shù)競賽正在升溫,新技術(shù)亮相越來越密集。近日,國產(chǎn)“天工”機(jī)器人成為全球首例可在室外連續(xù)攀爬多級階梯的人形機(jī)器人。“天工”實(shí)現(xiàn)了基于視覺的感知行走,可實(shí)現(xiàn)無磕碰、不踩棱、不踏空地跨越連續(xù)多級樓梯和35厘米大高差臺階,奔跑時(shí)速提高至12公里,并且能在雪地進(jìn)行高速奔跑。深圳一家機(jī)器人公司的產(chǎn)品則完成了全球首例人形機(jī)器人“前空翻”特技。
“與Figure的最新機(jī)器人技術(shù)相比,國內(nèi)的機(jī)器人是在不同領(lǐng)域各有側(cè)重。”一位人工智能專家告訴《環(huán)球時(shí)報(bào)》記者,國內(nèi)機(jī)器人公司在運(yùn)動控制方面取得了顯著成果,例如跳舞、空翻等。這些機(jī)器人可能在部分處理復(fù)雜任務(wù),特別是涉及與環(huán)境的深度交互、理解自然語言指令等方面,與Figure相比可能有一定差距。
何時(shí)能像人一樣思考
在Helix的加持下,人形機(jī)器人能夠直接理解自然語言、解析視覺信息,并執(zhí)行相應(yīng)動作。有科技媒體評論稱,Helix讓機(jī)器人像人一樣思考和行動。Figure AI首席執(zhí)行官宣稱,“Helix的思維方式類似于人類。”劉少山認(rèn)為,“目前仍處于行業(yè)的早期階段,要讓人形機(jī)器人真正具備與人類相似的思維能力,還有很長的路要走。即便最先進(jìn)的大模型,在幾乎無限算力的支持下,與人類的思維方式和水平依然存在顯著差距。”
另一位專家稱,綜合國內(nèi)外多篇論文來看,目前最先進(jìn)的大模型應(yīng)該定性于“初始AGI(通用人工智能)”階段,雖然能力很強(qiáng),但仍局限于特定領(lǐng)域,比如做題目等,無法在所有通用任務(wù)中始終超越人類。要實(shí)現(xiàn)真正像人一樣思考,人形機(jī)器人需要實(shí)現(xiàn)通用人工智能(AGI)乃至超級人工智能(ASI)。這就得包括更先進(jìn)的算法、更強(qiáng)大的計(jì)算能力、更完善的感知系統(tǒng),以及對人類大腦工作機(jī)制的更深入理解。“這是一個(gè)長期、漸進(jìn)的過程,可能需要十幾年、幾十年甚至更長時(shí)間。”
“大家都是在黑暗中摸索,你現(xiàn)在走的路線看似取得了一定成果,最后這個(gè)路線就一定能走得通嗎?這個(gè)問題沒有人能夠給出答案。”上述不具名專家告訴《環(huán)球時(shí)報(bào)》記者,發(fā)展未來產(chǎn)業(yè)的精神,就是在不確定性中尋找最大的確定性。階段性的成果也能夠形成較好的規(guī)模應(yīng)用,造福社會,賦能產(chǎn)業(yè)。“我們一開始奔著終極目標(biāo),哪怕遭遇挫折,有部分技術(shù)轉(zhuǎn)化為成果也可以,并不強(qiáng)求非得造出一個(gè)全知全能的AGI。”
專家在受訪時(shí)還提到,未來人形機(jī)器人可能會出現(xiàn)新的形態(tài)。一方面,機(jī)器人不必非得是人形,“實(shí)際上人形態(tài)并不是專業(yè)場景下最好的選擇,有時(shí)候輪式甚至機(jī)械臂工作效果更好、性價(jià)比更高。”另一方面,人形機(jī)器人可能會呈現(xiàn)虛擬形態(tài),類似更智能、更完善的數(shù)字人。“類似于電影《流浪地球2》中的MOSS系統(tǒng),也有一定的可能,但這些距離現(xiàn)實(shí)還相當(dāng)遙遠(yuǎn)。”