每日經濟新聞 2026-01-20 20:27:17
每經記者|李卓 每經編輯|余婷婷
行業(yè)屬性:大模型、具身智能估值/融資輪次:未公開披露核心競爭力:人類“第一視角”數(shù)據(jù)未來關鍵詞:通用性、物理智能
如果總分10分,2025年中國的具身智能“通用性”能夠打幾分?“說得難聽一點,其實我覺得應該是零分。”陳凱幾乎沒有遲疑,給出了這個回答。“有這么夸張嗎?”《每日經濟新聞》記者追問。陳凱沉思了幾秒后補充道:“客觀來看,目前整體水平在1分左右。”
作為一名“走出實驗室”的科學家,2025年陳凱的最新身份是深度機智(北京)科技有限公司(以下簡稱深度機智)創(chuàng)始人。在此之前,他在人工智能領域深耕15年,在國際上率先將人工智能模型分布式訓練規(guī)模擴展至百卡以上,相關成果發(fā)表于Nature子刊、TASLP、NeurIPS、ICLR等國際頂級會議和期刊。
陳凱還身兼北京中關村學院導師、中關村人工智能研究院研究員、具身智能方向負責人,肩負著博士生的培養(yǎng)職責。他與公司CEO(首席執(zhí)行官)都出自中科大少年班,身上有著新一代原生AI(人工智能)創(chuàng)業(yè)者的天然淳樸及學術氣質。在這種專業(yè)沉淀下,他的回答顯然絕非戲謔之言。
因為看到了具身智能通用性的難題,陳凱的創(chuàng)業(yè)致力于以人類“第一視角”數(shù)據(jù)提升基座模型的物理智能水平。換言之,他們要做具身智能的“大腦”。然而,當陳凱團隊第一次提出“從人類第一視角視頻數(shù)據(jù)構建通用具身智能基座模型”時,迎接他們的不是掌聲,而是質疑。
2026年開年,AI賽道再次迎來資本與技術的雙重爆發(fā)。陳凱團隊究竟能否憑借“第一視角”解鎖物理智能的通用性密碼?作為創(chuàng)業(yè)公司又將如何接受市場的考驗?對此,陳凱近日接受了《每日經濟新聞》“對話未來商業(yè)”欄目記者專訪。
從不被認可到巨頭驗證:特斯拉與Figure的“神同步”
“當時與一些學者、相關投資人探討時,他們其實對于這條路徑都不認可。”陳凱回憶起當初的狀況印象深刻。他的創(chuàng)業(yè)想法誕生于2024年底,那時,國內大量公司仍聚焦機器人“本體”研發(fā),而外界可感知的現(xiàn)象級事件則爆發(fā)于2025年“春晚”,宇樹科技的通用人形機器人H1以“扭秧歌”的形式驚艷亮相,掀起了具身智能熱潮。
事實上,真正發(fā)揮作用的關鍵是“大腦”能力,彼時美國已有多家“大腦”公司崛起,國內卻相對薄弱。也正是那時候,陳凱意識到具身智能領域存在巨大機會與挑戰(zhàn)。
深度機智于2025年5月注冊。這支平均年齡30歲的創(chuàng)業(yè)團隊,博士占比超過60%,他們選擇了一條與OpenAI、DeepMind(公司名)截然不同的技術路徑:不依賴昂貴的動作捕捉設備,不用仿真環(huán)境預訓練,而是直接采集人類在真實場景中的“第一視角”數(shù)據(jù)。
“當時的投資人認為,沒有精準標注、精準捕捉,缺乏感知力和觸覺的數(shù)據(jù),沒有太大價值。”陳凱坦言。這種質疑也源于傳統(tǒng)AI研究的思維定式:強化學習依賴仿真環(huán)境,計算機視覺需要精準標注,而具身智能領域普遍采用動作捕捉設備采集數(shù)據(jù)。
陳凱堅信,人類“第一視角”數(shù)據(jù)蘊含著人看到的整個物理世界的深層規(guī)律,這些規(guī)律無法用文字精準描述,也沒有辦法用規(guī)則去把它窮盡,但是它的數(shù)據(jù)形式就在那里,需要把這樣的數(shù)據(jù)壓縮到大模型里,讓大模型獲得對物理世界的理解。
轉折點出現(xiàn)在2025年5月。據(jù)陳凱自述,特斯拉當時突然宣布了一條技術路線,會逐漸減少遙操數(shù)據(jù)(一般指通過遠程操控方式產生、傳輸或處理的數(shù)據(jù))和動捕數(shù)據(jù)的使用,將大量轉向從人類的“第一視角”視頻學習。
幾個月后,2025年9月,美國估值最高的具身智能初創(chuàng)公司Figure AI發(fā)布了一個全尺寸的人形機器人快遞分揀以及把衣服放進洗衣機的視頻,其流暢程度讓陳凱推斷,他們應該是直接采用了人的數(shù)據(jù)去學習。“因為那種細微的動作表現(xiàn)太像人。”陳凱直言,F(xiàn)igure AI在官宣融資的同時,還宣布與一家商業(yè)地產公司合作,就是要進入真實的場景里采集人的數(shù)據(jù)。
更直接的驗證來自同為AI機器人初創(chuàng)公司Generalist AI。這家公司在2025年10月發(fā)布的GEN-0具身智能模型,就是基于超過27萬小時的真實物理世界操作數(shù)據(jù)的預訓練,初步驗證了Scaling Law(規(guī)模化法則,是大模型領域的一個經驗公式),這一度被業(yè)界解讀為智能機器人迎來了“ChatGPT時刻”。
而在陳凱看來,Generalist AI的數(shù)據(jù)雖然不是真人用手直接操作的“第一視角”,但也是人操控“假爪”在真實世界中進行采集的。與遙操作、動作捕捉以及仿真完全不同,其是在驗證真實物理世界數(shù)據(jù)的重要性。
2025年12月,美國具身智能明星創(chuàng)業(yè)公司Physical Intelligence公布了一項研究結論:基于大量機器人數(shù)據(jù)模型加上人的數(shù)據(jù),能大幅提升模型的通用性。這個消息再次讓陳凱感到振奮。
“Physical Intelligence公司的結論其實驗證了我們的假設。”陳凱分析道,Physical Intelligence論述了人類在真實場景里的交互數(shù)據(jù),是連接語言模型和物理智能的關鍵,驗證了人類“第一視角”多模態(tài)數(shù)據(jù)的有效性。也就是說,看人干活兒,機器人真的能學會。這一結論與陳凱團隊的研究發(fā)現(xiàn)不謀而合。
從“0到1”轉變:“百萬小時”數(shù)據(jù)量級攻堅
雖然陳凱的技術路線在創(chuàng)業(yè)之初并沒有被認可,但隨著時間推移,這條技術路線一直在被驗證,成為陳凱當前最大的“創(chuàng)業(yè)心流”。
從大眾視角來看,2025年的中國具身智能發(fā)展飛快,無論是在酷炫演唱會上的跳舞表演,還是各大AI展館里疊衣服等炫技,這些通過大量人造數(shù)據(jù)訓練出來的機器人運動軌跡,在陳凱看來仍然屬于“死記硬背”,環(huán)境一變可能直接失效。
而通過“第一視角”的人類數(shù)據(jù),則可以大幅提高模型對于物理世界的理解,進而提升模型的物理智能水平,提高機器人執(zhí)行任務的成功率。
記者了解到,深度機智從數(shù)據(jù)源頭進行優(yōu)化,直接采集人類“第一視角”下的手部操作數(shù)據(jù)。這類數(shù)據(jù)天然包含人類在真實環(huán)境中的操作直覺,例如握取不同材質物品的力度控制、物品滑落時的即時調整,適配機器人“感知-動作”映射需求,避免了機械操作數(shù)據(jù)與人類交互習慣的適配成本。
陳凱告訴《每日經濟新聞》記者,公司目前每天的數(shù)據(jù)采集規(guī)模已超過1000小時,但每沉淀1萬小時的數(shù)據(jù),往往需要2至3周,因為中間還需要一些數(shù)據(jù)清洗。按照公司的計劃,2026年上半年將沖刺“百萬小時”的數(shù)據(jù)量級。
“百萬小時”意味著什么?“意味著我們可以基于人類數(shù)據(jù),真正驗證具身智能是否存在Scaling Law(規(guī)模定律)。”陳凱表示,盡管對于Scaling Law已經非常有信心,但現(xiàn)在要做的是把這個正確的曲線真正畫出來,為未來算力、數(shù)據(jù)和模型的規(guī)模投入做明確的指引。而如果百萬小時數(shù)據(jù)得到驗證,具身智能的通用性也能隨之達到5至6分(總分10分)。
“做基座模型、提升物理智能就是‘練內功’的過程。把這個內功練好,機器人就能‘開竅’。”陳凱進一步比喻。
“武俠小說中郭靖練功之初師從‘江南七怪’,七位師傅各有招數(shù)要教給他,會導致習得的招式多而雜,很難深入?yún)⑼改骋粋€功夫。最終還是道長馬鈺教他先練氣、打坐,先把內功練好。之后,那些招數(shù)自然而然就學會了。”“但是我感覺非常多的人其實不理解這個邏輯。”陳凱補充道。
如果把“內功”分為10個等級,“第一視角”數(shù)據(jù)采集的“百萬小時”規(guī)模又可以練到幾級?“3、4級吧。”陳凱坦言,如果要練到10級,則需要1000萬小時以上的數(shù)據(jù)規(guī)模。并且,單靠數(shù)據(jù)還遠遠不夠,因為就數(shù)據(jù)驅動模型訓練而言,見多才能識廣。“大語言模型明顯就是‘讀萬卷書’得到的那么強的能力。現(xiàn)在的具身智能要做好,就要‘行萬里路’。”
技術路徑收斂:加速、規(guī)模與希望并存
談及當前的技術差距,陳凱直言,一年過去了,中國和美國在這一領域的差距不是在縮小而是在擴大。“一個核心原因就是具身智能的技術路徑沒有收斂。許多公司采取了比較保守的策略,沒有大力搞研發(fā),因此沒有突破也就在意料之中。”陳凱表示。
不過,身為創(chuàng)業(yè)者,陳凱如今再接觸投資人時明顯感覺到他們對這條技術路徑的認知已經清晰了許多,因為投資人的知識迭代速度很快,學習能力也非常強。
“市場上的資金量是足夠支持(具身智能‘大腦’)這個賽道發(fā)展的。核心并不是盲目‘燒錢’,而是要在正確的路徑上燒足夠多的錢。”陳凱如是說。
對于2026年的行業(yè)發(fā)展,陳凱認為大家會變得更加樂觀,因為技術路徑正在收斂,至少數(shù)據(jù)路線上基本上要形成共識了。他也相信,不管是國家還是資本,投入都會進一步加大,整個行業(yè)都會快速進步。
“屆時,我最希望看到的就是中美之間的差距持續(xù)縮小,甚至有機會實現(xiàn)反超。”陳凱指出,當前,中國的人類“第一視角”數(shù)據(jù)采集成本比美國低很多,這是中國的創(chuàng)業(yè)優(yōu)勢,而且相較于遙操作、動作捕捉,“第一視角”數(shù)據(jù)采集的成本同樣更低,無論是數(shù)據(jù)多樣性、數(shù)據(jù)規(guī)模還是路徑上,都更具優(yōu)勢。
如果要為2026年具身智能發(fā)展提煉關鍵詞,陳凱認為,第一個關鍵詞是“加速”,整個行業(yè)的進步會加速;第二個關鍵詞則是“規(guī)模”,包括數(shù)據(jù)和模型規(guī)模的擴大,并且規(guī)模定律(Scaling Law)可能會被驗證。
“第三個關鍵詞,我覺得是‘希望’吧。這個領域最初大家確實有非常多的爭議,許多投資人也比較猶豫。一些人在下場之前可能也有一些恐懼,但是現(xiàn)在整個行業(yè)的發(fā)展讓我們看到了非常大的希望。”陳凱說。
《每日經濟新聞》記者注意到,2026年,在這條曾被冷落的賽道上,已經聚集起躬身入局的“陳凱們”。他們相信,物理智能的突破,終將通向智能與實體交融的深遠未來。
封面圖片來源:受訪者供圖
如需轉載請與《每日經濟新聞》報社聯(lián)系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP