亚洲图片激情小说,精品国产18久久久久久,久久久www成人免费精品

對話｜當機器人有了“感官”：開啟具身智能新篇章行業(yè)新聞

新聞機器人 3月前 8063

一場關于“具身智能”的變革，正在以前所未有的速度席卷而來。

從文本到圖像，從二維到三維，人工智能的觸角正不斷延伸，基于文本和圖像處理的開源模型已無法滿足具身智能對三維空間感知和動態(tài)交互的需求，這使得自主研發(fā)底層模型成為行業(yè)發(fā)展的必然選擇，而多模態(tài)融合則是驅動這場變革的核心引擎。

機器人不再是冰冷的機械，而是具備感知、理解、交互能力的智能體，它們正以前所未有的速度融入我們的生活，重塑著產(chǎn)業(yè)的邊界。而這場變革的核心驅動力，無疑是多模態(tài)技術的崛起。

本期專訪，雷峰網(wǎng)(公眾號：雷峰網(wǎng))對話了虛擬動點董事長兼CEO劉耀東，他們基于對行業(yè)痛點的深刻理解，自主研發(fā)了一套針對3D數(shù)據(jù)處理的底層模型LYDIA。也因此擁有了更大的自主性和領先優(yōu)勢。更值得關注的是，隨著多模態(tài)技術的不斷演進，圖像識別、動作驅動等技術之間的融合正在加速，這不僅將推動機器人感知能力的躍遷，也將引發(fā)整個行業(yè)的技術迭代和市場擴張。

虛擬動點入局空間計算多年，基于在動作捕捉領域的案例累積，公司不僅擁有大量、高精度、高質(zhì)量的動作數(shù)據(jù)，也在持續(xù)產(chǎn)出更多的優(yōu)質(zhì)數(shù)據(jù)，為人形機器人動作訓練提供依托。

在與劉耀東的訪談過程中，我們深入剖析了虛擬動點的技術路線、市場戰(zhàn)略，以及對行業(yè)未來趨勢的研判，看他們技術如何落地，如何解決行業(yè)難題，力求為讀者呈現(xiàn)一個更清晰、更全面的產(chǎn)業(yè)圖景。

以下是媒體與劉耀東的對談實錄，雷峰網(wǎng)在不改變原意的情況下做了編輯和調(diào)整：

? 全球范圍內(nèi)，是否有其他公司也在探索空間計算與生成式AI的結合？虛擬動點在這一領域的競爭優(yōu)勢是什么？

我們堅信，憑借深厚的技術積淀，我們在空間計算領域擁有顯著的競爭優(yōu)勢。首先，從技術儲備的廣度而言，我們或為全球唯一一家同時具備光學、無標記以及大模型技術的空間計算解決方案提供商。這種跨領域的技術整合能力，使我們得以在多個關鍵技術維度協(xié)同發(fā)力，構建起獨特的綜合優(yōu)勢。

其次，在技術儲備的深度方面，我們亦有卓越表現(xiàn)。以機器人視覺為例，我們自主研發(fā)的雙目攝像頭圖像傳感器，為硬件性能提供了堅實保障。在算法層面，我們成功實現(xiàn)了從傳統(tǒng)無標記算法到 SLAM 算法的迭代升級，顯著提升了定位與建模的精度與效率。此外，在數(shù)據(jù)積累方面，雖然我們無法確知其他競爭對手的數(shù)據(jù)規(guī)模，但我們對自身的數(shù)據(jù)積累情況了如指掌。正是基于海量的數(shù)據(jù)資源，我們成功訓練出了高性能的動作大模型，這充分印證了我們在數(shù)據(jù)驅動方面的領先地位，也進一步鞏固了我們在技術廣度和深度上的優(yōu)勢。

對話｜當機器人有了“感官”：開啟具身智能新篇章

第三個優(yōu)勢則源于我們過往豐富的成功經(jīng)驗。正如大家在視頻中所見，我們曾為多種形態(tài)的機器人提供技術賦能，涵蓋了從具備跳躍能力的機器人到能夠精準操作文件的機器人等多種類型。這些實踐經(jīng)驗不僅見證了整個機器人行業(yè)的發(fā)展歷程，更為我們積累了寶貴的行業(yè)知識和技術訣竅（know-how）。對于技術公司而言，這種經(jīng)驗儲備至關重要，它能夠幫助我們更深入地理解行業(yè)需求，更快速地解決技術難題，并推動技術創(chuàng)新。因此，我們認為，這些過往的成功經(jīng)驗也是我們重要的競爭優(yōu)勢之一。

? 新發(fā)布的具身智能相關技術，與利亞德現(xiàn)有光電業(yè)務之間，在協(xié)同效應和未來發(fā)展方面有哪些潛力？

利亞德集團的業(yè)務板塊廣受關注，其中，智能顯示板塊專注于各類屏幕的研發(fā)與制造，我們將其定位為產(chǎn)品型公司；文旅夜游板塊則側重于景觀亮化和業(yè)態(tài)打造，我們將其視為超大規(guī)模集成服務商。

虛擬動點則專注于AI與空間計算技術的研發(fā)，以往我們將其定義為技術型公司，如今，我們通過將產(chǎn)品、場景與技術交互緊密結合，串聯(lián)起了一個更為宏大的故事。

對話｜當機器人有了“感官”：開啟具身智能新篇章

未來，如果我們能夠將這些技術應用于具身智能領域，無論是采用機器人還是其他載體，這個模式的邏輯依然成立，即通過技術串聯(lián)起不同的應用場景。此外，就機器人本身而言，我認為利亞德集團在光電顯示領域的屏幕技術，也可能在機器人領域發(fā)揮重要作用。例如，今天展示的這款機器人，其頭部就配備了多個屏幕，這或許預示著顯示技術在機器人領域應用的未來趨勢。我們相信，這些技術協(xié)同效應將為集團的整體發(fā)展帶來新的增長動力。

? 從今天的演講來看，空間計算技術連接著機器人的運動控制和環(huán)境感知等多個層面。這種理解是否準確？空間計算技術在軟件層面的存在，以及其對硬件層面的驅動作用，是否構成了一個完整的技術閉環(huán)？

我們可以這樣理解：空間計算這項技術，雖然從復雜性角度而言并非極其深奧，但其價值卻非常獨特。

一個直觀的例子是，當蘋果公司發(fā)布Vision Pro時，‘空間計算’這個概念才真正進入大眾視野。盡管這項技術的起源并非蘋果，但蘋果的運用讓人們意識到，通過佩戴頭顯設備，我們似乎可以進入一個數(shù)字世界，并通過手勢實現(xiàn)各種投屏和交互操作。這在一定程度上印證了我們之前所提到的，空間計算技術作為一種軟件層面的工具，能夠將物理世界的交互與數(shù)字世界連接起來。

正是那時，我們認識到空間計算技術首次實現(xiàn)了人類實體世界與數(shù)字世界的真正聯(lián)通。正如我們開場視頻中所展示的那樣，空間計算技術連接著虛擬與現(xiàn)實，并促進兩者之間的互動。它具備將數(shù)字孿生等虛擬概念與現(xiàn)實世界進行雙向交互的能力，而這正是其獨特的價值所在。”

從技術起源來看，空間計算的概念最早可追溯至2000年代初，是麻省理工學院Simon Greenwold 在其2003 年的論文中引入的一個術語。需要明確的是，空間計算并非一項單一技術，而是一個概念，類似于‘智慧城市’。

智慧城市并非單一技術，而是多種技術的整合。同樣，要實現(xiàn)空間計算，需要足夠的算法、算力以及傳感器融合等多種技術的協(xié)同。盡管該概念在提出之初就引發(fā)了廣泛關注，但由于當時的技術條件尚不成熟，空間計算并未得到廣泛應用。

直到近年來，隨著相關技術的進步，空間計算才再次進入人們的視野。就全球范圍而言，空間計算技術的發(fā)展歷程大致如此。而對于利亞德集團來說，我們早些年一直在進行動作捕捉技術的研究，隨后逐步演進到空間計算領域。

? 隨著聯(lián)合實驗室的成立，未來該實驗室的主要研究方向將聚焦于哪些領域？同時，其具體應用場景又將涵蓋哪些方面？”

關于聯(lián)合實驗室未來的發(fā)展方向，實際上我和姜博士（松延動力創(chuàng)始人、董事長姜哲源）都已有所提及。首先，姜博士強調(diào)了我們將共同構建全球最大的高精度數(shù)據(jù)庫，這一數(shù)據(jù)庫將基于我們源源不斷產(chǎn)生的機器人訓練數(shù)據(jù)，而非傳統(tǒng)的人形數(shù)據(jù)。這不僅對他們公司本身有價值，對整個產(chǎn)業(yè)而言也具有重要意義。正如剛才記者朋友所言，這個數(shù)據(jù)庫并非只服務于一家公司，一旦形成，它將可以服務于所有相關企業(yè)。

其次，我們將重點關注SLAM（即時定位與地圖構建）算法的研發(fā)，這對于提升機器人的‘眼睛’至關重要。目前，機器人廠商在空間感知能力方面主要采用兩種技術路線：機器視覺和紅外雷達。我們更傾向于機器視覺，因為我們在早期進行動作捕捉時就大量采用了攝像頭。因此，我們將與合作方在SLAM算法方面進行深入合作，并取得更多突破。

以上是短期內(nèi)雙方將著力解決的問題。從長遠來看，我們的目標是推動機器人走進家庭。這可能是一個循序漸進的過程，因為家庭環(huán)境的容錯率相對較低，而B端（企業(yè)端）的容錯率則相對較高。正如我之前與其他媒體朋友所討論的，松延動力公司的愿景是讓機器人走進千家萬戶，成為人們的‘保姆’。。我們目前正在幫助他們進行泛化訓練，即讓機器人具備切菜、洗碗、放置物品等能力。這已經(jīng)超越了底層技術層面，轉向了具體的應用型訓練。

因此，我們的聯(lián)合實驗室初期將圍繞上述兩到三個方向展開研究，未來將根據(jù)實際需求進行調(diào)整。

? 在選擇合作伙伴時的標準和要求是什么？更側重于其業(yè)務的實際運作模式，還是更看重創(chuàng)始人的個人特質(zhì)和理念？

一般來說，我們會從技術合作伙伴的角度來談更為合理。

第一，我們希望合作伙伴像松延動力（或其他暫不便透露名稱的公司）一樣，在機器人本體方面擁有成熟的技術和領先的實力。如果合作伙伴在機器人硬件層面無法解決足夠多的問題，我們的技術就無法有效應用，這將浪費雙方的時間。因此，我們對合作伙伴的硬件基礎有一定的要求。

第二，我們希望看到合作伙伴團隊整體的技術決心和執(zhí)行力都比較高。正如大家所看到的，我們團隊每年都會發(fā)布技術進展，包括去年發(fā)布的大模型和今年發(fā)布的新產(chǎn)品。大家可能會覺得我們的效率很高，這源于我們團隊成員積極的心態(tài)和高效的執(zhí)行力。因此，我們希望合作伙伴在節(jié)奏上與我們保持一致。

第三，我們希望合作伙伴與我們形成互補關系。也就是說，他們的優(yōu)勢領域正好是我們不擅長的，而我們擅長的領域他們則無需再投入精力。我們更傾向于選擇能與我們形成互補的合作伙伴，這樣才能實現(xiàn)資源的最大化利用?！?/p>

? 我們?yōu)楹芜x擇與合作伙伴進行聯(lián)合開發(fā)，而非自行成立工作室或收購現(xiàn)有機器人公司進行制作機器人？

我們選擇合作伙伴模式，而非自行制造機器人，主要基于以下幾點考量：

第一，機器人制造本身屬于精密制造和高端制造領域，堪稱全球天花板行業(yè)，與汽車制造類似。無論是資金投入還是技術積累，我們目前都不具備獨立制造機器人的能力。如果強行進入，勢必會分散我們有限的資源和精力。

第二，我們有明確的戰(zhàn)略定位，即‘不造機器人，而是幫助合作伙伴造更好的機器人’。這與華為‘不造車，而是幫助所有汽車更智能’的理念相似。我們不希望與任何機器人廠商形成競爭關系，而是希望與所有廠商合作，我們致力于成為機器人行業(yè)的賦能者，而非競爭者。

此外，還有一個因素促使我們選擇合作模式，并讓我們充滿激情地投入其中。目前，網(wǎng)上有很多機器人具身智能產(chǎn)業(yè)鏈圖譜，詳細列出了機器人各個零部件的成本占比，例如絲杠、電機、軸承等。證券類媒體甚至會據(jù)此計算機器人的毛利率。但我想強調(diào)的是，這些硬件決定了機器人能力的下限，即機器人無法做到什么。然而，機器人能力的上限，例如通過算法讓動作精度提升0.1度所帶來的價值，卻很少被計算或重視。我們認為，數(shù)據(jù)和算法是決定機器人價值的關鍵因素，但目前尚未被資本和媒體充分認識。我們的價值和優(yōu)勢在于此，而這也將是機器人真正進入產(chǎn)業(yè)鏈后所能體現(xiàn)的價值所在。雖然硬件的抗擊打能力和電機的承載能力也很重要，但這些都是顯性的。我們更關注隱性的數(shù)據(jù)和算法價值，并希望將其最大化。

? 如果要達到‘讓機器人進入千家萬戶，成為家庭助手’這一目標節(jié)點，從當前建立數(shù)據(jù)庫的時間點來看，您認為我們需要多少年的數(shù)據(jù)積累才能實現(xiàn)這一目標？

在探討數(shù)據(jù)積累時間之前，首先需要明確數(shù)據(jù)庫的規(guī)模。如果我們以當前我們所擁有的數(shù)據(jù)庫為基準，我們有信心認為，目前我們可能處于全球前三的領先地位。

其次，關于如何定義動作數(shù)據(jù)，這本身就是一個復雜的問題。與文本或圖像數(shù)據(jù)不同，動作數(shù)據(jù)的衡量標準并不明確。例如，自然語言處理（NLP）的數(shù)據(jù)量可以測量為單詞數(shù)量，圖像數(shù)據(jù)可以測量為像素數(shù)量和幀數(shù)，都有明確的單位和標準。但對于動作數(shù)據(jù)，例如‘拿起水瓶’這個動作，我們應該如何衡量？是測量骨關節(jié)角度、肌肉長度，還是時間幀率？每個人的動作模式都可能不同，這使得動作數(shù)據(jù)的復雜性遠高于文本或圖像數(shù)據(jù)。因此，動作數(shù)據(jù)的積累和定義，遠比文生圖的數(shù)據(jù)處理要復雜得多。

? 在人形機器人中，光學和算法的重要性體現(xiàn)在哪些方面？以及利亞德在這些關鍵算法領域，相較于同行業(yè)競爭對手，具備哪些競爭優(yōu)勢？

針對機器人領域，我們提供的算法主要分為兩大類別。第一類，我們稱之為‘空間感知’算法。這類算法通過攝像頭等傳感器獲取環(huán)境信息，使機器人能夠從視覺層面理解其所處的環(huán)境。在視覺理解的基礎上，算法進一步處理圖像，構建出三維空間模型。這其中，算法需要理解物體之間的關系，例如，確定機器人與目標物體之間的距離。

第二類算法，則專注于控制機器人的肢體運動，并維持動作的穩(wěn)定性。這類算法與機器人本體的控制算法緊密耦合，例如，維持機器人重心的算法。不同算法之間會產(chǎn)生協(xié)同作用。因此，我們目前的核心價值體現(xiàn)在兩個方面：一是通過空間感知算法，實現(xiàn)對環(huán)境的理解、判斷和決策過程；二是通過肢體控制算法，實現(xiàn)動作的選擇、執(zhí)行和保持過程。這兩大類算法構成了我們?yōu)闄C器人領域提供的核心解決方案。

? 人形機器人在實際應用中，是否會面臨場景適配的問題？也就是說，是否需要針對不同的應用場景進行定制化的調(diào)整？

關于人形機器人算法的泛化能力，我認為經(jīng)過足夠的數(shù)據(jù)訓練、算法優(yōu)化，并達到一定的量級之后，其泛化能力將顯著提升，最終實現(xiàn)跨場景的通用性。正如某位國外專家所言，理想狀態(tài)是每個人身邊都有一位機器人助手，能夠勝任各種場景下的任務，類似于智能體助手。

然而，目前全球范圍內(nèi)，大多數(shù)廠商都采取了先聚焦特定場景的策略，在解決特定場景下的問題后，再逐步擴展至其他場景。這種模式在行業(yè)內(nèi)普遍存在，即先深耕某個具體行業(yè)，待在該行業(yè)積累足夠經(jīng)驗后再擴展至其他行業(yè)。例如，松延動力的目標是直接進入家庭場景，但我們認為，這仍然需要一個循序漸進的路徑，即先基于特定的行業(yè)場景，積累經(jīng)驗，再逐步泛化到千家萬戶的各種工業(yè)和生活場景，這是一個必然的發(fā)展過程。

? 基于我們與合作公司的討論，他們希望人形機器人能夠承擔保姆等家庭服務職責。那么，在傳統(tǒng)的機器人研發(fā)框架下，我們的空間計算技術在機器人與環(huán)境及人的交互方面，能夠帶來哪些創(chuàng)新和改變呢？

簡單來說，我們的價值體現(xiàn)在兩個方面：一是環(huán)境感知和距離判斷，二是交互控制和動作規(guī)劃。

正如我們之前所討論的，核心在于賦予機器人感知空間并自主判斷的能力。例如，在實驗室中，我們進行了以下實驗：當指令機器人尋找鑰匙時，它首先需要理解“鑰匙”的概念。然后，通過圖像采集，機器人需要在環(huán)境中定位鑰匙的位置。在識別鑰匙并定位后，機器人需要規(guī)劃一系列行為，例如，如何避開障礙物到達目標位置。接下來，機器人需要確定采取何種交互方式，例如，控制大臂、小臂、手部等關節(jié)，以及最終采用何種末端執(zhí)行器（夾爪或靈巧手）來抓取鑰匙。最后，機器人還需要規(guī)劃如何將鑰匙帶回。

這一完整的流程，體現(xiàn)了我們的核心價值。首先，機器人需要感知環(huán)境并判斷目標距離；其次，當需要進行交互時，機器人需要控制自身的手部動作，并決定是否采用類人動作或機器人動作，同時保持動作的靈活性。這些過程都體現(xiàn)了我們的技術優(yōu)勢。

? 我們的動作大模型是否基于通用大模型進行調(diào)優(yōu)？如果是，我們主要采用哪些通用大模型作為基座模型？在機器視覺技術與視覺理解、視頻生成等通用大模型之間，是否存在聯(lián)動或化學反應？這種聯(lián)動是否會擴大市場需求？

我們確實參考過開源模型，但并非完全基于任何一家公司的底座。我們在借鑒和參考的基礎上，融入了我們自身的理解和創(chuàng)新。目前市面上公開的開源模型，主要側重于文本和圖像處理，缺乏對3D數(shù)據(jù)處理的支持。直接照搬這些模型，反而會干擾我們對三維信息的處理。因此，我們選擇了自主研發(fā)的路線。

在具身智能領域，圖像識別、動作驅動以及其他相關技術必然存在交集。例如，Sora升級版體現(xiàn)了對圖像理解和計算能力的顯著提升，這無疑將極大地幫助機器視覺技術進行物體判斷，以尋找鑰匙為例，過去機器人需要花費較長時間（可能3秒左右）來判斷鑰匙的位置和定義。但隨著類似大模型技術的出現(xiàn)，這一過程可能縮短到0.3秒，極大地提升了效率。這種效率的提升，加速了不同技術之間的融合。

此外，當前大模型背后的數(shù)學公式與邏輯存在一定的關聯(lián)性。如果OpenAI等公司的大模型升級，國內(nèi)如盤古、阿里、騰訊以及國際LLAMA、谷歌等系列的大模型也會快速迭代，這些大模型的迭代，反過來會促進我們在動作模型上的迭代。

因此，我們認為技術之間存在交集，技術底層的數(shù)學邏輯也存在交集，這將推動技術的不斷迭代和提升。

結語：

在這次專訪中，我們看到了虛擬動點在機器人感知領域的前瞻性布局和技術實力，他們不僅在技術上不斷突破，更將目光投向了更廣闊的應用場景。從“多模態(tài)”到“具身”，我們看到的是一場從感知到認知的躍遷，而這背后，是無數(shù)技術人對未來世界的執(zhí)著探索。

虛擬動點無疑為行業(yè)提供了一個重要的參考樣本。他們沒有選擇簡單的“拿來主義”，而是選擇了更具挑戰(zhàn)性的自研道路，這不僅需要勇氣，更需要對行業(yè)趨勢的深刻洞察。這或許也預示著，未來的競爭，將不再僅僅是技術本身的較量，更是對行業(yè)理解、痛點把握和創(chuàng)新能力的綜合比拼。

當然，具身智能的發(fā)展依然面臨諸多挑戰(zhàn)，從技術到商業(yè)化，從應用場景到倫理規(guī)范，還有很長的路要走。但我們相信，隨著技術的不斷成熟和生態(tài)的日益完善，具身智能必將釋放出巨大的潛力，深刻地改變我們的生活和工作方式。

這場變革才剛剛開始，而我們正身處其中。未來，我們還將持續(xù)關注具身智能領域的最新進展。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉載。

注：本文轉載自雷鋒網(wǎng)，如需轉載請至雷鋒網(wǎng)官網(wǎng)申請授權，轉載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點和對其真實性負責。如有侵權行為，請聯(lián)系我們，我們會及時刪除。