中文成人无字幕乱码精品区,强伦轩人妻一区二区三区四区

智源舉辦2024具身與世界模型專題峰會產(chǎn)學(xué)研共促技術(shù)創(chuàng)新與產(chǎn)業(yè)應(yīng)用行業(yè)新聞

新聞機(jī)器人 5月前 8469

2024年11月5日，北京智源人工智能研究院主辦的“智源論壇·2024具身與世界模型專題峰會”在智源大廈舉行，智源研究院理事長黃鐵軍、智源研究院院長王仲遠(yuǎn)、智源研究院副院長林詠華出席大會。智源具身多模態(tài)大模型研究中心負(fù)責(zé)人、北京大學(xué)研究員仉尚航，智源具身智能研究中心負(fù)責(zé)人、北京大學(xué)助理教授、銀河通用創(chuàng)始人王鶴，Google DeepMind研究科學(xué)家，谷歌RT1、2，SayCan作者Ted Xiao以及來自清華大學(xué)、香港大學(xué)、康奈爾大學(xué)、UC Berkeley、英國曼徹斯特大學(xué)、大灣區(qū)大學(xué)（籌），中國科學(xué)院等知名高校和研究機(jī)構(gòu)的學(xué)者專家，加速進(jìn)化、傅利葉、樂聚機(jī)器人、星塵智能等具身智能頭部企業(yè)的創(chuàng)始人、CEO圍繞具身智能和世界模型的前沿方向、技術(shù)實(shí)踐進(jìn)行了主題分享與深度探討。

智源舉辦2024具身與世界模型專題峰會產(chǎn)學(xué)研共促技術(shù)創(chuàng)新與產(chǎn)業(yè)應(yīng)用 ?

具身智能的發(fā)展，無論是硬件穩(wěn)定性，數(shù)據(jù)采集與仿真，具身大小腦模型分層架構(gòu)或者端到端技術(shù)路線，還是終端使用場景，都面臨諸多挑戰(zhàn)，需要產(chǎn)學(xué)研深度協(xié)同與廣泛聯(lián)動。智源研究院院長王仲遠(yuǎn)在開幕式致辭中表示，智源研究院將依托多模態(tài)大模型技術(shù)優(yōu)勢資源，聯(lián)合北大、清華、中科院等高校院所以及銀河通用、樂聚、加速進(jìn)化、宇樹等產(chǎn)業(yè)鏈上下游企業(yè)，建設(shè)具身智能創(chuàng)新平臺，重點(diǎn)開展數(shù)據(jù)、模型、場景驗(yàn)證等研究，共同打造具身智能創(chuàng)新生態(tài)。

智源具身多模態(tài)大模型研究中心創(chuàng)新地設(shè)計(jì)了面向機(jī)器人具身基礎(chǔ)模型的快慢系統(tǒng)框架，快系統(tǒng)能夠高效快速的預(yù)測末端執(zhí)行器位姿，慢系統(tǒng)則是在面對復(fù)雜和錯(cuò)誤行為時(shí)更加深入地思考和糾錯(cuò)，不斷提升機(jī)器人大腦的能力。為了實(shí)現(xiàn)該快慢系統(tǒng)框架，智源探索了具身端到端以及大小腦分層結(jié)構(gòu)的不同技術(shù)路線，進(jìn)行開放世界泛化物體操作，并基于大腦模型進(jìn)行語義理解與常識推理，實(shí)現(xiàn)零樣本物體導(dǎo)航。無論是端到端模型還是分層結(jié)構(gòu)，最終都是為了讓機(jī)器人能更好地理解物理世界規(guī)律，更好地與環(huán)境交互，更好地執(zhí)行時(shí)序上的準(zhǔn)確行為。因此，智源同時(shí)提出了四維世界模型Robo4D，為世界模型構(gòu)建四維時(shí)空，以解決機(jī)器人在開放世界中任務(wù)操作的物體泛化以及場景泛化等問題。相關(guān)研究被國際旗艦會議NeurIPS 2024、ICML 2024接收。

智源具身多模態(tài)大模型研究中心利用世界模型預(yù)測機(jī)器人與環(huán)境交互后的未來事件，從而生成準(zhǔn)確的行為，提前預(yù)測行為是正確還是失敗。智源設(shè)計(jì)的世界模型的技術(shù)路徑是，首先將世界模型啟動和響應(yīng)模態(tài)設(shè)置為視頻模態(tài)，給定關(guān)于動作的語言指令和當(dāng)前機(jī)器人的狀態(tài)去生成機(jī)器人執(zhí)行完動作后的完整視頻。針對給定的任務(wù)，模型可以完整預(yù)測任務(wù)執(zhí)行的過程，從物理世界中學(xué)習(xí)規(guī)律，生成視頻之后，通過模型將視頻轉(zhuǎn)換成機(jī)器人的行動。其中，任務(wù)到視頻生成以及視頻到行動的過程，利用了智源原生多模態(tài)世界模型Emu3將理解和生成大一統(tǒng)的技術(shù)思路，形成自我反思的思維鏈。

智源舉辦2024具身與世界模型專題峰會產(chǎn)學(xué)研共促技術(shù)創(chuàng)新與產(chǎn)業(yè)應(yīng)用 ?

智源具身多模態(tài)大模型研究中心負(fù)責(zé)人仉尚航認(rèn)為，近期的一系列工作展現(xiàn)出具身基礎(chǔ)模型的廣泛前景，中心將繼續(xù)探索具身多模態(tài)大模型與大數(shù)據(jù)構(gòu)建，踐行機(jī)器人領(lǐng)域的Scaling Law。實(shí)現(xiàn)真實(shí)世界的四維時(shí)空世界模型是邁向機(jī)器人整體AGI的重要一步。四維世界模型將作為機(jī)器人的世界基礎(chǔ)模擬器，同時(shí)具備時(shí)間與空間智能，擁有長短期記憶與物理概念學(xué)習(xí)等能力，與真實(shí)物理世界進(jìn)行交互并從中得到反饋。

智源具身多模態(tài)大模型研究中心在近期的研究中將世界模型從二維拓展至四維，采用先驗(yàn)引導(dǎo)的3D Gaussian Splatting算法，基于單一視角的視頻片段生成四維世界空間。采用多輪世界空間映射模型將不同位置的世界空間映射到視頻域，最終應(yīng)用于下游任務(wù)，生成式數(shù)據(jù)提升了機(jī)器人操作的泛化性。

智源舉辦2024具身與世界模型專題峰會產(chǎn)學(xué)研共促技術(shù)創(chuàng)新與產(chǎn)業(yè)應(yīng)用 ?

智源具身智能研究中心負(fù)責(zé)人、北京大學(xué)助理教授、銀河通用創(chuàng)始人王鶴在特邀報(bào)告中強(qiáng)調(diào)，空間智能要注重三維信息的使用，否則對空間幾何的理解非常有限，還需注重交互智能，而交互智能背后所需的大量數(shù)據(jù)應(yīng)該用合成數(shù)據(jù)替代真實(shí)世界的數(shù)據(jù)采集，才能達(dá)到大模型所需要的數(shù)據(jù)規(guī)模，實(shí)現(xiàn)真正的泛化性。

目前，智源具身智能研究中心展開了一系列技能的泛化研究和具身端到端大模型的訓(xùn)練研究。首先把二維真實(shí)世界看到的二維圖像升維到三維，用擴(kuò)散模型預(yù)測視差。并自研了大規(guī)模動作數(shù)據(jù)的仿真合成技術(shù)，覆蓋了桌面物體擺放、桌面紋理、光照等各種空間形態(tài)和位置關(guān)系，在仿真器中對光線折射和反射進(jìn)行仿真并進(jìn)行渲染。目前團(tuán)隊(duì)最新的進(jìn)展是完成了10億規(guī)模的靈巧抓取數(shù)據(jù)集DexGraspNet 2.0，覆蓋了基于各種物體的大規(guī)模的抓取標(biāo)簽生成，在這樣的大規(guī)模數(shù)據(jù)上訓(xùn)練的靈巧手抓取模型率先實(shí)現(xiàn)了泛化場景真機(jī)成功率90%以上。

在端到端模型研發(fā)方面，團(tuán)隊(duì)訓(xùn)練了全球首個(gè)基于視頻流的端到端導(dǎo)航大模型NaVid，無需建圖，也不依賴于深度信息和里程計(jì)信息等其它傳感器信號，完全依靠機(jī)器人攝像頭采集的單視角RGB視頻流，通過Sim2Real的方式，實(shí)現(xiàn)在真實(shí)世界室內(nèi)場景甚至是室外場景的zero-shot真機(jī)泛化。近期，智源在導(dǎo)航大模型加入了三維模態(tài)，提出了端到端空間導(dǎo)航大模型NaVid-4D，該模型在一系列有更高要求的自然語言指令導(dǎo)航任務(wù)中實(shí)現(xiàn)了進(jìn)一步突破。

智源舉辦2024具身與世界模型專題峰會產(chǎn)學(xué)研共促技術(shù)創(chuàng)新與產(chǎn)業(yè)應(yīng)用 ?

大會期間，智源研究院院長王仲遠(yuǎn)主持具身智能技術(shù)與應(yīng)用發(fā)展前沿展望圓桌討論，清華大學(xué)自動化系教授，加速進(jìn)化聯(lián)合創(chuàng)始人趙明國，智源具身智能研究中心負(fù)責(zé)人、北京大學(xué)助理教授、銀河通用創(chuàng)始人王鶴、傅利葉創(chuàng)始人兼CEO顧捷，樂聚機(jī)器人創(chuàng)始人顧捷，中科院自動化所研究員王鵬，UC Berkeley潘家怡，圍繞具身智能的本體形態(tài)、數(shù)據(jù)、泛化能力、產(chǎn)業(yè)落地前景等議題分享了最新的思考與觀察。

智源舉辦2024具身與世界模型專題峰會產(chǎn)學(xué)研共促技術(shù)創(chuàng)新與產(chǎn)業(yè)應(yīng)用 ?

此外，下午的空間智能和世界模型圓桌討論由智源研究院副院長林詠華主持，清華大學(xué)機(jī)械工程系助理研究員陳睿，清華大學(xué)電子工程系副教授代季峰，星塵智能創(chuàng)始人兼CEO來杰，香港大學(xué)助理教授李弘揚(yáng) ，北京通用人工智能研究院研究科學(xué)家黃思遠(yuǎn)，分別就機(jī)器人的世界模型技術(shù)路線、關(guān)鍵技術(shù)要點(diǎn)以及面臨的核心挑戰(zhàn)等問題進(jìn)行了不同視角的解讀。

智源舉辦2024具身與世界模型專題峰會產(chǎn)學(xué)研共促技術(shù)創(chuàng)新與產(chǎn)業(yè)應(yīng)用 ?

在閉幕致辭中，智源研究院理事長黃鐵軍指出，智能是環(huán)境的產(chǎn)物。人類智能來源于對環(huán)境的適應(yīng)演化以及對世界的抽象。智能應(yīng)該是大大小小各種形態(tài)的，不能變成一個(gè)完全統(tǒng)一的智能。具身智能的發(fā)展是必然趨勢，無論是人形還是其他形態(tài)的機(jī)器人，未來需要龐大的產(chǎn)業(yè)群配套，促進(jìn)具身智能的關(guān)鍵部件與材料，軟件與硬件協(xié)同發(fā)展。

雷峰網(wǎng)(公眾號：雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

注：本文轉(zhuǎn)載自雷鋒網(wǎng)，如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。如有侵權(quán)行為，請聯(lián)系我們，我們會及時(shí)刪除。