中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當前的位置是:  首頁 > 技術 > 國外技術 >
 首頁 > 技術 > 國外技術 > 谷歌人工智能公司宣布推出基于LLM的機器人控制器RT-2 用于其視覺-語言-行動

谷歌人工智能公司宣布推出基于LLM的機器人控制器RT-2 用于其視覺-語言-行動

2023-10-18 15:45:18   作者:   來源:CTI論壇原創(chuàng)   評論:0  點擊:


  谷歌人工智能公司最近宣布了機器人變壓器2,這是一種用于控制機器人的視覺-語言-行動人工智能模型。RT-2使用微調的LLM來輸出運動控制命令。它可以執(zhí)行未明確包含在訓練數(shù)據(jù)中的任務,并在緊急技能評估中將基線模型改進多達 3 倍。

  人工智能公司使用兩種不同的底層視覺LLM基礎模型訓練了RT-2的兩種變體:基于PaLM-E的12B參數(shù)版本和基于PaLI-X的55B參數(shù)版本。LLM在一般視覺語言數(shù)據(jù)集和機器人特定數(shù)據(jù)的混合上共同微調。該模型學習輸出機器人運動命令的向量,該向量被視為簡單的整數(shù)字符串:實際上,它是模型學習的一種新語言。最終模型能夠接受機器人工作空間的圖像和用戶命令,例如“撿起即將從桌子上掉下來的袋子”,并從中生成運動命令來執(zhí)行任務。根據(jù)人工智能公司的說法,

  RT-2不僅展示了人工智能的進步如何迅速級聯(lián)到機器人技術中,還展示了對更多通用機器人的巨大前景。雖然在以人為中心的環(huán)境中啟用有用的機器人仍有大量工作要做,但RT-2向我們展示了機器人技術令人振奮的未來。

  Google Robotics和人工智能公司已經(jīng)發(fā)布了幾個使用LLM進行機器人控制的系統(tǒng)。2022 年,InfoQ 報道了谷歌的 SayCan,它使用 LLM 為機器人生成高級行動計劃,以及代碼即政策,它使用 LLM 生成用于執(zhí)行機器人控制的 Python 代碼。兩者都使用純文本LLM來處理用戶輸入,視覺組件由單獨的機器人模塊處理。今年早些時候,InfoQ報道了谷歌的PaLM-E,它處理來自機器人傳感器的多模態(tài)輸入數(shù)據(jù),并輸出一系列高級動作步驟。

  RT-2 建立在以前的實現(xiàn) RT-1 之上。RT系列的關鍵思想是訓練模型直接輸出機器人命令,這與以前輸出更高層次的運動抽象的努力相反。RT-2 和 RT-1 都接受任務的圖像和文本描述作為輸入。然而,雖然RT-1使用不同視覺模塊的管道來生成視覺令牌以輸入LLM,但RT-2使用單一視覺語言模型,如PaLM-E。

  人工智能公司在6000多次試驗中評估了RT-2。特別是,研究人員對其緊急能力感興趣:即執(zhí)行機器人特定訓練數(shù)據(jù)中不存在的任務,但從其視覺語言預訓練中出現(xiàn)的任務。該團隊在三個任務類別上測試了RT-2:符號理解,推理和人類識別。與基線相比,RT-2實現(xiàn)了最佳基線的“超過3倍的平均成功率”。但是,該模型沒有獲得機器人訓練數(shù)據(jù)中未包含的任何物理技能。

  在Hacker News關于這項工作的討論中,一位用戶評論道:

  看起來這項工作仍然停留在位置/速度控制而不是阻抗控制上。這本質上是輸出去哪里,要么是帶有控制器的閉環(huán),要么是帶有運動規(guī)劃器的開環(huán)。這似乎大大降低了數(shù)據(jù)需求,但它感覺像是我們可以完成的任務的基本限制。機器人操縱之所以困難,是因為我們不僅需要考慮世界上正在發(fā)生的事情,還需要考慮我們的互動如何改變它以及我們需要如何對此做出反應。

  雖然RT-2還沒有開源,但RT-1的代碼和數(shù)據(jù)已經(jīng)開源。

【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

相關閱讀:

專題

CTI論壇會員企業(yè)