最新要聞

廣告

5G

首例5g乳腺手術價格是多少錢?首例5g乳腺手術成功率是多少?

首例5g乳腺手術價格是多少錢?首例5g乳腺手術成功率是多少?

電信光纖多少錢一年?電信光纖價格表

電信光纖多少錢一年?電信光纖價格表

科技

用ChatGPT和強化學習玩轉《我的世界》,Plan4MC攻克24個復雜任務 環球看熱訊

來源:機器之心


(資料圖)

機器之心發布

機器之心編輯部
Plan4MC 目前可以完成 24 個復雜多樣任務,成功率相比所有的基線方法有巨大提升。
在開放式的環境中學習多種任務是通用智能體的重要能力。 《我的世界》(Minecraft)作為一款受歡迎的開放世界游戲,具有無限生成的復雜世界和大量開放的任務,成為近幾年開放式學習研究的重要測試環境。 學習 Minecraft 中的復雜任務對當前的強化學習算法是巨大的挑戰。一方面,智能體在無限大的世界中通過局部的觀測尋找資源,面臨探索的困難。另一方面,復雜的任務通常需要很長的執行時間,要求完成許多隱含的子任務。例如,制作一把石鎬涉及砍樹、制作木鎬、挖原石等十余個子任務,需要智能體執行數千步才能完成。智能體只有在任務完成時能夠獲得獎勵,難以通過稀疏獎勵學會任務。 圖:Minecraft 中制作石鎬的過程。目前圍繞 MineRL 挖鉆石競賽的研究普遍使用專家演示的數據集,而 VPT 等研究使用大量帶標簽的數據學習策略。在缺少額外數據集的情況下,用強化學習訓練 Minecraft 的任務是非常低效的。MineAgent 使用 PPO 算法僅能完成若干個簡單任務;基于模型的 SOTA 方法 Dreamer-v3 在簡化環境模擬器的情況下,也需要采樣 1000 萬步學會獲得原石。 北京大學和北京智源人工智能研究院的團隊提出了在無專家數據的情況下高效解決 Minecraft 多任務的方法 Plan4MC。作者結合強化學習和規劃的方法,將解決復雜任務分解為學習基本技能和技能規劃兩個部分。作者使用內在獎勵的強化學習方法訓練三類細粒度的基本技能。智能體使用大型語言模型構建技能關系圖,通過圖上的搜索得到任務規劃。實驗部分,Plan4MC 目前可以完成 24 個復雜多樣任務,成功率相比所有的基線方法有巨大提升。 論文鏈接:https://arxiv.org/abs/2303.16563 代碼鏈接:https://github.com/PKU-RL/Plan4MC 項目主頁:https://sites.google.com/view/plan4mc ?1、Minecraft 多任務Minecraft 中玩家通過探索能夠獲得數百種物品。任務定義為初始條件和目標物品的組合,例如,“初始化 工作臺,獲得熟牛肉”。解決這個任務包含 “獲得牛肉”、“用工作臺和原石制作熔爐” 等步驟,這些細分的步驟稱為技能。人類在世界中掌握和組合此類技能來完成各種任務,而不是獨立地學習每個任務。Plan4MC 的目標是學習策略掌握大量的技能,再通過規劃將技能組合成任務。 作者在 MineDojo 模擬器上構建了 24 個測試任務,它們涵蓋了多種行為(砍樹、挖原石、與動物交互)、多種地形,涉及 37 個基本技能。需要數十步的技能組合和數千步的環境交互來完成各個任務。 圖:24 個任務的設置2、Plan4MC 方法學習技能由于強化學習在訓練中難以讓玩家大范圍跑動探索世界,許多技能仍不能被掌握。作者提出將探索和尋找的步驟分離出來,將 “砍樹” 技能進一步細化為 “找樹” 和 “獲得木頭”。Minecraft 中的所有技能被分為三類細粒度的基本技能: 尋找:給定目標物品,玩家要在世界中探索,找到和接近該物品。 操作:利用現有的工具在附近完成一些任務,如放置工作臺、與動物交互、挖方塊。 合成:用低級物品合成高級物品。 針對每一類技能,作者設計了強化學習模型和內在獎勵進行高效的學習。尋找類技能使用分層的策略,其中上層策略負責給出目標位置、增大探索范圍,下層策略負責到達目標位置。操作類技能使用 PPO 算法結合 MineCLIP 模型的內在獎勵訓練。合成類技能僅使用一個動作完成。在未修改難度的 MineDojo 模擬器上,學習全部技能僅需與環境交互 6.5M 步。 規劃算法Plan4MC 利用技能之間的依賴關系進行規劃,例如獲得石鎬與獲得原石、木棍、放置的工作臺等技能間存在如下關系。 作者通過與大語言模型 ChatGPT 進行交互的方式生成出所有技能之間的關系,構建了技能的有向無環圖。規劃算法是技能圖上的深度優先搜索,如下圖所示。 相比 Inner Monologue、DEPS 等與大語言模型交互式規劃的方法,Plan4MC 能夠有效避免大語言模型規劃過程中的錯誤。 3、實驗結果在關于學習技能的研究中,作者引入了不做任務分解的 MineAgent,以及不細分出尋找類技能的消融實驗 Plan4MC w/o Find-skill。表 2 表明,Plan4MC 在三組任務上均顯著超過基線方法。MineAgent 在擠牛奶、剪羊毛等簡單任務上性能接近 Plan4MC,但無法完成探索困難的砍樹、挖原石等任務。不做技能細分的方法在所有任務上成功率均低于 Plan4MC。 圖 3 顯示了在完成任務的過程中,各方法在尋找目標的階段均有較大的失敗概率、導致成功率曲線下降。而不做技能細分的方法在這些階段的失敗概率明顯高于 Plan4MC 的概率。 在關于規劃的研究中,作者引入了利用ChatGPT做交互式規劃的基線方法Interactive LLM,以及兩個消融實驗:技能執行失敗時不再重新規劃的Zero-shot方法和使用一半最大交互步數的1/2-steps方法。表2表明Interactive LLM在與動物交互的任務集上表現接近Plan4MC,而在另兩個需要更多規劃步驟的任務集上表現不佳。Zero-shot的方法在所有任務上均表現較差。使用一半步數的方法相比Plan4MC成功率下降不多,表面Plan4MC能用較少的步數高效完成任務。 4、總結作者提出了 Plan4MC,使用強化學習和規劃解決 Minecraft 中的多任務。為解決探索困難和樣本效率的問題,作者使用內在獎勵的強化學習訓練基本技能,利用大語言模型構建技能圖進行任務規劃。作者在大量困難 Minecraft 任務上驗證了 Plan4MC 相較包括 ChatGPT 等的各種基線方法的優勢。 結束語:強化學習技能 + 大語言模型 + 任務規劃有可能實現 Daniel Kahneman 所描述的 System1/2 人類決策模型。

?THE END

轉載請聯系本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin.com

關鍵詞: