用ChatGPT和强化学习玩转《我的世界》,Plan4MC攻克24个复杂任务
来源:机器之心    时间:2023-04-21 05:21:59


(资料图)

机器之心发布

机器之心编辑部
Plan4MC 目前可以完成 24 个复杂多样任务,成功率相比所有的基线方法有巨大提升。
在开放式的环境中学习多种任务是通用智能体的重要能力。 《我的世界》(Minecraft)作为一款受欢迎的开放世界游戏,具有无限生成的复杂世界和大量开放的任务,成为近几年开放式学习研究的重要测试环境。 学习 Minecraft 中的复杂任务对当前的强化学习算法是巨大的挑战。一方面,智能体在无限大的世界中通过局部的观测寻找资源,面临探索的困难。另一方面,复杂的任务通常需要很长的执行时间,要求完成许多隐含的子任务。例如,制作一把石镐涉及砍树、制作木镐、挖原石等十余个子任务,需要智能体执行数千步才能完成。智能体只有在任务完成时能够获得奖励,难以通过稀疏奖励学会任务。 图:Minecraft 中制作石镐的过程。目前围绕 MineRL 挖钻石竞赛的研究普遍使用专家演示的数据集,而 VPT 等研究使用大量带标签的数据学习策略。在缺少额外数据集的情况下,用强化学习训练 Minecraft 的任务是非常低效的。MineAgent 使用 PPO 算法仅能完成若干个简单任务;基于模型的 SOTA 方法 Dreamer-v3 在简化环境模拟器的情况下,也需要采样 1000 万步学会获得原石。 北京大学和北京智源人工智能研究院的团队提出了在无专家数据的情况下高效解决 Minecraft 多任务的方法 Plan4MC。作者结合强化学习和规划的方法,将解决复杂任务分解为学习基本技能和技能规划两个部分。作者使用内在奖励的强化学习方法训练三类细粒度的基本技能。智能体使用大型语言模型构建技能关系图,通过图上的搜索得到任务规划。实验部分,Plan4MC 目前可以完成 24 个复杂多样任务,成功率相比所有的基线方法有巨大提升。 论文链接:https://arxiv.org/abs/2303.16563 代码链接:https://github.com/PKU-RL/Plan4MC 项目主页:https://sites.google.com/view/plan4mc ‍1、Minecraft 多任务Minecraft 中玩家通过探索能够获得数百种物品。任务定义为初始条件和目标物品的组合,例如,“初始化 工作台,获得熟牛肉”。解决这个任务包含 “获得牛肉”、“用工作台和原石制作熔炉” 等步骤,这些细分的步骤称为技能。人类在世界中掌握和组合此类技能来完成各种任务,而不是独立地学习每个任务。Plan4MC 的目标是学习策略掌握大量的技能,再通过规划将技能组合成任务。 作者在 MineDojo 模拟器上构建了 24 个测试任务,它们涵盖了多种行为(砍树、挖原石、与动物交互)、多种地形,涉及 37 个基本技能。需要数十步的技能组合和数千步的环境交互来完成各个任务。 图:24 个任务的设置2、Plan4MC 方法学习技能由于强化学习在训练中难以让玩家大范围跑动探索世界,许多技能仍不能被掌握。作者提出将探索和寻找的步骤分离出来,将 “砍树” 技能进一步细化为 “找树” 和 “获得木头”。Minecraft 中的所有技能被分为三类细粒度的基本技能: 寻找:给定目标物品,玩家要在世界中探索,找到和接近该物品。 操作:利用现有的工具在附近完成一些任务,如放置工作台、与动物交互、挖方块。 合成:用低级物品合成高级物品。 针对每一类技能,作者设计了强化学习模型和内在奖励进行高效的学习。寻找类技能使用分层的策略,其中上层策略负责给出目标位置、增大探索范围,下层策略负责到达目标位置。操作类技能使用 PPO 算法结合 MineCLIP 模型的内在奖励训练。合成类技能仅使用一个动作完成。在未修改难度的 MineDojo 模拟器上,学习全部技能仅需与环境交互 6.5M 步。 规划算法Plan4MC 利用技能之间的依赖关系进行规划,例如获得石镐与获得原石、木棍、放置的工作台等技能间存在如下关系。 作者通过与大语言模型 ChatGPT 进行交互的方式生成出所有技能之间的关系,构建了技能的有向无环图。规划算法是技能图上的深度优先搜索,如下图所示。 相比 Inner Monologue、DEPS 等与大语言模型交互式规划的方法,Plan4MC 能够有效避免大语言模型规划过程中的错误。 3、实验结果在关于学习技能的研究中,作者引入了不做任务分解的 MineAgent,以及不细分出寻找类技能的消融实验 Plan4MC w/o Find-skill。表 2 表明,Plan4MC 在三组任务上均显著超过基线方法。MineAgent 在挤牛奶、剪羊毛等简单任务上性能接近 Plan4MC,但无法完成探索困难的砍树、挖原石等任务。不做技能细分的方法在所有任务上成功率均低于 Plan4MC。 图 3 显示了在完成任务的过程中,各方法在寻找目标的阶段均有较大的失败概率、导致成功率曲线下降。而不做技能细分的方法在这些阶段的失败概率明显高于 Plan4MC 的概率。 在关于规划的研究中,作者引入了利用ChatGPT做交互式规划的基线方法Interactive LLM,以及两个消融实验:技能执行失败时不再重新规划的Zero-shot方法和使用一半最大交互步数的1/2-steps方法。表2表明Interactive LLM在与动物交互的任务集上表现接近Plan4MC,而在另两个需要更多规划步骤的任务集上表现不佳。Zero-shot的方法在所有任务上均表现较差。使用一半步数的方法相比Plan4MC成功率下降不多,表面Plan4MC能用较少的步数高效完成任务。 4、总结作者提出了 Plan4MC,使用强化学习和规划解决 Minecraft 中的多任务。为解决探索困难和样本效率的问题,作者使用内在奖励的强化学习训练基本技能,利用大语言模型构建技能图进行任务规划。作者在大量困难 Minecraft 任务上验证了 Plan4MC 相较包括 ChatGPT 等的各种基线方法的优势。 结束语:强化学习技能 + 大语言模型 + 任务规划有可能实现 Daniel Kahneman 所描述的 System1/2 人类决策模型。

©THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

上一篇:

下一篇:

X 关闭

推荐内容

  • 用ChatGPT和强化学习玩转《我的世界》,Plan4MC攻克24个复杂任务
  • 五一淄博酒店客房提前售罄 3月起淄博酒店入住率维持90%以上
  • 全球观速讯丨2022年烟台市域社会治理现代化水平持续提升
  • 天津市网信办依法处置一批违法违规“自媒体”账号|头条焦点
  • 南通这些路段,违停抓拍系统即将启用! 视讯
  • 河北4月20日起单颗常规种植牙总费用平均降幅约50%
  • 袭击岸田嫌疑人木村隆二可能面临杀人未遂等多项指控 全球热点
  • 主播说联播丨当大运会与成都相遇,这种感觉巴适得板 全球热头条
  • [直击业绩会]齐峰新材:加快新产品研发攻关和新项目建设进度 积极探求产业链上下游合作和投资机会|环球动态
  • 2022中国光学十大进展颁奖典礼
  • 翔安技能补贴在哪里领?附地址、电话-世界热闻
  • 国家统计局:一季度消费市场呈现加快恢复向好态势-世界新要闻
  • 天天看点:上海一银行男员工暴力殴打女员工,警方已介入调查
  • 田间课堂 耕耘希望 世界新资讯
  • 《热血群英传》张春华介绍-全球观热点
  • 环球视点!强切35万级豪华MPV市场 传祺E9上海车展开启预售
  • 全球观热点:刘备夺取益州过程中,为何曹操没有阻止呢?
  • 音悦台因劳动争议被强执27万 音悦台累计被执行超1404万|天天热资讯
  • 一季度国内糖价上涨3.26% 如何应对?
  • 牡蛎壳回收利用创新方案:环保陶器与除雪剂成为热门产品
  • 芭乐番石榴热量?|今日快看
  • 【焦点热闻】北京114预约挂号平台上新
  • 重庆市今年一季度GDP达6932.89亿元,同比增长4.7%
  • 四部门:做好2023年国家助学贷款免息及本金延期偿还工作
  • 乌云盖雪猫_乌云盖雪
  • 工业和信息化部:指导地方在制定促消费政策时维护公平秩序
  • 4月20日人民币对美元汇率中间价调降256个基点 当前热文
  • 【天天报资讯】车展E快评 | 补足驾驶辅助短板 AITO问界M5智驾版静态体验
  • 每日消息!股息率排行榜:311只股连续三年股息率超一年定存
  • 创新“综合授权+负面清单”方式 上海进一步给创新主体“松绑”
  • 蜚然是什么意思 斐然是什么意思-天天即时
  • 河北宽城:开展学徒制职业教育 为县域经济发展引来人才“活水”|世界信息
  • 视焦点讯!青岛税务:便民春风添“绿意” 绘就绿色发展新底色
  • 捷豹路虎携多款重磅车型登陆2023上海车展|环球观天下
  • 天天通讯!洪和雷神重创金角巨兽后罗峰为什么不去补刀?导演已解释很清楚了
  • 32个消防神器“上岗”阳光城花园社区 全球快播报
  • 【天天热闻】“欧洲武汉台湾”铁海多式联运通道开通
  • 华为智能光储解决方案全面升级,将助力大基地建设如何破题?
  • 李开复:全球将涌现新的AI2.0时代创业机会 看好三大方向
  • 环球快播:电赋未来 一汽奥迪以全新能源车阵容亮相上海车展
  • 10万左右轿车排行榜前十名及价格_10万左右的轿车排行榜 天天最新
  • 自然资源部:鼓励有条件地区编制砂石专项规划
  • 玫瑰花泡水喝有什么好处?
  • 怎么给加湿器消毒?加湿器的正确使用方法?|天天速讯
  • 奥瑞金-环球微头条
  • 如何制作纱丽丝绸手链
  • 天天看热讯:产教融合 实训实学
  • 江西省宜春市检验检测中心构建衔接型食品快检实验室-世界时快讯
  • 绿萝的养殖方法和注意事项有哪些呢_绿萝的养殖方法和注意事项有哪些
  • 4月19日棉纱主力2305合约上涨0.61%
  • 精选!边界日趋消弭,内容始终为王
  • 2022下半年广东佛山市教育局统一招考雇用人员面试公告
  • ANOTHER ONE安那迪「名媛所致」时装秀圆满落幕
  • 大饼脸适合什么发型女_大饼脸适合什么发型
  • 大班保育个人工作总结_大班个人工作总结上学期_快播
  • 小仲马茶花女 小仲马
  • 每日讯息!心理咨询师《基础知识》知识点:人格适应
  • 创新领跑“沐浴定制时代”,华帝再获多项行业殊荣
  • 环球微动态丨国际金价重新走低,但空头面临这两大背景须准备随时撤退
  • 动态焦点:交警“送检下乡”,筑牢农村交通安全防线
  • 微动态丨红原、石渠、金川等地上“气质”榜!2月四川这些地方空气质量佳
  • * 自爆存“跳码”重大风险事项,拉卡拉盘中跌超17%
  • 乌鲁木齐周大福今日金价查询(2023年4月19日)
  • 英山茶企从“制茶”发酵“智茶”,5个工人可日产干茶3万斤
  • 知名以色列网络安全公司Team8:ChatGPT或会暴露企业机密信息|全球热点
  • 最终幻想起源天堂的陌生人幻想和终极的远方成就怎么做-世界百事通
  • 每日焦点!北京丰台区医院大火已致29人遇难,院长王某玲等12人被刑拘
  • 庆阳职业技术学院张正贤教授参加第二十一届国际人才交流大会|天天观察
  • 节约工期42天 节省费用近4000万美元 新区企业海油发展完成海外深水勘探钻井作业 世界独家
  • 2023年酒泉社保缴费多少钱一个月 酒泉社保缴费标准一览 焦点资讯
  • 爱康科技:湖州基地第二条异质结电池产线目前爬坡率80%以上
  • 圣达信教育官网龙卡靠谱_圣达信教育官网
  • 环球信息:京辽之战打得是篮球,粤厦之争拼的是凶狠,杜锋摊牌,郭艾伦回击
  • 环球观热点:《模拟人生4》全球玩家现已超过7000万
  • 每日短讯:为爱保驾护航,天府五小家校携手守护学子“舌尖安全”
  • 着眼长期价值、助力利润增长 京东收银发布全新商户数字化解决方案
  • 我国“种业振兴行动”取得积极进展 今年农作物种子总体供大于求 每日速讯
  • 新资讯:垃圾短信无孔不入相关产业链已形成 专家:提升拦截能力
  • 恒铭达:昆山(二期)厂房的基本建设已完成 将于2023年投入使用
  • 京蒙协作带火锡盟旅游,“停车场是满的,后备箱也是满的”
  • 瑞信:维持中国海洋石油(00883.HK)“跑赢大市”评级 目标价上调至15.5港元
  • 天天视讯!伦敦市中心房价下跌近5% 为2019年以来的最大年度跌幅
  • 环球微资讯!进口新车报道:奔驰GLE增四款新车型 售76.8-119.8万
  • 世界视点!4月19日生意社黄芪基准价为22.60元/公斤
  • 自4月17日起,瑞典与包括多个北约成员国在内的13个国家开始在该国南部、波罗的海及近北极地区举行代号为“极光-23”的大型联合军演,这是30年来在该国领土上举行的最大规模军演|天天速看
  • 今日要闻!「机构调研记录」天弘基金调研国博电子、七一二等5只个股(附名单)
  • 即时看!美佛州州长威胁要在迪士尼边上建监狱,有议员讽刺“戏太多”
  • 唯捷创芯:4月18日融资买入846.53万元,融资融券余额3947.18万元
  • 农场小镇模拟经营什么时候出 公测上线时间预告 环球观点
  • 女性从未体验“高潮”,是男人不行吗?如何享受更好的性生活?-世界热头条
  • 华夏中证港股通消费主题ETF净值下跌1.05% 请保持关注
  • 奈飞:降价不会很快对业务造成实质性影响 报道
  • 怎样才能快速瘦腰?_速看料
  • 世界快讯:在勇士追梦的日子到头了?格林被开除普尔笑
  • 表白暗语藏头诗可进可退 表白暗语藏头诗_环球讯息
  • 陈晓玥个人资料
  • 【奔流文化·闲谭】甘肃的这所军校到底有多强?近代不少陇籍将星在此冉冉升起_世界热点
  • 三峰环境(601827):4月18日北向资金减持59.54万股
  • 陈洁仪个人资料年龄_陈洁仪个人资料
  • 天天要闻:福州火灾造成两人死亡,热水器或成罪魁祸首
  • 精彩推荐

    Copyright ©  2015-2022 太平洋卫浴网版权所有  备案号:豫ICP备2022016495号-17   联系邮箱:93 96 74 66 9@qq.com