人民网

即使人类犯错,AI Agent也能快速学习,MIT、哈佛、UW提出新型强化学习方法HuGE – AI新智界

原文来源:学术头条

即使人类犯错,AI Agent也能快速学习,MIT、哈佛、UW提出新型强化学习方法HuGE – AI新智界

图片来源:由无界 AI生成

为了教会 AI Agent 新技能,比如打开厨房橱柜,研究者通常采用强化学习方法。这是一种试错过程,AI Agent 通过采取正确的行动接近目标而获得奖励。

在大多数情况下,人类专家需要精心设计奖励函数,从而鼓励 AI Agent 进行更多探索。随着 AI Agent 的探索和尝试,人类专家需要不断更新这个奖励函数。这一过程既耗时又低效,特别是在任务复杂、步骤繁多时,扩展起来更是十分困难

日前,麻省理工学院(MIT)、哈佛大学和华盛顿大学的研究团队开发了一种新型强化学习方法,这种方法不依赖专家设计的奖励函数,而是利用来自许多非专家用户的众包反馈(crowdsourced feedback),来指导 AI Agent 达成学习目标。

尽管用户众包数据常常存在错误,这种新方法依然能够让 AI Agent 更快速地学习,这与其他尝试使用非专家反馈的方法有所不同,而这些噪声数据通常会让其他方法失效。

此外,这种新方法支持异步收集反馈,使得全球各地的非专家用户都可以参与到教导 AI Agent 的过程中

MIT 电气工程与计算机科学系助理教授、Improbable AI Lab 主任 Pulkit Agrawal 表示:“在设计 AI Agent 时,最耗时且具挑战性的部分之一就是设定奖励函数。当前,奖励函数主要由专家设计,如果我们想让机器人学习多种任务,这种方式是难以扩展的。我们的研究提出了一种方案,通过众包来设计奖励函数,并让非专家参与提供有效反馈,从而扩大机器人的学习范围。”

未来,这种方法可以帮助机器人在人们家中快速学习特定任务,而无需人们亲自示范每项任务。机器人可以独立探索,由众包的非专家反馈引导其探索方向。

“在我们的方法中,奖励函数不是直接告诉 AI Agent怎样完成任务,而是指导它应该探索的方向。因此,即便人类监督存在一定的不准确性和噪声,AI Agent仍然能够进行有效探索,从而更好地学习,”Improbable AI Lab 研究助理、论文主要作者之一 Marcel Torne 解释说。

即使接收的答案有误,也能完成任务

一种收集强化学习用户反馈的方法是向用户展示 AI Agent 达到的两种状态的照片,并询问哪种状态更接近目标。例如,设想一个机器人的目标是打开厨房橱柜,其中一张照片可能显示它成功打开了橱柜,另一张则可能显示它打开了微波炉。用户需要选择表现更佳状态的照片。

有些早期方法尝试使用这种众包形式的二元反馈,来优化 AI Agent 用以学习任务的奖励函数。但问题在于,非专业人士容易出错,这会导致奖励函数变得极为混乱,以至于 AI Agent 可能无法达成目标

Torne 指出:“实际上,AI Agent 会过分认真地对待奖励函数,努力完美符合这一函数。因此,我们不直接优化奖励函数,而是用它来指导机器人应探索的区域。”

研究团队将这一过程分成两个独立部分,每部分由各自的算法驱动。他们将这种新型增强学习方法命名为人类引导探索(Human Guided Exploration,HuGE)

即使人类犯错,AI Agent也能快速学习,MIT、哈佛、UW提出新型强化学习方法HuGE – AI新智界

一方面,目标选择算法会持续接收众包的人类反馈并进行更新。这些反馈并非用作奖励函数,而是用于指引 AI Agent 的探索方向。简而言之,非专业用户提供的指引就像一路撒下的“面包屑”,逐渐引导 AI Agent 接近目标

另一方面,AI Agent 自己也会进行探索,这一过程是自我监督的,由目标选择器进行指导。它会收集自己尝试的动作的图像或视频,随后发送给人类,用于更新目标选择器。

这样做有助于缩小 AI Agent 需要探索的范围,引导它前往更接近目标的有希望的区域。但如果暂时没有反馈,或反馈迟迟未到,AI Agent 仍会继续自行学习,尽管速度较慢。这种方式允许反馈的收集不那么频繁,也可以异步进行。

Torne 补充道:“探索过程可以自主、持续进行,因为它会不断探索并学习新知识。当接收到更准确的信号时,它会以更明确的方式进行探索。它们可以按照各自的节奏运转。

由于反馈只是轻微地引导 AI Agent 的行为,即使用户提供的答案有误,AI Agent 最终也能学会如何完成任务。

更快的学习

研究团队在一系列模拟和真实环境的任务中测试了这种方法。

例如,在模拟环境中,他们利用 HuGE 高效学习一系列复杂动作,比如按特定顺序堆积积木或在迷宫中导航。

即使人类犯错,AI Agent也能快速学习,MIT、哈佛、UW提出新型强化学习方法HuGE – AI新智界

在真实环境的测试中,他们用 HuGE 训练机器人手臂来绘制字母“U”和拾取放置物体。这些测试汇集了来自三大洲 13 个国家的 109 名非专业用户的数据。

即使人类犯错,AI Agent也能快速学习,MIT、哈佛、UW提出新型强化学习方法HuGE – AI新智界

无论是在真实世界还是模拟实验中,HuGE 都使得 AI Agent学习完成任务的速度比其他方法更快。

即使人类犯错,AI Agent也能快速学习,MIT、哈佛、UW提出新型强化学习方法HuGE – AI新智界

此外,与制作和标注的合成数据相比,非专家众包的数据表现更佳。对非专家用户而言,标注 30 张图片或视频不到两分钟就能完成。“这展示了这种方法在扩展应用方面的巨大潜力,”Torne 补充说。

在一项相关的研究中,研究团队在最近的机器人学习会议上展示了他们如何改进 HuGE,使得 AI Agent 不仅能学习完成任务,还能自主地重置环境继续学习。例如,如果 AI Agent 学会了打开橱柜,这种方法还能指导它关闭橱柜。

“现在我们能让它在没有人工干预的情况下完全自主学习,”他说。

研究团队还强调,在这种以及其他学习方法中,确保 AI Agent与人类价值观保持一致是至关重要的。

未来,研究团队计划进一步完善 HuGE,让 AI Agent 能够通过自然语言和与机器人的物理交互等更多方式学习。他们还对将这种方法应用于同时训练多个 AI Agent 表示出了兴趣。

参考链接

  • https://news.mit.edu/2023/method-uses-crowdsourced-feedback-help-train-robots-1127‌
  • https://arxiv.org/pdf/2307.11049.pdf‌
  • https://human-guided-exploration.github.io/HuGE/‌

免责声明:本文来自网络收录或投稿,观点仅代表作者本人,不代表芒果财经赞同其观点或证实其描述,版权归原作者所有。转载请注明出处:https://www.mgcj.net/1081018.html
温馨提示:投资有风险,入市须谨慎。本资讯不作为投资理财建议。

(0)
学术头条的头像学术头条
上一篇 2023年11月29日 上午11:14
下一篇 2023年11月29日 下午12:06
198抢自链数字人

相关推荐