训练机器人的新方法利用人群的反馈

研究人员经常使用强化学习来教人工智能代理新任务,例如如何打开柜子。 这是一个试错过程,当智能体采取行动使其更接近目标时,就会获得奖励。

人类专家通常必须仔细设计奖励机制,这是鼓励代理探索的激励工具。 人类专家在观察和测试不同的动作时需要迭代更新奖励函数。 这样做可能效率低下且耗时,尤其是当任务很复杂并且需要许多步骤时。

麻省理工学院、哈佛大学和华盛顿大学的研究人员开发了一种新的强化学习方法,该方法不依赖于专家设计的奖励函数。 它使用来自非专家用户的众包反馈来指导代理学习以实现其目标。 该作品发表在预印本服务器 arXiv 上。

来源和详细信息:
https://techxplore.com/news/2023-11-method-crowdsourced-feedback-robots.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注