众包反馈：训练机器人的创新方法

训练机器人的新方法利用人群的反馈

研究人员经常使用强化学习来教人工智能代理新任务，例如如何打开柜子。这是一个试错过程，当智能体采取行动使其更接近目标时，就会获得奖励。

人类专家通常必须仔细设计奖励机制，这是鼓励代理探索的激励工具。人类专家在观察和测试不同的动作时需要迭代更新奖励函数。这样做可能效率低下且耗时，尤其是当任务很复杂并且需要许多步骤时。

麻省理工学院、哈佛大学和华盛顿大学的研究人员开发了一种新的强化学习方法，该方法不依赖于专家设计的奖励函数。它使用来自非专家用户的众包反馈来指导代理学习以实现其目标。该作品发表在预印本服务器 arXiv 上。

来源和详细信息：
https://techxplore.com/news/2023-11-method-crowdsourced-feedback-robots.html

谷歌AI优化指南