加州大学伯克利分校和谷歌 AI 的研究人员介绍了“Director”,这是一种强化学习代理,可以通过像素化来学习分层行为。
在学习世界模型的潜在空间中进行规划。 Director 从像素创建的世界模型可以在潜在空间中进行有效规划。 世界模型将图像映射到模型状态,以便根据未来的动作预测未来的状态。 Director 使用模型状态的预测轨迹优化这两个策略:每个预定的步数,管理层选择不同的目标,员工学习如何通过简单的活动实现目标。 如果方向必须在模型世界的连续高维表示空间中选择计划,那将是一项具有挑战性的任务。 相反,他们学习了一个目标编码器来减少模型状态生成的离散代码的大小。 目标自动编码器将离散代码转换为模型状态,然后在经理选择它们后将它们作为目标传递给工人。
深度强化学习的进步加速了对人工代理决策制定的研究。 与 GPT-3 或 Imagen 等生成模型相比,人工代理可以主动影响其环境。 例如,他们可能会移动机器人手臂以响应相机输入。 人工智能可以通过多种方式帮助人类,但目前的方法受到精确反馈需求的限制。 这通常作为奖励提供。 即使是像 AlphaGo 这样可以访问巨大计算资源的强大计算机,也只能在一定数量的移动中获得下一次奖励。
相比之下,像做饭这样的复杂任务需要各个层面的决策。 从菜单规划,到按照商店的指示购买用品,再到在每个阶段执行精细运动技能以及高维感官信息。 分层强化 (HRL) 允许人工代理独立完成任务,即使激励有限。 HRL 将复杂的任务分解为更小的目标。 HRL 研究一直具有挑战性,因为没有通用的解决方案,现有方法使用手动定义的子任务或目标空间。
来源和详细信息:
https://www.marktechpost.com/2022/07/16/uc-berkeley-and-google-ai-researchers-introduce-director-a-reinforcement-learning-agent-that-learns-hierarchical-behaviors-from-pixels-by-planning-in-the-latent-space-of-a-learned-world-model/