与 Director 一起探索分层行为的潜在空间：来自像素的强化学习代理

加州大学伯克利分校和谷歌 AI 的研究人员介绍了“Director”，这是一种强化学习代理，可以通过像素化来学习分层行为。

在学习世界模型的潜在空间中进行规划。 Director 从像素创建的世界模型可以在潜在空间中进行有效规划。世界模型将图像映射到模型状态，以便根据未来的动作预测未来的状态。 Director 使用模型状态的预测轨迹优化这两个策略：每个预定的步数，管理层选择不同的目标，员工学习如何通过简单的活动实现目标。如果方向必须在模型世界的连续高维表示空间中选择计划，那将是一项具有挑战性的任务。相反，他们学习了一个目标编码器来减少模型状态生成的离散代码的大小。目标自动编码器将离散代码转换为模型状态，然后在经理选择它们后将它们作为目标传递给工人。

深度强化学习的进步加速了对人工代理决策制定的研究。与 GPT-3 或 Imagen 等生成模型相比，人工代理可以主动影响其环境。例如，他们可能会移动机器人手臂以响应相机输入。人工智能可以通过多种方式帮助人类，但目前的方法受到精确反馈需求的限制。这通常作为奖励提供。即使是像 AlphaGo 这样可以访问巨大计算资源的强大计算机，也只能在一定数量的移动中获得下一次奖励。

相比之下，像做饭这样的复杂任务需要各个层面的决策。从菜单规划，到按照商店的指示购买用品，再到在每个阶段执行精细运动技能以及高维感官信息。分层强化 (HRL) 允许人工代理独立完成任务，即使激励有限。 HRL 将复杂的任务分解为更小的目标。 HRL 研究一直具有挑战性，因为没有通用的解决方案，现有方法使用手动定义的子任务或目标空间。

来源和详细信息：

UC Berkeley and Google AI Researchers Introduce ‘Director’: a Reinforcement Learning Agent that Learns Hierarchical Behaviors from Pixels by Planning in the Latent Space of a Learned World Model

谷歌AI优化指南

与 Director 一起探索分层行为的潜在空间：来自像素的强化学习代理

发表回复取消回复

发表回复 取消回复

发表回复取消回复