谷歌 AI 研究人员提出 Jump Start 强化学习,这是一种元算法,它使用先前的策略来创建可提高性能的学习课程
人工智能中的强化学习是一种机器学习技术,可以奖励期望的行为并惩罚那些不期望的行为。 这种存在形式允许代理感知其环境并通过反复试验采取相应的行动。 这就像收到关于什么有效的反馈。 然而,在 RL 中,面对具有复杂探索问题的上下文时,很难从头开始学习规则。 智能体无法判断距离完成目标还有多远,因为它没有收到中间激励。 为了找到门,代理必须随机探索该区域。 考虑到完成任务所需的时间和精度,这不太可能。
避免使用初步信息随机探索状态空间。 这种先验知识有助于代理确定应调查环境中的哪些状态。 来自其他 RL 代理程序的人类演示或策略的离线数据可用于训练 RL 策略。 在神经网络用于描述过程的情况下,这将涉及将预训练的 RL 策略的神经网络复制到新的 RL 策略。 这会将新创建的 RL 策略转换为预训练的策略。 如下所示,像这样天真地启动新的 RL 方法通常会失败,特别是对于基于价值的 RL。
Google AI 的研究人员创建了一种元算法,该算法利用预先存在的策略来初始化任何 RL 算法。 研究人员使用 Jump-Start 强化学习 (JSRL) 中的两个程序来学习任务:指南和探索策略。 探索政策是一种 RL 政策,已使用代理在其环境中的经验进行在线培训。 另一方面,指南策略是在线培训期间未修改的任何现有策略。 JSRL 通过结合引导策略和自我完善的探索策略来创建学习程序。 结果与竞争性 IL+RL 方法相当或更好。
来源和详细信息:
https://www.marktechpost.com/2022/04/10/google-ai-researchers-propose-a-meta-algorithm-jump-start-reinforcement-learning-that-uses-prior-policies-to-create-a-learning-curriculum-that-improves-performance/