3.2 完全自动熵调节 ..................................... 24
3.3 算法伪代码 .................................. 24
第四章 无确切状态动作值函数的 SAC 算法 .............................. 29
4.1 问题描述 ................................ 29
4.2 策略函数推出的 Q 函数 ....................... 30
第五章 基于深度强化学习的多场景拥塞环境自动驾驶控制方法 .......................... 37
5.1 整体框架 ................................. 37
5.2 多场景的拥塞驾驶环境 .............................. 38
第五章 基于深度强化学习的多场景拥塞环境自动驾驶控制方法
5.1 整体框架
整个自动驾驶控制研究包含强化学习智能体和自动驾驶环境两大模块。其中, 自动驾驶环境提供了具体的驾驶道路场景,奖励函数和交互接口;智能体负责汽车控制中的控制动作决策,而决策通过一个由神经网络实现的策略函数给出。两个模块通过环境的交互接口实现互动,交替运行,推动自动汽车在仿真的道路环境中完成驾驶任务,将整个自动驾驶流程抽象为一个可以由强化学习技术来处理的马尔科夫决策过程,如图 5.1 自动驾驶控制框架所示。
第六章 总结与展望
6.1 工作总结
本文主要研究基于深度强化学习的单智能体自动驾驶控制研究,包含对于 SAC 算法的改进,以及在仿真自动驾驶环境中的车辆控制智能体训练及测试。具体来说:
1. 针对 SAC 算法中需要手动设定超参数温度系数 α 的问题,以及之前的自适应温度系数中会引入新的超参数问题,本文提出了完全自动熵调节的 SAC 算法(SACTA),让 α 参与到策略函数的优化过程中,随整个算法的训练过程自适应地优化调节。经两个连续控制任务的实验证明,完全自动熵调节的 SAC 算法在减少手动设定超参数的情况下,能达到与 SAC 算法相近的表现。、
2.为了进一步优化 SAC 算法的时间效率,本文利用最大熵强化学习中策略函数与值函数可以互相推导的关系,在 SAC 的基础上简化函数结构与算法步骤,提出了不需要确切动作状态值函数的连续控制方法(VCWCV)。随后在三个连续控制任务的实验中证明,VCWCV 在达到与 SAC 相同的样本利用率的前提下,减少了训练所需的时间和计算资源,拥有了比 SAC 更高的时间效率。
3. 将本文改进的算法以及当前流行的 TD3 算法与 SAC 算法应用于模拟的自动驾驶中,同时,针对强化学习自动驾驶研究中的泛化能力、拥塞场景处理能力问题,设计了在多场景拥塞环境下的训练方法,针对性地提高智能体在面对多场景陌生环境的泛化能力以及拥塞环境处理能力。
参考文献(略)