基于强化学习的多智能体协作建模方法研究 (第2页) - 计算机论文范文

基于强化学习的多智能体协作建模方法研究

日期：2021年11月27日编辑：ad201107111759308692 作者：无忧论文网点击次数：584

论文价格：150元/篇论文编号：lw202111151222389953 论文字数：33202 所属栏目：计算机论文范文

论文地区：中国论文语种：中文论文用途：硕士毕业论文 Master Thesis

要作用，因此一直引起广泛关注。 FSSP 被认为是 NP 问题，因为很难在多项式时间内找到解决方案。 FSSP 由 Johnson 1954 首次介绍并论证，到今天仍然有研究的价值[49]。Johnson 在有限的情况下获得了两机问题的最优调度以及三机问题的最优调度。

FSSP 问题可以简单地描述为：有 m 台机器和 n 个作业，每个作业包含一组 m个操作，这些操作必须在不同的计算机上执行[50]。所有作业在通过机器时都具有相同的处理顺序。不同作业的操作之间没有优先级约束。操作不能中断，每台机器一次只能处理一项操作[51]。问题是要在机器上找到可以最大程度减少空闲时间的作业序列。

最近，许多研究者[52]使用了一种更有效的方法，即 Q-learning 算法来解决 FSSP问题。Q-learning 算法是强化学习中最经典的算法。其涉及的思想最初由 Sutton 和Barto 提出，并应用于人工智能研究人员感兴趣的主题。

然而，Q-learning 算法的一个缺点是它不知道在未知状态下应该采取什么行动[53]。换句话说，Q-learning 的 Agent 无法评估未知状态,这很可能在训练的早期阶段发生。本章节提出了一种将 TS 算法和 Q-learning 相结合的 TS_Qlearning 算法，通过禁忌搜索算法建立一个“记忆表”，存储算法的早期训练经验，来指导算法的早期训练，并在算法的早期训练中选择比较优秀的初始解。此外该方法改变了 Q-learning 算法在解决调度问题中的策略，在保留了 Q-learning 算法的优势的基础上，在早期训练中指导算法训练的方向，从而提高算法训练的质量。在得到训练结果后，除了计算机器的空闲时间的值，我们还计算了最终作业序列的总完工时间或最大完工时间 makespan (maxC )，来综合评价算法的质量。在实验中我们使用了 OR-Library 中可用的基本调度基准实例，并且让改进后的算法与 Q-learning 算法以及基因算法(GA)相比较，实验仿真结果表明了 TS_Qlearning 算法的有效性。

图 5.2 TS_Qlearning 算法伪代码

..................................

第 6 章总结与展望

6.1 总结

本文是以《中国制造 2025》和智能制造为大背景，通过融合工业场景和互联网技术，为国家经济稳中有进提供了新的驱动力。实现智能制造目前还有很长的路要走，现有的方法很难在一个可接受时间范围内得到全局优化的答案；在部分工业环节中需要结合工艺知识，而工艺知识严重依赖一些领域专家，远远没有实现智能制造。而更高效、更智能的多 Agent 系统是解决这些问题的一种优秀的方案。关键制造环节的智能化是智能制造的核心。传统工业的多 Agent 系统可以在任务调度、资源配置和各环节协调优化等关键环节利用强化学习以及深度强化学习等新一轮人工智能的算法，来提高系统整体的智能性，提高系统智能决策能力，从而满足智能制造对工业智能化的要求，提高企业的竞争力。

面对全球制造环境带来的机遇和挑战，有效利用 Agent 技术，为提高系统自主决策能力，解决复杂系统的不确定性、安全性等方面的瓶颈问题提供了新方案，成为绿色，智能和智能制造为目标的过程工业稳步发展的重要部分。通过多 Agent 系统来优化生产过程成为了工业企业提高自动化智能化的关键部分，也是公司挖掘潜力和提高效率的关键。

本文主要对以下内容展开了研究其中包括：

(1) 本文基于多 Agent 技术，以主动 Agent 的形式描述系统中的各个实体，以及各实体之间的联系，建立了一个三层结构的混合式多 Agent 智能模型，从上到下依次是管理 Agent 模块，子管理 Agent 模块，设备 Agent 模块。模块间整体仍然保持上下分层，上层管理下层的关系，在局部中，Agent 模块和设备 Agent 模块的内部包含一个分布式的结构来提高系统作业调度的效率和设备 Agent 模块中 Agent完成各个任务的效率。该模型基于 JADE 框架从而实现底层基础功能，此外通过一些接口实现基于状态表示学习的多 Agent 协作方法的智能模块及基于强化学习的多 Agent 系统任务调度方法的智能模块，从而满足工业要求。

(2) 本文针对工业中 Agent 接触的环境复杂，鲁棒性较差，以及 Agent 缺乏对重要特征的感知能力，改进了 M3DDPG 算法，我们提出了 SRL_M3DDPG 算法，它保留 M3DDPG 算法的强鲁棒性特点的同时提高设备 Agent 对重要特征的获取，从而使 Agent 的动作达到预期效果。改进的算法利用状态表示学习来帮助捕捉特征，通过深度神经网络来构造观测值和状态值的映射，然后 M3DDPG 中的 Actor 和 Critic 网络从新的神经网络中学习，而不是从最初的观察中学习，从而使 Agent动作达到预期并且能够适应高维数据。

参考文献（略）