第五章 总结与展望
5.1 本文总结
NOMA技术作为未来通信中解决大规模接入的关键技术,一直以来都是研究的热点,功率域NOMA作为非常代表性的解决方案,其主要思想是通过将多个用户信号在同一个资源块上进行传输,在接收端通过SIC接收机进行用户信号的分离。由于基站接收端具有强大的数据处理能力,因此研究NOMA上行链路性能更具实际意义。考虑到发射端用户功率会对整个系统的吞吐量造成较大的影响,同时为了降低求解的复杂度,利用了现阶段较为流行的强化学习方法进行求解。具体来说,本文重点研究了通过强化学习算法调整多小区NOMA场景中用户的发射功率,以下是本文的主要研究工作:
首先,对NOMA基本原理进行了描述,介绍了NOMA上行链路的系统模型,通过与OMA系统进行比较,分析并指出了NOMA技术在系统性能上的优势,同时介绍了几种较为常见的功率控制方法,分析了其在实际应用中的可行性,最后介绍了强化学习中马尔可夫过程,以及阐述了Q-learning,DQN和MADDPG算法的主要原理和应用场景。
其次,对以最大化系统和速率为目标的多小区NOMA系统用户功率控制问题进行了研究。在多小区上行NOMA系统中,干扰情况变得异常复杂,既存在小区间干扰,又存在NOMA用户间干扰。为了对抗路径损耗的影响,本文提出了多路径损耗补偿因子的部分功率控制方案,其有效地解决了单一路径损耗补偿因子方案的不足。进一步地,为了使得每个用户得到最优的路径损耗补偿因子,提出使用强化学习的Q-learning算法联合优化NOMA系统远近用户的路径损耗补偿因子,其可同时兼顾处理小区间干扰和NOMA用户间干扰。仿真结果表明,提出的功率控制方案可以获得比已有方案更高的和速率性能。
最后,对基于多智能体强化学习方案的多小区NOMA系统功率控制问题进行了研究。针对多小区NOMA上行用户系统模型,受分布式求解方案的启发,考虑到单个设备处理数据的硬件局限性,提出了一种基于MADDPG算法的用户功率控制方案,将每个用户视为独立的智能体进行学习,问题场景由离散型状态和动作空间拓展到连续型状态和动作空间,通过利用Actor-Critic框架来保证智能体之间的交互学习,优化智能体的行为策略。仿真结果验证了该方案的可行性,并通过与单智能体深度强化学习DDPG算法,以及第三章提出的离散型功率控制方案进行比较,验证了本章提出的基于MADDPG算法的连续型功率控制方案可以得到更优的系统性能。
参考文献(略)