于彤彤,董婷婷,肖创柏.基于深度强化学习的舰载机在线调度方法研究[J].高技术通讯(中文),2021,31(4):367~377 |
基于深度强化学习的舰载机在线调度方法研究 |
|
|
DOI:10.3772/j.issn.1002-0470.2021.04.004 |
中文关键词: 深度强化学习; 舰载机出动回收; 在线调度; 多目标决策 |
英文关键词: |
基金项目: |
|
摘要点击次数: 2624 |
全文下载次数: 1518 |
中文摘要: |
针对传统调度算法在高危多变环境下实现多目标在线调度所面临的困境,提出基于深度强化学习的调度优化算法,并应用于大规模舰载机出动回收多目标在线调度问题中。该方法以减小舰面位移、减少会遇次数、均衡设备利用率和稳定调度周期作为调度决策目标,依照马尔可夫决策过程(MDP),构造以舰载机和各设备状态作为输入,调度行为动作作为输出,带权特征向量作为奖赏的在线调度即时决策模型。搭建用于训练的优化深度强化学习网络,改进动作选择策略和网络结构以提升性能,从而实现在线调度决策优化。实验结果表明,利用该方法得到的决策模型能够在线解决突发状况,在静态和动态调度方面,相对于启发式算法和调度规则本文方法在安全性和高效性方面具有优势。 |
英文摘要: |
|
查看全文
查看/发表评论 下载PDF阅读器 |
关闭 |
|
|
|