手机知网 App
24小时专家级知识服务
打 开
自动化技术
基于近端策略优化的作战实体博弈对抗算法
针对一种大地图和稀疏奖励的兵棋推演对抗环境下,单纯的深度强化学习算法会导致训练无法快速收敛以及智能体对抗特定规则智能体胜率较低的问题,提出了一种基于监督学习和深度强化学习相结合以及设置额外奖励的方法,旨在提升智能博弈的训练效果。使用监督学习训练智能体;研究基于近端策略优化(Proximal policy optimization,PPO)的对抗算法;改进强化学习训练过程的额外奖励设置。以某在研兵棋推演环境为例的实验结果表明,该博弈对抗算法能使智能体在对抗其他智能体时的胜率稳步提升并在较短时间内达到收敛。
0 404
手机阅读本文
下载APP 手机查看本文
南京理工大学学报
2021年01期
相似文献
图书推荐
相关工具书

搜 索