一种基于深度策略性梯度的无人艇对抗反制方法

本发明属于无人艇，具体涉及一种基于深度策略性梯度的无人艇对抗反制方法。

背景技术：

1、探索先进的无人艇跟踪拦截技术，建设具有高效率、高可靠的无人艇智能跟踪拦截系统，对于提升无人艇在复杂海况下的跟踪拦截能力具有重大意义。作为海上无人系统的重要组成部分，高效且安全的跟踪拦截系统是保障海上领土安全的关键。研究无人艇舰队跟踪拦截方法，不仅能为新一代无人艇智能自主作业提供理论支撑，同时也为无人艇在海上跟踪拦截提供坚实的技术保障。

2、随着新一代自动驾驶技术的发展，无人艇已经能够协助甚至取代人工处理高风险任务，如打击海上走私、贩毒、海盗等海上犯罪情况，有利于减少人员伤亡。在这些任务中，无人艇需要在复杂多变的海洋环境中尽可能快地拦截移动船只，确保成功率。

技术实现思路

1、为了克服现有技术的不足，本发明提供了一种基于深度策略性梯度的无人艇对抗反制方法，(1)为加快模型训练速度，提出了一种单神经元比例自适应控制方法对策略网络进行预训练；(2)为实现安全稳定地追踪目标船，采用了基于演员-评论家方案的安全李雅普诺夫深度策略性梯度算法。与现有技术相比，本发明提升了系统的跟踪拦截效率，降低拦截耗时，有效提高了系统跟踪拦截的鲁棒性、安全性和稳定性，为无人艇拦截控制系统的可靠安全运行提供了解决方案。

2、本发明解决其技术问题所采用的技术方案如下：

3、步骤1：构建基于比例引导和单神经元自适应控制的单神经元比例自适应控制追踪方法；

4、步骤2：构建基于演员-评论家方案的李雅普诺夫函数的深度策略性梯度算法。

5、进一步地，所述步骤1具体为：

6、步骤1-1：以拦截艇和入侵艇的速度信息和位置信息作为参考量，根据运动学关系计算出拦截艇的下一预测状态：x'd,y'd,ψ'd；

7、步骤1-2：将拦截艇预测状态与入侵艇当前状态的航迹偏差作为神经元的输入变量，经过比例积分控制器，输出控制律u(k)，得到运动力矩，控制拦截艇的运动；

8、步骤1-3：通过对拦截艇的当前状态的反馈，调整拦截艇的速度、航向，实现对入侵艇的追踪；

9、步骤1-4：通过输入拦截艇和入侵艇的状态信息和动作信息，训练神经网络模型，得到初始参数，完成对策略网络的预训练。

10、进一步地，所述步骤2具体为：

11、步骤2-1：根据环境信息st在预训练的输出状态中选取at，设为训练模型的初始状态，通过环境交互获得动作at对应的奖励rt以及下一状态st+1，得到新数据组(st,at,rt,ct,st+1)，形成经验数据并存储于经验池；

12、步骤2-2：经验池的经验数据达到预设量时，从经验池中随机采样经验数据作为样本数据，将当前状态和动作输入到在线演员网络中，计算价值函数q(s,a)，将下一状态st+1输入到演员目标网络中，选出对应的动作at+1，目标评论家网络输入下一状态和动作，计算价值函数q'(s,a)值，由目标评论家网络与当前网络的价值函数计算价值网络的价值梯度，通过神经网络的梯度反向传播来更新当前评论家网络的所有参数；

13、步骤2-3：若输出数据不安全，则经过安全网络使用李雅普诺夫边界函数训练最小化在线演员网络的损失函数，计算策略网络的策略梯度，通过神经网络的梯度反向传播来更新当前演员网络的所有参数；

14、步骤2-4：通过软更新不断地进行调整演员和评论家网络的参数，直至达到边界，获取路径规划模型。

15、本发明的有益效果如下：

16、(1)本发明通过设计比例导引法和单神经元自适应控制策略对策略网络进行预训练，缩短了后向跟踪场景下的拦截时间，在前向拦截场景下具有更强的鲁棒性，以减少训练步骤，提高初始奖励。

17、(2)本发明通过引入安全李雅普诺夫网络，具有较高的初始奖励和平滑的奖励收敛曲线，为无人艇拦截水上移动目标提供支持。

技术特征：

1.一种基于深度策略性梯度的无人艇对抗反制方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于深度策略性梯度的无人艇对抗反制方法，其特征在于，所述步骤1具体为：

3.根据权利要求2所述的一种基于深度策略性梯度的无人艇对抗反制方法，其特征在于，所述步骤2具体为：

技术总结
本发明公开了一种基于深度策略性梯度的无人艇对抗反制方法，(1)为加快模型训练速度，提出了一种单神经元比例自适应控制方法对策略网络进行预训练；(2)为实现安全稳定地追踪目标船，采用了基于演员‑评论家方案的安全李雅普诺夫深度策略性梯度算法。与现有技术相比，本发明提升了系统的跟踪拦截效率，降低拦截耗时，有效提高了系统跟踪拦截的鲁棒性、安全性和稳定性，为无人艇拦截控制系统的可靠安全运行提供了解决方案。

技术研发人员：杜彬,王楠,杨坤德,张卫东,黄悦欣,谢威,孙志坚
受保护的技术使用者：西北工业大学
技术研发日：
技术公布日：2024/12/5

专利

最新回复(0)