一种区块链辅助基于PPO的自动驾驶决策方法

专利查询7天前  4


本发明属于移动通信,涉及一种区块链辅助基于ppo的自动驾驶决策方法。


背景技术:

1、智能网联汽车(connected and automated vehicles,cav),作为第六代移动通信技术(6g)的关键应用之一,正在极大地改善人们的出行体验,cav利用车载传感器和通信模块感知道路信息并与路侧单元(road side unit,rsu)进行数据交互,帮助驾驶员或自动驾驶系统做出最优的驾驶决策。人工智能被认为是实现自动驾驶的关键技术,强化学习作为人工智能的演进技术,其在实现自动驾驶方面有重要作用,通过cav的感知数据训练模型,达成实时的从数据到决策的映射,实现行人检测、碰撞预警、交通标志识别等智能应用。然而,使用同一地区数据训练出的决策模型往往难以实现良好的泛化性,这是因为同一地区感知数据存在限制。理想的解决方案是收集大规模不同地区的道路数据以集中训练一个泛化性强的模型,但集中训练方法无法应对用户隐私和数据安全的要求。此外,车辆服务商的潜在单点故障和不同地区间数据非独立同分布问题也限制着自动驾驶的快速应用。

2、联邦学习作为一种分布式学习范式,允许多个参与方在本地训练自己的模型,然后仅通过交换模型参数的方式来聚合全局模型,而不是直接交换数据,从而保护用户隐私安全。此外,区块链技术作为一种分布式数据库技术将数据分布式存储和管理,从而实现去中心化的数据管理和交易处理。将区块链和联邦学习结合可以实现数据安全的同时预防车辆服务商的单点故障问题。然而,来自不同地区的道路数据往往呈现异质性,从而影响全局模型融合质量。传统的fedavg算法简单使用加权平均进行模型参数聚合,无法解决数据非独立同分布问题且没有考虑客户端模型质量的影响,会导致全局模型质量下降。

3、强化学习(reinforcement learning,rl)是一种机器学习的方法,与传统的监督学习和无监督学习不同,强化学习通过智能体在与环境交互中通过试错学习,以实现最大化预期的累计奖励。但传统强化学习训练速度较慢且需要消耗大量资源,并且如何解决在保证安全的同时权衡效率与舒适性的问题亟待解决。

4、基于上述问题,本发明设计了一种基于dag区块链辅助的自动驾驶决策模型。在该架构下,将通过动态调整联邦融合参数提高全局模型精度,并且依靠区块链技术去中心化的特性保护用户数据的隐私安全。此外,基于近端策略优化(proximal policyoptimization,ppo)方法训练自动驾驶策略模型,同时采用预训练的方式减少强化学习中的探索阶段所需的时间和资源。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种区块链辅助基于ppo的自动驾驶决策方法。

2、为达到上述目的,本发明提供如下技术方案:

3、第一方面,本发明根据车联网数据共享场景以及车辆数据隐私保护要求,提供一种基于区块链的安全高质量数据共享方案,该方案执行流程如下:

4、s1:基于dag区块链的双层网络模型;

5、s2:基于ddpg算法的联邦学习模型聚合方案;

6、s3:基于条件模仿学习的策略网络预训练方案;

7、s4:基于ppo的自动驾驶决策模型。

8、第二方面,本发明实施例在s1中,建立了一种基于dag区块链的双层网络模型:1)dag层,包括负责模型聚合的rsu,以及其维护的基于dag结构的区块链;2)cav层,包括搭载多重传感器,用于自动驾驶决策的cav。

9、rsu是部署在道路附近的搭载服务器的边缘节点,具有强大的通信、存储和计算能力。在本发明实例中,rsu不仅作为节点参与至区块链网络中,还需训练能够得出最佳聚合权重的强化学习模型。由于不同的道路环境使得bev图像数据呈现异质性,且不同地区间的rsu不能直接进行数据交换,在聚合各个节点模型时,应结合ddpg算法给出的模型聚合权重进行加权聚合。

10、cav使用近端策略优化算法进行横向和纵向决策,其本地配有专家系统生成演示数据。在训练前期,cav采集专家演示数据,使用条件模仿学习算法对策略网络进行预训练。由于不同cav所处位置的差异,往往使得采集到的演示数据呈现异质性,从而导致全局模型性能下降。

11、第三方面,本发明实施例在s2中,使用一种基于ddpg算法的联邦学习模型聚合方案,使用加权聚合的联邦学习算法。该算法将各个节点的权重和模型准确度作为状态空间st,通过采取动作at改变模型聚合权重,最后通过模型精度评估奖励,更新ddpg算法网络参数。

12、第四方面,本发明实施例在s3中,提出一种使用条件模仿学习对策略网络进行预训练的方法。该方法通过观察和模仿专家的行为来学习执行任务,并在传统模仿学习的基础上加入专家意图、目标和先验知识等信息,与观察向量一起共同决定动作。cav通过车载摄像头和其它传感器获取道路信息数据,由mobilenet卷积神经网络处理为潜在空间,以帮助cav更快处理信息做出决策。在策略网络预训练的过程中,通过s1中提出的基于dag区块链的双层网络共享不同地区车辆策略模型以提升模型性能,提高训练效率。

13、第五方面,本发明实施例在s4中,提出一种复杂道路场景下,基于ppo算法的自动驾驶决策模型。在该模型中,自动驾驶系统通过与环境的交互学习最优的驾驶策略,通过迭代优化策略来最大化累积奖励,并从安全、高效和位置的角度定义多任务目标奖励函数。该算法通过限制每次更新中策略参数的变化幅度,以保持在一个较小的范围内更新策略,同时利用重要性采样比率控制更新方向,防止梯度更新过大同时保持更新方向与当前策略相近。

14、本发明的有益效果在于:

15、(1)提升自动驾驶决策性能

16、通过联邦学习,可以将不同地区车辆的驾驶数据聚合起来,训练出更具泛化性的自动驾驶决策模型,提升模型的鲁棒性和适应性。

17、ppo算法能够有效地处理连续动作空间,并通过策略优化实现最大化累积奖励,从而提升自动驾驶决策的效率和安全性。

18、针对复杂道路场景设计的个性化奖励函数,能够更好地引导自动驾驶决策模型进行学习和决策,从而提升决策的准确性和安全性。

19、(2)保护用户数据隐私安全

20、dag区块链采用分布式账本技术,将数据分散存储在多个节点上,避免了中心化存储带来的数据泄露风险。

21、联邦学习只交换模型参数,不共享原始数据,有效保护了用户数据隐私。

22、可以对数据进行加密,进一步保护用户数据安全。

23、(3)提高训练效率

24、联邦学习允许车辆在本地进行模型训练,避免了数据传输带来的延迟和带宽消耗,提高了训练效率。

25、通过条件模仿学习进行预训练,可以减少强化学习中的探索阶段,从而加快训练速度。

26、ddpg算法能够有效地处理连续动作空间,并通过深度神经网络进行建模,提高了训练效率。

27、(4)实现低负载cav协同训练

28、联邦学习允许车辆在本地进行模型训练,避免了中心化训练带来的高负载问题。

29、dag区块链的分布式架构,可以有效地分散网络负载,实现低负载cav协同训练。

30、(5)提高系统安全性

31、区块链技术具有不可篡改性和可追溯性,可以有效防止恶意攻击和数据篡改。

32、联邦学习可以避免中心化存储带来的单点故障问题,提高系统安全性。

33、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。


技术特征:

1.一种区块链辅助基于ppo的自动驾驶决策方法,其特征在于:该方法包括以下步骤:

2.根据权利要求1所述的一种区块链辅助基于ppo的自动驾驶决策方法,其特征在于:所述s1中,dag层中的rsu负责维护dag区块链,向new tip中交易头加入版本号、时间戳的信息后成为tip在边缘网络广播。

3.根据权利要求1所述的一种区块链辅助基于ppo的自动驾驶决策方法,其特征在于:所述s2中,rsu根据cav模型质量动态调整模型聚合权重,得到的全局模型可达到更高的精度。

4.根据权利要求1所述的一种区块链辅助基于ppo的自动驾驶决策方法,其特征在于:所述s3中,条件模仿学习中,cav的决策行为不仅取决于观察到的专家行为,还取决于当前的环境状态或特定条件,允许cav根据不同的环境条件调整其决策行为,从而提升模型泛化性和鲁棒性。

5.根据权利要求1所述的一种区块链辅助基于ppo的自动驾驶决策方法,其特征在于:所述s4中,ppo算法通过限制每次更新中策略参数的变化幅度,以保持在一定范围内更新策略,同时利用重要性采样比率控制更新方向,防止梯度更新过大同时保持更新方向与当前策略相近。


技术总结
本发明涉及一种区块链辅助基于PPO的自动驾驶决策方法,属于移动通信技术领域。智能网联汽车CAV自动驾驶决策模型需要海量的训练数据,然而共享CAV数据将带来隐私泄露和数据安全问题。为了解决上述问题,本发明首先设计了结合有向无环图DAG区块链和联邦学习技术的双层车联网络架构,并基于该架构设计了基于深度确定性策略梯度DDPG算法的异步联邦学习方案;其次,在本地训练阶段,提出基于条件模仿学习CIL的策略网络预训练算法;最后,提出一种基于近端策略优化PPO的自动驾驶决策模型,并在复杂道路场景下设计个性化奖励函数。该方案在提升CAV自动驾驶决策性能的同时,实现低负载CAV协同训练,保证CAV数据隐私安全。

技术研发人员:黄晓舸,甘苗蓉,黎文静,肖洒,陈前斌
受保护的技术使用者:重庆邮电大学
技术研发日:
技术公布日:2024/12/5

最新回复(0)