本发明属于海洋观测,尤其涉及一种基于aug强化学习的中尺度涡观测方法。
背景技术:
1、中尺度涡是海洋中广泛存在的中尺度海洋现象,具有50-500公里的空间尺度,生命周期从几天到上百天不等。它们是全球海洋中热量、盐度、质量、浮游生物、溶解氧及其他生化物质运输的重要载体,对海洋生态系统和全球气候变化有着显著影响。然而,由于缺乏系统化的高分辨率观测数据,我们对中尺度涡的三维温盐结构了解仍不完整。传统的观测方式,虽然能够提供整体概貌,但对中尺度涡的精细化动态演变难以精确捕捉,因此更高时空分辨率的观测手段成为科学研究的关键需求。
2、现有的中尺度涡观测方法存在多重局限,难以满足科学研究对高精度、高分辨率数据的需求。首先,卫星遥感虽能提供大范围的海洋表面观测信息,但其主要获取的是二维表层数据,无法深入到海洋的垂直结构中,且分辨率较低,难以捕捉到中尺度涡的细微变化。大型潜/浮标和海洋表面剖面浮标虽然能够在一定深度获取较为精确的温盐数据,但这些观测设备通常固定于某一位置,无法动态跟随涡旋的移动,空间覆盖有限,难以获得中尺度涡的整体三维结构。此外,潜/浮标等设备的维护成本高,部署复杂,难以频繁获取更新的数据。
3、其次,现有观测方法大多没有考虑中尺度涡的动态特性,无法实时调整观测路径。例如,水下滑翔机虽然能够在多深度层进行长时序观测,但现有的任务规划往往是预设固定路径,缺乏根据实时观测数据进行在线路径调整的能力,无法及时响应涡旋的移动和结构变化。因此,在中尺度涡快速变化的背景下,传统的观测方式难以适应这种变化,无法全面、连续地获取其时空演变过程。此外,当前技术手段的时空分辨率依然较低,无法准确反映不同深度、不同时间点的涡旋特征,导致对中尺度涡的精细化三维温盐结构认识存在盲区,观测结果具有较大的不确定性。
4、故而亟待提出一种新的基于水下滑翔机的中尺度涡组网观测方法,促进对海洋环流相关研究的理解,揭示重构中尺度涡的三维温盐结构,尤其是其随时间变化的动态演化过程,为我国开展高分辨率海洋观测提供更优的观测方案。
技术实现思路
1、针对现有技术存在的问题,本发明提供了一种旨在解决中尺度涡观测中高精度、高分辨率、动态自适应路径规划及三维结构数据获取的技术问题的基于aug强化学习的中尺度涡观测方法。
2、本发明是这样实现的,一种基于aug强化学习的中尺度涡观测方法,其特征在于,包括以下步骤:
3、步骤a:确定目标观测区域,并获取该区域中中尺度涡的相关信息,包括涡旋类型、涡旋边界和涡旋中心位置;将多个自主水下滑翔器按预定的网络布局编队布放于目标区域;设定各自主水下滑翔器的相关运行参数及配置用于观测任务的传感器;
4、步骤b:初始化目标观测区域的温度场,并将其离散为具有预定分辨率的网格点;根据中尺度涡的运动方向,在可行域内选择每个自主水下滑翔器的初始航向角,开始执行观测任务;
5、步骤c:自主水下滑翔器根据预定航向角下潜,进行剖面观测;完成某一剖面航行后,将采集到的数据传输至岸基平台;将该数据与历史剖面数据结合,作为训练数据,为后续阶段的高斯过程回归模型重构目标区域的温度场做准备;
6、步骤d:利用高斯过程回归模型重构目标区域的温度场,并更新每个网格点上的温度估计及其不确定性;基于强化学习的值迭代算法,选择下一剖面的航向角;
7、步骤e:自主水下滑翔器按照步骤a至d进行观测和采样;根据预定的任务结束判定标准,确定是否终止观测任务;若观测任务未完成,则重复执行步骤b至d,直至观测任务完成为止。
8、在上述技术方案中,优选的,所述步骤a中,基于目标观测区域的卫星海洋表面高度异常数据进行中尺度涡的识别,包括确定目标海域的经纬度范围、获取该目标海域的近实时sla数据、利用最外层闭合等值线法进行涡旋识别,通过识别sla数据中的最外层闭合等值线,确定涡旋的类型、边界及中心位置信息。
9、在上述技术方案中,优选的,所述步骤b中,基于二维经纬度方向以0.001°的分辨率对目标观测区域的温度场进行网格点离散,以减小任务观测过程中自主水下滑翔器的位置误差;在三维海域的网格化中,增加垂直方向的深度分辨率,深度方向的分辨率采用非均匀分布,呈现出上密下疏的特征;垂向深度范围参照hycom预报数据,在0~800m的深度范围内,深度层为:0.0m、2.0m、4.0m、6.0m、8.0m、10.0m、12.0m、15.0m、20.0m、25.0m、30.0m、35.0m、40.0m、45.0m、50.0m、60.0m、70.0m、80.0m、90.0m、100.0m、125.0m、150.0m、200.0m、250.0m、300.0m、350.0m、400.0m、500.0m、600.0m、700.0m、800.0m。
10、在上述技术方案中,优选的,所述步骤c中,自主水下滑翔器通过搭载的ctd传感器获取轨迹点处的温度数据;每个剖面的入水点和出水点的位置信息通过卫星定位系统获取。
11、在上述技术方案中,优选的,所述步骤d中,基于值迭代算法进行航向角的选择,具体包括以下步骤:
12、步骤d1:当自主水下滑翔器完成一个剖面观测到达出水点后,将该剖面采集的数据与所有历史数据作为训练数据,利用这些数据通过高斯过程回归模型重构目标观测区域的温度场,并计算每个网格点对应的标准差;
13、步骤d2:基于强化学习中的策略评估方法,计算当前策略对应的值函数,并根据值函数进行策略改善,得到更优的航向角选择策略;
14、步骤d3:计算策略改进前后值函数的差值;
15、步骤d4:若差值小于预定阈值,则采用当前状态对应的策略;否则,重复步骤d2和步骤d3,直到满足条件为止。
16、在上述技术方案中,优选的,所述步骤d1中,高斯过程回归模型运转所得到的预测值μ*及方差σ*为下:
17、
18、在上述技术方案中,优选的,所述步骤d2中策略评估时第k+1次的值函数的值可以由第k次的值和相应的回报计算得到:
19、
20、在上述技术方案中,优选的,所述步骤d2中,基于强化学习中的策略评估方法,一旦值函数发生变化,立即进行策略改善,以加速收敛,得到更优的航向角选择策略。
21、在上述技术方案中,优选的,所述步骤d2中使用强化学习时,为了使状态空间近似更为准确以及加快计算速度对状态空间进行改进得到局部状态空间s′,公式为:
22、s′={(xiyi)|(xiyi)∈s,(xi-x0)2+(yi-y0)2≤(v*d)2}。
23、优点和效果
24、本发明提出了一种基于自主水下滑翔机(aug)和强化学习的中尺度涡观测方法,通过多台aug协同观测的方式,进行多深度层次的长时序、广范围自适应数据采样。任务过程中,aug通过实时获取的采样数据,结合高斯过程回归(gpr)模型重构待观测区域的温度场,进而基于该温度场数据,采用强化学习中的值迭代算法进行航向角选择,实现水下滑翔机路径的在线调整和优化,驱动滑翔机完成中尺度涡的三维观测任务。以下是本方法的优点和有益效果:
25、1.高效的三维海洋温度场网格化及精准路径规划:通过引入网格化技术,将待观测海域的温度场进行精细的三维网格划分,依据aug的位置信息按指定分辨率进行离散化处理,使得在路径规划过程中可以根据每个网格点的实时数据进行温度场重构。在此基础上,结合高斯过程回归模型和强化学习的值迭代算法,使得每次航行的路径规划更具智能性和适应性,能够动态调整航向角,实现高效且全面的中尺度涡三维结构观测。
26、2.动态自适应采样与实时在线调整:本发明方法中的aug能够根据实时回传的观测数据,在线调整观测路径,确保观测任务能够持续跟踪中尺度涡的运动变化。这种动态自适应能力使得滑翔机能够根据中尺度涡的变化情况灵活调整航行轨迹,确保获取的数据覆盖整个涡旋的关键区域,实现中尺度涡的实时、动态、高分辨率观测。
27、3.高斯过程回归提升观测数据精度:通过将aug采集到的历史和当前观测数据输入高斯过程回归模型,可以有效提升温度场重构的精度,尤其是在多台aug协同观测时,能够综合利用各台滑翔机的采样数据,实现待观测区域温度场的高精度预测和重构,进而使路径规划更加精确。
28、4.强化学习的自我优化路径选择:本发明中的强化学习算法能够根据不同航行策略的评估结果,逐步优化aug的航向角选择。通过值迭代算法,对比前后策略的价值函数变化,aug能够在每次航行后进一步改进其策略,从而更快地收敛至最优路径,实现观测效率和覆盖率的最大化。
29、5.实现中尺度涡三维结构的智能化观测:与传统的观测手段相比,本发明能够显著提升对中尺度涡的三维立体结构观测精度,包括涡旋中心、涡旋边界以及温盐结构的详细信息。通过多台aug的协同作业,能够全方位、立体化地揭示中尺度涡的演化过程,特别是在热量、盐量、浮游生物等物质传输规律上的观测具有极高的科学价值。
30、6.推进中尺度涡观测的自动化与灵活性:该方案通过自动化路径规划和实时数据处理,实现了观测任务的智能化和自动化。不同于传统人工规划的路径,本方案能够根据实时数据灵活调整观测策略,大幅提升观测的效率和灵活性,适应复杂且动态变化的海洋环境,为海洋中尺度涡的研究提供了技术支持。
31、7.广泛应用前景与科研价值:该技术方案不仅能够应用于中尺度涡的典型观测任务,还可扩展至其他海洋现象的观测,推动海洋科学研究的发展。通过揭示中尺度涡的生成、演化及其对海洋生态系统的影响,本方案为全球海洋气候研究和生态监测提供了有力的工具和支持。
32、综上所述,本发明在海洋中尺度涡观测中,显著提升了观测精度、效率及智能化水平,能够有效解决传统观测手段中的不足,具有重要的科学研究和应用价值。
1.一种基于aug强化学习的中尺度涡观测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于aug强化学习的中尺度涡观测方法,其特征在于,所述步骤a中,基于目标观测区域的卫星海洋表面高度异常数据进行中尺度涡的识别,包括确定目标海域的经纬度范围、获取该目标海域的近实时sla数据、利用最外层闭合等值线法进行涡旋识别,通过识别sla数据中的最外层闭合等值线,确定涡旋的类型、边界及中心位置信息。
3.根据权利要求1所述的基于aug强化学习的中尺度涡观测方法,其特征在于,所述步骤b中,基于二维经纬度方向以0.001°的分辨率对目标观测区域的温度场进行网格点离散,以减小任务观测过程中自主水下滑翔器的位置误差;在三维海域的网格化中,增加垂直方向的深度分辨率,深度方向的分辨率采用非均匀分布,呈现出上密下疏的特征;垂向深度范围参照hycom预报数据,在0~800m的深度范围内,深度层为:0.0m、2.0m、4.0m、6.0m、8.0m、10.0m、12.0m、15.0m、20.0m、25.0m、30.0m、35.0m、40.0m、45.0m、50.0m、60.0m、70.0m、80.0m、90.0m、100.0m、125.0m、150.0m、200.0m、250.0m、300.0m、350.0m、400.0m、500.0m、600.0m、700.0m、800.0m。
4.根据权利要求1所述的基于aug强化学习的中尺度涡观测方法,其特征在于,所述步骤c中,自主水下滑翔器通过搭载的ctd传感器获取轨迹点处的温度数据;每个剖面的入水点和出水点的位置信息通过卫星定位系统获取。
5.根据权利要求1所述的基于aug强化学习的中尺度涡观测方法,其特征在于,所述步骤d中,基于值迭代算法进行航向角的选择,具体包括以下步骤:
6.根据权利要求5所述的基于aug强化学习的中尺度涡观测方法,其特征在于,所述步骤d1中,高斯过程回归模型运转所得到的预测值μ*及方差σ*为下:
7.根据权利要求5所述的基于aug强化学习的中尺度涡观测方法,其特征在于,所述步骤d2中策略评估时第k+1次的值函数的值可以由第k次的值和相应的回报计算得到:
8.根据权利要求5所述的基于aug强化学习的中尺度涡观测方法,其特征在于,所述步骤d2中,基于强化学习中的策略评估方法,一旦值函数发生变化,立即进行策略改善,以加速收敛,得到更优的航向角选择策略。
9.根据权利要求5所述的基于aug强化学习的中尺度涡观测方法,其特征在于,所述步骤d2中使用强化学习时,为了使状态空间近似更为准确以及加快计算速度对状态空间进行改进得到局部状态空间s′,公式为: