本公开涉及地球科学和人工智能,特别地涉及一种水库库容淤积损失率预测模型的构建方法。
背景技术:
1、全球水库的库容淤积损失率(reservoir sedimentation rate,rsr)具有显著的地点特异性。传统的库容淤积损失率预测模型按适用范围可分为三类:
2、1.专为单个水库设计的精细模型,结构复杂,参数众多,虽在特定水库中预测精度较高,但难以广泛应用;
3、2.适用于流域尺度的模型,通过适中的参数设置,能够较为准确地评估流域内的库容淤积损失率;
4、3.全球尺度的模型,参数相对简单,可用于大致计算全球水库的库容淤积损失率,但准确率相对较低。
5、然而,上述方法在获取全球尺度具有高度地点特异性的rsr数据时,准确性方面仍然存在局限:
6、(1)现有方法难以兼顾全球尺度和精度。在追求全球范围的模型适用性时,通常需要牺牲对特定地点的精准度。反之,为了提高特定地点的精准度,则难以覆盖全球所有水库。
7、(2)现有方法难以综合考虑全球各水库的径流、流域面积、库容和经纬度等因素之间的动态交互作用对rsr的影响,导致预测的rsr与实际情况存在偏差。
技术实现思路
1、本公开提供一种水库库容淤积损失率预测模型的构建方法,以充分考虑水库环境变量、地理变量和水库自身属性对库容淤积损失率的影响,从而构建出的水库库容淤积损失率预测模型能更准确地反映实际的全球水库的库容淤积损失率。
2、第一方面,本公开提供了一种水库库容淤积损失率预测模型的构建方法,包括:
3、获取若干组样本数据,构建训练数据集;每组样本数据包括水库特征变量的数据值和库容淤积损失率实测值,所述水库特征变量包括水库的最大库容、水库上游流域面积、水库大坝平均径流流量、水库大坝所在的经纬度、悬浮泥沙捕获效率经验模型的特征变量;
4、对所述训练数据集进行随机抽样,形成若干个训练样本子集;
5、对每个训练样本子集进行递归式区域划分,构建二叉分裂的决策树;
6、将构建得到的二叉分裂的决策树集成得到随机森林模型,取所述随机森林模型中所有决策树的预测结果的平均值作为所述水库库容淤积损失率预测模型的库容淤积损失率预测值。
7、在一些实施例中,构建二叉分裂的决策树包括以下步骤:
8、对训练样本子集进行区域划分,得到两个次级数据集以及每个次级数据集对应的最优库容淤积损失率;
9、判断是否满足区域划分截止条件;
10、若不满足区域划分截止条件,则再次对次级数据集进行区域划分,直至满足区域划分截止条件;
11、若满足区域划分截止条件,则由区域划分得到的次级数据集以及每个次级数据集对应的最优库容淤积损失率,形成二叉分裂的决策树。
12、在一些实施例中,区域划分包括以下步骤:
13、确定待划分的目标数据集的最优切分变量和最优切分点;
14、使用所述目标数据集的最优切分变量和最优切分点对所述目标数据集进行切分,得到所述目标数据集的两个次级数据集。
15、在一些实施例中,所述区域划分截止条件包括:
16、训练样本子集的区域划分总层数达到预设的层数。
17、在一些实施例中,计算所述决策树中各划分节点的数据集对应的信息熵,以信息熵下降速度最快的节点路径作为该决策树的最优路径,以决策树的最优路径对应的库容淤积损失率预测值作为该决策树最终的库容淤积损失率预测值。
18、在一些实施例中,最优切分变量和最优切分点的确定过程,包括:
19、分别确定以目标数据集对应的每个水库特征变量作为切分变量时的切分误差;
20、以最小切分误差对应的水库特征变量作为所述目标数据集的最优切分变量,以所述最优切分变量对应的数据值作为所述目标数据集的最优切分点。
21、在一些实施例中,对于每个水库特征变量作为切分变量时的切分误差,采用以下步骤进行确定:
22、以目标数据集的目标水库特征变量作为切分变量,和以所述目标水库特征变量对应的数据值作为切分点,所述目标水库特征变量为本次作为切分变量的水库特征变量;
23、将目标数据集中目标水库特征变量对应的每个数据值均与所述切分点进行比较;
24、将所述目标水库特征变量对应的数据值小于或等于所述切分点的样本数据划分至第一次级数据集,将该水库特征变量对应的数据值大于所述切分点的样本数据划分至第二次级数据集;
25、计算所述第一次级数据集中每组样本数据对应的库容淤积损失率实测值与第一库容淤积损失率预测值之间的第一均方误差,并计算所述第一次级数据集中每组样本数据对应的第一均方误差的累加和,作为第一和值;
26、计算所述第二次级数据集中每组样本数据对应的库容淤积损失率实测值与第二库容淤积损失率预测值之间的第二均方误差,并计算所述第二次级数据集中每组样本数据对应的第二均方误差的累加和,作为第二和值;
27、计算所述第一和值与所述第二和值之间的和值,作为所述目标水库特征变量作为切分变量时的切分误差。
28、在一些实施例中,针对每个次级数据集,将与该次级数据集中各样本数据对应的库容淤积损失率实测值的均方误差最小的库容淤积损失预测值作为该次级数据集对应的最优库容淤积损失率。
29、第二方面,本公开提供了一种库容淤积损失率预测模型,包括由如第一方面所述的库容淤积损失率预测模型的构建方法构建的库容淤积损失率预测模型。
30、第三方面,本公开提供了一种库容淤积损失率预测方法,包括:
31、获取目标水库的水库特征变量的数据值;
32、将所述目标水库的水库特征变量的数据值输入至如第二方面所述的库容淤积损失率预测模型中进行预测,得到所述目标水库的库容淤积损失率预测值。
33、第四方面,一种计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现如第一方面或者第三方面所述方法的步骤。
34、第五方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面或者第三方面所述方法的步骤。
35、第六方面,本公开提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序被处理器执行时实现如第一方面或者第三方面所述方法的步骤。
36、本公开提供的一种水库库容淤积损失率预测模型的构建方法,具有以下有益效果:
37、(1)与现有的悬浮泥沙捕获效率经验模型如model 1和model 2相比,本公开构建的库容淤积损失率预测模型在全球尺度实现了更高的预测精度。
38、(2)本公开综合考虑水库的库容、位置、径流和流域面积等因素之间的动态交互作用对rsr的影响,从而使得预测的rsr与实际情况更加符合。
1.一种水库库容淤积损失率预测模型的构建方法,其特征在于,包括:
2.根据权利要求1所述的库容淤积损失率预测模型的构建方法,其特征在于,构建二叉分裂的决策树包括以下步骤:
3.根据权利要求2所述的库容淤积损失率预测模型的构建方法,其特征在于,区域划分包括以下步骤:
4.根据权利要求2所述的库容淤积损失率预测模型的构建方法,其特征在于,所述区域划分截止条件包括:
5.根据权利要求2所述的库容淤积损失率预测模型的构建方法,其特征在于,计算所述决策树中各划分节点的数据集对应的信息熵,以信息熵下降速度最快的节点路径作为该决策树的最优路径,以决策树的最优路径对应的库容淤积损失率预测值作为该决策树最终的库容淤积损失率预测值。
6.根据权利要求3所述的库容淤积损失率预测模型的构建方法,其特征在于,最优切分变量和最优切分点的确定过程,包括:
7.根据权利要求6所述的库容淤积损失率预测模型的构建方法,其特征在于,对于每个水库特征变量作为切分变量时的切分误差,采用以下步骤进行确定:
8.根据权利要求2所述的库容淤积损失率预测模型的构建方法,其特征在于,针对每个次级数据集,将与该次级数据集中各样本数据对应的库容淤积损失率实测值的均方误差最小的库容淤积损失率预测值,作为该次级数据集对应的最优库容淤积损失率。
9.一种库容淤积损失率预测模型,其特征在于,包括由权利要求1至8任一项所述的库容淤积损失率预测模型的构建方法构建的库容淤积损失率预测模型。
10.一种库容淤积损失率预测方法,其特征在于,包括: