本发明涉及水华预测,尤其是涉及一种基于多尺度时序卷积神经网络的水华预测模型及方法。
背景技术:
1、基于多尺度时序卷积神经网络的水华预测方法使用的主要技术是时间序列卷积技术(time series convolution)以及深度学习技术(deep learning),其主要目的是借助监测到的气象与水文时间序列数据(包括时间、气温、气压、温度、风速、降雨量、电导率、水温、ph值、溶解氧、浊度、叶绿素等)信息,进行水华预测。
2、为了有效利用不同时间段的各种数据特征信息,时间序列卷积技术被设计了出来,它使得模型能够根据不同时间周期、不同类型的特征,提高模型对数据的理解和表征能力。因为通过应用时间序列卷积的方法,可以融合不同类型、不同周期之间的数据信息,使不同类型之间的数据相互补充,进行未来数据的推理,提高模型对复杂非线性数据特征的理解能力,有效提高模型的性能表现以及降低过拟合风险。所以时间序列卷积模型的表现往往优于普通的基于回归的模型以及基于门控单元的lstm模型。时间序列卷积模型能够高效地提取时间序列中的局部模式和特征,特别适用于捕捉时间序列中的局部依赖和变化趋势,这些特点使得时间序列卷积模型在各种时间序列数据的预测应用中具有重要意义。
3、现有的水华预测方法主要包含以下缺陷:
4、1)现有的水华预测模型部分是基于传统的疾病预测方法和基于长短期记忆网络(lstm)的预测方法。模型表现的效果不够好,并且大部分模型在处理特别长的时间序列时,仍可能无法有效捕捉远距离依赖关系;
5、2)现有水华预测模型都是未能够充分挖掘数据集本身的信息,无法像卷积神经网络那样通过多层卷积有效提取不同尺度的特征信息;
6、3)现有的水华预测方法需要花费时间在大量的手工特征工程处理上,并且对特征的利用率还有待提高。
技术实现思路
1、本发明的主要目的在于提供一种基于多尺度时序卷积神经网络的水华预测模型及方法,解决现有水华预测方法预测准确率不够高、以及未能综合利用远距离时间依赖关系和不同尺度的特征信息的问题。
2、为解决上述技术问题,本发明所采用的技术方案是:一种基于多尺度时序卷积神经网络的水华预测模型,包括小波数据预处理模块、特征嵌入模块、多尺度时序卷积模块和预测模块,其中,多尺度时序卷积模块包括时频特征增强模块、二维卷积特征提取模块和自适应周期性分析模块,具体包括:
3、小波数据预处理模块:负责对原始时间序列数据进行初步处理,以确保数据质量和完整性,包括对缺失数据较多的特征进行筛除、使用均值和标准差方法或分位数方法检测并删除离群值、利用小波分解对数据进行去噪平滑、以及对缺失数据进行插值处理,得到预处理后的数据;
4、特征嵌入模块:特征提取模块负责将原始时间序列数据进行嵌入处理,通过数值嵌入、位置嵌入和时间嵌入多种方式对数据进行编码,增强特征表示能力;
5、时频特征增强模块:通过快速傅里叶变换对时间序列数据进行频域分析,获取频域表示,计算频谱的幅值得到主要频率分量,以及计算周期和对应频率分量的平均幅值对原有时间序列数据进行特征增强,得到增强后的特征;
6、二维卷积特征提取模块:将时间序列数据从1d卷积提升到2d卷积,通过二维卷积神经网络提取多尺度的时序特征,增强模型对复杂时序模式的识别能力,得到提取到的特征向量;
7、自适应周期性分析模块:利用自适应算法对提取的周期性特征进行分析和加权处理,提取时序数据中的关键特征,得到优化过的特征向量;
8、预测模块:利用线性投影层将模型的输出尺度还原到数据原本的尺度上,综合处理后的时序特征和周期性信息,进行水源信息的预测,输出未来的水源信息状况。
9、优选方案中,小波数据预处理模块,具体包括以下步骤:
10、s01、计算样本总体每列缺失值的百分比,设定缺失值容忍阈值,如果特征列的缺失值数量高于容忍阈值,则剔除;
11、s02、使用均值和标准差方法检测并删除离群值,设定标准差容忍阈值,通过均值和标准差的范围确定正常值范围,剔除所有不在正常值范围内的样本数据;
12、s03、将缺失值和离群值处理后的数据利用小波分解对数据进行多分辨率分析,通过阈值化处理去除噪声,保留有用数据行;
13、s04、对去噪后的数据进行分段线性插值处理,使每个时间片拥有同样的样本量,得到最终的预处理完毕后的数据。
14、优选方案中,特征嵌入模块,具体包括以下步骤:
15、s11、从小波数据预处理模块中得到数据data,对其进行三种嵌入,分别为数值嵌入、位置嵌入和时间嵌入,值嵌入应用一个1d卷积层,用于转换输入特征到嵌入evalue,位置嵌入用于编码序列中每个标记的位置,得到嵌入eposition,时间嵌入整合月份、星期、日期和小时添加嵌入etemporal,以整合时间特征,公式如下:
16、evalue=valueembadding(datafeature);
17、eposition=positionalencoding(datafeature);
18、etemporal=temporalembedding(datamark);
19、其中datafeature代表数据中的特征,而datamark代表数据中的时间标记;
20、s12、整合三种不同的嵌入,得到最终的数据嵌入表示x,公式如下:
21、
22、其中,表示矩阵各元素逐元素相加。
23、优选方案中,时频特征增强模块,具体包括以下步骤:
24、s21、将时序数据嵌入表示x输入到时频特征增强模块,在时间维度上应用快速傅里叶变换,得到单边频谱表示xf,具体编码公式如下:
25、xf=fft(x);
26、其中,xf表示时序数据特征经过快速傅里叶变换后得到的单边频谱表示,fft表示快速傅里叶变换;
27、s22、计算频谱的幅值,并取其在批次维度batch和通道维度channels上的均值,得到每个频率分量的平均幅值mean_frequency_list,具体计算公式如下:
28、
29、其中,这里b表示批次的总数量,b表示每一个批次,c表示特征通道的总数,c表示每一个特征通道;
30、s23、找到幅值最大的前k个频率分量的索引,得到主要频率分量top_frequency_list,具体计算公示如下:
31、top_frequency_list=topk(mean_frequency_list,k);
32、其中,这里k表示一个超参数,指定要选取多少个频率分量的索引;
33、s24、通过数据嵌入表示x的总元素个数除以主要频率分量的索引来计算周期,得到的周期以及对应的频率分量的平均幅值,具体计算公式如下:
34、periodlist,periodweight=toperiod(x,xf,top_frequency_list);
35、其中,period_list代表主要周期,而period_weight代表对应的频率分量的权重。
36、优选方案中,二维卷积特征提取模块,具体包括以下步骤:
37、s31、将period_list输入到二维卷积特征提取模块;
38、s32、对每个频率分量对应的周期应用处理变换,重新排列为适合2d卷积的形状,具体计算公式如下:
39、conv_tensori=padding_and_reshape(periodi);
40、其中,这里periodi表示period_list中的每一个主要周期,conv_tensori表示经过填充和形状变换后关联每一个周期且适用于2d卷积的对应特征矩阵;
41、s33、应用二维卷积块进行特征提取,将卷积后的结果重新排列回原来的形状,将结果列表沿着新的维度叠加起来,得到最终的二维卷积特征;
42、conv_outputi=2dconv(conv_tensori);
43、feature_matrix=stack(reshape(conv_outputi));
44、其中,这里conv_outputi表示每个主要周期的conv_tensori通过2d卷积机制输出的特征矩阵,reshape表示重新排列回原来的形状的处理过程,feature_matrix表示每个周期的conv_outputi叠加起来得到最终的特征矩阵。
45、优选方案中,自适应周期性分析模块,具体包括以下步骤:
46、s41、将feature_matrix和period_weight输入到自适应周期性分析模块中;
47、s42、对period_weight进行自适应周期性分析得到向量x,具体计算公式如下:
48、
49、其中,weight表示period_weight自适应周期性分析后的结果,softmax用于将权重缩放到[0,1]的范围之间;
50、s43、将weight进行维度扩展,以作为权重矩阵与feature_matrix进行运算,得到结果weight′,具体计算公式如下:
51、weight′=repeat_and_unsqueeze(weight);
52、其中,repeat_and_unsqueeze是用于扩展维度的函数。
53、s44、将weight′与feature_matrix进行计算与求和,然后与原始输入的数据嵌入x进行残差连接,得到结果feature_weighted,具体计算公式如下:
54、
55、其中,feature_weighted为表示自适应周期性分析模块分析后的结果,sum是按维度求和的函数,表示矩阵乘法,表示矩阵各元素逐元素相加。
56、优选方案中,预测模块,具体包括以下步骤:
57、s51、将经过自适应周期性分析模块后的feature_weighted输入到一个线性投影层,投影回输出空间,得到与输入序列维度完全相同的输出序列,即最终的预测结果,具体的计算公式如下:
58、result_forecast=projection(feature_weighted);
59、其中,projection是线性投影层,用于将前面的模块处理后的结果转换为真正的预测序列。
60、本发明还提供一种基于多尺度时序卷积神经网络的水华预测模型的预测方法,包括以下步骤:
61、s1、原始数据进入小波数据预处理模块,经过缺失值、离群值筛选,小波变换去噪,分段线性插补后,得到处理过的数据data;
62、s2、通过特征嵌入模块处理数据data,经过多种特征嵌入处理,得到样本的嵌入表示x;
63、s3、构建一个多尺度时序卷积神经网络模型,然后,将样本的嵌入表示x用时频特征增强模块、二维卷积特征提取模块以及自适应周期性分析模块的结合处理,得到处理完毕的特征向量feature_weighted。
64、s4、使用线性投影层,根据feature_weighted进行维度变换后,投影到原始数据data的维度,输出最终的预测序列。
65、s5、建立基于多尺度时序卷积神经网络的水华预测完整模型,并对该模型进行训练。
66、优选方案中,步骤s5中,对该模型进行训练,具体包括以下步骤:
67、s61、将样本的特征输入到模型中得到x以及y;
68、s62、再根据对应的真实标签以及上一步骤中得到的结果计算对应的损失函数loss,其中损失函数均使用均方误差函数mseloss;
69、s63、根据loss计算梯度并反向传播更新参数;
70、s64、如果迭代次数少于epoch,则回到步骤s61,否则到下一步;
71、s65、得到模型参数在训练集上进行验证,得到相应的验证结果。
72、本发明提供一种基于多尺度时序卷积神经网络的水华预测模型,通过小波数据预处理模块消除噪声和异常值,确保数据质量;特征嵌入模块综合数值、位置和时间嵌入,增强特征表达力;时频特征增强模块运用fft提取关键频谱信息;二维卷积特征提取模块从多尺度分析时序模式;自适应周期性分析模块优化周期特征。预测模块则通过线性投影整合处理后的特征,生成未来水源状态预测。整个模型设计了预处理、特征增强和预测流程,利用多尺度卷积网络捕捉复杂时序特性,通过训练迭代优化参数,最终实现高精度的水华预测,为水资源管理和环境保护提供有力支持。提供了一种基于多尺度时序卷积神经网络的水华预测模型的方法,整合这些模块构成一种基于多尺度时序卷积神经网络预测方法,提高最终水华预测的准确度和效果。
73、本发明的有益效果在于:
74、1)通过小波数据预处理模块,有效地去除了原始数据中的噪声和异常值,提高了数据的质量,从而提升了模型的预测准确性。
75、2)本发明使用多种嵌入方式组合提取丰富的特征表示,可以更加充分地挖掘和利用不同尺度的数据信息,形成信息互补和准确预测。
76、3)本发明使用了二维卷积特征提取机制,与只使用一维卷积或不使用卷积不同,二维卷积可以从更多的尺度来广泛学习不同的数据信息,提取出对水华预测更重要的特征,能够有效的加速模型收敛、减少噪声的干扰,从而达到提升模型的预测效果。
77、4)自适应周期性分析模块能够自动学习和利用时序数据中的周期性模式,这对于水华这类具有季节性变化的自然现象尤为重要。
1.一种基于多尺度时序卷积神经网络的水华预测模型,其特征是:包括小波数据预处理模块、特征嵌入模块、多尺度时序卷积模块和预测模块,其中,多尺度时序卷积模块包括时频特征增强模块、二维卷积特征提取模块和自适应周期性分析模块,具体包括:
2.根据权利要求1所述的基于多尺度时序卷积神经网络的水华预测模型,其特征是:小波数据预处理模块,具体包括以下步骤:
3.根据权利要求1所述的基于多尺度时序卷积神经网络的水华预测模型,其特征是:特征嵌入模块,具体包括以下步骤:
4.根据权利要求1所述的基于多尺度时序卷积神经网络的水华预测模型,其特征是:时频特征增强模块,具体包括以下步骤:
5.根据权利要求1所述的基于多尺度时序卷积神经网络的水华预测模型,其特征是:二维卷积特征提取模块,具体包括以下步骤:
6.根据权利要求1所述的基于多尺度时序卷积神经网络的水华预测模型,其特征是:自适应周期性分析模块,具体包括以下步骤:
7.根据权利要求1所述的基于多尺度时序卷积神经网络的水华预测模型,其特征是:预测模块,具体包括以下步骤:
8.根据权利要求1-7任一项所述一种基于多尺度时序卷积神经网络的水华预测模型的预测方法,其特征是:包括以下步骤:
9.根据权利要求8所述一种基于多尺度时序卷积神经网络的水华预测模型的预测方法,其特征是:步骤s5中,对该模型进行训练,具体包括以下步骤: