一种数据驱动的新能源电力系统非参数概率预测方法

专利查询3月前  26



1.本发明涉及一种数据驱动的新能源电力系统非参数概率预测方法,属于新能源电力系统概率预测领域。


背景技术:

2.随着新能源电力系统的不断发展,越来越多的不确定性因素注入传统电力系统,给电力系统规划、运行、交易等各项决策制定带来了挑战。概率预测能够实现预测对象的不确定性量化,这些不确定性信息可用于处理电力系统中的各种决策任务,这有助于应对随机性和波动性变量给电力系统带来的风险。新能源电力系统概率预测对象包括风电、光伏发电等可再生能源发电,以及多种电压等级的负荷。由于可再生能源发电受天气影响显著,而气象环境具有不可控和强随机的特点,可再生能源发电面临预测难度大的挑战。另外,电力负荷中的不确定性也逐渐引起人们的高度重视。可再生能源的大规模接入,需求响应策略的广泛应用,零售市场的进一步开放等原因使得负荷预测难度明显增加。因此,有必要发展更为先进的概率预测方法,以应对新能源电力系统不确定性因素的挑战。
3.学者对有关概率预测的方法进行了深入而广泛的研究。根据不确定性的表示形式,概率预测可分为预测区间、分位数和概率密度函数。其中,概率密度函数可以提供前两个类别的总分布信息。目前,现有的概率预测方法大多是基于监督算法实现不确定性量化,常用的方式有机器学习、bootstrap、优化算法求解等。除此之外,非监督数据驱动的概率预测方法也是实现不确定性量化的另一有效途径,该方法能够避免监督算法的迭代参数寻优或最优化求解等复杂步骤。


技术实现要素:

4.为了解决背景技术中总结的问题,本发明提供了一种数据驱动的新能源电力系统非参数概率预测方法,该方法从历史记录数据中挖掘与预测目标不确定性相关的信息以实现对未来预测目标的概率信息估计,利用先进的集成方法和密度估计方法实现对预测目标的不确定性有效量化。
5.为了实现上述目的,本发明采用了如下的技术方案:
6.一种数据驱动的新能源电力系统非参数概率预测方法,该方法包含原始相似模式数据集构建、相似模式数据集重构以及集成密度估计三部分。首先,自适应地构造原始相似模式数据集,包括基于互信息的特征选择、基于共享最近邻的相似性度量和基于信息熵的相似模式数量确定。然后,根据相似模式与预测对象条件的相似程度不同,为每个相似模式分配不同的权重,构建与相似模式数据集对应的相似等级数据集。最后,根据上一步的相似等级数据集中的权重通过重采样生成多个新相似模式数据集,并将新相似数据集中单个累积分布函数产生的多个原始结果进行综合,得到最终的概率预测结果。
7.1.特征选择
8.相似数据搜索可以通过比较代表预测目标的解释变量的相似度来进行,这些解释
变量可以通过特征选择得到。由于互信息(mutual information,mi)在非线性相关性度量的良好表现,本发明采用互信息作为特征选择的手段,公式为:
[0009][0010]
式中,y和xi是预测目标和第i个对应的解释变量,nf是解释变量的数量,和ψ是y和xi对应的概率空间,p(y)和p(xi)是y和xi的边际概率质量函数,p(xi,y)是y和xi的联合概率质量函数。mi越大,表示特征与预测目标之间的相关性越大。因此,选择mi值较大的特征作为预测方法中的影响变量。
[0011]
在特征选择之后,历史点可以扩展到由输入特征和相应的预测目标组成的原始历史相似模式数据集,如下所示:
[0012][0013]
式中,xi是解释变量,yi是预测变量,ko是全部历史样本的数量。
[0014]
2.相似性度量
[0015]
相似性度量是从原始历史相似模式数据集do中选择与预测目标相似的模式的关键。最常用的相似性度量是欧氏距离,其主要缺点是只考虑被测点之间的欧氏空间,而不考虑测试点的周围环境,即测试点的相邻点。然而,周围环境可以表示被测点特定的不确定性情况,这对于本发明的不确定性度量的目的是非常重要的。因此,本发明构造了一个基于共享最近邻(shared nearest neighbor,snn)的相似性度量指标,利用两个测量点的近邻点匹配度构造相似性度量指标。基于snn的相似性度量过程为:
[0016]
步骤1):使用k-最近邻(k-nearest neighbors,knn)从原始历史相似模式数据集do中挑选比较相似的样本构造候选模式数据集dc,
[0017]
dc={(xi,yi)∈do|ed(xi,xf)≤d
kc
}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0018]
式中,xf是预测目标的输入向量,ed(xi,xf)是欧几里德距离(ed)函数,d
kc
是预测目标中第k个最小欧几里德距离ed数值。ed距离的公式可表示为,
[0019][0020]
式中,x
i,j
和x
f,j
分别是历史模式输入向量xi和预测目标输入向量xf的特征,n
sf
是输入特征的数量。
[0021]
步骤2):使用knn查找数据集dc中第i个候选模式对应的最近邻数据集d
c,i
,表示为,
[0022][0023]
步骤3):计算同时出现在数据集dc和数据集d
c,i
中的共享最近邻样本个数n
snn
(i)为:
[0024]nsnn
(i)=count(d
c,i
∩dc)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0025]
式中,count(
·
)是计数函数。
[0026]
步骤4):将数字n
snn
(i)指定为第i个候选模式的相似性值s
snn
(i),定义为,
[0027]ssnn
(i)=n
snn(i)ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0028]
步骤5):比较数值s
snn
选择更相似的模式构建相似模式数据集,公式如下,
[0029][0030]
式中,是数据集dc中具有第k个最大s
snn
数值的历史模式。
[0031]
经过相似性度量后,可得到与预测样本相似的用于密度估计的相似模式数据集:
[0032][0033]
式中,ks是相似样本,即相似模式的数量。
[0034]
3.相似模式数目确定
[0035]
相似模式的数目ks对所提出的非监督数据驱动的概率预测方法的预测性能至关重要。预测目标的不确定性程度将影响相似模式数目的合适值。直观地说,那些不确定度较高的预测目标需要更多的相似模式。因此,本发明提出了一种考虑不确定度差异的自适应方法来确定最佳相似模式数。
[0036]
传统的预测方法参数,如本发明中的相似模式数目,对于所有预测样本都是相同的,并根据已知历史样本组成的同一个验证数据集来确定。然而,这种简单的方法没有考虑不同预测目标的不确定性差异。为了获得合适的相似模式数量,本发明提出了一种基于不确定度计算的自适应模式数的确定方法。首先,结合具有相同不确定性程度的历史样本,构造具体的验证数据集;然后,利用匹配的验证数据集确定不同不确定度目标的相似模式数;最后计算预测目标的不确定度,并指定相应的相似模式数。
[0037]
对于不确定性程度的度量,本发明采用信息熵(information entropy,ie)来计算。ie是由香农提出的确定信息量的方法,其计算公式为:
[0038][0039]
式中,是不确定性度量目标以及其nd个所有的取值;是对应的概率质量函数;b是所用对数的底,一般取值为2。
[0040]
4.密度估计
[0041]
考虑到经验分布函数(empirical distribution function,edf)在密度估计时不需要设置复杂的参数,并且其高速的求解效率,本发明采用edf作为基学习器的手段。基于相似模式数据集d
snn
,单一的累计分布函数(cumulative distribution function,cdf)可以得到为:
[0042][0043]
式中,1{
·
}为指示函数,其公式为:
[0044][0045]
5.自适应加权集成
[0046]
集成学习是一种有效的方法,它利用了多个个体学习器的组合,具有良好的泛化能力,这在确定性预测和概率预测中均得到了验证。为了获得具有多样性的基学习器,提出了一种考虑不同相似模式相似度差异的加权重采样方法。
[0047]
重采样是一种统计方法,它可以从原始数据集中有放回地抽取样本,生成一系列新的数据集。本发明抽取的样本对象是相似模式。在传统的重采样方法中,每个样本被抽取的可能性是相等的。等概率抽样法不考虑与预测目标的相似度差异。显然,模式与预测对象的相似度对预测性能至关重要。相似度越高的相似模式数据集中的模式越可能服从预测目标的真实分布。相似模式数据集与预测样本的匹配程度提升将提高预测对象不确定性估计的准确性。因此,本发明提出了一种加权重采样方法,以提高这些更相似模式在集合密度估计中的重要性。通过所提出的加权重采样,可以更容易地选择相似度较高的候选模式构成新的相似数据集进行密度估计,从而使新的子预测分布函数更接近实际情况,使由所有子预测结果组成的最终结果更为准确。
[0048]
样本抽样的权重ws由与预测样本的相似程度计算得到,公式为:
[0049][0050]
式中,s
snn
(i)是第i个样本与预测样本的共有的最近邻数量。
[0051]
根据上式计算得到的相似程度,可组建相似等级数据集d
snn,w

[0052][0053]
基于初步得到的相似模式数据集d
snn
和相似程度等级数据集d
snn,w
,利用加权重采样技术得到一系列的新相似模式数据集,表示为:
[0054][0055]
式中,te是重采样次数。经过te次加权重采样可得到te个新相似模式数据集,从而利用经验分布函数可得到te个cdf估计结果,进一步可以转化为对应的分位数形式,公式为:
[0056][0057]
式中,是第t个子预测模型的cdf估计结果,nq是设定的分位数数量。
[0058]
本发明采用常用的集成组合策略,平均组合,作为最后预测结果的计算方式,因此最后的分位数预测结果可以通过下式计算:
[0059][0060]
本发明的有益效果在于:
[0061]
通过构造相似模式数据集和构建加权集成框架,提出了一种数据驱动的新能源电力系统非参数概率预测方法。首先提出了一种基于最近邻共享的相似性度量方法来选择合适的相似模式;然后通过计算信息熵来度量预测目标的不确定性程度,从而确定相似模式数量;最后通过聚合多个单个的密度估计结果,提出了一种加权集成方法,其中对相似模式
赋予不同的权重,以增加具有较高相似度的模式在密度估计中的重要性。该方法不需要回归模型和概率分布假设,利用多种先进的改进方法提升预测精度,实现新能源电力系统不确定性的有效量化。为进一步验证本方法的有效性,本发明采用所提方法与一系列已有方法在实际电力系统负荷组成的算例上开展了比较测试,预测结果说明了本方法在预测精度和预测效率上的优势。
附图说明
[0062]
图1为数据驱动的新能源电力系统非参数概率预测方法框架图;
[0063]
图2为不同数量输入特征下的综合技能分数展示图。
[0064]
图3为概率预测的置信偏差展示图。
[0065]
图4为概率预测的预测区间及实际值示意图。
具体实施方式
[0066]
以下结合附图与实施实例对本发明做进一步说明。
[0067]
(1)首先利用互信息mi计算得到相关的解释变量。候选的特征由历史电力负荷观测和相应温度组成。选择mi值较高的特征作为输入特征。为了确定输入特征的数量,在验证数据集中计算预测评估指标,综合技能得分(skill score,ss)。以某日前预测算例为例,图2展示了不同数量输入特征下的综合技能分数结果。如图2所示,技能得分在开始时随着特征数的增加而迅速增加,当特征数大于5时技能得分下降。因此,本算例采用前5个mi最大的特征作为解释变量,此5个特征具体为:当前温度和前1小时的温度,以及最前78、144和24小时的负荷。
[0068]
(2)在特征选择之后,历史点可以扩展到由输入特征和相应的预测目标组成的原始历史相似模式数据集,如下所示:
[0069][0070]
式中,xi是解释变量,yi是预测变量,ko是全部历史样本的数量。
[0071]
(3)利用相似性度量指标共享最近邻snn得到相似模式数据集,
[0072][0073]
式中,ks是相似样本,即相似模式的数量。
[0074]
(4)根据信息熵计算得到的不确定性程度,找到对应的相似模式数量ks。该数目由具有相同不确定性程度的历史样本测试得到。从总历史样本中分别提取代表低、中、高不确定度的三个验证数据集{s
lu
,s
mu
,s
hu
}。用于划分验证数据集的两个阈值t
lu
和t
hu
如下所示:
[0075][0076]
三个测试集分别通过验证的方式得到各自最合适的相似模式数值。然后,在预测目标负荷时,根据每个预测对象的信息计算信息熵ie值,得到特定的不确定性程度,从而确
定对应的测试集以及相似模式数值。
[0077]
(5)根据与预测目标的相似程度,计算得到历史相似样本的权重:
[0078][0079]
式中,s
snn
(i)是第i个样本与预测样本的共有的最近邻数量。
[0080]
(6)根据相似模式数据集d
snn
以及其对应的权重,利用加权重采样的方式得到新相似模式数据集为:
[0081][0082]
式中,te是抽样次数。
[0083]
(7)经过te次加权重采样可得到te个相似模式数据集,从而利用经验分布函数可得到te个cdf估计结果,进一步可以转化为对应的分位数形式,公式为:
[0084][0085]
式中,是第t个子预测模型的cdf估计结果,nq是设定的分位数数量。
[0086]
(8)概率预测结果评价:
[0087]
本发明采用两个针对分位数的概率预测评价指标,分别为用于评价可靠性的平均比例误差(average proportion deviation,apd)和用于综合评价可靠性和锐度的综合技能得分(skill score,ss)。apd定义为:
[0088]
apd
α,k
=ep
α,k-α
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(24)
[0089]
式中,k表示预测提前时间,ep为预测分位数的经验比例(empirical proportion),由给定标称分位水平α统计得到,公式为:
[0090][0091]
式中,n
t
是测试样本数,是预测分位数,y
t+k
是实际值。
[0092]
apd指标的绝对值越小说明预测分位数的可靠性越高。
[0093]
综合技能得分ss定义为:
[0094][0095]
式中,nq是给定标称分位水平α的个数。对于具有n
t
个样本的测试集,其ss为:
[0096][0097]
该技能分数的值越大,预测区间的总体性能越好。
[0098]
上述预测框架如图1所示。
[0099]
选取某实际电力系统负荷在2004年1月至2008年7月的历史负荷数据,对所提方法
的有效性进行测试,数据的时间分辨率为1小时/点,预测前瞻时间为1小时和24小时,分位数的标称分位水平设置为以1%增长步伐从1%到99%,利用约150天的数据作为训练集,接下来15天的数据作为测试集。
[0100]
表1给出本发明方法与包括持久性模型(persis.)、指数平滑法(esm)、混合卡尔曼滤波器训练的改进小波神经网络(nnhkf)、基于bootstrap的神经网络(bnn)、基于bootstrap的极值学习机(belm)、分位数回归神经网络(qrnn),和核密度估计(kde)。现有的七种概率方法可分为参数方法和非参数方法。前五种方法需要事先假设概率分布。在这些已知的假设中,高斯分布是最常用的。另外两种方法qrnn和kde都是非参数方法。从表1可以看出,在超短期(1h)和短期(24小时)的预测时间尺度下,本发明所提方法均有良好表现,可靠性指标和综合技能得分指标均优于现存方法,说明了本发明方法在负荷概率预测的有效性。
[0101]
表1不同预测方法所得到概率预测结果性能比较
[0102][0103]
图3-4分别展示了本发明方法应用于春季日前算例在可靠性指标和概率预测区间的预测效果图,从图3可以看出,本发明所提方法在1%-99%不同的标称分位水平下均能接近于理想值,说明本方法具有良好的可靠性,同时从图4容易看出,所提方法得到的预测区间能够包含实际曲线,说明本发明方法具有良好的性能,能满足电力系统的对不确定性量化信息的需要。
[0104]
以上结合附图对本发明的具体实施方式进行了描述,并非对本发明保护范围的限制,所有利用本发明说明书及附图内容所做的等效模型或等效算法流程,通过直接或间接运用于其他相关技术领域,均属本发明的发明保护范围内。

技术特征:
1.一种数据驱动的新能源电力系统非参数概率预测方法,其特征在于,首先,从历史数据中挖掘与预测目标概率分布相关的信息,自适应地构造相似模式数据集;然后,根据相似模式与预测对象条件的相似程度不同,为每个相似模式分配不同的权重,构建与相似模式数据集对应的相似等级数据集;最后,根据上一步的相似等级数据集中的权重通过重采样生成多个新相似模式数据集,并将新相似模式数据集中单个累积分布函数产生的多个原始结果进行综合,得到最终的概率预测结果。2.根据权利要求1所述的数据驱动的新能源电力系统非参数概率预测方法,其特征在于:所述的从历史数据中挖掘与预测目标概率分布相关的信息,自适应地构造相似模式数据集,具体为,通过从历史数据中挖掘与预测目标相关的不确定性信息,经过特征选择、相似性度量和相似模式数量确定步骤后,得到与预测目标相似的数据集其中x
i
是预测对象的解释变量,y
i
是预测变量。3.根据权利要求2所述的数据驱动的新能源电力系统非参数概率预测方法,其特征在于:所述的相似性度量采用一种新的基于共享最近邻的相似性度量指标,该指标充分考虑了度量目标周围环境的影响,使得具有相似不确定性分布信息的历史模式能被选中用于密度估计。4.根据权利要求2所述的数据驱动的新能源电力系统非参数概率预测方法,其特征在于:所述的相似模式数量确定的具体方法为,根据基于信息熵计算得到的预测目标的不确定性程度,精细化确定合适的相似模式数量k
s
,以得到更为准确的概率预测结果。5.根据权利要求1所述的数据驱动的新能源电力系统非参数概率预测方法,其特征在于:所述的根据上一步的相似等级数据集中的权重通过重采样生成多个新相似模式数据集,具体为,考虑选取的相似样本与预测目标相似程度的差异性,加权确定与预测目标更为相似的新相似模式数据集。

技术总结
本发明公开了一种数据驱动的新能源电力系统非参数概率预测方法,首先,从历史数据中挖掘与预测目标概率分布相关的信息,自适应地构造相似模式数据集;然后,根据相似模式与预测对象条件的相似程度不同,为每个相似模式分配不同的权重,构建与相似模式数据集对应的相似等级数据集;最后,根据上一步的相似等级数据集中的权重通过重采样生成多个新相似模式数据集,并将新相似模式数据集中单个累积分布函数产生的多个原始结果进行综合,得到最终的概率预测结果。本发明的预测结果服务于电力系统考虑不确定性的各项决策制定,可保证不确定性日益显著的新能源电力系统的安全经济运行。性日益显著的新能源电力系统的安全经济运行。性日益显著的新能源电力系统的安全经济运行。


技术研发人员:万灿 曹照静 宋永华
受保护的技术使用者:浙江大学
技术研发日:2021.11.26
技术公布日:2022/3/8

最新回复(0)