基于数据挖掘和多核支持向量机的短期光伏功率预测方法与流程

1.本发明涉及新能源功率预测领域，特别是与光伏相关的领域，具体是一种基于数据挖掘和多核支持向量机的短期光伏功率预测方法。

背景技术：

2.能源在历史的进程上推动了数次工业革命，是世界经济发展的重要动力。但与此同时，大量地使用化石能源，也带来了能源资源短缺、全球气候变暖、环境恶化等一系列问题。为解决这些问题，我国提出了“力争2030年前实现碳达峰、在2060年前实现碳中和”的重大战略决策。在“双碳目标”的推动下，中国电力结构正从“适应高比例新能源”转变为“新能源为主体”的新型电力结构，新能源将在未来的电力系统中发挥更重要的作用。
3.作为新能源发电中的重要组成部分的光伏发电也得到了长足的发展，光伏发电在电网中的渗透率日益增高。根据国家能源局于2020年2月28日发布的2019年光伏发电并网运行情况，截止2019年底，我国光伏发电装机容量累计达到20430万千瓦，同比增长17.3％，其中集中式光伏14167万千瓦，同比增长14.5％，分布式光伏6263万千瓦，同比增长24.2％；预计2020年我国光伏装机容量为3500-4500万千瓦。然而，光伏出力的随机性和波动性会对电力系统的安全稳定运行产生不利影响。因此，高精度的光伏功率预测在电力调度中具有重要意义。
4.通过对现有技术的调研，光伏功率预测方法主要有bp神经网络、长短期记忆网络(lstm)、支持向量机和物理模型预测法。目前机器学习模型对光伏出力进行预测，是利用很多气象数据以及历史光伏功率数据进行直接预测，或者通过预测辐照度，再利用相关公式计算光伏出力。但是，这些方法都需要很多种类数据，如气象数据中的辐照度、风速、温度、风向等，如果仅仅利用其中某种影响因素来进行光伏出力预测，则结果并不理想；同样地，在考虑这些多种类数据时，未计及其多源特性。
5.因此针对目前有的光伏电站的数据存储容量有限，只有辐照度与光伏出力被存储，并未存储其他种类的相关气象数据的问题，如何充分利用数据，挖掘数据内在潜力，并充分考虑多源数据中各数据源的特征和物理意义，提高预测精度，是很有意义的。
6.目前没有发现同本发明类似的技术，也尚未收集到国内外类似的资料。

技术实现要素：

7.针对上述问题，本发明提出了一种基于数据挖掘和多核支持向量机的短期光伏功率预测方法。通过数据填充和小波去噪等数据预处理方法，降低了噪声对聚类算法的干扰。利用辐照度和光伏功率的特征表示参数，采用som和k-means的二次聚类算法对相似日进行选取。此外，利用多核支持向量机充分考虑多源数据中各数据源的特征和物理意义，提高预测精度。最后，通过实例验证了该方法仅利用辐照度即可准确预测光伏功率。
8.本发明的技术解决方案如下：
9.一种基于数据挖掘和多核支持向量机的短期光伏功率预测方法，主要包括五个部
分：获取多源原始数据；对所获取的原始数据进行数据预处理，得到各数据源对应的可用样本集；基于生成的样本集，利用辐照度和功率的特征表示参数进行k-means与som结合的二次聚类选取历史相似日，组成相似日样本集；利用相似日样本集，判断数据来源，在线性核函数、多项式核函数、高斯核函数与sigmoid核函数中两两选择组成多核函数；根据组成的多核函数，在每种多核函数组合下，利用多核支持向量机进行光伏发电功率预测，得到预测结果，计算误差，得到最佳多核函数组合与最佳预测结果，具体步骤如下：
10.1、原始数据选取
11.只需获取光伏电站的发电功率和辐照度，获得方法是选取待预测日的当年前三个月，前一年待预测日当月及前后各一个月的光伏发电功率和辐照度作为原始数据。
12.2、数据预处理
13.数据预处理包括数据清洗与数据去噪两部分：
14.a)数据清洗，包括异常数据检测、缺失数据填补两部分：
15.①
缺失数据对预测精度影响很大，因此有必要对缺失数据进行补全，本发明采用牛顿插值法对缺失数据进行补全：
16.f(tk)＝f(t
k-2
)+f[t
k-2
,t
k-1
](t
k-t
k-2
)+f[t
k-2
,t
k-1
,t
k+1
](t
k-t
k-2
)(t
k-t
k-1
)+f[t
k-2
,t
k-1
,t
k+1
,t
k+2
](t
k-t
k-2
)(t
k-t
k-1
)(t
k-t
k+1
)
[0017]
其中，f(t)是数据在时刻t的值，tk是数据缺失的时刻，t
k-2
、t
k-1
、t
k+1
和t
k+2
是发生数据缺失的时刻附近的四个采样时间，f[t0,t1,
…
,tm]是f(t)的m阶差商；
[0018]
②
异常数据对预测精度的影响也很大，因此在去噪前应先发现异常数据，通过横向和纵向对比的方法确定数据是否异常：如果或者其中，f(i,t)代表数据在第i天时刻t的值，表示最近几日t时刻数据的平均值，表示第i天t时刻前后数据的平均值，ε和σ是误差界限，则数据f(i,t)是异常数据，将异常数据视为缺失数据，按照填补缺失数据的方法修改异常数据；
[0019]
b)数据去噪：
[0020]
光伏发电功率数据和辐照度数据属于实测数据，在采集过程中不可避免会有噪声污染，从而导致信号波动大、毛刺较多，小波变换具有局部多分辨性、低熵性，因此采用小波软阈值去噪方法对数据进行平滑处理后再作为预测模型的输入，所述的光伏功率和辐照度采用小波阈值去噪，具体步骤如下：
[0021]
①
利用小波函数对两信号进行三层小波分解，得到小波系数ω
j,k
，其中，j为离散小波变换频率，k为离散小波变换时变量；
[0022]
②
选定合适的阈值t，对各尺度小波系数采用软阈值函数，进行非线性阈值处理，得到估计小波系数
[0023][0024]
③
基于各尺度估计小波系数采用离散小波反变换，得到去噪之后的估计信号集合；
[0025]
④
过零处理：由于功率和辐照度不能为负，因此需要对步骤
③
得到的估计信号集合进行过零处理，将负的部分替换为0，得到最终可用的样本集和
[0026]
阈值去噪的优点是噪声几乎完全得到抑制，且反映原始信号的特征尖峰点得到很好的保留。用软阈值的方法去噪能够使估计信号实现最大均方误差最小化，即去噪后的估计信号是原始信号的近似最优估计；且估计信号至少和原始信号同样光滑而不会产生附加振荡。同时，上述的数据清洗避免了在信号不连续点处，去噪后可能出现的伪吉布斯现象。
[0027]
3、特征参数表示及二次聚类
[0028]
a)特征参数选取
[0029]
辐照度特征表示：考虑时间序列数据的总体特征与离散特征，以辐照度最大值s
max
、辐照度平均值s
avg
、辐照度方差vg、辐照度三阶差分最大值tod
max
、晴朗指数k
t
、辐照度归一化离散差ls为特征参数，各参数的具体表达式如下所示：
[0030][0031][0032][0033][0034][0035][0036]
其中，s
s,i
是采样点的辐照度，n是一天的样本数，是辐照度的三阶差分，s
0,i
是对应的地外辐照度理论计算值，并且s
0,0
＝s
0,n+1
＝0，s
s,0
＝s
s,n+1
＝0。
[0037]
功率特征表示：选择光伏每日最大功率p
max
和光伏每日平均功率p
avg
作为功率特征参数：
[0038][0039][0040]
其中，pi是采样点的光伏功率，n是一天的样本数。
[0041]
因此，相似日与待预测日的输入变量有8个特征参数x＝[x1,x2,x3,x4,x5,x6,x7,x8]，其中，x1～x6分别为提取的6个辐照度特征参数，x7～x8为提取的2个功率特征参数。输出y为训练点的实际光伏发电功率数据。最终相似日样本集为{(xi,yi)|i＝1,2,
…
n}，n为相似
日样本总数。
[0042]
b)基于二次聚类的相似日选择
[0043]
k-means聚类算法具有简单、容易理解、计算方便、速度快以及能够有效处理大型数据库的优点，然而k-means算法还有着如初始值对聚类结果影响较大、容易陷入局部最优、依赖经验判断最优类的个数以及对“噪音”和孤立点数据比较敏感等缺点。som神经网络是一个无监督的学习模式，能够将数据从高维空间映射到低维空间上，通过降维寻找多维数据的主要统计特征，并根据数据间的相似性自动将数据分成不同的类别，从而达到增强有用信息，降低噪声的影响。
[0044]
为了获得更好的基于特征参数的聚类效果，将k-means聚类与som聚类相结合，进行二次聚类。首先，利用som聚类方法对聚类样本集进行初始聚类，得到聚类权值，然后将该权值作为k-means聚类的初始聚类中心进行二次聚类。
[0045]
4、多核函数组成
[0046]
核函数法是支持向量机实现非线性分类和回归的重要方法。支持向量机最初是基于单核函数的。但当输入数据属于多源数据时，使用单核函数对所有数据进行相同的处理会导致准确性不足。目前最常见的单核函数有:线性核函数、多项式核函数、rbf核函数和s型核函数。
[0047]
多核函数是由一组单核函数以某种方式组合形成的，多核支持向量机是用多核函数代替单核函数。由于每个样本含有8个特征参数，分别属于辐照度源与光伏发电数据源两种数据源，因此在线性核函数、多项式核函数、高斯核函数与sigmoid核函数中两两选择，共6种多核函数组合。线性组合的多核函数的表达式为：
[0048][0049]
其中，λh∈[0,1]是核权重，m是单核函数的个数，kh(x,y)是单核函数；
[0050]
5、最优多核支持向量机预测光伏功率
[0051]
基于l1范数的多核svm模型如下所示：
[0052][0053][0054][0055][0056]
λh≥0,h＝1,2,...,m
[0057]
||λh||1＝1
[0058]
其中，x为训练样本输入特征，y为训练样本的目标值，n为训练样本个数，m为多核函数所含单核函数数量，c为惩罚因子，ε为精度，α、为拉格朗日乘子；
[0059]
采用双层多核学习算法来求解参数，多核svm回归估计函数可表达如下：
[0060]
[0061]
其中，和是最优拉格朗日乘子，b是阈值参数。
[0062]
本发明选取平均绝对百分比误差mape和均方根误差rmse作为光伏功率预测结果的评价指标：
[0063][0064][0065]
利用每种多核函数组合下的支持向量机进行光伏发电功率预测，得到预测结果，计算误差，从而得到最佳多核函数组合。根据选择的最优多核函数进行光伏功率预测，得到最优预测结果。基于数据挖掘和多核支持向量机的光伏功率预测具体过程如图1所示。
[0066]
与现有技术相比，本发明的特点如下：
[0067]
1.提出一种基于数据预处理与特征表示的多核支持向量机预测算法；
[0068]
2.所需数据来源较少且易获得，只需光伏电站的辐照度与光伏功率数据，无需其他气象数据，所需数据采集装置少，极大减少数据采集的难度，节省资金，可应用于分布式光伏电站的功率预测；
[0069]
3.依据数据特征，构建特征参数，基于特征表示参数而非数据本身进行相似日选择，充分挖掘数据潜力，选择出的相似日更具有代表性；
[0070]
4.利用多核支持向量机区分处理多源数据，与神经网络、单核支持向量机相比，提高了光伏功率的预测精度，有利于光伏电站的上网申报及电网对光伏出力的掌握，降低可再生能源接入电网后的不确定性。
附图说明
[0071]
图1是本发明一种短期光伏功率预测方法的体系结构；
[0072]
图2是本发明一具体实例中单核支持向量机、多核支持向量机与bp神经网络预测结果示意图；
[0073]
图3是本发明一具体实例中不同多核函数预测结果示意图。
具体实施方式
[0074]
下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，结合实施例和附图对本发明作进一步说明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。
[0075]
一种基于数据挖掘和多核支持向量机的短期光伏功率预测方法，主要包括五个部分：获取多源原始数据；对所获取的原始数据进行数据预处理，得到各数据源对应的可用样本集；基于生成的样本集，利用辐照度和功率的特征表示参数进行k-means与som结合的二次聚类选取历史相似日，组成相似日样本集；利用相似日样本集，判断数据来源，在线性核函数、多项式核函数、高斯核函数与sigmoid核函数中两两选择组成多核函数；根据组成的多核函数，在每种多核函数组合下，利用多核支持向量机进行光伏发电功率预测，得到预测结果，计算误差，得到最佳多核函数组合与最佳预测结果，具体步骤如下：
[0076]
1、原始数据选取
[0077]
只需获取光伏电站的发电功率和辐照度，获得方法是选取待预测日的当年前三个月，前一年待预测日当月及前后各一个月的光伏发电功率和辐照度作为原始数据。
[0078]
2、数据预处理
[0079]
数据预处理包括数据清洗与数据去噪两部分：
[0080]
a)数据清洗，包括异常数据检测、缺失数据填补两部分：
[0081]
数据丢失可能是由于间歇性通信故障、监控设备停机、接触不良等造成的。极端的环境变化或紧急情况也可能导致数据丢失。缺失数据对预测精度影响很大，因此有必要对缺失数据进行补全。采用牛顿插值法对缺失数据进行补全：
[0082]
f(tk)＝f(t
k-2
)+f[t
k-2
,t
k-1
](t
k-t
k-2
)+f[t
k-2
,t
k-1
,t
k+1
](t
k-t
k-2
)(t
k-t
k-1
)+
[0083]
f[t
k-2
,t
k-1
,t
k+1
,t
k+2
](t
k-t
k-2
)(t
k-t
k-1
)(t
k-t
k+1
)
[0084]
其中，f(t)是数据在时刻t的值，tk是数据缺失的时刻，t
k-2
、t
k-1
、t
k+1
和t
k+2
是发生数据缺失的时刻附近的四个采样时间，f[t0,t1,
…
,tm]是f(t)的m阶差商。
[0085]
数据异常可能是由于通信传输异常、突发事件、重大政治事件等原因造成的。异常数据对预测精度的影响也很大，因此在去噪前应先发现异常数据。通过横向和纵向对比的方法确定数据是否异常。如果或者其中，f(i,t)代表数据在第i天时刻t的值，表示最近几日t时刻数据的平均值，表示第i天t时刻前后数据的平均值，ε和σ是误差界限，则数据f(i,t)是异常数据。将异常数据视为缺失数据，按照填补缺失数据的方法修改异常数据。
[0086]
b)小波阈值去噪
[0087]
光伏发电功率数据与辐照度数据属于实测数据，在采集过程中不可避免会有噪声污染，从而导致信号波动大、毛刺较多。小波变换具有局部多分辨性、低熵性，因此采用小波软阈值去噪方法对数据进行平滑处理后再作为预测模型的输入。光伏功率和辐照度小波阈值去噪的具体步骤如下：
[0088]
步骤1：利用小波函数对两信号进行三层小波分解，得到小波系数ω
j,k
，其中，j为离散小波变换频率，k为离散小波变换时变量；
[0089]
步骤2：选定合适的阈值t，对各尺度小波系数采用软阈值函数，进行非线性阈值处理，得到估计小波系数
[0090][0091]
步骤3：基于各尺度估计小波系数采用离散小波反变换，得到去噪之后的估计信号集合；
[0092]
步骤4：进行过零处理。由于功率和辐照度不能为负，因此需要对步骤3得到的估计信号集进行过零处理，将负的部分替换为0。并得到最终可用的样本集和
[0093]
阈值去噪的优点是噪声几乎完全得到抑制，且反映原始信号的特征尖峰点得到很好的保留。用软阈值的方法去噪能够使估计信号实现最大均方误差最小化，即去噪后的估计信号是原始信号的近似最优估计；且估计信号至少和原始信号同样光滑而不会产生附加振荡。同时，上述的数据清洗避免了在信号不连续点处，去噪后可能出现的伪吉布斯现象。
[0094]
3、特征参数表示及二次聚类
[0095]
a)特征参数选取
[0096]
辐照度特征表示：考虑时间序列数据的总体特征与离散特征，以辐照度最大值s
max
、辐照度平均值s
avg
、辐照度方差vg、辐照度三阶差分最大值tod
max
、晴朗指数k
t
、辐照度归一化离散差ls为特征参数，各参数的具体表达式如下所示：
[0097][0098][0099][0100][0101][0102][0103]
其中，s
s,i
是采样点的辐照度，n是一天的样本数，是辐照度的三阶差分，s
0,i
是对应的地外辐照度理论计算值，并且s
0,0
＝s
0,n+1
＝0，s
s,0
＝s
s,n+1
＝0。
[0104]
功率特征表示：选择光伏每日最大功率p
max
和光伏每日平均功率p
avg
作为功率特征参数：
[0105][0106][0107]
其中，pi是采样点的光伏功率，n是一天的样本数。
[0108]
因此，相似日与待预测日的输入变量有8个特征参数x＝[x1,x2,x3,x4,x5,x6,x7,x8]，其中，x1～x6分别为提取的6个辐照度特征参数，x7～x8为提取的2个功率特征参数。输出y为训练点的实际光伏发电功率数据。最终相似日样本集为{(xi,yi)|i＝1,2,
…
n}，n为相似日样本总数。
[0109]
b)基于二次聚类的相似日选择
[0110]
k-means聚类算法具有简单、容易理解、计算方便、速度快以及能够有效处理大型
数据库的优点，然而k-means算法还有着如初始值对聚类结果影响较大、容易陷入局部最优、依赖经验判断最优类的个数以及对“噪音”和孤立点数据比较敏感等缺点。som神经网络是一个无监督的学习模式，能够将数据从高维空间映射到低维空间上，通过降维寻找多维数据的主要统计特征，并根据数据间的相似性自动将数据分成不同的类别，从而达到增强有用信息，降低噪声的影响。
[0111]
为了获得更好的基于特征参数的聚类效果，将k-means聚类与som聚类相结合，进行二次聚类。首先，利用som聚类方法对聚类样本集进行初始聚类，得到聚类权值，然后将该权值作为k-means聚类的初始聚类中心进行二次聚类。提出的针对光伏发电预测相似日选择的具体步骤如下：
[0112]
步骤1：选取待预测日的当年前三个月，前一年待预测日当月及前后各一个月的数据作为聚类样本集；
[0113]
步骤2：计算每个样本用于聚类输入的特征数据(辐照度特征表示参数，共6个特征数据)及训练点前一日的日最高光伏发电功率、日平均光伏发电功率；
[0114]
步骤3：确定聚类种类数目，进行som聚类，得到聚类权值；
[0115]
步骤4：将步骤3中的聚类权值作为k-means的初始聚类中心，进行二次聚类，得到待预测日的相似日，保存相似日的辐照度数据、光伏发电功率数据。
[0116]
4、多核函数组成
[0117]
核函数法是支持向量机实现非线性分类和回归的重要方法。支持向量机最初是基于单核函数的。但当输入数据属于多源数据时，使用单核函数对所有数据进行相同的处理会导致准确性不足。目前最常见的单核函数有:线性核函数、多项式核函数、rbf核函数和s型核函数。
[0118]
多核函数是由一组单核函数以某种方式组合形成的，多核支持向量机是用多核函数代替单核函数。由于每个样本含有8个特征参数，分别属于辐照度源与光伏发电数据源两种数据源，因此在线性核函数、多项式核函数、高斯核函数与sigmoid核函数中两两选择，共6种多核函数组合。线性组合的多核函数的表达式为：
[0119][0120]
其中，λh∈[0,1]是核权重，m是单核函数的个数，kh(x,y)是单核函数；
[0121]
5、最优多核支持向量机预测光伏功率
[0122]
基于l1范数的多核svm模型如下所示：
[0123][0124][0125][0126][0127]
λh≥0,h＝1,2,...,m
[0128]
||λh||1＝1
[0129]
其中，x为训练样本输入特征，y为训练样本的目标值，n为训练样本个数，m为多核函数所含单核函数的数量，c为惩罚因子，ε为精度，α、为拉格朗日乘子；
[0130]
采用双层多核学习算法来求解参数，多核svm回归估计函数可表达如下：
[0131][0132]
其中，和是最优拉格朗日乘子，b是阈值参数。
[0133]
选取平均绝对百分比误差(mape)和均方根误差(rmse)作为光伏功率预测结果的评价指标：
[0134][0135][0136]
利用权利要求5中的每种多核函数组合下的支持向量机进行光伏发电功率预测，得到预测结果，计算误差，从而得到最佳多核函数组合。根据选择的最优多核函数进行光伏功率预测，得到最优预测结果。基于数据挖掘和多核支持向量机的光伏功率预测具体过程如附图1所示。
[0137]
下面结合一具体实例，对本发明上述的技术方案作进一步说明。
[0138]
本具体实例的实验数据来自山东省的一个光伏电站。数据样本采集时间为2018年1月1日至2019年12月31日，每天采集27个样本点。该数据被用于预测2019年10月15日至17日这三天的光伏发电功率。
[0139]
选取平均绝对百分比误差(mape)和均方根误差(rmse)作为光伏功率预测结果的评价指标：
[0140][0141][0142]
其中，pi是实际值，pi'是预测值，n是每天的预测样本点数；
[0143]
利用去噪后的数据，分别基于单核支持向量机、多核支持向量机和bp神经网络对2019年10月15日至17日的光伏功率进行了预测。结果如图2和表1所示。由此可见，多核函数可以大大提高支持向量机的精度。此外，与bp神经网络相比，支持向量机在实际光伏功率较小的情况下具有更高的精度。
[0144]
表1单核支持向量机、多核支持向量机与bp神经网络预测误差比较
[0145][0146]
采用六组多核函数对待预测日光伏功率进行预测，预测结果如图3和表2所示。由表2可知，线性+多项式多核函数的精度最高，是最优的多核函数。
[0147]
表2不同多核函数预测误差的比较
[0148]

技术特征：
1.一种基于数据挖掘和多核支持向量机的短期光伏功率预测方法，其特征在于，包括：获取多源原始数据；对所获取的原始数据进行数据预处理，得到各数据源对应的样本集；基于生成的样本集，利用辐照度和功率的特征表示参数进行k-means与som结合的二次聚类选取历史相似日，组成相似日样本集；利用相似日样本集，判断数据来源，在线性核函数、多项式核函数、高斯核函数与sigmoid核函数中两两选择组成多核函数；根据组成的多核函数，在每种多核函数组合下，利用多核支持向量机进行光伏发电功率预测，得到预测结果，计算误差，得到最佳多核函数组合与最佳预测结果。2.根据权利要求1所述的基于数据挖掘和多核支持向量机的短期光伏功率预测方法，其特征在于，获取多源原始数据，是指获取光伏发电功率和辐照度的原始数据，获得方法是选取待预测日的当年前三个月，前一年待预测日当月及前后各一个月的光伏发电功率和辐照度作为原始数据。3.根据权利要求1所述的短期光伏功率预测方法，其特征在于，对原始数据进行数据预处理，包括：a)数据清洗：
①
采用牛顿插值法对缺失数据进行补全：f(t
k
)＝f(t
k-2
)+f[t
k-2
,t
k-1
](t
k-t
k-2
)+f[t
k-2
,t
k-1
,t
k+1
](t
k-t
k-2
)(t
k-t
k-1
)+f[t
k-2
,t
k-1
,t
k+1
,t
k+2
](t
k-t
k-2
)(t
k-t
k-1
)(t
k-t
k+1
)其中，f(t)是数据在时刻t的值，t
k
是数据缺失的时刻，t
k-2
、t
k-1
、t
k+1
和t
k+2
是发生数据缺失的时刻附近的四个采样时间，f[t0,t1,
…
,t
m
]是f(t)的m阶差商；
②
异常数据判断：通过横向和纵向对比的方法确定数据是否异常：如果或者则数据f(i,t)是异常数据，将异常数据视为缺失数据，按照填补缺失数据的方法修改异常数据；其中，f(i,t)代表数据在第i天时刻t的值，表示最近几日t时刻数据的平均值，表示第i天t时刻前后数据的平均值，ε和σ是误差界限，b)数据去噪：
①
利用小波函数对光伏功率和辐照度进行三层小波分解，得到小波系数ω
j,k
，其中，j为离散小波变换频率，k为离散小波变换时变量；
②
选定合适的阈值t，对各尺度小波系数采用软阈值函数，进行非线性阈值处理，得到估计小波系数估计小波系数
③
基于各尺度估计小波系数采用离散小波反变换，得到去噪之后的估计信号集合；
④
过零处理：对步骤
③
得到的估计信号集合进行过零处理，将负的部分替换为0，得到
最终可用的样本集和4.根据权利要求1所述的短期光伏功率预测方法，其特征在于，特征参数的选取及二次聚类的方法，具体步骤包括：a)特征参数选取：辐照度特征表示：考虑时间序列数据的总体特征与离散特征，以辐照度最大值s
max
、辐照度平均值s
avg
、辐照度方差v
g
、辐照度三阶差分最大值tod
max
、晴朗指数k
t
、辐照度归一化离散差l
s
为特征参数，各参数表达式如下所示：为特征参数，各参数表达式如下所示：为特征参数，各参数表达式如下所示：为特征参数，各参数表达式如下所示：为特征参数，各参数表达式如下所示：为特征参数，各参数表达式如下所示：其中，s
s,i
是采样点的辐照度，n是一天的样本数，是辐照度的三阶差分，s
0,i
是对应的地外辐照度理论计算值，并且s
0,0
＝s
0,n+1
＝0，s
s,0
＝s
s,n+1
＝0；功率特征表示：选择光伏每日最大功率p
max
和光伏每日平均功率p
avg
作为功率特征参数：数：其中，p
i
是采样点的光伏功率，n是一天的样本数；相似日与待预测日的输入变量有8个特征参数x＝[x1,x2,x3,x4,x5,x6,x7,x8]，其中，x1～x6分别为提取的6个辐照度特征参数，x7～x8为提取的2个功率特征参数。输出y为训练点的实际光伏发电功率数据。最终相似日样本集为{(x
i
,y
i
)|i＝1,2,
…
n}，n为相似日样本总数。b)基于二次聚类的相似日选择：利用som聚类方法对聚类样本集进行初始聚类，得到聚类权值；将该聚类权值作为k-means聚类的初始聚类中心进行二次聚类，得到二次聚类的光伏
发电预测相似日，保存相似日的辐照度数据、光伏发电功率数据；5.根据权利要求1所述的短期光伏功率预测方法，其特征在于，基于数据来源，判断多核函数组成形式，具体包括：在线性核函数、多项式核函数、高斯核函数与sigmoid核函数中两两选择，共6种多核函数组合，多核函数是由一组单核函数以某种方式组合形成的，多核支持向量机是用多核函数代替单核函数，线性组合的多核函数的表达式为：其中，λ
h
∈[0,1]是核权重，m是单核函数的个数，k
h
(x,y)是单核函数。6.根据权利要求1所述的短期光伏功率预测方法及权利要求5所述的多核函数组成形式，其特征在于，采用最优多核支持向量机预测光伏功率，包括：基于l1范数的多核svm模型如下所示：数的多核svm模型如下所示：数的多核svm模型如下所示：λ
h
≥0,h＝1,2,...,m||λ
h
||1＝1其中，x为训练样本输入特征，y为训练样本的目标值，n为训练样本个数，m为多核函数所含单核函数数量，c为惩罚因子，ε为精度，α、为拉格朗日乘子；采用双层多核学习算法来求解参数，多核svm回归估计函数可表达如下：其中，和是最优拉格朗日乘子，b是阈值参数；选取平均绝对百分比误差mape和均方根误差rmse作为光伏功率预测结果的评价指标：选取平均绝对百分比误差mape和均方根误差rmse作为光伏功率预测结果的评价指标：利用每种多核函数组合下的支持向量机进行光伏发电功率预测，得到预测结果，计算误差，从而得到最佳多核函数组合。根据选择的最优多核函数进行光伏功率预测，得到最优预测结果。

技术总结
一种基于数据挖掘和多核支持向量机的短期光伏功率预测方法，该预测方法针对光伏预测所需多源气象数据难以获得，部分光伏电站可能只存储辐照度数据和光伏发电功率的问题，通过数据预处理、数据挖掘以及最优多核选取，提高了光伏出力预测精度，使得仅利用辐照度和光伏功率数据也能获得高精度的光伏预测结果。这种预测方法一方面利用数据挖掘技术，充分利用每项数据，另一方面所提的多核支持向量机能够区分处理多源数据，极大地提高了预测精度。本发明的预测方法，实现了在气象数据无法获取、只有辐照度与光伏功率数据的情况下的高精度光伏功率预测，具有重大意义。具有重大意义。具有重大意义。

技术研发人员：孙丰杰撖奥洋周生奇刘宏波张子矜董文妍
受保护的技术使用者：国网山东省电力公司青岛供电公司
技术研发日：2021.11.15
技术公布日：2022/3/8

专利

最新回复(0)