1.本发明涉及电力营销用电客户行为数据分析技术领域,更具体的说是涉及一种基于多种聚类算法和多元线性回归的电力客户聚类方法。
背景技术:
2.随着电力行业信息化建设的高速发展,电力客户数据变得越来越庞大且繁杂,同时也为电网公司数据分析提出了更高的要求。对于电力行业来说,电力的供给和消费是营销的主要目的所在,其附带的功能及配套服务是营销的后续关键所在,目前电力行业营销数据主要产生于费用缴存、费用查询、低费提醒、活动推送、电力服务通知、故障申报、合作洽谈、客户信息服务等内容。
3.电力营销积累了大量用户信息及其用电行为数据,通过对该数据进行有效的聚类和分类分析,可以提取有价值的用户群体和用户用电特征,为后续的电力营销策略提供支持,从而便于电力行业的业务发展以及市场决策的定向。在客户细分的基础上,对客户进行精准定位,关注优质客户、敏感客户,有效提升电力营销专业服务水平,降低业务风险,提高用户满意度,制定出更适合于不同客户的用电方案,保证优秀的服务质量。
4.但是,目前基于单一聚类主动学习方法的电力用户的数据分析适用数据集有限且对于不同分布数据集识别效果也会不同,使得电力数据中有价值的客户用电信息不能精准快速的发掘,造成聚类结果不够精确,降低工作效率,从而影响了电力业务的发展。
5.因此,如何对电力用户进行精准快速聚类,从而挖掘出有价值的客户信息是本领域技术人员亟需解决的问题。
技术实现要素:
6.本发明的目的在于:为在大数据下的电力客户信息进行快速的分析与挖掘提供一种富有成效的聚类方法。
7.为了实现上述目的,本发明采用如下技术方案:
8.一种基于多种聚类算法和多元线性回归的电力客户聚类方法,包括以下步骤:
9.(1)通过多种聚类算法对电力客户数据集进行预分类;
10.(2)根据预分类结果对电力客户数据集中的电力客户数据进行关键实例选取;
11.(3)以关键实例为基础建立多元线性回归模型,并构建用于求解每种聚类算法权重系数的目标求解函数,求解目标函数获得每种聚类算法的权重系数;
12.(4)根据每种聚类算法的权重系数进行决策分类的综合计算,实现对电力客户数据的分类。
13.优选的,步骤(1)中所述多种聚类算法包括k-means、dpca、模糊c均值聚类算法和层次聚类算法。
14.优选的,步骤(1)中通过多种聚类算法对电力客户数据集进行预分类,具体包括以下步骤:
15.s11、每种聚类算法根据自身的聚类原则,对电力客户数据集进行无类别划分的聚类操作,将电力客户数据集划分成预先设定好的簇数;
16.s12、以其中任意一种聚类算法为基础,将该聚类算法聚成的簇数同其余几种聚类算法聚成的簇数进行一一查询比较,根据交集个数最多被分为一类的原则,依次对每种聚类算法的簇数进行分类;
17.s13、将每类结果的前几个数据点与专家进行交互获得其真实类别,将这几个数据点中类别相同个数最多的类别标记上伪标签。
18.优选的,步骤s13中,已被标记了伪标签的类别不再计算其类别个数,保证所有的类别都被标记上伪标签。
19.优选的,步骤(2)中对电力客户数据集中的电力客户数据进行关键实例选取,具体包括:
20.s21、定义电力客户数据的局部密度:
[0021][0022]
式中:x表示所选取的电力客户数据点的向量形式,xi表示局部密度更高的数据点的向量形式,dc表示截止距离;dist表示两个数据之间的欧氏距离;χ()为一个判断函数,若括号内的值小于0,则χ=1;若括号内的值大于等于0,则χ=0;
[0023]
s22、定义电力客户数据点与局部密度更高的数据点的最小距离:
[0024][0025]
s23、根据局部密度及最小距离计算电力客户数据的优先级:
[0026]
p=δ
×
ρ
[0027]
s24、获取优先级最大的电力客户数据,将优先级最大的电力客户数据循环计算k次,获取k个数据即为电力客户数据中的关键实例,所述循环计算公式为
[0028][0029]
式中x
train
为训练集,x
used
为当前已被得到的离x
max
最近的电力客户数据点。
[0030]
优选的,所述步骤(3)具体包括:
[0031]
s31、根据选取的关键实例结合多元线性回归模型建立数据标签值的计算函数,并计算数据标签值,所述数据标签值的计算函数为
[0032][0033]
式中,是每个关键实例的预测标签值向量,n
key
是关键实例的个数;θ=(θ1,θ2,θ3,θ4)是四种算法的权重系数向量;c
label
是包含每个聚类算法伪标签的关键实例矩阵;每个关键实例对应每种聚类算法的伪标签值向量;b是常数项系数向量;
[0034]
s32、根据数据标签值构建用于求解权重系数向量θ的目标函数,即:
[0035][0036]
式中:hi是每个关键实例的预测标签值;yi是真实标签值。
[0037]
s33、对目标函数进行最小二乘变形求导获取用于求解每种聚类算法权重系数的目标求解函数:
[0038][0039]
其中,y代表一个真实标签向量;
[0040]
s34、通过对目标求解函数进行求解后,得到权重系数向量θ=(θ1,θ2,θ3,θ4)。
[0041]
优选的,步骤(3)还包括步骤s35、对权重系数向量θ进行归一化处理,获取归一化权重系数向量。
[0042]
优选的,所述步骤(4)具体包括:
[0043]
根据每种聚类算法的权重系数进行决策分类的综合计算,将计算结果超过阈值的样本点进行分类,计算公式如下:
[0044][0045]
式中:εr()是一个判断函数,若括号内的值等r,则εr=1,否则,εr=0;c是每个样本对应每种聚类算法的伪标签值;r是数据集的真实类别数;α是决策阈值。
[0046]
优选的,步骤(4)还包括对进行决策分类后仍未被分类的数据点,通过knn分类方法进行进一步分类。
[0047]
经由上述的技术方案可知,本发明公开提供了一种基于多种聚类算法和多元线性回归的电力客户聚类方法,与现有技术相比,本发明通过算法间的聚类与交互,得到真实且具体的电力客户用电特征,弥补了在单一聚类算法下由于算法的局限性无法进行不同数据集的识别聚类,实现了在电力客户所产生的具有不同特征数据集的情况下用户分类,极大提高了电力营销行业对于客户的识别度,保证服务质量的同时加快了工作效率,促进了电力行业的进一步发展。
附图说明
[0048]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0049]
图1附图为本发明提供的方法流程示意图。
具体实施方式
[0050]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0051]
如图1所示,本发明实施例公开了一种基于多种聚类算法和多元线性回归的电力客户聚类方法,包括以下步骤:
[0052]
s1、通过多种聚类算法对电力客户数据集进行预分类;
[0053]
在电力客户数据挖掘分析问题中,不同客户不同业务以及不同服务项目所产生的数据内容是不同的,且数据种类较多,单一聚类算法对电力客户识别数据集进行聚类的同时无法对聚类算法结果的每簇进行类别的划分。本实施例采用结合k-means、dpca、模糊c均值聚类算法(fuzzy c means clustering algorithm,fcm)和层次聚类算法(hierarchical clustering algorithm,hca)四种聚类算法对电力客户数据集进行聚类,并查询公共点的方法解决上述问题。
[0054]
预分类具体步骤包括:
[0055]
s11、每种聚类算法根据自身的聚类原则,对电力客户数据集进行无类别划分的聚类操作,将电力客户数据集划分成预先设定好的簇数;
[0056]
s12、以其中任意一种聚类算法为基础,将该聚类算法聚成的簇数同其余几种聚类算法聚成的簇数进行一一查询比较,根据交集个数最多被分为一类的原则,依次对每种聚类算法的簇数进行分类;
[0057]
s13、查找每类中的交集部分,将每类结果的前几个数据点与专家进行交互获得其真实类别,将这几个数据点中类别相同个数最多的类别标记上伪标签。
[0058]
这里的类别指对电力客户数据的预分类,也就是电力客户伪标签;由于本发明实时例采用优先级最大搜寻策略来选取关键实例,因此伪标签未对选取产生作用,只起到一个说明作用,而步骤s13中与专家交互主要是指通过与专家提供的电力客户数据进行比较分析。
[0059]
为保证所有的类别都被标记上伪标签,在以后的交互过程中已被标记了伪标签的类别不再计算其类别个数。
[0060]
s2、根据预分类结果对电力客户数据集中的电力客户数据进行关键实例选取;本实施例采用采用优先级最大搜寻策略来选取关键实例,关键实施例的选取具体包括:
[0061]
s21、定义电力客户数据的局部密度:
[0062][0063]
式中:x表示所选取的电力客户数据点的向量形式,xi表示局部密度更高的数据点的向量形式,dc表示截止距离;dist表示两个数据之间的欧氏距离;χ()为一个判断函数,若括号内的值小于0,则χ=1;若括号内的值大于等于0,则χ=0;
[0064]
s22、定义电力客户数据点与局部密度更高的数据点的最小距离:
[0065][0066]
s23、根据局部密度及最小距离计算电力客户数据的优先级:
[0067]
p=δ
×
ρ
[0068]
s24、获取优先级最大的电力客户数据,将优先级最大的电力客户数据循环计算k
次,获取k个数据即为电力客户数据中的关键实例,所述循环计算公式为
[0069][0070]
式中x
train
为训练集,x
used
为当前已被得到的离x
max
最近的电力客户数据点。
[0071]
实际上本发明实施例中关键实施例的选取遵循优先级最大搜寻策略,关键实施例的数据模型可以看作决策信息系统,决策信息系统定义成一个三元组:s=(x,a,y)
[0072]
式中:x代表一个数据集向量;x=xtrain∪xtest,xtrain是训练集,xtest是测试集;a代表一个条件属性向量;y代表一个真实标签向量。找到优先级最大的数据就是找到对算法影响效果最好的数据信息。
[0073]
s3、以关键实例为基础建立多元线性回归模型,并构建用于求解每种聚类算法权重系数的目标求解函数,求解目标函数获得每种聚类算法的权重系数;具体包括:
[0074]
s31、根据选取的关键实例结合多元线性回归模型建立数据标签值的计算函数,并计算数据标签值,所述数据标签值的计算函数为
[0075][0076]
式中,是每个关键实例的预测标签值向量,n
key
是关键实例的个数;θ=(θ1,θ2,θ3,θ4)是四种算法的权重系数向量;c
label
是包含每个聚类算法伪标签的关键实例矩阵;每个关键实例对应每种聚类算法的伪标签值向量;b是常数项系数向量;
[0077]
s32、根据数据标签值构建用于求解权重系数向量θ的目标函数,即:
[0078][0079]
式中:hi是每个关键实例的预测标签值;yi是真实标签值。
[0080]
s33、对目标函数进行最小二乘变形求导获取用于求解每种聚类算法权重系数的目标求解函数:
[0081]
首先,进对目标函数行最小二乘变形得到:
[0082][0083]
对公式(1)进行展开得到:
[0084][0085]
对展开后的公式(2)进行求导并令导数为0,得到:
[0086]
[0087]
最后,通过对式(3)求解,每种聚类算法权重系数的目标求解函数:
[0088][0089]
其中,y代表一个真实标签向量;
[0090]
s34、通过对目标求解函数(4)进行求解后,得到权重系数向量
[0091]
θ=(θ1,θ2,θ3,θ4)。
[0092]
s35、得到的权重向量中各系数存在着较大的范围差异,且系数可能出现为负的情况。这使得在决策分类过程中每种聚类算法的优先级不能够很好地展现。为解决上述问题,需对权重系数向量θ进行归一化处理:
[0093][0094]
式中:w是归一化权重系数值;θ是权重系数值。
[0095]
通过式(5)对权重系数向量θ进行归一化处理后,得到归一化权重系数向量,记为w=(w1,w2,w3,w4)。
[0096]
s4、根据每种聚类算法的权重系数进行决策分类的综合计算,实现对电力客户数据的分类。
[0097]
具体的,根据每种聚类算法的权重系数进行决策分类的综合计算,将计算结果超过阈值的样本点进行分类,计算公式如下:
[0098][0099]
式中:εr()是一个判断函数,若括号内的值等r,则εr=1,否则,εr=0;c是每个样本对应每种聚类算法的伪标签值;r是数据集的真实类别数;α是决策阈值。
[0100]
进行决策分类后,可能会出现仍未被分类的数据点。剩余数据的分类策略为:通过knn分类方法对剩余数据点进行分类。本发明中基于多种聚类算法和多元线性回归的电力客户聚类方法(multi-category active learning algorithm based on multiple clustering algorithms and multivariate linear regression algorithm,alcl)中knn分类方法使用的训练集包含通过决策分类方法得到的分类数据。这些数据点的类别标签并不一定是这些数据点的真实标签。但是通过对α大小的设置,可以增加这些分类数据的可信度。通过这种处理方式,可以尽可能增加knn分类过程中训练集的大小,进而提高knn分类方法的准确率,同时可以减少与专家进行交互时所花费的代价,最终实现电力客户大数据的精确识别聚类。
[0101]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0102]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。
对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种基于多种聚类算法和多元线性回归的电力客户聚类方法,其特征在于,所述方法包括以下步骤:(1)通过多种聚类算法对电力客户数据集进行预分类;(2)根据预分类结果对电力客户数据集中的电力客户数据进行关键实例选取;(3)以关键实例为基础建立多元线性回归模型,并构建用于求解每种聚类算法权重系数的目标求解函数,求解目标函数获得每种聚类算法的权重系数;(4)根据每种聚类算法的权重系数进行决策分类的综合计算,实现对电力客户数据的分类。2.根据权利要求1所述的基于多种聚类算法和多元线性回归的电力客户聚类方法,其特征在于,步骤(1)中所述多种聚类算法包括k-means、dpca、模糊c均值聚类算法和层次聚类算法。3.根据权利要求1所述的基于多种聚类算法和多元线性回归的电力客户聚类方法,其特征在于,步骤(1)中通过多种聚类算法对电力客户数据集进行预分类,具体包括以下步骤:s11、每种聚类算法根据自身的聚类原则,对电力客户数据集进行无类别划分的聚类操作,将电力客户数据集划分成预先设定好的簇数;s12、以其中任意一种聚类算法为基础,将该聚类算法聚成的簇数同其余几种聚类算法聚成的簇数进行一一查询比较,根据交集个数最多被分为一类的原则,依次对每种聚类算法的簇数进行分类;s13、将每类结果的前几个数据点与专家进行交互获得其真实类别,将这几个数据点中类别相同个数最多的类别标记上伪标签。4.根据权利要求3所述的基于多种聚类算法和多元线性回归的电力客户聚类方法,其特征在于,步骤s13中,已被标记了伪标签的类别不再计算其类别个数。5.根据权利要求1所述的基于多种聚类算法和多元线性回归的电力客户聚类方法,其特征在于,步骤(2)中对电力客户数据集中的电力客户数据进行关键实例选取,具体包括:s21、定义电力客户数据的局部密度:式中:x表示所选取的电力客户数据点的向量形式,x
i
表示局部密度更高的数据点的向量形式,d
c
表示截止距离;dist表示两个数据之间的欧氏距离;χ()为一个判断函数,若括号内的值小于0,则χ=1;若括号内的值大于等于0,则χ=0;s22、定义电力客户数据点与局部密度更高的数据点的最小距离:s23、根据局部密度及最小距离计算电力客户数据的优先级:p=δ
×
ρs24、获取优先级最大的电力客户数据,将优先级最大的电力客户数据循环计算k次,获取k个数据即为电力客户数据中的关键实例,所述循环计算公式为
式中x
train
为训练集,x
used
为当前已被得到的离x
max
最近的电力客户数据点。6.根据权利要求1所述的基于多种聚类算法和多元线性回归的电力客户聚类方法,其特征在于,所述步骤(3)具体包括:s31、根据选取的关键实例结合多元线性回归模型建立数据标签值的计算函数,并计算数据标签值,所述数据标签值的计算函数为式中,是每个关键实例的预测标签值向量,n
key
是关键实例的个数;θ=(θ1,θ2,θ3,θ4)是四种算法的权重系数向量;c
label
是包含每个聚类算法伪标签的关键实例矩阵;每个关键实例对应每种聚类算法的伪标签值向量;b是常数项系数向量;s32、根据数据标签值构建用于求解权重系数向量θ的目标函数,即:式中:h
i
是每个关键实例的预测标签值;y
i
是真实标签值。s33、对目标函数进行最小二乘变形求导获取用于求解每种聚类算法权重系数的目标求解函数:其中,y代表一个真实标签向量;s34、通过对目标求解函数进行求解后,得到权重系数向量θ=(θ1,θ2,θ3,θ4)。7.根据权利要求6所述的基于多种聚类算法和多元线性回归的电力客户聚类方法,其特征在于,还包括:步骤s35、对权重系数向量θ进行归一化处理,获取归一化权重系数向量。8.根据权利要求1所述的基于多种聚类算法和多元线性回归的电力客户聚类方法,其特征在于,所述步骤(4)具体包括:根据每种聚类算法的权重系数进行决策分类的综合计算,将计算结果超过阈值的样本点进行分类,计算公式如下:式中:ε
r
()是一个判断函数,若括号内的值等r,则ε
r
=1,否则,ε
r
=0;c是每个样本对应每种聚类算法的伪标签值;r是数据集的真实类别数;α是决策阈值。9.根据权利要求1所述的基于多种聚类算法和多元线性回归的电力客户聚类方法,其特征在于,所述步骤(4)还包括对进行决策分类后仍未被分类的数据点,通过knn分类方法
进行进一步分类。
技术总结
本发明公开了一种基于多种聚类算法和多元线性回归的电力客户聚类方法,包括:通过多种聚类算法对电力客户数据集进行预分类;根据预分类结果对电力客户数据集中的电力客户数据进行关键实例选取;以关键实例为基础建立多元线性回归模型,并构建用于求解每种聚类算法权重系数的目标求解函数,求解目标函数获得每种聚类算法的权重系数;根据每种聚类算法的权重系数进行决策分类的综合计算,实现对电力客户数据的分类。本发明通过算法间的聚类与交互,弥补了单一聚类算法对电力客户分类的局限性,有效提升了电力客户类型的识别精度,更准确的挖掘出有价值的客户信息。确的挖掘出有价值的客户信息。确的挖掘出有价值的客户信息。
技术研发人员:伍福平 李科 杨德祥 蔺海明 黄耀
受保护的技术使用者:国网重庆市电力公司市南供电分公司
技术研发日:2021.11.26
技术公布日:2022/3/8