1.本发明涉及金融科技领域,尤其涉及用户聚类方法、装置、终端设备以及存储介质。
背景技术:
2.随着金融业的快速发展,人们的金融消费观念和消费行为发生了转变,不同层次的客户有着不同的金融需求,因此银行需要科学、准确地把握不同客户的特点,对客户进行分类,从而对不同类型的客户采用差异化经营手段,才能满足客户多样性的金融需求。
3.现有的信贷用户划分方法,主要是根据业务阶段对用户进行类别划分,例如曾借款当前有余额客户、曾借款当前无余额客户、未借款客户等。目前也有根据用户的借还行为信息进行聚类的划分方法,主要是基于向量的kmeans聚类(k-means clustering algorithm,k均值聚类算法)、层次聚类等方法,通过构造多个变量组成一维向量,然后比较向量之间的距离来进行聚类,但信贷数据往往为流水级信息,将用户每天的借还行为通过变量构造来表示会存在一定的信息损耗,导致分类结果不准确,因此可以考虑采用构造曲线的方法来表示,但现有的曲线相似度构造方法,往往只能衡量曲线节点距离的绝对值信息而忽略曲线趋势相关信息,从而也会影响对用户进行分类的结果的准确性。
4.因此,有必要提出一种提高用户分类结果准确性的解决方案。
技术实现要素:
5.本发明的主要目的在于提供一种用户聚类方法、装置、终端设备以及存储介质,旨在提高用户分类结果的准确性。
6.为实现上述目的,本发明提供一种用户聚类方法,所述用户聚类方法包括:
7.获取用户信息;
8.根据所述用户信息构造用户分布曲线;
9.计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类。
10.可选地,所述计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类的步骤之前还包括:
11.将各所述用户分布曲线随机分配到若干个非空的簇中;
12.计算各所述簇的类别众数,并以各所述类别众数代表相应的簇,以通过各所述簇对所述用户进行分类。
13.可选地,所述计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类的步骤包括:
14.计算各所述用户分布曲线与各所述簇中的分布曲线的斜率相似度;
15.计算各所述斜率相似度的均值;
16.将各所述用户分布曲线分配至各所述均值中最小的均值对应的簇;
17.计算各重新分配后的簇的新的类别众数,并以各所述新的类别众数代表相应的所述重新分配后的簇;
18.计算各所述用户分布曲线所属的簇的变化比例;
19.根据所述变化比例判断是否将各所述用户分布曲线所属的各簇作为所述用户的分类。
20.可选地,所述根据所述变化比例判断是否将各所述用户分布曲线所属的各簇作为所述用户的分类的步骤包括:
21.判断所述变化比例是否小于预设阈值;
22.若所述变化比例未小于所述预设阈值,则不将各所述用户分布曲线所属的各簇作为所述用户的分类,并返回执行步骤:计算各所述用户分布曲线与各所述簇中的分布曲线的斜率相似度;
23.若所述变化比例小于所述预设阈值,则将各所述用户分布曲线对应的各簇作为所述用户的分类。
24.可选地,所述计算各所述用户分布曲线与各所述簇中的分布曲线的斜率相似度的步骤包括:
25.在各所述用户分布曲线与各所述簇中的分布曲线上,各选取若干个抽样点;
26.计算各所述抽样点的斜率,并构造斜率序列;
27.计算各所述斜率序列之间的误差平方和的均值,并将所述误差平方和的均值作为所述斜率序列对应的用户分布曲线之间的斜率相似度。
28.可选地,所述获取的用户信息包括用户的借款时间信息以及借款余额信息。
29.可选地,所述根据所述用户信息构造用户分布曲线的步骤包括:
30.选取所述用户在各预设时间点对应的所述用户信息作为预设点;
31.将各所述预设点进行连接,构造所述用户分布曲线。
32.此外,为实现上述目的,本发明还提供一种用户聚类装置,所述用户聚类装置包括:
33.获取模块,用于获取用户信息;
34.构造模块,用于根据所述用户信息构造用户分布曲线;
35.分类模块,用于计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类。
36.此外,为实现上述目的,本发明还提供一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用户聚类程序,所述用户聚类程序被所述处理器执行时实现如上所述的用户聚类方法的步骤。
37.此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有用户聚类程序,所述用户聚类程序被处理器执行时实现如上所述的用户聚类方法的步骤。
38.本发明实施例提出的一种用户聚类方法、装置、终端设备以及存储介质,通过获取用户信息;根据所述用户信息构造用户分布曲线;计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类。通过构造用户分布曲线,可以对用户信息进行更全面的统计分析,减少信息损耗;通过计算各所述用户分布曲
线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类,可以利用曲线趋势信息判断用户分布曲线的相似程度,使用户分类的结果更加准确。
附图说明
39.图1为现有技术中一种计算曲线距离方法的原理示意图;
40.图2为现有技术中一种计算曲线距离的示例示意图;
41.图3为本发明用户聚类装置所属终端设备的功能模块示意图;
42.图4为本发明用户聚类方法一示例性实施例的流程示意图;
43.图5为本发明实施例中根据所述用户信息构造的用户分布曲线示意图;
44.图6为本发明实施例中计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类的细化流程示意图。
45.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
46.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
47.本发明实施例的主要解决方案是:通过获取用户信息;根据所述用户信息构造用户分布曲线;计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类。通过构造用户分布曲线,可以对用户信息进行更全面的统计分析,减少信息损耗;通过计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类,可以利用曲线趋势信息判断用户分布曲线的相似程度,使用户分类的结果更加准确。
48.本发明实施例涉及的技术术语:
49.聚类:一种无监督的机器学习方法,通过评估总体中个体间的相似程度,将总体划分为多个类别。在实际应用中会针对相同类别的客户,采用相似的干预手段。
50.kmeans聚类(k-means clustering algorithm,k均值聚类算法):将各节点最近的k个节点的类别信息的众数赋给该节点,并通过多次迭代确定所有节点的类别信息的方法。其中两两节点距离的刻画方法为:欧式距离、余弦距离等距离函数。
51.sim’(curve similarity,曲线相似度函数):评估曲线之间相似程度的函数。其取值可以代表曲线之间的相似程度。
52.hausdorff距离(hausdorff distance,豪斯多夫距离):是在度量空间中任意两个集合之间定义的一种距离,可用于衡量曲线之间的距离。
53.由于现有技术中对信贷用户进行划分的方法主要是通过构造多个变量组成一维向量,然后比较向量之间的距离来进行聚类。这里的聚类方式主要是基于向量的kmeans聚类、层次聚类等方法,而本发明考虑到信贷数据往往为流水级信息,用户每天的借还行为通过变量构造来表示会存在一定的信息损耗,因此通过构造用户分布曲线来全面展示用户信息。
54.构造用户分布曲线后,可以根据各用户分布曲线的相似度对用户进行分类,现有的曲线相似度的构造方法,应用最广泛的是hausdorff距离,参照图1,图1为现有技术中一种计算曲线距离方法的原理示意图,如图1所示,计算曲线a与曲线b之间的距离,先随机抽
取曲线a上的点,计算该点到曲线b的距离的最小值,再计算所有抽样点距离的最大值,即为hausdorff距离,该距离的计算公式为:
55.dh(li,lj)=max(h(li,lj),h(lj,li))
56.其中,dist(a,b)为点a与点b之间的欧式距离。
57.但上述方法会忽略到曲线的形状特征,参照图2,图2为现有技术中一种计算曲线距离的示例示意图,如图2所示,采用hausdorff距离计算得到的曲线a与曲线c的会更加接近,但从实际曲线形状来看曲线a与曲线b的相似程度更高,因此该方法往往只能衡量曲线节点距离的绝对值信息而忽略曲线趋势相关信息,
58.本发明提供一种解决方案,通过在曲线上设定抽样点,计算抽样点的斜率,并构造斜率序列,若通过平移使得两条曲线的斜率比较接近,那么我们认为两曲线之间的相似度更高,即基于时序平移的曲线相似度评估方法。为了使得计算结果更为准确,本发明还考虑了考察的斜率列表长度,针对不同长度的斜率列表使得两曲线的斜率误差平方和的均值尽可能小,从而达到降低计算误差的的目的,提高用户分类结果的准确性。
59.具体地,参照图3,图3为本发明用户聚类装置所属终端设备的功能模块示意图。该用户聚类装置可以为独立于终端设备的、能够进行用户聚类的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定终端设备或服务器等。
60.在本实施例中,该用户聚类装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
61.存储器130中存储有操作系统以及用户聚类程序,用户聚类装置可以将获取的用户信息、根据所述用户信息构造的用户分布曲线、计算的各所述用户分布曲线之间的斜率相似度以及并根据各所述用户分布曲线之间的斜率相似度对用户进行的分类等信息存储于该存储器130中;输出模块110可为显示屏等。通信模块140可以包括wifi模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
62.其中,存储器130中的用户聚类程序被处理器执行时实现以下步骤:
63.获取用户信息;
64.根据所述用户信息构造用户分布曲线;
65.计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类。
66.进一步地,存储器130中的用户聚类程序被处理器执行时还实现以下步骤:
67.将各所述用户分布曲线随机分配到若干个非空的簇中;
68.计算各所述簇的类别众数,并以各所述类别众数代表相应的簇,以通过各所述簇对所述用户进行分类。
69.进一步地,存储器130中的用户聚类程序被处理器执行时还实现以下步骤:
70.计算各所述用户分布曲线与各所述簇中的分布曲线的斜率相似度;
71.计算各所述斜率相似度的均值;
72.将各所述用户分布曲线分配至各所述均值中最小的均值对应的簇;
73.计算各重新分配后的簇的新的类别众数,并以各所述新的类别众数代表相应的所述重新分配后的簇;
74.计算各所述用户分布曲线所属的簇的变化比例;
75.根据所述变化比例判断是否将各所述用户分布曲线所属的各簇作为所述用户的分类。
76.进一步地,存储器130中的用户聚类程序被处理器执行时还实现以下步骤:
77.判断所述变化比例是否小于预设阈值;
78.若所述变化比例未小于所述预设阈值,则不将各所述用户分布曲线所属的各簇作为所述用户的分类,并返回执行步骤:计算各所述用户分布曲线与各所述簇中的分布曲线的斜率相似度;
79.若所述变化比例小于所述预设阈值,则将各所述用户分布曲线对应的各簇作为所述用户的分类。
80.进一步地,存储器130中的用户聚类程序被处理器执行时还实现以下步骤:
81.在各所述用户分布曲线与各所述簇中的分布曲线上,各选取若干个抽样点;
82.计算各所述抽样点的斜率,并构造斜率序列;
83.计算各所述斜率序列之间的误差平方和的均值,并将所述误差平方和的均值作为所述斜率序列对应的用户分布曲线之间的斜率相似度。
84.进一步地,存储器130中的用户聚类程序被处理器执行时还实现以下步骤:
85.选取所述用户在各预设时间点对应的所述用户信息作为预设点;
86.将各所述预设点进行连接,构造所述用户分布曲线。
87.本实施例通过上述方案,具体通过获取用户信息;根据所述用户信息构造用户分布曲线;计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类。通过构造用户分布曲线,可以对用户信息进行更全面的统计分析,减少信息损耗;通过计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类,可以利用曲线趋势信息判断用户分布曲线的相似程度,使用户分类的结果更加准确。
88.基于上述终端设备架构但不限于上述架构,提出本发明方法实施例。
89.本实施例方法的执行主体可以为一种用户聚类装置或终端设备等,本实施例以用户聚类装置进行举例。
90.参照图4,图4为本发明用户聚类方法一示例性实施例的流程示意图。所述用户聚类方法包括:
91.步骤s10,获取用户信息;
92.在银行用户开户后,其借款余额会随着时间推移发生一定变化。此时可根据用户的信贷数据的流水信息对用户进行分类,从而对不同类型的客户采用差异化经营手段。可以直接通过银行内部系统调取用户信息,所述获取的用户信息包括用户的借款时间信息以及借款余额信息等。
93.步骤s20,根据所述用户信息构造用户分布曲线;
94.选取所述用户在各预设时间点对应的所述用户信息作为预设点;
95.将各所述预设点进行连接,构造所述用户分布曲线。
96.参照图5,图5为本发明实施例中根据所述用户信息构造的用户分布曲线示意图,如图5所示,所述用户分布曲线的横坐标为用户的借款时间,纵坐标为用户的借款余额信息,本发明实施例中选取的时间间隔为30天,统计每隔30天用户的借款余额信息构成用户分布曲线。
97.步骤s30,计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类。
98.根据用户信息构造出用户分布曲线后,可以根据用户曲线的相似度对用户进行聚类分析,在本发明实施例中,提出采用曲线的斜率相似度对用户进行聚类。
99.具体地,可以先将所有用户的分布曲线随机分配到k个非空的簇中,簇是由聚类所生成的一组样本的集合。同一簇内样本彼此相似,与其他簇中的样本相异。然后计算每个簇的类别众数,并用该众数的类别代表相应的簇,所述类别可以是根据用户借款余额将用户分为循环借款用户和流失用户等,也可以将用户进行其他类别的分类,例如根据用户购买理财产品的信息对用户的购买倾向及购买能力进行分类。
100.进一步地,得到各用户分布曲线所在的簇的类别之后,可以通过计算每个用户分布曲线与各个簇中曲线的斜率相似度的均值,将该用户分布曲线分配给最接近的簇。然后计算重新分配后的各簇的类别众数,并用新的类别众数代表各相应的簇。
101.重复执行上述根据斜率相似度将用户分布曲线进行分簇并用类别众数表示各簇的过程,直到满足所有分布曲线的类别变化比例小于某个特定阈值,则可将各所述用户分布曲线所属的各簇作为所述用户的分类。
102.在本实施例中,通过获取用户信息;根据所述用户信息构造用户分布曲线;计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类。通过构造用户分布曲线,可以对用户信息进行更全面的统计分析,减少信息损耗;通过计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类,可以利用曲线趋势信息判断用户分布曲线的相似程度,使用户分类的结果更加准确。
103.参照图6,图6为本发明实施例中计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类的细化流程示意图。本实施例基于上述图4所示的实施例,在本实施例中,上述步骤s30,计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分的步骤包括:
104.步骤s301,计算各所述用户分布曲线与各所述簇中的分布曲线的斜率相似度;
105.具体地,先在各所述用户分布曲线与各所述簇中的分布曲线上,各选取k个抽样点,其中,k为大于或等于1的正整数。
106.计算各所述抽样点的斜率,并构造斜率序列;
107.斜率也可以称作角系数,可以反映出用户分布曲线形状的角度,曲线上点的斜率的计算方法包括:先求出曲线对应的函数的导函数,再把曲线上该点的横坐标代入导函数关系式,得到的函数值就是曲线上这一点的斜率。另一种方法是过曲线上的抽样点做一条切线,求切线的斜率,切线的斜率就是曲线在该抽样点的斜率。计算出各抽样点所在位置处曲线的斜率后,将各抽样点的斜率构造为斜率序列{k1,k2,
…
,kn}。
108.计算各所述斜率序列之间的误差平方和的均值,并将所述误差平方和的均值作为
所述斜率序列对应的用户分布曲线之间的斜率相似度;
109.误差平方和又称残差平方和、组内平方和等,可以用于检验样本之间的差异性,通过计算误差平方和的均值,可以使对用户分布曲线之间的相似性判断更加准确。构造出各用户分布曲线对应的斜率序列后,计算各斜率序列之间的误差平方和的均值,所述误差平方和的均值即可作为斜率序列对应的用户分布曲线之间的斜率相似度。
110.具体地,基于时序平移的曲线距离评估方法对斜率相似度进行计算,平移长度设置为li,其中li={l1,l2,l3,
…
,lm},计算方法为:
111.其中,n为斜率序列的长度,m为相邻的抽样点个数。
112.步骤s302,计算各所述斜率相似度的均值;
113.将计算出的各斜率相似度进行均值计算,可以采用算术平均值、几何平均值、平方平均值、调和平均值,以及加权平均值,在本发明实施例中,计算的是各斜率相似度的算术平均值。
114.步骤s303,将各所述用户分布曲线分配至各所述均值中最小的均值对应的簇;
115.在计算出用户分布曲线与各簇中分布曲线的斜率相似度的均值后,选取均值最小的簇,将该用户分布曲线分配至对应的均值最小的簇中,从而实现对各簇的分布曲线进行重新分配。
116.步骤s304,计算各重新分配后的簇的新的类别众数,并以各所述新的类别众数代表相应的所述重新分配后的簇;
117.将重新分配后的簇中各分布曲线的类别进行统计分析,计算出各簇中各个用户分布曲线的类别的众数,选取各类别众数代表相应的重新分配后的簇。
118.步骤s305,计算各所述用户分布曲线所属的簇的变化比例;
119.百分比变化是用来描述旧的数值或数量与新的数值或数量之间关系的概念,百分比变化值专门用来将新值与旧值之间的差值表述成旧值百分比的形式。例如v1代表旧值或初始值,v2代表新值或现值。通过等式((v
2-v1)/v1)
×
100表示百分比变化。对各用户分布曲线重新分配后的簇的类别与分配前的簇的类别变化的比例进行计算,可以得到每一次重新分簇之后用户分布曲线所属的簇的变化程度,即用户分布曲线的类别的变化程度,当用户分布曲线的类别变化程度小于预设阈值时,即可认为用户的分类几乎不再发生变化,则用户分类完成。
120.步骤s306,根据所述变化比例判断是否将各所述用户分布曲线所属的各簇作为所述用户的分类。
121.判断所述变化比例是否小于预设阈值;
122.计算出各用户分布曲线所属的簇的变化比例后,将得到的变化比例与预设阈值进行比较,判断是否小于预设阈值。在本发明实施例中,所述变化比例的预设阈值为1%。
123.若所述变化比例未小于所述预设阈值,则不将各所述用户分布曲线所属的各簇作为所述用户的分类,并返回执行步骤:计算各所述用户分布曲线与各所述簇中的分布曲线的斜率相似度;
124.如果用户分布曲线所属的簇的类别变化比例大于或等于1%,则说明重新分配后各用户分布曲线所属的簇的变化程度较大,分类结果不够准确,则需继续对各用户分布曲线进行重新分配,返回执行步骤s301至步骤s306,直到满足所有用户分布曲线所属簇的类别变化比例小于1%。
125.若所述变化比例小于所述预设阈值,则将各所述用户分布曲线对应的各簇作为所述用户的分类。
126.如果用户分布曲线所属的簇的类别变化比例小于1%,说明各用户分布曲线所属的簇基本固定,变化程度极小可以忽略不计,则各用户分布曲线所属簇的类别即为相应的各用户的类别,且用户分类结果更为准确。
127.此外,本发明实施例提出的基于曲线相似度聚类的方法也可以应用于其他领域,例如对用户一段时间内的兴趣特征进行分类等。
128.本实施例通过上述方案,具体通过计算每个用户分布曲线与各个簇中曲线的斜率相似度的均值,将该用户分布曲线分配给最接近的簇。然后计算重新分配后的各簇的类别众数,并用新的类别众数代表各相应的簇。重复执行根据斜率相似度将用户分布曲线进行分簇并用类别众数表示各簇的过程,直到满足所有分布曲线的类别变化比例小于某个特定阈值,则可将各用户分布曲线所属的各簇作为用户的分类。通过对曲线的斜率相似度进行计算可以根据曲线的趋势对曲线进行聚类,进而对用户进行分类,提高用户分类结果的准确性,基于曲线相似度进行聚类的方法也适用于其他领域,为其他领域的聚类方法提供有效参考。
129.此外,本发明实施例还提出一种用户聚类装置,所述用户聚类装置包括:
130.获取模块,用于获取用户信息;
131.构造模块,用于根据所述用户信息构造用户分布曲线;
132.分类模块,用于计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类。
133.通过获取模块从银行系统中获取用户在一段时间内的信贷信息,再通过构造模块根据获取的用户信息构造用户分布曲线,然后通过分类模块先计算各用户分布曲线之间的斜率相似度,并根据用户分布曲线之间的斜率相似度对用户进行分类。其中,用户分布曲线的斜率相似度的计算过程中,可以先从曲线上设定抽样点,再计算抽样点的斜率,并构造斜率序列,基于时序平移的曲线距离评估方法,经过多次试验设置平移长度为li,其中li={l1,l2,l3…
,lm}。主要思路是若通过平移使得两条曲线的斜率比较接近,那么我们认为两曲线之间的距离更小。为了使得计算结果更为准确,本算法还考虑了考察的斜率列表长度,针对不同长度的斜率列表使得两曲线的斜率误差平方和的均值尽可能小,从而达到降低计算误差的的目的。
134.具体地,对用户进行聚类的算法如下:
135.(1)将所有客户的分布曲线随机分配到k个非空的簇中。
136.具体地,先将所有用户的分布曲线随机分配到k个非空的簇中,簇是由聚类所生成的一组样本的集合。同一簇内样本彼此相似,与其他簇中的样本相异。
137.(2)计算每个簇的类别众数,并用该众数代表相应的簇。
138.然后计算每个簇的类别众数,并用该众数的类别代表相应的簇,所述类别可以是
根据用户借款余额将用户分为循环借款用户和流失用户等,也可以将用户进行其他类别的分类,例如根据用户购买理财产品的信息对用户的购买倾向及购买能力进行分类。
139.(3)计算每个分布曲线与各个簇中曲线的sim’相似度均值,将该分布曲线分配给最近的簇。
140.进一步地,得到各用户分布曲线所在的簇的类别之后,可以通过计算每个用户分布曲线与各个簇中曲线的斜率相似度的均值,将该用户分布曲线分配给最接近的簇。然后计算重新分配后的各簇的类别众数,并用新的类别众数代表各相应的簇。
141.(4)然后转(2)。这个过程不断重复直到满足所有分布曲线的类别变化比例小于某个特定阈值。
142.重复执行上述根据斜率相似度将用户分布曲线进行分簇并用类别众数表示各簇的过程,直到满足所有分布曲线的类别变化比例小于某个特定阈值,则可将各所述用户分布曲线所属的各簇作为所述用户的分类。
143.本实施例通过上述方案,具体通过获取用户在一段时间内的信贷信息,再通过构造模块根据获取的用户信息构造用户分布曲线,然后通过分类模块先计算各用户分布曲线之间的斜率相似度,并根据用户分布曲线之间的斜率相似度对用户进行分类。通过构造用户的分布曲线对用户进行聚类,而非向量聚类,有效利用用户的流水信息,降低用户信息的损耗,并提出基于曲线斜率相似度聚类的方法,根据曲线的趋势信息对曲线进行聚类,可以从曲线形状的角度评估两曲线之间的相似程度,避免了传统曲线聚类方法只能衡量曲线节点距离的绝对值信息而忽略曲线趋势相关信息的问题,提高了分类结果的准确性。
144.此外,本发明实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用户聚类程序,所述用户聚类程序被所述处理器执行时实现如上所述的用户聚类方法的步骤。
145.由于本用户聚类程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
146.此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有用户聚类程序,所述用户聚类程序被处理器执行时实现如上所述的用户聚类方法的步骤。
147.由于本用户聚类程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
148.相比现有技术,本发明实施例提出的用户聚类方法、装置、终端设备以及存储介质,通过获取用户信息;根据所述用户信息构造用户分布曲线;计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类。通过构造用户的分布曲线对用户进行聚类,而非向量聚类,有效利用用户的流水信息,可以对用户信息进行更全面的统计分析,降低用户信息的损耗;并提出基于曲线斜率相似度聚类的方法,根据曲线的趋势信息对曲线进行聚类,可以从曲线形状的角度评估两曲线之间的相似程度,避免了传统曲线聚类方法只能衡量曲线节点距离的绝对值信息而忽略曲线趋势相关信息的问题,提高了分类结果的准确性。
149.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
150.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
151.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本技术每个实施例的方法。
152.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
技术特征:
1.一种用户聚类方法,其特征在于,所述用户聚类方法包括以下步骤:获取用户信息;根据所述用户信息构造用户分布曲线;计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类。2.如权利要求1所述的用户聚类方法,其特征在于,所述计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类的步骤之前还包括:将各所述用户分布曲线随机分配到若干个非空的簇中;计算各所述簇的类别众数,并以各所述类别众数代表相应的簇,以通过各所述簇对所述用户进行分类。3.如权利要求2所述的用户聚类方法,其特征在于,所述计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类的步骤包括:计算各所述用户分布曲线与各所述簇中的分布曲线的斜率相似度;计算各所述斜率相似度的均值;将各所述用户分布曲线分配至各所述均值中最小的均值对应的簇;计算各重新分配后的簇的新的类别众数,并以各所述新的类别众数代表相应的所述重新分配后的簇;计算各所述用户分布曲线所属的簇的变化比例;根据所述变化比例判断是否将各所述用户分布曲线所属的各簇作为所述用户的分类。4.如权利要求3所述的用户聚类方法,其特征在于,所述根据所述变化比例判断是否将各所述用户分布曲线所属的各簇作为所述用户的分类的步骤包括:判断所述变化比例是否小于预设阈值;若所述变化比例未小于所述预设阈值,则不将各所述用户分布曲线所属的各簇作为所述用户的分类,并返回执行步骤:计算各所述用户分布曲线与各所述簇中的分布曲线的斜率相似度;若所述变化比例小于所述预设阈值,则将各所述用户分布曲线对应的各簇作为所述用户的分类。5.如权利要求3所述的用户聚类方法,其特征在于,所述计算各所述用户分布曲线与各所述簇中的分布曲线的斜率相似度的步骤包括:在各所述用户分布曲线与各所述簇中的分布曲线上,各选取若干个抽样点;计算各所述抽样点的斜率,并构造斜率序列;计算各所述斜率序列之间的误差平方和的均值,并将所述误差平方和的均值作为所述斜率序列对应的用户分布曲线之间的斜率相似度。6.如权利要求1所述的用户聚类方法,其特征在于,所述获取的用户信息包括用户的借款时间信息以及借款余额信息。7.如权利要求1所述的用户聚类方法,其特征在于,所述根据所述用户信息构造用户分布曲线的步骤包括:
选取所述用户在各预设时间点对应的所述用户信息作为预设点;将各所述预设点进行连接,构造所述用户分布曲线。8.一种用户聚类装置,其特征在于,所述用户聚类装置包括:获取模块,用于获取用户信息;构造模块,用于根据所述用户信息构造用户分布曲线;分类模块,用于计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类。9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的用户聚类程序,所述用户聚类程序被所述处理器执行时实现如权利要求1-7中任一项所述的用户聚类方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有用户聚类程序,所述用户聚类程序被处理器执行时实现如权利要求1-7中任一项所述的用户聚类方法的步骤。
技术总结
本发明公开了一种用户聚类方法、装置、终端设备以及存储介质,通过获取用户信息;根据所述用户信息构造用户分布曲线;计算各所述用户分布曲线之间的斜率相似度,并根据各所述用户分布曲线之间的斜率相似度对用户进行分类。本发明提高了用户分类结果的准确性。本发明提高了用户分类结果的准确性。本发明提高了用户分类结果的准确性。
技术研发人员:要卓 陈婷 吴三平 庄伟亮
受保护的技术使用者:深圳前海微众银行股份有限公司
技术研发日:2021.12.10
技术公布日:2022/3/8