一种基于层次化图卷积神经网络模型的案源线索分类处理方法

1.本发明涉及案源线索分类及图学习领域，特别是涉及包含分层图卷积网络和稀疏图集成的层次图卷积网络框架。

背景技术：

2.案源线索管理是工商行政执法办案的初始环节。案件监督管理部门对问题线索实行集中管理、动态更新、定期汇总核对，提出分办意见，报纪检机关主要负责人批准，按程序移送承办部门。加强对案源线索管理的智能化建设，可以有效的提升工商行政部门执法效率，从一定程度上避免执法过程中差错的出现，推进社会治理能力的智能化和现代化建设。
3.随着案源线索的数量激增，给现有传统的人工案源线索分派处理方法带来了很大压力。在高强度的工作压力下，会出现倦怠的现象，甚至会出现随意分派案源的现象，无法保证案源线索分派的准确率，会给进一步的案件调查办理造成不必要的麻烦。因此，基于深度学习的方法能够辅助线索分类，这有效地优化人工分类方法存在的弊端，减轻人工分类的压力，推进社会治理能力现代化。
4.案源线索分类本质上来说是一个多分类问题，传统的分类方法，比如朴素贝叶斯等的表达能力还有待提高，分类效果较差，而深度学习的方法，特别是图学习模型，在分类问题上表现了优越的性能。但图学习模型本身还存在一些问题。
5.近年来，传统上为了对图数据进行分析从而进行分类，会使用图嵌入以及图表示方法去自动学习图的低维特征表示，这种方法也能够最大限度地保持网络结构，同时，深度卷积神经网络的高级特征表示已经被证明优于低级特征。然而，图卷积神经网络主要关注输入的图数据，而不是图的结构。在对图数据进行分类的过程中，往往会存在着许多无用的噪声，尽管可以使用深度gcn去学习的图的特征，但是图中的噪声也会被学习到网络中去，同时还要面临gcn学习的深度限制。此外，图数据的分类也面临着数据集有限的问题，这就会限制分类器的性能，从而降低分类器的泛化能力。

技术实现要素：

6.针对上述问题，本发明提供一种基于层次化图卷积神经网络模型的案源线索分类处理方法。本发明能有效的结合图的节点及结构特征，同时能够学习到图与图之间的内在联系，并有效地去除图数据中的噪声，提高了模型的泛化能力。
7.本发明提供一种基于层次化图卷积神经网络模型的案源线索分类处理方法，包括：
8.步骤一：对案源数据集进行预处理，将案源线索文本数据转化为包含文本逻辑关系的图数据；
9.步骤二：多阈值稀疏图的构建，利用不同阈值分割步骤一中转化后的图数据，构造不同级别的稀疏图；
10.步骤三：针对步骤二中得出的稀疏图，使用层次图卷积网络模型hi-gcn学习图的拓扑结构以及图与图之间的关联关系；
11.步骤四：使用不同阈值的图，构建多个hi-gcn模型，得到对应不同阈值的结果最后通过集成分类器形成最终的案源分类结果。
12.进一步地，步骤一所述的数据集预处理，具体为将案源线索文本数据转换为图数据。利用glove将文本词汇进行编码，转换为图中节点，计算节点之家的相似度构造图中的边。
13.进一步地，步骤二所述的多阈值稀疏图构建，具体为将原始的图数据对其边设置[5％,50％]区间内的多个阈值，从原始图数据中得到不同稀疏程度的稀疏图。
[0014]
进一步地，步骤三所述的层次图卷积网络，具体由图级别稀疏图学习模型f-gcn和节点级别稀疏图相关性学习模型p-gcn两部分子网络构成。
[0015]
进一步地，步骤三所述的f-gcn分别通过图聚类方法和图卷积特征学习进行每个稀疏图的图表达学习，将稀疏图信息转化成粗化图后，进行图卷积特征操作学习到一个低维向量。具体为输入的稀疏图设置可学习的权重矩阵，通过对步骤二中得出得稀疏图进行矩阵相乘，融合为维度更低的粗化图，最后通过gcn将粗化图的结果嵌入到低维的向量中表示。
[0016]
进一步地，所述的p-gcn具体步骤为基于不同图数据在同一阈值下的稀疏图，利用图核结构匹配方法进行稀疏图之间的相关性计算，再将f-gcn得出的低维图特征表达看做关联图的点，构造出一个关联图，并基于关联图进行gcn特征学习，将结果放入全连接网络中得出一个阈值下的分类结果。
[0017]
进一步地，步骤四所述集成分类器，具体为将每个阈值下将步骤三计算得出的结果分别放入全连接网络中以计算出单个阈值下的预测结果，最后针对多个阈值的分类结果进行投票，得出最终的分类结果。
[0018]
进一步地，步骤三中f-gcn的图聚类方法是根据各个点的重要性加权形成的粗化图保留哪些点，边是由新点之间所有的边通过重要性加权数值乘以原始边的权重最后相加得到。
[0019]
进一步地，步骤三中p-gcn的构造新图的方法为将f-gcn的图表示转换为节点特征，之后计算点与点之间的结构相似性来构造边，而从得到关联图。
[0020]
进一步地，整个框架在训练时采用的是步骤三中f-cgn、p-gcn以及图聚类过程中的交叉熵函数。
[0021]
本发明提供的有益效果是：
[0022]
本发明能有效的降低图数据异构型带来的影响以及去除噪声的同时有效的保留图结构中的重要信息，提高模型的泛化能力及分类性能。
[0023]
本发明能有效的结合图的节点及结构特征，同时你能够学习到图与图之间的内在联系，并有效地去除图数据中的噪声，提高模型的泛化能力。
附图说明
[0024]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明
的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据附图获得其他的附图。
[0025]
图1本发明的业务逻辑示意图；
[0026]
图2为数据预处理示意图；
[0027]
图3为包含分层图卷积网络和集成学习的稀疏图层次化图卷积网络框架的体系结构图。
[0028]
图4为hi-gcn网络的学习过程。
具体实施方式
[0029]
下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的，选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
[0030]
本发明实施例提供一种基于层次化图卷积神经网络模型的案源线索分类处理方法，包括：
[0031]
步骤一：对案源数据集进行预处理，将案源线索文本数据转化为包含文本逻辑关系的图数据；
[0032]
步骤二：多阈值稀疏图的构建，利用不同阈值分割步骤一中转化的图数据，构造不同级别的稀疏图；
[0033]
步骤三：针对步骤二中得出的稀疏图，使用层次图卷积网络学习图的拓扑结构以及图与图之间的关联关系；
[0034]
步骤四：使用不同阈值的图，构建多个hi-gcn模型，得到对应不同阈值的结果最后通过集成分类器形成最终的案源分类结果。
[0035]
如图1所示，具体通过以下步骤实施：
[0036]
1、对输入的文本数据进行预处理，根据glove语料库，将划分后的单词转换为高维的向量表示，构建图数据(如图2所示)。
[0037]
对输入的图数据进行处理，根据图数据的极大值以及阈值区间[5％,50％]，以5％为步长设置不同的阈值得到多种稀疏程度的稀疏图(如图3所示)。
[0038]
更具体的，针对输入图数据的稀疏过程，实际的过程如公式(1)所示：
[0039][0040]
q(ri,rj)表示图中两个节点之间的加权边，为设置的阈值，其中的大小是由图中加权边的极大值确定的，阈值的范围为[5％,50％]，同一个图可设置多个阈值从而产生多个不同的稀疏图，以反映原始连通性网络拓扑结构的不同层次。
[0041]
2、层次图卷积网络hi-gcn(模型如图4所示)。针对每个阈值得出的稀疏图，推导出每个主体的稀疏网络和对应的总体网络。为了更好地研究图数据的多尺度性，也将所有来自其他图同等稀疏程度的稀疏图进行相同的处理，以构建关联矩阵。
[0042]
3、搭建hi-gcn中用于稀疏图表达学习的f-gcn子网络。f-gcn的目的是通过将相似节点分组到一个超级节点中来隐藏噪声连接，从而突出连接超级节点的指示性边缘。换句话说，连接跨不同集群节点的功能连接的权重得到了增强，而集群内的节点及其连接被删除。更具体的，该过程的具体公式如公式(2)所示：
[0043]as
＝f
t
af
ꢀꢀꢀ
(2)
[0044]
其中，a是由步骤一得出的m
×
m的稀疏图，f为m
×
c的学习矩阵，as为c
×
c的对称矩阵。
[0045]
4、搭建hi-gcn中用于构造关联图并进行关联图节点表达学习的p-gcn子网络。p-gcn具体步骤为使用f-gcn得出的不同图数据同一阈值下的稀疏图的低维表示向量进行相关性计算，并将p-gcn的结果嵌入到不同的节点中，通过图内核k：构造出新图，之后再进行gcn计算，将结果放入全连接网络中得出一个阈值下的分类结果。更具体的，该部分具体的过程如公式(3)(4)(5)(6)所示：
[0046][0047][0048][0049][0050]
其中，代表由f-cgn产生的节点的局部拓展，代表两个网络之间在第q个图内核下的实际的欧氏距离，代表第q个图内核与每个稀疏图元素之间的相关性，si(ni，nj)代表两个相同阈值下不同的稀疏图之间的相关性。
[0051]
更具体地，网络训练整体的损失函数由三部分组成：交叉熵损失和一致性正则化损失组成，如公式(6)(7)所示：
[0052]
loss＝l
ce
(wf，w
p
，f)+λ1l
otho
(f)+λ2l
bal
(f)+λ3l
pos
(f)
ꢀꢀꢀ
(8)
[0053]
l
otho
＝||f
t
f-diag(diag(f
t
f))||
ꢀꢀꢀ
(9)l
bal
＝var(diag(f
t
f))
ꢀꢀꢀ
(10)
[0054]
其中，式(8)中l
ce
代表交叉熵损失，wf和w
p
代表f-gcn和p-gcn中的的权重参数f和式(2)相同，l
otho
用于惩罚非对角元素。l
otho
用于稀疏图聚类的平衡正则化。l
bal
是为了保证f中的元素为正数。λ1，λ2，λ3为正则化参数。
[0055]
由于现有的数据集的违法种类较多，同时，存在少数的违法种类内含有的文本数量较少，低于100条，且相近业务的违法种类通常由同一职能部门处理，所以将相近业务的违法种类进行合并，对于违法业务的大类进行分类。同时，经过对数据的观察，违法种类为“其他”的相关数据普遍存在错误分类的情况，考虑是由于人工分类的弊端，使得“其他”类别的分类错误率比较高，在很大程度上影响分类器的训练，所以将“其他”类别原有的文本数据删去，不参与分类器的训练。将其余的一些数据量较少，并且无相近业务的数据合并为新的“其他”类别。经过对业务类别的合并和梳理之后，现有违法业务类别为11类，共93627条有效数据。对模型在该数据集上进行验证分析，表1为本发明所提供的包含多分层图卷积
网络和集成学习的稀疏图层次化图卷积网络框架测试结果对比，在统一数据集上使用相同的参数设置、训练策略，对比结果如表1所示：
[0056]
表1传统gcn等与本专利提出的转移层次图卷积网络集成框架在多种评价指标上的结果比较
[0057][0058]
从表1中的数据可以看出，本发明提出的方法相比传统gcn等模型，综合评价指标acc、auc等有不同程度的提升。
[0059]
显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

技术特征：
1.一种基于层次化图卷积神经网络模型的案源线索分类处理方法，其特征在于，包括：步骤一：对案源数据集进行预处理，将案源线索文本数据转化为包含文本逻辑关系的图数据；步骤二：多阈值稀疏图的构建，利用不同阈值分割步骤一中转化后的图数据，构造不同级别的稀疏图；步骤三：针对步骤二中得出的稀疏图，使用层次图卷积网络模型hi-gcn学习图的拓扑结构以及图与图之间的关联关系；步骤四：使用不同阈值的图，构建多个hi-gcn模型，得到对应不同阈值的结果最后通过集成分类器形成最终的案源分类结果。2.根据权利要求1所述的基于层次化图卷积神经网络模型的案源线索分类处理方法，其特征在于，步骤一所述的数据集预处理，具体为将案源线索文本数据转换为图数据。利用glove将文本词汇进行编码，转换为图中节点，计算节点之家的相似度构造图中的边。3.根据权利要求1所述的基于层次化图卷积神经网络模型的案源线索分类处理方法，其特征在于，步骤二所述的多阈值稀疏图构建，具体为将原始的图数据对其边设置[5％,50％]区间内的多个阈值，从原始图数据中得到不同稀疏程度的稀疏图。4.根据权利要求1所述的基于层次化图卷积神经网络模型的案源线索分类处理方法，其特征在于，步骤三所述的层次图卷积网络，具体由图级别稀疏图学习模型f-gcn和节点级别稀疏图相关性学习模型p-gcn两部分子网络构成。5.根据权利要求1所述的基于层次化图卷积神经网络模型的案源线索分类处理方法，其特征在于，步骤三所述的f-gcn分别通过图聚类方法和图卷积特征学习进行每个稀疏图的图表达学习，将稀疏图信息转化成粗化图后，进行图卷积特征操作学习到一个低维向量。具体为输入的稀疏图设置可学习的权重矩阵，通过对步骤二中得出得稀疏图进行矩阵相乘，融合为维度更低的粗化图，最后通过gcn将粗化图的结果嵌入到低维的向量中表示。6.根据权利要求1所述的基于层次化图卷积神经网络模型的案源线索分类处理方法，其特征在于，所述的p-gcn具体步骤为基于不同图数据在同一阈值下的稀疏图，利用图核结构匹配方法进行稀疏图之间的相关性计算，再将f-gcn得出的低维图特征表达看做关联图的点，构造出一个关联图，并基于关联图进行gcn特征学习，将结果放入全连接网络中得出一个阈值下的分类结果。7.根据权利要求1所述的基于层次化图卷积神经网络模型的案源线索分类处理方法，其特征在于，步骤四所述集成分类器，具体为将每个阈值下将步骤三计算得出的结果分别放入全连接网络中以计算出单个阈值下的预测结果，最后针对多个阈值的分类结果进行投票，得出最终的分类结果。8.根据权利要求5所述的基于层次化图卷积神经网络模型的案源线索分类处理方法，其特征在于，步骤三中f-gcn的图聚类方法是根据各个点的重要性加权形成的粗化图保留哪些点，边是由新点之间所有的边通过重要性加权数值乘以原始边的权重最后相加得到。9.根据权利要求6所述的基于层次化图卷积神经网络模型的案源线索分类处理方法，其特征在于，步骤三中p-gcn的构造新图的方法为将f-gcn的图表示转换为节点特征，之后计算点与点之间的结构相似性来构造边，而从得到关联图。10.根据权利要求1所述的层次化图卷积网络集成算法，其特征在于，整个框架在训练
时采用的是步骤三中f-cgn、p-gcn以及图聚类过程中的交叉熵函数。

技术总结
本发明提出一种基于层次化图卷积神经网络模型的案源线索分类处理方法，包括：对案源数据集进行预处理，将案源线索文本数据转化为包含文本逻辑关系的图数据；多阈值稀疏图的构建，利用不同阈值分割转换后的图数据，构造不同级别的稀疏图；针对步骤二中得出的稀疏图，使用层次图卷积网络学习图的拓扑结构以及图与图之间的关联关系；使用不同阈值的图，构建不同的Hi-GCN进行分类，最后通过集成分类器得到最终的案源线索分类结果。本发明通过构建稀疏图，并使用多层次的图卷积网络以及集成学习来进行图学习并捕捉多图之间的内在相关性，以改进用于图数据分类的网络嵌入学习，使网络能够提高图数据的分类性能。够提高图数据的分类性能。够提高图数据的分类性能。

技术研发人员：张鹏帅温广琪李岚婷曹鹏
受保护的技术使用者：东北大学
技术研发日：2021.11.12
技术公布日：2022/3/8

专利

最新回复(0)