1.本发明属于人工智能技术领域,特别涉及一种基于预训练模型的政务文件归属省份分类方法。
背景技术:
2.文本分类用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。它根据一个已经被标注的训练文档集合,找到文档特征和文档类别之间的关系模型,然后利用这种学习得到的关系模型对新的文档进行类别判断。文本分类从基于知识的方法逐渐转变为基于统计和机器学习的方法。
3.文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。
4.后来兴起过一段时间的知识工程的方法则借助于专业人员的帮助,为每个类别定义大量的推理规则,如果一篇文档能满足这些推理规则,则可以判定属于该类别。但这种方法的缺点仍然明显,例如分类的质量严重依赖于这些规则的好坏,也就是依赖于制定规则的“人”的好坏;再比如制定规则的人都是专家级别,人力成本大幅上升常常令人难以承受;而知识工程最致命的弱点是完全不具备可推广性,一个针对金融领域构建的分类系统,如果要扩充到医疗或社会保险等相关领域,则除了完全推倒重来以外没有其他办法,常常造成巨大的知识和资金浪费。
技术实现要素:
5.为了克服上述现有技术的缺点,针对政务文件省份标签分类问题,本发明的目的在于提供一种基于预训练模型的政务文件归属省份分类方法,能够对政务类csv、excel文件所归属的省份进行分类,并有效避免了同一文件内部的省份重叠问题。
6.为了实现上述目的,本发明采用的技术方案是:
7.一种基于预训练模型的政务文件归属省份分类方法,所述政务文件为csv和/或excel文件,分类方法包括以下步骤:
8.步骤1:对政务文件,从文件名、表头、行属性、列属性以及表格全文五个维度进行特征提取,生成对应的特征字典;
9.步骤2:利用预训练模型中的自编码器将特征字典中的文本数据生成语义信息的嵌入向量,捕捉字与字之间的语义贡献关系,并由预训练模型bert的内置函数提供字与字的位置嵌入信息;将语义信息与位置嵌入信息整合,生成特征字典中文本数据的句向量;
10.步骤3:利用对比文件2得到的句向量,训练得到地区命名实体识别模型model1;
11.步骤4:利用步骤3训练好的地区命名实体识别模型model1,提取出所有特征字典
中的地区,并依据中国行政区规划表将之打上对应的省份标签,进行地区-省份映射的训练,得到地区-省份映射模型model2;
12.步骤5:利用model1、model2,对新的excel、csv文件进行省份标签分类。
13.在一个实施例中,所述步骤1包括:
14.步骤1.1:将csv文件中的表格表示为具有五个键值对的字典,字典的五个键分别为name_chineseall,heading,row_attribute,column_attribute和allcsv_chinese,其中name_chineseall表示原文件名中的全部中文,heading表示原文件中的表头,row_attribute表示原文件表格中的全部行属性,column_attribute表示原文件表格中的全部列属性,allcsv_chinese表示原文件中的全部中文内容;
15.步骤1.2:对excel文件,根据其中所包含的sheet数量n,先生成n个临时csv文件,然后依据步骤1.1中的方法,对所有临时csv文件分别生成一个特征字典,将得到的n个特征字典按照键将对应的值全部连结起来,生成一个总的特征字典,该总的特征字典即为该excel文件所对应的特征字典;
16.步骤1.3:将所有政务文件和与其对应的特征字典按照索引顺序存入json文件中。
17.在一个实施例中,所述步骤2包括:
18.步骤2.1:对每个特征字典中五个键所对应的值进行分字,并对分完字后的文本数据t随机生成15%的mask数据,在文本数据的开头和结尾处增加表示句子开始和结束的标识符,通过被mask的字符两侧的未被mask的字符来预测被mask的字符,而用来预测被mask的字符的不包含位置信息的中间向量即为被mask的字符的语义信息嵌入向量,即不包含位置信息的嵌入向量;
19.步骤2.2:步骤2.1处理完的五个键所对应的值,对每个字符的位置生成位置索引嵌入信息,并与步骤2.1生成的语义信息嵌入向量整合,最终分别生成五个键所对应的值的句向量。
20.在一个实施例中,所述步骤3包括:
21.步骤3.1:将步骤2中生成的值的句向量[c1,c2,c3,c4,c5,c6,...]经过4层bi-lstm层,生成隐含层向量[h1,h2,h3,h4,...],并将隐含层向量用于同时捕捉句向量前项和后项的依赖关系;
[0022]
步骤3.2:将隐含层向量[h1,h2,h3,h4,...]经过crf层,输出符合标注转移约束条件即最大可能的预测标注序列,并经过softmax函数归一化,生成标注概率序列[p1,p2,p3,p4,...],标注概率序列[p1,p2,p3,p4,...]中最大的概率值对应的即为预测的地区实体,从而得到地区命名实体识别模型model1。
[0023]
在一个实施例中,所述步骤3.1,正方向的lstm层用于捕获c1到cn的长距依赖关系,负方向的lstm层用于捕获cn到c1的长距依赖关系,从而同时捕捉句向量正方向和负方向的依赖关系,生成隐含层向量[h1,h2,h3,h4,...],lstm一共有三个门来维持和调整细胞状态,包括遗忘门,输入门,输出门,其中对于细胞状态,遗忘门,输入门,输出门的定义如下:
[0024]ft
=σ(w
xf
x
t
+w
hfht-1
+w
cfct-1
+bf)
[0025]it
=σ(w
xi
x
t
+w
hiht-1
+w
cict-1
+bi)
[0026]ct
=f
tct-1
+i
t
tanh(w
xi
x
t
+w
hiht-1
+bc)
[0027]ot
=σ(w
xo
x
t
+w
hoht-1
+w
coct
+bo)
[0028]ht
=o
t
tanh(c
t
)
[0029]
其中细胞状态表示嵌入向量中的保留信息,遗忘门接收h
t-1
和x
t
输出一个在0到1之间的数值f
t
,来决定有多少信息需要被遗忘,该数值会作用于上一个细胞状态c
t-1
,1表示“完全保留”,0表示“完全忘记”,输入门接收h
t-1
和x
t
,通过i
t
输出一个在0到1之间的数值,来决定有多少信息需要保留,之后通过c
t
更新细胞状态,输出门接收h
t-1
和x
t
,通过o
t
输出一个在0到1之间的数值,最后h
t
决定了当前状态c
t
有多少信息需要输出,σ表示sigmoid函数,由于政务文件中的文本数据地理特征无关的信息较多,所以lstm的这种信息筛选性比较适合处理政务文件。
[0030]
在一个实施例中,所述步骤3.2,经过crf(条件随机场)层利用序列标注转移矩阵给所有可能的真实路径进行打分,从而输出预测标注序列,其中crf层的序列分数计算方法定义如下:
[0031][0032]
其中和分别表示标注序列[y1,y2,y3,y4…
yi,...yn]中yi的发射分数和转移分数,整个序列相加即可得到score(x,y)。
[0033]
在一个实施例中,所述步骤4包括:
[0034]
步骤4.1:提取所有特征字典中五个键所对应的值,并经过步骤3训练好的地区命名实体识别模型model1,提取出文本数据中所包含的全部地区实体,并同时遍历中国行政区规划表,找到地区实体对应的省份标签,组成地区-省份键值对{entityn:provincen},其中entityn表示地区实体,provincen表示对应的省份标签;
[0035]
步骤4.2:将地区-省份键值对{entityn:provincen}通过预训练模型bert并连接1层全连接层进行分类训练,从而得到地区-省份映射模型model2。
[0036]
在一个实施例中,所述步骤5包括:
[0037]
步骤5.1:将待预测文件根据步骤1生成特征字典,并将特征字典中五个键所对应的文本数据分别经过model1,生成临时字典{x:[entity1,entity2,...]},其中x表示键,[entity1,entity2,...]为x所对应的值中提取出来的地区实体;
[0038]
步骤5.2:对于同一文件,从文件名name_chineseall开始,如果文件名用model2进行预测,如存在预测结果,则预测结束,直接将该预测结果作为最终结果,如果不包含地区实体则将表头heading送入model2进行预测,如存在预测结果,则预测结束,直接将该预测结果作为最终结果,如果不包含地区实体则将行属性row_attribute送入model2进行预测,如存在预测结果,则预测结束,直接将该预测结果作为最终结果,如果不包含地区实体则将列属性column-attribute送入model2进行预测,如存在预测结果,则预测结束,直接将该预测结果作为最终结果,如果不包含地区实体则将文件内容allcsv-chinese送入model2进行预测,如存在预测结果,则预测结束,直接将该预测结果作为最终结果,若以上任何识别步骤中出现两个以上不同省份标签的识别结果,则将所有识别结果中出现频次最多的省份标签作为最终结果,若特征字典中无地区实体则识别为其他地区。
[0039]
与现有技术相比,本发明的有益效果是:
[0040]
(1)、本发明通过利用预训练模型将特征字典的语义及位置信息提取生成句向量
并对所有句向量进行命名实体识别提取出所有地区实体。
[0041]
(2)、本发明通过中国行政区规划表将地区实体与省份形成地区-省份关系对,并对所有地区-省份关系对进行训练生成一份万用地区-省份识别模型。
[0042]
(3)、本发明通过基于预训练模型政务类csv、excel文件归属省份的分类方法能够有效地对政务类csv、excel文件进行中国省份文件分类,并有效的避免了同一文件内部的省份重叠问题,预测结果准确率高、误差小,计算复杂度低,有很高的实用价值。
附图说明
[0043]
图1为基于预训练模型政务类csv、excel文件归属省份的分类方法流程图。
[0044]
图2为bi-lstm特征提取过程。
[0045]
图3为政务文件预测全流程图。
具体实施方式
[0046]
下面结合附图和实施例详细说明本发明的实施方式。
[0047]
统计学习方法已经成为了文本分类领域绝对的主流。主要的原因在于其中的很多技术拥有坚实的理论基础(相比之下,知识工程方法中专家的主观因素居多),存在明确的评价标准,以及实际表现良好。统计分类算法将样本数据成功转化为向量表示之后,计算机才算开始真正意义上的“学习”过程。政务文件主要分为csv和excel文件,本发明正是基于深度学习文本分类方法之上实现对这两种政务文件进行分类的操作,本发明省份归属分类即为判别该文件为哪个省的政府所发布的。
[0048]
具体地,如图1所示,本发明基于预训练模型的政务文件归属省份分类方法包括以下步骤:
[0049]
步骤1:对政务文件,从文件名、表头、行属性、列属性以及表格全文五个维度进行特征提取,生成对应的特征字典。一种可行的具体步骤如下:
[0050]
步骤1.1:本实施例中数据集为自行爬取的全国省市的政务文件共计70809条。将所有csv文件中的表格表示为具有五个键值对的字典,字典的五个键分别为name_chineseall,heading,row_attribute,column_attribute,allcsv_chinese,其中name_chineseall表示原文件名中的全部中文,heading表示原文件中的表头,rowattribute表示原文件表格中的全部行属性,column_attribute表示原文件表格中的全部列属性,allcsv_chinese表示原文件中的全部中文内容,例如对于文件“藤县中小学学校机构信息_0.xls”,提取出来的name_chineseall为“藤县中小学学校机构信息”,heading为“序号学校名称在校生人数教职工数学校地址毕业升学率”,row_attribute为“广西藤县古龙镇古龙中心校藤县
……”
,column_attribute为“广西藤县古龙镇忠隆小学广西藤县
……”
,allcsv_chinese为“人指标在校生数研究生普通高等教育成人
……”
;
[0051]
步骤1.2:对excel文件,根据其中所包含的sheet数量n,先生成n个临时csv文件,然后依据步骤1.1中的方法,对所有临时csv文件分别生成一个特征字典,将得到的n个特征字典按照键将对应的值全部连结起来,生成一个总的特征字典,该总的特征字典即为该excel文件所对应的特征字典,例如文件“藤县中小学学校机构信息_0.xls”,其中包含5个学校信息组成的sheet,则需要分别对5个sheet进行字典特征提取然后再合并形成原文件
的字典特征;
[0052]
步骤1.3:将所有政务文件和与其对应的特征字典按照索引顺序存入json文件中,便于之后使用。
[0053]
步骤2:利用预训练模型中的自编码器将特征字典中的文本数据生成语义信息的嵌入向量,捕捉字与字之间的语义贡献关系,并由预训练模型bert的内置函数提供字与字的位置嵌入信息;将语义信息与位置嵌入信息整合,生成特征字典中文本数据的句向量。一种可行的具体步骤如下:
[0054]
步骤2.1:对每个特征字典中五个键所对应的值进行分字,并对分完字后的文本数据t随机生成15%的mask数据,在文本数据的开头和结尾处增加表示句子开始和结束的标识符,通过被mask的字符两侧的未被mask的字符来预测被mask的字符,而用来预测被mask的字符的不包含位置信息的中间向量即为被mask的字符的语义信息嵌入向量,即不包含位置信息的嵌入向量;
[0055]
步骤2.2:步骤2.1处理完的五个键所对应的值,对每个字符的位置生成位置索引嵌入信息,并与步骤2.1生成的语义信息嵌入向量整合,最终分别生成五个键所对应的值的句向量。
[0056]
步骤3:利用对比文件2得到的句向量,训练得到地区命名实体识别模型model1。一种可行的具体步骤如下:
[0057]
步骤3.1:如图2所示,将步骤2中生成的值的句向量[c1,c2,c3,c4,c5,c6,...]经过4层bi-lstm层,同时捕捉句向量前项和后项的依赖关系[v
f0
|v
b0
,v
f1
|v
b1
,v
f2
|v
b2
,v
f3
|v
b3
,...],生成隐含层向量[h1,h2,h3,h4,...],用于同时捕捉句向量前项和后项的依赖关系,例如对于文件“藤县中小学学校机构信息0.xls”的字典特征五个键分别对应有5个句向量,则将这5个句向量分别送入bi-lstm层进行特征提取。
[0058]
在bi-lstm层中,正方向的lstm层用于捕获c1到ci的长距依赖关系,负方向的lstm层用于捕获ci到c1的长距依赖关系,从而同时捕捉句向量正方向和负方向的依赖关系,生成隐含层向量[h1,h2,h3,h4,...],lstm一共有三个门来维持和调整细胞状态,包括遗忘门,输入门,输出门,其中对于细胞状态,遗忘门,输入门,输出门的定义如下:
[0059]ft
=σ(w
xf
x
t
+w
hfht-1
+w
cfct-1
+bf)
[0060]it
=σ(w
xi
x
t
+w
hiht-1
+w
cict-1
+bi)
[0061]ct
=f
tct-1
+i
t
tanh(w
xi
x
t
+w
hiht-1
+bc)
[0062]ot
=σ(w
xo
x
t
+w
hoht-1
+w
coct
+bo)
[0063]ht
=o
t
tanh(c
t
)
[0064]
其中细胞状态表示嵌入向量中的保留信息,遗忘门接收h
t-1
和x
t
输出一个在0到1之间的数值f
t
,来决定有多少信息需要被遗忘,该数值会作用于上一个细胞状态c
t-1
,1表示“完全保留”,0表示“完全忘记”,输入门接收h
t-1
和x
t
,通过i
t
输出一个在0到1之间的数值,来决定有多少信息需要保留,之后通过c
t
更新细胞状态,输出门接收h
t-1
和x
t
,通过o
t
输出一个在0到1之间的数值,最后h
t
决定了当前状态c
t
有多少信息需要输出,σ表示sigmoid函数,由于政务文件中的文本数据地理特征无关的信息较多,所以lstm的这种信息筛选性比较适合处理政务文件。
[0065]
步骤3.2:将隐含层向量[h1,h2,h3,h4,...hj]经过crf层,输出符合标注转移约束条
件即最大可能的预测标注序列,并经过softmax函数归一化,生成标注概率序列[p1,p2,p3,p4,...],标注概率序列[p1,p2,p3,p4,...]中最大的概率值对应的即为预测的地区实体,从而得到地区命名实体识别模型model1。
[0066]
具体地,经过crf(条件随机场)层利用序列标注转移矩阵给所有可能的真实路径进行打分,从而输出预测标注序列,其中crf层的序列分数计算方法定义如下:
[0067][0068]
其中和分别表示标注序列[y1,y2,y3,y4…
yi,...yn]中yi的发射分数和转移分数,整个序列相加即可得到score(x,y)。
[0069]
步骤4:利用步骤3训练好的地区命名实体识别模型model1,提取出所有特征字典中的地区,并依据中国行政区规划表将之打上对应的省份标签,生成训练集与测试集,进行地区-省份映射的训练,得到地区-省份映射模型model2。一种可行的具体步骤如下:
[0070]
步骤4.1:提取所有特征字典中五个键所对应的值,并经过步骤3训练好的地区命名实体识别模型model1,提取出文本数据中所包含的全部地区实体,并同时遍历中国行政区规划表,找到地区实体对应的省份标签,组成地区-省份键值对{entityn:provincen},其中entityn表示地区实体,provincen表示对应的省份标签;
[0071]
步骤4.2:将地区-省份键值对{entityn:provincen}通过预训练模型bert并连接1层全连接层进行分类训练,从而得到地区-省份映射模型model2。
[0072]
步骤5:利用model1、model2,基于逐级预测机制,对新的excel、csv文件进行省份标签分类。一种可行的具体步骤如下:
[0073]
步骤5.1:将待预测文件根据步骤1生成特征字典,并将特征字典中五个键所对应的文本数据分别经过model1,生成临时字典{x:[entity1,entity2,...]},其中x表示键,[entity1,entity2,...]为x所对应的值中提取出来的地区实体;例如对于文件名生成的临时字典则为{name_chineseall:[entity1,entity2,...]},其中[entity1,entity2,...]为name_chineseall所对应的文本内容中提取出来的地区实体。
[0074]
步骤5.2:如图3所示,对于同一文件,从文件名name_chineseall开始,如果文件名用model2进行预测,如存在预测结果,则预测结束,直接将该预测结果作为最终结果,如果不包含地区实体则将表头heading送入model2进行预测,如存在预测结果,则预测结束,直接将该预测结果作为最终结果,如果不包含地区实体则将行属性row_attribute送入model2进行预测,如存在预测结果,则预测结束,直接将该预测结果作为最终结果,如果不包含地区实体则将列属性column_attribute送入model2进行预测,如存在预测结果,则预测结束,直接将该预测结果作为最终结果,如果不包含地区实体则将文件内容allcsv-chinese送入model2进行预测,如存在预测结果,则预测结束,直接将该预测结果作为最终结果,若以上任何识别步骤中出现两个以上不同省份标签的识别结果,则将所有识别结果中出现频次最多的省份标签作为最终结果,若特征字典中无地区实体则识别为其他地区。即,对于同一文件,采用逐级预测的方法,文件名name_chineseall的优先级最高,然后依次是表头heading,行属性row_attribute,列属性column_attribute,文件内容allcsv_chinese,如果高优先级的数据能够得出预测结果则直接结束预测以该结果作为最终结果,
如果某一级出现了多个省份标签的情况,则对所有层级的数据进行预测取其中出现次数最多的标签作为预测结果,如果所有层级均未有结果则预测为“其他地区”。
[0075]
本次实施例的实验结果如下:
[0076]
测试集的准确率(auc)稳定在0.9995。
[0077]
该实验结果表明本发明所提出的基于预训练模型政务类csv、excel文件归属省份的分类方法,使用命名实体识别的方法从文本数据中提取出其中的所有地区名,并根据中国行政区规划表将每一个地区与其对应省份生成训练集与测试集,并基于逐级预测机制对原文件进行中国省份文件分类,能够有效地对政务类csv、excel文件进行中国省份文件分类,并有效的避免了同一文件内部的省份重叠问题,预测结果准确率高、误差小,计算复杂度低,有很高的实用价值。。
[0078]
综上,本发明所提出的基于预训练模型政务类csv、excel文件归属省份的分类方法能够有效地对政务类csv、excel文件进行中国省份文件分类,并有效的避免了同一文件内部的省份重叠问题,预测结果准确率高、误差小,计算复杂度低,有很高的实用价值。
[0079]
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
技术特征:
1.一种基于预训练模型的政务文件归属省份分类方法,所述政务文件为csv和/或excel文件,其特征在于,分类方法包括以下步骤:步骤1:对政务文件,从文件名、表头、行属性、列属性以及表格全文五个维度进行特征提取,生成对应的特征字典;步骤2:利用预训练模型中的自编码器将特征字典中的文本数据生成语义信息的嵌入向量,捕捉字与字之间的语义贡献关系,并由预训练模型bert的内置函数提供字与字的位置嵌入信息;将语义信息与位置嵌入信息整合,生成特征字典中文本数据的句向量;步骤3:利用对比文件2得到的句向量,训练得到地区命名实体识别模型model1;步骤4:利用步骤3训练好的地区命名实体识别模型model1,提取出所有特征字典中的地区,并依据中国行政区规划表将之打上对应的省份标签,进行地区-省份映射的训练,得到地区-省份映射模型model2;步骤5:利用model1、model2,对新的excel、csv文件进行省份标签分类。2.根据权利要求1所述基于预训练模型的政务文件归属省份分类方法,其特征在于,所述步骤1包括:步骤1.1:将csv文件中的表格表示为具有五个键值对的字典,字典的五个键分别为name_chineseall,heading,row_attribute,column_attribute和allcsv_chinese,其中name_chineseall表示原文件名中的全部中文,heading表示原文件中的表头,row_attribute表示原文件表格中的全部行属性,column_attribute表示原文件表格中的全部列属性,allcsv_chinese表示原文件中的全部中文内容;步骤1.2:对excel文件,根据其中所包含的sheet数量n,先生成n个临时csv文件,然后依据步骤1.1中的方法,对所有临时csv文件分别生成一个特征字典,将得到的n个特征字典按照键将对应的值全部连结起来,生成一个总的特征字典,该总的特征字典即为该excel文件所对应的特征字典;步骤1.3:将所有政务文件和与其对应的特征字典按照索引顺序存入json文件中。3.根据权利要求2所述基于预训练模型的政务文件归属省份分类方法,其特征在于,所述步骤2包括:步骤2.1:对每个特征字典中五个键所对应的值进行分字,并对分完字后的文本数据t随机生成15%的mask数据,在文本数据的开头和结尾处增加表示句子开始和结束的标识符,通过被mask的字符两侧的未被mask的字符来预测被mask的字符,而用来预测被mask的字符的不包含位置信息的中间向量即为被mask的字符的语义信息嵌入向量,即不包含位置信息的嵌入向量;步骤2.2:步骤2.1处理完的五个键所对应的值,对每个字符的位置生成位置索引嵌入信息,并与步骤2.1生成的语义信息嵌入向量整合,最终分别生成五个键所对应的值的句向量。4.根据权利要求3所述基于预训练模型的政务文件归属省份分类方法,其特征在于,所述步骤3包括:步骤3.1:将步骤2中生成的值的句向量[c1,c2,c3,c4,c5,c6,...]经过4层bi-lstm层,生成隐含层向量[h1,h2,h3,h4,...],并将隐含层向量用于同时捕捉句向量前项和后项的依赖关系;
步骤3.2:将隐含层向量[h1,h2,h3,h4,...]经过crf层,输出符合标注转移约束条件即最大可能的预测标注序列,并经过softmax函数归一化,生成标注概率序列[p1,p2,p3,p4,...],标注概率序列[p1,p2,p3,p4,...]中最大的概率值对应的即为预测的地区实体,从而得到地区命名实体识别模型model1。5.根据权利要求4所述基于预训练模型的政务文件归属省份分类方法,其特征在于,所述步骤3.1中,正方向的lstm层用于捕获c1到c
i
的长距依赖关系,负方向的lstm层用于捕获c
i
到c1的长距依赖关系,从而同时捕捉句向量正方向和负方向的依赖关系,生成隐含层向量[h1,h2,h3,h4,...],lstm一共有三个门来维持和调整细胞状态,包括遗忘门,输入门,输出门,其中对于细胞状态,遗忘门,输入门,输出门的定义如下:f
t
=σ(w
xf
x
t
+w
hf
h
t-1
+w
cf
c
t-1
+b
f
)i
t
=σ(w
xi
x
t
+w
hi
h
t-1
+w
ci
c
t-1
+b
i
)c
t
=f
t
c
t-1
+i
t
tanh(w
xi
x
t
+w
hi
h
t-1
+b
c
)o
t
=σ(w
xo
x
t
+w
ho
h
t-1
+w
co
c
t
+b
o
)h
t
=o
t
tanh(c
t
)其中细胞状态表示嵌入向量中的保留信息,遗忘门接收h
t-1
和x
t
输出一个在0到1之间的数值f
t
,来决定有多少信息需要被遗忘,该数值会作用于上一个细胞状态c
t-1
,1表示“完全保留”,0表示“完全忘记”,输入门接收h
t-1
和x
t
,通过i
t
输出一个在0到1之间的数值,来决定有多少信息需要保留,之后通过c
t
更新细胞状态,输出门接收h
t-1
和x
t
,通过o
t
输出一个在0到1之间的数值,最后h
t
决定了当前状态c
t
有多少信息需要输出,σ表示sigmoid函数,由于政务文件中的文本数据地理特征无关的信息较多,所以lstm的这种信息筛选性比较适合处理政务文件。6.根据权利要求4所述基于预训练模型的政务文件归属省份分类方法,其特征在于,所述步骤3.2中,经过crf层利用序列标注转移矩阵给所有可能的真实路径进行打分,从而输出预测标注序列,其中crf层的序列分数计算方法定义如下:其中和分别表示标注序列[y1,y2,y3,y4...y
i
,...y
n
]中y
i
的发射分数和转移分数,整个序列相加即可得到score(x,y)。7.根据权利要求4所述基于预训练模型的政务文件归属省份分类方法,其特征在于,所述步骤4包括:步骤4.1:提取所有特征字典中五个键所对应的值,并经过步骤3训练好的地区命名实体识别模型model1,提取出文本数据中所包含的全部地区实体,并同时遍历中国行政区规划表,找到地区实体对应的省份标签,组成地区-省份键值对{entity
n
:province
n
},其中entity
n
表示地区实体,province
n
表示对应的省份标签;步骤4.2:将地区-省份键值对{entity
n
:province
n
}通过预训练模型bert并连接1层全连接层进行分类训练,从而得到地区-省份映射模型model2。8.根据权利要求7所述基于预训练模型的政务文件归属省份分类方法,其特征在于,所述步骤5包括:
步骤5.1:将待预测文件根据步骤1生成特征字典,并将特征字典中五个键所对应的文本数据分别经过model1,生成临时字典{x:[entity1,entity2,...]},其中x表示键,[entity1,entity2,...]为x所对应的值中提取出来的地区实体;步骤5.2:对于同一文件,从文件名name_chineseall开始,如果文件名用model2进行预测,如存在预测结果,则预测结束,直接将该预测结果作为最终结果,如果不包含地区实体则将表头heading送入model2进行预测,如存在预测结果,则预测结束,直接将该预测结果作为最终结果,如果不包含地区实体则将行属性row_attribute送入model2进行预测,如存在预测结果,则预测结束,直接将该预测结果作为最终结果,如果不包含地区实体则将列属性column_attribute送入model2进行预测,如存在预测结果,则预测结束,直接将该预测结果作为最终结果,如果不包含地区实体则将文件内容allcsv_chinese送入model2进行预测,如存在预测结果,则预测结束,直接将该预测结果作为最终结果,若以上任何识别步骤中出现两个以上不同省份标签的识别结果,则将所有识别结果中出现频次最多的省份标签作为最终结果,若特征字典中无地区实体则识别为其他地区。
技术总结
本发明一种基于预训练模型的政务文件归属省份分类方法,步骤为:1)从csv和excel文件中提取特征字典;2)对特征字典中全部文本生成句向量;3)对句向量进行地区实体识别训练,得到地区命名实体识别模型;4)进行地区-省份映射训练,得到地区-省份映射模型。本发明所提出的基于预训练模型政务类csv、excel文件归属省份的分类方法能够有效地对政务类csv、excel文件进行中国省份文件分类,并有效的避免了同一文件内部的省份重叠问题,预测结果准确率高、误差小,计算复杂度低,有很高的实用价值。有很高的实用价值。有很高的实用价值。
技术研发人员:沈超 朱皓宬 周亚东 刘晓明
受保护的技术使用者:西安交通大学
技术研发日:2021.12.03
技术公布日:2022/3/8