一种基于多信息增强的中文命名实体识别算法

专利查询7月前  65

1.本发明涉及深度学习以及计算机自然语言处理领域,具体涉及一种基于多信息增强的命名实体识别方法。
背景技术
::2.随着人工智能领域的不断发展,自然语言处理在实际应用中越来越广泛,而命名实体识别(namedentityrecognition,ner)作为自然语言处理的一项基础性技术,它的准确度决定了下游任务的效果,其重要性不言而喻,它在自然语言处理的许多下游任务(例如翻译、问答模型、搜索匹配、语义分析等)中起到重要作用,它识别的实体主要包括3大类(实体类、时间类、数字类)、7小类(人名、地名、组织机构名、时间、日期、货币、百分比)以及专有名词。ner本质上是一种序列标注问题,目的就是准确的识别出文本中的实体并将其归为某一类别,但是目前命名实体识别在社交媒体如微博等的领域识别准确率并不高。3.一方面,因为汉字相比较于英文来说具有更复杂的语义,同一个词的表达更具有多样性。而英文单词具有某些天然的词性信息,例如一些单词:“action”、“education”、“organization”等都具有相同的词根“‑tion”,同时,这些单词也具有相同的名词词性;又好比“adjustable”、“respectable”、“reasonable”等都具有相同的词根“‑able”,同时这些词也具有相同的形容词词性。此外,在英文词中还有很多类似的特性,所以说英文词具有一些中文词不具备的一些额外的词性信息。另一方面在日常用语中,通常存在实体嵌套的问题,实体嵌套是指文本中出现的实体,存在某个较短实体包含在另外一个较长实体内部的情况,很多语句中存在嵌套实体,例如,“美国项目管理协会”就是一个嵌套实体,“美国项目管理协会”是一个组织,但“美国”又是一个地名。当存在这样情况的时候就会导致实体识别困难,可以说嵌套实体的存在是影响实体识别准确率的一个重要因素。4.在自然语言处理领域,最早是基于分词来做命名实体识别任务的,该方法存在一个主要的问题就是由于分词的不准确,往往会导致错误信息的传播;再之后,基于字符的命名实体识别方法克服了这个问题,但又却缺少了潜在的词信息。单纯基于字符或者基于分词来做中文命名实体识别任务都会存在一些问题,(yuezhang,jieyang.chinesenerusinglatticelstm[c]//processingofthe54thannualmeetingoftheassociationforcomputationallinguistics,acl,2018:1554-1564.)采用字符与词信息相结合的方法来做中文命名实体识别任务。最近,(shuangwu,xiaoningsong,zhenhuafeng.mect:multi-metadataembeddingbasedcross-transformerforchinesenamedentityrecognition[c]//proceedingsofthe59thannualmeetingoftheassociationforcomputationallinguistics,acl,2021:1529-1539.)在嵌入层为输入信息加入了字符的部首信息,取得了一定的效果,在中文命名实体识别任务中,但对于嵌套实体的影响,目前还没有研究者提出解决方法。就当前研究趋势来说,中文命名实体识别的准确率在一些领域,如社交媒体方面还亟待提升。[0005]综上所述,考虑到基于深度学习的命名实体识别网络存在的嵌套实体以及准确率低的问题,本发明设计了基于多信息增强的中文命名实体识别方法,通过对嵌入信息和位置信息两个方面进行增强,不仅让模型学习到了更丰富的输入特征,也让模型学习到嵌套实体的信息,从而提升了中文命名实体识别的准确率。技术实现要素:[0006]本发明的目的在于设计一种多信息增强的中文命名实体识别算法来从文本中准确的识别出实体,并且在基于此方法基础上针对具体实现命名实体识别的领域微调预训练模型,以达到最佳的效果。[0007]本发明提供了一种基于多信息增强的中文命名实体识别方法,包括:嵌入信息模块,用于将输入语句进行处理,通过为中文命名实体识别的输入增加词性信息,并将基于词的词性信息转移到字符级别进行输入,在嵌入层中输入信息包括字符信息、词信息以及词性信息,再将字符信息、词信息以及词性信息进行融合作为输入特征,同时,将构建的基于二叉树结构编码的嵌套实体位置信息矩阵编码和输入特征一起送入自注意力机制中,对嵌入层的输入信息进行建模,对于自注意力机制的输出,利用前馈神经网络加上提出的新型残差结构进行细节捕获得到深层表达。并使用条件随机场对于标签间关系进行学习,获取最后的实体预测结果。[0008]本
发明内容主要分为两个部分:嵌入信息增强方法和位置编码信息增强方法。[0009]具体包括以下步骤:[0010]1.获取输入语句,并对输入进行词性标注,然后将词性标注转移到字符级的层面,最后通过字符信息、词信息以及词性信息相融合作为最终的输入特征;[0011]2.构建一个基于多信息增强的中文命名实体识别网络,主要包括词性信息增强以及嵌套实体矩阵信息增强;[0012]3.利用开源数据集对网络进行预训练;[0013]4.通过迁移学习的方式,使用少量自制已标注中文命名实体识别数据集对于预先建立的神经网络进行微调;[0014]5.在所述完成迁移学习后的网络上对准备的测试集中的命名实体识别数据进行预测,获得最终的检测实体。[0015]在上述步骤中所述的基于多信息增强的中文命名实体识别网络是本发明的主要内容,提出了一种嵌入信息增强及位置信息编码增强的双信息增强方法,此网络通过对输入的预处理,以及注意力机制的方法进行命名实体识别的任务学习,该网络包括信息嵌入、注意力模块、前馈神经网络模块以及条件随机场模块。[0016]在嵌入层,首先对输入进行预处理,这里先匹配字符所对应的词信息,同时利用自然语言处理工具库spacy加上词性信息,然后利用预训练好的字符向量以及词向量对输入词元进行匹配,得到的词嵌入信息最后经过线性层后的输出作为模型的输入。[0017]注意力模块中,采用了transformerxl的注意力计算方法,其中对于位置编码部分,采用了本发明中提出的基于二叉树的嵌套实体矩阵位置信息编码与flat网络的位置信息编码方法相结合,保证了既有嵌套实体的信息同时又不会丢失其他词元间的信息。注意力模块计算方法如下:[0018][0019]att(a,v)=softmax(a)v[0020]其中,i表示第i个词元,ij表示第i个词元和第j个词元的关系。q、k、v为输入矩阵的不同线性变换,这里的输入矩阵实际上就是在嵌入层融合的字符、词以及词性信息特征,u、v为可学习的超参数,注意力机制中的位置信息编码模块rbinary和rflat是注意力机制中的位置信息编码,用于输入语句中词元之间的位置信息建模,其中rbinary的编码方式可以在附图中查到,完整的位置信息编码通过拼接rbinary和rflat实现,表示为:[0021][0022]前馈神经网络模块中,通过线性层将学习到的“分布式特征表示”映射到样本标记空间。为了学习到更细节的特征,本发明利用提出的md层替代原有的残差结构,利用其捕获细节特征,最终输出特征矩阵。在网络的整体输出结构方面,这里采用了两个并行的的网络的输出相加作为整体crf的输入是为了减小误差,提升网络的鲁棒性。[0023]由于采用以上技术方案,本发明具有以下优点:[0024]1、英文单词具有某些天然的词性信息,例如单词后缀“‑tion”、“‑able”表示名词和形容词词性。而汉字相比较于英文来说具有更复杂的语义,同一个词的表达更具有多样性,但是却没有这样的特征。那么,为中文命名实体识别的输入增加词性信息的话,模型不仅能学习到更加丰富的信息,还能通过词性信息的加入学习到更多的语义信息,从而提升实体识别模型的性能。因此,本发明在这里利用自然语言处理工具spacy进行词性信息标注,为嵌入层增加了词性信息,同时,为了更好的赋予输入信息语义特征,在这里将词的标注信息转移到字符信息,得到的形式如附图中嵌入层的表示。对于输入的嵌入方式,本发明使用了预训练的词表来匹配输入字符与词的向量,而对于不存在字符或词向量的情况,对其进行随机初始化处理。原始的基于字符的表示为,利用字符匹配的词的表示为,最后再加上利用自然语言处理工具得到的词性信息,得到总的输入,该输入包含字符信息、匹配的词信息以及词性信息。[0025]2、本发明提出一种带有实体嵌套信息的位置信息编码,此模块作用是将词元间的相对位置信息与嵌套实体间的位置关系相结合,解决了嵌套实体对于中文命名实体识别准确性的影响。在自注意力模块中,将位置信息与输入信息进行融合,使得模型能够主动注意词元间的语义关系以及位置关系。[0026]3、对于前馈神经网络残差部分,为了获得更大的感受野,本发明提出一种新型的残差结构md层(moredetailslayer)来获取更多的隐藏信息,md层在模型中的具体位置如附图所示。图中展示了md层的实现方法,首先将输入特征通过线性层进行放大n倍,然后对放大后的特征进行切片,最后将切片后的特征相加得到最终的输出,以此保证维度不变。附图说明[0027]为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供下附图进行说明:[0028]图1是本发明的基于多信息增强的中文命名实体识别方法流程示意图;[0029]图2是本发明的基于二叉树的位置编码结构示意图;[0030]图3是本发明的二叉树结构位置信息编码的矩阵形式示意图;[0031]图4是本发明的具有注意力机制的计算模块;[0032]图5是本发明的md层实现方法示意图。具体实施方案[0033]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地、完整地描述。[0034]本发明提出了一种基于于多信息增强的中文命名实体识别算法,如图1,具体包括如下步骤:[0035]步骤1、输入语句,将语句进行词匹配、词性匹配两种简单预处理操作;[0036]步骤2、构建一个融合词性信息以及嵌套实体位置信息编码的神经网络,将词元输入网络中去学习。[0037]步骤3、利用自注意力机制对输入特征进行注意力训练,当之后出现此类特征的时候模型会自动关注该位置;[0038]步骤4、将自注意力机制的输出送入到线性层中进行特征学习,其中为了获取更细节的信息,通过md层对特征进行编码;[0039]步骤5、将encoder的输出送入到crf(conditionalrandomfield),得到最终的预测实体。[0040]具体实施方式[0041]步骤1:获取输入语句,输入预处理模块中使用词表匹配、词性匹配等操作预处理输入语句,增强输入表达特征。[0042]步骤2:将预处理后的语句输入进自注意力机制模块,在自注意力机制模块中构建如图2所示的基于二叉树的位置编码结构,其中实线圈代表当前节点可以和它左子树的下一个节点两个字符之间组成一个词,这里以图2中的句子“重庆市长江大桥”举例,连续的两个字符组成的词有“重庆”、“市长”、“长江”、“大桥”,那么将这些词用椭圆实线圈出。而虚线圈代表当前节点可以和它左子树的多个节点组成一个词,在图2中表示为“重庆市”、“长江大桥”。对于图2的二叉树结构位置信息编码方法,本发明利用图3的矩阵来表示。其中,用虚线表示的对角线代表二叉树结构的左子树节点之间的联系,向下的实线箭头代表当前节点可以和它左子树的下一个节点两个字符之间组成的词,向右的实线箭头代表当前节点可以和它左子树的多个节点组成的词。这样处理后,就将基于二叉树结构的实体位置编码映射到了矩阵表示。将语句中的词元按照这种编码方式进行编码,具体的二叉树结构位置信息编码的矩阵输入如图3。其中特征提取模块为transformer网络的encoder模块,使用更改位置编码后的注意力机制网络。[0043]步骤3:使用pytorch框架构建此中文命名实体识别网络,多头注意力机制在整体框架中的位置如图1所示,其中多头注意力机制(multi-headattention)的计算图如图4所示,整体计算公式如下:[0044][0045]att(a,v)=softmax(a)v[0046]式中,式中q、k、v为输入向量的不同线性变换,u、v为可学习的超参数,融合位置信息为:[0047][0048]式中rflat_ij计算公式如下:[0049][0050]上式中,中的hi-hj代表同理,ti-tj代表代表和计算过程如下式:[0051][0052][0053]上式中,dmodel是模型的维度,位置d通过下式计算方法得到:[0054][0055]式中hh表示head[i]到head[j]的距离,其中i表示第i个词元,j表示第j个词元,tt表示tail[i]到tail[j]到距离。[0056]步骤4:在网络的前馈神经网络部分,为了获得更大的感受野,本发明提出一种新型的残差结构md层(moredetailslayer)来获取更多的隐藏信息,md层在模型中的具体位置如图1所示。图5展示了md层的实现方法,如图所示,首先将输入特征通过线性层进行放大n倍,然后对放大后的特征进行切片,最后将切片后的特征相加得到最终的输出,以此保证维度不变。在当前的中文命名实体识别任务中,md层中的n值由实验可得,n值取2可以使得实验效果最佳,同时为了防止训练时候产生过拟合,在前馈神经网络部分增加了层归一化函数(layernorm)。[0057]步骤5:将编码部分的输出送入到crf层进行计算,通过条件随机场对于标签信息的约束学习,得到最后的预测实体。[0058]步骤6:训练所构建的中文命名实体识别网络。通过迁移学习的方式,先利用相关领域的开源数据对网络进行预训练,再使用自制已标注的中文实体识别数据集对于预训练的网络进行微调。当前第1页12当前第1页12
技术特征:
1.一种基于多信息增强的中文命名实体识别方法,其特征在于,能够对文本内容进行处理,得到需要的专有名词,具体包括以下步骤:步骤1、采集用户需要识别的文本语句,通过自然语言处理工具spacy为输入词添加词性标注,然后将对于词的词性信息转移到字符级别,将字符、词以及词性信息融合作为嵌入信息;步骤2、构建一个基于多信息增强的中文命名实体识别网络,主要包括词性信息嵌入模块、嵌套实体矩阵的位置信息编码模块以及基于细节捕获层的新型前馈神经网络模块;步骤3、在训练完成后的神经网络上对输入语句进行命名实体识别,得到需要的实体类型。2.根据权利要求1所述的一种基于多信息增强的中文命名实体识别方法,其特征在于,所构建的一种基于多信息增强的中文命名实体识别方法网络包括信息嵌入模块、基于嵌套实体矩阵位置信息的自注意力机制模块、新型前馈神经网络模块以及crf标签约束模块,其中,信息嵌入模块通过匹配预训练好的词表得到字符与词的嵌入向量表示,然后加上词性标注信息并将词性信息转移到字符级别表达,对于未登录词(out ofvocabulary),这里对其进行随机初始化;自注意力机制模块通过将嵌入信息以及基于嵌套实体矩阵的位置信息送入自注意力机制中得到最后的特征输入,其中位置信息增强部分采用了本发明提出的基于二叉树结构的嵌入实体位置信息编码与flat网络的位置信息编码相融合;对于前馈神经网络模块部分,利用本发明提出的细节层(more details layer)来替代普通的残差层捕获更深层次的特征信息,对自注意力机制得到的特征进行再学习;crf(conditional random field)标签约束模块对标注序列内部的依赖或者约束进行建模,学习到了标签间的联系信息,最后输出预测结果。3.根据权利要求2所述的一种基于多信息增强的中文命名实体识别方法,其特征在于,模型在嵌入层具有词性信息,在嵌入层通过spacy为模型加入词性信息,并将词性信息转移到字符,在嵌入层将词性信息很好的与字符信息和词信息进行融合,为网络模型提供了更加丰富的特征。4.根据权利要求2所述的一种基于多信息增强的中文命名实体识别方法,其特征在于,自注意力机制模块(multi-headattention)通过多头注意力机制对嵌入信息进行编码,学习到输入词元间的长短距离的依赖,注意力机制的计算方法为:att(a,v)=softmax(a)v其中,i表示第i个词元,ij表示第i个词元和第j个词元的关系。q、k、v为输入矩阵的不同线性变换,u、v为可学习的超参数,注意力机制中的位置信息编码模块r
binary
和r
flat
是注意力机制中的位置信息编码,用于输入语句中词元之间的位置信息建模,完整的位置信息编码通过拼接r
binary
和r
flat
表示为:5.根据权利要求2所述的一种基于多信息增强的中文命名实体识别方法,其特征在于,前馈神经网络模块通过利用线性层对于自注意力机制的输出进行特征映射,其中本发明提出的细节层(more details layer)替代了普通的残差结构,获得更加细节的特征信息。
6.根据权利要求1所述的一种基于多信息增强的中文命名实体识别方法,其特征在于,对于中文命名实体识别操作中主要包括:对输入语句进行词性标注,然后将词性标注信息转移到字符级别的表达中,之后将字符信息、词信息以及词性信息进行融合作为嵌入层的输出,在自注意力机制中利用嵌入层的信息以及嵌套实体矩阵信息进行学习,再通过改进的新型前馈神经网络进行特征映射,得到输出序列。最后将输出序列送入crf层中进行标签约束学习,得到命名实体。

技术总结
目前,基于字符信息与词信息相结合的中文命名实体识别方法取得了不错的效果,在此基础上,也有采用字形信息进行信息增强的方法,在性能上取得了一定的提高。然而,输入语义信息的欠缺以及嵌套实体导致的实体识别错误的问题还未解决。针对存在的这些问题,本文提出了MIEM(Multi-Information Enhancement Method)模型。MIEM首先通过在嵌入层加入词性信息来增强输入特征,在位置信息编码加入基于二叉树结构编码的嵌套实体位置信息矩阵,然后利用自注意力机制对嵌入信息进行编码,此外,还设计了MD层(more details layer)替代传统的残差结构扩大模型的视野以此来获取更多的信息。这样的设计既增强了输入信息的表达,又增强了实体边界信息,解决了实体边界不清晰问题以及嵌套实体影响实体识别准确率的问题。最后构建了基于嵌入信息及位置编码信息增强的神经网络模型来解决中文命名实体识别中因为嵌套实体导致的的命名实体识别错误的问题。嵌套实体导致的的命名实体识别错误的问题。嵌套实体导致的的命名实体识别错误的问题。


技术研发人员:黄胜 廖星
受保护的技术使用者:重庆邮电大学
技术研发日:2021.12.06
技术公布日:2022/3/8

最新回复(0)