1.本发明涉及计算机技术领域,尤其是涉及一种基于句子关联的篇章语义自动识别方法及系统。
背景技术:
2.自然语言是人的思想的表达形式,自然语言处理研究人的思维模式,自然语言处理的粒度代表了人的思维层面。在语义技术研究方面,现在研究得比较成熟的是句子级的语义处理技术,比如框架语义、角色语义、依存语义等,句子级表明人对自然语言的研究还停留在最基本的功能层面,就跟螺丝钉一样,篇章语义相当于一台设备;篇章语义研究的滞后,导致自然语言处理技术还无法对宏大工程场景进行有效的研究,包括篇章语义的定义、标注和自动识别。对于word的docx格式文档一般可以通过解析其层次结构获得篇章语义的解析,但是对于很多doc、txt、pdf等格式的文件而言,它们没有层次结构,而要人工进行标注的话是不现实的,因此需要开发一种篇章语义的自动识别的方法。
3.目前,现有基于上下文无关的0型句子语义识别技术不能识别具有严格层次和逻辑关系的篇章语义,现有句子级的处理技术是把句子当作一个独立的0型语义单元处理,不考虑句子的上下文的语境,不考虑句子在文章中的位置,这对于类似分词、词性标注这种简单语义的情况是可以的。但是在篇章语义的情况下,整个篇-章-节-段-句作为一个整体组织在一起才能完整地表达场景,其中篇-章-节-段都是由多句子组成,句子之间的顺序决定了句子的意义,句子在相应的层次结构中取得语义,离开了这个结构,句子的意义是不明确的。篇-章-节-段-句在工程上对应着不同粒度的场景,比如在石化业务中对应着业务域-业务主题-研究对象-业务活动等,或者和国家-总公司-分公司-研究室这样的层次结构对应。由于在工程中句子只是最小的语义单元代表最小的活动或者功能,它不能独立于整个活动的框架而孤立地存在,这意味着句子要和它的上下文一起进行分析才能决定句子的篇章语义。
4.此外,现有的算法无论是统计学习还是深度学习都无法处理长句子。工程中的单句子一般都很长,而多句子连接起来就更长,比如常见的2个句子“本井由地质录井二分公司sl223录井队承担地质录井任务,按设计要求自二开至井底进行了钻时、综合录井、岩屑、井壁取心、荧光、钻井液、岩石热解地化、二维定量荧光、岩矿鉴定、罐顶气轻烃气相色谱分析、热蒸发烃色谱、核磁共振、古生物分析、荧光薄片等各项录井工作,全井工作量统计见表1,施工过程中还进行了迟到时间及泥(页)岩密度的测定,并在钻井过程中及时完成岩样汇集工作。录井过程中sl-advantage型综合录井仪工作正常,充分发挥了综合录井仪各项采集功能,齐全准确地收集了各项地质资料、气测资料及工程参数,圆满完成了设计任务。”其中第一句包含180个字符,在专业文献中,句子一般都很长,平均在80个字以上,一句就超出了统计学习或者crf的输入句子宽度小于50个字符的限制,更无法处理连续几句连接在一起的段落。crf由于只能处理就近+-4个字符之间的关联,算法机理上对长程关联处理能力弱;深度学习在输入符数大于100之后,计算2阶梯度矩阵的运算量非常大,不能满足系统速
度性能的要求。
技术实现要素:
5.本发明的目的在于提供一种基于句子关联的篇章语义自动识别方法及系统,旨在解决现有技术中的上述问题。
6.本发明提供一种基于句子关联的篇章语义自动识别方法,包括:
7.按照篇章在标注语料中构建原始句子和篇章语义的对应关系,其中,所述篇章语义按照篇-章-节-段-句-槽的层次形式保存;
8.对所述原始句子进行缩并得到新句子,构建新句子和篇章语义的对应关系,将所述新句子和对应的语义标签按照字典的形式保存为1列,生成语义字典;
9.对所述语义字典进行字典标注,将所述标注字典中的序列按字输出句子和语义标签2列,根据按字输出的2列句子和语义标签,进行crf模型的训练,构建crf模型;
10.通过所述crf模型对输入文档进行语义标签预测,通过所述语义字典对输入文档进行语义标签预测,以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述crf模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签。
11.本发明提供一种基于句子关联的篇章语义自动识别系统,包括:
12.数据层,用于保存生的标注语料、语义字典、篇章语义文档、以及标注后熟的标注语料;
13.数据处理层,用于按照篇章在标注语料中构建原始句子和篇章语义的对应关系,其中,所述篇章语义按照篇-章-节-段-句-槽的层次形式保存;对所述原始句子进行缩并得到新句子,构建新句子和篇章语义的对应关系,将所述新句子和对应的语义标签按照字典的形式保存为1列,生成语义字典;对所述语义字典进行字典标注,将所述标注字典中的序列按字输出句子和语义标签2列,根据按字输出的2列句子和语义标签,进行crf模型的训练,构建crf模型;通过所述crf模型对输入文档进行语义标签预测,通过所述语义字典对输入文档进行语义标签预测,以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述crf模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签;
14.应用层,用于实现与用户的交互操作。
15.采用本发明实施例,将复杂层次结构等效为单层的序列进行处理,能够实现对无标签文献的篇章语义识别,恢复了纯本文文献的层次结构,重新赋予了文本篇章语义,提高了人们对文献的理解能力,扩大了人们认识世界的视野。
16.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
17.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的
附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1是本发明实施例的基于句子关联的篇章语义自动识别方法的流程图;
19.图2是本发明实施例的基于句子关联的篇章语义自动识别方法的系统结构示意图;
20.图3a是本发明实施例的带有层次结构的文档的示意图;
21.图3b是本发明实施例的不带有层次结构的文档的示意图;
22.图4a是本发明实施例的语义字典结构的示意图;
23.图4b是本发明实施例的语义字典结构实例的示意图;
24.图5是本发明实施例的篇章语义的构成结构示意图;
25.图6是本发明实施例的标注语料格式的示意图;
26.图7a是本发明实施例的标注语料的示意图;
27.图7b是本发明实施例的crf模型预测所需2列文本格式的示意图;
28.图8是本发明实施例的crf++模型构建界面的示意图;
29.图9是本发明实施例的后处理结果的示意图;
30.图10是本发明实施例的基于句子关联的篇章语义自动识别方法的详细流程图;
31.图11是本发明实施例的标注字典格式的示意图;
32.图12a是本发明实施例的原始句子缩并的示意图;
33.图12b是本发明实施例的单列输入文件的示意图;
34.图12c是本发明实施例的预测2列结果的示意图。
具体实施方式
35.下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
36.在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
37.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。此外,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
38.方法实施例
39.根据本发明实施例,提供了一种基于句子关联的篇章语义自动识别方法,图1是本发明实施例的基于句子关联的篇章语义自动识别方法的流程图,如图1所示,根据本发明实施例的基于句子关联的篇章语义自动识别方法具体包括:
40.步骤101,按照篇章在标注语料中构建原始句子和篇章语义的对应关系,其中,所述篇章语义按照篇-章-节-段-句-槽的层次形式保存;在步骤101中,具体地:读取标注语料,以篇为单位将章节名称和句子整合为1列,调用篇章语义字典,确定篇章名称对应的语义标签,并从所述标注语料中获取句子语义,将所述章节语义和所述句子语义叠加为1列。
41.步骤102,对所述原始句子进行缩并得到新句子,构建新句子和篇章语义的对应关系,将所述新句子和对应的语义标签按照字典的形式保存为1列,生成语义字典;具体地:对所述原始句子取前后n个字构成缩减后的新句子,将句子前后m句相加为复合的新句子,对所述新句子中的特殊符号进行处理;将新句子和语义标签按照字典的形式保存为1列,生成语义字典。
42.步骤103,对所述语义字典进行字典标注,将所述标注字典中的序列按字输出句子和语义标签2列,根据按字输出的2列句子和语义标签,进行crf模型的训练,构建crf模型;具体地,将所述语义字典按照长词优先排序,建立句子的词序列和对应的语义替换序列,将所述序列按字输出2列保存,其中,两列中间用制表符分开;在cmd下运行crf_learn.exe template crf_in.txt crf_model,通过对输入的crf_in.txt文件进行运算,进行crf模型的训练,构建名为crf_model的crf模型。
43.步骤104,通过所述crf模型对输入文档进行语义标签预测,通过所述语义字典对输入文档进行语义标签预测,以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述crf模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签。具体地,读取输入文档,将所述输入文档处理到句子粒度,并进行缩并得到新句子,将所述新句子变换为1列,在cmd下执行crf_test-m crf_model crf_test.txt》crf_result.txt,应用crf模型计算出输出结果,根据输出结果将句子中出现最多的语义标签作为句子的语义标签;采用原始句子,从篇章语义字典和句子语义字典中查询所述原始句子的语义标签;以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述crf模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签。
44.在本发明实施例中,上述方法进一步包括:获取修改后的所述最终语义标签,将其作为标注语料进行保存。
45.以下结合附图,对本发明实施例的技术方案进行详细说明。
46.本发明实施例的技术方案提出基于句子关联的篇章语义自动识别方法,将复杂层次结构等效为单层的序列进行处理,具体如下:
47.首先,建立文献的章-节-段-句-槽顺序排列的层次结构的篇章语义,篇章语义采用层次结构而不采用相互关联的图语义的定义方式,因为树形结构可以等效为序列结构,将对树的层次的处理等效为对叶子节点这个序列的处理。分层结构的树是复杂系统的结构特征,代表人的思维模式,也是知识体系的常用表达方式。将整个输入的标注语料进行预处理,建立所有句子和其对应的语义的序列表;
48.其次,对于句子之间的逻辑关系,将句子的前后句子(+-1句)合并在一起成为一个
长句,对这个长句进行crf建模。对于单个句子而言,句子不能随便挪动位置,体现了句子必须满足篇章的要求,这不满足crf假设的句子可以随便挪动位子的假设;3个句子组合成的长句是可以随便移动位置的,与上下文无关,这就满足了crf的要求,同时上下句子由带有框架信息,因此融合的长句既满足了crf算法的要求也满足了篇章语义对于句子的要求。前后关联的句子数目依据实际情况可以在(-4,+4)之间进行调整。由于在篇章语义中,句子之间的顺序或者关联是最重要的因素,而句子本身的内容或者句子的长短并不影响句子之间的连接,因此,改造句子的长度,只取句子前后各n=5~10个字符组成短句,这样3个句子串接起来不超过60个字符,这是任何算法都能适用的长度,组合句子可以满足crf模型对句子长度的要求;
49.最后,对整个文献篇章语义采用采用2种方法进行后处理,首先采用字典查询,使得人的先验知识得以继承,查询与样本量无关;其次,对于无法查出句子语义标签的句子,采用crf模型识别句子的篇章语义标签,赋予句子一个有置信度的语义标签。
50.如图2所示,根据本发明实施例的一种基于句子关联的篇章语义自动识别方法的网络结构包括:数据层1、数据处理层2和应用层3。数据层1的功能是实现文件的存储、读写、修改等,包含生语料文档、语义字典、篇章语义文档和文档和标注后的熟语料库4部分;数据处理层2实现根据熟语料建立和应用crf语义模型,实现生语料的语义预测,包括数据预处理、建立crf语义模型、crf语义模型预测、预测结果后处理等4部分;应用层3实现与用户的交互操作,包括读取文献、编辑word文档、保存标注文档3个部分,其中对于文档的多层次编辑和可视化采用word进行。
51.该数据层1由生语料文档1-1、语义字典1-2、篇章语义文档1-3和文档和标注后的熟语料库1-4部分组成。所述生语料文档1-1的格式如图3所示,图3a是一个带有层次结构的word文档,图3b是一个没有任何层次结构的txt文档,自动篇章语义识别的目标就是使给图3b文档加上跟图3a一样的层次结构。所述语义字典1-2的格式如图4所示,图4列出了字典名称及其对应的字段,在篇-章-节字典中,需要包含篇-章-节对应的级别;在段落语义字典中,需要包含一列句子语义组合,段落语义的识别也氛围根据原文的识别和根据句子于一组合进行识别2种方法。由于段落有时候很长,因此多数情况下根据原文识别是不现实的,而采用根据句子语义组合进行识别有实现的优势。所述篇章语义文档1-3是最后所有文档的共性的文档模板,也是最后文档中每一句的分层标签,如图5所示。所述篇章标注熟语料1-4保存对每篇文献的所有结果,其结构如图6所示。标注语料的格式采用表格进行存储,包含word文本-表格排序、标题、标题级别、正文段落、表的序号、段落文本、图片张数、heading n、标题模板、heading n_篇章语义、段落语义、句子拆分文本、句子语义、ner-模式和对象语义、对象、句子-图-表语义等字段,这些字段是通过word文档的拆分和标注后得到的全信息表,通过它可以实现不同文档格式的转换。crf语义模型构建语料由图5的相关字段整合得到。
52.所述数据处理层2由数据预处理2-1、建立crf语义模型2-2、crf语义模型预测2-3、预测结果后处理2-4等4部分组成。其中所述数据预处理2-1对熟语料进行扩展-缩并处理成图7a的形式,然后对语料进行自动标注,建立crf模型所需要的输入样本数据;对输入的word文档以句子为粒度进行索引并处理成crf模型需要的2列模式,如图7b所示。所述建立crf语义模型2-2的任务是根据选定的模板建立crf语义模型,优化crf参数以满足算法容量
72.需要注意的是,句子整合为一句,但是篇章语义标签不整合,还用“吉木萨尔凹##1-1)。”对应的语义标签。
73.步骤2-3:句子中特殊符号处理
74.在crf对数据有一些特殊的要求,比如空格不能出现。为此,我们将所有标点符号全部替换,只保留纯文本,这些符号主要是正则符号和中文标点符号,如reg='.\^$*+?{}[]|()。-(),:?、/;_~
“”
'。替换后,“1.1油##及环境条件@@吉木萨尔凹##1-1)。@@地表为草地##660m。”变成“11油##及环境条件@@吉木萨尔凹##11@@地表为草地##660m”。
[0075]
在篇章语义标签中一般会采用如“1.2井位部署”这样带有标点和空格的人完全能理解的格式,但是为满足crf算法的要求,这些语义标签中的特殊字符也要相应替换。
[0076]
步骤2-4:构建标注字典
[0077]
将句子和语义标签按照字典的形式保存,比如“11油##及环境条件@@吉木萨尔凹##11@@地表为草地##660m/油藏位置及环境条件”,其中用“/”来打标签是自然语言通用的一种方式,很多方法都可以借鉴已有的方法模块。
[0078]
步骤3:字典标注
[0079]
字典标注是自然语言标注的基本方法,其中字典条目要求具有唯一性,这一般是通过加长词的长度实现的。字典标注的结果是给句子打上语义标签。
[0080]
步骤3-1:字典按照长词优先排序
[0081]
长词一般具有更准确的语义,能更准确的描述人的想法,因此,长词优先是有认识论基础的。采用pandas中dataframe的sort_values方法实现排序,排序后的格式如图11所示。
[0082]
步骤3-2:建立句子的词序列和对应的语义替换序列:
[0083]
按照最长词优先建立句子序列和标签序列,比如将“11油##及环境条件@@吉木萨尔凹##11@@地表为草地##660m&@@目录@@1钻完井基本情况&塔里木盆地”变换为2个序列,word:[1油##及环境条件@@吉木萨尔凹##11@@地表为草地##660m,&,@@目录@@1钻完井基本情况,&塔里木盆地],label:[bmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmme,n,bmmmmmmmmmmmme,nnnnnn]。
[0084]
步骤3-3:序列按字输出2列保存:
[0085]
将上述2列输出为图7b所示的crf模型需要的输入格式,两列中间用制表符分开。
[0086]
步骤4:构建crf模型
[0087]
在cmd下运行crf_learn.exe template crf_in.txt crf_model,通过对输入的crf_in.txt文件进行运算,正确运算的界面如图8所示,得到的模型名为crf_model。
[0088]
步骤5:模型预测
[0089]
应用建立的crf模型,对输入的文档进行语义标签预测。
[0090]
步骤5-1:读取原始语料文档
[0091]
读取一篇图3b所示的没有语义层级的文献,处理到句子粒度。
[0092]
步骤5-2:按句前后句缩并处理
[0093]
该部分处理跟2-1和2-2一样,也是为了减少计算量,如图12a所示。
[0094]
一个选项是不处理,直接用原始句子进行预测,实际效果基本一样。
[0095]
步骤5-3:变换成单列
[0096]
图7b是语料要整理成2列,因为语义标签是已知的。
[0097]
本步骤中语义标签是需要预测的,因此,只有原始文献的1列,如图12b所示。
[0098]
步骤5-4:crf模型计算语义标签
[0099]
在cmd下执行crf_test-m crf_model crf_test.txt》crf_result.txt,应用crf模型将输入的经过变换的文献计算出输出结果,如图12c所示。
[0100]
步骤5-5:取最多的语义标签作为句子的标签
[0101]
与传统的bmeo要标出词的位置的用法不同,这里只需要确定句子中出现最多的标签就是整个句子的标签,将结果合并到图9的“crf预测结果”列。一个选项是确认中间句的最多标签作为句子的标签。
[0102]
步骤6:后处理
[0103]
对字典匹配的句子标签和计算的标签进行统一处理。
[0104]
步骤6-1:根据语义字典赋予语义
[0105]
采用原始句子,不能采用缩并句子,从篇章语义字典和句子语义字典中查询句子的语义,匹配结果见图9中的“字典匹配结果”列。字典匹配跟样本量无关,代表人对事物的先验认识,是最准确的知识。
[0106]
步骤6-2:字典和预测融合
[0107]
以字典结果优先和crf预测结果进行融合,结果见图9的“最终语义”列。
[0108]
步骤7:添加到语料文件
[0109]
在word中检查计算结果并进行修改,将修改后的文档作为语料保存到图6所示的文档中,作为新的标注语料,通过不断累积语料库,不断提升自动篇章语义识别的准确率。
[0110]
这一步作为整个篇章语义自动识别的循环是不可缺少的一环,自然语言处理最终依靠样本量的大小提高识别准确率。
[0111]
综上所述,借助于本发明实施例的技术方案,将复杂层次结构等效为单层的序列进行处理,能够实现对无标签文献的篇章语义识别,恢复了纯本文文献的层次结构,重新赋予了文本篇章语义,提高了人们对文献的理解能力,扩大了人们认识世界的视野。
[0112]
系统实施例
[0113]
根据本发明实施例,提供了一种基于句子关联的篇章语义自动识别系统,如图2所示,根据本发明实施例的基于句子关联的篇章语义自动识别系统具体包括:
[0114]
数据层1,用于保存生的标注语料、语义字典、篇章语义文档、以及标注后熟的标注语料;
[0115]
数据处理层2,用于按照篇章在标注语料中构建原始句子和篇章语义的对应关系,其中,所述篇章语义按照篇-章-节-段-句-槽的层次形式保存;对所述原始句子进行缩并得到新句子,构建新句子和篇章语义的对应关系,将所述新句子和对应的语义标签按照字典的形式保存为1列,生成语义字典;对所述语义字典进行字典标注,将所述标注字典中的序列按字输出句子和语义标签2列,根据按字输出的2列句子和语义标签,进行crf模型的训练,构建crf模型;通过所述crf模型对输入文档进行语义标签预测,通过所述语义字典对输入文档进行语义标签预测,以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述crf模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签;所述数据处理层2具体用于:
[0116]
读取标注语料,以篇为单位将章节名称和句子整合为1列,调用篇章语义字典,确定篇章名称对应的语义标签,并从所述标注语料中获取句子语义,将所述章节语义和所述句子语义叠加为1列;
[0117]
对所述原始句子取前后n个字构成缩减后的新句子,将句子前后m句相加为复合的新句子,对所述新句子中的特殊符号进行处理;
[0118]
将新句子和语义标签按照字典的形式保存为1列,生成语义字典;
[0119]
将所述语义字典按照长词优先排序,建立句子的词序列和对应的语义替换序列,将所述序列按字输出2列保存,其中,两列中间用制表符分开;
[0120]
在cmd下运行crf_learn.exe template crf_in.txt crf_model,通过对输入的crf_in.txt文件进行运算,进行crf模型的训练,构建名为crf_model的crf模型;
[0121]
读取输入文档,将所述输入文档处理到句子粒度,并进行缩并得到新句子,将所述新句子变换为1列,在cmd下执行crf_test-m crf_model crf_test.txt》crf_result.txt,应用crf模型计算出输出结果,根据输出结果将句子中出现最多的语义标签作为句子的语义标签;
[0122]
采用原始句子,从篇章语义字典和句子语义字典中查询所述原始句子的语义标签;
[0123]
以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述crf模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签。
[0124]
应用层3,用于实现与用户的交互操作。所述应用层3具体用于:
[0125]
获取修改后的所述最终语义标签,将其作为标注语料保存到所述数据层。
[0126]
读取输入文档、编辑word文档。
[0127]
本发明实施例是与上述方法实施例对应的系统实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
[0128]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0129]
在20世纪30年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmable logic device,pld)(例如现场可编程门阵列(field programmable gate array,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言
(hardware description language,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advanced boolean expression language)、ahdl(altera hardware description language)、confluence、cupl(cornell university programming language)、hdcal、jhdl(java hardware description language)、lava、lola、myhdl、palasm、rhdl(ruby hardware description language)等,目前最普遍使用的是vhdl(very-high-speed integrated circuit hardware description language)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
[0130]
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc 625d、atmel at91sam、microchip pic18f26k20以及silicone labs c8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
[0131]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0132]
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0133]
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0134]
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0135]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特
定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0136]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0137]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0138]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0139]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0140]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0141]
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0142]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0143]
以上所述仅为本文件的实施例而已,并不用于限制本文件。对于本领域技术人员来说,本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本文件的权利要求范围之内。
技术特征:
1.一种基于句子关联的篇章语义自动识别方法,其特征在于,包括:按照篇章在标注语料中构建原始句子和篇章语义的对应关系,其中,所述篇章语义按照篇-章-节-段-句-槽的层次形式保存;对所述原始句子进行缩并得到新句子,构建新句子和篇章语义的对应关系,将所述新句子和对应的语义标签按照字典的形式保存为1列,生成语义字典;对所述语义字典进行字典标注,将所述标注字典中的序列按字输出句子和语义标签2列,根据按字输出的2列句子和语义标签,进行crf模型的训练,构建crf模型;通过所述crf模型对输入文档进行语义标签预测,通过所述语义字典对输入文档进行语义标签预测,以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述crf模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签。2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:获取修改后的所述最终语义标签,将其作为标注语料进行保存。3.根据权利要求1所述的方法,其特征在于,按照篇章在标注语料中构建原始句子和篇章语义的对应关系具体包括:读取标注语料,以篇为单位将章节名称和句子整合为1列,调用篇章语义字典,确定篇章名称对应的语义标签,并从所述标注语料中获取句子语义,将所述章节语义和所述句子语义叠加为1列。4.根据权利要求1所述的方法,其特征在于,对所述原始句子进行缩并得到新句子,构建新句子和篇章语义的对应关系,将所述新句子和对应的语义标签按照字典的形式保存为1列,生成语义字典具体包括:对所述原始句子取前后n个字构成缩减后的新句子,将句子前后m句相加为复合的新句子,对所述新句子中的特殊符号进行处理;将新句子和语义标签按照字典的形式保存为1列,生成语义字典。5.根据权利要求1所述的方法,其特征在于,对所述语义字典进行字典标注,将所述标注字典中的序列按字输出句子和语义标签2列,根据按字输出的2列句子和语义标签,进行crf模型的训练,构建crf模型具体包括:将所述语义字典按照长词优先排序,建立句子的词序列和对应的语义替换序列,将所述序列按字输出2列保存,其中,两列中间用制表符分开;在cmd下运行crf_learn.exe template crf_in.txt crf_model,通过对输入的crf_in.txt文件进行运算,进行crf模型的训练,构建名为crf_model的crf模型。6.根据权利要求1所述的方法,其特征在于,通过所述crf模型对输入文档进行语义标签预测,通过所述语义字典对输入文档进行语义标签预测,以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述crf模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签具体包括:读取输入文档,将所述输入文档处理到句子粒度,并进行缩并得到新句子,将所述新句子变换为1列,在cmd下执行crf_test-m crf_model crf_test.txt>crf_result.txt,应用crf模型计算出输出结果,根据输出结果将句子中出现最多的语义标签作为句子的语义标签;
采用原始句子,从篇章语义字典和句子语义字典中查询所述原始句子的语义标签;以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述crf模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签。7.一种基于句子关联的篇章语义自动识别系统,其特征在于,包括:数据层,用于保存生的标注语料、语义字典、篇章语义文档、以及标注后熟的标注语料;数据处理层,用于按照篇章在标注语料中构建原始句子和篇章语义的对应关系,其中,所述篇章语义按照篇-章-节-段-句-槽的层次形式保存;对所述原始句子进行缩并得到新句子,构建新句子和篇章语义的对应关系,将所述新句子和对应的语义标签按照字典的形式保存为1列,生成语义字典;对所述语义字典进行字典标注,将所述标注字典中的序列按字输出句子和语义标签2列,根据按字输出的2列句子和语义标签,进行crf模型的训练,构建crf模型;通过所述crf模型对输入文档进行语义标签预测,通过所述语义字典对输入文档进行语义标签预测,以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述crf模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签;应用层,用于实现与用户的交互操作。8.根据权利要求7所述的系统,其特征在于,所述应用层具体用于:获取修改后的所述最终语义标签,将其作为标注语料保存到所述数据层。9.根据权利要求7所述的系统,其特征在于,所述应用层具体用于:读取输入文档、编辑word文档。10.根据权利要求7所述的系统,其特征在于,所述数据处理层具体用于:读取标注语料,以篇为单位将章节名称和句子整合为1列,调用篇章语义字典,确定篇章名称对应的语义标签,并从所述标注语料中获取句子语义,将所述章节语义和所述句子语义叠加为1列;对所述原始句子取前后n个字构成缩减后的新句子,将句子前后m句相加为复合的新句子,对所述新句子中的特殊符号进行处理;将新句子和语义标签按照字典的形式保存为1列,生成语义字典;将所述语义字典按照长词优先排序,建立句子的词序列和对应的语义替换序列,将所述序列按字输出2列保存,其中,两列中间用制表符分开;在cmd下运行crf_learn.exe template crf_in.txt crf_model,通过对输入的crf_in.txt文件进行运算,进行crf模型的训练,构建名为crf_model的crf模型;读取输入文档,将所述输入文档处理到句子粒度,并进行缩并得到新句子,将所述新句子变换为1列,在cmd下执行crf_test-m crf_model crf_test.txt>crf_result.txt,应用crf模型计算出输出结果,根据输出结果将句子中出现最多的语义标签作为句子的语义标签;采用原始句子,从篇章语义字典和句子语义字典中查询所述原始句子的语义标签;以根据所述语义字典确定的语义标签为优先,将通过所述语义字典查询到的语义标签和所述crf模型预测到的语义标签进行融合,得到所述输入文档的最终语义标签。
技术总结
本发明公开了一种基于句及子关联的篇章语义自动识别方法及系统,方法包括:按照篇章在标注语料中构建原始句子和篇章语义的对应关系;对原始句子进行缩并得到新句子,构建新句子和篇章语义的对应关系,将新句子和对应的语义标签按照字典的形式保存为1列,生成语义字典;对语义字典进行字典标注,将标注字典中的序列按字输出句子和语义标签2列,根据按字输出的2列句子和语义标签,进行CRF模型的训练,构建CRF模型;通过CRF模型对输入文档进行语义标签预测,通过语义字典对输入文档进行语义标签预测,以根据语义字典确定的语义标签为优先,将通过语义字典查询到的语义标签和CRF模型预测到的语义标签进行融合,得到输入文档的最终语义标签。的最终语义标签。的最终语义标签。
技术研发人员:侯志强 谭培波 任骥 刘锋 王坚 马青
受保护的技术使用者:北京智通云联科技有限公司
技术研发日:2021.08.25
技术公布日:2022/3/8