1.本技术涉及人工智能技术领域,尤其涉及一种语句复述方法和语句复述装置。
背景技术:
2.随着人工智能技术的不断发展,让人机之间能够通过自然语言进行交互的自然语言人机交互系统变的越来越重要。人机之间能够通过自然语言进行交互,就需要系统能够识别出人类自然语言的具体含义。复述(paraphrase)是指对于语句进行相同语义的不同表达,在自然语言处理(natural language processing,nlp)领域里,复述也得到了越来越广泛的应用。
3.在相关技术中,目前主要采用大量人工标注的复述句对进行模型训练的方法,如此得到的复述模型,将会导致复述模型生成过程复杂,而且也不能控制复述语句的句法结构风格,在模型构建和应用上都存在一些不足。
技术实现要素:
4.本技术提出一种语句复述方法和语句复述装置,本技术的技术方案是这样实现的:
5.第一方面,本技术实施例提供了一种语句复述方法,该方法包括:
6.获取输入语句;
7.将所述输入语句输入到复述模型,以基于至少一个目标句法结构生成至少一个目标复述语句;
8.其中,所述目标复述语句的句法结构与所述目标句法结构一致,以及所述目标复述语句与所述输入语句具有相同语义。
9.第二方面,本技术实施例提供了一种语句复述装置,包括:
10.获取单元,配置为获取输入语句;
11.复述单元,配置为将所述输入语句输入到复述模型,以基于至少一个目标句法结构生成至少一个目标复述语句;其中,所述目标复述语句的句法结构与所述目标句法结构一致,以及所述目标复述语句与所述输入语句具有相同语义。
12.第三方面,本技术实施例提供了一种电子设备,包括存储器和处理器;其中,
13.所述存储器,用于存储能够在所述处理器上运行的计算机程序;
14.所述处理器,用于在运行所述计算机程序时,执行如第一方面所述的方法。
15.第四方面,本技术实施例提供了一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时实现如第一方面所述的方法。
16.本技术实施例所提供了一种语句复述方法和语句复述装置,获取输入语句;将所述输入语句输入到复述模型,以基于至少一个目标句法结构生成至少一个目标复述语句;其中,所述目标复述语句的句法结构与所述目标句法结构一致,以及所述目标复述语句与
所述输入语句具有相同语义。这样,针对一个输入语句可以输出语义相同、句法结构不同的多个复述语句,而且能够提高复述语句的句法结构可控性,同时还能够提高复述语句的多样性和复述语句的质量。
附图说明
17.图1为本技术实施例提供的一种语句复述方法的流程示意图;
18.图2为本技术实施例提供的另一种语句复述方法的流程示意图;
19.图3为本技术实施例提供的一种复述模型的训练过程示意图;
20.图4为本技术实施例提供的一种句法结构的编码过程示意图;
21.图5为本技术实施例提供的另一种复述模型的训练过程示意图;
22.图6为本技术实施例提供的一种语句复述装置的组成结构示意图;
23.图7为本技术实施例提供的一种电子设备的具体硬件结构示意图;
24.图8为本技术实施例提供的一种电子设备的组成结构示意图。
具体实施方式
25.为了能够更加详尽地了解本技术实施例的特点与技术内容,下面结合附图对本技术实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本技术实施例。
26.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
27.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。还需要指出,本技术实施例所涉及的术语“第一\第二\第三”仅是用于区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
28.可以理解,复述生成的任务是指把文本a改写成文本b,要求文本b采用与文本a略有差异的表述方式来表达与之意思相近的文本,复述生成是自然语言处理(nlp)中的一项重要技术,被广泛应用在自动问答、机器翻译、自动文摘等任务中复述的本质是语言的多样性。近年来,句法可控的复述生成方法受到越来越多的关注,它可以通过施加额外的句法控制进而生成句法多样的复述。但这些方法需要大量人工标注的原始句子与复述句子的句对来训练模型,这限制了模型的构建和大规模应用。
29.为了摆脱对人工标注数据的依赖,首先提出句法注入的变分自编码器,通过引入两个隐变量来分别捕获语义特征和句法特征,将这两个隐变量喂入解码器来产生输出。在模型训练阶段,模型通过自监督方式进行训练;生成阶段,对于同一个语义变量,给定不同句法变量来生成不同的输出。但这种方法仅通过自监督方式来训练导致解码器容易忽略句法隐变量,从而带来较低的句法可控性。
30.基于此,进一步提出了一种语句复述方法,该方法的基本思想是:获取输入语句;将所述输入语句输入到复述模型,以基于至少一个目标句法结构生成至少一个目标复述语
句;其中,所述目标复述语句的句法结构与所述目标句法结构一致,以及所述目标复述语句与所述输入语句具有相同语义。这样,针对一个输入语句可以输出语义相同、句法结构不同的多个复述语句,而且能够提高复述语句的句法结构可控性,同时还能够提高复述语句的多样性和复述语句的质量。
31.本技术的一实施例中,参见图1,其示出了本技术实施例提供的一种语句复述方法的流程示意图。如图1所示,该方法可以包括:
32.s101:获取输入语句。
33.需要说明的是,本技术实施例提供的语句复述方法可以应用于需要进行语句复述的装置,或者集成有该装置的电子设备。这里,电子设备可以是诸如计算机、智能手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(personal digital assistant,pda)、导航装置、服务器等等,本技术实施例对此不作具体限定。
34.还需要说明的是,输入语句具体指在语句复述过程中的待复述语句,输入语句可以为词汇、短语或句子,同时,输入语句也可以为各种语言,本技术实施例对此不作具体限定。
35.s102:将所述输入语句输入到复述模型,以基于至少一个目标句法结构生成至少一个目标复述语句;其中,所述目标复述语句的句法结构与所述目标句法结构一致,以及所述目标复述语句与所述输入语句具有相同语义。
36.需要说明的是,将输入语句输入到复述模型的过程中,可以得到一个或多个目标复述语句。其中,目标复述语句可以为词汇、短语或句子,同时,目标复述语句也可以为各种语言,本技术实施例对此并不限定。
37.具体来讲,在复述过程中,既可以对输入语句限定目标句法结构,使得复述模型生成目标句法结构对应的目标复述语句,也可以不对输入语句限定目标句法结构,使得复述模型生成复述模型所包含的一个或多个句法结构对应的目标复述语句。
38.还需要说明的是,在限定目标句法结构的情况下,针对不同的输入语句,在复述过程中,既可以限定不同的目标句法结构,也可以针对这些输入语句限定相同的目标句法结构,本技术实施例不作任何限定。
39.在一些实施例中,所述将所述输入语句输入到复述模型,以基于至少一个目标句法结构生成至少一个目标复述语句,至少可以包括以下的其中一种:
40.将所述输入语句和所述至少一个目标句法结构输入到复述模型,以基于所述至少一个目标句法结构生成至少一个目标复述语句;
41.将所述输入语句输入到复述模型,以基于所述复述模型中的至少一个目标句法结构生成至少一个目标复述语句。
42.需要说明的是,在具体实施过程中,对于一个输入语句而言,可以限定一个对应的目标句法结构,基于一个目标句法结构和输入语句可以生成采用目标句法结构的一个目标复述语句;也可以限定多个对应的目标句法结构,基于多个目标句法结构和输入语句可以生成采用多个目标句法结构的多个目标复述语句,其中目标语法结构和目标复述语句存在一一对应关系;还可以不限定目标句法结构,根据输入语句和复述模型中的一个或多个句法结构,生成一个或多个目标复述语句。此外,进一步地,后续还可以根据这一个或多个目标复述语句与输入语句之间的相似度值,然后从这一个或多个目标复述语句中选取最终的
复述语句。
43.在一些实施例中,所述将所述输入语句和所述至少一个目标句法结构输入到复述模型,可以包括:
44.确定所述输入语句对应的语句编码结果;
45.确定所述至少一个目标句法结构对应的至少一个句法编码结果;
46.根据所述语句编码结果和至少一个所述句法编码结果,以基于所述至少一个目标句法结构生成至少一个目标复述语句。
47.需要说明的是,在限定目标句法结构的情况下,可以对输入语句进行编码得到语句编码结果,并根据目标句法结构在复述模型中获取到句法编码结果,在句法编码结果的指导下对语句编码结果进行复述,从而得到目标复述语句;在不限定目标句法结构的情况下,可以对输入语句进行编码得到语句编码结果,然后在复述模型中存在的句法结构中,确定一个或者多个句法结构对应的句法编码结果,在句法编码结果的指导下对语句编码结果进行复述,从而得到目标复述语句。
48.在一些具体的实施例中,所述确定所述输入语句对应的语句编码结果,可以包括:
49.对所述输入语句进行分词处理,得到若干个词语;并利用门控循环单元(gated recurrent unit,gru)对所述若干个词语进行处理,得到初步处理结果;对所述初步处理结果进行线性变换处理,得到所述语句编码结果;
50.所述确定所述至少一个目标句法结构对应的至少一个句法编码结果,包括:
51.根据所述至少一个目标句法结构,从所述复述模型中获取所述至少一个目标句法结构对应的句法编码结果。
52.还需要说明的是,在语句编码结果的获取中,不管限定还是不限定目标句法结构,都需要对输入语句进行编码处理得到语句编码结果,在句法编码结果的获取中,在限定了目标句法结构的情况下,需要根据目标句法结构从复述模型中获取对应的句法编码结果,在不限定目标句法结构的情况下,直接从复述模型中获取一个或者多个句法编码结果,在具体地获取过程中,可以采用随机或者轮流或者全选或者其他满足用户需求的方式,在此不作任何限定。
53.在本技术实施例中,复述模型可以包括语句编码器、树编码器和解码器。其中,对输入语句进行编码的语句编码器采用双向gru网络,而复述模型中的解码器和树编码器采用单向gru网络
54.在一些实施例中,参见图2,其示出了另一种语句复述方法的流程示意图。即复述模型的训练过程,如图2所示,该方法还可以包括:
55.s201:获取样本集,其中,所述样本集包括至少一个样本语句和至少一个与所述样本语句的句法结构一致的第一样本句法结构。
56.需要说明的是,至少一个样本语句和至少一个第一样本句法结构之间存在关联关系,在样本集中样本句法结构及样本语句是成对出现的。
57.s202:根据所述至少一个样本语句和所述至少一个第一样本句法结构进行模型训练,得到复述模型。
58.在一些实施例中,所述根据所述至少一个样本语句和所述至少一个第一样本句法结构进行模型训练,得到所述复述模型,可以包括:
59.根据所述至少一个样本语句和所述至少一个第一样本句法结构进行模型训练,得到子复述模型;
60.根据所述至少一个样本语句和与所述样本语句的句法结构非一致的第二样本句法结构对所述子复述模型进行训练,得到所述复述模型。
61.需要说明的是,根据所述至少一个样本语句和所述至少一个第一样本句法结构进行模型训练,得到子复述模型的过程中,需要采用句子编码器对至少一个样本语句进行编码处理,以及采用树编码器对至少一个第一样本句法结构进行编码处理,得到子复述模型。
62.还需要说明的是,需要根据第二样本句法结构对子复述模型进行重构训练,验证和调整复述模型的准确性。
63.在一些具体地实施例中,所述根据所述至少一个样本语句和所述至少一个第一样本句法结构进行模型训练,得到子复述模型,可以包括:
64.利用所述语句编码器对所述第一样本语句进行编码处理,得到语句编码结果;
65.利用所述树编码器对所述第一样本句法结构进行编码处理,得到句法编码结果;
66.利用所述解码器对所述语句编码结果和所述句法编码结果进行解码处理,以得到子复述模型。
67.需要说明的是,对训练集中的若干个样本语句和样本句法结构进行编码处理,其中,语句编码器(也可称为“句子编码器”)采用双向gru网络,解码器和树编码器采用单向gru网络。
68.在一些实施例中,所述利用所述语句编码器对所述第一样本语句进行编码处理,得到语句编码结果,可以包括:
69.对所述第一样本语句进行分词处理,得到若干个词语;
70.利用双向gru网络对所述若干个词语进行处理,得到初步处理结果;
71.对所述初步处理结果进行线性变换处理,得到所述语句编码结果。
72.在一些实施例中,所述利用所述树编码器对所述第一样本句法结构进行编码处理,得到句法编码结果,可以包括:
73.获取所述第一样本句法结构对应的句法树;
74.对所述句法树进行结构抽取处理,得到句法模板;其中,所述句法模板包括根节点、句子节点和叶子节点;
75.对所述句法模板采用自顶向下方式编码,得到所述叶子节点的编码结果;
76.对所述叶子节点的编码结果采用自左到右方式编码,得到所述句法编码结果。
77.在一些实施例中,所述子复述模型是利用所述样本语句和模型输出语句之间的语义差异以及所述样本语句的句法结构和所述模型输出语句的句法结构之间的句法结构差异进行模型训练得到的;
78.所述复述模型是利用所述样本语句和模型输出语句之间的语义差异进行模型训练得到的。
79.在一些具体的实施例中,得到所述复述模型之后,所述方法还包括:
80.将调整语句和复述句法结构输入到所述复述模型,生成调整复述语句;
81.将所述调整复述语句和调整句法结构输入到所述复述模型,生成重构复述语句;其中,所述调整句法结构与所述调整语句的句法结构一致;
82.对所述调整语句和所述重构复述语句进行一致性计算,确定损失值;
83.根据所述损失值对所述复述模型进行调整,将调整后的模型确定为所述复述模型。
84.在一些具体地实施例中,对所述调整语句和所述重构复述语句进行一致性计算,确定损失值,可以包括:
85.根据句法评价器对所述调整语句的句法结构与所述重构复述语句的句法结构进行一致性损失计算,确定句法损失值;
86.根据语义评价器对所述调整语句的语义与所述重构复述语句的语义进行一致性损失计算,确定语义损失值;
87.根据所述句法损失值和所述语义损失值,得到所述初始复述模型的损失值。
88.在一些实施例中,所述根据所述至少一个样本语句和所述至少一个样本句法结构进行模型训练,包括:
89.对所述样本语句进行编码处理,得到语句编码结果;
90.利用所述树编码器对所述样本句法结构(即句法树)进行编码处理,得到句法编码结果;
91.根据所述语句编码结果和所述句法编码结果进行解码处理。
92.这样,根据所述至少一个样本语句和所述至少一个第一样本句法结构进行模型训练,得到最终的复述模型。
93.本实施例提供了一种语句复述方法,获取输入语句;将所述输入语句输入到复述模型,以基于至少一个目标句法结构生成至少一个目标复述语句;其中,所述目标复述语句的句法结构与所述目标句法结构一致,以及所述目标复述语句与所述输入语句具有相同语义。这样,不仅能够提高复述语句的句法结构可控性,而且能够提高复述语句的多样性和复述语句的质量。
94.基于前述实施例相同的发明构思,参见图3,其示出了本技术实施例提供的一种复述模型的训练方法的流程示意图。如图3所示,该训练方法可以包括训练和调整两个阶段,具体如下:
95.阶段1:如图3所示,将一个输入句x和它的句法结构s分别输入到句子编码器和树编码器,通过重构输入句x预训练条件变分自编码模型,其中树编码器的计算流程如图2所示,给定一个句法结构(即短语句法树),抽取其前3层结构获得句法模板,首先对句法模板以自顶向下方式进行编码,随后对该句法模板的叶子节点,自左到右进行编码并返回最后一个时间步的表示作为树解码器的输出。句子编码器采用双向gru网络,解码器、树编码器采用单向gru网络。
96.其中,两阶段训练流程。gru表示门控循环单元(gate recurrent unit),linear表示进行线性变换,x表示输入句,x1,x2分别表示句中的词语,zx表示经过句子编码器得到的隐变量,s表示句子x的句法结构,hs表示经过树编码器编码得到的隐状态。
97.需要说明的是,在树编码器进行编码的过程中,如图4所示,上半部分是一颗完整的短语句法树,短语句法树都会以root根节点,s表示句子,cc表示并列词,np表示名词短语,vp表示动词短语,dot表示标点符号。具体应用过程中,我们使用短语句法树前3层结构(句法模板)来指导复述生成。下图表示编码过程,编码器也是采用gru网络,最右侧的叶子
节点的隐状态作为最终的输出结果。
98.阶段2:如图5所示,给定输入句x和任意其他的句法结构s’,模型输出句子y,随后利用语义和句法评价器计算生成句y的损失,根据损失的大小进一步对模型进行微调。模型训练完成之后,对于同一输入,通过给定不同的句法控制来产生多样的复述。
99.其中,图中s’表示使用一个与s不同的句法结构,y表示生成句,l*表示训练模型所使用的损失函数,具体地,lbow表示词袋损失,根据zx能够预测出输入句x中的词语。
100.需要说明的是,句法评价器(syntax evaluator)根据生成句y的句法结构是否与s’一致对y计算损失;输入生成句y和句子x的句法结构s,句法评价器中的条件vae模型根据y的语义是否与x相同计算损失,lsc和lcr分别表示句法损失函数、语义损失函数。
101.本技术实施例提出了一种基于条件变分自编码器(conditional variational auto-encoder)的无监督的句法可控复述生成方法。利用条件变分自编码器的特性,将句法作为一种条件约束输入变分自编码器,从而使解码器遵循句法生成句子。在此基础上通过语义相同、语法不同的组合,构成同一文本的多样性复述。在训练过程中无需复述训练句对,在应用过程中,输出的复述风格可控。
102.通过上述实施例对前述实施例的具体实现进行了详细阐述,从中可以看出,通过前述实施例的技术方案,构建了基于条件变分自编码(cvae)的二阶段无监督学习框架,模型训练不需要人工标注的复述句对;将句法信息作为变分自编码器的条件约束,预训练阶段,解码器遵循句法结构重构输入文本的编码,从而可以在解码阶段按照给定的句法结构生成复述;为了保证语义一致和句法多样性,在学习框架中引入fine-tune过程,在语义一致的情况下,使条件变分自编码器能生成尽可能句法多样的复述文本;输入一个句子输出语义相同,句法结构不同的多个复述,从中可以看出,通过前述实施例的技术方案,对模型进行两个阶段的训练,从而得到复述模型,能够根据不同需求输出不同句法结构的复述语句,提高了复述结果的丰富性和可控性。
103.基于前述实施例相同的发明构思,参见图6,其示出了本技术实施例提供的一种语句复述装置60的组成结构示意图。如图6所示,所述语句复述装置60可以包括:获取单元601、和复述单元602;其中,
104.获取单元601,配置为获取输入语句;
105.复述单元602,配置为将所述输入语句输入到复述模型,以基于至少一个目标句法结构生成至少一个目标复述语句;其中,所述目标复述语句的句法结构与所述目标句法结构一致,以及所述目标复述语句与所述输入语句具有相同语义。
106.在一些实施例中,复述单元602,具体配置为将所述输入语句和所述至少一个目标句法结构输入到复述模型,以基于所述至少一个目标句法结构生成至少一个目标复述语句;或/和,将所述输入语句输入到复述模型,以基于所述复述模型中的至少一个目标句法结构生成至少一个目标复述语句。
107.在一些实施例中,复述单元602,具体配置为确确定所述输入语句对应的语句编码结果;以及确定所述至少一个目标句法结构对应的至少一个句法编码结果;以及根据所述语句编码结果和至少一个所述句法编码结果,以基于所述至少一个目标句法结构生成至少一个目标复述语句。
108.在一些实施例中,复述单元602,具体配置为对所述输入语句进行分词处理,得到
若干个词语;利用门控循环单元对所述若干个词语进行处理,得到初步处理结果;对所述初步处理结果进行线性变换处理,得到所述语句编码结果;以及根据所述目标句法结构,从所述复述模型中获取所述目标句法结构对应的句法编码结果。
109.在上述方案中,参见图6,所述语句复述装置60还包括训练单元603,配置为获取样本集,其中,所述样本集包括至少一个样本语句和至少一个与所述样本语句的句法结构一致的第一样本句法结构;以及根据所述至少一个样本语句和所述至少一个第一样本句法结构进行模型训练,得到复述模型。
110.在一些实施例中,训练单元603,具体配置为根据所述至少一个样本语句和所述至少一个第一样本句法结构进行模型训练,得到子复述模型;以及根据所述至少一个样本语句和与所述样本语句的句法结构非一致的第二样本句法结构对所述子复述模型进行训练,得到所述复述模型。
111.在一些实施例中,所述子复述模型是利用所述样本语句和模型输出语句之间的语义差异以及所述样本语句的句法结构和所述模型输出语句的句法结构之间的句法结构差异进行模型训练得到的;所述复述模型是利用所述样本语句和模型输出语句之间的语义差异进行模型训练得到的。
112.在一些实施例中,训练单元603,还配置为将调整语句和复述句法结构输入到所述复述模型,生成调整复述语句;以及将所述调整复述语句和调整句法结构输入到所述复述模型,生成重构复述语句;其中,所述调整句法结构与所述调整语句的句法结构一致;以及对所述调整语句和所述重构复述语句进行一致性计算,确定损失值;以及根据所述损失值对所述复述模型进行调整,将调整后的模型确定为所述复述模型。
113.在一些实施例中,训练单元603,还配置为对所述样本语句进行编码处理,得到语句编码结果;以及利用所述树编码器对所述样本句法结构进行编码处理,得到句法编码结果;以及根据所述语句编码结果和所述句法编码结果进行解码处理。
114.可以理解地,在本实施例中,“单元”可以是部分电路、部分处理器、部分程序或软件等等,当然也可以是模块,还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
115.所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
116.因此,本实施例提供了一种计算机存储介质,该计算机存储介质存储有语句复述程序,所述语句复述程序被至少一个处理器执行时实现前述实施例中任一项所述的方法的步骤。
117.基于上述语句复述装置60的组成以及计算机存储介质,参见图7,其示出了本技术实施例提供的语句复述装置60的具体硬件结构示意图。如图7所示,可以包括:通信接口701、存储器702和处理器703;各个组件通过总线系统704耦合在一起。可理解,总线系统704用于实现这些组件之间的连接通信。总线系统704除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统704。其中,通信接口701,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
118.存储器702,用于存储能够在处理器703上运行的计算机程序;
119.处理器703,用于在运行所述计算机程序时,执行:
120.获取输入语句;
121.将所述输入语句输入到复述模型,以基于至少一个目标句法结构生成至少一个目标复述语句;
122.其中,所述目标复述语句的句法结构与所述目标句法结构一致,以及所述目标复述语句与所述输入语句具有相同语。
123.可以理解,本技术实施例中的存储器702可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步链动态随机存取存储器(synchronous link dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本文描述的系统和方法的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。
124.而处理器703可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器703中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器703可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702,处理器703读取存储器702中的信息,结合其硬件完成上述方法的步骤。
125.可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其
组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits,asic)、数字信号处理器(digital signal processing,dsp)、数字信号处理设备(dsp device,dspd)、可编程逻辑设备(programmable logic device,pld)、现场可编程门阵列(field-programmable gate array,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
126.对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
127.可选地,作为另一个实施例,处理器703还配置为在运行所述计算机程序时,执行前述实施例中任一项所述的方法的步骤。
128.在一些实施例中,参见图8,其示出了本技术实施例提供的一种电子设备70的组成结构示意图。如图8所示,该电子设备70至少包括前述实施例中任一项所述的语句复述装置60。
129.在本技术实施例中,对于电子设备70而言,获取输入语句;将所述输入语句输入到复述模型,以基于至少一个目标句法结构生成至少一个目标复述语句;其中,所述目标复述语句的句法结构与所述目标句法结构一致,以及所述目标复述语句与所述输入语句具有相同语义。这样,不仅能够提高复述语句的句法结构可控性,而且能够提高复述语句的多样性和复述语句的质量。
130.需要说明的是,在本技术中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
131.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
132.本技术所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
133.本技术所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
134.本技术所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
135.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
技术特征:
1.一种语句复述方法,所述方法包括:获取输入语句;将所述输入语句输入到复述模型,以基于至少一个目标句法结构生成至少一个目标复述语句;其中,所述目标复述语句的句法结构与所述目标句法结构一致,以及所述目标复述语句与所述输入语句具有相同语义。2.根据权利要求1所述的方法,所述将所述输入语句输入到复述模型,以基于至少一个目标句法结构生成至少一个目标复述语句,至少包括以下的其中一种:将所述输入语句和所述至少一个目标句法结构输入到复述模型,以基于所述至少一个目标句法结构生成至少一个目标复述语句;将所述输入语句输入到复述模型,以基于所述复述模型中的至少一个目标句法结构生成至少一个目标复述语句。3.根据权利要求2所述的方法,所述将所述输入语句和所述至少一个目标句法结构输入到复述模型,包括:确定所述输入语句对应的语句编码结果;确定所述至少一个目标句法结构对应的至少一个句法编码结果;根据所述语句编码结果和至少一个所述句法编码结果,以基于所述至少一个目标句法结构生成至少一个目标复述语句。4.根据权利要求3所述的方法,所述确定所述输入语句对应的语句编码结果,包括:对所述输入语句进行分词处理,得到若干个词语;并利用门控循环单元对所述若干个词语进行处理,得到初步处理结果;对所述初步处理结果进行线性变换处理,得到所述语句编码结果;所述确定所述至少一个目标句法结构对应的至少一个句法编码结果,包括:根据所述至少一个目标句法结构,从所述复述模型中获取所述至少一个目标句法结构对应的句法编码结果。5.根据权利要求1所述的方法,所述方法还包括:获取样本集,其中,所述样本集包括至少一个样本语句和至少一个与所述样本语句的句法结构一致的第一样本句法结构;根据所述至少一个样本语句和所述至少一个第一样本句法结构进行模型训练,得到所述复述模型。6.根据权利要求5所述的方法,所述根据所述至少一个样本语句和所述至少一个第一样本句法结构进行模型训练,得到所述复述模型,包括:根据所述至少一个样本语句和所述至少一个第一样本句法结构进行模型训练,得到子复述模型;根据所述至少一个样本语句和与所述样本语句的句法结构非一致的第二样本句法结构对所述子复述模型进行训练,得到所述复述模型。7.根据权利要求6所述的方法,所述子复述模型是利用所述样本语句和第一模型输出语句之间的语义差异以及所述样本语句的句法结构和所述第一模型输出语句的句法结构之间的句法结构差异进行模型训练得到的;
所述复述模型是利用所述样本语句和第二模型输出语句之间的语义差异进行模型训练得到的。8.根据权利要求5或6所述的方法,所述得到所述复述模型之后,所述方法还包括:将调整语句和复述句法结构输入到所述复述模型,生成调整复述语句;将所述调整复述语句和调整句法结构输入到所述复述模型,生成重构复述语句;其中,所述调整句法结构与所述调整语句的句法结构一致;对所述调整语句和所述重构复述语句进行一致性计算,确定损失值;根据所述损失值对所述复述模型进行调整,将调整后的模型确定为所述复述模型。9.根据权利要求5所述的方法,所述根据所述至少一个样本语句和所述至少一个第一样本句法结构进行模型训练,包括:对所述样本语句进行编码处理,得到语句编码结果;利用树编码器对所述第一样本句法结构进行编码处理,得到句法编码结果;根据所述语句编码结果和所述句法编码结果进行解码处理。10.一种语句复述装置,包括:获取单元,配置为获取输入语句;复述单元,配置为将所述输入语句输入到复述模型,以基于至少一个目标句法结构生成至少一个目标复述语句;其中,所述目标复述语句的句法结构与所述目标句法结构一致,以及所述目标复述语句与所述输入语句具有相同语义。
技术总结
本申请实施例公开了一种语句复述方法和语句复述装置,该方法包括:获取输入语句;将所述输入语句输入到复述模型,以基于至少一个目标句法结构生成至少一个目标复述语句;其中,所述目标复述语句的句法结构与所述目标句法结构一致,以及所述目标复述语句与所述输入语句具有相同语义。这样,不仅能够提高复述语句的句法结构可控性,而且能够提高复述语句的多样性和复述语句的质量。样性和复述语句的质量。样性和复述语句的质量。
技术研发人员:杨二光 葛娜 盛晨
受保护的技术使用者:联想(北京)有限公司
技术研发日:2021.11.11
技术公布日:2022/3/8