本发明涉及抽取式问答任务,尤其涉及一种基于少样本提示学习的弱语义关联抽取式问答方法。
背景技术:
1、近年来,随着chatgpt引爆聊天机器人热潮,学界和业界重拾对人工智能自动问答(question answering,qa)系统的兴趣,微软、谷歌、百度等科技巨头更是将qa与搜索引擎深度捆绑,不仅重新定义了人机交互的边界,更深刻影响着qa技术的研究方向与深度。qa作为图灵测试检测机器智能的关键,一直都是自然语言处理(natural languageprocessing,nlp)领域的重要研究方向。qa任务根据回答方式不同可以分为抽取式问答(extractive qa,eqa)和生成式问答(generative qa,gqa)。其中eqa通过自然语言提问,直接从语境文本(context)中抽取关键信息,在低价值密度的文本大数据中精准检索高效获取知识。eqa不仅要求算法具备强大的上下文语境理解力,还考验其在复杂文本环境中定位关键信息的精准度。相较于gqa回答的“天马行空”,eqa的回答则可“追根溯源”,借由“源头”保证答案置信度,在信息检索、知识库构建、智能客服等方面有着广泛的应用。
2、随着预训练语言模型(pre-trained language models,plms)的引入,极大地提升了eqa任务的性能,不断刷新sota(state-of-the-art)使得各类应用成为可能,逐渐成为研究的焦点。当前eqa研究主要集中于模型构建、模型优化和特定领域问答等方面,并为不同场景研究适配了诸多不同类型的数据集。弱语义关联eqa任务不仅要求系统具有文本理解能力,还需要具备在弱语义文本语境中进行推理和判断的能力。然而弱语义关联问答场景仍是一个未被充分解决的挑战。在实际应用中还存在大量语义关系较弱的问答对,即问题和答案之间的联系并不明显。即使将这些问答对映射到高维语义空间中,也很难有效拉近它们之间的距离,因此适用于经典数据集的模型和方法优化后,也很难在弱语义关联问答对上得到令人满意的结果。
技术实现思路
1、有鉴于此,本发明提供了一种基于少样本提示学习的弱语义关联抽取式问答方法,用以在少样本的情景下,在弱语义关联场景中通过提示学习为eqa系统发现问答对间的关联,提升模型在弱语义关联场景中的答案抽取能力。
2、第一方面,本发明提供了一种基于少样本提示学习的弱语义关联抽取式问答方法,所述方法包括:
3、步骤1、对抽取式问答的问题进行定义,定义语境文本集合context、问题集合query和答案集合answer;
4、步骤2、构建基于少样本提示学习的模型fspm4wsaeqa,并对模型进行训练,获取分类模型fnn;
5、步骤3、应用获取的分类模型fnn,根据提问从给定的语境文本集合中抽取答案。
6、可选地,所述步骤1包括:
7、定义语境文本集合context、问题集合query和答案集合answer,其中context={clause1,clause2,…,clausen}表示由若干子句组成的语境文本集合,n的取值为正整数;query={query1,query2,…,queryk}表示针对语境文本集合context提出的k个问题集合,k的取值为正整数;answer={answer1,answer2,…,answerk}表示针对于k个问题从语境文本集合context中抽取的k个答案集合,每个答案子集answeri={clausei1,clausei2,…,clauseim}均为语境文本集合context的子集,i∈[1,k],即
8、可选地,所述步骤2包括:
9、将问题集合query中的每类问题queryi映射到类别标签labeli;并为问题集合query中未包含的问题建立类别标签labelk+1,所有类别组成标签集合label={label1,label2,…,labelk,labelk+1};利用提示学习定义模板template=template([clause],[label]),并使用少样本问答对数据,对模板进行实例化,进而微调预训练语言模型plms,获取分类模型fnn。
10、可选地,包括:
11、在模型训练过程中,首先在数据准备阶段,依据问题数量构建对应的标签,使用语境文本集合context中的子句与其所对应问题的类别标签实例化模板,构建k+1-way few-shot dataset训练集;然后在模型微调阶段,使用k+1-way few-shot数据集微调plms。
12、可选地,所述步骤3包括:
13、在模型应用过程中,使用微调后的plms对测试语境文本集合t_context中的子句类别进行预测,计算测试问题t_query与类别标签label中各类别的相似度,最终将类别标签label中与测试问题t_query相似度最大类别对应的子句集作为答案t_answer。
14、可选地,包括:
15、给定测试语境文本集合t_context={clauset1,clauset2,…,clausetn}上的测试问题t_query,首先计算测试问题t_query与问题集合query中各类问题的相似度,并将其映射到类别标签labelt;然后应用分类模型fnn预测测试语境文本集合t_conext中各子句的类别,即pre_labelt’=fnn(clauseti),clauseti∈t_context;最终将pre_labelt’≈labelt对应的子句集合组成t_query的答案集t_answer={clauseti},tn的取值范围为正整数。
16、可选地,构建k+1-way few-shot dataset训练集包括:问题映射,将问题集合query映射到类别标签label;数据增强,使用数据增强方法将答案集合answer扩充为answer’;模板实例化,使用answer’和类别标签label实例化template模板,获取k+1-wayfew-shot dataset训练集。
17、可选地,所述问题映射包括:
18、(1)收集同类问题的多个样本:
19、queryi={queryi-sample1,queryi-sample2,…,queryi-samplen}
20、(2)识别同义/近义词:
21、对每个问题样本queryi-samplej,使用word2vec词嵌入识别同义词和近义词集合,对于queryi-samplej中的每个词w生成同义/近义词集合syn(w);
22、(3)构建共现矩阵c:
23、初始共现矩阵c=0,根据每个问题样本queryi-samplej中的每个词汇更新共现矩阵c,当w∈queryi-samplej和v∈syn(w)时,cwv=cwv+1;
24、其中,cwv表示词语wp和wq在所有问题样本中的共现次数;
25、(4)提取关键词:
26、统计每个词w在所有问题样本中出现的频率,即词w的共现频率f(w):
27、
28、(5)确定类别标签:
29、选择共现频率最高的关键词kw作为问题类别标签labeli:
30、
31、增加其他问题的类别标签labelk+1,将问题集合query中未包含的问题均映射到类别中。
32、可选地,所述数据增强包括:
33、为均衡不同类样本量,采用文本数据增强data augmentation增加前k类样本量,将其扩充至与k+1类样本量同数量级:
34、
35、其中,m’≈|context-answer|,a∈[1,k+1];
36、首先将answera的所有子句放入answera’,然后依次采用同义/近义词替换、掩码语言模型mlm、回译back translation、序列生成模型seq2seq、随机交换方法增加样本,扩充后的总样本量达到要求时即停止;
37、在同义/近义词替换方法中,随机将答案子句中的非停用词替换成同义/近义词或上位词,为防止语义产生较大偏差每次仅替换一个词,将生成的新子句放入answera’;在mlm方法中,使用预训练语言模型roberta预测答案子句中随机遮盖的词,将生成的新子句放入answera’;在回译方法中,采用中英互译将答案子句翻译成英文,然后再翻译回中文将生成的新子句放入answera’;在seq2seq模型方法中为答案子句生成语义一致的新子句放入answera’;若语境文本集合context长度大于答案集合answer;若上述步骤仍无法均衡样本时,最后采用随机交换方法,每次随机交换答案子句中的两个词将生成的新子句放入answera’。
38、可选地,所述模板实例化包括:
39、使用语境文本集合context中的子句与类别标签label中的子标签填充template模板;首先,使用answeri’中的答案子句clauseij’填充template模板中的占位符[clause],相应的使用answeri’所回答问题queryi在label中的对应标签labeli填充template模板中的占位符[label];然后,使用context-answer文本中的子句clausek+1j填充template模板中的占位符[clause],相应的使用label中的标签labelk+1填充template模板中的占位符[label];最终,生成k+1-way few-shot训练集trainset={template(clauseaj’,labela),a∈[1,k+1],j∈[1,im’]。
40、本发明提供的技术方案中,该方法包括对抽取式问答的问题进行定义,定义语境文本集合context、问题集合query和答案集合answer;构建基于少样本提示学习的模型fspm4wsaeqa,并对模型进行训练,获取分类模型fnn;应用获取的分类模型fnn,根据提问从给定的语境文本集合中抽取答案,该方法在少样本的情景下,在弱语义关联场景中通过提示学习为eqa系统发现了问答对间的关联,提升了模型在弱语义关联场景中的答案抽取能力。
1.一种基于少样本提示学习的弱语义关联抽取式问答方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述步骤1包括:
3.根据权利要求1所述的方法,其特征在于,所述步骤2包括:
4.根据权利要求3所述的方法,其特征在于,包括:
5.根据权利要求1所述的方法,其特征在于,所述步骤3包括:
6.根据权利要求5所述的方法,其特征在于,包括:
7.根据权利要求4所述的方法,其特征在于,构建k+1-way few-shot dataset训练集包括:问题映射,将问题集合query映射到类别标签label;数据增强,使用数据增强方法将答案集合answer扩充为answer’;模板实例化,使用answer’和类别标签label实例化template模板,获取k+1-way few-shot dataset训练集。
8.根据权利要求7所述的方法,其特征在于,所述问题映射包括:
9.根据权利要求7所述的方法,其特征在于,所述数据增强包括:
10.根据权利要求7所述的方法,其特征在于,所述模板实例化包括: