1.本发明属于人机对话系统技术领域,特别涉及一种基于深度学习的对话质量评估方法及系统。
背景技术:
2.近些年来,互联网技术取得了飞速的发展,各种各样的互联网产品深入到人们的生活中,使得每时每刻都有大量的数据产生,大数据时代逐渐到来。深度学习技术在大数据的支撑下,取得了较快的进步,被广泛应用到人工智能领域,人工智能技术迎来了新的发展契机。人机对话作为人工智能领域的一个重要组成部分,取得了巨大突破,各式各样的人机对话系统相继出现在人们的日常生活中,例如微软的闲聊机器人小冰、阿里的智能客服小蜜、苹果的语音助手siri等。其中微软小冰能够通过分析用户的情感变化,给出带有情感的回复,可以作为用户亲密的情感伴侣;阿里小蜜作为顾客的购物私人助理,能够为顾客提供全程式咨询服务,提升用户的购物体验。一个智能的人机对话系统能够充分理解对话的语义信息,生成符合对话场景且有意义的回复,从而更好地服务用户。
3.对话生成是人机对话的一个关键环节,它能够根据对话内容产生机器应答,并将该应答转换为自然语言反馈给用户。对话生成的质量直接影响用户的使用体验,很大程度上反映了人机对话系统的智能化程度。目前,基于深度学习的对话系统能够从海量的对话语料中学习归纳对话的语义信息,自动生成回复。然而,并不是系统生成的所有候选回复对于当前对话是合适的。因此,如何从多个候选回复中选择一个合适的回复对于对话系统的性能提升、增加用户体验十分重要。除此之外,建立准确、全面的对话质量评估模型,对提高用户咨询满意度、改善机器语言对话技巧具有重大意义。目前,在开放领域对话系统中,自动化评估指标通常关注对话生成的质量,如对话上下文的连贯性和流畅性。但这种自动评估的方式对于对话质量的评估不够全面。此外,人工评估虽然较为准确但效率低且成本高。综上所述,探索一种有效的自动化方式来全面评估生成对话的质量尤为重要。
技术实现要素:
4.本发明所要解决的问题是,利用深度学习技术以提高对话质量评估的准确度。
5.本发明提供一种基于深度学习的对话质量评估方法,首先,构建对话语料,该语料包括用户对话d,多个候选回复r;然后,用对话语料训练对话质量评估深度学习模型m,所述深度学习模型从回复的通顺度、回复与用户对话d的语义相关性、回复对用户对话d的正向情感引导性和回复与用户对话d的上下文逻辑一致性四个方面对候选回复质量进行评估;最后,通过将回复的通顺度结果pa、回复与用户对话d的相关性结果pb、回复对用户对话d的正向情感引导性结果pc、回复与用户对话d的上下文逻辑一致性结果pd进行线性融合,选取得分最高的候选回复作为用户对话d的最终回复。
6.而且,从回复的通顺度候选回复质量进行评估时,包括对n个候选回复r={r1,r2,
…
,rn},ru表示每个候选回复,u=1,2,
…
n),计算候选回复ri的困惑度,为候选回复的通
顺度打分,实现方式如下,
7.将候选回复ru进行分词后得到长度为m的输入文本ru=[x1,x2,
…
,xm],通过n-gram语言模型计算当前对话的困惑度ppl(ru)如下:
[0008][0009]
其中,x1,x2,
…
,xm为组成一句话的各个单词;
[0010][0011]
其中,q(xi|x
i-1
,x
i-2
,
…
,x1)可由语言模型,是给定一句话的前i个词时第i+1个词可能出现的概率的分布q(xi|x
i-1
,x
i-2
,
…
,x1);
[0012]
为了将困惑度的值映射到0到1附近,采取标准化计算:
[0013]
pa=-(ppl(ru)-mu)/sigma
[0014]
其中,mu、sigma为定值,pa为回复的通顺度打分结果。
[0015]
而且,从回复与用户对话d的语义相关性进行评估时,包括对n个候选回复r,通过计算用户对话d和每个候选回复ri的语义相似度,为候选回复和用户对话的语义相关性打分,实现方式如下,
[0016]
对用户对话d和候选回复ru进行分词,分别得n个词w1,w2,
…
,wn和m个词x1,x2,
…
,xm,并进行预处理,包括在开始位置加入标签[cls],得到d=[[cls],w1,w2,
…
,wn]和ru=[[cls],x1,x2,
…
,xm],然后使用词嵌入方式得词向量序列和和分别对应输入文本i中的两个[cls]标志位对应的向量,e
wj
表示用户对话d中第j个词的词向量,e
xi
表示候选回复ru中第i个词的词向量,i=1,2,
…
m,j=1,2,
…
n;将de和r
ue
分别输入到bert模型中,通过计算得到bert的输出分别输入到bert模型中,通过计算得到bert的输出分别对应两个[cls]标志位的输出,表示用户对话和候选回复的对话语义信息,通过计算余弦相似度给用户对话d和候选回复ru进行语义相似度打分如下,
[0017][0018]
其中,cos()表示余弦相似度,pb为用户对话d和候选回复ru的语义相关性打分结果。
[0019]
而且,从回复对用户对话d的正向情感引导性进行评估时,包括对n个候选回复r,制定候选回复对用户对话d的情感引导规则,通过该规则为每一个候选回复打分,实现方式如下,
[0020]
通过对话情感识别模型为用户对话d和每个候选回复ri进行打分,得到对话情感极性的概率分布[p(中),p(正),p(负)],p(中),p(正),p(负)分别表示情感为中性、正向、负向的概率,计算情感得分如下:
[0021]
scored=[0.05*p(中)+1*p(正)-1*p(负)]*100
[0022][0023]
其中,scored表示用户对话的情感得分,表示第i候选回复的情感得分;
[0024]
计算回复对用户对话d的正向情感引导性的打分规则如下,
[0025]
当用户对话情感打分scored<0,且时:.
[0026][0027]
pc=-(score
t-num)/sigma
[0028]
其中,abs()表示求绝对值,score
t
表示scored和的情感距离,num、sigma为定值,pc为回复对用户对话d的正向情感引导性分数。
[0029]
当用户对话情感打分scored<0,,且时:
[0030]
pc=0
[0031]
当用户对话情感打分scored≥0时:
[0032][0033][0034][0035]
而且,从回复与用户对话d的上下文逻辑一致性进行评估时,包括对n个候选回复r,通过计算用户对话d和通过计算每个候选回复ru的上下文逻辑一致性,为候选回复的逻辑一致性打分,实现方式如下,
[0036]
对用户对话d和候选回复ru进行分词得到d=[w1,w2,
…
,wn]和ru=[x1,x2,
…
,xm],将文本进行预处理得到输入文本i=[[cls],w1,w2,
…
,wn,[sep],x1,x2,
…
,xm],[cls]为开始标志,[sep]为段落分隔标志符,分别用来分隔用户对话d和候选回复ru。;
[0037]
然后,使用词嵌入方式得词向量序列ie=[e
cls
,e
w1
,e
w2
,
…
,e
wn
,e
sep
,e
x1
,e
x2
,
…
,e
xm
],e
wj
表示用户对话中第j个词的词向量,e
xi
表示候选回复ru中第i个词的词向量,,i=1,2,
…
m,j=1,2,
…
n;
[0038]
将序列ie输入到bert模型中,h
cls
对应[cls]标志位的输出,用于计算两个句子是否具有上下文逻辑一致性,具体实现过程如下:
[0039]
y=softmax(w
lhcls
)
[0040]
其中w
l
代表是全连接网络层的可训练参数,softmax表示激活函数,通过全连接层和softmax激活函数对h
cls
进行激活函数处理,计算得到d和ru是上下文逻辑一致性的概率分布y。最终,选择用户对话和候选回复逻辑一致性的概率作为pd。
[0041]
而且,将候选回复的通顺度结果pa、回复与用户对话d的相关性结果pb、回复对用户对话d的正向情感引导性结果pc、回复与用户对话d的上下文逻辑一致性结果pd进行线性融合,选取多个候选回复中分数最高的候选回复作为对话d对应的最终回复。
[0042]
另一方面,本发明还提供一种基于深度学习的对话质量评估系统,用于实现如上所述的一种基于深度学习的对话质量评估方法。
[0043]
而且,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种基于深度学习的对话质量评估方法。
[0044]
或者,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种基于深度学习的对话质量评估方法。
[0045]
本发明提供了一种基于深度学习的对话质量评估技术方案。该发明提出了一种全面、自动的开放领域对话生成质量的评估方法。与现有技术相比,该评估方法不仅评估了生
成对话的流畅性和语义相关性,而且进一步考虑到了回复的逻辑一致性和情感关联性。对于对话的流畅性和语义相关性,本发明通过n-gram语言模型来评估回复的流畅性,并采用深度学习bert模型来获取用户对话和候选回复的语义相关性。对于回复的逻辑一致性,本发明利用深度学习bert模型并利用基于蕴涵的方法来评估逻辑一致性。对于情绪关联性,本发明提出了对话情感计算的方法,根据用户对话和候选回复的情绪距离设计了评估标准。实验结果显示,本发明提出的对话质量评估方法能够有效评估对话系统给出的多个候选回复,且自动评估方法结果与人工评估的结果有强相关性。本发明提出评估方法可为对话生成中的对话可比性提供标准。同时,该方法也可以扩展到其他自然语言处理领域中的文本质量评估任务中。
附图说明
[0046]
图1为本发明实施例中对话质量评估流程图。
具体实施方式
[0047]
以下结合附图和实施例具体说明本发明的技术方案。
[0048]
开放域对话生成在人机对话领域受到越来越多的关注。回复生成需要一种全面评估标准。人工评估被认为是黄金标准。由于人工评估效率低且成本高,因此非常需要一种自动化的替代方法。此外,一些自动评估方法仅仅考虑了对话上下文的连贯性和流畅性,导致对话质量评估过缺乏全面性。针对这些问题,为了更全面地评估对话,本发明提出的对话质量评估方法不仅评估了生成对话的流畅性和语义相关性,而且进一步考虑到了回复的逻辑一致性和情感关联性。本发明从回复的通顺度、回复与用户对话的相关性、回复与用户对话的情绪一致性和回复与用户对话的上下文逻辑性四个方面评估多个候选回复。具体来说:(1)对话流畅性:基于n-gram语言模型的对话流畅性;(2)语义相关性:基于bert模型的上下文语义相关性;(3)上下文的逻辑性:基于文本蕴涵推理的逻辑自一致性;(4)判断对话中蕴含的情绪:基于对话情感识别的情绪引导。特别是,本发明考虑用户对话和候选回复的情绪关联,更深层次的考虑到对话之间的情绪传递。并提出了对话情感计算的方法,根据用户对话和候选回复的情绪距离设计了评估标准。实验证明,有效评估对话系统给出的多个候选回复,且自动评估方法结果与人工评估的结果有强相关性。
[0049]
本发明实施例提供的一种基于深度学习的对话质量评估方法,用对话语料训练对话质量评估深度学习模型,所述深度学习模型从回复的通顺度、回复与用户对话的相关性、回复与用户对话的情绪一致性和回复与用户对话的上下文逻辑性四个方面为候选回复打分;最后,通过将回复的通顺度结果、回复与用户对话d的相关性结果、回复与用户对话的情绪一致性结果、回复与用户对话的上下文逻辑性结果进行线性融合,选取分数最高的候选回复作为用户对话的最终回复。
[0050]
参见图1,本发明实施例提供的一种基于深度学习的对话质量评估方法包括首先,构建对话语料,该语料包括用户对话d,多个候选回复r;然后,用对话语料训练对话质量评估深度学习模型m,所述深度学习模型从回复的通顺度、回复与用户对话d的相关性、回复对用户对话d的正向情感引导性和回复与用户对话d的上下文逻辑一致性四个方面对候选回复质量进行评估;最后,通过将回复的通顺度结果pa、回复与用户对话d的相关性结果pb、回
复对用户对话d的正向情感引导性结果pc、回复与用户对话d的上下文逻辑一致性结果pd进行线性融合,选取得分最高的候选回复作为用户对话d的最终回复。
[0051]
实现过程主要包括四个子部分:1.对n个候选回复r,ru表示每个候选回复,计算ru的困惑度,为候选回复的通顺度打分;2.对n个候选回复r,通过计算用户对话d和每个候选回复ru的语义相似度,为候选回复和用户对话的语义相关性打分;3.对n个候选回复r,通过计算用户对话d和每个候选回复ru的包含情绪的一致性,为候选回复的情绪一致性打分;4.对n个候选回复r,通过计算用户对话d和通过计算每个候选回复ru的上下文逻辑性,为候选回复的逻辑性打分。具体实现过程如下:
[0052]
步骤1:对n个候选回复r={r1,r2,
…
,rn},ru表示每个候选回复(u=1,2,
…
n),计算候选回复ru的困惑度,为候选回复的通顺度打分,实现方式如下:
[0053]
步骤1.1:将候选回复ru进行分词后得到长度为m的输入文本ru=[x1,x2,
…
,xm],通过n-gram语言模型可以计算当前对话的困惑度ppl(ru)(,计算方法如下:
[0054][0055]
其中,x1,x2,
…
,xm为组成一句话的各个单词。
[0056][0057]
其中,q(xi|x
i-1
,x
i-2
,
…
,x1)可由语言模型给出,i=1,2,
…
m。语言模型即给定一句话的前i个词,语言模型可以预测第i+1个词是什么,即给出一个第i+1个词可能出现的概率的分布q(xi|x
i-1
,x
i-2
,
…
,x1)。
[0058]
步骤1.2:为了将困惑度的值映射到0到1附近,采取标准化,具体计算方法如下:
[0059]
pa=-(ppl(ru)-mu)/sigma
[0060]
其中,mu、sigma为定值,pa为回复的通顺度打分结果。
[0061]
步骤2:对n个候选回复r,通过计算用户对话d和每个候选回复ru的语义相似度,为候选回复和用户对话的语义相关性打分,实现方式如下:
[0062]
步骤2.1:对用户对话d和候选回复ru进行分词,分别得n个词w1,w2,
…
,wn和m个词x1,x2,
…
,xm,并进行预处理,即在开始位置加入[cls]标签得到d=[[cls],w1,w2,
…
,wn]和ru=[[cls],x1,x2,
…
,xm],然后使用词嵌入技术得词向量序列和和分别对应输入文本i中的两个[cls]标志位对应的向量,e
wj
表示用户对话中第j个词的词向量,e
xi
表示候选回复ru中第i个词的词向量,i=1,2,
…
m,j=1,2,
…
n;将de和r
ue
分别输入到bert模型中,通过计算得到bert的输出分别输入到bert模型中,通过计算得到bert的输出分别对应两个[cls]标志位的输出,表示对话语句的语义信息。
[0063]
注:bert是pre-training of deep bidirectional transformers for language understanding的缩写。具体实施时,bert的实现可参见现有技术:devlin,j.,chang,m.w.,lee,k.,&toutanova,k.(2018).bert:pre-training of deep bidirectional transformers for language understanding.arxiv preprint arxiv:1810.04805.本发明不予赘述。
[0064]
步骤2.2:通过计算余弦相似度给用户对话d和候选回复ru进行语义相似度打分,计算方法如下:
[0065][0066]
其中,cos()表示余弦相似度,pb为用户对话d和候选回复ru的语义相关性打分结果。
[0067]
步骤3:对n个候选回复r,制定候选回复对用户对话d的情感引导规则,通过该规则为每一个候选回复打分,实现方式如下:
[0068]
步骤3.1:通过对话情感识别模型为用户对话d和每个候选回复ru进行打分,得到对话情感极性的概率分布[p(中),p(正),p(负)],p(中),p(正),p(负)分别表示情感为中性、正向、负向的概率,具体计算情感得分的方法如下:
[0069]
scored=[0.05*p(中)+1*p(正)-1*p(负)]*100
[0070][0071]
其中,scored表示用户对话的情感得分,表示第u候选回复的情感得分,*表示乘以。
[0072]
具体实施时,对话情感识别模型可采用现有技术,例如百度提供的情感识别模型(https://ai.baidu.com/tech/nlp_apply/emotion_detection)
[0073]
步骤3.2:计算回复对用户对话d正向情感引导性的打分规则如下:
[0074]
当用户对话情感打分scored<0,且时:
[0075][0076]
pc=-(score
t-num)/sigma
[0077]
其中,abs()表示求绝对值,score
t
表示scored和的情感距离,num、sigma为定值且num<sigma,优选地,num建议取值为200,sigma建议取值为300,pc为回复对用户对话d的正向情感引导性分数。
[0078]
当用户对话情感打分scored<0,,且时:
[0079]
pc=0
[0080]
当用户对话情感打分scored≥0时:
[0081][0082][0083][0084]
步骤4:对n个候选回复r,通过计算用户对话d和通过计算每个候选回复ru的上下文逻辑一致性,为候选回复的逻辑一致性打分,实现方式如下:
[0085]
步骤4.1:对用户对话d和候选回复ru进行分词得到d=[w1,w2,
…
,wn]和ru=[x1,x2,
…
,xm],将文本进行预处理得到输入文本i=[[cls],w1,w2,
…
,wn,[sep],x1,x2,
…
,xm],[cls]为开始标志,[sep]为段落分隔标志符,分别用来分隔用户对话d和候选回复ru。然后,使用词嵌入技术得词向量序列ie=[e
cls
,e
w1
,e
w2
,
…
,e
wn
,e
sep
,e
x1
,e
x2
,
…
,e
xm
],e
wj
表示用户对话中第j个词的词向量,e
xi
表示候选回复ru中第i个词的词向量,i=1,2,
…
m,j=1,2,
…
n。
[0086]
步骤4.2:将序列ie输入到bert模型中,h
cls
对应[cls]标志位的输出,用于计算两个句子是否具有上下文逻辑一致性,具体实现过程如下:
[0087]
y=softmax(w
lhcls
)
[0088]
其中w
l
代表是全连接网络层的可训练参数,softmax表示激活函数,通过全连接层和soffmax激活函数对h
cls
进行激活函数处理,计算得到d和ru是上下文逻辑一致性的概率分布y。最终,选择用户对话和候选回复逻辑一致性的概率作为pd。
[0089]
步骤5:针对预进行意图识别的对话d,将候选回复的通顺度结果pa、回复与用户对话d的相关性结果pb、回复与用户对话d的情绪一致性pc、回复与用户对话d的上下文逻辑性pd进行线性融合,融合方式如下,
[0090]
p=δ1·
pa+δ2·
pb+δ3·
pc+δ4·
pd[0091]
其中,δ1、δ2、δ3、δ4为固定值且取值区间为[0,1],建议取值为0.8,0.6,0.9,0.8。
[0092]
最后,选取多个候选回复中分数最高的候选回复作为对话d对应的最终回复。
[0093]
采用以上方式可实现基于深度学习实现对话质量评估模型,实现自动运行流程。
[0094]
具体实施时,本发明技术方案提出的一种基于深度学习的对话质量评估方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备、服务器,也应当在本发明的保护范围内。
[0095]
在一些可能的实施例中,提供一种基于深度学习的对话质量评估系统,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种基于深度学习的方面级情感分析方法。
[0096]
在一些可能的实施例中,提供一种基于深度学习的对话质量评估系统,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种基于深度学习的方面级情感分析方法。
[0097]
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
技术特征:
1.一种基于深度学习的对话质量评估方法,其特征在于:首先,构建对话语料,该语料包括用户对话d,多个候选回复r;然后,用对话语料训练对话质量评估深度学习模型m,所述深度学习模型从回复的通顺度、回复与用户对话d的语义相关性、回复对用户对话d的正向情感引导性和回复与用户对话d的上下文逻辑一致性四个方面对候选回复质量进行评估;最后,通过将回复的通顺度结果p
a
、回复与用户对话d的相关性结果p
b
、回复对用户对话d的正向情感引导性结果p
c
、回复与用户对话d的上下文逻辑一致性结果pd进行线性融合,选取得分最高的候选回复作为用户对话d的最终回复。2.根据权利要求1所述基于深度学习的对话质量评估方法,其特征在于:从回复的通顺度候选回复质量进行评估时,包括对n个候选回复r={r1,r2,...,r
n
),r
u
表示每个候选回复,u=1,2,...n),计算候选回复r
i
的困惑度,为候选回复的通顺度打分,实现方式如下,将候选回复r
u
进行分词后得到长度为m的输入文本r
u
=[x1,x2,...,x
m
],通过n-gram语言模型计算当前对话的困惑度ppl(r
u
)如下:其中,x1,x2,...,x
m
为组成一句话的各个单词;其中,q(x
i
|x
i-1
,x
i-2
,...,x1)可由语言模型,是给定一句话的前i个词时第i+1个词可能出现的概率的分布q(x
i
|x
i-1
,x
i-2
,...,x1);为了将困惑度的值映射到0到1附近,采取标准化计算:p
a
=-(ppl(r
u
)-mu)/sigma其中,mu、sigma为定值,p
a
为回复的通顺度打分结果。3.根据权利要求1所述基于深度学习的对话质量评估方法,其特征在于:从回复与用户对话d的语义相关性进行评估时,包括对n个候选回复r,通过计算用户对话d和每个候选回复r
i
的语义相似度,为候选回复和用户对话的语义相关性打分,实现方式如下,对用户对话d和候选回复r
u
进行分词,分别得n个词w1,w2,...,w
n
和m个词x1,x2,...,x
m
,并进行预处理,包括在开始位置加入标签[cls],得到d=[[cls],w1,w2,...,w
n
]和r
u
=[[cls],x1,x2,...,x
m
],然后使用词嵌入方式得词向量序列和和和分别对应输入文本i中的两个[cls]标志位对应的向量,e
wj
表示用户对话d中第j个词的词向量,e
xi
表示候选回复r
u
中第i个词的词向量,i=1,2,...m,j=1,2,...n;将d
e
和r
ue
分别输入到bert模型中,通过计算得到bert的输出分别输入到bert模型中,通过计算得到bert的输出分别输入到bert模型中,通过计算得到bert的输出分别对应两个[cls]标志位的输出,表示用户对话和候选回复的对话语义信息,通过计算余弦相似度给用户对话d和候选回复r
u
进行语义相似度打分如下,其中,cos()表示余弦相似度,p
b
为用户对话d和候选回复r
u
的语义相关性打分结果。4.根据权利要求1所述基于深度学习的对话质量评估方法,其特征在于:从回复对用户
对话d的正向情感引导性进行评估时,包括对n个候选回复r,制定候选回复对用户对话d的情感引导规则,通过该规则为每一个候选回复打分,实现方式如下,通过对话情感识别模型为用户对话d和每个候选回复r
i
进行打分,得到对话情感极性的概率分布[p(中),p(正),p(负)],p(中),p(正),p(负)分别表示情感为中性、正向、负向的概率,计算情感得分如下:score
d
=[0.05*p(中)+1*p(正)-1*p(负)]*100其中,score
d
表示用户对话的情感得分,表示第i候选回复的情感得分;计算回复对用户对话d的正向情感引导性的打分规则如下,当用户对话情感打分score
d
<0,且时:.p
c
=-(score
t-num)/sigma其中,abs()表示求绝对值,scoret表示scored和的情感距离,num、sigma为定值,p
c
为回复对用户对话d的正向情感引导性分数。当用户对话情感打分score
d
<0,,且时:p
c
=0当用户对话情感打分score
d
≥0时:≥0时:≥0时:5.根据权利要求1所述基于深度学习的对话质量评估方法,其特征在于:从回复与用户对话d的上下文逻辑一致性进行评估时,包括对n个候选回复r,通过计算用户对话d和通过计算每个候选回复r
u
的上下文逻辑一致性,为候选回复的逻辑一致性打分,实现方式如下,对用户对话d和候选回复r
u
进行分词得到d=[w1,w2,...,w
n
]和r
u
=[x1,x2,...,x
m
],将文本进行预处理得到输入文本i=[[cls],w1,w2,...,w
n
,[sep],x1,x2,...,x
m
],[cls]为开始标志,[sep]为段落分隔标志符,分别用来分隔用户对话d和候选回复r
u
。;然后,使用词嵌入方式得词向量序列i
e
=[e
cls
,e
w1
,e
w2
,
…
,e
wn
,e
sep
,e
x1
,e
x2
,
…
,e
xm
],e
wj
表示用户对话中第j个词的词向量,e
xi
表示候选回复r
u
中第i个词的词向量,,i=1,2,...m,j=1,2,...n;将序列i
e
输入到bert模型中,h
cls
对应[cls]标志位的输出,用于计算两个句子是否具有上下文逻辑一致性,具体实现过程如下:y=softmax(w
l
h
cls
)其中w
l
代表是全连接网络层的可训练参数,softmax表示激活函数,通过全连接层和softmax激活函数对h
cls
进行激活函数处理,计算得到d和r
u
是上下文逻辑一致性的概率分布y。最终,选择用户对话和候选回复逻辑一致性的概率作为p
d
。6.根据权利要求1或2或3或4或5所述基于深度学习的对话质量评估方法,其特征在于:将候选回复的通顺度结果p
a
、回复与用户对话d的相关性结果p
b
、回复对用户对话d的正向情感引导性结果p
c
、回复与用户对话d的上下文逻辑一致性结果p
d
进行线性融合,选取多个候
选回复中分数最高的候选回复作为对话d对应的最终回复。7.一种基于深度学习的对话质量评估系统,其特征在于:用于实现如权利要求1-6任一项所述的一种基于深度学习的对话质量评估方法。8.根据权利要求7所述基于深度学习的对话质量评估系统,其特征在于:包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如权利要求1-6任一项所述的一种基于深度学习的对话质量评估方法。9.根据权利要求7所述基于深度学习的对话质量评估系统,其特征在于:包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如权利要求1-6任一项所述的一种基于深度学习的对话质量评估方法。
技术总结
一种基于深度学习的对话质量评估方法,其特征在于:首先,构建对话语料,该语料包括用户对话D,多个候选回复R;然后,用对话语料训练对话质量评估深度学习模型M,所述深度学习模型从回复的通顺度、回复与用户对话D的语义相关性、回复对用户对话D的正向情感引导性和回复与用户对话D的上下文逻辑一致性四个方面对候选回复质量进行评估;最后,通过将通顺度结果P
技术研发人员:何婷婷 王逾凡 范瑞 阿布都乃比江
受保护的技术使用者:华中师范大学
技术研发日:2021.11.30
技术公布日:2022/3/8