1.本技术涉及人工智能技术领域,尤其涉及一种文本校对方法、装置、设备、介质和程序产品。
背景技术:
2.随着人工智能技术的发展,使得智能客服系统得到应用,智能客服系统通过与用户语音通信得到用户的说出语音信息,并从语音信息中分析出用户的真实意图,以根据用户的真实意图来选择对应的话术回答用户,可以减少人工成本。
3.现有技术中,主要是通过自动语音识别技术,对用户说出的语音信息进行识别转换为文本信息,然后从文本中提取出关键词来得到用户的真实意图。
4.但是,现有技术的自动语音识别技术在语音识别过程中容易产生文字混淆,导致识别出来的文本信息不准确。
技术实现要素:
5.本技术提供一种文本校对方法、装置、设备、介质和程序产品,用于解决自动语音识别技术识别得到的文本不准确的问题。
6.第一方面,本技术实施例提供一种文本校对方法,包括:
7.获取当前问询节点的语音识别结果,所述语音识别结果包括对在当前问询节点输入的语音进行识别得到的待校对文字;
8.根据所述待校对文字中每个文字的拼音,获取所述待校对文字对应的目标拼音;
9.根据预先配置的拼音校对集和所述目标拼音,对所述待校对文字进行校对,得到校对后的文字;其中,所述拼音校对集包括第一拼音校对集或第二拼音校对集,所述第一拼音校对集包括对所述当前问询节点所处的业务流程中包含的文字进行校对的校正拼音和校正文字,所述第二拼音校对集包括对所述当前问询节点中包含的文字进行校对的校正拼音和校正文字,且所述第一拼音校对集中的校正文字和所述第二拼音校对集中的校正文字不同。
10.在第一方面的一种可能设计中,所述根据预先配置的拼音校对集和所述目标拼音,对所述待校对文字进行校对,得到校对后的文字,包括:
11.获取所述当前问询节点所处的业务流程,确定所述业务流程是否配置有所述第一拼音校对集;
12.若所述业务流程配置有所述第一拼音校对集,则根据所述第一拼音校对集和所述目标拼音,对所述待校对文字进行校对;
13.若所述业务流程未配置所述第一拼音校对集,则获取配置在所述当前问询节点的第二拼音校对集;
14.根据所述第二拼音校对集和所述目标拼音,对所述待校对文字进行校对,得到校对后的文字。
15.在第一方面的另一种可能设计中,所述根据所述第一拼音校对集和所述目标拼音,对所述待校对文字进行校对,包括:
16.根据所述目标拼音和各个第一拼音校对集中的校正拼音,在各个第一拼音校对集中确定出与所述目标拼音匹配的目标第一拼音校对集;
17.将所述待校对文字校正为所述目标第一拼音校对集中的校正文字。
18.在第一方面的再一种可能设计中,所述根据所述目标拼音和各个第一拼音校对集中的校正拼音,在各个第一拼音校对集中确定出与所述目标拼音匹配的目标第一拼音校对集,包括:
19.获取所述目标拼音对应的混淆拼音,所述混淆拼音与所述目标拼音的相似度值均高于预设阈值;
20.将所述目标拼音和混淆拼音与各个第一拼音校对集中的校正拼音进行对比,确定出与所述目标拼音匹配的目标第一拼音校对集。
21.在第一方面的又一种可能设计中,所述根据所述第二拼音校对集和所述目标拼音,对所述待校对文字进行校对,包括:
22.根据所述目标拼音和各个第二拼音校对集中的校正拼音,在各个第二拼音校对集中确定出与所述目标拼音匹配的目标第二拼音校对集;
23.将所述待校对文字校正为所述目标第二拼音校对集中的校正文字。
24.在第一方面的又一种可能设计中,所述根据所述目标拼音和各个第二拼音校对集中的校正拼音,在各个第二拼音校对集中确定出与所述目标拼音匹配的目标第二拼音校对集,包括:
25.获取所述目标拼音对应的混淆拼音,所述混淆拼音与所述目标拼音的相似度值高于预设阈值;
26.将所述目标拼音和混淆拼音与每个第二拼音校对集中的校正拼音进行对比,确定出与所述目标拼音匹配的目标第二拼音校对集。
27.在第一方面的又一种可能设计中,所述获取所述当前问询节点所处的业务流程,包括:
28.根据预设流程表,确定所述当前问询节点的上一节点和下一节点;
29.根据所述当前问询节点的上一节点和下一节点,确定所述当前问询节点所处的业务流程。
30.在第一方面的又一种可能设计中,所述根据所述待校对文字中每个文字的拼音,获取所述待校对文字对应的目标拼音,包括:
31.删除每个文字的拼音的音标,得到每个文字对应的无音标拼音;
32.根据预设分隔符,对各个文字的无音标拼音进行分隔,得到所述待校对文字对应的目标拼音。
33.在第一方面的又一种可能设计中,所述方法还包括:
34.获取与所述待校对文字匹配的第一用户意图和所述第一用户意图对应的匹配值;
35.获取与所述校对后的文字匹配的第二用户意图和所述第二用户意图对应的匹配值;
36.根据所述第一用户意图对应的匹配值和所述第二用户意图对应的匹配值,确定所
述第一用户意图或所述第二用户意图作为用户真实意图;
37.根据所述真实用户意图,得到在当前问询节点输入的语音对应的答复信息。
38.在第一方面的又一种可能设计中,所述方法还包括:
39.将所述待校对文字和所述校对后的文字写入至预设交互记录中。
40.在第一方面的又一种可能设计中,所述方法还包括:
41.根据所述待校对文字、预先配置的拼音校对集和校对后的文字,生成校对报表。
42.第二方面,本技术实施例提供一种文本校对装置,包括:
43.结果获取模块,用于获取当前问询节点的语音识别结果,所述语音识别结果包括对在当前问询节点输入的语音进行识别得到的待校对文字;
44.拼音转换模块,用于根据所述待校对文字中每个文字的拼音,获取所述待校对文字对应的目标拼音;
45.文字校对模块,用于根据预先配置的拼音校对集和所述目标拼音,对所述待校对文字进行校对,得到校对后的文字;其中,所述拼音校对集包括第一拼音校对集或第二拼音校对集,所述第一拼音校对集包括对所述当前问询节点所处的业务流程中包含的文字进行校对的校正拼音和校正文字,所述第二拼音校对集包括对所述当前问询节点中包含的文字进行校对的校正拼音和校正文字,且所述第一拼音校对集中的校正文字和所述第二拼音校对集中的校正文字不同。
46.第三方面,本技术实施例提供一种计算机设备,包括:处理器,以及与所述处理器通信连接的存储器;
47.所述存储器存储计算机执行指令;
48.所述处理器执行所述存储器存储的计算机执行指令,以实现上述的方法。
49.第四方面,本技术实施例提供一种可读存储介质,所述可读存储介质中存储有计算机指令,所述计算机指令被处理器执行时用于实现上述的方法。
50.第五方面,本技术实施例提供一种程序产品,包括计算机指令,该计算机指令被处理器执行时实现上述的方法。
51.本技术实施例提供的文本校对方法、装置、设备、介质和程序产品,通过为当前问询节点中容易产生误识别的文字配置拼音校对集,以及为当前问询节点所处的业务流程中容易产生误识别的文字配置拼音校对集,可以精准控制校对所涉及到的文字范围,使得通过语音识别技术得到的文本更加准确。
附图说明
52.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理;
53.图1为本技术实施例提供的文本校对方法场景示意图;
54.图2为本技术实施例提供的文本校对方法实施例一的流程示意图;
55.图3为本技术实施例提供的业务流程的结构示意图;
56.图4为本技术实施例提供的文本校对方法实施例二的流程示意图;
57.图5为本技术实施例提供的智能客服系统的数据处理交互示意图;
58.图6为本技术实施例提供的文本校对装置的结构示意图;
59.图7为本技术实施例提供的计算机设备的结构示意图。
60.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
61.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
62.首先对本技术所涉及的名词进行解释:
63.媒体资源服务器:
64.媒体资源服务器在控制设备(软交换设备、应用服务器)的控制下,提供在ip网络上实现各种业务所需的媒体资源功能,包括业务音提供、会议、交互式应答(interactive voice response,ivr)、通知、高级语言业务等。
65.媒体资源控制协议:
66.媒体资源控制协议(media resource control protocol,mrcp)是一种计算机网络应用层的通讯协议,用于语音服务器向客户端提供各种语音服务(如语音识别、语音合成、声纹识别等)。
67.自动语音识别技术:
68.自动语音识别技术(automatic speech recognition,asr),是一种将人的语音转换为文本的技术。
69.自然语言处理:
70.自然语言处理(natural language processing,nlp)是一门集语言学,数学及计算机科学于一体的科学。它的核心目标就是把人的自然语言转换为计算机可以阅读的指令,简单来说就是让机器读懂人的语言。
71.图1为本技术实施例提供的文本校对方法场景示意图。如图1所示,智能客服系统10可以主动拨打用户电话号码,用户在移动终端11上接通电话之后,智能客户系统10可以对用户进行问询,例如问询用户是否需要办理分期业务,用户可以针对问询问题进行答复。智能客服系统10需要根据用户的答复来反馈对应的信息给用户,最终实现智能问答,减少人工投入。在实际生活应用中,为了能够提高问答交互效果,智能客服系统10需要根据用户的答复,反馈出准确的话术给用户。这个过程主要涉及到对用户的语音的识别,提取出文字并根据文字来识别出用户的真实意图,最终根据用户真实意图,找到对应的话术反馈给用户。
72.其中,智能客服系统10主要包括有媒体资源服务器、智能语音产品、nlp和应用系统四个大模块。智能客服系统10在一次基本交互流程中涉及到的数据处理主要包括如下方面:(1)将用户说出的语音通过媒体资源服务器传送到智能语音产品,由智能语音产品中的asr模型将用户语音转化为文字,返回给媒体资源服务器;(2)媒体资源服务器发送识别结果到应用系统,应用系统再调用nlp模型理解用户意图,然后根据用户意图选择回复话术。
接着再驱动媒体资源服务器向智能语音产品发送话术转语音请求;(3)智能语音产品把话术转换成语音,传输到媒体资源服务器,播放给用户。在这个数据处理过程中,由于汉字同音字、混淆音较多、asr模型受限等原因,容易造成asr模型转换成的文字结果有误,从而很有可能影响到整个智能客服系统,造成问答交互效果不理想。
73.现有技术中,在通过asr模型将用户语音转为文字的过程中,主要涉及到两种方式,一种是将asr模型分为基础模型和特定模型两种,基础模型适用于专业性不强的领域,由于兼顾范围广,识别准确率略低。而特定模型是针对专业性强的领域,如金融领域、保险领域等特意训练的模型,具有在特定领域识别率高的优点。但是特定模型需要做大量的调优训练工作,如搜集语料训练集、调整算法训练调参等,整个过程费时费力,成本较高。并且特定模型的适用范围窄,当出现新的业务时,无法迅速调整适应。另一种则是利用第三方自学习训练平台,以添加热门关键词、定制语言模型、声学模型等,由用户自主训练调优解决一些简单识别问题。但是这种方式中,自学习训练平台的使用费用较高;而且由于这种调优(如热门关键词)极可能造成矫枉过正,把老模型正确的识别结果识别成配置的发音相近的热门关键词;同时这种调优是粗粒度的,无法控制应用范围(如流程、流程节点),影响范围较大。
74.针对上述问题,本技术实施例提供的文本校对方法、装置、设备、介质和程序产品,通过添加可基于特定业务流程、特定流程节点的基于拼音识别纠错的拼音校对集,进一步纠正asr识别结果,最终能够提高语音转文字的准确性,为后续nlp做好预处理,提高整个智能客服系统的交互效果。
75.下面,通过具体实施例对本技术的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
76.图2为本技术实施例提供的文本校对方法的流程示意图。该方法可以应用于智能客服系统,针对其中的智能语音产品将语音转化成话术之后,对话术中的文字做进一步校对。如图2所示,该方法具体可以包括如下步骤:
77.s201、获取当前问询节点的语音识别结果。
78.其中,语音识别结果包括对在当前问询节点输入的语音进行识别得到的待校对文字。语音可以是用户说话的语音,例如智能客服系统通过拨打用户电话之后,用户接通电话并回答智能客服系统的问题所产生的语音。
79.示例性的,语音识别结果可以是通过asr模型对用户语音进行识别,得到的,其中包括有文字。例如智能客服系统询问用户是否需要分期,用户说“需要分期”,则asr模型对用户语音识别得到的文字可以为“需要分期”或者“需要分歧”。其中,后者是由于分歧与分期为同音词,asr对用户语音错误识别所产生的文字识别结果,此时“需要分歧”这一语音识别结果就需要使用本技术语音识别的校对方法来校对为前者。
80.在本实施例中,根据智能客服系统涉及到的领域不同,业务流程也不同,对应的问询节点也不同,例如如果智能客服系统涉及到的为金融领域,则业务流程可以包括贷款业务、还款业务等。示例性的,贷款业务可以包括的问询节点有问询是否分期节点、问询分期期数节点、问询结束节点等等。
81.示例性的,图3为本技术实施例提供的业务流程的结构示意图,如图3所示,其中包
括有多个节点,例如是否分期节点、分期期数节点、结束节点等等。每一个节点都有对应的话术和用户可能表达的意图集,以是否分期节点为例,话术可以是询问用户“请问是否需要办理分期”,意图集包括有“肯定意图”和“否定意图”。业务流程就是以节点为单位,通过箭头连线串联起来的结构。
82.在一些实施方式中,图3中的业务流程的流程结构可以作为预设流程表,由此确定当前问询节点的上一节点和下一节点,从而确定当前问询节点所处的业务流程。
83.示例性的,业务流程可以包括分期业务办理流程(即图3中的业务流程)和用户投诉处理业务流程。不同的业务流程给配置的第一拼音校对集不相同。
84.s202、根据待校对文字中每个文字的拼音,获取待校对文字对应的目标拼音。
85.在本实施例中,待校对文字中至少包括有两个汉字,例如“需要分歧”,其中每一个汉字都有对应的拼音,将每一个汉字的拼音拼接之后即得到了目标拼音,例如“xuyaofenqi”。
86.s203、根据预先配置的拼音校对集和目标拼音,对待校对文字进行校对,得到校对后的文字。
87.其中,拼音校对集包括第一拼音校对集或第二拼音校对集,第一拼音校对集包括对当前问询节点所处的业务流程中包含的文字进行校对的校正拼音和校正文字,第二拼音校对集包括对当前问询节点中包含的文字进行校对的校正拼音和校正文字,且第一拼音校对集中的校正文字和第二拼音校对集中的校正文字不同。
88.在本实施例中,拼音校对集中包括有拼音和该拼音对应的文字,以拼音可以是“fenqi”,对应的文字为“分期”为例。则如果待校对文字为“需要分歧”,目标拼音为“xuyaofenqi”,此时待校对文字就会被校对为分期,作为校对后的文字。
89.在本实施例中,第一拼音校对集和第二拼音校对集的数量可以是多个,例如存在一节点,asr模型在该节点的识别错误率很高,该节点中用户语音识别得到的文字有很多都是错误的,例如asr模型将用户说的“三期”识别为了“三七”,将“九期”识别为了“酒器”,此时该节点就需要两个第二拼音校对集,分别对“三七”和“酒器”进行校对。
90.其中,除了asr模型在某个节点的识别错误率很高之外,asr模型也可能在整个业务流程中对某些语音的识别错误率很高,此时就需要多个第一拼音校对集,来分别对业务流程中那些容易产生误识别的语音进行校对。
91.在本实施例中,第一拼音校对集就是针对整个业务流程中容易产生误识别的语音进行校对,而第二拼音校对集就是针对单个节点中容易产生误识别的语音进行校对。
92.示例性的,针对业务流程和节点,分别配置的拼音校对集如下表1:
[0093][0094]
表1
[0095]
本技术实施例通过在当前问询节点或者当前问询节点所处的业务流程出配置相应的拼音校对集,可以精准的对当前问询节点或业务流程中容易发生误识别的文字进行校对,使得asr识别之后得到的文本能够更加准确的描述出用户输入的语音。
[0096]
在一些实施例中,上述步骤s203具体可以通过如下步骤实现:
[0097]
获取当前问询节点所处的业务流程,确定业务流程是否配置有第一拼音校对集;
[0098]
若业务流程配置有第一拼音校对集,则根据第一拼音校对集和目标拼音,对待校对文字进行校对;
[0099]
若业务流程未配置第一拼音校对集,则获取配置在当前问询节点的第二拼音校对集;
[0100]
根据第二拼音校对集和目标拼音,对待校对文字进行校对。
[0101]
在本实施例中,第一拼音校对集和第二拼音校对集所校对的目标不相同,第一拼音校对集中包含的拼音、文字主要面向整个业务流程可能存在误识别的汉字。第二拼音校对集中包含的拼音、文字主要面向特定节点可能存在误识别的汉字。
[0102]
其中,在当前问询节点可以配置多个第一拼音校对集或者多个第二拼音校对集,示例性的,以上表1为例,在当前问询节点可以设置三个第二拼音校对集《sanqi,三期》、《xinlong,新龙》、《xinglong,新龙》。如果目标拼音为sanqi,则待校对文字会被校对得校对后的文字“三期”。
[0103]
在本实施例中,配置第一拼音校对集或第二拼音校对集的目的在于避免出现矫枉过正的情况,例如asr模型识别用户语音得到的文字为“分歧”,如果此时当前问询节点是处于用户投诉处理业务流程,则不应当被校正为“分期”,而应当认为asr模型识别结果是正确
的。
[0104]
本技术实施例通过在当前问询节点配置第一拼音校对集或第二拼音校对集,能够对不同范围内的词或字校对,精准控制校对粒度,针对特定业务有限的范围,用户可能出现的有限的回答内容,配置有针对性的拼音校对集,避免产生矫枉过正。
[0105]
在上述实施例的基础上,在一些实施例中,上述“根据第一拼音校对集和目标拼音,对待校对文字进行校对”,具体可以通过如下步骤实现:
[0106]
根据目标拼音和各个第一拼音校对集中的校正拼音,在各个第一拼音校对集中确定出与目标拼音匹配的目标第一拼音校对集;
[0107]
将待校对文字校正为目标第一拼音校对集中的校正文字。
[0108]
在本实施例中,第一拼音校对集中校正拼音和校正文字可以是键值对形式,即《key,value》,其中,key表示校正拼音,value表示校正文字。示例性的,第一拼音校对集的数量可以是一个,例如《fenqi,分期》,如果目标拼音中包含fenqi或者目标拼音就是fenqi,则待校对文字会被校对成为“分期”。
[0109]
本技术实施例通过设置校对拼音和校对文字,能够对asr模型输出的误识别文字进行校对,得到更加准确的文本,为后续智能客服系统的工作提供有力的支撑,提高智能客服系统与用户的交互效果。
[0110]
进一步的,在一些实施例中,上述步骤“根据目标拼音和各个第一拼音校对集中的校正拼音,在各个第一拼音校对集中确定出与目标拼音匹配的目标第一拼音校对集”,具体可以通过如下步骤实现:
[0111]
获取目标拼音对应的混淆拼音;
[0112]
将目标拼音和混淆拼音与各个第一拼音校对集中的校正拼音进行对比,确定出与目标拼音匹配的目标第一拼音校对集。
[0113]
其中,混淆拼音与目标拼音的相似度值高于预设阈值。示例性的,以目标拼音为fenqi为例,则混淆拼音可以是与目标拼音容易产生混淆的后鼻音,例如混淆拼音可以是fengqi。
[0114]
示例性的,第一拼音校对集可以包括两个,例如《fengqi,分期》和《fenqi,分期》,即与目标拼音匹配的目标第一拼音校对集为《fenqi,分期》,与混淆拼音匹配的目标第一拼音校对集为《fengqi,分期》,通过这两个目标第一拼音校对集,最终得到校对后的文字为“分期”。
[0115]
在本实施例中,通过获取目标拼音的混淆音并在第一拼音校对集中配置与混淆音匹配的拼音校对集,能够针对用户发音不准的问题,将asr模型由于发音不准造成的误识别的文字校对成正确的文字,提高识别准确度。
[0116]
在一些实施例中,上述步骤“根据第二拼音校对集和目标拼音,对待校对文字进行校对”,具体可以通过如下步骤实现:
[0117]
根据目标拼音和各个第二拼音校对集中的校正拼音,在各个第二拼音校对集中确定出与目标拼音匹配的目标第二拼音校对集;
[0118]
将待校对文字校正为目标第二拼音校对集中的校正文字。
[0119]
进一步的,在一些实施例中,上述“根据目标拼音和各个第二拼音校对集中的校正拼音,在各个第二拼音校对集中确定出与目标拼音匹配的目标第二拼音校对集”,具体可以
通过如下步骤实现:
[0120]
获取目标拼音对应的混淆拼音;
[0121]
将目标拼音和混淆拼音与每个第二拼音校对集中的校正拼音进行对比,确定出与目标拼音匹配的目标第二拼音校对集。
[0122]
其中,混淆拼音与目标拼音的相似度值高于预设阈值。
[0123]
示例性的,第二拼音校对集可以包括三个,例如《sanqi,三期》、《xinlong,新龙》、《xinglong,新龙》。当目标拼音为xinlon时,对应的混淆拼音可以是xinlong、xinglong。此时与混淆拼音对应的目标第二拼音校对集为《xinlong,新龙》、《xinglong,新龙》,最终得到的校对后的文字为新龙。
[0124]
在本实施例中,通过获取目标拼音的混淆音并在第二拼音校对集中配置与混淆音匹配的拼音校对集,能够针对用户发音不准的问题,将asr模型由于发音不准造成的误识别的文字校对成正确的文字,提高识别准确度。
[0125]
在一些实施例中,上述步骤s202具体可以通过如下步骤实现:
[0126]
删除每个文字的拼音的音标,得到每个文字对应的无音标拼音;
[0127]
根据预设分隔符,对各个文字的无音标拼音进行分隔,得到待校对文字对应的目标拼音。
[0128]
在本实施例中,asr模型识别得到的文字是有声调的,其通过拼音的音标来体现,例如“期”和“歧”的音标就不相同,但是有些用户在说话时,有些字的读音可能会发生混淆,例如用户将本来应当读第四声的字读成了第二声,造成asr模型的误识别。为此可以去掉每个文字的拼音,例如“期”和“歧”都会转换为无音标拼音qi。
[0129]
示例性的,预设分隔符可以是斜杠、横杆、标点符号等等。例如“分期”对应的目标拼音为fen-qi。
[0130]
本技术实施例通过将每个文字转换成无音标拼音,能够兼容不同用户发音音调不同的问题,同时设置分隔符进行分割,避免多个字的拼音界限不清,能够有效的提高识别效果以及兼容性。
[0131]
在一些实施例中,上述方法还可以包括如下步骤:
[0132]
获取与待校对文字匹配的第一用户意图和第一用户意图对应的匹配值;
[0133]
获取与校对后的文字匹配的第二用户意图和第二用户意图对应的匹配值;
[0134]
根据第一用户意图对应的匹配值和第二用户意图对应的匹配值,确定第一用户意图或第二用户意图作为用户真实意图;
[0135]
根据真实用户意图,得到在当前问询节点输入的语音对应的答复信息。
[0136]
示例性的,以“三七”为待校对文字,“三期”为校对后的文字为例,在智能客服系统中,存储有语音识别结果与意图的映射关系,“三七”映射匹配的第一用户意图可能在智能客服系统中为一种中药,该第一用户意图对应的匹配值可能为0.1,而“三期”映射匹配的第二用户意图在智能客服系统中为用户需要将贷款分期为三期。该第二用户意图对应的匹配值为0.8。第二用户意图对应的匹配值更大,则选取第二用户意图作为用户真实意图,然后根据用户真实意图匹配对应的话术,作为答复信息答复给用户。
[0137]
本技术实施例通过在分别发送校对前的文字和校对后的文字来确定对应的用户意图,取匹配值最大的用户意图作为用户真实意图,能够对语音校对进行兜底,避免语音校
对过程中产生矫枉过正,提高智能客服系统交互效果。
[0138]
示例性的,图4为本技术实施例提供的文本校对方法实施例二的流程示意图,如图4所示,该方法具体可以包括如下步骤:
[0139]
s401、询问用户;
[0140]
s402、得到客户应答语音;
[0141]
s403、通过智能语音产品asr模型识别得到语音识别结果;
[0142]
s404、把语音识别结果转换为目标拼音;
[0143]
s405、有业务流程拼音校对集;
[0144]
s4051、有下一个业务流程拼音校对集;
[0145]
s4052、获取一个业务流程拼音校对集的校正拼音和校正文字;
[0146]
s4053、校正拼音与目标拼音匹配;
[0147]
s4054、将语音识别结果替换为校正文字;
[0148]
s4055、遍历下一个业务流程拼音校对集;
[0149]
s406、当前问询节点配置有拼音校对集;
[0150]
s4061、有下一个节点拼音校对集;
[0151]
s4062、获取一个节点拼音校对集的校正拼音和校正文字;
[0152]
s4063、校正拼音与目标拼音匹配;
[0153]
s4064、将语音识别结果替换为校正文字;
[0154]
s4065、遍历下一个节点流程拼音校对集;
[0155]
s407、获取语音识别结果对应的用户意图和校正文字对应的用户意图;
[0156]
s408、确定真实用户意图。
[0157]
在一些实施例中,上述方法还包括如下步骤:
[0158]
将待校对文字和校对后的文字写入至预设交互记录中。
[0159]
本技术实施例通过建立事后跟踪机制,将待校对的文字和校对后的文字都写入到交互记录中,可以方便智能客服系统的管理人员事后比对录音,验证校对效果是否符合预期。
[0160]
在一些实施例中,上述方法还包括如下步骤:
[0161]
根据待校对文字、预先配置的拼音校对集和校对后的文字,生成校对报表。
[0162]
在本实施例中,可以出具校对报表供智能客服系统的管理人员事后分析,确定校对效果是否符合预期。
[0163]
图5为本技术实施例提供的智能客服系统的数据处理交互示意图。其中,智能客服系统主要涉及到资源媒体服务器、智能语音产品、nlp和应用系统四个大模块,其中涉及到具体如下流程:
[0164]
s501、启动外呼任务;
[0165]
s502、拨打用户电话;
[0166]
s503、用户接通电话;
[0167]
s504、请求话术;
[0168]
s505、返回话术;
[0169]
s506、请求文字转语音;
[0170]
s507、返回合成语音;
[0171]
s508、播放合成语音;
[0172]
s509、用户回答问题;
[0173]
s510、发送语音识别请求;
[0174]
s511、返回语音识别结果;
[0175]
s512、发送语音识别结果;
[0176]
s513、对识别结果进行拼音校对纠错;
[0177]
s514、发送校对结果;
[0178]
s515、返回用户意图;
[0179]
s516、根据用户意图映射回复话术;
[0180]
s517、返回回复话术。
[0181]
其中,步骤s501-s503主要内容是应用系统启动外呼任务,触发媒体资源服务器拨打客户电话,客户接通电话;步骤s504-s505主要内容是媒体资源服务器告知应用系统电话已接通,应用系统启动流程,返回开场话术到媒体资源服务器;步骤s506-s508主要内容是媒体资源服务器发送开场话术到智能语音服务器,智能语音服务器返回tts模块合成的语音,媒体资源服务器播放给客户听;步骤s509-s512主要内容是客户回答问题,媒体资源服务器发送客户语音到智能语音产品,智能语音产品的asr模块把客户语音转换为文字,返回到媒体资源服务器;媒体资源服务器发送到应用系统,请求回复话术;步骤s513-s515主要内容是应用系统收到回复话术,检查该业务流程和该流程节点是否配置了拼音校对集(该集合是《k,v》键值对,k是拼音,v是正确的文字)。如果有配置,则遍历配置集的拼音,与asr识别结果进行比对,若比对成功,则把asr识别结果中的对应汉字替换为配置集中的该拼音对应的汉字;然后发送校对后的asr识别结果到nlp;nlp返回客户意图;步骤s516-s517主要内容是应用系统根据客户意图,映射相应的回复话术并返回到媒体资源服务器。至此完成一次客户交互的闭环。
[0182]
下述为本技术装置实施例,可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节,请参照本技术方法实施例。
[0183]
图6为本技术实施例提供的文本校对装置的结构示意图,该装置可以集成于智能客服系统上,也可以独立于智能客服系统且与智能客服系统协同实现本技术方案。如图6所示,该文本校对装置60包括:结果获取模块61、拼音转换模块62和文字校对模块63。
[0184]
其中,结果获取模块61用于获取当前问询节点的语音识别结果。拼音转换模块62用于根据待校对文字中每个文字的拼音,获取待校对文字对应的目标拼音。文字校对模块63用于根据预先配置的拼音校对集和目标拼音,对待校对文字进行校对,得到校对后的文字。
[0185]
其中,语音识别结果包括对在当前问询节点输入的语音进行识别得到的待校对文字,拼音校对集包括第一拼音校对集或第二拼音校对集,第一拼音校对集包括对当前问询节点所处的业务流程中包含的文字进行校对的校正拼音和校正文字,第二拼音校对集包括对当前问询节点中包含的文字进行校对的校正拼音和校正文字,且第一拼音校对集中的校正文字和第二拼音校对集中的校正文字不同。
[0186]
在一些实施例中,文字校对模块具体可以用于:
[0187]
获取当前问询节点所处的业务流程,确定业务流程是否配置有第一拼音校对集;
[0188]
若业务流程配置有第一拼音校对集,则根据第一拼音校对集和目标拼音,对待校对文字进行校对;
[0189]
若业务流程未配置第一拼音校对集,则获取配置在当前问询节点的第二拼音校对集;
[0190]
根据第二拼音校对集和目标拼音,对待校对文字进行校对,得到校对后的文字。
[0191]
在一些实施例中,文字校对模块具体可以用于:
[0192]
根据目标拼音和各个第一拼音校对集中的校正拼音,在各个第一拼音校对集中确定出与目标拼音匹配的目标第一拼音校对集;
[0193]
将待校对文字校正为目标第一拼音校对集中的校正文字。
[0194]
在一些实施例中,文字校对模块具体可以用于:
[0195]
获取目标拼音对应的混淆拼音;
[0196]
将目标拼音和混淆拼音与各个第一拼音校对集中的校正拼音进行对比,确定出与目标拼音匹配的目标第一拼音校对集。
[0197]
其中,混淆拼音与目标拼音的相似度值均高于预设阈值。
[0198]
在一些实施例中,文字校对模块具体可以用于:
[0199]
根据目标拼音和各个第二拼音校对集中的校正拼音,在各个第二拼音校对集中确定出与目标拼音匹配的目标第二拼音校对集;
[0200]
将待校对文字校正为目标第二拼音校对集中的校正文字。
[0201]
在一些实施例中,文字校对模块具体可以用于:
[0202]
获取目标拼音对应的混淆拼音;
[0203]
将目标拼音和混淆拼音与每个第二拼音校对集中的校正拼音进行对比,确定出与目标拼音匹配的目标第二拼音校对集。
[0204]
其中,混淆拼音与目标拼音的相似度值高于预设阈值。
[0205]
在一些实施例中,文字校对模块具体可以用于:
[0206]
根据预设流程表,确定当前问询节点的上一节点和下一节点;
[0207]
根据当前问询节点的上一节点和下一节点,确定当前问询节点所处的业务流程。
[0208]
在一些实施例中,还包括意图获取模块,用于:
[0209]
获取与待校对文字匹配的第一用户意图和第一用户意图对应的匹配值;
[0210]
获取与校对后的文字匹配的第二用户意图和第二用户意图对应的匹配值;
[0211]
根据第一用户意图对应的匹配值和第二用户意图对应的匹配值,确定第一用户意图或第二用户意图作为用户真实意图;
[0212]
根据真实用户意图,得到在当前问询节点输入的语音对应的答复信息。
[0213]
在一些实施例中,还包括写入模块,用于将待校对文字和校对后的文字写入至预设交互记录中。
[0214]
在一些实施例中,还包括生成模块,用于根据待校对文字、预先配置的拼音校对集和校对后的文字,生成校对报表。
[0215]
本技术实施例提供的装置,可用于执行上述实施例中的方法,其实现原理和技术效果类似,在此不再赘述。
[0216]
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,结果获取模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上结果获取模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
[0217]
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,asic),或,一个或多个微处理器(digital signal processor,dsp),或,一个或者多个现场可编程门阵列(field programmable gate array,fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,cpu)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,soc)的形式实现。
[0218]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本技术实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0219]
图7为本技术实施例提供的计算机设备的结构示意图。如图7所示,该计算机设备70包括:至少一个处理器71、存储器72、总线73及通信接口74。
[0220]
其中:处理器71、通信接口74以及存储器72通过总线73完成相互间的通信。
[0221]
通信接口74用于与其它设备进行通信。该通信接口74包括用于进行数据传输的通信接口以及用于进行人机交互的显示界面或者操作界面等。
[0222]
处理器71用于执行存储器72中存储的计算机执行指令,具体可以执行上述实施例中所描述的方法中的相关步骤。
[0223]
处理器可能是中央处理器,或者是特定集成电路(application specific integrated circuit,asic),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
[0224]
存储器72,用于存放计算机执行指令。存储器72可能包含高速ram存储器,也可能还包括非易失性存储器,例如至少一个磁盘存储器。
[0225]
本实施例还提供一种可读存储介质,可读存储介质中存储有计算机指令,当计算机设备的至少一个处理器执行该计算机指令时,计算机设备执行上述的各种实施方式提供的文本校对方法。
[0226]
本实施例还提供一种程序产品,该程序产品包括计算机指令,该计算机指令存储在可读存储介质中。计算机设备的至少一个处理器可以从可读存储介质读取该计算机指令,至少一个处理器执行该计算机指令使得计算机设备实施上述的各种实施方式提供的文本校对方法。
[0227]
本技术中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b的情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系;在公式中,字符“/”,表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中,a,b,c可以是单个,也可以是多个。
[0228]
可以理解的是,在本技术实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本技术的实施例的范围。在本技术的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术的实施例的实施过程构成任何限定。
[0229]
最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
技术特征:
1.一种文本校对方法,其特征在于,包括:获取当前问询节点的语音识别结果,所述语音识别结果包括对在当前问询节点输入的语音进行识别得到的待校对文字;根据所述待校对文字中每个文字的拼音,获取所述待校对文字对应的目标拼音;根据预先配置的拼音校对集和所述目标拼音,对所述待校对文字进行校对,得到校对后的文字;其中,所述拼音校对集包括第一拼音校对集或第二拼音校对集,所述第一拼音校对集包括对所述当前问询节点所处的业务流程中包含的文字进行校对的校正拼音和校正文字,所述第二拼音校对集包括对所述当前问询节点中包含的文字进行校对的校正拼音和校正文字,且所述第一拼音校对集中的校正文字和所述第二拼音校对集中的校正文字不同。2.根据权利要求1所述的方法,其特征在于,所述根据预先配置的拼音校对集和所述目标拼音,对所述待校对文字进行校对,得到校对后的文字,包括:获取所述当前问询节点所处的业务流程,确定所述业务流程是否配置有所述第一拼音校对集;若所述业务流程配置有所述第一拼音校对集,则根据所述第一拼音校对集和所述目标拼音,对所述待校对文字进行校对;若所述业务流程未配置所述第一拼音校对集,则获取配置在所述当前问询节点的第二拼音校对集;根据所述第二拼音校对集和所述目标拼音,对所述待校对文字进行校对,得到校对后的文字。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一拼音校对集和所述目标拼音,对所述待校对文字进行校对,包括:根据所述目标拼音和各个第一拼音校对集中的校正拼音,在各个第一拼音校对集中确定出与所述目标拼音匹配的目标第一拼音校对集;将所述待校对文字校正为所述目标第一拼音校对集中的校正文字。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标拼音和各个第一拼音校对集中的校正拼音,在各个第一拼音校对集中确定出与所述目标拼音匹配的目标第一拼音校对集,包括:获取所述目标拼音对应的混淆拼音,所述混淆拼音与所述目标拼音的相似度值均高于预设阈值;将所述目标拼音和混淆拼音与各个第一拼音校对集中的校正拼音进行对比,确定出与所述目标拼音匹配的目标第一拼音校对集。5.根据权利要求2所述的方法,其特征在于,所述根据所述第二拼音校对集和所述目标拼音,对所述待校对文字进行校对,包括:根据所述目标拼音和各个第二拼音校对集中的校正拼音,在各个第二拼音校对集中确定出与所述目标拼音匹配的目标第二拼音校对集;将所述待校对文字校正为所述目标第二拼音校对集中的校正文字。6.根据权利要求5所述的方法,其特征在于,所述根据所述目标拼音和各个第二拼音校对集中的校正拼音,在各个第二拼音校对集中确定出与所述目标拼音匹配的目标第二拼音
校对集,包括:获取所述目标拼音对应的混淆拼音,所述混淆拼音与所述目标拼音的相似度值高于预设阈值;将所述目标拼音和混淆拼音与每个第二拼音校对集中的校正拼音进行对比,确定出与所述目标拼音匹配的目标第二拼音校对集。7.根据权利要求2所述的方法,其特征在于,所述获取所述当前问询节点所处的业务流程,包括:根据预设流程表,确定所述当前问询节点的上一节点和下一节点;根据所述当前问询节点的上一节点和下一节点,确定所述当前问询节点所处的业务流程。8.根据权利要求1所述的方法,其特征在于,所述根据所述待校对文字中每个文字的拼音,获取所述待校对文字对应的目标拼音,包括:删除每个文字的拼音的音标,得到每个文字对应的无音标拼音;根据预设分隔符,对各个文字的无音标拼音进行分隔,得到所述待校对文字对应的目标拼音。9.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取与所述待校对文字匹配的第一用户意图和所述第一用户意图对应的匹配值;获取与所述校对后的文字匹配的第二用户意图和所述第二用户意图对应的匹配值;根据所述第一用户意图对应的匹配值和所述第二用户意图对应的匹配值,确定所述第一用户意图或所述第二用户意图作为用户真实意图;根据所述真实用户意图,得到在当前问询节点输入的语音对应的答复信息。10.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述待校对文字和所述校对后的文字写入至预设交互记录中。11.根据权利要求10所述的方法,其特征在于,所述方法还包括:根据所述待校对文字、预先配置的拼音校对集和校对后的文字,生成校对报表。12.一种文本校对装置,其特征在于,包括:结果获取模块,用于获取当前问询节点的语音识别结果,所述语音识别结果包括对在当前问询节点输入的语音进行识别得到的待校对文字;拼音转换模块,用于根据所述待校对文字中每个文字的拼音,获取所述待校对文字对应的目标拼音;文字校对模块,用于根据预先配置的拼音校对集和所述目标拼音,对所述待校对文字进行校对,得到校对后的文字;其中,所述拼音校对集包括第一拼音校对集或第二拼音校对集,所述第一拼音校对集包括对所述当前问询节点所处的业务流程中包含的文字进行校对的校正拼音和校正文字,所述第二拼音校对集包括对所述当前问询节点中包含的文字进行校对的校正拼音和校正文字,且所述第一拼音校对集中的校正文字和所述第二拼音校对集中的校正文字不同。13.一种计算机设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-11中任一项所述的方法。14.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机指令,所述计算机指令被处理器执行时用于实现如权利要求1-11任一项所述的方法。15.一种程序产品,包括计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-11任一项所述的方法。
技术总结
本申请提供一种文本校对方法、装置、设备、介质和程序产品,涉及人工智能技术领域,其中,该方法包括:获取当前问询节点的语音识别结果,根据待校对文字中每个文字的拼音,获取待校对文字对应的目标拼音,根据预先配置的拼音校对集和目标拼音,对待校对文字进行校对,得到校对后的文字。该技术方案中,通过为当前问询节点中容易产生误识别的文字配置拼音校对集,以及为当前问询节点所处的业务流程中容易产生误识别的文字配置拼音校对集,可以精准控制校对所涉及到的文字范围,使得语音识别技术得到的文本更加准确。得到的文本更加准确。得到的文本更加准确。
技术研发人员:艾巍
受保护的技术使用者:建信金融科技有限责任公司
技术研发日:2021.12.06
技术公布日:2022/3/8