一种语音识别结果的确定方法、装置、设备及存储介质与流程

专利查询5月前  40



1.本技术涉及语音识别技术领域,尤其涉及一种语音识别结果的确定方法、装置、设备及存储介质。


背景技术:

2.语音识别技术是智能语音技术中最重要、最困难的核心技术之一,它的功能是把人的语音转换为对应的文本。
3.目前的语音识别过程通常包括两个阶段,第一个阶段是获取语音的若干候选识别结果,第二个阶段是根据第一阶段获得的若干候选识别结果确定语音的最终识别结果。
4.目前根据第一阶段获得的若干候选识别结果确定语音的最终识别结果的方式主要为:对第一阶段获得的每个候选识别结果进行重打分,将第一阶段获得的若干候选识别结果中得分最高的候选识别结果作为最终的识别结果。然而,经由上述方式确定的识别结果仍存在识别错误。


技术实现要素:

5.有鉴于此,本技术提供了一种语音识别结果的确定方法、装置、设备及存储介质,用以解决现有的语音识别结果确定方法确定的识别结果存在识别错误的问题,其技术方案如下:
6.一种语音识别结果的确定方法,包括:
7.在获得目标语音的若干候选识别结果后,将所述若干候选识别结果分别处理成文本单元序列,得到若干文本单元序列;
8.通过将所述若干文本单元序列对齐成等长序列,确定识别易错位置,并将任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,得到待预测文本单元序列;
9.预测所述待预测文本单元序列中所述指定符号处的文本单元,并用预测出的文本单元替换所述指定符号,得到所述目标语音的最终识别结果。
10.可选的,所述通过将所述若干文本单元序列对齐成等长序列,确定识别易错位置,包括:
11.将所述若干文本单元序列对齐成等长序列,得到若干对齐后的文本单元序列;
12.以所述若干对齐后的文本单元序列中相同位置处的文本单元是否相同为依据,确定识别易错位置。
13.可选的,所述预测所述待预测文本单元序列中所述指定符号处的文本单元,包括:
14.利用预先建立的文本预测模型,预测所述待预测文本单元序列中所述指定符号处的文本单元;
15.其中,所述文本预测模型采用训练语音的若干条候选识别结果和所述训练语音的标注文本训练得到。
16.可选的,所述文本预测模型采用预先训练得到的多任务联合模型中的编码模块和文本预测模块,所述多任务联合模型还包括与所述文本预测模块共享所述编码模块的句对分类模块;
17.所述多任务联合模型以预测第一信息和第二信息为任务训练得到,其中,所述第一信息为所述训练语音的两条候选识别结果的关系类别,所述关系类别能够表征所述两条候选识别结果的差异,所述第二信息为根据所述训练语音的若干条候选识别结果确定的识别易错位置上的文本单元。
18.可选的,所述多任务联合模型的训练过程包括:
19.从通过对所述训练语音的若干文本单元序列进行排列组合得到若干文本单元序列对中随机抽取一文本单元序列对作为第一训练样本,并为所述第一训练样本标注关系类别;
20.将所述训练语音的若干条候选识别结果分别处理成文本单元序列,通过将所述训练语音的若干文本单元序列对齐,确定识别易错位置,并将所述训练语音的任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,得到第二训练样本;
21.利用所述第一训练样本、所述第一训练样本标注的关系类别、所述第二训练样本和所述训练语音标注的文本,以预测所述第一训练样本的关系类别以及预测所述第二训练样本中指定符号处的文本单元为任务,对多任务联合模型进行训练。
22.可选的,所述第一训练样本包含的两个文本单元序列具有先后顺序,排在前的作为第一文本单元序列,排在后的作为第二文本单元序列;
23.所述为所述第一训练样本标注关系类别,包括:
24.若所述第一文本单元序列在识别效果上优于所述第二文本单元序列,则为所述第一训练样本标注第一关系类别;
25.若所述第一文本单元序列在识别效果上劣于所述第二文本单元序列,则为所述第一训练样本标注第二关系类别。
26.可选的,所述利用所述第一训练样本、所述第一训练样本标注的关系类别、所述第二训练样本和所述训练语音标注的文本,以预测所述第一训练样本的关系类别以及预测所述第二训练样本中指定符号处的文本单元为任务,对多任务联合模型进行训练,包括:
27.利用多任务联合模型中的编码模块和句对分类模块,预测所述第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率,作为第一预测结果,并根据所述第一预测结果和所述第一训练样本标注的关系类别,确定第一预测损失;
28.利用多任务联合模型的编码模块和文本预测模块,预测所述第二训练样本中指定符号处的文本单元为设定的文本单元列表中各文本单元的概率,作为第二预测结果,并根据所述第二预测结果和所述训练语音标注的文本,确定第二预测损失;
29.根据所述第一预测损失和所述第二预测损失,对多任务联合模型进行参数更新。
30.可选的,所述利用多任务联合模型中的编码模块和句对分类模块,预测所述第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率,包括:
31.利用所述编码模块,获取所述第一训练样本包含的每个文本单元序列中每个文本单元的表示向量,并对所述第一训练样本包含的每个文本单元序列中每个文本单元的表示向量进行编码,以得到所述第一训练样本包含的每个文本单元序列中每个文本单元的编码
结果,其中,一文本单元的编码结果中融合有该文本单元对应的语境及上下文信息;
32.利用所述句对分类模块,以所述第一训练样本包含的每个文本单元序列中每个文本单元的编码结果为依据,获取所述第一训练样本包含的每个文本单元序列对应的句子表示向量,并以所述第一训练样本包含的每个文本单元序列对应的句子表示向量为依据,预测所述第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率。
33.可选的,所述以所述第一训练样本包含的每个文本单元序列对应的句子表示向量为依据,预测所述第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率,包括:
34.将所述第一训练样本包含的两个文本单元序列分别对应的句子表示向量作差,得到作差结果,并将所述第一训练样本包含的两个文本单元序列分别对应的句子表示向量做点积,得到点积结果;
35.将所述第一训练样本包含的两个文本单元序列分别对应的句子表示向量、所述作差结果和所述点积结果拼接,得到拼接后向量;
36.根据所述拼接后向量,预测所述第一训样本包含的两个文本单元序列的关系类别为设定的关系类别的概率。
37.可选的,所述利用多任务联合模型的编码模块和文本预测模块,预测所述第二训练样本中指定符号处的文本单元为设定的文本单元列表中各文本单元的概率,包括:
38.利用所述编码模块,获取所述第二训练样本中每个文本单元的表示向量,并对所述第二训练样本中每个文本单元的表示向量进行编码,以得到所述第二训练样本中各文本单元的编码结果,其中,一文本单元的编码结果中融合有该文本单元对应的语境及上下文信息;
39.利用所述文本预测模块,以所述第二训练样本中各文本单元的编码结果为依据,预测所述第二训练样本中指定符号处的文本单元为设定的文本单元列表中各文本单元的概率。
40.一种语音识别结果的确定装置,包括:处理模块、识别易错位置确定模块、第一替换模块、预测模块和第二替换模块;
41.所述处理模块,用于在获得目标语音的若干候选识别结果后,将所述若干候选识别结果分别处理成文本单元序列,以得到所述目标语音的若干文本单元序列;
42.所述识别易错位置确定模块,用于通过将所述若干文本单元序列对齐成等长序列,确定识别易错位置;
43.所述第一替换模块,用于将任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,得到待预测文本单元序列;
44.所述预测模块,用于预测所述待预测文本单元序列中所述指定符号处的文本单元;
45.所述第二替换模块,用于用预测出的文本单元替换所述指定符号,得到所述目标语音的最终识别结果。
46.一种语音识别结果的确定设备,包括:存储器和处理器;
47.所述存储器,用于存储程序;
48.所述处理器,用于执行所述程序,实现上述任一项所述的语音识别结果的确定方
法的各个步骤。
49.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述任一项所述的语音识别结果的确定方法的各个步骤。
50.本技术提供的语音识别结果的确定方法、装置、设备及存储介质,在获得目标语音的若干候选识别结果后,首先将若干候选识别结果分别处理成文本单元序列,以得到若干文本单元序列,然后通过将若干文本单元序列对齐成等长序列,确定识别易错位置,接着将任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,以得到待预测文本单元序列,最后预测待预测文本单元序列中指定符号处的文本单元,并用预测出的文本单元替换指定符号,得到目标语音的最终识别结果。本技术提供的语音识别结果的确定方法可根据若干候选识别结果确定出识别易错位置,并可对识别易错位置处的文本重新预测,从而得到最终的语音识别结果,经由本技术提供的语音识别结果的确定方法可确定出较为准确的识别结果,用户体验较好。
附图说明
51.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
52.图1为本技术实施例提供的语音识别结果的确定方法的流程示意图;
53.图2为本技术实施例提供的多任务联合模型的训练过程的流程示意图;
54.图3为本技术实施例提供的利用多任务联合模型中的编码模块和句对分类模块,预测第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率的示意图;
55.图4为本技术实施例提供的利用多任务联合模型的编码模块和文本预测模块,预测第二训练样本中指定符号处的文本单元为设定的文本单元列表中各文本单元的概率的示意图;
56.图5为本技术实施例提供的语音识别结果的确定装置的结构示意图;
57.图6为本技术实施例提供的语音识别结果的确定设备的结构示意图。
具体实施方式
58.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
59.申请人在实现本技术的过程中发现:目前的语音识别方案多为基于二遍解码的方案,即进行二遍解码,具体的,首先通过一遍解码获得若干候选识别结果,然后对若干候选识别结果进行二遍解码,进行二遍解码的原因是一遍解码中存在识别错误。目前的二遍解码方案为,根据一遍解码过程中生成的词图路径,通过一个训练好的语言模型进行路径重新打分,进而根据路径得分确定最终的识别结果。通过目前的二遍解码方案确定的识别结
果为若干候选识别结果中的一个,可以理解的是,若通过一遍结果获得的若干候选识别结果中没有准确的识别结果,则通过目前的二遍解码方案确定的最终识别结果也就非准确的识别结果。
60.在上述发现的基础上,申请人进行了深入研究,通过不断研究,最终提出了一种语音识别结果的确定方法,该方法可克服现有的基于二遍解码的语音识别方案存在的缺陷。本技术提出的语音识别结果的确定方法可应用于具有数据处理能力的电子设备,该电子设备可以为用户侧使用的终端,比如智能手机、智能家电、智能玩具、智能音箱、车载终端等等,该电子设备还可以为网络侧的服务器(可以为单个服务器,也可以为多个服务器或服务器集群)。接下来通过下述实施例对本技术提供的语音识别结果的确定方法进行介绍。
61.第一实施例
62.请参阅图1,示出了本技术实施例提供的语音识别结果的确定方法的流程示意图,该方法可以包括:
63.步骤s101:在获得目标语音的若干候选识别结果后,将若干候选识别结果分别处理成文本单元序列,得到若干文本单元序列。
64.可选的,目标语音的若干候选识别结果可以但不限定为目标语音的一遍解码结果。
65.在获得目标语音的若干候选识别结果后,可按设定的文本单元(可以但不限定为词、字等)对目标语音的每个候选识别结果进行划分,以得到文本单元序列。
66.示例性的,目标语音的候选识别结果包括“触发器的交付类型在数据库”、“触发器的胶布类型也在数据库”和“触发器的胶布类型在数据布”,则将这三个候选识别结果分别处理成文本单元序列,可得到“触/发/期/的/交/付/类/型/也/在/数/据/库”、“触/发/器/的/胶/布/类/型/也/在/数/据/库”和“触/发/器/的/胶/布/类/型/在/数/据/布”。
67.步骤s102:通过将若干文本单元序列对齐成等长序列,确定识别易错位置,并将任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,得到待预测文本单元序列。
68.申请人通过对现有的二遍解码方案进行研究发现:目前的二遍解码方案未考虑候选识别结果中,每个文本单元对二遍解码结果的影响,在实际应用中,通过对通过一遍解码获得的若干候选识别结果观察发现,若干候选识别结果中,大部分文本单元是相同的,只有少部分位置存在差异,而往往该些差异的位置上,对应的识别结果是错误的,而现有的二遍解码方案未考虑这一规律,没有针对识别易错位置进行处理,为此,本技术提出确定识别易错位置,针对性的对识别易错位置处的文本单元重新预测,以获得准确的识别结果。
69.其中,通过将若干文本单元序列对齐成等长序列,确定识别易错位置的过程可以包括:
70.步骤a1、将若干文本单元序列对齐成等长序列,得到若干对齐后的文本单元序列。
71.对于上述的三个文本单元序列“触/发/期/的/交/付/类/型/也/在/数/据/库”、“触/发/器/的/胶/布/类/型/也/在/数/据/库”和“触/发/器/的/胶/布/类/型/在/数/据/布”,将其对其到等长序列如下表所示:
72.表1将三个文本单元序列对齐成等长序列
73.触发期的交付类型也在数据库
触发器的胶布类型也在数据库触发器的胶布类型 在数据布
74.步骤a2、以若干对齐后的文本单元序列中相同位置处的文本单元是否相同为依据,确定识别易错位置。
75.如上表表示,由于三个对齐后的文本文本单元序列中第一个位置p1处的三个文本单元相同,均为“触”,因此,位置p1为非识别易错位置,由于三个对齐后的文本文本单元序列中第二个位置p2处的三个文本单元相同,均为“发”,因此,位置p2为非识别易错位置,由于三个对齐后的文本文本单元序列中第二个位置p3处的三个文本单元(“期”、“器”、“器”)不同,因此,位置p3为识别易错位置,同样的方式可确定三个对齐后的文本文本单元序列中第四个位置p4为非识别易错位置、第五个位置p5为识别易错位置、第六个位置p6为识别易错位置、第七个位置p7为非识别易错位置、第八个位置p5为非识别易错位置、第九个位置p9为识别易错位置、第十个位置p10为非识别易错位置、第十一个位置p11为非识别易错位置、第十二个位置p12为非识别易错位置、第十三个位置p13为识别易错位置。即,最终的识别易错位置为位置p3、位置p5、位置p6、位置p9、位置p13。
76.在确定出识别易错位置后,针对任一对齐后的文本单元序列,可将识别易错位置处的文本单元用指定符号替换,将替换后的文本单元序列作为待预测文本单元序列,下表示出了上表中一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号“[m]”替换后得到的文本单元序列:
[0077]
表2识别易错位置处的文本单元用指定符号替换
[0078]
触发期的交付类型也在数据库触发[m]的[m][m]类型[m]在数据[m]
[0079]
步骤s103:预测待预测文本单元序列中指定符号处的文本单元,并用预测出的文本单元替换指定符号,得到目标语音的最终识别结果。
[0080]
具体的,可利用预先建立的文本预测模型,预测待预测文本单元序列中指定符号处的文本单元,然后用预测出的文本单元替换待预测文本单元序列中对应的指定符号,以得到目标语音的最终识别结果。其中,文本预测模型采用训练语音的若干条候选识别结果和训练语音的标注文本训练得到。
[0081]
示例性的,对于上述的待预测文本序列“触/发/[m]/的/[m]/[m]/类/型/[m]/在/数/据/[m]”,可将其输入预先建立的文本预测模型,以利用文本预测模型预测输入的文本序列中指定字符处的文本单元,假设经预测,第一个“[m]”处的文本单元为“器”,第二个“[m]”处的文本单元为“交”,第三个“[m]”处的文本单元为“付”、第四个“[m]”处无文本单元、第五个“[m]”处的文本单元为“库”,则最终的语音识别结果为“触发器的交付类型在/数/据/库”。
[0082]
本技术实施例提供的语音识别结果的确定方法,在获得目标语音的若干候选识别结果后,首先将若干候选识别结果分别处理成文本单元序列,以得到若干文本单元序列,然后通过将若干文本单元序列对齐成等长序列,确定识别易错位置,接着将任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,以得到待预测文本单元序列,最后预测待预测文本单元序列中指定符号处的文本单元,并用预测出的文本单元替换指定符号,得到目标语音的最终识别结果。本技术实施例提供的语音识别结果的确定方法
可根据若干候选识别结果确定出识别易错位置,并可对识别易错位置处的文本重新预测,从而得到最终的语音识别结果,经由本技术实施例提供的语音识别结果的确定方法可确定出较为准确的识别结果,用户体验较好。
[0083]
第二实施例
[0084]
上述实施例提到“可利用预先建立的文本预测模型,预测待预测文本单元序列中指定符号处的文本单元”本实施例重点对建立文本预测模型的过程进行介绍。
[0085]
建立文本预测模型的实现方式有多种,本实施例提供如下两种可选的实现方式:
[0086]
第一种实现方式:直接采用训练语音的若干条候选识别结果和训练语音的标注文本训练文本预测模型。
[0087]
具体的,直接采用训练语音的若干条候选识别结果和训练语音的标注文本训练文本预测模型的过程可以包括:从训练数据集中获取一训练语音的若干条候选识别结果和训练语音的标注文本;将训练语音的若干条候选识别结果分别处理成文本单元序列,以得到训练语音的若干文本单元序列;通过将训练语音的若干文本单元序列对齐,确定识别易错位置,并将训练语音的任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,得到训练样本;利用文本预测模型预测训练样本中指定符号处的文本单元为设定的文本单元列表中各文本单元的概率,作为预测结果;根据预测结果和训练语音标注的文本,确定文本预测模型的预测损失。按上述方式进行多次迭代训练,直至达到训练结束条件,训练结束后得到的模型即为建立的文本预测模型。
[0088]
为了提升文本预测效果,本实施例提供了另一种较为优选的实现方式,在该实现方式中,采用训练语音的若干条候选识别结果和训练语音的标注文本训练文本训练多任务联合模型,多任务联合模型包括编码模块,以及共享编码模块的文本预测模块和句对分类模型,训练结束后,将训练得到的多任务联合模型中的编码模块和文本预测模块组成的部分作为建立的文本预测模型。
[0089]
上述的多任务联合模型以预测第一信息和第二信息为任务训练得到,其中,第一信息为根据训练语音的若干条候选识别结果确定的识别易错位置上的文本单元,第二信息为训练语音的两条候选识别结果的关系类别,关系类别能够表征两条候选识别结果的得分差异。
[0090]
接下来对多任务联合模型的训练过程进行介绍。请参阅图2,示出了多任务联合模型的训练过程包括:
[0091]
步骤s201:从训练数据集中获取训练语音的若干条候选识别结果和训练语音的标注文本。
[0092]
其中,训练数据集中包括多条训练数据,每条训练数据包括一条训练语音的若干候选识别结果(比如,训练语音的一遍解码结果),以及该条训练语音标注的文本,该条训练语音标注的文本为该条训练语音的正确识别结果。
[0093]
步骤s202:从通过对训练语音的若干文本单元序列进行排列组合得到若干文本单元序列对中随机抽取一文本单元序列对,作为第一训练样本,并为第一训练样本标注关系类别。
[0094]
示例性的,训练语音的文本单元序列有三个,分别用a、b、c表示,对a、b、c进行排列组合会得到中组合,即(a,b)、(b,a)、(a,c)、(c,a)、(b,c)、(c,b),即对三个文本单元
序列进行排列组合会得到6个文本单元序列对,需要说明的是,每个文本单元序列对中的两个文本单元序列是有先后顺序的。
[0095]
在本实施例中,可按设定的语音识别评价指标确定训练语音的每个文本单元序列的得分,进而根据训练语音的各文本单元序列的得分在识别效果上对训练语音的各文本单元序列进行排序,进而根据排序结果为第一训练样本标注关系类别。可选的,语音识别评价指标可以但不限定为词错误率(wer,word error rate),精确度(acc,accuracy)、正确度(corr,correct)等。
[0096]
示例性的,训练语音的文本单元序列有三个,分别用a、b、c表示,假设以词错误率为语音识别评价指标,确定a的得分为1/3、b的得分为1/6、c的得分为1/13,需要说明的是,以词错误率为语音识别评价指标确定的得分越低,说明识别效果越好,则按识别效果从好到坏对a、b、c进行排序后的排序结果为:c、b、a。
[0097]
对于任一文本单元序列对,假设排在前的为第一文本单元序列,排在后的为第二文本单元序列,若第一文本单元序列在语音识别效果优于第二文本单元序列,则为该文本单元序列对标注第一关系类别,可定义第一关系类别为“优”,用“0”表示,即为该文本单元序列对标注“0”,若第一文本单元序列在语音识别效果劣于第二文本单元序列,则为该文本单元序列对标注第二关系类别,可定义第一关系类别为“差”,用“1”表示,即为该文本单元序列对标注“1”。
[0098]
对于上述示例中的三个文本单元序列a、b、c,假设从对a、b、c进行排列组合得到的6个文本序列对中随机抽取出的文本序列对为(b,c),且按识别效果从好到坏对a、b、c进行排序后的排序结果为c、b、a,由于b在语音识别效果劣于c,因此,为文本序列对(b,c)标注第二关系类别,即标注“1”。
[0099]
步骤s203:将训练语音的若干条候选识别结果分别处理成文本单元序列,通过将训练语音的若干文本单元序列对齐,确定识别易错位置,并将训练语音的任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,得到第二训练样本。
[0100]
步骤s203的具体实现过程与第一实施例中的将目标语音的若干候选识别结果分别处理成文本单元序列,以及通过将目标语音的若干文本单元序列对齐成等长序列,确定识别易错位置,并将任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换的实现过程相同,具体可参见第一实施例中的相关部分,本实施例在此不做赘述。
[0101]
另外,需要说明的是,本实施例并不限定步骤s202和步骤s203的执行顺序,可先执行步骤s202,再执行步骤s203,也可先执行步骤s203,再执行步骤s204,还可并行执行步骤s202和步骤s203。
[0102]
步骤s204、利用第一训练样本、第一训练样本标注的关系类别、第二训练样本和训练语音标注的文本,以预测第一训练样本的关系类别以及预测第二训练样本中指定符号处的文本单元为任务,对多任务联合模型进行训练。
[0103]
申请人对目前的二遍解码方案进行研究发现,目前用于二遍解码的模型仅对每个候选识别结果单独计算得分,并未在模型训练时,考虑不同候选识别结果的差异,这使得目前用于二遍解码的模型不具备区分性,效果有限,为此,本技术提出以预测第一训练样本的关系类别为任务进行模型训练,以对不同候选识别结果的差异进行建模。
[0104]
具体的,利用第一训练样本、第一训练样本标注的关系类别、第二训练样本和训练
语音标注的文本,以预测第一训练样本的关系类别以及预测第二训练样本中指定符号处的文本单元为任务,对多任务联合模型进行训练的过程可以包括:
[0105]
步骤s2041、利用多任务联合模型中的编码模块和句对分类模块,预测第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率,作为第二预测结果,并根据第二预测结果和第一训练样本标注的关系类别,确定第一预测损失。
[0106]
其中,利用多任务联合模型中的编码模块和句对分类模块,预测第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率的过程可以包括:
[0107]
步骤b1、利用多任务联合模型的编码模块,获取第一训练样本包含的每个文本单元序列中每个文本单元的表示向量,并对第一训练样本包含的每个文本单元序列中每个文本单元的表示向量进行编码,以得到第一训练样本包含的每个文本单元序列中每个文本单元的编码结果。
[0108]
可选的,多任务联合模型的编码模块可以但不限定采用基于self-attention结构的transformer encoder。
[0109]
其中,一文本单元序列中一文本单元的编码结果中融合有该文本单元对应的语境及上下文信息。
[0110]
可选的,如图3所示,多任务联合模型的编码模块可以包括词表示层和编码层,将第一训练样本包含的每个文本单元序列中的每个文本单元输入词表示层,获得词表示层输出的第一训练样本包含的每个文本单元序列中每个文本单元的表示向量(一个文本单元的表示向量可以为该文本单元自身的表示向量与该文本单元的位置表示向量的融合向量),将第一训练样本包含的每个文本单元序列中每个文本单元的表示向量输入编码层,获得编码层输出的第一训练样本包含的每个文本单元序列中每个文本单元的编码结果。
[0111]
步骤b2、利用多任务联合模型的句对分类模块,以第一训练样本包含的每个文本单元序列中每个文本单元的编码结果为依据,获取第一训练样本包含的每个文本单元序列对应的句子表示向量,并以第一训练样本包含的每个文本单元序列对应的句子表示向量为依据,预测第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率。
[0112]
可选的,如图3所示,多任务联合模型的句对分类模块可以包括句子表示层和分类层,将第一训练样本包含的每个文本单元序列中每个文本单元的编码结果输入句子表示层,获得句子表示层输出的第一训练样本包含的两个文本单元序列分别对应的句子表示向量(比如,可通过对每个文本单元序列的各文本单元的编码结果进行pooling操作来获得每个文本单元序列对应的句子表示向量)。在获得第一训练样本包含的两个文本单元序列分别对应的句子表示向量后,可将第一训练样本包含的两个文本单元序列分别对应的句子表示向量作差,得到作差结果,并将第一训练样本包含的两个文本单元序列分别对应的句子表示向量做点积,得到点积结果,然后将第一训练样本包含的两个文本单元序列分别对应的句子表示向量、作差结果和点积结果拼接,得到拼接后向量,最后将拼接后向量输入分类层,若将第一训练样本包含的第一个文本单元序列对应的句子表示向量表示为s1,将第一训练样本包含的第二个文本单元序列对应的句子表示向量表示为s2,则输入分类层的为s1、s2、s
1-s2、s1*s2的拼接向量,分类层根据输入确定第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率并输出。可选的,分类层可采用前馈层网络接softmax。
[0113]
在预测出第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别
的概率后,可根据预测出的概率和第一训练样本标注的关系类别计算交叉熵损失,作为第一预测损失。交叉熵损失损失的计算方式为现有技术,本实施例在此不做赘述。
[0114]
步骤s2042、利用多任务联合模型的编码模块和文本预测模块,预测第二训练样本中指定符号处的文本单元为设定的文本单元列表中各文本单元的概率,作为第二预测结果,并根据第二预测结果和训练语音标注的文本,确定第二预测损失。
[0115]
其中,利用多任务联合模型的编码模块和文本预测模块,预测第二训练样本中指定符号处的文本单元为设定的文本单元列表中各文本单元的概率的过程可以包括:
[0116]
步骤c1、利用多任务联合模型的编码模块,获取第二训练样本中每个文本单元的表示向量,并对第二训练样本中每个文本单元的表示向量进行编码,以得到第二训练样本中各文本单元的编码结果。
[0117]
其中,第二训练样本中一文本单元的编码结果中融合有该文本单元对应的语境及上下文信息。
[0118]
如图4所示,将第二训练样本中的每个文本单元输入词表示层,得到词表示层输出的第二训练样本中每个文本单元的表示向量,将第二训练样本中每个文本单元的表示向量输入编码层,得到编码层输出的第二训练样本中各文本单元的编码结果。
[0119]
步骤c2、利用多任务联合模型的文本预测模块,以第二训练样本中各文本单元的编码结果为依据,预测第二训练样本中指定符号处的文本单元为设定的文本单元列表中各文本单元的概率。
[0120]
在预测出第二训练样本中指定符号处的文本单元为设定的文本单元列表中各文本单元的概率后,可根据预测出的概率和训练语音标注的文本计算交叉熵损失,作为第二预测损失。
[0121]
步骤s2043、根据第一预测损失和第二预测损失,对多任务联合模型进行参数更新。
[0122]
其中,第一预测损失用于更新编码模块和句对分类模块的参数,第二预测损失用于更新编码模块和文本预测模块的参数。
[0123]
按上述方式对多任务联合模型进行多次迭代训练,直至满足训练结束条件,训练结束后,将训练得到的多任务联合模型中的编码模块和文本预测模块组成的部分作为最终建立的文本预测模型。
[0124]
在建立了文本预测模型后,便可基于该文本预测模型确定目标语音的最终识别结果,具体的,在获得目标语音的若干候选识别结果后,首先将目标语音的若干候选识别结果分别处理成文本单元序列,得到目标语音的若干文本单元序列,然后通过将目标语音的若干文本单元序列对齐成等长序列,确定识别易错位置,并将目标语音的任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,得到待预测文本单元序列,最后将待预测文本单元序列输入建立的文本预测模型,文本预测模型的编码模块确定待预测文本单元序列中每个文本单元的表示向量,并对待预测文本单元序列中每个文本单元的表示向量进行编码,输出待预测文本单元序列中每个文本单元的编码结果(编码结果融合有对应文本单元的语境及上下文本信息),文本预测模型的文本预测模块以待预测文本单元序列中每个文本单元的编码结果为依据,预测待预测文本单元序列中指定符号处的文本单元并输出,在获得文本预测模型预测出的文本单元后,用预测出的文本单元替换待预测文
本单元序列中对应的指定符号,以得到目标语音的最终识别结果。
[0125]
需要说明的是,现有的二遍解码方案是从若干候选识别结果中确定一个候选识别结果作为最终的识别结果,即最终的识别结果为若干候选识别结果中的一个,比如,目标语音的两个候选识别结果为“触发期的交付类型也在数据库”和“触发器的胶布类型在数据库”,采用现有的二遍解码方案,获得的最终识别结果为“触发期的交付类型也在数据库“,而目标语音的真正的识别结果为“触发器的交付类型在数据库”,可见,通过现有的二遍解码方案获得的最终识别结果存在识别错误。相比于现有的二遍解码方案,本技术并非从目标语音的若干候选识别结果中选取一个作为最终的识别结果,而是根据目标语音的若干候选识别结果生成最终的识别结果(将非易错识别位置处的文本单元保留,根据易错识别位置处对应的语境和上下文信息重新生成易错识别位置处的文本单元),通过该方式获得的最终识别结果识别错误率更低。
[0126]
第三实施例
[0127]
本技术实施例还提供了一种语音识别结果的确定装置,下面对本技术实施例提供的语音识别结果的确定装置进行描述,下文描述的语音识别结果的确定装置与上文描述的语音识别结果的确定方法可相互对应参照。
[0128]
请参阅图5,示出了本技术实施例提供的语音识别结果的确定装置的结构示意图,可以包括:处理模块501、识别易错位置确定模块502、第一替换模块503、预测模块504和第二替换模块505。
[0129]
处理模块501,用于在获得目标语音的若干候选识别结果后,将所述若干候选识别结果分别处理成文本单元序列,以得到所述目标语音的若干文本单元序列。
[0130]
识别易错位置确定模块502,用于通过将所述若干文本单元序列对齐成等长序列,确定识别易错位置。
[0131]
第一替换模块503,用于将任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,得到待预测文本单元序列。
[0132]
预测模块504,用于预测所述待预测文本单元序列中所述指定符号处的文本单元;
[0133]
第二替换模块505,用于用预测出的文本单元替换所述指定符号,得到所述目标语音的最终识别结果。
[0134]
可选的,识别易错位置确定模块502在通过将所述若干文本单元序列对齐成等长序列,确定识别易错位置时,具体用于:
[0135]
将所述若干文本单元序列对齐成等长序列,得到若干对齐后的文本单元序列;以所述若干对齐后的文本单元序列中相同位置处的文本单元是否相同为依据,确定识别易错位置。
[0136]
可选的,预测模块504在预测所述待预测文本单元序列中所述指定符号处的文本单元时,具体用于:
[0137]
利用预先建立的文本预测模型,预测所述待预测文本单元序列中所述指定符号处的文本单元;其中,所述文本预测模型采用训练语音的若干条候选识别结果和所述训练语音的标注文本训练得到。
[0138]
可选的,所述文本预测模型采用预先训练得到的多任务联合模型中的编码模块和文本预测模块,所述多任务联合模型还包括与所述文本预测模块共享所述编码模块的句对
分类模块;
[0139]
所述多任务联合模型以预测第一信息和第二信息为任务训练得到,其中,所述第一信息为所述训练语音的两条候选识别结果的关系类别,所述关系类别能够表征所述两条候选识别结果的差异,所述第二信息为根据所述训练语音的若干条候选识别结果确定的识别易错位置上的文本单元。
[0140]
可选的,本技术实施例提供的语音识别结果的确定装置还可以包括:模型训练模块。模型训练模块可以包括:第一训练样本获取及标注模块、第二训练样本获取模块和多任务联合模型训练模块。
[0141]
第一训练样本获取及标注模块,用于从通过对所述训练语音的若干文本单元序列进行排列组合得到若干文本单元序列对中随机抽取一文本单元序列对作为第一训练样本,并为所述第一训练样本标注关系类别。
[0142]
第二训练样本获取模块,用于将所述训练语音的若干条候选识别结果分别处理成文本单元序列,通过将所述训练语音的若干文本单元序列对齐,确定识别易错位置,并将所述训练语音的任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,得到第二训练样本。
[0143]
多任务联合模型训练模块,用于利用所述第一训练样本、所述第一训练样本标注的关系类别、所述第二训练样本和所述训练语音标注的文本,以预测所述第一训练样本的关系类别以及预测所述第二训练样本中指定符号处的文本单元为任务,对多任务联合模型进行训练。
[0144]
可选的,所述第一训练样本包含的两个文本单元序列具有先后顺序,排在前的作为第一文本单元序列,排在后的作为第二文本单元序列。第一训练样本获取及标注模块在为所述第一训练样本标注关系类别时,具体用于:
[0145]
若所述第一文本单元序列在识别效果上优于所述第二文本单元序列,则为所述第一训练样本标注第一关系类别;若所述第一文本单元序列在识别效果上劣于所述第二文本单元序列,则为所述第一训练样本标注第二关系类别。
[0146]
可选的,多任务联合模型训练模块在利用所述第一训练样本、所述第一训练样本标注的关系类别、所述第二训练样本和所述训练语音标注的文本,以预测所述第一训练样本的关系类别以及预测所述第二训练样本中指定符号处的文本单元为任务,对多任务联合模型进行训练时,具体用于:
[0147]
利用多任务联合模型中的编码模块和句对分类模块,预测所述第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率,作为第一预测结果,并根据所述第一预测结果和所述第一训练样本标注的关系类别,确定第一预测损失;利用多任务联合模型的编码模块和文本预测模块,预测所述第二训练样本中指定符号处的文本单元为设定的文本单元列表中各文本单元的概率,作为第二预测结果,并根据所述第二预测结果和所述训练语音标注的文本,确定第二预测损失;根据所述第一预测损失和所述第二预测损失,对多任务联合模型进行参数更新。
[0148]
可选的,多任务联合模型训练模块在利用多任务联合模型中的编码模块和句对分类模块,预测所述第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率时,具体用于:
[0149]
利用所述编码模块,获取所述第一训练样本包含的每个文本单元序列中每个文本单元的表示向量,并对所述第一训练样本包含的每个文本单元序列中每个文本单元的表示向量进行编码,以得到所述第一训练样本包含的每个文本单元序列中每个文本单元的编码结果,其中,一文本单元的编码结果中融合有该文本单元对应的语境及上下文信息;利用所述句对分类模块,以所述第一训练样本包含的每个文本单元序列中每个文本单元的编码结果为依据,获取所述第一训练样本包含的每个文本单元序列对应的句子表示向量,并以所述第一训练样本包含的每个文本单元序列对应的句子表示向量为依据,预测所述第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率。
[0150]
可选的,多任务联合模型训练模块在以所述第一训练样本包含的每个文本单元序列对应的句子表示向量为依据,预测所述第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率时,具体用于:
[0151]
将所述第一训练样本包含的两个文本单元序列分别对应的句子表示向量作差,得到作差结果,并将所述第一训练样本包含的两个文本单元序列分别对应的句子表示向量做点积,得到点积结果;将所述第一训练样本包含的两个文本单元序列分别对应的句子表示向量、所述作差结果和所述点积结果拼接,得到拼接后向量;根据所述拼接后向量,预测所述第一训样本包含的两个文本单元序列的关系类别为设定的关系类别的概率。
[0152]
可选的,多任务联合模型训练模块在利用多任务联合模型的编码模块和文本预测模块,预测所述第二训练样本中指定符号处的文本单元为设定的文本单元列表中各文本单元的概率时,具体用于:
[0153]
利用所述编码模块,获取所述第二训练样本中每个文本单元的表示向量,并对所述第二训练样本中每个文本单元的表示向量进行编码,以得到所述第二训练样本中各文本单元的编码结果,其中,一文本单元的编码结果中融合有该文本单元对应的语境及上下文信息;利用所述文本预测模块,以所述第二训练样本中各文本单元的编码结果为依据,预测所述第二训练样本中指定符号处的文本单元为设定的文本单元列表中各文本单元的概率。
[0154]
本技术实施例提供的语音识别结果的确定装置,在获得目标语音的若干候选识别结果后,首先将若干候选识别结果分别处理成文本单元序列,以得到若干文本单元序列,然后通过将若干文本单元序列对齐成等长序列,确定识别易错位置,接着将任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,以得到待预测文本单元序列,最后预测待预测文本单元序列中指定符号处的文本单元,并用预测出的文本单元替换指定符号,得到目标语音的最终识别结果。本技术实施例提供的语音识别结果的确定装置可根据若干候选识别结果确定出识别易错位置,并可对识别易错位置处的文本重新预测,从而得到最终的语音识别结果,经由本技术实施例提供的语音识别结果的确定装置可确定出较为准确的识别结果,用户体验较好。
[0155]
第四实施例
[0156]
本技术实施例还提供了一种语音识别结果的确定设备,请参阅图6,示出了该语音识别结果的确定设备的结构示意图,该语音识别结果的确定设备可以包括:至少一个处理器601,至少一个通信接口602,至少一个存储器603和至少一个通信总线604;
[0157]
在本技术实施例中,处理器601、通信接口602、存储器603、通信总线604的数量为至少一个,且处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信;
[0158]
处理器601可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
[0159]
存储器603可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
[0160]
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
[0161]
在获得目标语音的若干候选识别结果后,将所述若干候选识别结果分别处理成文本单元序列,得到若干文本单元序列;
[0162]
通过将所述若干文本单元序列对齐成等长序列,确定识别易错位置,并将任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,得到待预测文本单元序列;
[0163]
预测所述待预测文本单元序列中所述指定符号处的文本单元,并用预测出的文本单元替换所述指定符号,得到所述目标语音的最终识别结果。
[0164]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0165]
第五实施例
[0166]
本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质可存储有适于处理器执行的程序,所述程序用于:
[0167]
在获得目标语音的若干候选识别结果后,将所述若干候选识别结果分别处理成文本单元序列,得到若干文本单元序列;
[0168]
通过将所述若干文本单元序列对齐成等长序列,确定识别易错位置,并将任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,得到待预测文本单元序列;
[0169]
预测所述待预测文本单元序列中所述指定符号处的文本单元,并用预测出的文本单元替换所述指定符号,得到所述目标语音的最终识别结果。
[0170]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0171]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0172]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0173]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:
1.一种语音识别结果的确定方法,其特征在于,包括:在获得目标语音的若干候选识别结果后,将所述若干候选识别结果分别处理成文本单元序列,得到若干文本单元序列;通过将所述若干文本单元序列对齐成等长序列,确定识别易错位置,并将任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,得到待预测文本单元序列;预测所述待预测文本单元序列中所述指定符号处的文本单元,并用预测出的文本单元替换所述指定符号,得到所述目标语音的最终识别结果。2.根据权利要求1所述的语音识别结果的确定方法,其特征在于,所述通过将所述若干文本单元序列对齐成等长序列,确定识别易错位置,包括:将所述若干文本单元序列对齐成等长序列,得到若干对齐后的文本单元序列;以所述若干对齐后的文本单元序列中相同位置处的文本单元是否相同为依据,确定识别易错位置。3.根据权利要求1所述的语音识别结果的确定方法,其特征在于,所述预测所述待预测文本单元序列中所述指定符号处的文本单元,包括:利用预先建立的文本预测模型,预测所述待预测文本单元序列中所述指定符号处的文本单元;其中,所述文本预测模型采用训练语音的若干条候选识别结果和所述训练语音的标注文本训练得到。4.根据权利要求3所述的语音识别结果的确定方法,其特征在于,所述文本预测模型采用预先训练得到的多任务联合模型中的编码模块和文本预测模块,所述多任务联合模型还包括与所述文本预测模块共享所述编码模块的句对分类模块;所述多任务联合模型以预测第一信息和第二信息为任务训练得到,其中,所述第一信息为所述训练语音的两条候选识别结果的关系类别,所述关系类别能够表征所述两条候选识别结果的差异,所述第二信息为根据所述训练语音的若干条候选识别结果确定的识别易错位置上的文本单元。5.根据权利要求4所述的语音识别结果的确定方法,其特征在于,所述多任务联合模型的训练过程包括:从通过对所述训练语音的若干文本单元序列进行排列组合得到若干文本单元序列对中随机抽取一文本单元序列对作为第一训练样本,并为所述第一训练样本标注关系类别;将所述训练语音的若干条候选识别结果分别处理成文本单元序列,通过将所述训练语音的若干文本单元序列对齐,确定识别易错位置,并将所述训练语音的任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,得到第二训练样本;利用所述第一训练样本、所述第一训练样本标注的关系类别、所述第二训练样本和所述训练语音标注的文本,以预测所述第一训练样本的关系类别以及预测所述第二训练样本中指定符号处的文本单元为任务,对多任务联合模型进行训练。6.根据权利要求5所述的语音识别结果的确定方法,其特征在于,所述第一训练样本包含的两个文本单元序列具有先后顺序,排在前的作为第一文本单元序列,排在后的作为第二文本单元序列;
所述为所述第一训练样本标注关系类别,包括:若所述第一文本单元序列在识别效果上优于所述第二文本单元序列,则为所述第一训练样本标注第一关系类别;若所述第一文本单元序列在识别效果上劣于所述第二文本单元序列,则为所述第一训练样本标注第二关系类别。7.根据权利要求5所述的语音识别结果的确定方法,其特征在于,所述利用所述第一训练样本、所述第一训练样本标注的关系类别、所述第二训练样本和所述训练语音标注的文本,以预测所述第一训练样本的关系类别以及预测所述第二训练样本中指定符号处的文本单元为任务,对多任务联合模型进行训练,包括:利用多任务联合模型中的编码模块和句对分类模块,预测所述第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率,作为第一预测结果,并根据所述第一预测结果和所述第一训练样本标注的关系类别,确定第一预测损失;利用多任务联合模型的编码模块和文本预测模块,预测所述第二训练样本中指定符号处的文本单元为设定的文本单元列表中各文本单元的概率,作为第二预测结果,并根据所述第二预测结果和所述训练语音标注的文本,确定第二预测损失;根据所述第一预测损失和所述第二预测损失,对多任务联合模型进行参数更新。8.根据权利要求7所述的语音识别结果的确定方法,其特征在于,所述利用多任务联合模型中的编码模块和句对分类模块,预测所述第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率,包括:利用所述编码模块,获取所述第一训练样本包含的每个文本单元序列中每个文本单元的表示向量,并对所述第一训练样本包含的每个文本单元序列中每个文本单元的表示向量进行编码,以得到所述第一训练样本包含的每个文本单元序列中每个文本单元的编码结果,其中,一文本单元的编码结果中融合有该文本单元对应的语境及上下文信息;利用所述句对分类模块,以所述第一训练样本包含的每个文本单元序列中每个文本单元的编码结果为依据,获取所述第一训练样本包含的每个文本单元序列对应的句子表示向量,并以所述第一训练样本包含的每个文本单元序列对应的句子表示向量为依据,预测所述第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率。9.根据权利要求8所述的语音识别结果的确定方法,其特征在于,所述以所述第一训练样本包含的每个文本单元序列对应的句子表示向量为依据,预测所述第一训练样本包含的两个文本单元序列的关系类别为设定的关系类别的概率,包括:将所述第一训练样本包含的两个文本单元序列分别对应的句子表示向量作差,得到作差结果,并将所述第一训练样本包含的两个文本单元序列分别对应的句子表示向量做点积,得到点积结果;将所述第一训练样本包含的两个文本单元序列分别对应的句子表示向量、所述作差结果和所述点积结果拼接,得到拼接后向量;根据所述拼接后向量,预测所述第一训样本包含的两个文本单元序列的关系类别为设定的关系类别的概率。10.根据权利要求7所述的语音识别结果的确定方法,其特征在于,所述利用多任务联合模型的编码模块和文本预测模块,预测所述第二训练样本中指定符号处的文本单元为设
定的文本单元列表中各文本单元的概率,包括:利用所述编码模块,获取所述第二训练样本中每个文本单元的表示向量,并对所述第二训练样本中每个文本单元的表示向量进行编码,以得到所述第二训练样本中各文本单元的编码结果,其中,一文本单元的编码结果中融合有该文本单元对应的语境及上下文信息;利用所述文本预测模块,以所述第二训练样本中各文本单元的编码结果为依据,预测所述第二训练样本中指定符号处的文本单元为设定的文本单元列表中各文本单元的概率。11.一种语音识别结果的确定装置,其特征在于,包括:处理模块、识别易错位置确定模块、第一替换模块、预测模块和第二替换模块;所述处理模块,用于在获得目标语音的若干候选识别结果后,将所述若干候选识别结果分别处理成文本单元序列,以得到所述目标语音的若干文本单元序列;所述识别易错位置确定模块,用于通过将所述若干文本单元序列对齐成等长序列,确定识别易错位置;所述第一替换模块,用于将任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,得到待预测文本单元序列;所述预测模块,用于预测所述待预测文本单元序列中所述指定符号处的文本单元;所述第二替换模块,用于用预测出的文本单元替换所述指定符号,得到所述目标语音的最终识别结果。12.一种语音识别结果的确定设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如权利要求1~10中任一项所述的语音识别结果的确定方法的各个步骤。13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~10中任一项所述的语音识别结果的确定方法的各个步骤。

技术总结
本申请提供了一种语音识别结果的确定方法、装置、设备及存储介质,其中,方法包括:在获得目标语音的若干候选识别结果后,将若干候选识别结果分别处理成文本单元序列,以得到若干文本单元序列;通过将若干文本单元序列对齐成等长序列,确定识别易错位置,并将任一对齐后的文本单元序列中的识别易错位置处的文本单元用指定符号替换,得到待预测文本单元序列;预测待预测文本单元序列中指定符号处的文本单元,并用预测出的文本单元替换指定符号,得到目标语音的最终识别结果。经由本申请提供的语音识别结果的确定方法能够确定出准确度较高的语音识别结果。高的语音识别结果。高的语音识别结果。


技术研发人员:戚婷 万根顺 胡国平 刘聪 高建清 王智国
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:2021.11.26
技术公布日:2022/3/8

最新回复(0)