一种语音识别方法、装置、设备及存储介质与流程

专利查询5月前  36



1.本技术涉及语音识别技术领域,更具体地说,提出了一种语音识别方法、装置、设备及存储介质。


背景技术:

2.语音识别(automatic speech recognition,asr)技术是让机器通过识别和理解过程把语音信号转换成相应的文本或命令的技术,就是让机器听懂人类的语音。
3.目前,端到端的语音识别是主流方案,其中,属基于注意力机制的端到端语音识别方案的识别效果最好。但是,常规的基于注意力机制的端到端模型的注意力机制很难保证单调性,具体而言,模型的注意力是无约束、没有次序的,这就使得模型识别准确度难以提升,尤其是在面对流式识别需求时,往往识别效果不佳。


技术实现要素:

4.基于上述技术现状,本技术提出一种语音识别方法、装置、设备及存储介质,能够对语音识别的注意力进行约束,从而能够提高语音识别准确度。
5.一种语音识别方法,包括:
6.获取编码器对待识别语音的声学特征进行编码得到的编码特征;
7.其中,所述编码器根据对语音样本的第一识别结果以及所述语音样本的文本标签训练得到,所述语音样本的第一识别结果,根据所述编码器对语音样本的声学特征进行编码得到的编码特征,以及语音样本的识别结果对所述编码器输出的各帧编码特征的注意力系数而确定;
8.根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果。
9.可选的,根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果,包括:
10.通过对所述待识别语音的编码特征进行解码,得到所述待识别语音的解码特征;
11.根据所述待识别语音的编码特征和解码特征,确定所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数;
12.根据所述待识别语音的编码特征和解码特征,以及所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数,确定对所述待识别语音的语音识别结果。
13.可选的,所述编码器对待识别语音的声学特征进行编码得到编码特征,包括:
14.对待识别语音的每一帧声学特征,分别进行基于自注意力机制的编码处理,从而得到所述待识别语音的编码特征;
15.其中,对任意一帧声学特征进行基于自注意力机制的编码处理,包括:根据包含该帧声学特征的设定长度的声学特征序列,对该帧声学特征进行编码,得到与该帧声学特征对应的编码特征。
16.可选的,通过对所述待识别语音的编码特征进行解码,得到所述待识别语音的解
码特征,包括:
17.对所述待识别语音的各帧编码特征,以及所述待识别语音的已识别结果对应的解码特征进行解码,得到所述待识别语音的解码特征;
18.其中,所述待识别语音的已识别结果,为在当前时刻之前已得到的对所述待识别语音的识别结果。
19.可选的,根据所述待识别语音的编码特征和解码特征,以及所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数,确定对所述待识别语音的语音识别结果,包括:
20.根据所述待识别语音的各帧编码特征,以及所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数,确定所述待识别语音的第一解码结果;
21.根据所述待识别语音的解码特征,确定所述待识别语音的第二解码结果;
22.根据所述第一解码结果和所述第二解码结果,确定对所述待识别语音的语音识别结果。
23.可选的,根据所述待识别语音的各帧编码特征,以及所述待识别语音的解码结果对所述待识别语音的各帧编码特征的注意力系数,确定所述待识别语音的第一解码结果,包括:
24.对所述待识别语音的各帧编码特征分别进行解码,得到与各帧编码特征对应的解码结果;
25.以所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数为权重,对各帧编码特征对应的解码结果进行加权,得到所述待识别语音的第一解码结果。
26.可选的,所述第一解码结果和所述第二解码结果分别包含多个解码路径;
27.根据所述第一解码结果和所述第二解码结果,确定对所述待识别语音的语音识别结果,包括:
28.对所述第一解码结果与所述第二解码结果的各个解码路径的得分进行加权求和,并从得分加权求和后的解码路径中确定出对所述待识别语音的语音识别结果。
29.可选的,所述编码器的训练过程,包括:
30.获取所述编码器对语音样本的声学特征进行编码得到的编码特征,以及,获取对所述语音样本的编码特征进行解码得到的解码特征;
31.根据所述语音样本的编码特征和解码特征,确定所述语音样本的识别结果对所述语音样本的各帧编码特征的注意力系数;
32.根据所述语音样本的编码特征以及所述注意力系数,确定对所述语音样本的第一识别结果;
33.通过将所述第一识别结果与所述语音样本的标签进行对比,对所述编码器的参数进行优化。
34.可选的,获取编码器对待识别语音的声学特征进行处理得到的编码特征,根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果,包括:
35.将待识别语音的声学特征输入预先训练的语音识别模型,使所述语音识别模型获取其编码器对所述待识别语音的声学特征进行处理得到的编码特征,根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果。
36.可选的,所述语音识别模型包括编码器和解码器,对所述语音识别模型的训练过程,包括:
37.将语音样本的声学特征输入编码器,得到所述编码器输出的编码特征,并利用解码器对所述编码特征进行解码,得到解码特征;
38.根据所述编码特征和所述解码特征,确定所述语音样本的解码结果对所述语音样本的各帧编码特征的注意力系数;
39.根据所述语音样本的编码特征以及所述注意力系数,确定对所述语音样本的第一识别结果,并通过将所述第一识别结果与所述语音样本的标签进行对比,确定第一损失函数;
40.根据所述语音样本的解码特征,确定对所述语音样本的第二识别结果,并通过将所述第二识别结果与所述语音样本的标签进行对比,确定第二损失函数;
41.利用所述第一损失函数和所述第二损失函数,对所述编码器和所述解码器的参数进行优化。
42.可选的,利用所述第一损失函数和所述第二损失函数,对所述编码器和所述解码器的参数进行优化,包括:
43.对所述第一损失函数和所述第二损失函数进行加权求和,得到联合损失函数;
44.利用所述联合损失函数,对所述编码器的参数进行优化;
45.以及,
46.利用所述第二损失函数,或者利用所述第二损失函数和所述联合损失函数,对所述解码器的参数进行优化。
47.一种语音识别装置,包括:
48.编码单元,用于获取编码器对待识别语音的声学特征进行编码得到的编码特征;
49.其中,所述编码器根据对语音样本的第一识别结果以及所述语音样本的文本标签训练得到,所述语音样本的第一识别结果,根据所述编码器对语音样本的声学特征进行编码得到的编码特征,以及语音样本的识别结果对所述编码器输出的各帧编码特征的注意力系数而确定;
50.解码单元,用于根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果。
51.一种语音识别设备,包括:
52.存储器和处理器;
53.其中,所述存储器与所述处理器连接,用于存储程序;
54.所述处理器,用于通过运行所述存储器中的程序,实现上述的语音识别方法。
55.一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的语音识别方法。
56.本技术提出的语音识别方法,对编码器的训练过程结合了语音识别结果对编码器输出的各帧编码特征的注意力系数。该训练方式实现了对编码器的正则化,有利于促使编码器注意力机制的单调性,基于该训练方式训练得到的编码器,其输出的待识别语音的编码特征中,语音识别的注意力所关注的编码特征帧更加准确,从而使得编码器输出的编码特征更加有利于语音识别,即能够提高语音识别结果的准确度。
附图说明
57.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
58.图1是本技术实施例提供的一种语音识别方法的流程示意图;
59.图2是本技术实施例提供的语音识别模型的结构示意图;
60.图3是本技术实施例提供的语音识别模型中的正则化模块的结构示意图;
61.图4是本技术实施例提供的语音识别模型的编码器的结构示意图;
62.图5是本技术实施例提供的另一种语音识别方法的流程示意图;
63.图6是本技术实施例提供的语音识别模型的解码器的结构示意图;
64.图7是本技术实施例提供的一种语音识别装置的结构示意图;
65.图8是本技术实施例提供的一种语音识别设备的结构示意图。
具体实施方式
66.本技术实施例技术方案适用于语音识别应用场景,采用本技术实施例技术方案,能够提高端到端语音识别的准确度和识别效率。
67.语音识别在家电、通信、汽车电子、医疗、家庭服务、消费电子产品等领域都有广泛的应用。
68.目前,端到端语音识别是最为常用的语音识别解决方案。主流的端到端模型主要包括三种:基于ctc(connectionist temporal classification)的端到端asr、基于attention(注意力机制)的encoder-decoder模型、基于rnn-t(recurrent neural network-transducer)的端到端asr。虽然这三种端到端模型都在语音识别领域表现出了优秀的性能,但是各自存在弊端。ctc为了提高效率,假设不同帧之间的输出是条件独立地,解码时往往需要外挂一个语言模型。rnn-t解决了ctc中条件独立的问题,将语言模型融入到系统中,但是模型训练难度较大,并且存在一些不合理的解码路径。
69.相对而言,基于attention的encoder-decoder模型的语音识别效果最好,但是其对输入句子长度的依赖性很强,并且attention很难保证单调性。具体而言,现有的基于attention的encoder-decoder模型的解码端对编码端的注意力是无约束、没有次序的,这就使得模型识别准确度和效率难以提升。
70.基于上述技术现状,本技术实施例针对基于注意力机制的端到端模型,提出一种新的语音识别方案,基于该方案实现的端到端语音识别,能够加强解码端对编码端的注意力的约束,使解码端的注意力集中到正确的编码特征上,从而对识别过程起到正则化的作用,进一步提升识别效果。同时,上述的注意力正则化处理,可以保证解码端对编码端的注意力单调性,这对于提升语音识别准确度,尤其是提高流式识别的准确度,具有积极作用。
71.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
72.本技术实施例提出一种语音识别方法,该方法适用于基于注意力机制的端到端语音识别模型。
73.与常规的基于attention的encoder-decoder模型相类似,该基于注意力机制的端到端语音识别模型,也主要由编码器和解码器构成。其中,编码器根据语音声学特征(如mfcc或filterbank)的特性,将原始的高帧率声学特征序列经过卷积下采样得到低帧率特征序列,然后通过自注意力机制关注上下文,提取对语音识别友好的隐层特征,即编码特征。
74.解码器通过对编码器输出的编码特征he的attention和自回归机制,建模条件概率p(y
t
|he,y
<t
)。该解码器使用交叉熵损失l进行优化。
75.基于上述的端到端语音识别模型,本技术实施例提出一种语音识别方法,参见图1所示,该方法包括:
76.s101、获取编码器对待识别语音的声学特征进行编码得到的编码特征。
77.其中,上述的编码器根据对语音样本的第一识别结果以及所述语音样本的文本标签训练得到,所述语音样本的第一识别结果,根据所述编码器对语音样本的声学特征进行编码得到的编码特征,以及语音样本的识别结果对所述编码器输出的各帧编码特征的注意力系数而确定。
78.具体的,待识别语音的声学特征,可以是对待识别语音进行声学特征提取得到的任意类型的声学特征,例如可以是mfcc、filterbank等类型的声学特征。
79.将待识别语音的声学特征,输入上述的端到端语音识别模型的编码器,该编码器将原始的高帧率声学特征序列经过卷积下采样得到低帧率特征序列,然后通过自注意力机制关注上下文,提取对语音识别友好的隐层特征,即得到编码特征he。将该编码特征he输入解码器,由解码器对其进行解码,可以得到解码特征hd,通过对解码特征hd进行线性投影和softmax分类,可以得到当前时刻解码结果。
80.在常规的端到端语音识别模型训练方案中,通常是将解码器输出的语音样本识别结果与语音样本的文本标签进行对比,计算交叉熵损失l,并利用该交叉熵损失l对编码器和解码器的参数进行优化。
81.除了上述训练方式外,本技术实施例还对端到端语音识别模型中的编码器进行特别训练。
82.参见图2所示,在常规的由编码器和解码器构成的端到端语音识别模型中,本技术实施例另外增加一个正则化模块,该正则化模块,用于将编码器隐层输出的编码特征he和解码器隐层输出的解码特征hd,进行mlp attention得到attention系数,该attention系数用于表示解码器隐层输出的解码特征hd对编码器隐层输出的编码特征he的各帧的注意力系数,由于解码器隐层输出的解码特征hd直接用于确定解码结果,因此,该attention系数可用于表示语音的解码结果对语音的各帧编码特征的注意力系数。
83.上述的正则化模块的具体结构如图3所示,将语音的每帧编码特征he和解码器在第i时刻输出的解码特征hd各自经过一个线性投影后相加,经过tanh激活函数后再过一个线性投影,最后通过softmax算出attention系数:
84.α
i,t
=softmax(wtanh(uhe+vhd))
85.其中,α
i,t
表示第i时刻输出的对语音的解码结果对语音的第t帧编码特征的注意
力系数,w、u、v均为线性投影层参数。
86.上述的正则化模块的具体处理内容,以及上述的编码器和解码器的具体工作内容,均可以参照下文实施例中的相应内容介绍。
87.本技术实施例将上述的正则化模块用于模型训练,尤其是将其应用于对模型编码器的训练。在训练过程中,将语音样本的声学特征输入模型编码器,然后,获取编码器输出的语音样本的编码特征,以及获取解码器对编码器输出的编码特征进行解码后输出的语音样本的解码特征,利用正则化模块对语音样本的编码特征和解码特征进行mlp attention运算。通过上述的正则化模块运算,可以确定语音样本的识别结果对语音样本的各帧编码特征的注意力系数。
88.在语音识别过程中,解码端每一时刻输出对语音样本的部分语音帧的解码结果。因此,上述的确定语音样本的识别结果对语音样本的各帧编码特征的注意力系数,具体是确定语音样本的当前时刻的解码结果对语音样本的各帧编码特征的注意力系数。该注意力系数,可以用来反应语音样本的各帧编码特征对当前时刻的语音样本的解码结果的影响大小。按照上述计算,可以确定每一时刻对语音样本的解码结果对语音样本的各帧编码特征的注意力系数。
89.然后,根据语音样本的编码特征以及计算得到的注意力系数,确定对语音样本的第一识别结果。具体是,对语音样本的每帧编码特征分别进行线性投影和softmax后,得到v维概率分布(v为字典大小)。然后,利用上述计算得到的注意力系数,对每帧编码特征对应的概率分布进行加权,得到字典中的每个字的概率分布,即得到第一识别结果。
90.最后,将第一识别结果与语音样本的文本标签进行对比并计算交叉熵损失le,然后利用该交叉熵损失le对编码器的参数进行优化。
91.与此同时,对解码器输出的语音样本的解码特征hd进行线性投影和softmax分类得到解码结果,将解码结果与语音样本的文本标签进行对比并计算交叉熵损失ld。该交叉熵损失ld也可以用于对编码器进行参数优化,同时用于对解码器进行参数优化。
92.对编码器的上述训练过程的具体内容,还可以参见下文关于上述的基于注意力机制的端到端语音识别模型的训练过程。
93.需要说明的是,按照上述方式对编码器进行训练,使得其损失函数中包含了语音识别结果对编码器输出的语音编码特征的各帧的注意力因素。基于该损失函数对编码器进行参数优化,可以使得编码器在对解码时的注意力所关注的语音声学特征进行编码时,得到的编码特征更加准确,从而使得基于该编码特征得到的识别结果更加准确。
94.也就是,上述的结合了识别结果对编码特征的注意力系数的训练方式,对编码器的编码过程起到了正则化的作用,使编码器能够优化对语音识别结果所关注的编码特征的提取,使得编码器输出的语音识别结果所关注的编码特征更加准确,从而有利于提高语音识别结果的准确度。
95.s102、根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果。
96.示例性的,将待识别语音的声学特征输入上述的编码器后,获取该编码器输出的对该待识别语音的声学特征进行编码得到的编码特征,然后通过解码器对该编码特征进行解码,得到解码特征,对该解码特征进行线性投影和softmax分类后,即可得到当前时刻的解码结果。将各个时刻的解码结果依次拼接,即为对待识别语音的完整语音识别结果。
97.通过上述介绍可见,本技术实施例提出的语音识别方法,对编码器的训练过程结合了语音识别结果对编码器输出的各帧编码特征的注意力系数。该训练方式实现了对编码器的正则化,有利于促使编码器注意力机制的单调性,基于该训练方式训练得到的编码器,其输出的待识别语音的编码特征中,语音识别的注意力所关注的编码特征帧更加准确,从而使得编码器输出的编码特征更加有利于语音识别,即能够提高语音识别结果的准确度。
98.作为一种可选的实施方式,上述的编码器采用基于vgg-transformer的网络结构,具体如图4所示,该网络结构中的各个部分的具体功能和名称,可参见现有技术中关于vgg和transformer的网络结构的介绍。基于该网络结构,编码器先用vgg网络对待识别语音的声学特征进行卷积下采样,然后用transformer网络结构的自注意力机制关注上下文,提取对语音识别友好的隐层特征,即编码特征he。
99.其中,transformer是一种基于attention的模型机制,在transformer问世以前,为了获得长距离的依赖关系,通常使用rnn进行序列化编码,由于rnn模型每次输出依赖于当前输入和前一次的隐藏状态,因此它不能够并行计算,模型效率低下。transformer中提出的多头自注意力(multi-head self-attention)机制使得模型可以并行计算。
100.由于self-attention没有顺序信息,输入序列更改顺序,得到的结果是不变的。为了使编码结果与输入序列相适应,可以在self-attention时加入位置编码(position embedding,pe),给输入序列的每个单元一个仅与位置相关的embedding,这样,序列的单元改变顺序时,pe也会随之变换,从而使self-attention有了位置信息,进而使编码结果与输入序列严格匹配。原版transformer里pe是一种基于sin和cos的绝对位置信息,这种绝对位置信息当测试集里样本长度远大于训练集中的普遍长度时,得到的位置编码是网络没见过的,因此网络会得不到鲁棒的结果。相对位置编码(relative position embedding)很好的解决了这个问题。因此,本技术实施例中的transformer网络采用相对位置编码的多头自注意力机制,即图4中的multi-head relative attention模块。
101.可以理解,上述的编码器能够实现基于自注意力机制的编码功能。为了适应流式识别场景需求,本技术实施例设定,编码器在进行self-attention时,会截取一个片段,让自注意力机制只关注前后一小段特征序列,而非整个语音序列,从而可以用来进行流式识别。
102.具体而言,上述的编码器对待识别语音的声学特征进行编码时,具体是对待识别语音的每一帧声学特征,分别进行基于自注意力机制的编码处理,从而得到待识别语音的编码特征。
103.其中,在对任意一帧声学特征进行基于自注意力机制的编码处理时,根据包含该帧声学特征的设定长度的声学特征序列,对该帧声学特征进行编码,得到与该帧声学特征对应的编码特征。也就是,将注意力限定在包含该帧声学特征的一小段声学特征序列中,对该帧声学特征进行编码,得到相应的编码特征。其中,包含该帧声学特征的一小段声学特征序列,可以是由该帧声学特征,以及该帧声学特征之前或之后的一小段声学特征序列构成的特征序列。
104.由于编码注意力并不在整个语音序列,因此可以基于有限长度的声学特征序列,得到可供识别的编码特征,进而可以得到相应的识别结果,即,可以实现流式识别效果。
105.上述的vgg-transformer的网络结构、基于该网络结构结合自注意力机制获取声
学特征的编码特征的处理过程,以及相对位置编码的具体内容,可以参照常规技术中关于vgg-transformer的网络结构以及相对位置编码的介绍,本技术实施例不再详述。
106.另外,上述的编码器也可以采用其他网络结构,例如可以采用vgg-conformer网络结构、卷积+conformer的网络结构,或者可以采用双向lstm的网络结构,本技术实施例不做严格限定,只要能够实现本技术上述实施例所介绍的编码器功能,并且能够应用本技术上述实施例介绍的编码器训练方案即可。
107.作为一种优选的实施方式,在借助正则化模块对编码器进行上述的结合语音样本的识别结果对编码器输出的各帧编码特征的注意力系数的训练之外,在实际的语音识别应用中,本技术实施例提出的语音识别方法同样借助正则化模块,确定对待识别语音的语音识别结果。
108.参见图5所示,本技术实施例提出的语音识别方法,将待识别语音的声学特征输入通过上述方式训练得到的编码器,在执行步骤s501、获取编码器对待识别语音的声学特征进行编码得到的编码特征后,通过执行如下步骤s502~s504,得到对待识别语音的语音识别结果:
109.s502、通过对所述待识别语音的编码特征进行解码,得到所述待识别语音的解码特征。
110.示例性的,将编码器对待识别语音的声学特征进行编码得到的编码特征,输入解码器,使解码器对其进行解码,然后获取解码器最后一个隐藏层输出的特征向量,即为对编码特征的解码结果,也就是待识别语音的解码特征。
111.需要说明的是,上述的对所述编码特征进行解码得到的解码特征,具体是对编码特征进行解码得到的、用于确定当前时刻的解码结果的解码特征。具体而言,其中的“当前时刻的解码结果”,可以是对整个待识别语音的完整识别结果,也可以是对待识别语音的部分语音帧的识别结果。
112.当待识别语音较短时,或者在离线语音识别场景下,可以一次性输出对待识别语音的完整识别结果,此时,对待识别语音的编码特征进行解码得到的解码特征,具体是用于确定待识别语音的完整识别结果的解码特征。
113.当待识别语音较长时,或者是在流式语音识别场景下,对待识别语音的识别结果是流式输出的,此时,对待识别语音的编码特征进行解码得到的解码特征,具体是用于确定待识别语音的当前待识别语音帧的识别结果的解码特征。
114.本技术实施例以流式输出语音识别结果为例,介绍对待识别语音进行识别,确定当前时刻解码结果的实现过程。在其他时刻的解码结果,也可以参照本技术实施例介绍而得到。因此,上述的对编码特征进行解码得到的解码特征,具体是用于确定当前时刻解码结果的解码特征,该当前时刻解码结果,是对待识别语音的当前待识别的部分语音帧的识别结果。
115.在流式输出语音识别结果时,解码端输出的解码结果,是次序输出的,并非是一次性输出对待识别语音的全部识别结果。
116.比如,假设待识别语音共有t帧(第0帧~第t-1帧),对应可以得到t帧的编码特征,当解码器对该t帧的编码特征进行解码时,在某一时刻输出用于确定待识别语音的当前待识别的部分语音帧的识别结果的解码特征,而并非在该时刻输出用于确定对待识别语音的
完整识别结果的解码特征。
117.例如,在第1时刻,解码器对待识别语音的编码特征进行解码得到解码特征,基于该解码特征,可以确定对待识别语音的第0帧的识别结果,作为解码端在第1时刻输出的解码结果;在第2时刻,解码器对待识别语音的编码特征进行解码得到解码特征,基于该解码特征,可以确定对待识别语音的第1帧的识别结果,作为解码端在第2时刻输出的解码结果;以此类推,在第i时刻,解码器对待识别语音的编码特征进行解码得到解码特征,基于该解码特征,可以确定对待识别语音的第i-1帧的识别结果,作为解码端在第i时刻输出的解码结果。最后,将解码端在各个时刻输出的解码结果依次进行拼接,即可得到对待识别语音的完整识别结果。
118.在上述示例中,解码器在某一时刻输出的解码特征,也可以是用于确定对待识别语音的多个待识别语音帧的识别结果的解码特征。这样,解码器每次输出的解码特征,实际上是用于确定当前时刻对待识别语音的一个或多个待识别语音帧的识别结果的解码特征。
119.作为一种示例性的实施方式,本技术实施例上述的解码器,采用transformer网络结构的解码器,其结构可参见图6所示。解码器中attention包含两部分,一部分是解码器输入的self-attention,这里用的是带相对位置编码的multi-head relative attention,同编码器。另一部分是解码器对编码器的attention,该部分不需要相对位置,因此使用的是标准的multi-head attention结构。
120.基于上述的解码器网络结构,当借助解码器获取待识别语音的解码特征时,具体是将编码器输出的待识别语音的各帧编码特征,输入解码器的multi-head attention模块,同时,将待识别语音的已识别结果对应的解码特征,输入multi-head relative attention模块。其中,待识别语音的已识别结果,是指在当前时刻之前已经得到的对待识别语音的识别结果。在流式输出识别结果的语音识别场景中,按照从前到后的顺序,每一时刻输出对待识别语音的部分语音帧的识别结果,相应的,解码器在每一时刻输出用于确定对待识别语音的部分语音帧的识别结果的解码特征。因此,待识别语音的已识别结果对应的解码特征,也就是在当前时刻之前,解码器输出的解码特征。因此,将解码器在当前时刻之前输出的解码特征(outputs)输入multi-head relative attention模块,使解码器对编码器输出的各帧编码特征和解码器当前时刻之前输出的解码特征进行共同解码,得到待识别语音的当前时刻的解码特征。
121.可以理解,解码器在确定当前时刻解码特征时,同时参考了待识别语音的编码特征,以及当前时刻之前输出的解码特征,由此使得解码器输出的当前时刻的解码特征,同时包含了待识别语音的声学特征的全部信息,又包含了前序已识别结果的特征信息,从而使得当前时刻的解码特征信息更加丰富,有利于识别出更加准确的解码结果。
122.s503、根据所述待识别语音的编码特征和解码特征,确定所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数。
123.具体的,参见上述介绍可知,解码器输出的解码特征,直接用于确定当前时刻的解码结果。因此,解码器当前时刻输出的解码特征对待识别语音的编码特征的各帧的注意力系数,能够代表待识别语音的当前时刻解码结果对待识别语音的各帧编码特征的注意力系数。
124.本技术实施例通过图2所示的端到端语音识别模型的正则化模块,对编码器输出
的编码特征he和解码器输出的解码特征hd进行mlp attention运算,得到一个attention系数,该系数即可表示解码器输出的解码特征hd对编码器输出的编码特征he的各帧的注意力系数,也就是当前时刻的对待识别语音的解码结果对待识别语音的各帧编码特征的注意力系数。
125.上述的正则化模块的具体结构如图3所示,将待识别语音的每帧编码特征he和解码器在第i时刻输出的解码特征hd各自经过一个线性投影后相加,经过tanh激活函数后再过一个线性投影,最后通过softmax算出attention系数:
126.α
i,t
=softmax(wtanh(uhe+vhd))
127.其中,α
i,t
表示第i时刻输出的对待识别语音的解码结果(即识别结果)对待识别语音的第t帧的编码特征的注意力系数,w、u、v均为线性投影层参数。
128.通过上述计算,可以确定待识别语音的当前时刻的识别结果对待识别语音的各帧编码特征的注意力系数。该注意力系数,可以用来反应待识别语音的各帧编码特征对当前时刻的待识别语音的识别结果的影响大小。
129.s504、根据所述待识别语音的编码特征和解码特征,以及所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数,确定对所述待识别语音的语音识别结果。
130.具体的,作为一种简单的实现方式,对解码器当前时刻(假设为第i时刻)输出的解码特征进行线性投影和softmax分类,即可得到第i时刻的条件概率分布为:
[0131][0132]
其中,x表示待识别语音的声学特征的编码特征;wj和w
j'
为线性投影层的参数,两者数值实际相同,仅以不同符号区分字典维度下的参数和当前时刻的参数;v表示字典维度;y
<i
表示i时刻之前的解码结果。
[0133]
上述的第i时刻的条件概率分布的维度为字典维度,其能够表示当前时刻的识别结果对应字典中的每个字的概率,即为待识别语音的当前时刻识别结果。
[0134]
或者,对编码器输出的每帧编码特征he分别进行线性投影和softmax后,得到v维概率分布(v为字典大小),即得到对各帧编码特征对应的解码结果。例如,对第t帧编码特征进行运算后,得到其概率分布为:
[0135][0136]
其中,we表示线性投影层参数;和用于表示待识别语音的编码特征,两者数值实际相同,仅以不同符号区分字典维度下的参数和当前参数。
[0137]
然后,以待识别语音的识别结果对待识别语音的各帧编码特征的注意力系数为权重,对各帧编码特征对应的解码结果进行加权,得到对待识别语音的识别结果。
[0138]
参见上述介绍,假设第t帧编码特征对应的解码结果为p(y
t
|he),待识别语音的第i时刻的识别结果对第t帧编码特征的注意力系数为α
i,t
,则可以按照如下公式进行对各帧编码特征对应的解码结果进行加权,得到第i时刻对待识别语音的识别结果pi:
[0139][0140]
该识别结果pi的维度为字典维度,即为v维。
[0141]
上述两种方式,均是通过单一途径获取对待识别语音的识别结果,其实现方式简单,但是识别结果的准确度不够高。
[0142]
为了进一步提高识别结果的准确度,本技术实施例提出,将上述两种途径的识别结果相结合,确定对待识别语音的识别结果。具体可通过执行如下步骤a1-a3实现:
[0143]
a1、根据所述待识别语音的各帧编码特征,以及所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数,确定所述待识别语音的第一解码结果。
[0144]
具体的,对编码器输出的每帧编码特征he分别进行线性投影和softmax后,得到对各帧编码特征对应的解码结果。然后,以待识别语音的识别结果对待识别语音的各帧编码特征的注意力系数为权重,对各帧编码特征对应的解码结果进行加权,得到对待识别语音的识别结果,为了便于区分,将其命名为待识别语音的第一解码结果。上述处理的具体过程,可参见上述实施例介绍。
[0145]
a2、根据所述待识别语音的解码特征,确定所述待识别语音的第二解码结果。
[0146]
具体的,对解码器输出的解码特征进行线性投影和softmax分类,得到条件概率分布,即为第i时刻对待识别语音的识别结果,为便于区分,将其命名为待识别语音的第二解码结果。具体的处理过程可参见上述实施例的相应内容的介绍。
[0147]
a3、根据所述第一解码结果和所述第二解码结果,确定对所述待识别语音的语音识别结果。
[0148]
通常情况下,不论是上述的第一解码结果,还是上述的第二解码结果,都不会是只有唯一的一条解码路径,而是包含多条解码路径的。比如,第一解码结果有5条解码路径,第二解码结果也有5条解码路径,并且,第一解码结果中的解码路径与第二解码结果中的解码路径存在对应关系。在每条解码路径中,某一识别字符为字典中的每个字的概率分布,能够表示该识别字符的得分。
[0149]
在此基础上,本技术实施例对第一解码结果和第二解码结果中的相应解码路径的得分进行加权求和,然后基于加权求和后的各个解码路径的得分,从中选出得分最高的一个或多个解码路径,作为最终确定的对待识别语音的解码结果。
[0150]
其中,第一解码结果中的解码路径的得分占的权重在0.1~0.3之间,相应的,第二解码结果中的解码路径的得分占的权重在0.7~0.9之间,即,解码器输出的解码路径占比较大。
[0151]
通过上述介绍可见,本技术实施例提出的语音识别方法,不仅对模型训练进行了正则化,保证模型注意力机制的单调性。同时,在语音识别应用中,将编码端的识别结果与解码端的识别结果相融合,也对识别过程起到了正则化作用,可以进一步提高语音识别效率和准确度。
[0152]
上述实施例中已经说明,本技术实施例提出的语音识别方法,应用于基于注意力机制的端到端语音识别模型。该语音识别模型包括编码器和解码器,此外还可以包括正则化模块,具体如上述实施例介绍。
[0153]
因此,本技术实施例提出的语音识别方法在实际执行时,具体可以是将待识别语音的声学特征输入预先训练的语音识别模型,使所述语音识别模型获取其编码器对所述待识别语音的声学特征进行处理得到的编码特征,根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果。
[0154]
作为一种优选的实施方式,上述的语音识别模型,通过如下步骤b1-b5所示的训练方式训练得到:
[0155]
b1、将语音样本的声学特征输入编码器,得到所述编码器输出的编码特征,并利用解码器对所述编码特征进行解码,得到解码特征。
[0156]
b2、根据所述编码特征和所述解码特征,确定所述语音样本的解码结果对所述语音样本的各帧编码特征的注意力系数。
[0157]
b3、根据所述语音样本的编码特征以及所述注意力系数,确定对所述语音样本的第一识别结果,并通过将所述第一识别结果与所述语音样本的标签进行对比,确定第一损失函数。
[0158]
b4、根据所述语音样本的解码特征,确定对所述语音样本的第二识别结果,并通过将所述第二识别结果与所述语音样本的标签进行对比,确定第二损失函数。
[0159]
具体的,上述的编码特征和解码特征获取过程、注意力系数计算过程,以及第一识别结果、第二识别结果、第一损失函数和第二损失函数的计算过程,均可以参照上述实施例的介绍而执行,例如可以参照上述实施例介绍的对编码器的训练过程的相应内容,此处不再详述。
[0160]
需要特别说明的是,在得到上述的第一损失函数和第二损失函数后,本技术实施例通过执行如下步骤b5,对语音识别模型进行训练:
[0161]
b5、利用所述第一损失函数和所述第二损失函数,对所述编码器和所述解码器的参数进行优化。
[0162]
具体的,假设第一损失函数为le,第二损失函数为ld,将第一损失函数le和第二损失函数ld进行加权求和,得到联合损失函数l:
[0163]
l=λle+(1-λ)ld[0164]
其中,λ取值在0.3左右。
[0165]
然后,利用上述的联合损失函数l,对语音识别模型的编码器进行训练。参考上述实施例介绍可知,该联合损失函数l中包含了语音样本的识别结果对语音样本的各帧编码特征的注意力系数信息。利用该联合损失函数对编码器参数进行优化,可以对编码器起到正则化作用,有利于促使编码器注意力机制的单调性,提高对识别结果所关注的编码特征帧的编码精确度,进而使得根据编码器输出的编码特征能够得到更加准确的识别结果。
[0166]
与此同时,利用第二损失函数ld对解码器的参数进行优化,或者,利用第二损失函数ld和上述的联合损失函数l,对解码器的参数进行优化。
[0167]
具体的,利用第二损失函数ld对解码器参数进行优化,即为常规的模型训练方案。
[0168]
在本技术实施例中,还可以将第二损失函数和联合损失函数相结合,用于对解码器进行参数优化,这两种损失函数的应用可以是先后应用的。例如可以先用第二损失函数对解码器进行参数优化,然后再用联合损失函数对解码器进行参数优化。
[0169]
由于联合损失函数中包含识别结果对各帧编码特征的注意力系数信息,因此,利
用联合损失函数对解码器进行参数优化,一定程度上有利于促使解码器将解码注意力集中到正确的编码特征上,因此能够得到更加准确的解码结果。
[0170]
另一方面,由于联合损失函数中包含第一损失函数,而第一损失函数的应用,也可能影响第二损失函数对解码器参数的优化方向,从而形成相互干扰,无法取得更好的参数优化效果。
[0171]
针对上述情况,可以在实际的训练过程中,根据语音识别结果的实际效果,选择利用第二损失函数对解码器进行参数优化,或者是利用第二损失函数和联合损失函数对解码器进行参数优化。
[0172]
与上述的语音识别方法相对应的,本技术实施例还提出一种语音识别装置,参见图7所示,该装置包括:
[0173]
编码单元100,用于获取编码器对待识别语音的声学特征进行编码得到的编码特征;
[0174]
其中,所述编码器根据对语音样本的第一识别结果以及所述语音样本的文本标签训练得到,所述语音样本的第一识别结果,根据所述编码器对语音样本的声学特征进行编码得到的编码特征,以及语音样本的识别结果对所述编码器输出的各帧编码特征的注意力系数而确定;
[0175]
解码单元110,用于根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果。
[0176]
作为一种可选的实施方式,根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果,包括:
[0177]
通过对所述待识别语音的编码特征进行解码,得到所述待识别语音的解码特征;
[0178]
根据所述待识别语音的编码特征和解码特征,确定所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数;
[0179]
根据所述待识别语音的编码特征和解码特征,以及所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数,确定对所述待识别语音的语音识别结果。
[0180]
作为一种可选的实施方式,所述编码器对待识别语音的声学特征进行编码得到编码特征,包括:
[0181]
对待识别语音的每一帧声学特征,分别进行基于自注意力机制的编码处理,从而得到所述待识别语音的编码特征;
[0182]
其中,对任意一帧声学特征进行基于自注意力机制的编码处理,包括:根据包含该帧声学特征的设定长度的声学特征序列,对该帧声学特征进行编码,得到与该帧声学特征对应的编码特征。
[0183]
作为一种可选的实施方式,通过对所述待识别语音的编码特征进行解码,得到所述待识别语音的解码特征,包括:
[0184]
对所述待识别语音的各帧编码特征,以及所述待识别语音的已识别结果对应的解码特征进行解码,得到所述待识别语音的解码特征;
[0185]
其中,所述待识别语音的已识别结果,为在当前时刻之前已得到的对所述待识别语音的识别结果。
[0186]
作为一种可选的实施方式,根据所述待识别语音的编码特征和解码特征,以及所
述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数,确定对所述待识别语音的语音识别结果,包括:
[0187]
根据所述待识别语音的各帧编码特征,以及所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数,确定所述待识别语音的第一解码结果;
[0188]
根据所述待识别语音的解码特征,确定所述待识别语音的第二解码结果;
[0189]
根据所述第一解码结果和所述第二解码结果,确定对所述待识别语音的语音识别结果。
[0190]
作为一种可选的实施方式,根据所述待识别语音的各帧编码特征,以及所述待识别语音的解码结果对所述待识别语音的各帧编码特征的注意力系数,确定所述待识别语音的第一解码结果,包括:
[0191]
对所述待识别语音的各帧编码特征分别进行解码,得到与各帧编码特征对应的解码结果;
[0192]
以所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数为权重,对各帧编码特征对应的解码结果进行加权,得到所述待识别语音的第一解码结果。
[0193]
作为一种可选的实施方式,所述第一解码结果和所述第二解码结果分别包含多个解码路径;
[0194]
根据所述第一解码结果和所述第二解码结果,确定对所述待识别语音的语音识别结果,包括:
[0195]
对所述第一解码结果与所述第二解码结果的各个解码路径的得分进行加权求和,并从得分加权求和后的解码路径中确定出对所述待识别语音的语音识别结果。
[0196]
作为一种可选的实施方式,所述编码器的训练过程,包括:
[0197]
获取所述编码器对语音样本的声学特征进行编码得到的编码特征,以及,获取对所述语音样本的编码特征进行解码得到的解码特征;
[0198]
根据所述语音样本的编码特征和解码特征,确定所述语音样本的识别结果对所述语音样本的各帧编码特征的注意力系数;
[0199]
根据所述语音样本的编码特征以及所述注意力系数,确定对所述语音样本的第一识别结果;
[0200]
通过将所述第一识别结果与所述语音样本的标签进行对比,对所述编码器的参数进行优化。
[0201]
作为一种可选的实施方式,获取编码器对待识别语音的声学特征进行处理得到的编码特征,根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果,包括:
[0202]
将待识别语音的声学特征输入预先训练的语音识别模型,使所述语音识别模型获取其编码器对所述待识别语音的声学特征进行处理得到的编码特征,根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果。
[0203]
作为一种可选的实施方式,所述语音识别模型包括编码器和解码器,对所述语音识别模型的训练过程,包括:
[0204]
将语音样本的声学特征输入编码器,得到所述编码器输出的编码特征,并利用解码器对所述编码特征进行解码,得到解码特征;
[0205]
根据所述编码特征和所述解码特征,确定所述语音样本的解码结果对所述语音样本的各帧编码特征的注意力系数;
[0206]
根据所述语音样本的编码特征以及所述注意力系数,确定对所述语音样本的第一识别结果,并通过将所述第一识别结果与所述语音样本的标签进行对比,确定第一损失函数;
[0207]
根据所述语音样本的解码特征,确定对所述语音样本的第二识别结果,并通过将所述第二识别结果与所述语音样本的标签进行对比,确定第二损失函数;
[0208]
利用所述第一损失函数和所述第二损失函数,对所述编码器和所述解码器的参数进行优化。
[0209]
作为一种可选的实施方式,利用所述第一损失函数和所述第二损失函数,对所述编码器和所述解码器的参数进行优化,包括:
[0210]
对所述第一损失函数和所述第二损失函数进行加权求和,得到联合损失函数;
[0211]
利用所述联合损失函数,对所述编码器的参数进行优化;
[0212]
以及,
[0213]
利用所述第二损失函数,或者利用所述第二损失函数和所述联合损失函数,对所述解码器的参数进行优化。
[0214]
具体的,上述的语音识别装置的各个部分的具体工作内容,请参见上述的语音识别方法的各实施例中的相应内容,此处不再重复。
[0215]
本技术另一实施例还提出一种语音识别设备,参见图8所示,该设备包括:
[0216]
存储器200和处理器210;
[0217]
其中,所述存储器200与所述处理器210连接,用于存储程序;
[0218]
所述处理器210,用于通过运行所述存储器200中存储的程序,实现上述任一实施例公开的语音识别方法。
[0219]
具体的,上述语音识别设备还可以包括:总线、通信接口220、输入设备230和输出设备240。
[0220]
处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中:
[0221]
总线可包括一通路,在计算机系统各个部件之间传送信息。
[0222]
处理器210可以是通用处理器,例如通用中央处理器(cpu)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,asic),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0223]
处理器210可包括主处理器,还可包括基带芯片、调制解调器等。
[0224]
存储器200中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器200可以包括只读存储器(read-only memory,rom)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,ram)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
[0225]
输入设备230可包括接收用户输入的数据和信息的装置,例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
[0226]
输出设备240可包括允许输出信息给用户的装置,例如显示屏、打印机、扬声器等。
[0227]
通信接口220可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(ran),无线局域网(wlan)等。
[0228]
处理器210执行存储器200中所存放的程序,以及调用其他设备,可用于实现本技术上述实施例所提供的语音识别方法的各个步骤。
[0229]
本技术另一实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时,实现本技术上述实施例所提供的语音识别方法的各个步骤。
[0230]
具体的,上述的语音识别设备的各个部分的具体工作内容,以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容,均可以参见上述的语音识别方法的各个实施例的内容,此处不再赘述。
[0231]
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0232]
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0233]
本技术各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,各实施例中记载的技术特征可以进行替换或者组合。
[0234]
本技术各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
[0235]
本技术所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,模块或子模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个子模块或模块可以结合或者可以集成到另一个模块,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0236]
作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的,作为模块或子模块的部件可以是或者也可以不是物理模块或子模块,即可以位于一个地方,或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
[0237]
另外,在本技术各个实施例中的各功能模块或子模块可以集成在一个处理模块中,也可以是各个模块或子模块单独物理存在,也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现,也可以采用软件功能模块或子模块的形式实现。
[0238]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元
及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0239]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元,或者二者的结合来实施。软件单元可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
[0240]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0241]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:
1.一种语音识别方法,其特征在于,包括:获取编码器对待识别语音的声学特征进行编码得到的编码特征;其中,所述编码器根据对语音样本的第一识别结果以及所述语音样本的文本标签训练得到,所述语音样本的第一识别结果,根据所述编码器对语音样本的声学特征进行编码得到的编码特征,以及语音样本的识别结果对所述编码器输出的各帧编码特征的注意力系数而确定;根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果。2.根据权利要求1所述的方法,其特征在于,根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果,包括:通过对所述待识别语音的编码特征进行解码,得到所述待识别语音的解码特征;根据所述待识别语音的编码特征和解码特征,确定所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数;根据所述待识别语音的编码特征和解码特征,以及所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数,确定对所述待识别语音的语音识别结果。3.根据权利要求1或2所述的方法,其特征在于,所述编码器对待识别语音的声学特征进行编码得到编码特征,包括:对待识别语音的每一帧声学特征,分别进行基于自注意力机制的编码处理,从而得到所述待识别语音的编码特征;其中,对任意一帧声学特征进行基于自注意力机制的编码处理,包括:根据包含该帧声学特征的设定长度的声学特征序列,对该帧声学特征进行编码,得到与该帧声学特征对应的编码特征。4.根据权利要求2所述的方法,其特征在于,通过对所述待识别语音的编码特征进行解码,得到所述待识别语音的解码特征,包括:对所述待识别语音的各帧编码特征,以及所述待识别语音的已识别结果对应的解码特征进行解码,得到所述待识别语音的解码特征;其中,所述待识别语音的已识别结果,为在当前时刻之前已得到的对所述待识别语音的识别结果。5.根据权利要求2所述的方法,其特征在于,根据所述待识别语音的编码特征和解码特征,以及所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数,确定对所述待识别语音的语音识别结果,包括:根据所述待识别语音的各帧编码特征,以及所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数,确定所述待识别语音的第一解码结果;根据所述待识别语音的解码特征,确定所述待识别语音的第二解码结果;根据所述第一解码结果和所述第二解码结果,确定对所述待识别语音的语音识别结果。6.根据权利要求5所述的方法,其特征在于,根据所述待识别语音的各帧编码特征,以及所述待识别语音的解码结果对所述待识别语音的各帧编码特征的注意力系数,确定所述待识别语音的第一解码结果,包括:对所述待识别语音的各帧编码特征分别进行解码,得到与各帧编码特征对应的解码结
果;以所述待识别语音的识别结果对所述待识别语音的各帧编码特征的注意力系数为权重,对各帧编码特征对应的解码结果进行加权,得到所述待识别语音的第一解码结果。7.根据权利要求5所述的方法,其特征在于,所述第一解码结果和所述第二解码结果分别包含多个解码路径;根据所述第一解码结果和所述第二解码结果,确定对所述待识别语音的语音识别结果,包括:对所述第一解码结果与所述第二解码结果的各个解码路径的得分进行加权求和,并从得分加权求和后的解码路径中确定出对所述待识别语音的语音识别结果。8.根据权利要求1所述的方法,其特征在于,所述编码器的训练过程,包括:获取所述编码器对语音样本的声学特征进行编码得到的编码特征,以及,获取对所述语音样本的编码特征进行解码得到的解码特征;根据所述语音样本的编码特征和解码特征,确定所述语音样本的识别结果对所述语音样本的各帧编码特征的注意力系数;根据所述语音样本的编码特征以及所述注意力系数,确定对所述语音样本的第一识别结果;通过将所述第一识别结果与所述语音样本的标签进行对比,对所述编码器的参数进行优化。9.根据权利要求1所述的方法,其特征在于,获取编码器对待识别语音的声学特征进行处理得到的编码特征,根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果,包括:将待识别语音的声学特征输入预先训练的语音识别模型,使所述语音识别模型获取其编码器对所述待识别语音的声学特征进行处理得到的编码特征,根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果。10.根据权利要求9所述的方法,其特征在于,所述语音识别模型包括编码器和解码器,对所述语音识别模型的训练过程,包括:将语音样本的声学特征输入编码器,得到所述编码器输出的编码特征,并利用解码器对所述编码特征进行解码,得到解码特征;根据所述编码特征和所述解码特征,确定所述语音样本的解码结果对所述语音样本的各帧编码特征的注意力系数;根据所述语音样本的编码特征以及所述注意力系数,确定对所述语音样本的第一识别结果,并通过将所述第一识别结果与所述语音样本的标签进行对比,确定第一损失函数;根据所述语音样本的解码特征,确定对所述语音样本的第二识别结果,并通过将所述第二识别结果与所述语音样本的标签进行对比,确定第二损失函数;利用所述第一损失函数和所述第二损失函数,对所述编码器和所述解码器的参数进行优化。11.根据权利要求10所述的方法,其特征在于,利用所述第一损失函数和所述第二损失函数,对所述编码器和所述解码器的参数进行优化,包括:对所述第一损失函数和所述第二损失函数进行加权求和,得到联合损失函数;
利用所述联合损失函数,对所述编码器的参数进行优化;以及,利用所述第二损失函数,或者利用所述第二损失函数和所述联合损失函数,对所述解码器的参数进行优化。12.一种语音识别装置,其特征在于,包括:编码单元,用于获取编码器对待识别语音的声学特征进行编码得到的编码特征;其中,所述编码器根据对语音样本的第一识别结果以及所述语音样本的文本标签训练得到,所述语音样本的第一识别结果,根据所述编码器对语音样本的声学特征进行编码得到的编码特征,以及语音样本的识别结果对所述编码器输出的各帧编码特征的注意力系数而确定;解码单元,用于根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果。13.一种语音识别设备,其特征在于,包括:存储器和处理器;其中,所述存储器与所述处理器连接,用于存储程序;所述处理器,用于通过运行所述存储器中的程序,实现如权利要求1至11中任意一项所述的语音识别方法。14.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现如权利要求1至11中任意一项所述的语音识别方法。

技术总结
本申请提出一种语音识别方法、装置、设备及存储介质,该方法包括:获取编码器对待识别语音的声学特征进行编码得到的编码特征;其中,所述编码器根据对语音样本的第一识别结果以及所述语音样本的文本标签训练得到,所述语音样本的第一识别结果,根据所述编码器对语音样本的声学特征进行编码得到的编码特征,以及语音样本的识别结果对所述编码器输出的各帧编码特征的注意力系数而确定;根据所述待识别语音的编码特征,确定对所述待识别语音的语音识别结果。采用上述技术方案能够提高语音识别准确度。准确度。准确度。


技术研发人员:刘丹 韩凯 魏思
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:2021.11.29
技术公布日:2022/3/8

最新回复(0)