基于深度学习的语音识别方法、装置、设备及介质与流程

1.本发明涉及语音处理技术领域，尤其涉及一种基于深度学习的语音识别方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.随着信息技术的不断发展，人们对智能领域有着更多的探究，其中，以人工智能为背景的语音识别技术最为突出，且语音识别也是人工智能中的重要应用。比如，流式语音识别在直播实时字幕、会议实时记录、语音输入、语音唤醒等场景都有广泛应用。其中，流式语音识别(streaming asr)是指在处理音频流的过程中，实时返回识别的文本结果。
3.目前，语音识别常用的做法是将声学模型、发音词典和语言模型组成流式语音识别系统来实现语音识别任务，存在传统语音识别系统的强制对齐和多模块训练等问题，且多模型组成的传统流式语音识别系统还存在语音转文本中响应速度慢、转化的文本准确率较低的问题。

技术实现要素：

4.本发明提供一种基于深度学习的语音识别方法、装置、电子设备及计算机可读存储介质，其主要目的是为了提高语音识别的效率和准确率。
5.为实现上述目的，本发明提供的一种基于深度学习的语音识别方法，包括：
6.获取训练数据，所述训练数据包括语音序列流和对应的真实文本；
7.利用预构建的深层语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取，得到流式语音特征序列向量集；
8.将所述流式语音特征序列向量集转化为流式语音序列向量矩阵，利用所述深层语音识别模型中的编码层对所述流式语音序列向量矩阵进行编码，得到流式语音序列关联矩阵；
9.利用所述深层语音识别模型中的解码层对所述流式语音序列关联矩阵进行解码，得到所述语音序列流的预测文本；
10.利用所述深层语音识别模型中的损失函数计算所述预测文本和所述真实文本的损失值，根据所述损失值调整所述深层语音识别模型的参数，直到所述损失值满足预设条件时，得到训练完成的深层语音识别模型；
11.利用所述训练完成的深层语音识别模型进行语音识别。
12.可选地，所述利用预构建的深层语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取，得到流式语音特征序列向量集，包括：
13.将所述语音序列流转换为时间和频率的二维频谱图；
14.利用所述深层语音识别模型中的二维注意力机制层对所述二维频谱图执行卷积操作，得到流式语音特征序列向量集。
15.可选地，所述编码层包括：缩放点乘注意力机制层、残差连接层及全连接层，所述
利用所述深层语音识别模型中的编码层对所述流式语音特征序列向量集进行编码，得到流式语音序列关联矩阵，包括：
16.利用所述缩放点乘注意力机制层将所述流式语音序列向量矩阵拆分为中心转换矩阵、关联转换矩阵和权重转换矩阵；
17.将所述流式语音序列向量矩阵分别和所述中心转换矩阵、所述关联转换矩阵和所述权重转换矩阵进行点乘，得到中心向量矩阵、关联向量矩阵和权重向量矩阵；
18.将所述中心向量矩阵、所述关联向量矩阵和所述权重向量矩阵进行组合，并将组合后的组合矩阵输入至预设的激活函数，得到激活函数输出的流式语音序列矩阵；
19.利用所述残差连接层中的残差函数，将流式语音序列向量矩阵和流式语音序列矩阵进行连接，以及将连接的所述流式语音序列向量矩阵和所述流式语音序列矩阵输入至所述全连接层中，得到全连接层输出的流式语音序列关联矩阵。
20.可选地，所述得到全连接层输出的流式语音序列关联矩阵之后，所述方法还包括：
21.将所述流式语音序列关联矩阵进行归一化处理，得到归一化后的流式语音序列关联矩阵。
22.可选地，所述解码层包括：掩蔽多头注意力机制层、残差连接层及全连接层，所述利用所述深层语音识别模型中的解码层对所述流式语音序列关联矩阵进行解码，得到所述语音序列流的预测文本，包括：
23.利用所述掩蔽多头注意力机制层对所述流式语音序列关联矩阵进行部分掩码，得到遮蔽流式语音序列矩阵；
24.利用所述残差连接层将所述遮蔽流式语音序列矩阵和流式语音序列关联矩阵进行连接，得到连接流式语音序列矩阵；
25.将所述连接流式语音序列矩阵输入至全连接层中，得到所述语音序列流的预测文本。
26.可选地，所述利用所述深层语音识别模型中的损失函数计算所述预测文本和所述真实文本的损失值，包括：
27.利用下述损失函数计算所述预测文本与所述真实文本的损失值：
[0028][0029]
其中，l(s)表示损失值，k表示预测文本的数量，yi表示第i个预测文本，yi′
表示第i个真实文本。
[0030]
可选地，所述获取训练数据之后，所述方法还包括：
[0031]
对所述语音序列流进行预加重操作，采用加窗的方法对预加重后的所述语音序列流进行分帧，以筛选出所述语音序列流中的背景声，得到只包含人声的待训练的语音序列流。
[0032]
为了解决上述问题，本发明还提供一种基于深度学习的语音识别装置，所述装置包括：
[0033]
语音序列流获取模块，用于获取训练数据，所述训练数据包括语音序列流和对应的真实文本；
[0034]
语音序列流向量化模块，用于利用预构建的深层语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取，得到流式语音特征序列向量集；
[0035]
语音序列流矩阵编码模块，用于将所述流式语音特征序列向量集转化为流式语音序列向量矩阵，利用所述深层语音识别模型中的编码层对所述流式语音序列向量矩阵进行编码，得到流式语音序列关联矩阵；
[0036]
语音序列流矩阵解码模块，用于利用所述深层语音识别模型中的解码层对所述流式语音序列关联矩阵进行解码，得到所述语音序列流的预测文本；
[0037]
模型训练完成模块，用于利用所述深层语音识别模型中的损失函数计算所述预测文本和所述真实文本的损失值，根据所述损失值调整所述深层语音识别模型的参数，直到所述损失值满足预设条件时，得到训练完成的深层语音识别模型；
[0038]
语音序列流识别模块，用于利用所述训练完成的深层语音识别模型进行语音识别。
[0039]
为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：
[0040]
存储器，存储至少一个计算机程序；及
[0041]
处理器，执行所述存储器中存储的计算机程序以实现上述所述的基于深度学习的语音识别方法。
[0042]
为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于深度学习的语音识别方法。
[0043]
本发明实施例中，首先获取训练用的语音序列流和对应的真实文本；其次，利用预构建的深层基于深度学习的语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取，得到流式语音特征序列向量集，通过增加二维注意力机制层可以使得语音序列流的长度进行缩减且对应的信息密度增强，得到更加准确的声学特征，并提高语音识别的响应速率；进一步，利用编码层对所述流式语音序列向量矩阵进行编码，得到流式语音序列关联矩阵，利用解码层对所述流式语音序列关联矩阵进行解码，得到所述语音序列流的预测文本，可以加强特征之间的关联；最后，利用损失函数计算所述预测文本和所述真实文本的损失值，根据所述损失值调整所述深层语音识别模型的参数，利用所述训练完成的深层语音识别模型识别获取的待识别的语音序列流，得到语音序列识别结果，仅使用一个模型即可完成语音识别，有效降低成本并提高语音识别效率，且该模型可以通过自主训练不断提高语音识别的准确率。因此本发明实施例提出的基于深度学习的语音识别方法、装置、电子设备及可存储介质可以提高语音识别的效率和准确率。
附图说明
[0044]
图1为本发明一实施例提供的基于深度学习的语音识别方法的流程示意图；
[0045]
图2为本发明一实施例提供的基于深度学习的语音识别装置的模块示意图；
[0046]
图3为本发明一实施例提供的实现基于深度学习的语音识别方法的电子设备的内部结构示意图；
[0047]
本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
[0048]
应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0049]
本发明实施例提供一种基于深度学习的语音识别方法。所述基于深度学习的语音识别方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之，所述基于深度学习的语音识别方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。
[0050]
参照图1所示的本发明一实施例提供的基于深度学习的语音识别方法的流程示意图，在本发明实施例中，所述基于深度学习的语音识别方法包括：
[0051]
s1、获取训练数据，所述训练数据包括语音序列流和对应的真实文本。
[0052]
本发明实施例中，该训练用的语音序列流是指将用户输入的多条语音数据作为训练数据，且该语音是由连续的帧信号组成的，该语音序列流的获取可以通过app的后台获取用户发出的实时语音；该训练用的语音序列流对应的真实文本是将语音序列流通过预设系统进行翻译并经过校验，得到的文本内容。
[0053]
本发明实施例中，可以先对语音序列流进行端点检测，将杂乱无规律的语音序列流转化为有规律的语音序列，其中，端点检测是指对语音序列进行信号时域分析，判断该语音序列流是有声段还是无声段。
[0054]
本发明实施例中，由于语音序列流中的语音序列是一种非平稳的时变信号，它携带着各种信息，例如背景噪声、人声等，在获取训练用的语音序列流后，对所述语音序列流进行预处理操作，以提取只包含人声的语音。
[0055]
详细地，所述获取训练数据之后，所述方法还包括：
[0056]
对所述语音序列流进行预加重操作，采用加窗的方法对预加重后的所述语音序列流进行分帧，以筛选出所述语音序列流中的背景声，得到只包含人声的语音序列流，减少背景声的干扰。
[0057]
本发明一实施例中，进行预加重操作可以增强语音数据的高分辨率。
[0058]
较佳地，所述加窗的方法为：汉明窗加窗法。
[0059]
s2、利用预构建的深层语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取，得到流式语音特征序列向量集。
[0060]
本发明实施例中，所述预构建的深层语音识别模型是基于神经网络构建的语音识别模型，可以基于transformer结构构建，其中，深层语音识别模型包括：二维注意力机制层、编码层、解码层及损失函数。
[0061]
详细地，所述利用预构建的深层语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取，得到流式语音特征序列向量集，包括：
[0062]
将所述语音序列流转换为时间和频率的二维频谱图；
[0063]
利用所述深层语音识别模型中的二维注意力机制层对所述二维频谱图执行卷积操作，得到流式语音特征序列向量集。
[0064]
本发明实施例中，所述二维注意力机制层与一般的注意力机制层相比，该机制同时关注语音序列流的时间和频率，并且根据说话人发音时不同频率的时间变换进行预测，且该机制对输入的语音序列流进行卷积处理，使输入的语音序列流的长度进行缩减且语音
序列流对应的信息密度增强，从而得到更加准确的声学特征。
[0065]
s3、将所述流式语音特征序列向量集转化为流式语音序列向量矩阵，利用所述深层语音识别模型中的编码层对所述流式语音序列向量矩阵进行编码，得到流式语音序列关联矩阵。
[0066]
本发明实施例中，所述流式语音序列向量矩阵是由流式语音特征序列向量集拼接而成的矩阵；所述流式语音序列关联矩阵是包含所述流式语音特征序列向量集的上下字符语义特征的矩阵，且所述流式语音序列向量矩阵和所述流式语音序列关联矩阵的维度一致。
[0067]
例如，所述流式语音序列向量矩阵的维度为m
×
n，则所述流式语音序列关联矩阵的维度也为m
×
n。
[0068]
本发明实施例中，利用所述语音序列向量矩阵的维度，将语音序列向量矩阵拆分成中心转换矩阵、关联转换矩阵和权重转换矩阵，例如，语音序列向量矩阵为m
×
n，则可按照m
×
s、s
×
t、t
×
n执行拆分，分别得到m
×
s维度的中心转换矩阵、s
×
t维度的关联转换矩阵及t
×
n维度的权重转换矩阵。
[0069]
详细地，所述编码层包括：缩放点乘注意力机制层、残差连接层及全连接层，所述利用所述深层语音识别模型中的编码层对所述流式语音特征序列向量集进行编码，得到流式语音序列关联矩阵，包括：
[0070]
利用所述缩放点乘注意力机制层将所述流式语音序列向量矩阵拆分为中心转换矩阵、关联转换矩阵和权重转换矩阵；
[0071]
将所述流式语音序列向量矩阵分别和所述中心转换矩阵、所述关联转换矩阵和所述权重转换矩阵进行点乘，得到中心向量矩阵、关联向量矩阵和权重向量矩阵；
[0072]
将所述中心向量矩阵、所述关联向量矩阵和所述权重向量矩阵进行组合，并将组合后的组合矩阵输入至预设的激活函数，得到激活函数输出的流式语音序列矩阵；
[0073]
利用所述残差连接层中的残差函数，将流式语音序列向量矩阵和流式语音序列矩阵进行连接，以及将连接的所述流式语音序列向量矩阵和所述流式语音序列矩阵输入至所述全连接层中，得到全连接层输出的流式语音序列关联矩阵。
[0074]
本发明实施例中，所述缩放点乘注意力机制该机制更加关注局部的特征，以保证在后续操作中重要特征不会丢失，且该机制分布在预设的多头注意力机制下，还可以使模型在不同的表示子空间中获得不同位置的相同输入的注意力信息，且该多头注意力机制可以并行计算，进而提高该模型的性能和训练速度。
[0075]
本发明一实施例中，利用所述残差连接层连接所述流式语音序列向量矩阵和所述流式语音序列矩阵，可以确保在模型学习的过程中原始语音序列流的主要特征不会丢失，得到包括原始语音序列流特征的流式语音序列关联矩阵。
[0076]
较佳地，所述残差函数可为layer add函数。
[0077]
本发明一可选实施例中，所述流式语音序列关联矩阵的计算过程如下：
[0078][0079]
其中，softmax是指所述预设的激活函数，q是指所述中心转换矩阵，k
t
是指所述关联转换矩阵，dk是指所述关联转换矩阵的维度，v是指所述权重转换矩阵，attention(q,k,
v)是指所述语音特征关联矩阵。
[0080]
进一步地，所述得到全连接层输出的流式语音序列关联矩阵之后，所述方法还包括：
[0081]
将所述流式语音序列关联矩阵进行归一化处理，得到归一化后的流式语音序列关联矩阵。
[0082]
较佳地，所述归一化处理可通过layer normalization函数实现。
[0083]
本发明实施例中，对流式语音序列关联矩阵进行归一化处理，可以去掉流式语音序列关联矩阵中一些较大的值，便于后续模型对所述流式语音序列关联矩阵进行调节，加快该模型的训练速度。
[0084]
s4、利用所述深层语音识别模型中的解码层对所述流式语音序列关联矩阵进行解码，得到所述语音序列流的预测文本。
[0085]
本发明实施例中，所述解码层的作用是将编码层得到的固定长度矩阵还原成对应的语音序列数据。
[0086]
详细地，所述解码层包括：掩蔽多头注意力机制层、残差连接层及全连接层，所述利用所述深层语音识别模型中的解码层对所述流式语音序列关联矩阵进行解码，得到所述语音序列流的预测文本，包括：
[0087]
利用所述掩蔽多头注意力机制层对所述流式语音序列关联矩阵进行部分掩码，得到遮蔽流式语音序列矩阵；
[0088]
利用所述残差连接层将所述遮蔽流式语音序列矩阵和流式语音序列关联矩阵进行连接，得到连接流式语音序列矩阵；
[0089]
将所述连接流式语音序列矩阵输入至全连接层中，得到所述语音序列流的预测文本。
[0090]
本发明实施例中，使用掩蔽多头注意力机制层(masked multi-head attention)主要目的是帮助当前节点获取到当前需要关注的重要内容，遮蔽的内容是真实标签序列中当前结点之后的文本标签，且利用掩蔽多头注意力机制层可以使得输入语音特征的干净部分和噪声部分有较为明显的区分，进而对噪声部分进行掩蔽处理，能够更有效地抑制噪声，进一步提高预测文本的准确率。
[0091]
本发明一实施例中，所述预测文本可通过下列激活函数公式得到：
[0092][0093]
其中，relu(z
′
)表示预测文本，z表示连接流式语音序列矩阵的特征信息，e表示无限不循环小数。
[0094]
s5、利用所述深层语音识别模型中的损失函数计算所述预测文本和所述真实文本的损失值，根据所述损失值调整所述深层语音识别模型的参数，直到所述损失值满足预设条件时，得到训练完成的深层语音识别模型。
[0095]
本发明实施例中，所述预设条件可以根据所述实际模型训练场景设置，例如，预设条件可以为所述损失值小于预设阈值。
[0096]
本发明实施例中，所述损失函数包括交叉熵(cross entropy)函数。
[0097]
详细地，所述利用所述深层语音识别模型中的损失函数计算所述预测文本和所述
真实文本的损失值，包括：
[0098]
利用下述损失函数计算所述预测文本与所述真实文本的损失值：
[0099][0100]
其中，l(s)表示损失值，k表示预测文本的数量，yi表示第i个预测文本，y
′i表示第i个真实文本。
[0101]
本发明一可选实施例中，所述根据所述损失值调整所述深层语音识别模型的参数可通过如下的随机下降梯度算法实现：
[0102][0103]
其中，l(θ)表示调整的参数，m表示流式语音序列关联矩阵的数量，l(s)表示损失值，f(x
i,j
,θ)表示下降函数，θ表示学习率，x
i,j
和y
i,j
表示流式语音序列关联矩阵的横纵坐标位置。
[0104]
s6、利用所述训练完成的深层语音识别模型进行语音识别。
[0105]
本发明实施例中，利用所述训练完成的深层语音识别模型对获取到的待识别语音序列流进行识别，该获取到的待识别语音序列流是指用户输入的实时语音数据，可以通过app的后台获取用户发出的实时语音。
[0106]
本发明实施例中，利用所述训练完成的深层语音识别模型可以识别到待识别语音序列流有声段的部分，并且将有声段的部分实时转化为语音序列流对应的文本内容。
[0107]
例如，待识别的语音序列流可以是用户通过聊天工具发出的实时语音序列，可以利用该模型实时识别出该语音序列对应的文本。
[0108]
本发明实施例中，首先获取训练用的语音序列流和对应的真实文本；其次，利用预构建的深层基于深度学习的语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取，得到流式语音特征序列向量集，通过增加二维注意力机制层可以使得语音序列流的长度进行缩减且对应的信息密度增强，得到更加准确的声学特征，并提高语音识别的响应速率；进一步，利用编码层对所述流式语音序列向量矩阵进行编码，得到流式语音序列关联矩阵，利用解码层对所述流式语音序列关联矩阵进行解码，得到所述语音序列流的预测文本，可以加强特征之间的关联；最后，利用损失函数计算所述预测文本和所述真实文本的损失值，根据所述损失值调整所述深层语音识别模型的参数，利用所述训练完成的深层语音识别模型识别获取的待识别的语音序列流，得到语音序列识别结果，仅使用一个模型即可完成语音识别，有效降低成本并提高语音识别效率，且该模型可以通过自主训练不断提高语音识别的准确率。因此本发明实施例提出的基于深度学习的语音识别方法可以提高语音识别的效率和准确率。
[0109]
如图2所示，是本发明基于深度学习的语音识别装置的功能模块图。
[0110]
本发明所述基于深度学习的语音识别装置100可以安装于电子设备中。根据实现的功能，所述基于深度学习的语音识别装置可以包括语音序列流获取模块101、语音序列流向量化模块102、语音序列流矩阵编码模块103、语音序列流矩阵解码模块104、模型训练完
成模块105、语音序列流识别模块106，本发所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。
[0111]
在本实施例中，关于各模块/单元的功能如下：
[0112]
所述语音序列流获取模块101，用于获取训练数据，所述训练数据包括语音序列流和对应的真实文本。
[0113]
本发明实施例中，该训练用的语音序列流是指将用户输入的多条语音数据作为训练数据，且该语音是由连续的帧信号组成的，该语音序列流的获取可以通过app的后台获取用户发出的实时语音；该训练用的语音序列流对应的真实文本是将语音序列流通过预设系统进行翻译并经过校验，得到的文本内容。
[0114]
本发明实施例中，可以先对语音序列流进行端点检测，将杂乱无规律的语音序列流转化为有规律的语音序列，其中，端点检测是指对语音序列进行信号时域分析，判断该语音序列流是有声段还是无声段。
[0115]
本发明实施例中，由于语音序列流中的语音序列是一种非平稳的时变信号，它携带着各种信息，例如背景噪声、人声等，在获取训练用的语音序列流后，对所述语音序列流进行预处理操作，以提取只包含人声的语音。
[0116]
详细地，所述语音序列流获取模块还用于：
[0117]
对所述语音序列流进行预加重操作，采用加窗的方法对预加重后的所述语音序列流进行分帧，以筛选出所述语音序列流中的背景声，得到只包含人声的待训练的语音序列流。
[0118]
本发明一实施例中，进行预加重操作可以增强语音数据的高分辨率。
[0119]
较佳地，所述加窗的方法为：汉明窗加窗法。
[0120]
所述语音序列流向量化模块102，用于利用预构建的深层语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取，得到流式语音特征序列向量集。
[0121]
本发明实施例中，所述预构建的深层语音识别模型是基于神经网络构建的语音识别模型，可以基于transformer结构构建，其中，深层语音识别模型包括：二维注意力机制层、编码层、解码层及损失函数。
[0122]
详细地，所述语音序列流向量化模块102通过执行下述操作利用预构建的深层语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取，得到流式语音特征序列向量集，包括：
[0123]
将所述语音序列流转换为时间和频率的二维频谱图；
[0124]
利用所述深层语音识别模型中的二维注意力机制层对所述二维频谱图执行卷积操作，得到流式语音特征序列向量集。
[0125]
本发明实施例中，所述二维注意力机制层与一般的注意力机制层相比，该机制同时关注语音序列流的时间和频率，并且根据说话人发音时不同频率的时间变换进行预测，且该机制对输入的语音序列流进行卷积处理，使输入的语音序列流的长度进行缩减且语音序列流对应的信息密度增强，从而得到更加准确的声学特征。
[0126]
所述语音序列流矩阵编码模块103，用于将所述流式语音特征序列向量集转化为流式语音序列向量矩阵，利用所述深层语音识别模型中的编码层对所述流式语音序列向量
矩阵进行编码，得到流式语音序列关联矩阵。
[0127]
本发明实施例中，所述流式语音序列向量矩阵是由流式语音特征序列向量集拼接而成的矩阵；所述流式语音序列关联矩阵是包含所述流式语音特征序列向量集的上下字符语义特征的矩阵，且所述流式语音序列向量矩阵和所述流式语音序列关联矩阵的维度一致。
[0128]
例如，所述流式语音序列向量矩阵的维度为m
×
n，则所述流式语音序列关联矩阵的维度也为m
×
n。
[0129]
本发明实施例中，利用所述语音序列向量矩阵的维度，将语音序列向量矩阵拆分成中心转换矩阵、关联转换矩阵和权重转换矩阵，例如，语音序列向量矩阵为m
×
n，则可按照m
×
s、s
×
t、t
×
n执行拆分，分别得到m
×
s维度的中心转换矩阵、s
×
t维度的关联转换矩阵及t
×
n维度的权重转换矩阵。
[0130]
详细地，所述编码层包括：缩放点乘注意力机制层、残差连接层及全连接层，所述语音序列流矩阵编码模块103通过执行下述操作利用所述深层语音识别模型中的编码层对所述流式语音特征序列向量集进行编码，得到流式语音序列关联矩阵，包括：
[0131]
利用所述缩放点乘注意力机制层将所述流式语音序列向量矩阵拆分为中心转换矩阵、关联转换矩阵和权重转换矩阵；
[0132]
将所述流式语音序列向量矩阵分别和所述中心转换矩阵、所述关联转换矩阵和所述权重转换矩阵进行点乘，得到中心向量矩阵、关联向量矩阵和权重向量矩阵；
[0133]
将所述中心向量矩阵、所述关联向量矩阵和所述权重向量矩阵进行组合，并将组合后的组合矩阵输入至预设的激活函数，得到激活函数输出的流式语音序列矩阵；
[0134]
利用所述残差连接层中的残差函数，将流式语音序列向量矩阵和流式语音序列矩阵进行连接，以及将连接的所述流式语音序列向量矩阵和所述流式语音序列矩阵输入至所述全连接层中，得到全连接层输出的流式语音序列关联矩阵。
[0135]
本发明实施例中，所述缩放点乘注意力机制该机制更加关注局部的特征，以保证在后续操作中重要特征不会丢失，且该机制分布在预设的多头注意力机制下，还可以使模型在不同的表示子空间中获得不同位置的相同输入的注意力信息，且该多头注意力机制可以并行计算，进而提高该模型的性能和训练速度。
[0136]
本发明一实施例中，利用所述残差连接层连接所述流式语音序列向量矩阵和所述流式语音序列矩阵，可以确保在模型学习的过程中原始语音序列流的主要特征不会丢失，得到包括原始语音序列流特征的流式语音序列关联矩阵。
[0137]
较佳地，所述残差函数可为layer add函数。
[0138]
本发明一可选实施例中，所述流式语音序列关联矩阵的计算过程如下：
[0139][0140]
其中，softmax是指所述预设的激活函数，q是指所述中心转换矩阵，k
t
是指所述关联转换矩阵，dk是指所述关联转换矩阵的维度，v是指所述权重转换矩阵，attention(q,k,v)是指所述语音特征关联矩阵。
[0141]
进一步地，所述得到全连接层输出的流式语音序列关联矩阵之后，所述方法还包括：
[0142]
将所述流式语音序列关联矩阵进行归一化处理，得到归一化后的流式语音序列关联矩阵。
[0143]
较佳地，所述归一化处理可通过layer normalization函数实现。
[0144]
本发明实施例中，对流式语音序列关联矩阵进行归一化处理，可以去掉流式语音序列关联矩阵中一些较大的值，便于后续模型对所述流式语音序列关联矩阵进行调节，加快该模型的训练速度。
[0145]
所述语音序列流矩阵解码模块104，用于利用所述深层语音识别模型中的解码层对所述流式语音序列关联矩阵进行解码，得到所述语音序列流的预测文本。
[0146]
本发明实施例中，所述解码层的作用是将编码层得到的固定长度矩阵还原成对应的语音序列数据。
[0147]
详细地，所述解码层包括：掩蔽多头注意力机制层、残差连接层及全连接层，所述语音序列流矩阵解码模块104通过执行下述操作利用所述深层语音识别模型中的解码层对所述流式语音序列关联矩阵进行解码，得到所述语音序列流的预测文本，包括：
[0148]
利用所述掩蔽多头注意力机制层对所述流式语音序列关联矩阵进行部分掩码，得到遮蔽流式语音序列矩阵；
[0149]
利用所述残差连接层将所述遮蔽流式语音序列矩阵和流式语音序列关联矩阵进行连接，得到连接流式语音序列矩阵；
[0150]
将所述连接流式语音序列矩阵输入至全连接层中，得到所述语音序列流的预测文本。
[0151]
本发明实施例中，使用掩蔽多头注意力机制层(masked multi-head attention)主要目的是帮助当前节点获取到当前需要关注的重要内容，遮蔽的内容是真实标签序列中当前结点之后的文本标签，且利用掩蔽多头注意力机制层可以使得输入语音特征的干净部分和噪声部分有较为明显的区分，进而对噪声部分进行掩蔽处理，能够更有效地抑制噪声，进一步提高预测文本的准确率。
[0152]
本发明一实施例中，所述预测文本可通过下列激活函数公式得到：
[0153][0154]
其中，relu(z
′
)表示预测文本，z表示连接流式语音序列矩阵的特征信息，e表示无限不循环小数。
[0155]
所述模型训练完成模块105，用于利用所述深层语音识别模型中的损失函数计算所述预测文本和所述真实文本的损失值，根据所述损失值调整所述深层语音识别模型的参数，直到所述损失值满足预设条件时，得到训练完成的深层语音识别模型。
[0156]
本发明实施例中，所述预设条件可以根据所述实际模型训练场景设置，例如，预设条件可以为所述损失值小于预设阈值。
[0157]
本发明实施例中，所述损失函数包括交叉熵(cross entropy)函数。
[0158]
详细地，所述利用所述深层语音识别模型中的损失函数计算所述预测文本和所述真实文本的损失值，包括：
[0159]
利用下述损失函数计算所述预测文本与所述真实文本的损失值：
[0160][0161]
其中，l(s)表示损失值，k表示预测文本的数量，yi表示第i个预测文本，y
′i表示第i个真实文本。
[0162]
本发明一可选实施例中，所述根据所述损失值调整所述深层语音识别模型的参数可通过如下的随机下降梯度算法实现：
[0163][0164]
其中，l(θ)表示调整的参数，m表示流式语音序列关联矩阵的数量，l(s)表示损失值，f(x
i,j
,θ)表示下降函数，θ表示学习率，x
i,j
和y
i,j
表示流式语音序列关联矩阵的横纵坐标位置。
[0165]
所述语音序列流识别模块106，用于利用所述训练完成的深层语音识别模型进行语音识别。
[0166]
本发明实施例中，利用所述训练完成的深层语音识别模型对获取到的待识别语音序列流进行识别，该获取到的待识别语音序列流是指用户输入的实时语音数据，可以通过app的后台获取用户发出的实时语音。
[0167]
本发明实施例中，利用所述训练完成的深层语音识别模型可以识别到待识别语音序列流有声段的部分，并且将有声段的部分实时转化为语音序列流对应的文本内容。
[0168]
例如，待识别的语音序列流可以是用户通过聊天工具发出的实时语音序列，可以利用该模型实时识别出该语音序列对应的文本。
[0169]
本发明实施例中，首先获取训练用的语音序列流和对应的真实文本；其次，利用预构建的深层基于深度学习的语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取，得到流式语音特征序列向量集，通过增加二维注意力机制层可以使得语音序列流的长度进行缩减且对应的信息密度增强，得到更加准确的声学特征，并提高语音识别的响应速率；进一步，利用编码层对所述流式语音序列向量矩阵进行编码，得到流式语音序列关联矩阵，利用解码层对所述流式语音序列关联矩阵进行解码，得到所述语音序列流的预测文本，可以加强特征之间的关联；最后，利用损失函数计算所述预测文本和所述真实文本的损失值，根据所述损失值调整所述深层语音识别模型的参数，利用所述训练完成的深层语音识别模型识别获取的待识别的语音序列流，得到语音序列识别结果，仅使用一个模型即可完成语音识别，有效降低成本并提高语音识别效率，且该模型可以通过自主训练不断提高语音识别的准确率。因此本发明实施例提出的基于深度学习的语音识别装置可以提高语音识别的效率和准确率。
[0170]
如图3所示，是本发明实现基于深度学习的语音识别方法的电子设备的结构示意图。
[0171]
所述电子设备可以包括处理器10、存储器11、通信总线12和通信接口13，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如基于深度学习的语音识别程序。
[0172]
其中，所述存储器11至少包括一种类型的介质，所述介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：sd或dx存储器等)、磁性存储器、本地磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元，例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备，例如电子设备上配备的插接式移动硬盘、智能存储卡(smart media card，smc)、安全数字(secure digital，sd)卡、闪存卡(flash card)等。进一步地，所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据，例如基于深度学习的语音识别程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。
[0173]
所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(central processing unit，cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如基于深度学习的语音识别程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备的各种功能和处理数据。
[0174]
所述通信总线12可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述通信总线12总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0175]
图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3示出的结构并不构成对所述电子设备的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。
[0176]
例如，尽管未示出，所述电子设备还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi-fi模块等，在此不再赘述。
[0177]
可选地，所述通信接口13可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等)，通常用于在该电子设备与其他电子设备之间建立通信连接。
[0178]
可选地，所述通信接口13还可以包括用户接口，用户接口可以是显示器(display)、输入单元(比如键盘(keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
[0179]
应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。
[0180]
所述电子设备中的所述存储器11存储的基于深度学习的语音识别程序是多个计算机程序的组合，在所述处理器10中运行时，可以实现：
[0181]
获取训练数据，所述训练数据包括语音序列流和对应的真实文本；
[0182]
利用预构建的深层语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取，得到流式语音特征序列向量集；
[0183]
将所述流式语音特征序列向量集转化为流式语音序列向量矩阵，利用所述深层语音识别模型中的编码层对所述流式语音序列向量矩阵进行编码，得到流式语音序列关联矩阵；
[0184]
利用所述深层语音识别模型中的解码层对所述流式语音序列关联矩阵进行解码，得到所述语音序列流的预测文本；
[0185]
利用所述深层语音识别模型中的损失函数计算所述预测文本和所述真实文本的损失值，根据所述损失值调整所述深层语音识别模型的参数，直到所述损失值满足预设条件时，得到训练完成的深层语音识别模型；
[0186]
利用所述训练完成的深层语音识别模型进行语音识别。
[0187]
具体地，所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。
[0188]
进一步地，所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取介质中。所述计算机可读介质可以是非易失性的，也可以是易失性的。所述计算机可读介质可以包括：能够携待所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)。
[0189]
本发明实施例还可以提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：
[0190]
获取训练数据，所述训练数据包括语音序列流和对应的真实文本；
[0191]
利用预构建的深层语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取，得到流式语音特征序列向量集；
[0192]
将所述流式语音特征序列向量集转化为流式语音序列向量矩阵，利用所述深层语音识别模型中的编码层对所述流式语音序列向量矩阵进行编码，得到流式语音序列关联矩阵；
[0193]
利用所述深层语音识别模型中的解码层对所述流式语音序列关联矩阵进行解码，得到所述语音序列流的预测文本；
[0194]
利用所述深层语音识别模型中的损失函数计算所述预测文本和所述真实文本的损失值，根据所述损失值调整所述深层语音识别模型的参数，直到所述损失值满足预设条件时，得到训练完成的深层语音识别模型；
[0195]
利用所述训练完成的深层语音识别模型进行语音识别。
[0196]
进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。
[0197]
在本发明所提供的几个实施例中，应该理解到，所揭露的介质、设备、装置和方法，
可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
[0198]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0199]
另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。
[0200]
对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。
[0201]
因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0202]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0203]
此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。
[0204]
最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

技术特征：
1.一种基于深度学习的语音识别方法，其特征在于，所述方法包括：获取训练数据，所述训练数据包括语音序列流和对应的真实文本；利用预构建的深层语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取，得到流式语音特征序列向量集；将所述流式语音特征序列向量集转化为流式语音序列向量矩阵，利用所述深层语音识别模型中的编码层对所述流式语音序列向量矩阵进行编码，得到流式语音序列关联矩阵；利用所述深层语音识别模型中的解码层对所述流式语音序列关联矩阵进行解码，得到所述语音序列流的预测文本；利用所述深层语音识别模型中的损失函数计算所述预测文本和所述真实文本的损失值，根据所述损失值调整所述深层语音识别模型的参数，直到所述损失值满足预设条件时，得到训练完成的深层语音识别模型；利用所述训练完成的深层语音识别模型进行语音识别。2.如权利要求1所述的基于深度学习的语音识别方法，其特征在于，所述利用预构建的深层语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取，得到流式语音特征序列向量集，包括：将所述语音序列流转换为时间和频率的二维频谱图；利用所述深层语音识别模型中的二维注意力机制层对所述二维频谱图执行卷积操作，得到流式语音特征序列向量集。3.如权利要求1所述的基于深度学习的语音识别方法，其特征在于，所述编码层包括：缩放点乘注意力机制层、残差连接层及全连接层，所述利用所述深层语音识别模型中的编码层对所述流式语音特征序列向量集进行编码，得到流式语音序列关联矩阵，包括：利用所述缩放点乘注意力机制层将所述流式语音序列向量矩阵拆分为中心转换矩阵、关联转换矩阵和权重转换矩阵；将所述流式语音序列向量矩阵分别和所述中心转换矩阵、所述关联转换矩阵和所述权重转换矩阵进行点乘，得到中心向量矩阵、关联向量矩阵和权重向量矩阵；将所述中心向量矩阵、所述关联向量矩阵和所述权重向量矩阵进行组合，并将组合后的组合矩阵输入至预设的激活函数，得到激活函数输出的流式语音序列矩阵；利用所述残差连接层中的残差函数，将流式语音序列向量矩阵和流式语音序列矩阵进行连接，以及将连接的所述流式语音序列向量矩阵和所述流式语音序列矩阵输入至所述全连接层中，得到全连接层输出的流式语音序列关联矩阵。4.如权利要求3所述的基于深度学习的语音识别方法，其特征在于，所述得到全连接层输出的流式语音序列关联矩阵之后，所述方法还包括：将所述流式语音序列关联矩阵进行归一化处理，得到归一化后的流式语音序列关联矩阵。5.如权利要求1所述的基于深度学习的语音识别方法，其特征在于，所述解码层包括：掩蔽多头注意力机制层、残差连接层及全连接层，所述利用所述深层语音识别模型中的解码层对所述流式语音序列关联矩阵进行解码，得到所述语音序列流的预测文本，包括：利用所述掩蔽多头注意力机制层对所述流式语音序列关联矩阵进行部分掩码，得到遮蔽流式语音序列矩阵；
利用所述残差连接层将所述遮蔽流式语音序列矩阵和流式语音序列关联矩阵进行连接，得到连接流式语音序列矩阵；将所述连接流式语音序列矩阵输入至全连接层中，得到所述语音序列流的预测文本。6.如权利要求1所述的基于深度学习的语音识别方法，其特征在于，所述利用所述深层语音识别模型中的损失函数计算所述预测文本和所述真实文本的损失值，包括：利用下述损失函数计算所述预测文本与所述真实文本的损失值：其中，l(s)表示损失值，k表示预测文本的数量，y
i
表示第i个预测文本，y
i
′
表示第i个真实文本。7.如权利要求1所述的基于深度学习的语音识别方法，其特征在于，所述获取训练数据之后，所述方法还包括：对所述语音序列流进行预加重操作，采用加窗的方法对预加重后的所述语音序列流进行分帧，以筛选出所述语音序列流中的背景声，得到只包含人声的语音序列流。8.一种基于深度学习的语音识别装置，其特征在于，所述装置包括：语音序列流获取模块，用于获取训练数据，所述训练数据包括语音序列流和对应的真实文本；语音序列流向量化模块，用于利用预构建的深层语音识别模型中的二维注意力机制层对所述语音序列流进行特征提取，得到流式语音特征序列向量集；语音序列流矩阵编码模块，用于将所述流式语音特征序列向量集转化为流式语音序列向量矩阵，利用所述深层语音识别模型中的编码层对所述流式语音序列向量矩阵进行编码，得到流式语音序列关联矩阵；语音序列流矩阵解码模块，用于利用所述深层语音识别模型中的解码层对所述流式语音序列关联矩阵进行解码，得到所述语音序列流的预测文本；模型训练完成模块，用于利用所述深层语音识别模型中的损失函数计算所述预测文本和所述真实文本的损失值，根据所述损失值调整所述深层语音识别模型的参数，直到所述损失值满足预设条件时，得到训练完成的深层语音识别模型；语音序列流识别模块，用于利用所述训练完成的深层语音识别模型进行语音识别。9.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的基于深度学习的语音识别方法。10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于深度学习的语音识别方法。

技术总结
本发明涉及语音处理领域，揭露一种基于深度学习的语音识别方法，包括：利用预构建的深层语音识别模型对待训练的语音序列流进行特征提取，得到流式语音特征序列向量集；对向量集转化的流式语音序列向量矩阵进行编码，得到流式语音序列关联矩阵；对流式语音序列关联矩阵进行解码，得到预测文本；计算预测文本和真实文本的损失值，根据损失值调整该模型的参数，得到训练完成的深层语音识别模型；利用该模型进行语音识别。本发明还涉及一种区块链技术，语音序列识别结果可以存储在区块链节点中。本发明还提出一种基于深度学习的语音识别装置、设备以及介质。本发明可以提高语音识别的效率和准确性。的效率和准确性。的效率和准确性。

技术研发人员：黄石磊汪雪程刚陈诚
受保护的技术使用者：深圳市北科瑞声科技股份有限公司
技术研发日：2021.11.12
技术公布日：2022/3/8

专利

最新回复(0)