1.本技术涉及语音处理技术领域,更具体的说,是涉及一种语音识别方法、相关设备及可读存储介质。
背景技术:
2.随着人工智能的发展,语音识别已经渗透到人们生活的方方面面。目前,通用语音识别已经达到很高的水平,但其在特殊词汇、专业术语、专有名词等方面的识别效果仍有待进一步提升,这些词汇往往是用户使用的高频词,即:热词。热词具有用户特性,用户对热词的识别容错率非常低,因此,热词的识别效果提升是用户非常期待的。为了能够提升对热词的识别效果,可获取用户的热词,在进行语音识别时,利用热词辅助识别。
3.目前,在进行语音识别时,利用热词辅助识别,具体指的是,利用解码网络对语音信号进行解码,实现对热词的激励,提升识别结果中热词的召回率,进而提升对热词的识别效果。但是,这种方式需要解码网络进行两次解码,导致识别热词的效率低下。
4.因此,如何提升热词的识别效率,成为本领域技术人员亟待解决的技术问题。
技术实现要素:
5.鉴于上述问题,本技术提出了一种语音识别方法、相关设备及可读存储介质。具体方案如下:
6.一种语音识别方法,所述方法包括:
7.获取待识别的语音信号;
8.获取预先构建的解码网络,所述解码网络包括主解码网络以及热词解码网络;
9.利用所述解码网络对所述语音信号进行解码,在解码过程中,利用所述热词解码网络对所述语音信号进行热词激励,得到对应的语音识别文本。
10.可选地,所述解码网络的构建方法包括:
11.构建主解码网络,所述主解码网络中包括至少一个槽位,每个所述槽位位于两个节点之间;
12.获取第一热词列表,所述第一热词列表中包括一个或多个第一热词;
13.基于所述第一热词列表,构建热词解码网络,所述热词解码网络中包括多个分支,分支的数量与所述第一热词列表中第一热词的数量相同,每个分支头部和尾部的弧为静音弧;
14.针对所述主解码网络中的每个槽位,将所述热词解码网络插入所述槽位中,生成解码网络。
15.可选地,所述将所述热词解码网络插入所述槽位中,包括:
16.针对所述热词解码网络中每个分支,将所述热词解码网络中各个分支头部和尾部的静音弧拆除;
17.将所述分支头部的实弧对应的三音素中的第一个音素设置为所述主解码网络中
所述槽位之前的首个实弧对应的三音素中的最后一个音素,将所述分支尾部的实弧对应的三音素中的最后一个音素设置为所述主解码网络中所述槽位之后的首个实弧对应的三音素中的第一个音素;
18.将所述分支头部的实弧与所述主解码网络中所述槽位之前的首个节点连接,将所述分支尾部的实弧与所述主解码网络中所述槽位之后的首个节点连接。
19.可选地,所述利用所述解码网络对所述语音信号进行解码,在解码过程中,利用所述热词解码网络对所述语音信号进行热词激励,得到对应的语音识别文本,包括:
20.获取所述热词解码网络对应槽位的激励分数;
21.针对所述语音信号中每个语音信号帧,根据所述解码网络对所述语音信号帧进行解码,在解码过程中,根据所述热词解码网络对应槽位的激励分数对在所述热词解码网络中的解码令牌的得分进行激励;
22.在完成对最后一帧语音信号帧解码后,选择具有最大得分的解码令牌,回溯得到语音识别文本。
23.可选地,根据所述解码网络对所述语音信号帧进行解码,在解码过程中,根据所述热词解码网络对应槽位的激励分数对在所述热词解码网络中的解码令牌的得分进行激励,包括:
24.确定当前活跃解码令牌;
25.针对每个当前活跃解码令牌,将所述当前活跃解码令牌在所述解码网络中进行传递,全部活跃解码令牌传递完毕之后,得到当前语音信号帧对应的全部解码令牌,其中,在所述热词解码网络中传递过的解码令牌的得分包括所述热词解码网络对应槽位的激励分数;
26.从所述当前语音信号帧对应的全部解码令牌中,确定所述当前语音信号帧对应的活跃解码令牌,作为当前活跃解码令牌。
27.可选地,当所述当前语音信号帧对应的全部解码令牌均在所述主解码网络时,所述从所述当前语音信号帧对应的全部解码令牌中,确定所述当前语音信号帧对应的活跃解码令牌,包括:
28.从所述当前语音信号帧对应的全部解码令牌中,确定得分排名靠前的预设数量个解码令牌,作为所述当前语音信号帧对应的活跃解码令牌。
29.可选地,当所述当前语音信号帧对应的解码令牌中,包括在所述热词解码网络的解码令牌时,所述从所述当前语音信号帧对应的全部解码令牌中,确定所述当前语音信号帧对应的活跃解码令牌,包括:
30.从所述当前语音信号帧对应的全部解码令牌中,确定第一解码令牌集合以及第二解码令牌集合;将所述第一解码令牌集合以及所述第二解码令牌集合中的解码令牌,确定为所述当前语音信号帧对应的活跃解码令牌;
31.其中,所述第一解码令牌集合包括在所述主解码网络的解码令牌中,得分排名靠前的预设数量个解码令牌;
32.所述第二解码令牌集合包括在所述热词解码网络的解码令牌中,得分排名靠前的预设数量个解码令牌。
33.可选地,在所述利用所述解码网络对所述语音信号进行解码,在解码过程中,利用
所述热词解码网络对所述语音信号进行热词激励,得到对应的语音识别文本之后,所述方法还包括:
34.获取预先确定的文法规则,所述文法规则用于指示第二热词列表中每个第二热词的句式信息;
35.根据所述文法规则对所述语音识别文本中包含的第二热词的句式进行优化。
36.可选地,所述主解码网络为加权有限状态转换器wfst网络;所述热词解码网络为有限状态自动机fsa网络。
37.一种语音识别装置,所述装置包括:
38.语音信号获取单元,用于获取待识别的语音信号;
39.解码网络获取单元,用于获取预先构建的解码网络,所述解码网络包括主解码网络以及热词解码网络;
40.识别单元,用于利用所述解码网络对所述语音信号进行解码,在解码过程中,利用所述热词解码网络对所述语音信号进行热词激励,得到对应的语音识别文本。
41.可选地,所述装置包括,解码网络构建单元,所述解码网络构建单元包括:
42.主解码网络构建单元,用于构建主解码网络,所述主解码网络中包括至少一个槽位,每个所述槽位位于两个节点之间;
43.第一热词列表获取单元,用于获取第一热词列表,所述第一热词列表中包括一个或多个第一热词;
44.热词解码网络构建单元,用于基于所述第一热词列表,构建热词解码网络,所述热词解码网络中包括多个分支,分支的数量与所述第一热词列表中第一热词的数量相同,每个分支头部和尾部的弧为静音弧;
45.解码网络生成单元,用于针对所述主解码网络中的每个槽位,将所述热词解码网络插入所述槽位中,生成解码网络。
46.可选地,所述解码网络生成单元,,包括:
47.拆除单元,用于针对所述热词解码网络中每个分支,将所述热词解码网络中各个分支头部和尾部的静音弧拆除;
48.设置单元,用于将所述分支头部的实弧对应的三音素中的第一个音素设置为所述主解码网络中所述槽位之前的首个实弧对应的三音素中的最后一个音素,将所述分支尾部的实弧对应的三音素中的最后一个音素设置为所述主解码网络中所述槽位之后的首个实弧对应的三音素中的第一个音素;
49.连接单元,用于将所述分支头部的实弧与所述主解码网络中所述槽位之前的首个节点连接,将所述分支尾部的实弧与所述主解码网络中所述槽位之后的首个节点连接。
50.可选地,所述识别单元,包括:
51.激励分数获取单元,用于获取所述热词解码网络对应槽位的激励分数;
52.激励单元,用于针对所述语音信号中每个语音信号帧,根据所述解码网络对所述语音信号帧进行解码,在解码过程中,根据所述热词解码网络对应槽位的激励分数对在所述热词解码网络中的解码令牌的得分进行激励;
53.回溯单元,用于在完成对最后一帧语音信号帧解码后,选择具有最大得分的解码令牌,回溯得到语音识别文本。
54.可选地,所述激励单元,包括:
55.令牌确定单元,用于确定当前活跃解码令牌;
56.全部解码令牌确定单元,用于针对每个当前活跃解码令牌,将所述当前活跃解码令牌在所述解码网络中进行传递,全部活跃解码令牌传递完毕之后,得到当前语音信号帧对应的全部解码令牌,其中,在所述热词解码网络中传递过的解码令牌的得分包括所述热词解码网络对应槽位的激励分数;
57.活跃解码令牌确定单元,用于从所述当前语音信号帧对应的全部解码令牌中,确定所述当前语音信号帧对应的活跃解码令牌,作为当前活跃解码令牌。
58.可选地,当所述当前语音信号帧对应的全部解码令牌均在所述主解码网络时,所述活跃解码令牌确定单元,具体用于:
59.从所述当前语音信号帧对应的全部解码令牌中,确定得分排名靠前的预设数量个解码令牌,作为所述当前语音信号帧对应的活跃解码令牌。
60.可选地,当所述当前语音信号帧对应的解码令牌中,包括在所述热词解码网络的解码令牌时,所述活跃解码令牌确定单元,具体用于:
61.从所述当前语音信号帧对应的全部解码令牌中,确定第一解码令牌集合以及第二解码令牌集合;将所述第一解码令牌集合以及所述第二解码令牌集合中的解码令牌,确定为所述当前语音信号帧对应的活跃解码令牌;
62.其中,所述第一解码令牌集合包括在所述主解码网络的解码令牌中,得分排名靠前的预设数量个解码令牌;
63.所述第二解码令牌集合包括在所述热词解码网络的解码令牌中,得分排名靠前的预设数量个解码令牌。
64.可选地,所述装置还包括:
65.文法规则获取单元,用于在所述利用所述解码网络对所述语音信号进行解码,在解码过程中,利用所述热词解码网络对所述语音信号进行热词激励,得到对应的语音识别文本之后,获取预先确定的文法规则,所述文法规则用于指示第二热词列表中每个第二热词的句式信息;
66.优化单元,用于根据所述文法规则对所述语音识别文本中包含的第二热词的句式进行优化。
67.可选地,所述主解码网络为加权有限状态转换器wfst网络;所述热词解码网络为有限状态自动机fsa网络。
68.一种语音识别设备,包括存储器和处理器;
69.所述存储器,用于存储程序;
70.所述处理器,用于执行所述程序,实现如上所述的语音识别方法的各个步骤。
71.一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的语音识别方法的各个步骤。
72.借由上述技术方案,本技术公开了一种语音识别方法、相关设备及可读存储介质。该方案中,通过预先构建一个解码网络,该解码网络包括主解码网络以及插入在该主解码网络中的热词解码网络,在获取待识别的语音信号之后,利用该解码网络对该语音信号进行解码,并在解码过程中,利用该热词解码网络对该语音信号进行热词激励,得到对应的语
音识别文本。基于该方案,只需对语音信号进行一次解码处理,即可实现对热词的激励,因此,该方案能够提升热词的识别效率。
附图说明
73.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
74.图1为本技术实施例公开的语音识别方法的流程示意图;
75.图2为本技术实施例公开的一种解码网络结构示意图;
76.图3为本技术实施例公开的一种主解码网络结构示意图;
77.图4为本技术实施例公开的一种热词解码网络结构示意图;
78.图5为本技术实施例公开的一种解码网络结构示意图;
79.图6为本技术实施例公开的一种热词解码网络头部实弧设置示意图;
80.图7为本技术实施例公开的一种语音识别装置结构示意图;
81.图8为本技术实施例公开的一种语音识别设备的硬件结构框图。
具体实施方式
82.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
83.接下来,通过下述实施例对本技术提供的语音识别方法进行介绍。
84.参照图1,图1为本技术实施例公开的语音识别方法的流程示意图,该方法可以包括:
85.步骤s101:获取待识别的语音信号。
86.在本技术中,待识别的语音信号可以为任意场景下的语音信号。对此,本技术不进行任何限定。另外,待识别的语音信号可以为通过语音采集设备,如麦克风等,采集得到的原始语音信号,也可以为对原始语音信号进行预处理(如,语音增强等)之后得到的语音信号,对此,本技术也不进行任何限定。
87.步骤s102:获取预先构建的解码网络,所述解码网络包括主解码网络以热词解码网络。
88.由于目前通用的解码网络为基于已经训练好的声学模型、语言模型及发音词典来构建的wfst(weighted finite-state transducers,加权有限状态转换器)网络,而fsa(finite-state automation,有限状态自动机)边上的label只有输入,不带权重,更适合用于热词场景。因此,作为一种可实施方式,在本技术中,所述主解码网络为wfst网络;所述热词解码网络为fsa网络。
89.需要说明的是,本技术的主解码网络以及热词解码网络在构建时需要进行特定处理,以便实现将热词解码网络融入到主解码网络中,得到一个完整的解码网络,具体处理方式将通过后面的实施例详细说明,本实施例不再展开描述。
90.步骤s103:利用所述解码网络对所述语音信号进行解码,在解码过程中,利用所述热词解码网络对所述语音信号进行热词激励,得到对应的语音识别文本。
91.在本技术中,可以预设热词解码网络的激励分数,在解码过程中,基于热词解码网络的激励分数对所述语音信号进行热词激励,这种情况下,语音识别文本中热词的召回率会有所提高。利用热词解码网络对语音信号进行热词激励的具体实现方式,将通过后面的实施例详细说明,本实施例不再展开描述。
92.在本实施例中,公开了一种语音识别方法,该方法中,通过预先构建一个解码网络,该解码网络包括主解码网络以及热词解码网络,在获取待识别的语音信号之后,利用该解码网络对该语音信号进行解码,并在解码过程中,利用该热词解码网络对该语音信号进行热词激励,得到对应的语音识别文本。基于该方案,只需对语音信号进行一次解码处理,即可实现对热词的激励,因此,该方法能够提升热词的识别效率。
93.需要说明的是,为便于理解,在后面的实施例中,以主解码网络为wfst网络,热词解码网络为fsa网络为例对整个方案进行详细说明,但是,基于本技术的思想,基于其他形式的两种网络得到的解码网络,也在本技术的保护范围内。
94.在本技术的另一个实施例中,对所述解码网络的构建方法进行了详细介绍。该方法可以包括以下步骤:
95.步骤s201:构建主解码网络,所述主解码网络中包括至少一个槽位,每个所述槽位位于两个节点之间。
96.在本技术中,可以在主解码网络模型资源打包的过程中预留出至少一个槽位,其余部分与正常模型资源打包的过程一样,在构建主解码网络时,语音识别引擎可以读取主解码网络模型资源,并以此重建得到主解码网络,该主解码网络中包括至少一个槽位,每个所述槽位位于两个节点之间。
97.步骤s202:获取第一热词列表,所述第一热词列表中包括一个或多个第一热词。
98.在语音识别领域中,热词一般分为两种,一种是全局热词,全局热词通常不跟随固定句式出现,其可以出现在一句话中的任意部分,另一种是局部热词,局部热词往往跟随固定句式出现。在本技术中,第一热词列表可以为全局热词列表。
99.步骤s203:基于所述第一热词列表,构建热词解码网络。
100.在本技术中,所述热词解码网络中包括多个分支,分支的数量与所述第一热词列表中第一热词的数量相同,每个分支头部和尾部的弧为静音弧。
101.步骤s204:针对所述主解码网络中的每个槽位,将所述热词解码网络插入所述槽位中,生成解码网络。
102.参照图2,图2为本技术实施例公开的一种解码网络结构示意图,如图2所示,主解码网络中节点5和节点6之间有一个槽位,即图中所示的$reserve,热词解码网络插入至该槽位中。热词解码网络中包括50个分支,即图中所示的fsa1、fsa2、
……
、fsa50,每个分支头部和尾部包括一条弧,该条弧为静音弧(sil弧)。
103.在本技术的另一个实施例中,对将所述热词解码网络插入所述槽位中的实现方式进行了详细介绍,该方式可以包括以下步骤:
104.步骤s301:针对所述热词解码网络中每个分支,将所述热词解码网络中各个分支头部和尾部的静音弧拆除。
105.步骤s302:将所述分支头部的实弧对应的三音素中的第一个音素设置为所述主解码网络中所述槽位之前的首个实弧对应的三音素中的最后一个音素,将所述分支尾部的实弧对应的三音素中的最后一个音素设置为所述主解码网络中所述槽位之后的首个实弧对应的三音素中的第一个音素。
106.需要说明的是,在本技术中,所述主解码网络与所述热词解码网络的建模粒度相同,由于目前常用的声学模型的建模粒度为三音素,则本技术中,所述主解码网络与所述热词解码网络的建模粒度均为三音素,则所述主解码网络中每个实弧对应三音素,热词解码网络中每个分支对应一个第一热词的三音素。
107.需要说明的是,在将所述分支头部的实弧对应的三音素中的第一个音素设置为所述主解码网络中所述槽位之前的首个实弧对应的三音素中的最后一个音素,将所述分支尾部的实弧对应的三音素中的最后一个音素设置为所述主解码网络中所述槽位之后的首个实弧对应的三音素中的第一个音素时,需要对分支中的节点或弧的数量进行调整,比如增加节点和/或弧、删除节点和/或弧。
108.步骤s303:将所述分支头部的实弧与所述主解码网络中所述槽位之前的首个节点连接,将所述分支尾部的实弧与所述主解码网络中所述槽位之后的首个节点连接。
109.为了便于理解,在本技术中给出了一种解码网络的构建示例,具体如下:
110.参照图3,图3为本技术实施例公开的一种主解码网络结构示意图,该主解码网络是基于句子“ring xxx on”构建的,该主解码网络中包含两个槽位,即图中所示的$reserve1和$reserve2。
111.参照图4,图4为本技术实施例公开的一种热词解码网络结构示意图,该热词解码网络是基于“rhylee”、“luca”这两个第一热词构建的。
112.参照图5,图5为本技术实施例公开的一种解码网络结构示意图,该解码网络是将图4所示的热词解码网络插入图3所示的主解码网络中的$reserve1和$reserve2得到的。如图5所示,在将图4所示的热词解码网络插入图3所示的主解码网络中的$reserve2时,热词解码网络的每个入口节点前方、每个出口节点的后方(图中未展示),需新增两条弧和一个节点。
113.参照图6,图6为本技术实施例公开的一种热词解码网络头部实弧设置示意图,图6所示部分为图5中24号节点及其周围节点的细节图,结合图5及图6所示,24号节点为新增节点,其目的为连接主解码网络的6号节点与热词解码网络的13_1节点,由于6号节点的入弧triphone为“en_r-en_ih+en_ng”,而13_1号节点的出弧为“en_ih-en_r+en_ay”,因此24号节点需新增入弧“en_ih-en_ng+en_ih”与出弧“en_ng-en_ih+en_r”。
114.由于相对于现有的解码网络,本技术的解码网络在结构上有所调整,采用现有的解码方法无法达到较好的热词激励效果,因此,本技术中还对现有的解码方法进行了改进。
115.在本技术的另一个实施例中,对所述利用所述解码网络对所述语音信号进行解码,在解码过程中,利用所述热词解码网络对所述语音信号进行热词激励,得到对应的语音识别文本的具体实现方式进行了详细介绍,该方法可以包括以下步骤:
116.步骤s401:获取所述热词解码网络对应槽位的激励分数。
117.在本技术中,在主解码网络构建时,即可为主解码网络中每个槽位预设激励分数。不同槽位的激励分数可以相同也可以不同。
118.步骤s402:针对所述语音信号中每个语音信号帧,根据所述解码网络对所述语音信号帧进行解码,在解码过程中,根据所述热词解码网络对应槽位的激励分数对在所述热词解码网络中的解码令牌的得分进行激励。
119.作为一种可实施方式,根据所述解码网络对所述语音信号帧进行解码,在解码过程中,根据所述热词解码网络对应槽位的激励分数对在所述热词解码网络中的解码令牌的得分进行激励的具体实现方式可以包括以下步骤:
120.步骤s4021:确定当前活跃解码令牌。
121.在本技术中,当语音信号帧为首个语音信号帧时,当前活跃解码令牌为预设的原始解码令牌,当语音信号帧为非首个语音信号帧时,当前活跃解码令牌为与该语音信号帧相邻的上一语音信号帧对应的活跃解码令牌。
122.步骤s4022:针对每个当前活跃解码令牌,将所述当前活跃解码令牌在所述解码网络中进行传递,全部活跃解码令牌传递完毕之后,得到当前语音信号帧对应的全部解码令牌,其中,在所述热词解码网络中传递过的解码令牌的得分包括所述热词解码网络对应槽位的激励分数。
123.步骤s4023:从所述当前语音信号帧对应的全部解码令牌中,确定所述当前语音信号帧对应的活跃解码令牌,作为当前活跃解码令牌。
124.作为一种可实施方式,当所述当前语音信号帧对应的全部解码令牌均在所述主解码网络时,所述从所述当前语音信号帧对应的全部解码令牌中,确定所述当前语音信号帧对应的活跃解码令牌,包括:
125.从所述当前语音信号帧对应的全部解码令牌中,确定得分排名靠前的预设数量个解码令牌,作为所述当前语音信号帧对应的活跃解码令牌。
126.作为另一种可实施方式,当所述当前语音信号帧对应的解码令牌中,包括在所述热词解码网络的解码令牌时,所述从所述当前语音信号帧对应的全部解码令牌中,确定所述当前语音信号帧对应的活跃解码令牌,包括:
127.从所述当前语音信号帧对应的全部解码令牌中,确定第一解码令牌集合以及第二解码令牌集合;将所述第一解码令牌集合以及所述第二解码令牌集合中的解码令牌,确定为所述当前语音信号帧对应的活跃解码令牌;
128.其中,所述第一解码令牌集合包括在所述主解码网络的解码令牌中,得分排名靠前的预设数量个解码令牌;
129.所述第二解码令牌集合包括在所述热词解码网络的解码令牌中,得分排名靠前的预设数量个解码令牌。
130.需要说明的是,预设数量可以基于场景需求进行设定,本技术不进行任何限定。
131.步骤s403:在完成对最后一帧语音信号帧解码后,选择具有最大得分的解码令牌,回溯得到语音识别文本。
132.前述内容中指出,在语音识别领域中,热词一般分为两种,一种是全局热词,全局热词通常不跟随固定句式出现,其可以出现在一句话中的任意部分,另一种是局部热词,局部热词往往跟随固定句式出现。在采用上述方案完成对全局热词的识别之后,往往还需要对局部热词进行识别,因此,在本技术中,还提供了一种局部热词识别方案,具体通过下述实施例详细说明:
133.在本技术的另一个实施例中,在所述利用所述解码网络对所述语音信号进行解码,在解码过程中,利用所述热词解码网络对所述语音信号进行热词激励,得到对应的语音识别文本之后,所述方法还包括:
134.步骤s501:获取预先确定的文法规则,所述文法规则用于指示第二热词列表中每个第二热词的句式信息;
135.在本技术中,第二热词列表可以为局部热词列表。文法规则的具体内容可以基于场景需求进行设置,本技术不进行任何限定。
136.步骤s502:根据所述文法规则对所述语音识别文本中包含的第二热词的句式进行优化。
137.在本技术中,在根据所述文法规则对所述语音识别文本中包含的第二热词的句式进行优化时,可以基于字典树查找的方式实现,而传统方案中,对于具体特定句式要求的热词,是基于fsa网络进行匹配的方式进行的,而字典树查找字符串时间复杂度为o(n),n为待匹配字符串长度,相较于传统的使用fsa网络进行热词匹配的方案,速度更快。
138.下面对本技术实施例公开的语音识别装置进行描述,下文描述的语音识别装置与上文描述的语音识别方法可相互对应参照。
139.参照图7,图7为本技术实施例公开的一种语音识别装置结构示意图。如图7所示,该语音识别装置可以包括:
140.语音信号获取单元71,用于获取待识别的语音信号;
141.解码网络获取单元72,用于获取预先构建的解码网络,所述解码网络包括主解码网络以及热词解码网络;
142.识别单元73,用于利用所述解码网络对所述语音信号进行解码,在解码过程中,利用所述热词解码网络对所述语音信号进行热词激励,得到对应的语音识别文本。
143.作为一种可实施方式,所述装置包括,解码网络构建单元,所述解码网络构建单元包括:
144.主解码网络构建单元,用于构建主解码网络,所述主解码网络中包括至少一个槽位,每个所述槽位位于两个节点之间;
145.第一热词列表获取单元,用于获取第一热词列表,所述第一热词列表中包括一个或多个第一热词;
146.热词解码网络构建单元,用于基于所述第一热词列表,构建热词解码网络,所述热词解码网络中包括多个分支,分支的数量与所述第一热词列表中第一热词的数量相同,每个分支头部和尾部的弧为静音弧;
147.解码网络生成单元,用于针对所述主解码网络中的每个槽位,将所述热词解码网络插入所述槽位中,生成解码网络。
148.作为一种可实施方式,所述解码网络生成单元,,包括:
149.拆除单元,用于针对所述热词解码网络中每个分支,将所述热词解码网络中各个分支头部和尾部的静音弧拆除;
150.设置单元,用于将所述分支头部的实弧对应的三音素中的第一个音素设置为所述主解码网络中所述槽位之前的首个实弧对应的三音素中的最后一个音素,将所述分支尾部的实弧对应的三音素中的最后一个音素设置为所述主解码网络中所述槽位之后的首个实
弧对应的三音素中的第一个音素;
151.连接单元,用于将所述分支头部的实弧与所述主解码网络中所述槽位之前的首个节点连接,将所述分支尾部的实弧与所述主解码网络中所述槽位之后的首个节点连接。
152.作为一种可实施方式,所述识别单元,包括:
153.激励分数获取单元,用于获取所述热词解码网络对应槽位的激励分数;
154.激励单元,用于针对所述语音信号中每个语音信号帧,根据所述解码网络对所述语音信号帧进行解码,在解码过程中,根据所述热词解码网络对应槽位的激励分数对在所述热词解码网络中的解码令牌的得分进行激励;
155.回溯单元,用于在完成对最后一帧语音信号帧解码后,选择具有最大得分的解码令牌,回溯得到语音识别文本。
156.作为一种可实施方式,所述激励单元,包括:
157.令牌确定单元,用于确定当前活跃解码令牌;
158.全部解码令牌确定单元,用于针对每个当前活跃解码令牌,将所述当前活跃解码令牌在所述解码网络中进行传递,全部活跃解码令牌传递完毕之后,得到当前语音信号帧对应的全部解码令牌,其中,在所述热词解码网络中传递过的解码令牌的得分包括所述热词解码网络对应槽位的激励分数;
159.活跃解码令牌确定单元,用于从所述当前语音信号帧对应的全部解码令牌中,确定所述当前语音信号帧对应的活跃解码令牌,作为当前活跃解码令牌。
160.作为一种可实施方式,当所述当前语音信号帧对应的全部解码令牌均在所述主解码网络时,所述活跃解码令牌确定单元,具体用于:
161.从所述当前语音信号帧对应的全部解码令牌中,确定得分排名靠前的预设数量个解码令牌,作为所述当前语音信号帧对应的活跃解码令牌。
162.作为一种可实施方式,当所述当前语音信号帧对应的解码令牌中,包括在所述热词解码网络的解码令牌时,所述活跃解码令牌确定单元,具体用于:
163.从所述当前语音信号帧对应的全部解码令牌中,确定第一解码令牌集合以及第二解码令牌集合;将所述第一解码令牌集合以及所述第二解码令牌集合中的解码令牌,确定为所述当前语音信号帧对应的活跃解码令牌;
164.其中,所述第一解码令牌集合包括在所述主解码网络的解码令牌中,得分排名靠前的预设数量个解码令牌;
165.所述第二解码令牌集合包括在所述热词解码网络的解码令牌中,得分排名靠前的预设数量个解码令牌。
166.作为一种可实施方式,所述装置还包括:
167.文法规则获取单元,用于在所述利用所述解码网络对所述语音信号进行解码,在解码过程中,利用所述热词解码网络对所述语音信号进行热词激励,得到对应的语音识别文本之后,获取预先确定的文法规则,所述文法规则用于指示第二热词列表中每个第二热词的句式信息;
168.优化单元,用于根据所述文法规则对所述语音识别文本中包含的第二热词的句式进行优化。
169.作为一种可实施方式,所述主解码网络为加权有限状态转换器wfst网络;所述热
词解码网络为有限状态自动机fsa网络。
170.参照图8,图8为本技术实施例提供的语音识别设备的硬件结构框图,参照图8,语音识别设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
171.在本技术实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
172.处理器1可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
173.存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
174.其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
175.获取待识别的语音信号;
176.获取预先构建的解码网络,所述解码网络包括主解码网络以及热词解码网络;
177.利用所述解码网络对所述语音信号进行解码,在解码过程中,利用所述热词解码网络对所述语音信号进行热词激励,得到对应的语音识别文本。
178.可选的,所述程序的细化功能和扩展功能可参照上文描述。
179.本技术实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
180.获取待识别的语音信号;
181.获取预先构建的解码网络,所述解码网络包括主解码网络以及热词解码网络;
182.利用所述解码网络对所述语音信号进行解码,在解码过程中,利用所述热词解码网络对所述语音信号进行热词激励,得到对应的语音识别文本。
183.可选的,所述程序的细化功能和扩展功能可参照上文描述。
184.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
185.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
186.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种语音识别方法,其特征在于,所述方法包括:获取待识别的语音信号;获取预先构建的解码网络,所述解码网络包括主解码网络以及热词解码网络;利用所述解码网络对所述语音信号进行解码,在解码过程中,利用所述热词解码网络对所述语音信号进行热词激励,得到对应的语音识别文本。2.根据权利要求1所述的方法,其特征在于,所述解码网络的构建方法包括:构建主解码网络,所述主解码网络中包括至少一个槽位,每个所述槽位位于两个节点之间;获取第一热词列表,所述第一热词列表中包括一个或多个第一热词;基于所述第一热词列表,构建热词解码网络,所述热词解码网络中包括多个分支,分支的数量与所述第一热词列表中第一热词的数量相同,每个分支头部和尾部的弧为静音弧;针对所述主解码网络中的每个槽位,将所述热词解码网络插入所述槽位中,生成解码网络。3.根据权利要求3所述的方法,其特征在于,所述将所述热词解码网络插入所述槽位中,包括:针对所述热词解码网络中每个分支,将所述热词解码网络中各个分支头部和尾部的静音弧拆除;将所述分支头部的实弧对应的三音素中的第一个音素设置为所述主解码网络中所述槽位之前的首个实弧对应的三音素中的最后一个音素,将所述分支尾部的实弧对应的三音素中的最后一个音素设置为所述主解码网络中所述槽位之后的首个实弧对应的三音素中的第一个音素;将所述分支头部的实弧与所述主解码网络中所述槽位之前的首个节点连接,将所述分支尾部的实弧与所述主解码网络中所述槽位之后的首个节点连接。4.根据权利要求2所述的方法,其特征在于,所述利用所述解码网络对所述语音信号进行解码,在解码过程中,利用所述热词解码网络对所述语音信号进行热词激励,得到对应的语音识别文本,包括:获取所述热词解码网络对应槽位的激励分数;针对所述语音信号中每个语音信号帧,根据所述解码网络对所述语音信号帧进行解码,在解码过程中,根据所述热词解码网络对应槽位的激励分数对在所述热词解码网络中的解码令牌的得分进行激励;在完成对最后一帧语音信号帧解码后,选择具有最大得分的解码令牌,回溯得到语音识别文本。5.根据权利要求4所述的方法,其特征在于,根据所述解码网络对所述语音信号帧进行解码,在解码过程中,根据所述热词解码网络对应槽位的激励分数对在所述热词解码网络中的解码令牌的得分进行激励,包括:确定当前活跃解码令牌;针对每个当前活跃解码令牌,将所述当前活跃解码令牌在所述解码网络中进行传递,全部活跃解码令牌传递完毕之后,得到当前语音信号帧对应的全部解码令牌,其中,在所述热词解码网络中传递过的解码令牌的得分包括所述热词解码网络对应槽位的激励分数;
从所述当前语音信号帧对应的全部解码令牌中,确定所述当前语音信号帧对应的活跃解码令牌,作为当前活跃解码令牌。6.根据权利要求5所述的方法,其特征在于,当所述当前语音信号帧对应的全部解码令牌均在所述主解码网络时,所述从所述当前语音信号帧对应的全部解码令牌中,确定所述当前语音信号帧对应的活跃解码令牌,包括:从所述当前语音信号帧对应的全部解码令牌中,确定得分排名靠前的预设数量个解码令牌,作为所述当前语音信号帧对应的活跃解码令牌。7.根据权利要求5所述的方法,其特征在于,当所述当前语音信号帧对应的解码令牌中,包括在所述热词解码网络的解码令牌时,所述从所述当前语音信号帧对应的全部解码令牌中,确定所述当前语音信号帧对应的活跃解码令牌,包括:从所述当前语音信号帧对应的全部解码令牌中,确定第一解码令牌集合以及第二解码令牌集合;将所述第一解码令牌集合以及所述第二解码令牌集合中的解码令牌,确定为所述当前语音信号帧对应的活跃解码令牌;其中,所述第一解码令牌集合包括在所述主解码网络的解码令牌中,得分排名靠前的预设数量个解码令牌;所述第二解码令牌集合包括在所述热词解码网络的解码令牌中,得分排名靠前的预设数量个解码令牌。8.根据权利要求1所述的方法,其特征在于,在所述利用所述解码网络对所述语音信号进行解码,在解码过程中,利用所述热词解码网络对所述语音信号进行热词激励,得到对应的语音识别文本之后,所述方法还包括:获取预先确定的文法规则,所述文法规则用于指示第二热词列表中每个第二热词的句式信息;根据所述文法规则对所述语音识别文本中包含的第二热词的句式进行优化。9.根据权利要求1所述的方法,其特征在于,所述主解码网络为加权有限状态转换器wfst网络;所述热词解码网络为有限状态自动机fsa网络。10.一种语音识别装置,其特征在于,所述装置包括:语音信号获取单元,用于获取待识别的语音信号;解码网络获取单元,用于获取预先构建的解码网络,所述解码网络包括主解码网络以及热词解码网络;识别单元,用于利用所述解码网络对所述语音信号进行解码,在解码过程中,利用所述热词解码网络对所述语音信号进行热词激励,得到对应的语音识别文本。11.一种语音识别设备,其特征在于,包括存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如权利要求1至9中任一项所述的语音识别方法的各个步骤。12.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至9中任一项所述的语音识别方法的各个步骤。
技术总结
本申请公开了一种语音识别方法、相关设备及可读存储介质。该方案中,通过预先构建一个解码网络,该解码网络包括主解码网络以及插入在该主解码网络中的热词解码网络,在获取待识别的语音信号之后,利用该解码网络对该语音信号进行解码,并在解码过程中,利用该热词解码网络对该语音信号进行热词激励,得到对应的语音识别文本。基于该方案,只需对语音信号进行一次解码处理,即可实现对热词的激励,因此,该方案能够提升热词的识别效率。方案能够提升热词的识别效率。方案能够提升热词的识别效率。
技术研发人员:赵子航 李永超 吴重亮 方昕
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:2021.12.06
技术公布日:2022/3/8