1.本技术涉及口语评测技术领域,更具体的说,是涉及一种语音评测方法、相关设备及可读存储介质。
背景技术:
2.口语评测技术可以实现对发音人的口语水平进行评估,并根据评估结果指导发音人进行学习。评测的基本原理源于对标准发音和实际发音之间的差别度量。与人工评分方法相比,可以明显提高评估测试的客观性和公正性,同时极大降低人力和物力成本,使得大规模人群的口语能力评估成为可能,因此,具有巨大的发展潜力和应用前景,近年来也得到了研究人员的广泛关注。
3.影子跟读法(shadowing)是口语练习中常用的一种方法。该方法会给学习者提供示范音,要求学习者头戴耳机,在听到示范音的同时使用相同的语音、语调和语速对其听到的声音进行不间断的复述,对学习者的多种能力(如,目标语言发音水平、听力、语言组织能力、反应能力、记忆力以及阅读能力等)进行考察。目前常用的口语评测技术多是只根据学习者朗读的语音的完整度、流畅度、标准度等维度对学习者的目标语言发音水平进行评测,考察能力单一,无法实现影子跟读法的口语评测。
4.因此,如何提供一种适合影子跟读法的口语评测技术,成为本领域技术人员亟待解决的技术问题。
技术实现要素:
5.鉴于上述问题,本技术提出了一种语音评测方法、相关设备及可读存储介质。具体方案如下:
6.一种语音评测方法,所述方法包括:
7.获取待评测语音;
8.确定所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征;
9.根据所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,确定所述待评测语音的评测结果。
10.可选地,所述确定所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,包括:
11.识别所述待评测语音,得到识别后的文本信息;
12.基于所述识别后的文本信息与预先构建的语义网络,确定所述待评测语音的语言组织评估特征;
13.基于预先构建的带时间戳的限定文本解码网络,对所述待评测语音进行解码,确定所述待评测语音的音段评估特征以及跟读节奏评估特征。
14.可选地,所述语义网络的构建方式如下:
15.获取作为评测标准的示范音、与所述示范音对应的原文文本,与所述原文文本对应的目标语言的译文文本;
16.基于所述原文文本,所述译文文本,构建语义网络。
17.可选地,所述基于所述原文文本,所述译文文本,构建语义网络,包括:
18.对所述译文文本,进行反向翻译,确定候选原文文本;
19.基于所述原文文本,以及所述候选原文文本确定文本集合;
20.基于所述文本集合构建语义网络,所述语义网络包括多个并行的语义路径,每个语义路径对应所述文本集合中的一个文本。
21.可选地,所述基于所述识别后的文本信息与预先构建的语义网络,确定所述待评测语音的语言组织评估特征,包括:
22.计算所述识别后的文本信息在所述语义网络中各个语义路径的内容覆盖度;
23.基于所述识别后的文本信息在所述语义网络中各个语义路径的内容覆盖度,确定所述待评测语音的语言组织评估特征。
24.可选地,所述带时间戳的限定文本解码网络的构建方式如下:
25.基于所述示范音、所述原文文本,建立带时间戳的限定文本解码网络。
26.可选地,所述基于所述示范音、所述原文文本,建立带时间戳的限定文本解码网络,包括:
27.基于所述原文文本建立限定文本解码网络;
28.确定所述示范音的基于语音音素的时间戳;
29.将所述示范音的基于语音音素的时间戳融入所述限定文本解码网络,构建得到带时间戳的限定文本解码网络。
30.可选地,所述带时间戳的限定文本解码网络,包括起始层、结束层、语音音素单元层以及前述所有层之间的吸收层;
31.所述各语音音素单元层分别根据所述原文文本中各单个字符的语音音素构建;每个所述语音音素单元层包括所述语音音素在所述示范音的时间戳;
32.每个所述语音音素单元层与各吸收层、各语音音素单元层层及结束层之间均可存在跳转弧。
33.可选地,所述带时间戳的限定文本解码网络的训练方法,包括:
34.获取与所述示范音对应的训练用语音;
35.针对每个训练用语音,确定所述训练用语音中每个语音音素的跟读节奏评估特征标签以及音段评估特征标签,所述跟读节奏评估特征标签用于表示所述训练用语音中所述语音音素的时间戳与所述示范音中相应语音音素的时间戳是否一致;所述音段评估特征标签用于表示所述训练用语音中所述语音音素对应的各跳转弧的得分;
36.以所述训练用语音、所述训练用语音的基于音素的时间戳为训练样本,以所述跟读节奏评估特征标签和所述音段评估特征标签为训练标签,训练得到所述带时间戳的限定文本解码网络。
37.可选地,所述根据所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,确定所述待评测语音的评测结果,包括:
38.将所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,
输入语音评测模型,所述语音评测模型输出所述待评测语音的评测结果,所述语音评测模型是以训练用语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征为训练样本,以训练语音标注的评测结果为样本标签训练得到的。
39.可选地,在确定所述待评测语音的跟读节奏评估特征之后,所述方法还包括:
40.基于所述待评测语音的跟读节奏评估特征生成跟读节奏反馈信息,并将所述跟读节奏反馈信息提供给所述待评测语音的发声者,以提示所述发声者当前的跟读节奏。
41.一种语音评测装置,所述装置包括:
42.获取单元,用于获取待评测语音;
43.特征确定单元,用于确定所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征;
44.评测结果确定单元,用于根据所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,确定所述待评测语音的评测结果。
45.可选地,所述特征确定单元,包括:
46.识别单元,用于识别所述待评测语音,得到识别后的文本信息;
47.语言组织评估特征确定单元,用于基于所述识别后的文本信息与预先构建的语义网络,确定所述待评测语音的语言组织评估特征;
48.音段评估特征以及跟读节奏评估特征确定单元,用于基于预先构建的带时间戳的限定文本解码网络,对所述待评测语音进行解码,确定所述待评测语音的音段评估特征以及跟读节奏评估特征。
49.可选地,所述装置还包括:语义网络构建单元;所述语义网络构建单元,包括:
50.获取子单元,用于获取作为评测标准的示范音、与所述示范音对应的原文文本,与所述原文文本对应的目标语言的译文文本;
51.构建子单元,用于基于所述原文文本,所述译文文本,构建语义网络。
52.可选地,所述构建子单元,具体用于:
53.对所述译文文本,进行反向翻译,确定候选原文文本;
54.基于所述原文文本,以及所述候选原文文本确定文本集合;
55.基于所述文本集合构建语义网络,所述语义网络包括多个并行的语义路径,每个语义路径对应所述文本集合中的一个文本。
56.可选地,所述语言组织评估特征确定单元,包括:
57.计算单元,用于计算所述识别后的文本信息在所述语义网络中各个语义路径的内容覆盖度;
58.语言组织评估特征确定子单元,用于基于所述识别后的文本信息在所述语义网络中各个语义路径的内容覆盖度,确定所述待评测语音的语言组织评估特征。
59.可选地,所述装置还包括:带时间戳的限定文本解码网络构建单元;所述带时间戳的限定文本解码网络构建单元用于:
60.基于所述示范音、所述原文文本,建立带时间戳的限定文本解码网络。
61.可选地,所述带时间戳的限定文本解码网络构建单元,包括:
62.限定文本解码网络建立单元,用于基于所述原文文本建立限定文本解码网络;
63.时间戳确定单元,用于确定所述示范音的基于语音音素的时间戳;
64.融入单元,用于将所述示范音的基于语音音素的时间戳融入所述限定文本解码网络,构建得到带时间戳的限定文本解码网络。
65.可选地,所述带时间戳的限定文本解码网络,包括起始层、结束层、语音音素单元层以及前述所有层之间的吸收层;
66.所述各语音音素单元层分别根据所述原文文本中各单个字符的语音音素构建;每个所述语音音素单元层包括所述语音音素在所述示范音的时间戳;
67.每个所述语音音素单元层与各吸收层、各语音音素单元层层及结束层之间均可存在跳转弧。
68.可选地,所述带时间戳的限定文本解码网络的训练方法,包括:
69.获取与所述示范音对应的训练用语音;
70.针对每个训练用语音,确定所述训练用语音中每个语音音素的跟读节奏评估特征标签以及音段评估特征标签,所述跟读节奏评估特征标签用于表示所述训练用语音中所述语音音素的时间戳与所述示范音中相应语音音素的时间戳是否一致;所述音段评估特征标签用于表示所述训练用语音中所述语音音素对应的各跳转弧的得分;
71.以所述训练用语音、所述训练用语音的基于音素的时间戳为训练样本,以所述跟读节奏评估特征标签和所述音段评估特征标签为训练标签,训练得到所述带时间戳的限定文本解码网络。
72.可选地,所述评测结果确定单元,用于:
73.将所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,输入语音评测模型,所述语音评测模型输出所述待评测语音的评测结果,所述语音评测模型是以训练用语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征为训练样本,以训练语音标注的评测结果为样本标签训练得到的。
74.可选地,所述装置还包括:
75.反馈单元,用于在确定所述待评测语音的跟读节奏评估特征之后,基于所述待评测语音的跟读节奏评估特征生成跟读节奏反馈信息,并将所述跟读节奏反馈信息提供给所述待评测语音的发声者,以提示所述发声者当前的跟读节奏。
76.一种语音评测设备,包括存储器和处理器;
77.所述存储器,用于存储程序;
78.所述处理器,用于执行所述程序,实现如上所述的语音评测方法的各个步骤。
79.一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的语音评测方法的各个步骤。
80.借由上述技术方案,本技术公开了一种语音评测方法、相关设备及可读存储介质。在获取待评测语音之后,确定待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,并根据待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,确定所述待评测语音的评测结果。由于上述多个方面的特征能够表征待评测语音的发音人的多种能力,因此,该方法可以用于影子跟读法的口语评测。
附图说明
81.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通
技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
82.图1为本技术实施例公开的语音评测方法的流程示意图;
83.图2为本技术实施例公开的一种语义网络示意图;
84.图3为本技术实施例公开的一种限定文本解码网络示意图;
85.图4为本技术实施例公开的一种带时间戳的限定文本解码网络的结构示意图;
86.图5为本技术实施例公开的一种语音评测装置结构示意图;
87.图6为本技术实施例公开的一种**设备的硬件结构框图。
具体实施方式
88.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
89.接下来,通过下述实施例对本技术提供的语音评测方法进行介绍。
90.参照图1,图1为本技术实施例公开的语音评测方法的流程示意图,该方法可以包括:
91.步骤s101:获取待评测语音。
92.具体的,以影子学习法场景为例,待评测语音可以是学习者对示范音的跟读录音。本步骤中,待评测语音的获取方式可以是通过录音设备接收,录音设备可以包括麦克风,如头戴式麦克风。
93.步骤s102:确定所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征。
94.在本技术中,语言组织评估特征是指能够评估待评测语音的发音人的语言组织能力的特征。音段评估特征以及跟读节奏评估特征是指能够评估待评测语音的发音人的听力、语言组织能力、反应能力、记忆力以及阅读能力等的特征。
95.步骤s103:根据所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,确定所述待评测语音的评测结果。
96.在确定待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征之后,即可根据所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,确定所述待评测语音的评测结果。其实现方式可以有多种,比如,可以基于神经网络模型学习到所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征与待评测语音的评测结果之间的关系,将所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征输入该神经网络模型中,即可确定所述待评测语音的评测结果。也可以基于数学算法计算出所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征与待评测语音的评测结果之间的关系。对此,本技术不进行任何限定。
97.本实施例公开了一种语音评测方法,在获取待评测语音之后,确定待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,并根据待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,确定所述待评测语音的评测结果。由于上
述多个方面的特征能够表征待评测语音的发音人的多种能力,因此,该方法可以用于影子跟读法的口语评测。
98.在本技术的一个实施例中,对步骤s102,所述确定所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征的具体实现方法进行了介绍,该方法可以包括如下步骤:
99.步骤s201:识别所述待评测语音,得到识别后的文本信息。
100.具体地,可以对待评测语音进行语音识别,得到识别后的文本信息。该过程可以包括:提取所述待评测语音的声学特征;将所述声学特征输入预置的声学识别模型,得到声学识别模型输出的所述待评测语音对应的文本信息。其中,声学特征用于语音识别,所述声学特征一般为语音数据的频谱特征,如梅尔频率倒谱系数(mel-frequency cepstral coefficients,mfcc)特征或感知线性预测(perceptual linear prediction,plp)特征等。具体提取时,可以预先对待评测语音进行分帧处理。进一步,对分帧后的待评测语音进行预加重。最后,依次提取每帧待评测语音的频谱特征。
101.所述声学识别模型可以是利用训练语料训练得到的神经网络形式的声学识别模型。比如,声学识别模型可以是通用声学识别模型,即采用已有的训练语料库训练得到的通用的声学识别模型。
102.步骤s202:基于所述识别后的文本信息与预先构建的语义网络,确定所述待评测语音的语言组织评估特征。
103.在本技术中,可以获取作为评测标准的示范音、与所述示范音对应的原文文本,与所述原文文本对应的目标语言的译文文本;基于所述原文文本,所述译文文本,构建语义网络。
104.作为一种可实施方式,所述基于所述原文文本,所述译文文本,构建语义网络的过程可以包括如下过程:
105.步骤s301:对所述译文文本,进行反向翻译,确定候选原文文本。
106.在本步骤中,可以基于encode-decode的双向网络,通过传统的翻译技术,传入译文文本,获得topn的机器反向翻译的原文文本,作为候选原文文本。
107.步骤s302:基于所述原文文本,以及所述候选原文文本确定文本集合。
108.在本步骤中,如果候选原文文本中不包括原文文本的话,将二者组合得到文本集合,如果候选原文文本中包括原文文本的话,将全部候选原文文本组合得到文本集合。
109.步骤s303:基于所述文本集合构建语义网络,所述语义网络包括多个并行的语义路径,每个语义路径对应所述文本集合中的一个文本。
110.为便于理解,给出如下表所示的示例,该示例对应的语义网络可参考图2所示。
111.原文文本:iliketobeyourgoodfriendforever 译文文本:我想永远做你的好朋友
ꢀꢀꢀ
语义网络1iliketobeyourgoodfriendforever 语义网络2iliketomakegoodfriendwithyouforever
112.作为一种可实施方式,所述基于所述识别后的文本信息与预先构建的语义网络,确定所述待评测语音的语言组织评估特征的过程可以包括以下步骤:
113.步骤s401:计算所述识别后的文本信息在所述语义网络中各个语义路径的内容覆
盖度。
114.在本技术中,识别后的文本信息在语义网络中各个语义路径的内容覆盖度用于表征识别后的文本信息与语义网络中各个语义路径的内容的重合程度。lcs(longest common subsequence,最长公共子序列)通常可以用来描述两个文本之间的相似度,在本技术中,可以计算所述识别后的文本信息与所述语义网络中各个语义路径对应的文本的lsc值,用于表征所述识别后的文本信息在所述语义网络中各个语义路径的内容覆盖度。
115.步骤s402:基于所述识别后的文本信息在所述语义网络中各个语义路径的内容覆盖度,确定所述待评测语音的语言组织评估特征。
116.在本技术中,作为一种可实施方式,可以基于最大内容覆盖度确定所述待评测语音的语言组织评估特征,比如,可以将最大内容覆盖度,确定为所述待评测语音的语言组织评估特征。
117.步骤s203:基于预先构建的带时间戳的限定文本解码网络,对所述待评测语音进行解码,确定所述待评测语音的音段评估特征以及跟读节奏评估特征。
118.在本步骤中,可以将提取所述待评测语音的声学特征;将所述声学特征输入预先构建的带时间戳的限定文本解码网络,由预先构建的带时间戳的限定文本解码网络,对所述待评测语音进行解码,确定所述待评测语音的音段评估特征以及跟读节奏评估特征。
119.下面对带时间戳的限定文本解码网络的相关内容进行详细介绍。
120.在本技术中,所述带时间戳的限定文本解码网络的构建方式如下:
121.基于所述示范音、所述原文文本,建立带时间戳的限定文本解码网络。
122.作为一种可实施方式,所述基于所述示范音、所述原文文本,建立带时间戳的限定文本解码网络的具体实现方法可以包括如下步骤:
123.步骤s501:基于所述原文文本建立限定文本解码网络。
124.参阅图3,图3为本技术实施例公开的一种限定文本解码网络示意图,由图3所示,限定文本解码网络包括起始层s、结束层e、语音音素单元层ai以及前述所有层之间的吸收层fs,起始层s用于接收待解码的语音帧的声学特征,各语音音素单元层分别根据所述原文文本中各单个字符的语音音素构建;用于对接收的语音帧的声学特征进行解码,结束层用于输出解码结果。每个所述语音音素单元层与各吸收层、各语音音素单元层层及结束层之间均可存在跳转弧,其中,跳转弧包括前跳转弧和后跳转弧。
125.需要说明的是,针对每个语音音素单元层,其对应的跳转弧均有得分,不同的跳转弧的得分可以不同,比如,跳转弧是跳转至吸收层,则该跳转弧有一个惩罚得分,跳转弧是跳转至其他语音音素单元层,则该跳转弧有一个匹配得分。针对每个语音音素单元层,其对应的跳转弧的得分可以是通过训练或者人工调优的方法计算出来的固定值。
126.步骤s502:确定所述示范音的基于语音音素的时间戳。
127.在本技术中,可以使用限定文本解码网络对示范音进行解码,在解码过程中通过吸收层fs的音段强制对齐,得到示范音的基于语音音素的时间戳。
128.步骤s503:将所述示范音的基于语音音素的时间戳融入所述限定文本解码网络,构建得到带时间戳的限定文本解码网络。
129.在本技术中,所述带时间戳的限定文本解码网络,包括起始层、结束层、语音音素单元层以及前述所有层之间的吸收层;所述各语音音素单元层分别根据所述原文文本中各
单个字符的语音音素构建;每个所述语音音素单元层包括所述语音音素在所述示范音的时间戳;每个所述语音音素单元层与各吸收层、各语音音素单元层层及结束层之间均可存在跳转弧,每个跳转弧对应一个得分。另外,如果待评测语音在本技术中,待评测语音中各语音音素的时间戳与示范音中相应语音音素的时间戳是否一致能够表征发音人的跟读节奏,因此,在本技术中带时间戳的限定文本解码网络中不同层之间可以设置一个跟读节奏得分,比如,如果待评测语音中某个语音音素的时间戳与示范音中相应语音音素的时间戳一致,则说明此刻发音人跟读上了示范音,该跟读节奏得分可以设置为1,如果待评测语音中某个语音音素的时间戳与示范音中相应语音音素的时间戳不一致,则说明此刻发音人未跟读上示范音,该跟读节奏得分可以设置为0。
130.为便于理解,请参阅附图4,图4为本技术实施例公开的一种带时间戳的限定文本解码网络的结构示意图。其中,f(t)用于表示跳转弧对应的得分,w(t)用于表示跟读节奏得分。
131.由于本技术中,带时间戳的限定文本解码网络中包括示范音的基于语音音素的时间戳,该时间戳与发音人的实际语音中基于语音音素的时间戳是否一致,对每个语音音素单元层对应的跳转弧的得分以及不同层之间的跟读节奏得分是有影响的,因此,需要确定示范音的基于语音音素的时间戳与发音人的实际语音中基于语音音素的时间戳的一致性对每个语音音素单元层对应的跳转弧的得分以及不同层之间的跟读节奏得分不同层之间的跟读节奏得分的影响,因此,本技术中需要对带时间戳的限定文本解码网络进行训练,基于训练得到的带时间戳的限定为本解码网络,可以确定出待评测语音的音段评估特征以及跟读节奏评估特征。
132.作为一种可实施方式,带时间戳的限定文本解码网络的训练方法可以包括以下步骤:
133.步骤s601:获取与所述示范音对应的训练用语音。
134.在本技术中,与所述示范音对应的训练用语音可以为一定数量的学习者对所述示范音的跟读录音。
135.步骤s602:针对每个训练用语音,确定所述训练用语音中每个语音音素的跟读节奏评估特征标签以及音段评估特征标签。
136.在本技术中,所述跟读节奏评估特征标签用于表示所述训练用语音中所述语音音素的时间戳与所述示范音中相应语音音素的时间戳是否一致;比如,训练用语音中所述语音音素的时间戳与所述示范音中相应语音音素的时间戳一致,则该跟读节奏评估特征标签为1,如果训练用语音中所述语音音素的时间戳与所述示范音中相应语音音素的时间戳不一致,则该跟读节奏评估特征标签为0。
137.在本技术中,所述音段评估特征标签用于表示所述训练用语音中所述语音音素对应的各跳转弧的得分。
138.步骤s603:以所述训练用语音为训练样本,以所述跟读节奏评估特征标签和所述音段评估特征标签为训练标签,训练得到所述带时间戳的限定文本解码网络。
139.训练目标为待时间戳的限定文本解码网络中不同层之间的跟读节奏得分趋近于所述跟读节奏评估特征标签,每个语音音素单元层对应的跳转弧的得分趋近于所述音段评估特征标签。
140.在本技术的一个实施例中,介绍了根据所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,确定所述待评测语音的评测结果的实现方式,该方式可以包括:
141.将所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,输入语音评测模型,所述语音评测模型输出所述待评测语音的评测结果。
142.在本技术中,所述待评测语音的评测结果可以为具体的得分,以及该得分对应的发音人的跟读点评意见以及改进建议。各个得分对应的跟读点评意见以及改进建议可以由专业人员预先设定。
143.需要说明的是,所述语音评测模型是以训练用语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征为训练样本,以训练语音标注的评测结果为样本标签训练得到的。
144.在本技术的一个实施例中,在确定所述待评测语音的跟读节奏评估特征之后,所述方法还可以包括:基于所述待评测语音的跟读节奏评估特征生成跟读节奏反馈信息,并将所述跟读节奏反馈信息提供给所述待评测语音的发声者,以提示所述发声者当前的跟读节奏,使发声者根据提示调整跟读节奏。
145.下面对本技术实施例公开的语音评测装置进行描述,下文描述的语音评测装置与上文描述的语音评测方法可相互对应参照。
146.参照图5,图5为本技术实施例公开的一种语音评测装置结构示意图。如图5所示,该语音评测装置可以包括:
147.获取单元51,用于获取待评测语音;
148.特征确定单元52,用于确定所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征;
149.评测结果确定单元53,用于根据所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,确定所述待评测语音的评测结果。
150.作为一种可实施方式,所述特征确定单元,包括:
151.识别单元,用于识别所述待评测语音,得到识别后的文本信息;
152.语言组织评估特征确定单元,用于基于所述识别后的文本信息与预先构建的语义网络,确定所述待评测语音的语言组织评估特征;
153.音段评估特征以及跟读节奏评估特征确定单元,用于基于预先构建的带时间戳的限定文本解码网络,对所述待评测语音进行解码,确定所述待评测语音的音段评估特征以及跟读节奏评估特征。
154.作为一种可实施方式,所述装置还包括:语义网络构建单元;所述语义网络构建单元,包括:
155.获取子单元,用于获取作为评测标准的示范音、与所述示范音对应的原文文本,与所述原文文本对应的目标语言的译文文本;
156.构建子单元,用于基于所述原文文本,所述译文文本,构建语义网络。
157.作为一种可实施方式,所述构建子单元,具体用于:
158.对所述译文文本,进行反向翻译,确定候选原文文本;
159.基于所述原文文本,以及所述候选原文文本确定文本集合;
160.基于所述文本集合构建语义网络,所述语义网络包括多个并行的语义路径,每个语义路径对应所述文本集合中的一个文本。
161.作为一种可实施方式,所述语言组织评估特征确定单元,包括:
162.计算单元,用于计算所述识别后的文本信息在所述语义网络中各个语义路径的内容覆盖度;
163.语言组织评估特征确定子单元,用于基于所述识别后的文本信息在所述语义网络中各个语义路径的内容覆盖度,确定所述待评测语音的语言组织评估特征。
164.作为一种可实施方式,所述装置还包括:带时间戳的限定文本解码网络构建单元;所述带时间戳的限定文本解码网络构建单元用于:
165.基于所述示范音、所述原文文本,建立带时间戳的限定文本解码网络。
166.作为一种可实施方式,所述带时间戳的限定文本解码网络构建单元,包括:
167.限定文本解码网络建立单元,用于基于所述原文文本建立限定文本解码网络;
168.时间戳确定单元,用于确定所述示范音的基于语音音素的时间戳;
169.融入单元,用于将所述示范音的基于语音音素的时间戳融入所述限定文本解码网络,构建得到带时间戳的限定文本解码网络。
170.作为一种可实施方式,所述带时间戳的限定文本解码网络,包括起始层、结束层、语音音素单元层以及前述所有层之间的吸收层;
171.所述各语音音素单元层分别根据所述原文文本中各单个字符的语音音素构建;每个所述语音音素单元层包括所述语音音素在所述示范音的时间戳;
172.每个所述语音音素单元层与各吸收层、各语音音素单元层层及结束层之间均可存在跳转弧。
173.作为一种可实施方式,所述带时间戳的限定文本解码网络的训练方法,包括:
174.获取与所述示范音对应的训练用语音;
175.针对每个训练用语音,确定所述训练用语音中每个语音音素的跟读节奏评估特征标签以及音段评估特征标签,所述跟读节奏评估特征标签用于表示所述训练用语音中所述语音音素的时间戳与所述示范音中相应语音音素的时间戳是否一致;所述音段评估特征标签用于表示所述训练用语音中所述语音音素对应的各跳转弧的得分;
176.以所述训练用语音、所述训练用语音的基于音素的时间戳为训练样本,以所述跟读节奏评估特征标签和所述音段评估特征标签为训练标签,训练得到所述带时间戳的限定文本解码网络。
177.作为一种可实施方式,所述评测结果确定单元,用于:
178.将所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,输入语音评测模型,所述语音评测模型输出所述待评测语音的评测结果,所述语音评测模型是以训练用语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征为训练样本,以训练语音标注的评测结果为样本标签训练得到的。
179.作为一种可实施方式,所述装置还包括:
180.反馈单元,用于在确定所述待评测语音的跟读节奏评估特征之后,基于所述待评测语音的跟读节奏评估特征生成跟读节奏反馈信息,并将所述跟读节奏反馈信息提供给所述待评测语音的发声者,以提示所述发声者当前的跟读节奏。
181.参照图6,图6为本技术实施例提供的语音评测设备的硬件结构框图,参照图6,语音评测设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
182.在本技术实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
183.处理器1可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
184.存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
185.其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
186.获取待评测语音;
187.确定所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征;
188.根据所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,确定所述待评测语音的评测结果。
189.可选的,所述程序的细化功能和扩展功能可参照上文描述。
190.本技术实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
191.获取待评测语音;
192.确定所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征;
193.根据所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,确定所述待评测语音的评测结果。
194.可选的,所述程序的细化功能和扩展功能可参照上文描述。
195.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
196.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
197.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种语音评测方法,其特征在于,所述方法包括:获取待评测语音;确定所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征;根据所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,确定所述待评测语音的评测结果。2.根据权利要求1所述的方法,其特征在于,所述确定所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,包括:识别所述待评测语音,得到识别后的文本信息;基于所述识别后的文本信息与预先构建的语义网络,确定所述待评测语音的语言组织评估特征;基于预先构建的带时间戳的限定文本解码网络,对所述待评测语音进行解码,确定所述待评测语音的音段评估特征以及跟读节奏评估特征。3.根据权利要求2所述的方法,其特征在于,所述语义网络的构建方式如下:获取作为评测标准的示范音、与所述示范音对应的原文文本,与所述原文文本对应的目标语言的译文文本;基于所述原文文本,所述译文文本,构建语义网络。4.根据权利要求3所述的方法,其特征在于,所述基于所述原文文本,所述译文文本,构建语义网络,包括:对所述译文文本,进行反向翻译,确定候选原文文本;基于所述原文文本,以及所述候选原文文本确定文本集合;基于所述文本集合构建语义网络,所述语义网络包括多个并行的语义路径,每个语义路径对应所述文本集合中的一个文本。5.根据权利要求4所述的方法,其特征在于,所述基于所述识别后的文本信息与预先构建的语义网络,确定所述待评测语音的语言组织评估特征,包括:计算所述识别后的文本信息在所述语义网络中各个语义路径的内容覆盖度;基于所述识别后的文本信息在所述语义网络中各个语义路径的内容覆盖度,确定所述待评测语音的语言组织评估特征。6.根据权利要求3所述的方法,其特征在于,所述带时间戳的限定文本解码网络的构建方式如下:基于所述示范音、所述原文文本,建立带时间戳的限定文本解码网络。7.根据权利要求6所述的方法,其特征在于,所述基于所述示范音、所述原文文本,建立带时间戳的限定文本解码网络,包括:基于所述原文文本建立限定文本解码网络;确定所述示范音的基于语音音素的时间戳;将所述示范音的基于语音音素的时间戳融入所述限定文本解码网络,构建得到带时间戳的限定文本解码网络。8.根据权利要求7所述的方法,其特征在于,所述带时间戳的限定文本解码网络,包括起始层、结束层、语音音素单元层以及前述所有层之间的吸收层;所述各语音音素单元层分别根据所述原文文本中各单个字符的语音音素构建;每个所
述语音音素单元层包括所述语音音素在所述示范音的时间戳;每个所述语音音素单元层与各吸收层、各语音音素单元层层及结束层之间均可存在跳转弧。9.根据权利要求8所述的方法,其特征在于,所述带时间戳的限定文本解码网络的训练方法,包括:获取与所述示范音对应的训练用语音;针对每个训练用语音,确定所述训练用语音中每个语音音素的跟读节奏评估特征标签以及音段评估特征标签,所述跟读节奏评估特征标签用于表示所述训练用语音中所述语音音素的时间戳与所述示范音中相应语音音素的时间戳是否一致;所述音段评估特征标签用于表示所述训练用语音中所述语音音素对应的各跳转弧的得分;以所述训练用语音、所述训练用语音的基于音素的时间戳为训练样本,以所述跟读节奏评估特征标签和所述音段评估特征标签为训练标签,训练得到所述带时间戳的限定文本解码网络。10.根据权利要求1所述的方法,其特征在于,所述根据所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,确定所述待评测语音的评测结果,包括:将所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,输入语音评测模型,所述语音评测模型输出所述待评测语音的评测结果,所述语音评测模型是以训练用语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征为训练样本,以训练语音标注的评测结果为样本标签训练得到的。11.根据权利要求1所述的方法,其特征在于,在确定所述待评测语音的跟读节奏评估特征之后,所述方法还包括:基于所述待评测语音的跟读节奏评估特征生成跟读节奏反馈信息,并将所述跟读节奏反馈信息提供给所述待评测语音的发声者,以提示所述发声者当前的跟读节奏。12.一种语音评测装置,其特征在于,所述装置包括:获取单元,用于获取待评测语音;特征确定单元,用于确定所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征;评测结果确定单元,用于根据所述待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,确定所述待评测语音的评测结果。13.一种语音评测设备,其特征在于,包括存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如权利要求1至11中任一项所述的语音评测方法的各个步骤。14.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至11中任一项所述的语音评测方法的各个步骤。
技术总结
本申请公开了一种语音评测方法、相关设备及可读存储介质,在获取待评测语音之后,确定待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,并根据待评测语音的语言组织评估特征、音段评估特征以及跟读节奏评估特征,确定所述待评测语音的评测结果。由于上述多个方面的特征能够表征待评测语音的发音人的多种能力,因此,该方法可以用于影子跟读法的口语评测。读法的口语评测。读法的口语评测。
技术研发人员:胡阳 张武旭 汪张龙
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:2021.12.06
技术公布日:2022/3/8