一种语音质检方法、装置、电子设备及存储介质与流程

专利查询2023-11-21 113

1.本技术涉及通信处理技术领域，具体涉及一种语音质检方法、装置、电子设备及存储介质。

背景技术：

2.传统的人工客服语音质检通过设置统一的抽检率，根据抽检率对每个客服人员的通话录音随机进行抽查，以确定客服人员的通话质量。
3.随着客服行业的快速发展，客服人员的业务量逐日增长，需要检测的音频数据日渐增多。而传统的人工客服语音质检方法在保证原有抽检率的情况下，需要增加大量的人力物力，而实现全面的语音质检需要耗费的资源更多。

技术实现要素：

4.本技术实施例的目的在于提供一种语音质检方法、装置、电子设备及存储介质，以改善上述需要耗费大量人力物力对语音进行质检，且抽查覆盖率低的技术问题。
5.为实现上述目的，本技术提供如下技术方案：
6.第一方面，本技术实施例提供一种语音质检方法，所述方法包括：
7.获取待检测语音；其中，所述待检测语音为客服人员与客户之间的电话语音；
8.将所述待检测语音输入语音质检模型；
9.通过所述语音质检模型对所述待检测语音进行识别，获得所述语音质检模型输出的所述待检测语音对应的中间质检结果；其中，所述中间质检结果包括关键词质检结果、静音质检结果、语速质检结果和情绪质检结果；
10.根据所述关键词质检结果、所述静音质检结果、所述语速质检结果和所述情绪质检结果获得所述待检测语音对应的语音质检结果。
11.在上述方案中，该语音质检方法基于语音质检模型对待检测语音进行了识别，实现了对待检测语音(即客服人员与客户之间的电话语音)的全面质检，提高了现有的语音质检的覆盖率，降低了语音漏检的风险，且相较于传统的人工抽查形式的语音检测，该基于语音质检模型的语音质检方法的人力成本更低，音频检测速度更快，所获得的语音质检结果的准确度也更高。
12.可选的，通过所述语音质检模型对所述待检测语音进行识别，获得所述关键词质检结果，包括：通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的规定类关键词检测标准对所述文字识别结果进行规定类关键词检测，获得所述语音质检模型输出的规定类关键词质检结果；根据所述语音质检模型的禁止类关键词检测标准对所述文字识别结果进行禁止类关键词检测，获得所述语音质检模型输出的禁止类关键词质检结果；根据所述规定类关键词质检结果和所述禁止类关键词质检结果确定所述关键词质检结果。
13.在上述方案中，通过对文字识别结果进行规定类关键词检测和禁止类关键词检
测，对待检测语音中是否出现规定类话术和禁止类话术进行检测。
14.可选的，通过所述语音质检模型对所述待检测语音进行识别，获得所述静音质检结果，包括：通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的静音检测标准对所述文字识别结果中的相邻文字之间的静音时长进行检测，获得所述语音质检模型输出的所述静音质检结果。
15.在上述方案中，通过对文字识别结果中的相邻文字之间的静音时长进行检测，避免待检测语音中出现静音时长超过静音检测标准却未被检测到的漏检情况。
16.可选的，通过所述语音质检模型对所述待检测语音进行识别，获得所述语速质检结果，包括：通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的语速检测标准对所述文字识别结果中的预设时间内的文字数量进行检测，获得所述语音质检模型输出的所述语速质检结果。
17.在上述方案中，通过对文字识别结果中的预设时间内的文字数量进行检测，即对待检测语音中出现的语速过快或语速过慢的情况进行检测。
18.可选的，通过所述语音质检模型对所述待检测语音进行识别，获得所述情绪质检结果，包括：通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的情绪检测标准对所述文字识别结果进行情绪类关键词检测，获得所述语音质检模型输出的所述情绪质检结果。
19.在上述方案中，通过按照情绪检测标准对文字识别结果进行情绪类关键词检测，即对待检测语音的情绪或态度等进行检测，进一步保证所获得的语音质检结果的全面性。
20.可选的，所述根据所述关键词质检结果、所述静音质检结果、所述语速质检结果和所述情绪质检结果获得所述待检测语音对应的语音质检结果，包括：将预设减分项和所述关键词质检结果、所述静音质检结果、所述语速质检结果以及所述情绪质检结果进行匹配，获得减分项匹配结果；根据所述减分项匹配结果和预设减分值计算出所述待检测语音的质检分数；将所述减分项匹配结果、所述减分项匹配结果对应的减分值以及所述质检分数作为所述待检测语音对应的所述语音质检结果。
21.在上述方案中，将减分项匹配结果、减分项匹配结果对应的减分值以及质检分数作为所述待检测语音对应的所述语音质检结果，可以便于后续对语音质检结果的复核工作的进行。
22.可选的，在所述根据所述关键词质检结果、所述静音质检结果、所述语速质检结果和所述情绪质检结果获得所述待检测语音对应的语音质检结果之后，所述方法还包括：向语音复检平台发送所述语音质检结果，以使质检人员对所述语音质检结果进行复核。
23.在上述方案中，通过质检人员对语音质检结果进行抽查、复核，可以进一步提高语音质检的准确度。
24.可选的，在所述向语音复检平台发送所述语音质检结果，以使质检人员对所述语音质检结果进行复核之后，所述方法还包括：根据所述复核的结果对所述语音质检模型的内部参数进行优化。
25.可选的，在所述向语音复检平台发送所述语音质检结果，以使质检人员对所述语音质检结果进行复核之后，所述方法还包括：根据所述复核的结果对质检标准进行优化调整；其中，所述质检标准包括所述规定类关键词检测标准、所述禁止类关键词检测标准、所
述静音检测标准、所述语速检测标准以及所述情绪检测标准中的至少一种。
26.第二方面，本技术实施例提供一种语音质检装置，所述装置包括：
27.语音获取模块，所述语音获取模块用于获取待检测语音；其中，所述待检测语音为客服人员与客户之间的电话语音；
28.输入模块，所述输入模块用于将所述待检测语音输入语音质检模型；
29.中间质检结果获得模块，所述中间质检结果获得模块用于通过所述语音质检模型对所述待检测语音进行识别，获得所述语音质检模型输出的所述待检测语音对应的中间质检结果；其中，所述中间质检结果包括关键词质检结果、静音质检结果、语速质检结果和情绪质检结果；
30.语音质检结果获得模块，所述语音质检结果获得模块用于根据所述关键词质检结果、所述静音质检结果、所述语速质检结果和所述情绪质检结果获得所述待检测语音对应的语音质检结果。
31.在上述方案中，该语音质检装置基于语音质检模型对待检测语音进行了识别，实现了对待检测语音(即客服人员与客户之间的电话语音)的全面质检，提高了现有的语音质检的覆盖率，降低了语音漏检的风险，且相较于传统的人工抽查形式的语音检测，该基于语音质检模型的语音质检方法的人力成本更低，音频检测速度更快，所获得的语音质检结果的准确度也更高。
32.可选的，所述中间质检结果获得模块包括：关键词质检结果获得模块，所述关键词质检结果获得模块用于通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的规定类关键词检测标准对所述文字识别结果进行规定类关键词检测，获得所述语音质检模型输出的规定类关键词质检结果；根据所述语音质检模型的禁止类关键词检测标准对所述文字识别结果进行禁止类关键词检测，获得所述语音质检模型输出的禁止类关键词质检结果；根据所述规定类关键词质检结果和所述禁止类关键词质检结果确定所述关键词质检结果。
33.可选的，所述中间质检结果获得模块包括：静音质检结果获得模块，所述静音质检结果获得模块用于通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的静音检测标准对所述文字识别结果中的相邻文字之间的静音时长进行检测，获得所述语音质检模型输出的所述静音质检结果。
34.可选的，所述中间质检结果获得模块包括：语速质检结果获得模块，所述语速质检结果获得模块用于通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的语速检测标准对所述文字识别结果中的预设时间内的文字数量进行检测，获得所述语音质检模型输出的所述语速质检结果。
35.可选的，所述中间质检结果获得模块包括：情绪质检结果获得模块，所述情绪质检结果获得模块用于通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的情绪检测标准对所述文字识别结果进行情绪类关键词检测，获得所述语音质检模型输出的所述情绪质检结果。
36.可选的，所述语音质检结果获得模块具体用于将预设减分项和所述关键词质检结果、所述静音质检结果、所述语速质检结果以及所述情绪质检结果进行匹配，获得减分项匹配结果；根据所述减分项匹配结果和预设减分值计算出所述待检测语音的质检分数；将所
述减分项匹配结果、所述减分项匹配结果对应的减分值以及所述质检分数作为所述待检测语音对应的所述语音质检结果。
37.可选的，所述装置还包括：质检结果发送模块，所述质检结果发送模块用于向语音复检平台发送所述语音质检结果，以使质检人员对所述语音质检结果进行复核。
38.可选的，所述装置还包括：参数优化模块，所述参数优化模块用于根据所述复核的结果对所述语音质检模型的内部参数进行优化。
39.可选的，标准优化模块，所述标准优化模块用于根据所述复核的结果对质检标准进行优化调整；其中，所述质检标准包括所述规定类关键词检测标准、所述禁止类关键词检测标准、所述静音检测标准、所述语速检测标准以及所述情绪检测标准中的至少一种。
40.第三方面，本技术实施例提供一种电子设备，包括：存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行第一方面任意一种可能的实现方式提供的方法。
41.第四方面，本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行第一方面任意一种可能的实现方式提供的方法。
42.本技术的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术实施例了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
43.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
44.图1为本技术实施例提供的第一种语音质检方法的流程示意图；
45.图2为本技术实施例提供的第二种语音质检方法的流程示意图；
46.图3为本技术实施例提供的第三种语音质检方法的流程示意图；
47.图4为本技术实施例提供的一种语音质检装置的结构示意图；
48.图5为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
49.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
50.术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
51.术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来，而不能理解为指示或暗示相对重要性，也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
52.针对现有技术中存在的不足，本技术实施例提供一种语音质检方法，用于在降低人力成本的情况下，实现语音的全面质检。
53.请参照图1，图1为本技术实施例提供的第一种语音质检方法的流程示意图，该语音质检方法，包括：
54.步骤101、获取待检测语音；其中，所述待检测语音为客服人员与客户之间的电话语音；
55.步骤102、将所述待检测语音输入语音质检模型；
56.步骤103、通过所述语音质检模型对所述待检测语音进行识别，获得所述语音质检模型输出的所述待检测语音对应的中间质检结果；其中，所述中间质检结果包括关键词质检结果、静音质检结果、语速质检结果和情绪质检结果；
57.步骤104、根据所述关键词质检结果、所述静音质检结果、所述语速质检结果和所述情绪质检结果获得所述待检测语音对应的语音质检结果。
58.其中，在步骤101中，待检测语音可以包括店面服务体验类的沟通语音、产品使用体验类的沟通语音以及产品推销类的沟通语音等。
59.其中，在步骤102中，可以提前设置好与各个语音场景所对应的语音质检模型，例如，店面服务体验类的语音质检模型、产品使用体验类的语音质检模型以及产品推销类的语音质检模型等；再将相应的待检测语音输入到对应的语音质检模型中。
60.其中，在步骤103中，可以先将待检测语音转换成待检测文本，再对该待检测文本进行识别，获得相应的关键词质检结果、静音质检结果、语速质检结果和情绪质检结果。其中，关键词质检结果是通过对待检测语音中是否出现预设的关键词进行检测所获得的，静音质检结果是通过对待检测语音中是否出现满足条件的静音现象进行检测所获得的，语速质检结果是通过对待检测语音的语速情况进行检测所获得的，情绪质检结果是通过对待检测语音的沟通情绪进行检测所获得的。
61.其中，在步骤104中，可以根据待检测语音中是否出现预设的关键词的情况、是否出现满足条件的静音现象、语速情况以及沟通情绪综合确定语音质检结果。
62.由上可知，本技术提供的一种语音质检方法，该语音质检方法基于语音质检模型对待检测语音进行了识别，实现了对待检测语音(即客服人员与客户之间的电话语音)的全面质检，提高了现有的语音质检的覆盖率，降低了语音漏检的风险，且相较于传统的人工抽查形式的语音检测，该基于语音质检模型的语音质检方法的人力成本更低，音频检测速度更快，所获得的语音质检结果的准确度也更高。
63.在一些可选的实施例中，通过所述语音质检模型对所述待检测语音进行识别，获得所述关键词质检结果，包括：通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的规定类关键词检测标准对所述文字识别结果进行规定类关键词检测，获得所述语音质检模型输出的规定类关键词质检结果；根据所述语音质检模型的禁止类关键词检测标准对所述文字识别结果进行禁止类关键词检测，获得所述语音质检模型输出的禁止类关键词质检结果；根据所述规定类关键词质检结果和所述禁止类
关键词质检结果确定所述关键词质检结果。
64.其中，语音质检模型可以通过自动语音识别(asr)、自然语音理解(nlu)和自然语音处理(nlp)等技术对该待检测语音进行识别获得文字识别结果。规定类关键词指的是在一次通话中，客服人员必须要讲的内容，例如，通话开头和结束的规定性的礼貌用语，通话过程中必须需要询问的问题等。禁止类关键词指的是在一次通话中，不可以出现的讲话内容，例如，询问他人账户隐私类的语句，涉及客服人员所述公司的商业秘密类的语句等。关键词质检结果可以包括：待检测语音中所出现的规定类关键词及其位置、待检测语音中所出现的禁止类关键词及其位置、待检测语音中所出现的规定类关键词次数、待检测语音中所出现的禁止类关键词次数等。
65.其中，还可以通过设置标准的语音模板，将上述文字识别结果和标准的语音模板进行比对，通过文字识别结果和标准的语音模板的比对相似度确定关键词质检结果。
66.在一些可选的实施例中，通过所述语音质检模型对所述待检测语音进行识别，获得所述静音质检结果，包括：通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的静音检测标准对所述文字识别结果中的相邻文字之间的静音时长进行检测，获得所述语音质检模型输出的所述静音质检结果。
67.其中，语音质检模型可以通过自动语音识别(asr)、自然语音理解(nlu)和自然语音处理(nlp)等技术对该待检测语音进行识别获得文字识别结果。静音检测标准可以是预设静音时间阈值，将上述文字识别结果所出现的相邻文字之间的静音时长和预设静音时间阈值进行比较，进而获得静音质检结果。静音质检结果可以包括：上述文字识别结果所出现的相邻文字之间的静音时长大于预设静音时间阈值的次数、相邻文字之间的静音时长大于预设静音时间阈值中的相邻文字在待检测语音中的位置、相邻文字之间的静音时长大于预设静音时间阈值中的静音时长的具体静音时间等。
68.在一些可选的实施例中，通过所述语音质检模型对所述待检测语音进行识别，获得所述语速质检结果，包括：通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的语速检测标准对所述文字识别结果中的预设时间内的文字数量进行检测，获得所述语音质检模型输出的所述语速质检结果。
69.其中，语音质检模型可以通过自动语音识别(asr)、自然语音理解(nlu)和自然语音处理(nlp)等技术对该待检测语音进行识别获得文字识别结果。语速检测标准可以是预设的单位时间内的文字数量阈值，单位时间可以是5秒钟，也可以是3秒钟，可以根据实际应用场景确定。将上述文字识别结果中的相同单位时间内的文字数量和预设的文字数量阈值进行比较，进而获得语速质检结果。语速质检结果可以包括：上述文字识别结果所出现的相同单位时间内的文字数量大于预设的文字数量阈值的次数、相同单位时间内的文字数量大于预设的文字数量阈值的现象在待检测语音中所出现的位置、大于预设的文字数量阈值的相同单位时间内的具体的文字数量等。
70.在一些可选的实施例中，通过所述语音质检模型对所述待检测语音进行识别，获得所述情绪质检结果，包括：通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的情绪检测标准对所述文字识别结果进行情绪类关键词检测，获得所述语音质检模型输出的所述情绪质检结果。
71.其中，语音质检模型可以通过自动语音识别(asr)、自然语音理解(nlu)和自然语
音处理(nlp)等技术对该待检测语音进行识别获得文字识别结果。情绪检测标准可以是预设的情绪类关键词。该情绪类关键词可以是必要的礼貌用语，或者尊称等，其可以根据具体的应用场景进行确定。情绪类关键词检测可以是对上述文字识别结果中是否出现预设的情绪类关键词进行检测。情绪质检结果可以包括：上述文字识别结果所出现的情绪类关键词的次数、情绪类关键词在待检测语音中的位置、具体出现的情绪类关键词的具体内容等。
72.其中，不同类别的质检结果的获取过程中，语音质检模型对待检测语音进行识别，所获得的文字识别结果可以不同。例如，关键词质检结果和情绪质检结果需要对具体的文字内容进行识别匹配，其对应的文字识别结果可以包括待检测语音中所出现的文字位置和具体的文字内容。而静音质检结果和语速质检结果只需要对待检测语音中所出现的静音现象和语速进行检测，其对应的文字识别结果可以只包括待检测语音中所出现的文字位置。当然，静音质检结果和语速质检结果所对应的文字识别结果也可以包括待检测语音中所出现的具体的文字内容。本技术对此不作具体限定。
73.请参考图2，图2为本技术实施例提供的第二种语音质检方法的流程示意图。
74.在一些可选的实施例中，步骤104、根据所述关键词质检结果、所述静音质检结果、所述语速质检结果和所述情绪质检结果获得所述待检测语音对应的语音质检结果，包括：步骤1041、将预设减分项和所述关键词质检结果、所述静音质检结果、所述语速质检结果以及所述情绪质检结果进行匹配，获得减分项匹配结果；步骤1042、根据所述减分项匹配结果和预设减分值计算出所述待检测语音的质检分数；步骤1043、将所述减分项匹配结果、所述减分项匹配结果对应的减分值以及所述质检分数作为所述待检测语音对应的所述语音质检结果。
75.其中，在步骤1041中，预设减分项可以包括：规定类关键词未出现的减分项、禁止类关键词出现的减分项、相邻文字之间的静音时长大于预设静音时间阈值的减分项、相同单位时间内的文字数量大于或小于相应的预设的文字数量阈值的减分项、情绪类关键词未出现的减分项等。
76.其中，在步骤1042中，可以通过预设满分，并采用减分值的方式计算出待质检语音的质检分数。预设满分可以是10分，也可以是100分。其中，不同的预设减分项所对应的减分分值可以相同，也可以不同，其可以根据具体的应用场景进行确定。具体地，不同的规定类关键词或禁止类关键词所对应的减分分值可以相同也可以不同；预设静音时间阈值也可以包括第一预设静音时间阈值和第二预设静音时间阈值，不同的预设静音时间阈值可以对应不同的减分分值；文字数量阈值也可以包括第一文字数量阈值和第二文字数量阈值，不同的预设的文字数量阈值可以对应不同的减分分值；情绪类关键词所对应的减分分值可以相同也可以不同。
77.其中，在步骤1043中，将减分项匹配结果、减分项匹配结果对应的减分值以及质检分数作为所述待检测语音对应的所述语音质检结果，可以便于后续对语音质检结果的复核工作的进行。
78.请参考图3，图3为本技术实施例提供的第三种语音质检方法的流程示意图。
79.在一些可选的实施例中，在步骤104、根据所述关键词质检结果、所述静音质检结果、所述语速质检结果和所述情绪质检结果获得所述待检测语音对应的语音质检结果之后，所述方法还包括：步骤105、向语音复检平台发送所述语音质检结果，以使质检人员对所
述语音质检结果进行复核。
80.其中，通过质检人员对语音质检结果进行抽查、复核，可以进一步提高语音质检的准确度。
81.请参照图4，图4为本技术实施例提供的一种语音质检装置的结构示意图，该语音质检装置，包括：
82.语音获取模块201，语音获取模块201用于获取待检测语音；其中，所述待检测语音为客服人员与客户之间的电话语音；
83.输入模块202，输入模块202用于将所述待检测语音输入语音质检模型；
84.中间质检结果获得模块203，中间质检结果获得模块203用于通过所述语音质检模型对所述待检测语音进行识别，获得所述语音质检模型输出的所述待检测语音对应的中间质检结果；其中，所述中间质检结果包括关键词质检结果、静音质检结果、语速质检结果和情绪质检结果；
85.语音质检结果获得模块204，语音质检结果获得模块204用于根据所述关键词质检结果、所述静音质检结果、所述语速质检结果和所述情绪质检结果获得所述待检测语音对应的语音质检结果。
86.在一些可选的实施例中，中间质检结果获得模块203包括：关键词质检结果获得模块，所述关键词质检结果获得模块用于通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的规定类关键词检测标准对所述文字识别结果进行规定类关键词检测，获得所述语音质检模型输出的规定类关键词质检结果；根据所述语音质检模型的禁止类关键词检测标准对所述文字识别结果进行禁止类关键词检测，获得所述语音质检模型输出的禁止类关键词质检结果；根据所述规定类关键词质检结果和所述禁止类关键词质检结果确定所述关键词质检结果。
87.在一些可选的实施例中，中间质检结果获得模块203包括：静音质检结果获得模块，所述静音质检结果获得模块用于通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的静音检测标准对所述文字识别结果中的相邻文字之间的静音时长进行检测，获得所述语音质检模型输出的所述静音质检结果。
88.在一些可选的实施例中，中间质检结果获得模块203包括：语速质检结果获得模块，所述语速质检结果获得模块用于通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的语速检测标准对所述文字识别结果中的预设时间内的文字数量进行检测，获得所述语音质检模型输出的所述语速质检结果。
89.在一些可选的实施例中，中间质检结果获得模块203包括：情绪质检结果获得模块，所述情绪质检结果获得模块用于通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的情绪检测标准对所述文字识别结果进行情绪类关键词检测，获得所述语音质检模型输出的所述情绪质检结果。
90.在一些可选的实施例中，中间质检结果获得模块203包括，语音质检结果获得模块204具体用于将预设减分项和所述关键词质检结果、所述静音质检结果、所述语速质检结果以及所述情绪质检结果进行匹配，获得减分项匹配结果；根据所述减分项匹配结果和预设减分值计算出所述待检测语音的质检分数；将所述减分项匹配结果、所述减分项匹配结果对应的减分值以及所述质检分数作为所述待检测语音对应的所述语音质检结果。
91.可选的，所述装置还包括：质检结果发送模块，所述质检结果发送模块用于向语音复检平台发送所述语音质检结果，以使质检人员对所述语音质检结果进行复核。
92.图5为本技术实施例提供的一种电子设备的结构示意图。参照图5，电子设备3包括：处理器301、存储器302，这些组件通过通信总线303和/或其他形式的连接机构(未示出)互连并相互通讯。
93.其中，存储器302包括一个或多个(图中仅示出一个)，其可以是，但不限于，随机存取存储器(random access memory，简称ram)，只读存储器(read only memory，简称rom)，可编程只读存储器(programmable read-only memory，简称prom)，可擦除可编程只读存储器(erasable programmable read-only memory，简称eprom)，电可擦除可编程只读存储器(electric erasable programmable read-only memory，简称eeprom)等。处理器301以及其他可能的组件可对存储器302进行访问，读和/或写其中的数据。
94.处理器301包括一个或多个(图中仅示出一个)，其可以是一种集成电路芯片，具有信号的处理能力。上述的处理器301可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、微控制单元(micro controller unit，简称mcu)、网络处理器(network processor，简称np)或者其他常规处理器；还可以是专用处理器，包括神经网络处理器(neural-network processing unit，简称npu)、图形处理器(graphics processing unit，简称gpu)、数字信号处理器(digital signal processor，简称dsp)、专用集成电路(application specific integrated circuits，简称asic)、现场可编程门阵列(field programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且，在处理器301为多个时，其中的一部分可以是通用处理器，另一部分可以是专用处理器。
95.在存储器302中可以存储一个或多个计算机程序指令，处理器301可以读取并运行这些计算机程序指令，以实现本技术实施例提供的语音质检方法。
96.可以理解的，图5所示的结构仅为示意，电子设备3还可以包括比图5中所示更多或者更少的组件，或者具有与图5所示不同的结构。图5中所示的各组件可以采用硬件、软件或其组合实现。电子设备3可能是实体设备，例如pc机、笔记本电脑、平板电脑、手机、服务器、嵌入式设备等，也可能是虚拟设备，例如虚拟机、虚拟化容器等。并且，电子设备3也不限于单台设备，也可以是多台设备的组合或者大量设备构成的集群。
97.本技术实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被计算机的处理器读取并运行时，执行本技术实施例提供的语音质检方法。例如，计算机可读存储介质可以实现为图5中电子设备3中的存储器302。
98.在本技术所提供的实施例中，应该理解到，所揭露装置以及系统，可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
99.另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元
显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
100.再者，在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
101.以上所述仅为本技术的实施例而已，并不用于限制本技术的保护范围，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

技术特征：
1.一种语音质检方法，其特征在于，所述方法包括：获取待检测语音；其中，所述待检测语音为客服人员与客户之间的电话语音；将所述待检测语音输入语音质检模型；通过所述语音质检模型对所述待检测语音进行识别，获得所述语音质检模型输出的所述待检测语音对应的中间质检结果；其中，所述中间质检结果包括关键词质检结果、静音质检结果、语速质检结果和情绪质检结果；根据所述关键词质检结果、所述静音质检结果、所述语速质检结果和所述情绪质检结果获得所述待检测语音对应的语音质检结果。2.根据权利要求1所述的方法，其特征在于，通过所述语音质检模型对所述待检测语音进行识别，获得所述关键词质检结果，包括：通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的规定类关键词检测标准对所述文字识别结果进行规定类关键词检测，获得所述语音质检模型输出的规定类关键词质检结果；根据所述语音质检模型的禁止类关键词检测标准对所述文字识别结果进行禁止类关键词检测，获得所述语音质检模型输出的禁止类关键词质检结果；根据所述规定类关键词质检结果和所述禁止类关键词质检结果确定所述关键词质检结果。3.根据权利要求1所述的方法，其特征在于，通过所述语音质检模型对所述待检测语音进行识别，获得所述静音质检结果，包括：通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的静音检测标准对所述文字识别结果中的相邻文字之间的静音时长进行检测，获得所述语音质检模型输出的所述静音质检结果。4.根据权利要求1所述的方法，其特征在于，通过所述语音质检模型对所述待检测语音进行识别，获得所述语速质检结果，包括：通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的语速检测标准对所述文字识别结果中的预设时间内的文字数量进行检测，获得所述语音质检模型输出的所述语速质检结果。5.根据权利要求1所述的方法，其特征在于，通过所述语音质检模型对所述待检测语音进行识别，获得所述情绪质检结果，包括：通过所述语音质检模型对所述待检测语音进行识别获得文字识别结果；根据所述语音质检模型的情绪检测标准对所述文字识别结果进行情绪类关键词检测，获得所述语音质检模型输出的所述情绪质检结果。6.根据权利要求1所述的方法，其特征在于，所述根据所述关键词质检结果、所述静音质检结果、所述语速质检结果和所述情绪质检结果获得所述待检测语音对应的语音质检结果，包括：将预设减分项和所述关键词质检结果、所述静音质检结果、所述语速质检结果以及所述情绪质检结果进行匹配，获得减分项匹配结果；根据所述减分项匹配结果和预设减分值计算出所述待检测语音的质检分数；将所述减分项匹配结果、所述减分项匹配结果对应的减分值以及所述质检分数作为所
述待检测语音对应的所述语音质检结果。7.根据权利要求1-6任一项所述的方法，其特征在于，在所述根据所述关键词质检结果、所述静音质检结果、所述语速质检结果和所述情绪质检结果获得所述待检测语音对应的语音质检结果之后，所述方法还包括：向语音复检平台发送所述语音质检结果，以使质检人员对所述语音质检结果进行复核。8.一种语音质检装置，其特征在于，所述装置包括：语音获取模块，所述语音获取模块用于获取待检测语音；其中，所述待检测语音为客服人员与客户之间的电话语音；输入模块，所述输入模块用于将所述待检测语音输入语音质检模型；中间质检结果获得模块，所述中间质检结果获得模块用于通过所述语音质检模型对所述待检测语音进行识别，获得所述语音质检模型输出的所述待检测语音对应的中间质检结果；其中，所述中间质检结果包括关键词质检结果、静音质检结果、语速质检结果和情绪质检结果；语音质检结果获得模块，所述语音质检结果获得模块用于根据所述关键词质检结果、所述静音质检结果、所述语速质检结果和所述情绪质检结果获得所述待检测语音对应的语音质检结果。9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1-7任一所述的方法。10.一种计算机可读存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1-7任一所述的方法。

技术总结
本申请提供一种语音质检方法、装置、电子设备及存储介质。该语音质检方法通过获取待检测语音；将所述待检测语音输入语音质检模型；通过所述语音质检模型对所述待检测语音进行识别，获得所述语音质检模型输出的所述待检测语音对应的中间质检结果获得所述待检测语音对应的语音质检结果。该语音质检方法基于语音质检模型对待检测语音进行了识别，实现了对待检测语音的全面质检，提高了现有的语音质检的覆盖率，降低了语音漏检的风险，且相较于传统的人工抽查形式的语音检测，该基于语音质检模型的语音质检方法的人力成本更低，音频检测速度更快，所获得的语音质检结果的准确度也更高。高。高。

技术研发人员：傅万里杨小路
受保护的技术使用者：阳光财产保险股份有限公司
技术研发日：2022.01.19
技术公布日：2022/3/8

专利

最新回复(0)