1.本发明涉及音频检测技术领域,尤其涉及一种音频精彩点确定方法、装置、电子设备和存储介质。
背景技术:
2.音频标记是音频模式识别中的一个重要方向,其根本任务为分析音频信号,识别出音频类型含义,如:人声、歌声、音乐声等。现有的音频标记技术,主要立足于信号处理的方式,提取音频的响度、频率等特征,根据规则进行音频种类的分析。或者利用数据集训练模型,将视觉深度模型中的卷积神经网络用来执行音频标记任务,提升音频标记效果。
3.但现有技术中,对于精彩声音(例如笑声、掌声、欢呼声)的检测,学术界并未做相关研究。
技术实现要素:
4.为解决现有技术无法自动检测和识别音频精彩点的技术问题,本发明实施例提供一种音频精彩点确定方法、装置、电子设备和存储介质。
5.本发明实施例的技术方案是这样实现的:
6.本发明实施例提供了一种音频精彩点确定方法,方法包括:
7.获取原始音频数据;
8.对所述原始音频数据进行切片处理,获得切片音频,所述切片音频以秒为单位;
9.对所述切片音频利用梅尔特征提取算法进行特征提取,获得梅尔频谱特征;
10.将所述原始音频数据和所述梅尔频谱特征输入至预设的深度模型中进行音频识别,确定所述原始音频数据中每秒音频数据所对应的音频标签;
11.对所述原始音频数据中每秒音频数据所对应的音频标签进行精彩点生成处理,获得音频精彩点片段。
12.上述方案中,所述对所述原始音频数据进行切片处理,获得切片音频包括:
13.获取设定的滑窗步长和窗口大小;
14.根据所述滑窗步长和所述窗口大小,将所述原始音频数据切分为多个一维数组;
15.获取多个所述一维数组的个数和所述原始音频数据的秒数;
16.根据多个所述一维数组的个数和所述原始音频数据的秒数,在多个所述一维数组的首尾复制预设数量个第一数组和/或第二数组,以使得所述一维数组的个数与所述原始音频数据的秒数相同;其中,所述第一数组为切分所述原始音频数据时所获得的第一个一维数组;所述第二数组为切分所述原始音频数据时所获得的最后一个一维数组;
17.将首尾复制后的多个一维数组作为所述原始音频数据的切片音频。
18.上述方案中,所述根据所述滑窗步长和所述窗口大小,将所述原始音频数据切分为多个一维数组包括:
19.按所述滑窗步长滑动所述原始音频数据,每滑动一次,按照所述窗口大小切分滑
动后的原始音频数据,获得一个一维数组;
20.根据所述滑窗步长对所述原始音频数据滑动多次,获得多个一维数组。
21.上述方案中,所述对所述切片音频利用梅尔特征提取算法进行特征提取,获得梅尔频谱特征包括:
22.对所述切片音频进行预加重处理,获得第一音频数据;
23.对所述第一音频数据进行分帧和加窗操作,获得第二音频数据;
24.对所述第二音频数据进行离散傅立叶变换,获得频域数据;
25.利用梅尔滤波器对所述频域数据进行识别,获得梅尔频谱特征。
26.上述方案中,所述将所述原始音频数据和所述梅尔频谱特征输入至预设的深度模型中进行音频识别,确定所述原始音频数据中每秒音频数据所对应的音频标签包括:
27.利用所述深度模型中的浅层特征提取模块对所述原始音频数据进行特征提取,获得第一特征;
28.利用所述深度模型对所述梅尔频谱特征进行数据增强,获得第二特征;
29.在所述深度模型中对所述第一特征和所述第二特征进行特征处理,确定所述原始音频数据中每秒音频数据所对应的音频标签。
30.上述方案中,所述在所述深度模型中对所述第一特征和所述第二特征进行特征处理,确定所述原始音频数据中每秒音频数据所对应的音频标签包括:
31.分别对所述第一特征和所述第二特征进行连接,获得三维特征图;
32.利用一维卷积层对所述三维特征图在时域维度上进行特征提取,获取时域维度上的三维时域特征;
33.利用二维卷积层对所述三维时域特征在时域和空间维度上进行特征提取,获取在时域和空间维度上的三维时域与空间特征;
34.对所述三维时域与空间特征进行特征冗余降低和特征尺寸统一处理,获得统一尺寸特征;
35.对所述统一尺寸特征进行空间映射和标签判别,获得原始音频数据中每秒音频数据所对应的音频标签。
36.上述方案中,所述对所述统一尺寸特征进行空间映射和标签判别,获得原始音频数据中每秒音频数据所对应的音频标签包括:
37.对所述统一尺寸特征进行空间映射,获得所述统一尺寸特征所对应的标签数值;
38.获取设定的召回阈值;
39.将所述标签数值与所述召回阈值进行比较,判断所述标签数值所对应的标签二值化数值;
40.根据所述标签二值化数值判断所述标签数值所对应的每秒音频数据是否具有所述标签二值化数值所对应的音频标签。
41.上述方案中,所述对所述原始音频数据中每秒音频数据所对应的音频标签进行精彩点生成处理,获得音频精彩点片段包括:
42.获取平滑步长和平滑窗口大小;
43.根据所述平滑步长滑动所述原始音频数据,每滑动一次,对所述平滑窗口大小的原始音频数据的二值化数值进行数值统一处理,获取数值统一后的二值化数值;
44.按照所述平滑步长对所述原始音频数据滑动多次,获得所述原始音频数据中每秒音频数据数值统一后的二值化数值;
45.根据所述原始音频数据中每秒音频数据数值统一后的二值化数值的连续性,确定连续预设数值的二值化数值所对应的音频片段为音频精彩点片段。
46.本发明实施例还提供了一种音频精彩点确定装置,音频精彩点确定装置包括:
47.获取模块,用于获取原始音频数据;
48.切片模块,用于对所述原始音频数据进行切片处理,获得切片音频,所述切片音频以秒为单位;
49.特征提取模块,用于对所述切片音频利用梅尔特征提取算法进行特征提取,获得梅尔频谱特征;
50.音频识别模块,用于将所述原始音频数据和所述梅尔频谱特征输入至预设的深度模型中进行音频识别,确定所述原始音频数据中每秒音频数据所对应的音频标签;
51.精彩点生成模块,用于对所述原始音频数据中每秒音频数据所对应的音频标签进行精彩点生成处理,获得音频精彩点片段。
52.本发明实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
53.处理器用于运行计算机程序时,执行上述任一方法的步骤。
54.本发明实施例还提供了一种存储介质,存储介质中存储有计算机程序,计算机程序被处理器执行时,实现上述任一方法的步骤。
55.本发明实施例提供的音频精彩点确定方法、装置、电子设备和存储介质,获取原始音频数据;对所述原始音频数据进行切片处理,获得切片音频,所述切片音频以秒为单位;对所述切片音频利用梅尔特征提取算法进行特征提取,获得梅尔频谱特征;将所述原始音频数据和所述梅尔频谱特征输入至预设的深度模型中进行音频识别,确定所述原始音频数据中每秒音频数据所对应的音频标签;对所述原始音频数据中每秒音频数据所对应的音频标签进行精彩点生成处理,获得音频精彩点片段。采用本发明提供的方案能结合业务场景的需求,完成音频精彩点的自动检测和识别。
附图说明
56.图1为本发明实施例音频精彩点确定方法的流程示意图;
57.图2为本发明应用实施例系统运作步骤示意图;
58.图3为本发明应用实施例梅尔频谱提取流程示意图;
59.图4为本发明应用实施例预处理模块流程示意图;
60.图5为本发明应用实施例深度模型结构示意图;
61.图6为本发明应用实施例秒级标签识别模块流程示意图;
62.图7为本发明应用实施例后处理模块流程示意图;
63.图8为本发明应用实施例系统框架示意图;
64.图9为本发明实施例音频精彩点确定装置的结构示意图;
65.图10为本发明实施例计算机设备的内部结构图。
具体实施方式
66.下面将结合附图及实施例对本发明作进一步详细的描述。
67.本发明实施例提供了一种音频精彩点确定方法,如图1所示,该方法包括:
68.步骤101:获取原始音频数据;
69.步骤102:对所述原始音频数据进行切片处理,获得切片音频,所述切片音频以秒为单位;
70.步骤103:对所述切片音频利用梅尔特征提取算法进行特征提取,获得梅尔频谱特征;
71.步骤104:将所述原始音频数据和所述梅尔频谱特征输入至预设的深度模型中进行音频识别,确定所述原始音频数据中每秒音频数据所对应的音频标签;
72.步骤105:对所述原始音频数据中每秒音频数据所对应的音频标签进行精彩点生成处理,获得音频精彩点片段。
73.具体地,获取原始音频数据时,可直接获取音频数据,也可以先获取音视频数据,再利用软件将音视频数据中的音频数据分离出来,获得原始音频数据。这里,可使用ffmpeg开源软件从音视频数据分离出原始音频数据。
74.实际应用时,可将原始音频数据编码至特定格式进行存储后再对特定格式的原始音频数据进行音频识别,识别出原始音频数据中的精彩点。这里,本技术中的精彩点指笑声、掌声、欢呼声等具有看点的音频点位。实际应用时,可将原始音频数据编码至wav格式进行存储后,再对wav格式的原始音频数据进行音频识别,识别出原始音频数据中的精彩点。具体存储时,可利用开源音频处理库将原始音频数据以一维数组方式进行存储,存储至内存中。
75.在获取原始音频数据后,可对原始音频数据进行切片处理,获得切片音频,所述切片音频以秒为单位。
76.具体地,为实现对短时音频的分析具有较强的可靠性,实现对秒级音频的分析处理,可按秒为单位对原始音频数据进行切片处理。
77.进一步地,在一实施例中,所述对所述原始音频数据进行切片处理,获得秒级音频数据包括:
78.获取设定的滑窗步长和窗口大小;
79.根据所述滑窗步长和所述窗口大小,将所述原始音频数据切分为多个一维数组;
80.获取多个所述一维数组的个数和所述原始音频数据的秒数;
81.根据多个所述一维数组的个数和所述原始音频数据的秒数,在多个所述一维数组的首尾复制预设数量个第一数组和/或第二数组,以使得所述一维数组的个数与所述原始音频数据的秒数相同;其中,所述第一数组为切分所述原始音频数据时所获得的第一个一维数组;所述第二数组为切分所述原始音频数据时所获得的最后一个一维数组;
82.将首尾复制后的多个一维数组作为所述原始音频数据的切片音频。
83.实际应用时,可以基于业务场景进行切片处理。具体地,可以基于业务场景的检测粒度需求,设定滑窗步长;再基于深度模型、业务场景下的检测置信度和/或样本长短的特性,设定窗口大小;利用设定的滑窗步长和窗口大小,将原始音频数据切分为一维音频数据,获得多个一维数组。
84.根据所述滑窗步长和所述窗口大小,切分原始音频数据时,可按所述滑窗步长滑动所述原始音频数据,每滑动一次,按照所述窗口大小切分滑动后的原始音频数据,获得一个一维数组;根据所述滑窗步长对所述原始音频数据滑动多次,获得多个一维数组。例如,可基于业务场景检测粒度需求,设置滑窗步长为1秒;再基于深度模型、业务场景下的检测置信度和/或样本长短的特性,设置窗口大小为2秒,则当原始音频为10秒时,以每次滑动1秒原始音频数据的速度滑动所述原始音频数据,每滑动一次,从滑动后的原始音频数据中切片出一个2秒的音频数据,每切片出的一个2秒的音频数据为一个一维数组。按照1秒的滑窗步长和2秒的窗口大小对10秒的音频数据进行切片处理,可共切片得到9个一维数组。
85.由于本技术是以秒为单位对原始音频数据进行音频识别,为保证原始音频数据中每秒音频数据都能对应有一个识别结果,避免由于切片处理导致一维数组的个数减少而使部分秒数的音频数据没有对应的识别结果的情况,本技术可在多个所述一维数组的首尾复制预设数量个第一数组和/或第二数组,以使得所述一维数组的个数与所述原始音频数据的秒数相同,从而实现每秒音频数据都能对应有一个对应的识别结果。例如,当滑窗步长为1秒,窗口大小为2秒时,对10秒的原始音频数据进行切片处理,获得9个一维数组后,可在9个一维数组的首部复制第一个一维数组,或者在9个一维数组的尾部复制最后一个一维数组,以使得所述一维数组的个数与所述原始音频的秒数相同。
86.这里,在选择滑窗步长和窗口大小时,可以基于应用场景选择合适的滑窗步长和窗口大小。例如,针对秒级标签场景,在选择滑窗步长和窗口大小时,可将滑窗步长设定为小于窗口大小,这里使得切片处理后的一维数组之间相互交叠,从而适应秒级标签场景(秒级标签场景需对每秒视频输出一个秒级标签,一维数组之间相互交叠,可提高识别稳定性);针对片段级标签场景,在选择滑窗步长和窗口大小时,可将滑窗步长设定为与窗口大小相同,这里使得切片处理后的一维数组之间不相互交叠,从而适应片段级标签场景(片段级标签场景仅需确定该片段内是否存在精彩点,因此,针对片段级标签场景,可设置一维数组之间不相互交叠)。
87.另外,针对秒级标签场景,需注意的是,在对切片后的一维数组进行首尾补充时,需保证每秒音频数据所对应的每个切片音频都需包含原始音频数据中该秒对应的音频数据,从而保证基于每个切片音频所获得的每秒音频数据的音频标签是准确的。
88.在获得切片音频后,可对获得的切片音频进行特征提取,获得梅尔频谱特征。
89.进一步地,在一实施例中,所述对所述切片音频利用梅尔特征提取算法进行特征提取,获得梅尔频谱特征包括:
90.对所述切片音频进行预加重处理,获得第一音频数据;
91.对所述第一音频数据进行分帧和加窗操作,获得第二音频数据;
92.对所述第二音频数据进行离散傅立叶变换,获得频域数据;
93.利用梅尔滤波器对所述频域数据进行识别,获得梅尔频谱特征。
94.具体地,梅尔特征提取算法,又称为梅尔频谱提取技术,是基于人耳感知的声音频率和声音的实际频率并不是线性的,通过构建一组滤波器,对输入信号进行滤波,将每个滤波器输出的信号能量作为信号的基本特征,将该特征经过进一步处理后作为语音的输入特征。梅尔特征提取算法不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,具有很好的鲁棒性,符合人耳的听觉特性,而且当信噪比降低
时仍然具有较好的识别性能。
95.利用梅尔特征提取算法,可将切片音频转化为带有时域与频域信息的二维特征矩阵。
96.具体地,基于梅尔特征提取算法,可先对切片音频进行预加重处理,在对切片音频进行预加重处理时,可利用高通滤波器对切片音频中的高频部分进行增强。另外,需同时保证切片音频在低频到高频的整个频段中,使用同样的信噪比求频谱。这里,实际增强时,可通过增大预加重系数的方式,来实现增强切片音频中的高频部分。
97.在本技术中,由于笑点、掌声、欢呼声等精彩点的频率一般高于其他声音的频率。因此,在本实施例中,对切片音频中的高频部分进行增强,可加强本实施对精彩点的检测。比如,在搞笑类综艺节目中,为识别出音频数据中的笑点、掌声等点位,由于笑点、掌声等点位处的频率一般较高于其他点位,为达到较好的笑点、掌声等点位的识别效果,可在对音频数据进行切片处理后,对切片音频中的2000-3000hz频段进行增强,将预加重系数设定为0.97的方式,来增强切片音频中的高频部分。
98.对切片音频进行预加重处理后,可对预加重处理后的第一音频数据进行分帧操作,进行时域上的分帧。即按某个固定的时间长度,将第一音频数据分割为多个一维第一数组。这里,分割的每个一维第一数组,可称为一帧。这里,需要说明的是,本实施例中的分帧操作并不指代上述实施例中的切片操作。在本实施例中,可先对原始音频数据进行切片处理获得切片音频,再利用梅尔特征提取算法中的分帧操作对切片音频进行分帧。在进行分帧操作后,可对分帧后的多个一维第一数组进行加窗处理,来增加帧左端和帧右端的连续性,减少频谱泄露。实际应用时,可使用传统的窗函数进行分窗操作,例如,hamming窗函数。
99.进行加窗操作后,可对加窗处理后的第二音频数据进行离散傅立叶变换,将原先为时域表征的信号,转变为频域上能量的表征,不同的能量分布能够代表着不同的语音特征。这里,可将离散傅立叶变换后的数据定义为频域数据。
100.获得频域数据后,可利用梅尔滤波器对所述频域数据进行识别,获得梅尔频谱特征。具体地,可将频域数据传入梅尔滤波器中,将线性频谱映射到基于听觉感知的梅尔非线性频谱中,模拟听觉感知,得到二维的梅尔频谱特征。由于本技术是对以秒为单位的切片音频进行梅尔频谱特征识别,因此,识别出来的梅尔频谱特征也可称为秒级梅尔频谱特征。
101.进一步地,在一实施例中,所述将所述原始音频数据和所述梅尔频谱特征输入至预设的深度模型中进行音频识别,确定所述原始音频数据中每秒音频数据所对应的音频标签包括:
102.利用所述深度模型中的浅层特征提取模块对所述原始音频数据进行特征提取,获得第一特征;
103.利用所述深度模型对所述梅尔频谱特征进行数据增强,获得第二特征;
104.在所述深度模型中对所述第一特征和所述第二特征进行特征处理,确定所述原始音频数据中每秒音频数据所对应的音频标签。
105.这里,深度模型可以为卷积神经网络模型。该深度模型可根据任务目标及惩罚函数,动态调整卷积核权值,对样本做特征提取与分类映射,泛化到业务场景下的数据样本,完成业务场景下样本的标签判定。
106.具体地,深度模型在接收到原始音频数据及梅尔频谱特征后,先将原始音频数据,
送入一个由卷积层和池化层构成的浅层特征提取模型中,通过可学习参数的方式,获取一些梅尔频谱忽略的音频特征,即第一特征。该特征可为后续深度模型的深层特征映射的输入保留更多信息。与此同时,所述深度模型还可对梅尔频谱特征进行数据增强,获得第二特征,对梅尔频谱特征进行数据增强,可增强网络的泛化性防止过拟合。这里,可使用mixup、specaugment等数据增强手段。
107.本实施例中,通过利用深度模型对原始音频数据与梅尔频谱特征进行秒级音频标签推理操作,可推理出看点音频的时间点位。即本实施例通过使用深度模型可实现从原始音频数据与梅尔频谱特征中学习当前是否存在音频看点相关声音标签。
108.进一步地,在一实施例中,所述在所述深度模型中对所述第一特征和所述第二特征进行特征处理,确定所述原始音频数据中每秒音频数据所对应的音频标签包括:
109.分别对所述第一特征和所述第二特征进行连接,获得三维特征图;
110.利用一维卷积层对所述三维特征图在时域维度上进行特征提取,获取时域维度上的三维时域特征;
111.利用二维卷积层对所述三维时域特征在时域和空间维度上进行特征提取,获取在时域和空间维度上的三维时域与空间特征;
112.对所述三维时域与空间特征进行特征冗余降低和特征尺寸统一处理,获得统一尺寸特征;
113.对所述统一尺寸特征进行空间映射和标签判别,获得原始音频数据中每秒音频数据所对应的音频标签。
114.具体地,分别对所述第一特征和所述第二特征进行连接时,可通过连接函数分别对第一特征和第二特征进行连接,获得三维特征图。对第一特征和第二特征进行连接,可理解为将二维特征图叠起来,叠起来之后的二维特征图,即三维特征图。这里,连接函数可以为concat()函数。
115.在获得三维特征图后,可将三维特征图传入深度模型中的一维卷积层。利用该层对三维特征图在时域维度上进行不同特征的提取,获得三维时域特征。之后,可将三维时域特征送入深度模型中的二维卷积层,增大感受野,产出融合时域与空间的特征,即在时域和空间维度上的三维时域与空间特征。在获得三维时域与空间特征后,可将三维时域与空间特征送入深度模型中的全局池化层,降低特征的冗余;同时,将三维时域与空间特征中的不同尺寸通过特征尺寸统一处理,获得尺寸固定的统一尺寸特征。获得统一尺寸特征后,可将统一尺寸特征送入深度模型中的全连接层,将学到的“分布式特征表示”映射到样本标记空间;并输出结果。在获得输出结果后,可将输出结果送入深度模型中的dropout层,这里,该dropout层会随机舍弃一些特征图内容,防止模型的过拟合。最后,可使用与标签同等数量的判别器,对dropout层的输出结果进行预测,预测该样本是否拥有某个标签的音频内容。这里,可使用sigmoid判别器进行预测。
116.进一步地,在一实施例中,所述将所述原始音频数据和所述梅尔频谱特征输入至预设的深度模型中进行音频识别,确定所述原始音频数据中每秒音频数据所对应的音频标签还包括:
117.获取训练数据,以及所述训练数据对应的真实音频标签;
118.利用所述训练数据和所述真实音频标签对初始深度模型进行训练,获得训练后的
深度模型;
119.将所述原始音频数据和所述梅尔频谱特征输入至训练后的深度模型中进行音频识别,确定所述原始音频数据中每秒音频数据所对应的音频标签。
120.实际应用时,在利用深度模型进行识别判断之前,可先搭建深度模型,并对深度模型进行训练,从而获得能进行精彩点识别的深度模型。
121.这里,可通过音频数据组织、模型搭建、预训练权值载入、多epoch训练与权值保存等步骤,实现深度模型的搭建和训练。具体地,先获得训练数据,即先获得用于模型训练的原始音频数据和梅尔频谱特征。这里,可将用于模型训练的原始音频数据和梅尔频谱特征组织成hdf5格式文件,并获取对应的真实音频标签。接着,再进行深度模型的搭建,并将开源audioset预训练权值载入至搭建完成的深度模型中,作为初始化权值,用于指导后续的训练。将权值载入至深度模型后,可将hdf5格式文件输入至该深度模型中,进行多轮的训练,训练完成后,可将训练后的网络权值存储至磁盘中,供后续推理流程的调用。
122.获得训练后的网络权值后,可利用训练后的网络权值进行音频精彩点的识别判断。这里,可通过权值载入,预处理数据读入、前向推理等步骤实现音频精彩点的识别判断。具体地,将训练后的网络权值载入深度模型中,并获得待检测的原始音频数据,将待检测的原始音频数据输入载入后的深度模型中,前向推理,从而获得二维秒级标签。
123.进一步地,在一实施例中,所述对所述统一尺寸特征进行空间映射和标签判别,获得原始音频数据中每秒音频数据所对应的音频标签包括:
124.对所述统一尺寸特征进行空间映射,获得所述统一尺寸特征所对应的标签数值;
125.获取设定的召回阈值;
126.将所述标签数值与所述召回阈值进行比较,判断所述标签数值所对应的标签二值化数值;
127.根据所述标签二值化数值判断所述标签数值所对应的每秒音频数据是否具有所述标签二值化数值所对应的音频标签。
128.具体地,将统一尺寸特征进行空间映射后,可获得该特征对应的标签数值。即通过该深度模型,1秒的音频数据可获得多个标签类别的标签数值。对于多个标签类别中的某一标签类别的标签数值,可利用召回阈值,判断该秒音频数据是否具有该类标签。当该类标签类别的标签数值大于或等于召回阈值时,可判定该秒音频数据具有该类标签,当该类标签类别的标签数值小于召回阈值时,可判定该秒音频数据不具有该类标签。这里,召回阈值可基于业务场景进行设置。根据不同的业务需求,灵活调整参数,使模型的计算结果适配不同的应用场景。实际应用时,可利用标签二值化数值来表征该秒音频数据是否具有该类标签。例如可将标签二值化数值设置为1表征该秒音频数据具有该类标签;可将标签二值化数值设置为0表征该秒音频数据不具有该类标签。
129.进一步地,在一实施例中,所述对所述原始音频数据中每秒音频数据所对应的音频标签进行精彩点生成处理,获得音频精彩点片段包括:
130.获取平滑步长和平滑窗口大小;
131.根据所述平滑步长滑动所述原始音频数据,每滑动一次,对所述平滑窗口大小的原始音频数据的二值化数值进行数值统一处理,获取数值统一后的二值化数值;
132.按照所述平滑步长对所述原始音频数据滑动多次,获得所述原始音频数据中每秒
音频数据数值统一后的二值化数值;
133.根据所述原始音频数据中每秒音频数据数值统一后的二值化数值的连续性,确定连续预设数值的二值化数值所对应的音频片段为音频精彩点片段。
134.具体地,可将每秒音频数据的音频标签进行平滑,从而根据平滑后的结果生成带有时间点位的看点片段。实际应用时,可基于业务场景及声音的连续性,制定平滑窗口大小和平滑步长,将确定的二值化数值连成平滑的片段二值化数值,根据平滑后的二值化数值的连续性,确定音频精彩点片段。例如,当9秒的原始音频数据中每秒音频数据的二值化数值为111011000时,可利用平滑窗口大小和平滑步长将该二值化数值平滑成111111000,则原始音频数据中第1秒至第6秒的音频片段为音频精彩点片段。
135.本发明实施例提供的音频精彩点确定方法,获取原始音频数据;对所述原始音频数据进行切片处理,获得切片音频,所述切片音频以秒为单位;对所述切片音频利用梅尔特征提取算法进行特征提取,获得梅尔频谱特征;将所述原始音频数据和所述梅尔频谱特征输入至预设的深度模型中进行音频识别,确定所述原始音频数据中每秒音频数据所对应的音频标签;对所述原始音频数据中每秒音频数据所对应的音频标签进行精彩点生成处理,获得音频精彩点片段。采用本发明提供的方案能结合业务场景的需求,完成音频精彩点的自动检测和识别。
136.下面结合应用实施例对本发明再作进一步详细的描述。
137.本实施例可应用在音频存在的场景下,对音频信号做处理与分析,分析出音频中的笑声、掌声、欢呼声的时间点位,并进行叠加后处理,从而完成自动的音频/视频精彩点位检测,如:综艺金句定位、影视剧看点标记等。本实施例可在样本较难收集的条件下,结合业务寻找看点的需求,分析与定位音频中的可能为精彩点位的声音。
138.本实施例主要是利用传统语音特征提取技术,将音频数字信号表征为数字特征;并将数字特征传入深度网络模型即监督训练模型中,提取可用做看点音频(笑声/掌声/欢呼声)判别的特征表征,并将提取的特征表征送入sigmoid判别器(可理解为一种标签判别器)中实现对逐秒音频做有无看点的概率预测;接着使用适合业务场景的后处理策略,将秒级标签平滑成片段级标签,输出为业务做后续的标签使用。
139.在介绍本实施例的具体方案之前,先介绍本实施例使用到的几种算法原理:
140.第一种:传统的梅尔频谱提取技术。
141.梅尔频谱提取技术依据的是人耳感知的声音频率和声音的实际频率并不是线性的,通过构建一组滤波器,对输入信号进行滤波。将每个滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,该特征具有很好的鲁棒性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
142.第二种:深度模型,主要为卷积神经网络。
143.其原理主要为根据任务目标及惩罚函数,动态调整卷积核权值,对样本做特征提取与分类映射,泛化到业务场景下的数据样本,完成业务场景下样本的标签判定。
144.具体地,本实施例所提出的方案主要分为三大模块:数据音频信号预处理模块、秒级标签识别模块、基于业务场景的后处理模块。即本实施例的具体运作过程步骤可如图2所
示。即
145.s1:使用数据音频信号预处理模块,载入音频,并处理成梅尔频谱特征。
146.s2:将s1中产出的原始信号数组与梅尔频谱特征送入深度模型中,做秒级音频标签推理操作,推理出拥有看点音频的时间定位。
147.s3:将s2输出的秒级标签,经由后处理模块,连成带有时间点位的看点片段。
148.下面,将对上述步骤作进一步详细的解释。
149.(一)数据音频信号预处理模块
150.在本实施例中,对数字信号的前置处理,主要是利用传统的梅尔特征提取算法,将数字信号转为带有时域与频域信息的二维特征矩阵。
151.具体地,参见图3,梅尔频谱提取算法的操作过程包括以下内容:
152.梅尔特征提取算法首先对载入的语音数据做预加重操作,将语音信号通过一个高通滤波器,增强语音信号中的高频部分,并保持在低频到高频的整个频段中,能够使用同样的信噪比求频谱。在本实施例中,由于是根据所涉及的业务场景对看点音频进行检测,因此,可以将预加重系数设置较大,来突出高频音频信息。接着,使用将一维的音频数据,进行时域上的分帧操作,按某个固定的时间长度,分割一维数组成多个一维数组,其中每个一维数组,称为一帧;接着,对每一帧进行加窗,本实施例中使用的窗函数可以为传统的hamming窗,来增加帧左端与右端的连续性,减少频谱泄露。一帧音频在加窗处理之后,使用离散傅立叶变换将原先为时域表征的信号,转变为频域上能量的表征,不同的能量分布能够代表不同的语音特征。接着,频域数据传入梅尔滤波器中,将线性频谱映射到基于听觉感知的梅尔非线性频谱中,模拟听觉感知,最终得到二维的梅尔频谱特征。
153.基于上述梅尔特征提取算法的操作过程,本实施例中的数字信号预处理模块具体工作步骤可如图4所示。包括以下内容:
154.s11:使用ffmpeg(可理解为一种音频分离技术)将目标音频从音视频样本中分离,并重编码至wav格式;使用开源音频处理库librosa将音频信号载入至内存,以一维数组方式保存;
155.s12:将s11输出的原始音频数据,基于业务场景做相应的切片预处理;
156.s13:将s12输出的切片音频,分别进行梅尔频谱特征提取,理解为当前秒数的梅尔特征。
157.这里,s12的详细过程可主要分为以下两步:
158.s121:基于业务场景检测粒度需求,设定滑窗步长;基于后续深度模型,在场景下的检测置信度与样本长短的特性,设定窗口大小;使用步长与窗口大小,切分原始一维音频数据,成多个一维数组;
159.s122:使用复制扩充的方式,将s121策略输出的一维单片音频数组个数,头尾补充,使其数量与原始音频秒数相同,则当前音频片数组后续计算结果,表征当前秒数的计算结果。
160.这里,滑窗步长和窗口大小可基于业务场景需要进行选择。例如,对于掌声等精彩点,由于掌声与雨声相似,为准确识别出掌声,避免雨声等声音的干扰,可将窗口大小设置为较大数值,例如3秒。通过将窗口大小设置较大的方式,来使得切片后的切片音频较长,从而在识别时,能提高识别掌声的准确度,避免雨声声音的干扰。再例如,对于笑声等精彩点,
由于笑声与其他声音区别较大,较容易被识别出来,这里,可选择窗口大小为1秒,来实现笑声的精彩点检测。
161.另外,由于本技术是针对秒级标签场景进行识别,因此,可将滑窗步长设定为1秒,以保证较好的识别结果。
162.具体地,可按所述滑窗步长滑动所述原始音频数据,每滑动一次,按照所述窗口大小切分滑动后的原始音频数据,获得一个一维数组;根据所述滑窗步长对所述原始音频数据滑动多次,获得多个一维数组。例如,可基于业务场景检测粒度需求,设置滑窗步长为1秒;再基于深度模型、业务场景下的检测置信度和/或样本长短的特性,设置窗口大小为2秒,则当原始音频为10秒时,以每次滑动1秒原始音频数据的速度滑动所述原始音频数据,每滑动一次,从滑动后的原始音频数据中切片出一个2秒的音频数据,每切片出的一个2秒的音频数据为一个一维数组。按照1秒的滑窗步长和2秒的窗口大小对10秒的音频数据进行切片处理,可共切片得到9个一维数组。
163.切片之后,使用复制扩充的方式,使得将s121策略输出的一维单片音频数组个数,头尾补充,使其数量与原始音频秒数相同。例如,当滑窗步长为1秒,窗口大小为2秒时,对10秒的原始音频数据进行切片处理,获得9个一维数组后,可在9个一维数组的首部复制第一个一维数组,或者在9个一维数组的尾部复制最后一个一维数组,以使得所述一维数组的个数与所述原始音频的秒数相同。
164.以上为本实施例中数据音频信号预处理模块的相关内容。
165.(二)秒级标签识别模块
166.在本模块中,主要通过搭建深度模型(audiocnn),有监督训练模型,使模型能从原始音频特征(梅尔频谱特征)中学习当前是否存在音频看点相关声音标签。
167.这里,具体的网络模型,可如图5所示,包含如下过程:
168.如图5所示,网络模型会同时接收原始音频数据,及数字信号预处理模块产出的梅尔频谱特征,作为audiocnn模型的输入。其中,原始音频数据,会送入一个由卷积层和池化层构成的浅层特征提取模型中,目的是为了通过可学习参数的方式,获取一些梅尔频谱忽略的音频特征,为后续深层的特征映射的输入保留更多信息;而另外的梅尔特征输入分支,会在获取梅尔频谱特征之后,做有效的数据增强,包括:mixup数据增强和specaugment数据增强,目的是为了增强网络的泛化性防止过拟合。完成上述处理之后,将不同的输入通道产出的特征,使用concat的方式连接成三维feature map,接着传入一维卷积层,在不同时域上分别提取特征;之后,使用二维卷积,增大感受野,产出融合时域与空间的特征;接着,传入全局池化层,降低特征的冗余,同时,将不同长度输入产生不同尺寸feature map固定成特定的维数;池化层产出的统一维度的特征,将送入全连接层,将学到的“分布式特征表示”映射到样本标记空间;每个全连接层的输出,将会送入dropout层,随机舍弃一些feature map内容,这样能够防止模型的过拟合;最后,使用与标签同等数量的sigmoid激活器,分别预测该样本是否拥有某个标签的音频内容。
169.基于上述深度模型,本模块的主要流程可包括:
170.如图6所示:本秒级标签识别模块可主要分为以下两个流程:训练流程和使用流程。其中,
171.(1)训练流程。主要包括:音频数据组织、模型搭建、预训练权值载入、多epoch训练
与权值保存。具体为:
172.s21:训练数据经过数据音频信号预处理模块处理后,输出的原始音频数据和梅尔频谱特征,组织成hdf5格式文件,记录着数据和对应真实音频标签。
173.s22:搭建上述的深度模型。
174.s23:载入开源audioset预训练权值至步骤s22搭建完成的深度模型中,作为初始化权值,指导后续的训练。
175.s24:将步骤s21准备好的数据,输入步骤s23初始化后的深度模型,进行多轮的训练。
176.s25:步骤s24完成后,将网络权值存储至磁盘中,供后续推理流程的调用。
177.(2)使用流程。主要包括:权值载入,预处理数据读入、前向推理。具体为:
178.s26:将步骤s25存储的权值载入模型中。
179.s27:经数据音频信号预处理模块处理后,读取待检测的音频数据。
180.s28:将步骤s27读入的数据,送入步骤s26准备的模型中,前向推理。
181.s29:产出二维秒级标签,供后续后处理模块使用。
182.以上为本实施例中秒级标签识别模块的相关内容。
183.(三)后处理模块
184.本实施例中的后处理模块,主要是针对业务场景需求设计而成的。并且,根据不同的业务需求,可能够灵活调整参数,使模型的计算结果适配不同的应用场景。
185.具体地,参见图7,本实施例中的后处理模块的整体流程设计,主要分为以下两个步骤:首先是秒级标签的召回机制设计,接着是秒级标签连成片段级标签的滑窗设计。以上两步具体为:
186.(1)根据业务场景在原始标签划分出看点标签内容,接着通过业务指导样例,确定看点标签的召回阈值,产出二值化的秒级标签。
187.(2)分析业务场景,及声音的连续性,制定平滑窗口大小,将二值化的秒级标签连成平滑的片段级标签,最终产出音频看点指导片段。
188.具体地,上述深度模型会对原始音频数据中每秒音频数据输出对应的多个标签类别的标签数值。利用确定的召回阈值,对该标签数值进行判断,可确定该秒音频数据是否具有该类标签,这里,用二值化数值表征判断结果。例如,当二值化数值为1时表征该秒音频数据具有该类标签;当二值化数值为0时表征该秒音频数据不具有该类标签。
189.再基于业务场景设置平滑步长和平滑窗口大小,根据所述平滑步长滑动所述原始音频数据,每滑动一次,对所述平滑窗口大小的原始音频数据的二值化数值进行数值统一处理,获取数值统一后的二值化数值;按照所述平滑步长对所述原始音频数据滑动多次,获得所述原始音频数据中每秒音频数据数值统一后的二值化数值;根据所述原始音频数据中每秒音频数据数值统一后的二值化数值的连续性,确定连续预设数值的二值化数值所对应的音频片段为音频精彩点片段。
190.例如,当9秒的原始音频数据中每秒音频数据的二值化数值为111011000时,可利用平滑窗口大小和平滑步长将该二值化数值平滑成111111000,则原始音频数据中第1秒至第6秒的音频片段为音频精彩点片段。
191.通过设计标签的召回机制和平滑处理,可自动在原始音频数据中生成音频精彩点
片段。
192.以上为本实施例中后处理模块的相关内容。
193.综上,在详细介绍完本实施例上述三个模块的相关内容后,下面将基于上述三个模块,详细介绍本实施例的完整过程可包括:
194.具体地,参见图8,如上述内容所述,本实施例系统主要分为三个模块:数据音频信号预处理模块、秒级标签识别模块和业务场景后处理模块。其中,音频信号预处理模块执行音频信号载入内存、获取一维音频数据、梅尔频谱提取、二维梅尔特征的过程;秒级标签识别模块执行数据增强、模型训练、模型前向推理、秒级标签识别的过程;业务场景后处理模块执行秒级标签二值化、平滑成片段标签的过程。通过上述三个模块,最终获得看点音频片段。本实施将原始音频送入该系统,可实现自动化检测并写出音频看点指导片段,供后续的业务做逻辑叠加与使用。
195.另外,综上,本实施例相较于现有技术,具有以下优势:(1)音频预处理中,根据看点音频的特性,对高频频率段频谱做了放大,使其特征更易被模型学习到。(2)在深度模型中,嵌入浅层的原始音频特征提取层,能更好的学习音频特征的多样性,使其不局限于梅尔频谱提供的特征信息,增强了网络的泛化性。(3)将后处理参数化,同时能够自动化给出参考参数范围,无需太多人工介入。(4)结合音频标签与看点需求,完成音频看点标签的提出。
196.本实施例通过传统特征处理结合数据增强的方式,弥补数据样本不足情况下的监督模型的有效训练;同时,针对任务定位需求,改进现有模型,使其在分析短时音频场景下有较强的可靠性;最后,针对业务场景及目标声音特性,提出的扩大特定频率段的预处理方法、可控区间平滑的后处理装置。本实施例应用于看点剪辑业务、纯享业务中,可实现从音频角度自动化给出看点、精彩点点位信息,供后期剪辑的选取,减少人工成本。
197.为了实现本发明实施例的方法,本发明实施例还提供了一种音频精彩点确定装置,如图9所示,音频精彩点确定装置900包括:获取模块901、切片模块902、特征提取模块903、音频识别模块904和精彩点生成模块905;其中,
198.获取模块901,用于获取原始音频数据;
199.切片模块902,用于对所述原始音频数据进行切片处理,获得切片音频,所述切片音频以秒为单位;
200.特征提取模块903,用于对所述切片音频利用梅尔特征提取算法进行特征提取,获得梅尔频谱特征;
201.音频识别模块904,用于将所述原始音频数据和所述梅尔频谱特征输入至预设的深度模型中进行音频识别,确定所述原始音频数据中每秒音频数据所对应的音频标签;
202.精彩点生成模块905,用于对所述原始音频数据中每秒音频数据所对应的音频标签进行精彩点生成处理,获得音频精彩点片段。
203.实际应用时,获取模块901、切片模块902、特征提取模块903、音频识别模块904和精彩点生成模块905可由音频精彩点确定装置中的处理器实现。
204.需要说明的是:上述实施例提供的上述装置在执行时,仅以上述各程序模块的划分进行举例说明,实际应用时,可以根据需要而将上述处理分配由不同的程序模块完成,即将终端的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的上述装置与上述方法实施例属于同一构思,其具体实现过程详见方法实施
例,这里不再赘述。
205.基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供了一种电子设备(计算机设备)。具体地,在一个实施例中,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器a01、网络接口a02、显示屏a04、输入装置a05和存储器(图中未示出)。其中,该计算机设备的处理器a01用于提供计算和控制能力。该计算机设备的存储器包括内存储器a03和非易失性存储介质a06。该非易失性存储介质a06存储有操作系统b01和计算机程序b02。该内存储器a03为非易失性存储介质a06中的操作系统b01和计算机程序b02的运行提供环境。该计算机设备的网络接口a02用于与外部的终端通过网络连接通信。该计算机程序被处理器a01执行时以实现上述任意一项实施例的方法。该计算机设备的显示屏a04可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置a05可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
206.本领域技术人员可以理解,图10中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
207.本发明实施例提供的设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现上述任意一项实施例的方法。
208.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
209.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
210.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
211.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
212.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
213.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/
或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。
214.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
215.可以理解,本发明实施例的存储器可以是易失性存储器或者非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom,read only memory)、可编程只读存储器(prom,programmable read-only memory)、可擦除可编程只读存储器(eprom,erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom,electrically erasable programmable read-only memory)、磁性随机存取存储器(fram,ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom,compact disc read-only memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram,random access memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram,static random access memory)、同步静态随机存取存储器(ssram,synchronous static random access memory)、动态随机存取存储器(dram,dynamic random access memory)、同步动态随机存取存储器(sdram,synchronous dynamic random access memory)、双倍数据速率同步动态随机存取存储器(ddrsdram,double data rate synchronous dynamic random access memory)、增强型同步动态随机存取存储器(esdram,enhanced synchronous dynamic random access memory)、同步连接动态随机存取存储器(sldram,synclink dynamic random access memory)、直接内存总线随机存取存储器(drram,direct rambus random access memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
216.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
217.以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
技术特征:
1.一种音频精彩点确定方法,其特征在于,所述方法包括:获取原始音频数据;对所述原始音频数据进行切片处理,获得切片音频,所述切片音频以秒为单位;对所述切片音频利用梅尔特征提取算法进行特征提取,获得梅尔频谱特征;将所述原始音频数据和所述梅尔频谱特征输入至预设的深度模型中进行音频识别,确定所述原始音频数据中每秒音频数据所对应的音频标签;对所述原始音频数据中每秒音频数据所对应的音频标签进行精彩点生成处理,获得音频精彩点片段。2.根据权利要求1所述的方法,其特征在于,所述对所述原始音频数据进行切片处理,获得切片音频包括:获取设定的滑窗步长和窗口大小;根据所述滑窗步长和所述窗口大小,将所述原始音频数据切分为多个一维数组;获取多个所述一维数组的个数和所述原始音频数据的秒数;根据多个所述一维数组的个数和所述原始音频数据的秒数,在多个所述一维数组的首尾复制预设数量个第一数组和/或第二数组,以使得所述一维数组的个数与所述原始音频数据的秒数相同;其中,所述第一数组为切分所述原始音频数据时所获得的第一个一维数组;所述第二数组为切分所述原始音频数据时所获得的最后一个一维数组;将首尾复制后的多个一维数组作为所述原始音频数据的切片音频。3.根据权利要求1所述的方法,其特征在于,所述对所述切片音频利用梅尔特征提取算法进行特征提取,获得梅尔频谱特征包括:对所述切片音频进行预加重处理,获得第一音频数据;对所述第一音频数据进行分帧和加窗操作,获得第二音频数据;对所述第二音频数据进行离散傅立叶变换,获得频域数据;利用梅尔滤波器对所述频域数据进行识别,获得梅尔频谱特征。4.根据权利要求1所述的方法,其特征在于,所述将所述原始音频数据和所述梅尔频谱特征输入至预设的深度模型中进行音频识别,确定所述原始音频数据中每秒音频数据所对应的音频标签包括:利用所述深度模型中的浅层特征提取模块对所述原始音频数据进行特征提取,获得第一特征;利用所述深度模型对所述梅尔频谱特征进行数据增强,获得第二特征;在所述深度模型中对所述第一特征和所述第二特征进行特征处理,确定所述原始音频数据中每秒音频数据所对应的音频标签。5.根据权利要求4所述的方法,其特征在于,所述在所述深度模型中对所述第一特征和所述第二特征进行特征处理,确定所述原始音频数据中每秒音频数据所对应的音频标签包括:分别对所述第一特征和所述第二特征进行连接,获得三维特征图;利用一维卷积层对所述三维特征图在时域维度上进行特征提取,获取时域维度上的三维时域特征;利用二维卷积层对所述三维时域特征在时域和空间维度上进行特征提取,获取在时域
和空间维度上的三维时域与空间特征;对所述三维时域与空间特征进行特征冗余降低和特征尺寸统一处理,获得统一尺寸特征;对所述统一尺寸特征进行空间映射和标签判别,获得原始音频数据中每秒音频数据所对应的音频标签。6.根据权利要求5所述的方法,其特征在于,所述对所述统一尺寸特征进行空间映射和标签判别,获得原始音频数据中每秒音频数据所对应的音频标签包括:对所述统一尺寸特征进行空间映射,获得所述统一尺寸特征所对应的标签数值;获取设定的召回阈值;将所述标签数值与所述召回阈值进行比较,判断所述标签数值所对应的标签二值化数值;根据所述标签二值化数值判断所述标签数值所对应的每秒音频数据是否具有所述标签二值化数值所对应的音频标签。7.根据权利要求6所述的方法,其特征在于,所述对所述原始音频数据中每秒音频数据所对应的音频标签进行精彩点生成处理,获得音频精彩点片段包括:获取平滑步长和平滑窗口大小;根据所述平滑步长滑动所述原始音频数据,每滑动一次,对所述平滑窗口大小的原始音频数据的二值化数值进行数值统一处理,获取数值统一后的二值化数值;按照所述平滑步长对所述原始音频数据滑动多次,获得所述原始音频数据中每秒音频数据数值统一后的二值化数值;根据所述原始音频数据中每秒音频数据数值统一后的二值化数值的连续性,确定连续预设数值的二值化数值所对应的音频片段为音频精彩点片段。8.一种音频精彩点确定装置,其特征在于,所述音频精彩点确定装置包括:获取模块,用于获取原始音频数据;切片模块,用于对所述原始音频数据进行切片处理,获得切片音频,所述切片音频以秒为单位;特征提取模块,用于对所述切片音频利用梅尔特征提取算法进行特征提取,获得梅尔频谱特征;音频识别模块,用于将所述原始音频数据和所述梅尔频谱特征输入至预设的深度模型中进行音频识别,确定所述原始音频数据中每秒音频数据所对应的音频标签;精彩点生成模块,用于对所述原始音频数据中每秒音频数据所对应的音频标签进行精彩点生成处理,获得音频精彩点片段。9.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序时,执行权利要求1至7任一项所述方法的步骤。10.一种存储介质,所述存储介质中存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至7任一项所述方法的步骤。
技术总结
本发明公开了一种音频精彩点确定方法、装置、电子设备和存储介质。其中,方法包括获取原始音频数据;对所述原始音频数据进行切片处理,获得切片音频,所述切片音频以秒为单位;对所述切片音频利用梅尔特征提取算法进行特征提取,获得梅尔频谱特征;将所述原始音频数据和所述梅尔频谱特征输入至预设的深度模型中进行音频识别,确定所述原始音频数据中每秒音频数据所对应的音频标签;对所述原始音频数据中每秒音频数据所对应的音频标签进行精彩点生成处理,获得音频精彩点片段。采用本发明提供的方案能结合业务场景的需求,完成音频精彩点的自动检测和识别。点的自动检测和识别。点的自动检测和识别。
技术研发人员:林佳月
受保护的技术使用者:成都爱奇艺智能创新科技有限公司
技术研发日:2021.11.25
技术公布日:2022/3/8