一种基于音频信号的交通流识别方法、装置及存储介质

专利查询5天前  11



1.本发明涉及智能交通技术领域,尤其是一种基于音频信号的交通流识别方法、装置及存储介质。


背景技术:

2.随着我国经济的快速发展,道路交通密度一直在不断增加,交通事故、交通拥堵等问题愈来愈严重,仅仅依靠人工管理难以解决交通所面临的困难,因此交通领域技术也在飞速发展,智能交通系统成为了未来发展的重要方向,而对道路交通流车辆类型进行识别是智能交通系统的重要组成部分。交通流识别技术可以有效提高交通管理成本,提高管理效率,加强公共安全,其具有广阔的应用空间以及发展前景,成为研究的热点。
3.目前交通流识别方法有基于视频图像处理或者声信号的方法,由于基于视频图像的交通流识别方法容易受天气、光照强度等外界环境的干扰,视频检测中存在大量的冗余信息和错误数据,在占据大量的存储空间的同时也降低了数据分析的有效性和稳定性。
4.而基于音频声信号进行车型识别的方法虽然具有成本低、信息处理运算速度快以及不易受外界因素干扰等优点,但是,现有基于声信号的交通流识别技术研究都是针对车辆音频信号的某一单一特征进行提取,在某种程度上会丢失音频特征,达不到理想的识别效果。因此,更有效地提取音频信号特征,提高音频信号对道路交通流的识别率是本发明的主要目的。
5.相关技术基于视频图像的交通流识别方法需要使用摄像头采集大量图像或者图像库中的图像作为研究对象,采集过程仍然会受天气、光照强度、能见度等外界环境的干扰,视频检测中存在大量的冗余信息和错误数据,在占据大量的存储空间的同时,容易降低了数据分析的有效性和稳定性。


技术实现要素:

6.有鉴于此,本发明实施例提供一种稳定性高且有效性高的,基于音频信号的交通流识别方法、装置及存储介质。
7.本发明的一方面提供了一种基于音频信号的交通流识别方法,包括:
8.采集道路交通车辆的音频信号;
9.对所述音频信号进行剪裁以及频谱特征提取,得到目标数据;
10.将所述目标数据划分为多组训练集和测试集;
11.根据所述训练集对深度卷积神经网络模型进行训练,并通过所述测试集对训练的模型进行测试,得到目标模型;
12.根据所述目标模型对输入的待识别信号进行分类识别,得到交通流识别结果。
13.可选地,所述对所述音频信号进行剪裁以及频谱特征提取,得到目标数据,包括:
14.对所述音频信号进行预处理,得到时域信号;
15.对所述时域信号进行快速傅里叶变换,得到频域信号;
16.将所述频域信号转换为复数形式,并对所述频域信号进行取模平方运算,得到能量谱;
17.通过梅尔滤波器对所述能量谱进行处理,得到梅尔频谱;
18.对音频信号的每帧梅尔频谱取对数,得到对数梅尔频谱;
19.对所述对数梅尔频谱进行离散余弦变换,得到目标数据。
20.可选地,所述对所述音频信号进行预处理,得到时域信号,包括:
21.对所述音频信号进行预加重处理,得到预加重后的结果;
22.采用汉明窗对所述预加重后的结果进行分帧处理,得到分帧结果;
23.根据所述分帧结果,确定所述时域信号;
24.其中,所述预加重处理的表达公式为:
25.s’(n)
=s
(n)-as
(n-1)
26.a为预加重系数;s
(n)
为n时刻的声音采样值,s’(n)
为预加重后的结果;
27.所述汉明窗的函数的表达公式为:
[0028][0029]
w(n)为汉明窗口函数;n为fft点数;
[0030]
所述时域信号的计算公式为:
[0031]
g(n)=x(n)w(n)
[0032]
g(n)代表加窗后的时域信号;x(n)表示分帧后信号;w(n)为汉明窗口函数。
[0033]
可选地,所述对所述时域信号进行快速傅里叶变换,得到频域信号这一步骤中,所述频域信号的计算公式为:
[0034][0035]
其中,n为fft点数;g(k)表示频域信号;g(n)代表时域信号;n代表帧数;k代表采样点数;
[0036]
所述将所述频域信号转换为复数形式,并对所述频域信号进行取模平方运算,得到能量谱这一步骤中,所述能量谱的计算公式为:
[0037][0038]
其中,e(k)表示能量谱;g(k)表示频域信号;n为fft点数;
[0039]
所述通过梅尔滤波器对所述能量谱进行处理,得到梅尔频谱这一步骤中,所述梅尔滤波器的频率响应的表达式为:
[0040]
[0041]
其中,h
m(k)
代表所述梅尔滤波器的频率响应;m表示梅尔滤波器的数量;k代表采样频率;f(m)代表第m个滤波器的中心频率;
[0042]
所述对音频信号的每帧梅尔频谱取对数,得到对数梅尔频谱这一步骤中,所述对数梅尔频谱的计算公式为:
[0043][0044]
其中,s(m)代表对数梅尔频谱;e(k)代表能量谱;hm(k)代表所述梅尔滤波器的频率响应;k代表采样频率;;n为fft点数;
[0045]
所述对所述对数梅尔频谱进行离散余弦变换,得到目标数据这一步骤中,所述离散余弦变换的计算公式为:
[0046][0047]
其中,c(m)代表离散余弦变换后得到的目标数据;l为阶数,m为滤波器组数;m=1,2,3...m;s(m)代表对数梅尔频谱。
[0048]
可选地,所述深度卷积神经网络包括9个卷积层、1个全局平均池化层和1个全连接层.
[0049]
可选地,所述根据所述训练集对深度卷积神经网络模型进行训练,并通过所述测试集对训练的模型进行测试,得到目标模型,包括:
[0050]
通过16个卷积核对所述训练集的数据进行两次卷积处理,所述卷积处理的卷积核大小为5x5;
[0051]
连接一个bn归一化层对所述卷积处理的结果进行归一化处理;
[0052]
使用relu激活函数对所述归一化处理的结果进行处理后,连接至最大池化层进行降维处理;
[0053]
通过32个卷积核进行一次卷积处理后,连接一个bn归一化层以及最大池化层进行降维处理;
[0054]
通过64个卷积核进行两次卷积处理后,连接一个bn归一化层以及最大池化层进行降维处理;
[0055]
通过128个卷积核进行两次卷积处理后,连接bn归一化层以及最大池化层进行降维处理;
[0056]
连接1个全局平均池化层、1个展平层以及1个全连接层实现类别分类训练;
[0057]
根据所述分类训练的结果,得到训练的模型;
[0058]
通过所述测试集对训练的模型进行测试,得到目标模型。
[0059]
可选地,所述深度卷积神经网络模型的优化器是adam优化器;所述深度卷积神经网络模型的学习率为0.0001;所述深度卷积神经网络模型的l2正则化系数为0.001:所述深度卷积神经网络模型的训练的最小批次为36;所述深度卷积神经网络模型的选用交叉熵损失函数计算损失值。
[0060]
本发明实施例另一方面提供了一种基于音频信号的交通流识别装置,包括:
[0061]
第一模块,用于采集道路交通车辆的音频信号;
[0062]
第二模块,用于对所述音频信号进行剪裁以及频谱特征提取,得到目标数据;
[0063]
第三模块,用于将所述目标数据划分为多组训练集和测试集;
[0064]
第四模块,用于根据所述训练集对深度卷积神经网络模型进行训练,并通过所述测试集对训练的模型进行测试,得到目标模型;
[0065]
第五模块,用于根据所述目标模型对输入的待识别信号进行分类识别,得到交通流识别结果。
[0066]
本发明实施例另一方面提供了一种电子设备,包括处理器以及存储器;
[0067]
所述存储器用于存储程序;
[0068]
所述处理器执行所述程序实现如前面所述的方法。
[0069]
本发明实施例另一方面提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
[0070]
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
[0071]
本发明的实施例采集道路交通车辆的音频信号;对所述音频信号进行剪裁以及频谱特征提取,得到目标数据;将所述目标数据划分为多组训练集和测试集;根据所述训练集对深度卷积神经网络模型进行训练,并通过所述测试集对训练的模型进行测试,得到目标模型;根据所述目标模型对输入的待识别信号进行分类识别,得到交通流识别结果。本发明提高了稳定性和有效性。
附图说明
[0072]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0073]
图1为本发明实施例提供的整体步骤流程图;
[0074]
图2为本发明实施例提供的mfcc特征的提取过程;
[0075]
图3为本发明实施例提供的随机分组交叉验证示意图;
[0076]
图4为本发明实施例提供的深度学习网络结构的示意图。
具体实施方式
[0077]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0078]
相较于基于视频图像的交通流识别的现有技术中,本发明基于一种模拟人耳对语音的处理特点并应用人耳听觉感知方面相关研究成果的音频信号特征提取技术与改深度卷积神经网络模型提出了一种道路交通流声频识别的方法,运用音频特征提取技术对车辆
声信号进行特征提取,然后输入由9个卷积层、1个全局平均池化层和1个全连接层组成的深度学习神经网络模型进行训练分类,从而达到车型的识别分类,有效解决数据采集因在能见度低、光照不好、天气恶劣、阴影等环境因素受影响的问题,并且可以大大节省不必要的存储的空间。
[0079]
而相较于基于声信号的交通流识别的现有技术中,本发明针对原有的神经网络技术,改变为由9个卷积层、1个全局平均池化层和1个全连接层组成的深度卷积神经网络模型,目的在于提升模拟训练效率以及车辆识别率和准确率,可以更好地实现车辆识别分类。
[0080]
具体地,本发明的一方面提供了一种基于音频信号的交通流识别方法,包括:
[0081]
采集道路交通车辆的音频信号;
[0082]
对所述音频信号进行剪裁以及频谱特征提取,得到目标数据;
[0083]
将所述目标数据划分为多组训练集和测试集;
[0084]
根据所述训练集对深度卷积神经网络模型进行训练,并通过所述测试集对训练的模型进行测试,得到目标模型;
[0085]
根据所述目标模型对输入的待识别信号进行分类识别,得到交通流识别结果。
[0086]
可选地,所述对所述音频信号进行剪裁以及频谱特征提取,得到目标数据,包括:
[0087]
对所述音频信号进行预处理,得到时域信号;
[0088]
对所述时域信号进行快速傅里叶变换,得到频域信号;
[0089]
将所述频域信号转换为复数形式,并对所述频域信号进行取模平方运算,得到能量谱;
[0090]
通过梅尔滤波器对所述能量谱进行处理,得到梅尔频谱;
[0091]
对音频信号的每帧梅尔频谱取对数,得到对数梅尔频谱;
[0092]
对所述对数梅尔频谱进行离散余弦变换,得到目标数据。
[0093]
可选地,所述对所述音频信号进行预处理,得到时域信号,包括:
[0094]
对所述音频信号进行预加重处理,得到预加重后的结果;
[0095]
采用汉明窗对所述预加重后的结果进行分帧处理,得到分帧结果;
[0096]
根据所述分帧结果,确定所述时域信号;
[0097]
其中,所述预加重处理的表达公式为:
[0098]
s’(n)
=s
(n)-as
(n-1)
[0099]
a为预加重系数;s
(n)
为n时刻的声音采样值,s’(n)
为预加重后的结果;
[0100]
所述汉明窗的函数的表达公式为:
[0101][0102]
w(n)为汉明窗口函数;n为fft点数;
[0103]
所述时域信号的计算公式为:
[0104]
g(n)=x(n)w(n)
[0105]
g(n)代表加窗后的时域信号;x(n)表示分帧后信号;w(n)为汉明窗口函数。
[0106]
可选地,所述对所述时域信号进行快速傅里叶变换,得到频域信号这一步骤中,所述频域信号的计算公式为:
[0107][0108]
其中,n为fft点数;g(k)表示频域信号;g(n)代表时域信号;n代表帧数;k代表采样频率;
[0109]
所述将所述频域信号转换为复数形式,并对所述频域信号进行取模平方运算,得到能量谱这一步骤中,所述能量谱的计算公式为:
[0110][0111]
其中,e(k)表示能量谱;g(k)表示频域信号;n为fft点数;
[0112]
所述通过梅尔滤波器对所述能量谱进行处理,得到梅尔频谱这一步骤中,所述梅尔滤波器的频率响应的表达式为:
[0113][0114]
其中,h
m(k)
代表所述梅尔滤波器的频率响应;m表示梅尔滤波器的数量;k代表采样频率;f(m)代表第m个滤波器的中心频率;
[0115]
所述对音频信号的每帧梅尔频谱取对数,得到对数梅尔频谱这一步骤中,所述对数梅尔频谱的计算公式为:
[0116][0117]
其中,s(m)代表对数梅尔频谱;e(k)代表能量谱;hm(k)代表所述梅尔滤波器的频率响应;k代表频率;n为fft点数;
[0118]
所述对所述对数梅尔频谱进行离散余弦变换,得到目标数据这一步骤中,所述离散余弦变换的计算公式为:
[0119][0120]
其中,c(m)代表离散余弦变换后得到的目标数据;l为阶数,m为滤波器组数;m=1,2,3...m;s(m)代表对数梅尔频谱。
[0121]
可选地,所述深度卷积神经网络包括9个卷积层、1个全局平均池化层和1个全连接层.
[0122]
可选地,所述根据所述训练集对深度卷积神经网络模型进行训练,并通过所述测试集对训练的模型进行测试,得到目标模型,包括:
[0123]
通过16个卷积核对所述训练集的数据进行两次卷积处理,所述卷积处理的卷积核大小为5x5;
[0124]
连接一个bn归一化层对所述卷积处理的结果进行归一化处理;
[0125]
使用relu激活函数对所述归一化处理的结果进行处理后,连接至最大池化层进行降维处理;
[0126]
通过32个卷积核进行一次卷积处理后,连接一个bn归一化层以及最大池化层进行降维处理;
[0127]
通过64个卷积核进行两次卷积处理后,连接一个bn归一化层以及最大池化层进行降维处理;
[0128]
通过128个卷积核进行两次卷积处理后,连接bn归一化层以及最大池化层进行降维处理;
[0129]
连接1个全局平均池化层、1个展平层以及1个全连接层实现类别分类训练;
[0130]
根据所述分类训练的结果,得到训练的模型;
[0131]
通过所述测试集对训练的模型进行测试,得到目标模型。
[0132]
可选地,所述深度卷积神经网络模型的优化器是adam优化器;所述深度卷积神经网络模型的学习率为0.0001;所述深度卷积神经网络模型的l2正则化系数为0.001:所述深度卷积神经网络模型的训练的最小批次为36;所述深度卷积神经网络模型的选用交叉熵损失函数计算损失值。
[0133]
本发明实施例另一方面提供了一种基于音频信号的交通流识别装置,包括:
[0134]
第一模块,用于采集道路交通车辆的音频信号;
[0135]
第二模块,用于对所述音频信号进行剪裁以及频谱特征提取,得到目标数据;
[0136]
第三模块,用于将所述目标数据划分为多组训练集和测试集;
[0137]
第四模块,用于根据所述训练集对深度卷积神经网络模型进行训练,并通过所述测试集对训练的模型进行测试,得到目标模型;
[0138]
第五模块,用于根据所述目标模型对输入的待识别信号进行分类识别,得到交通流识别结果。
[0139]
本发明实施例另一方面提供了一种电子设备,包括处理器以及存储器;
[0140]
所述存储器用于存储程序;
[0141]
所述处理器执行所述程序实现如前面所述的方法。
[0142]
本发明实施例另一方面提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
[0143]
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
[0144]
下面结合说明书附图,对本发明的具体实现原理进行详细说明:
[0145]
本发明技术方案是基于mfcc(mel-scale frequency cepstal coefficients梅尔倒谱系数,简称mfcc)特征提取与深度卷积神经网络提出了一种道路交通流声频识别的方法,运用mfcc对车辆声信号进行特征提取,然后构建一种深度卷积神经网络模型进行训练分类,从而达到车型的识别分类。
[0146]
如图1所示,一种基于音频信号的交通流识别方法技术,包括以下步骤:
[0147]
s1:道路交通车辆音频信号采集;
[0148]
s2:音频信号的首先进行剪裁与梅尔频谱特征提取;对采集的声频数据首先进行裁剪,去掉声频中静音部分,并使每段声频的长度保持一致都为2.04s;然后提取每段声频的mfcc特征,帧长为2048,帧移为256,阶数为40,得到40*128的mfcc特征矩阵。
[0149]
s3:将数据样本随机划分为多组训练集和测试集,并在对训练集训练的时候引入留一交叉验证;
[0150]
s4:采用深度卷积神经网络模型进行训练和交通流识别分类。
[0151]
具体地,步骤s1中,采集声频数据的工具为录音笔,运用录音笔收集车辆经过时的声音作为声频文件保存;
[0152]
步骤s2中采用梅尔倒谱系数对车辆的声频信号进行特征提取。mfcc特征提取过程如附图中图2所示。
[0153]
具体mfcc特征提取过程如下:
[0154]
1.输入声频信号s(n),经过预加重、分帧、加窗预处理后被转化为g(n):
[0155]
预加重系统函数如公式(1)所示
[0156]
s’(n)
=s
(n)-as
(n-1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0157]
其中,a为预加重系数,取值范围0.9《a《1,s
(n)
为n时刻的声音采样值,s’(n)
为预加重后的结果。
[0158]
对s’(n)
再进行分帧处理,声频信号属于时变非稳态的信号,分帧目的就是将较短的单帧作为稳态信号进行处理;在帧与帧之间可以引入窗函数防止信息丢失,并使分帧后的帧与帧之间的过渡变得平稳。本文采用汉明窗,如式(2)所示。
[0159][0160]
声频的时域信号g(n)为:
[0161]
g(n)=x(n)w(n)
ꢀꢀꢀꢀꢀꢀꢀ
(3)
[0162]
式中:x(n)表示分帧后信号;w(n)为窗口函数;g(n)表示加窗后的时域信号。
[0163]
2.声频的时域信号g(n)通过快速傅里叶变换为频域信号g(k):
[0164][0165]
其中,n为fft点数,g(k)表示频域信号。
[0166]
3.先将上一步所得的频域信号g(k)转换为复数形式,如式(5),再对g(k)取模平方运算,得到能量谱e(k),如式(6):
[0167][0168]
其中,n为fft点数。
[0169]
4.将上一步所得的能量谱通过梅尔滤波器得到梅尔频谱:
[0170]
梅尔滤波器的频率响应hm(k)如公式(7)所示:
[0171][0172]
其中,m表示滤波器数量。
[0173]
5.对声频信号的每帧梅尔频谱取对数得到对数梅尔频谱:
[0174]
每一帧的能量谱e(k)与之对应频率响应hm(k)相乘叠加最后取对数得到对应的对数能量s(m):
[0175][0176]
其中,s(m)表示第m个梅尔滤波器的对数能量,n为fft点数。
[0177]
6.将上一步所得的对数梅尔频谱特征进行离散余弦变换得到mfcc特征:
[0178]
具体变换过程如公式(9)所示,其中c(m)是指第m维的声频信号特征:
[0179][0180]
其中,l为阶数,m为滤波器个数。
[0181]
步骤s3中,结合实施例子,在粗分和细分车型识别时,对声频数据进行6次随机排序形成六组,在训练时对训练集再进行留一交叉验证。分组示意图如附图的图3所示。
[0182]
步骤s4中:提出一种深度卷积神经网络模型,其网络结构如图4所示。
[0183]
网络结构由9个卷积层、1个全局平均池化层和1个全连接层组成;首先经过16个卷积核进行卷积两次,卷积核大小为5x5,再连接一个bn归一化层(batch normalization)进行归一化处理,并使用relu激活函数,后连接最大池化层降维;再经过32个卷积核卷积一次,连接一个bn归一化层以及最大池化层降维;再经过64个卷积核卷积两次,后接一个bn归一化层以及最大池化层降维;再经过128个卷积核卷积两次后连接bn归一化层以及最大池化层,并重复两次;最后连接1个全局平均池化层、1个展平层以及1个全连接层实现类别分类。
[0184]
网络模型所选用的优化器是adam优化器,动量为0.9;根据运用不同学习率进行多次实验,选取的学习率为0.0001,l2正则化系数为0.001。训练的最小批次minibathssize为36,选用交叉熵损失函数计算损失值。
[0185]
在具体实施过程中,对于本文研究的粗分车型识别,对中大型的车型识别准确率可达到88.33%,对小型车型的识别准确率可达到96.55%;在进一步细分车型识别下,小汽车和载货车两类车型的识别准确率为98.92%。研究结果可以看出,基于mfcc特征提取的方法与改进的vgg卷积神经网络模型可以有效的进行车型识别分类。(数据分析结果可看附图表1、表2和表3),其中,表1描述了具体车型划分情况;表2描述了粗分车型测试集准确率;表3描述了细分车型测试集准确率。
[0186]
表1
[0187][0188][0189]
表2
[0190][0191]
表3
[0192][0193]
综上所述,本发明具有以下突出的特点:
[0194]
1、通过梅尔倒谱系数提取道路交通音频信号的特征,并采用一个新的深度学习神经网络模型进行训练,从而实现对道路交通流的识别。
[0195]
2、本发明构建了一个新的深度学习神经网络模型,模型由9个卷积层、1个全局平均池化层和1个全连接层组成,提高了用音频信号对交通流识别的准确度。
[0196]
(1)本模型在卷积层1和卷积层2使用5*5的卷积核,目的是降低模型的复杂度,在减小该网络的参数量的同时保持该模型的特征提取能力。
[0197]
(2)本模型连接bn层:通过在数值层面添加零均值、单位方差的共轭分布,来解决中间协变量偏移问题(internal covariate shift)。通过对神经网络的中间层进行逐层归一化,让每一个中间层输入的分布保持稳定,即保持同一分布。
[0198]
(3)本模型进行bn归一化:通过在训练每一个小批量样例时对激活层之前的输入input进行归一化,归一化到零均值和单位方差,以使整个网络层的数据分布相对统一,从而达到加快模型训练速度、提高模型准确率以及降低过拟合风险等作用。
[0199]
(4)本模型用全局平均池化层可以极大的减小该网络的参数量,减轻过拟合的发生。全局平均池化层后接一个展平层,作用是将全局平池化层的三维输出进行一维化,以适应后面全连接层的输入进行分类。
[0200]
相较于现有技术,本发明不受天气、光照强度等外界环境的干扰,全天候、检测延时小;本发明能够节约存储空间,信息处理运算速度快;本发明的采集设备简单、成本低、高效节能。
[0201]
具体地,本发明通过输入由9个卷积层、1个全局平均池化层和1个全连接层组成的深度学习神经网络模型进行深度特征提取,改进的网络相比较于已有的vgg-11网络,整个网络模型参数降低了99.495%,相较其他声信号特征提取的技术节省了运算空间,提高了运算速度,并且在粗分车型的测试集中,其准确率较为稳定且有一定程度的提升,训练时长也较短,识别准确率为94.44%,而在细分车型的测试集中,改进的网络结构模型对小汽车和大型载货车进行分类的平均识别准确率为98.92%,准确率的稳定性较好,综上,本发明中所改进的卷积神经网络模型更适用于基于声频信号的车型识别任务。
[0202]
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0203]
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
[0204]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0205]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0206]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0207]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0208]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0209]
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
[0210]
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。

技术特征:
1.一种基于音频信号的交通流识别方法,其特征在于,包括:采集道路交通车辆的音频信号;对所述音频信号进行剪裁以及频谱特征提取,得到目标数据;将所述目标数据划分为多组训练集和测试集;根据所述训练集对深度卷积神经网络模型进行训练,并通过所述测试集对训练的模型进行测试,得到目标模型;根据所述目标模型对输入的待识别信号进行分类识别,得到交通流识别结果。2.根据权利要求1所述的一种基于音频信号的交通流识别方法,其特征在于,所述对所述音频信号进行剪裁以及频谱特征提取,得到目标数据,包括:对所述音频信号进行预处理,得到时域信号;对所述时域信号进行快速傅里叶变换,得到频域信号;将所述频域信号转换为复数形式,并对所述频域信号进行取模平方运算,得到能量谱;通过梅尔滤波器对所述能量谱进行处理,得到梅尔频谱;对音频信号的每帧梅尔频谱取对数,得到对数梅尔频谱;对所述对数梅尔频谱进行离散余弦变换,得到目标数据。3.根据权利要求2所述的一种基于音频信号的交通流识别方法,其特征在于,所述对所述音频信号进行预处理,得到时域信号,包括:对所述音频信号进行预加重处理,得到预加重后的结果;采用汉明窗对所述预加重后的结果进行分帧处理,得到分帧结果;根据所述分帧结果,确定所述时域信号;其中,所述预加重处理的表达公式为:s’(n)
=s
(n)-as
(n-1)
a为预加重系数;s
(n)
为n时刻的声音采样值,s’(n)
为预加重后的结果;所述汉明窗的函数的表达公式为:w(n)为汉明窗口函数;n为fft点数;所述时域信号的计算公式为:g(n)=x(n)w(n)g(n)代表加窗后的时域信号;x(n)表示分帧后信号;w(n)为汉明窗口函数。4.根据权利要求2所述的一种基于音频信号的交通流识别方法,其特征在于,所述对所述时域信号进行快速傅里叶变换,得到频域信号这一步骤中,所述频域信号的计算公式为:其中,n为fft点数;g(k)表示频域信号;g(n)代表时域信号;n代表帧数;k代表采样频率;所述将所述频域信号转换为复数形式,并对所述频域信号进行取模平方运算,得到能
量谱这一步骤中,所述能量谱的计算公式为:其中,e(k)表示能量谱;g(k)表示频域信号;n为fft点数;所述通过梅尔滤波器对所述能量谱进行处理,得到梅尔频谱这一步骤中,所述梅尔滤波器的频率响应的表达式为:其中,h
m(k)
代表所述梅尔滤波器的频率响应;m表示梅尔滤波器的数量;k代表采样频率;f()代表第m个滤波器的中心频率;所述对音频信号的每帧梅尔频谱取对数,得到对数梅尔频谱这一步骤中,所述对数梅尔频谱的计算公式为:其中,s(m)代表对数梅尔频谱;e(k)代表能量谱;h
m
(k)代表所述梅尔滤波器的频率响应;k代表采样频率;n为fft点数;所述对所述对数梅尔频谱进行离散余弦变换,得到目标数据这一步骤中,所述离散余弦变换的计算公式为:其中,c(m)代表离散余弦变换后得到的目标数据;l为阶数;m为滤波器组数;m=1,2,3...m;s(m)代表对数梅尔频谱。5.根据权利要求1所述的一种基于音频信号的交通流识别方法,其特征在于,所述深度卷积神经网络包括9个卷积层、1个全局平均池化层和1个全连接层。6.根据权利要求5所述的一种基于音频信号的交通流识别方法,其特征在于,所述根据所述训练集对深度卷积神经网络模型进行训练,并通过所述测试集对训练的模型进行测试,得到目标模型,包括:通过16个卷积核对所述训练集的数据进行两次卷积处理,所述卷积处理的卷积核大小为5x5;连接一个bn归一化层对所述卷积处理的结果进行归一化处理;使用relu激活函数对所述归一化处理的结果进行处理后,连接至最大池化层进行降维处理;通过32个卷积核进行一次卷积处理后,连接一个bn归一化层以及最大池化层进行降维
处理;通过64个卷积核进行两次卷积处理后,连接一个bn归一化层以及最大池化层进行降维处理;通过128个卷积核进行两次卷积处理后,连接bn归一化层以及最大池化层进行降维处理;连接1个全局平均池化层、1个展平层以及1个全连接层实现类别分类训练;根据所述分类训练的结果,得到训练的模型;通过所述测试集对训练的模型进行测试,得到目标模型。7.根据权利要求6所述的一种基于音频信号的交通流识别方法,其特征在于,所述深度卷积神经网络模型的优化器是adam优化器;所述深度卷积神经网络模型的学习率为0.0001;所述深度卷积神经网络模型的l2正则化系数为0.001:所述深度卷积神经网络模型的训练的最小批次为36;所述深度卷积神经网络模型的选用交叉熵损失函数计算损失值。8.一种基于音频信号的交通流识别装置,其特征在于,包括:第一模块,用于采集道路交通车辆的音频信号;第二模块,用于对所述音频信号进行剪裁以及频谱特征提取,得到目标数据;第三模块,用于将所述目标数据划分为多组训练集和测试集;第四模块,用于根据所述训练集对深度卷积神经网络模型进行训练,并通过所述测试集对训练的模型进行测试,得到目标模型;第五模块,用于根据所述目标模型对输入的待识别信号进行分类识别,得到交通流识别结果。9.一种电子设备,其特征在于,包括处理器以及存储器;所述存储器用于存储程序;所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。

技术总结
本发明公开了一种基于音频信号的交通流识别方法、装置及存储介质,方法包括:采集道路交通车辆的音频信号;对所述音频信号进行剪裁以及频谱特征提取,得到目标数据;将所述目标数据划分为多组训练集和测试集;根据所述训练集对深度卷积神经网络模型进行训练,并通过所述测试集对训练的模型进行测试,得到目标模型;根据所述目标模型对输入的待识别信号进行分类识别,得到交通流识别结果。本发明提高了稳定性和有效性,可广泛应用于智能交通技术领域。域。域。


技术研发人员:李锋 叶霖 刘倩琪 蓝善鹤
受保护的技术使用者:广东技术师范大学
技术研发日:2021.11.24
技术公布日:2022/3/7

最新回复(0)