基于yolo-v3算法的水下声呐侧扫图像小目标检测方法
技术领域
1.本发明涉及一种目标检测方法,具体说是一种基于yolo-v3算法的水下声呐侧扫图像小目标检测方法。
背景技术:
2.近年来,水下机器人,如自主水下航行器(auv)和远程操作航行器(rov)等,通常用于水下物体探测。对于近距离目标识别,通常采用视觉传感器获取高质量的图像。在水下观测中,由于高浊度水中悬浮粒子的散射,所捕获的水下图像能见度较差。因此,针对广泛的水下目标探测任务,设计一种协同的水下目标探测系统迫在眉睫。协同水下目标检测系统采用信息丰富的声纳图像和光学图像对水下目标进行检测,近年来在海洋监测中得到了广泛的应用。然而,人工分析每天产生的海量水下声纳图像数据是一项繁琐且耗时的工作。因此,一个目标自动检测与识别系统对于减少耗时和昂贵的人工输入具有重要的实用价值。
技术实现要素:
3.针对上述技术的不足本发明的目的是提供一种基于yolo-v3算法的水下声呐侧扫图像小目标检测方法。
4.本发明采用技术方案是:
5.基于yolo-v3算法的水下声呐侧扫图像小目标检测方法,包括:
6.s1、预先采集带有目标的水下声呐侧扫图像,对声呐图像中待检测的目标进行标注,并建立带有目标标注的声呐侧扫图像集合;
7.s2、基于yolo-v3方法结合水下声呐侧扫图像进行训练,建立目标检测网络,用于实现光学和声学水声目标检测的互补、准确检测水声目标;
8.s3、实时采集带有目标的水下声呐侧扫图像,输入该yolo-v3网络结构进行识别检测,获取水下目标中心的预测框以及坐标。
9.所述标注为对水下声呐侧扫图像中的目标用矩形框进行模糊标注。
10.所述基于yolo-v3方法结合水下声呐侧扫图像进行训练,包括:是采用模糊标注的水下声呐侧扫图像数据集训练yolo-v3网络中darknet-53网络的参数,并根据损失函数反向传播调整darknet-53网络的参数。
11.所述综合损失函数e=e1+e2,其中,e1表示真实检测框与预测的目标框的交叉熵损失函数,e2表示坐标损失函数;当综合损失函数e满足阈值要求时停止网络参数的更新迭代。
12.所述采用模糊标注的水下声呐侧扫图像数据集训练yolo-v3算法中darknet-53网络的参数,包括:将水下声呐侧扫图像用s*s的网格切分,在每个网格中预测b个边界框,通过计算每个边界框的所得分数来检测物体的位置中心,边界框的分数计算通过如下公式:
13.14.其中,是第i个网格里的第j个边界框所得的分数,p
i,j
(object)表示探测目标位于第i个网格里的第j个边界框的概率,表示预测框与物体真实预测框之间的交并比,所述交并比为交集与并集的比。
15.所述将水下声呐侧扫图像用s*s的网格切分后,得到s*s个的网格图像和任意一个网格图像的真实预测框。
16.计算真实检测框与预测的目标框的交叉熵,以此作为损失函数反向传播更新网络参数,损失函数的计算可以通过如下公式:
[0017][0018]
其中,e1表示用于参数更新的第一个损失函数,w
i,j
表示权重,表示第i个网格里的第j个真实预测框的得分。
[0019]
通过坐标损失函数更新网络参数,坐标损失函数更新网络参数的方法为
[0020][0021]
其中,e2表示坐标损失函数,σ(
·
)表示第i个网格里的第j个预测框的四个坐标t
x
、ty、tw、th对应的函数,为第i个网格里的第j个对应真实检测框的坐标。
[0022]
所述目标中心的坐标为:停止更新迭代时的第i个网格里的第j个边界框的中心为当前水声目标的中心作为输出结果;所述水下目标中心的预测框为;此时的边界框的四个坐标作为输出结果进行标注。
[0023]
本发明具有以下有益效果及优点:
[0024]
(1)本发明方法建立大规模实侧扫描声纳图像数据库。该数据库包含7000个样本,这些样本是在真实环境中捕获的。
[0025]
(2)本发明方法提出了一种基于侧面扫描声纳图像和yolo-v3网络的水下目标检测系统。该系统实现了光学和声学水声目标检测的互补优势,能够更准确地检测水声目标。
[0026]
(3)本发明方法在真实水下环境中进行了大量的实验,效果稳定有效。
附图说明
[0027]
图1是yolo-v3算法用于水下目标检测的算法流程图;
[0028]
图2是yolo-v3算法网络结构图;
[0029]
图3是水下声呐图像目标检测数据集的例子;其中,(a)圆柱形目标、(b)管形目标、(c)四棱柱形目标、(d)四棱锥形目标;
[0030]
图4是检测结果的可视化其中,(a)圆柱形目标的定位结果、(b)管形目标的定位结果、(c)四棱柱形目标的定位结果、(d)四棱锥形目标的定位结果;
具体实施方式
[0031]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明
的具体实施方法做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
[0032]
除非另有定义,本文所使用的所有技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
[0033]
本发明方法,需要建立水下声呐侧扫图像的数据集。收集真实环境中的声呐侧扫图像,由于侧面扫描声纳图像的视场通常位于载体的两侧,因此数据集相应包含多对左右声纳图像。该数据集的建立可为后续相关研究提供了可靠的保障和支持。
[0034]
如图1所示,为本发明方法流程图。本发明提出了一种基于侧扫声呐图像和yolo-v3网络的水下目标检测系统。该系统实现了光学和声学水声目标检测的互补优势,能够更准确地检测水声目标。本发明解决技术难题所采用的技术方案是一种基于yolo-v3算法的水下声呐侧扫图像的目标检测方法,包括以下步骤:基于yolo-v3算法的水下声呐侧扫图像的目标检测方法,包括:采集带有目标的水下声呐侧扫图像,对声呐图像中待检测的目标进行标注,并建立带有目标标注的声呐侧扫图像集合;基于yolo-v3方法结合水下声呐侧扫图像建立目标检测系统,该系统实现了光学和声学水声目标检测的互补优势,能够更准确地检测水声目标。
[0035]
1.采用yolo-v3算法用于水下目标检测:yolo-v3算法由于其灵活性适用于工程研究。yolo-v3算法采用darknet-53作为主干网络提高了检测的准确性,并且主干网络可以替换为tiny-darknet使网络模型轻量化。采用模糊标注的水下声呐侧扫图像数据集训练yolo-v3算法中darknet-53网络的参数。所以我们采用yolo-v3算法处理水下目标检测任务。
[0036]
水下目标检测任务中采用了两种重要的损失函数。
[0037]
根据综合损失函数反向传播调整darknet-53网络的参数。所述综合损失函数e=e1+e2,其中,e1表示真实检测框与预测的目标框的交叉熵损失函数,e2表示坐标损失函数;当综合损失函数e满足阈值要求时停止网络参数的更新迭代。
[0038]
第一种是目标得分,yolo-v3算法把图像分成s*s的网格,每个格子都可能对应所预测目标的中心,在每个格子中预测b个边界框,通过计算每个边界框的所得分数来检测物体的位置,边界框的分数计算通过如下公式:
[0039][0040]
是第i个格子里的第j个边界框所得的分数,p
i,j
(object)表示探测目标位于第i个格子里的第j个边界框的概率,表示预测框与物体真实预测框之间的交集。计算真实检测框与预测的目标框的交叉熵,以此作为损失函数更新参数,损失函数的计算可以通过如下公式:
[0041][0042]
其中,e1表示用于参数更新的第一个损失函数,w
i,j
表示权重,表示真实预测框
的得分。
[0043]
另一个重要的损失函数可以定义为;
[0044][0045]
其中,e2表示坐标损失函数,σ(
·
)表示四个坐标t
x
、ty、tw、th对应的平方差函数,对应真实检测框的坐标。
[0046]
yolo-v3的多尺度特性是选择它来探测水下物体的另一个重要原因,因为水下物体的大小随观测深度而变化。yolo-v3方法提供了三种包围框。这三种包围框对应三个不同的接收域,当输入图像的大小为224
×
224时,三种尺度的具体对应关系如表所示
[0047]
表1 yolo-v3的包围框.
[0048][0049]
协同水下目标检测系统的核心算法是利用侧面扫描声纳图像检测水下目标。针对侧面扫描声纳图像高分辨率、高噪声、目标显著性等特点,我们提出了一种利用yolo-v3网络进行水下目标检测的方法,yolo-v3用于水下目标检测的流程图如图2所示。
[0050]
如图2所示,conv为卷积层,conv s为s步卷积层。res_n是一个重复n个残差分量的交错网。例如res_2表示卷积运算后存在两个残差分量。dbl是一种包括批量归一化和leaky relu激活功能的容积计。dbl_s是以s为步长的卷积运算。dbl*m表示m dbl重复连接。up表示对feature map进行上采样,concat表示对不同feature map进行叠加融合。
[0051]
yolo-3网络由24层卷积层和2层全连接层组成。该网络的输入是分辨率为416x416x3的侧扫声纳图像。输出的维数为4s
×s×
[b
×
(4+1)+c]其中,s为图像块数,b为每个图像块对应的矩形候选块数,c为检测到的类别总数。网络的损耗函数与参考的损耗函数相同。
[0052]
2.实验中使用的所有侧扫声纳图像都是在真实环境中采集的。由于侧面扫描声纳图像的视场通常位于载体的两侧,因此数据集相应包含多对左右声纳图像。数据库中有五种类型的对象,图3中显示了一些示例。
[0053]
3.为了验证提出的水下目标检测系统的有效性,本专利遵循了yolo系列算法,采用map作为评价标准。map的计算公式如下:
[0054][0055]
其中n是检测类的数量,在这个任务中,n是4。map是通过对四种对象的ap进行平均得到的。ap由准确率和召回率在不同阈值下计算。根据任务,我们将置信水平的阈值设置为0.5,0.55和0.6。准确率由p-tp/(tp+fp)计算,即所有被识别为阳性的图像中真阳性的百分比。召回率的计算方法为r=tp(tp+fn),即该类别图像中真实阳性的百分比。
[0056]
4.为了验证本文提出的基于yolo-v3网络的水下物体检测方法的有效性,我们在真实环境下采集的水下数据上进行了测试。在本实验中,训练样本为6000个,测试样本为1000个,部分检测结果的可视化如图4所示。
[0057]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰应视为本发明的保护范围。
技术特征:
1.基于yolo-v3算法的水下声呐侧扫图像小目标检测方法,其特征在于,包括:s1、预先采集带有目标的水下声呐侧扫图像,对声呐图像中待检测的目标进行标注,并建立带有目标标注的声呐侧扫图像集合;s2、基于yolo-v3方法结合水下声呐侧扫图像进行训练,建立目标检测网络,用于实现光学和声学水声目标检测的互补、准确检测水声目标;s3、实时采集带有目标的水下声呐侧扫图像,输入该yolo-v3网络结构进行识别检测,获取水下目标中心的预测框以及坐标。2.根据权力要求1所述的基于yolo-v3算法的水下声呐侧扫图像小目标检测方法,其特征在于,所述标注为对水下声呐侧扫图像中的目标用矩形框进行模糊标注。3.根据权力要求1所述的基于yolo-v3算法的水下声呐侧扫图像小目标检测方法,其特征在于,所述基于yolo-v3方法结合水下声呐侧扫图像进行训练,包括:是采用模糊标注的水下声呐侧扫图像数据集训练yolo-v3网络中darknet-53网络的参数,并根据损失函数反向传播调整darknet-53网络的参数。4.根据权力要求1所述的基于yolo-v3算法的水下声呐侧扫图像小目标检测方法,其特征在于,所述综合损失函数e=e1+e2,其中,e1表示真实检测框与预测的目标框的交叉熵损失函数,e2表示坐标损失函数;当综合损失函数e满足阈值要求时停止网络参数的更新迭代。5.根据权利要求3或4述的基于yolo-v3算法的水下声呐侧扫图像小目标检测方法,其特征在于,所述采用模糊标注的水下声呐侧扫图像数据集训练yolo-v3算法中darknet-53网络的参数,包括:将水下声呐侧扫图像用s*s的网格切分,在每个网格中预测b个边界框,通过计算每个边界框的所得分数来检测物体的位置中心,边界框的分数计算通过如下公式:其中,是第i个网格里的第j个边界框所得的分数,p
i,j
(object)表示探测目标位于第i个网格里的第j个边界框的概率,表示预测框与物体真实预测框之间的交并比,所述交并比为交集与并集的比。6.根据权利要求5所述的基于yolo-v3算法的水下声呐侧扫图像小目标检测方法,其特征在于,所述将水下声呐侧扫图像用s*s的网格切分后,得到s*s个的网格图像和任意一个网格图像的真实预测框。7.根据权利要求5所述的基于yolo-v3算法的水下声呐侧扫图像小目标检测方法,其特征在于,计算真实检测框与预测的目标框的交叉熵,以此作为损失函数反向传播更新网络参数,损失函数的计算可以通过如下公式:其中,e1表示用于参数更新的第一个损失函数,w
i,j
表示权重,表示第i个网格里的第j个真实预测框的得分。
8.根据权利要求3或4所述的基于yolo-v3算法的水下声呐侧扫图像小目标检测方法,其特征在于,通过坐标损失函数更新网络参数,坐标损失函数更新网络参数的方法为其中,e2表示坐标损失函数,σ(
·
)表示第i个网格里的第j个预测框的四个坐标t
x
、t
y
、t
w
、t
h
对应的函数,为第i个网格里的第j个对应真实检测框的坐标。9.根据权利要求1所述的基于yolo-v3算法的水下声呐侧扫图像小目标检测方法,其特征在于,所述目标中心的坐标为:停止更新迭代时的第i个网格里的第j个边界框的中心为当前水声目标的中心作为输出结果;所述水下目标中心的预测框为;此时的边界框的四个坐标作为输出结果进行标注。
技术总结
本发明涉及基于YoLo-v3算法的水下声呐侧扫图像小目标检测方法。通过对已有的水下声呐侧扫图像中的小目标进行标注,利用YoLo-v3算法在目标检测任务中的优势,并根据水下声呐侧扫图像中目标检测任务的要求对网络结构进行适当的修改,以实现水下声呐侧扫图像的目标检测任务。实验结果验证了该方法在水下声呐侧扫图像目标检测任务中的有效性。图像目标检测任务中的有效性。图像目标检测任务中的有效性。
技术研发人员:韩志 王艳美 余思泉 唐延东
受保护的技术使用者:中国科学院沈阳自动化研究所
技术研发日:2021.11.26
技术公布日:2022/3/8