基于Faster-RCNN的图像检测方法及装置与流程

专利查询6天前  6


本发明涉及神经网络图像检测领域,更具体地,涉及一种基于faster-rcnn的图像检测方法及装置。


背景技术:

1、随着深度学习技术的发展,vgg16和alexnet等模型在计算机视觉领域已经得到广泛的应用,目前的深度学习技术在图像识别方面已经达到了一个很高的精度,但是在特征图全局信息特征预处理方面,还仍有不足,例如在faster-rcnn的特征图提取方面,一般使用带膨胀卷积的cnn来进行特征图的提取,但是cnn一般只能保留局部特征,很难捕获全局信息,同时,一副图像的两个相邻像素有时候也具有一定的联系,目前的网络结构很难捕获长距离依赖关系。


技术实现思路

1、本发明的目的是提出一种基于faster-rcnn的图像检测方法及装置,实现更好地进行全局信息特征的提取,提高识别率并精确定位物体。

2、为实现上述目的,第一方面本发明提出了一种基于faster-rcnn的图像检测方法,包括:

3、构建基于faster-rcnn的图像检测模型,包括:

4、构建融合transformer模块与cnn网络的特征提取网络,所述特征提取网络用于对输入的图像进行特征提取生成特征图;

5、构建区域候选网络,所述区域候选网络用于生成定位物体的候选框;

6、构建兴趣区池化层和全连接层,所述兴趣区池化层用于收集所述区域候选网络生成的候选框,并从所述特征提取网络中提取特征图生成候选框特征图,所述全连接层用于利用所述候选框特征图计算出具体类别,并通过边界框回归获得检测框最终的精确位置;

7、利用预先构建的训练数据集对构建的所述图像检测模型进行训练;

8、利用完成训练的所述图像检测模型对待检测图像进行目标检测。

9、可选地,所述特征提取网络包括:依次连接的3*3一维卷积层、64*64一维卷积层、2*2的最大池化层、全连接层、第一归一化层、多头注意力机制层、第二归一化层和多层感知器层;

10、其中,3*3一维卷积层、64*64一维卷积层、2*2的最大池化层和全连接层构成所述cnn网络;第一归一化层、多头注意力机制层、第二归一化层和多层感知器层构成所述transformer模块。

11、可选地,3*3一维卷积和64*64一维卷积均使用relu激活函数。

12、可选地,所述区域候选网络用于使用kmeans算法生成精确定位物体的候选框。

13、可选地,所述区域候选网络包括:

14、锚定框生成模块,用于生成锚定框;

15、锚定框提取模块,用于使用softmax分类器对生成的锚定框进行分类,并提取有目标的锚定框;

16、边界框回归模块,回归学习有目标的锚定框与真实目标的标注位置的偏移量,以对锚定框进行修正,提高定位物体的精度并输出候选框。

17、第二方面,本发明提出一种基于faster-rcnn的图像检测装置,包括:

18、特征提取网络,所述特征提取网络使用transformer模块与cnn网络融合的网络结构,用于对输入的图像进行特征提取生成特征图;

19、区域候选网络,用于生成定位物体的候选框;

20、兴趣区池化层,用于用于收集所述区域候选模块生成的候选框,并从所述特征提取模块中提取特征图生成候选框特征图;

21、全连接层,用于利用所述候选框特征图计算出具体类别,并通过边界框回归获得检测框最终的精确位置。

22、可选地,所述特征提取网络包括:依次连接的3*3一维卷积层、64*64一维卷积层、2*2的最大池化层、全连接层、第一归一化层、多头注意力机制层、第二归一化层和多层感知器层;

23、其中,3*3一维卷积层、64*64一维卷积层、2*2的最大池化层和全连接层构成所述cnn网络;第一归一化层、多头注意力机制层、第二归一化层和多层感知器层构成所述transformer模块。

24、可选地,3*3一维卷积和64*64一维卷积均使用relu激活函数。

25、可选地,所述区域候选网络用于使用kmeans算法生成精确定位物体的候选框。

26、可选地,所述区域候选网络包括:

27、锚定框生成模块,用于生成锚定框;

28、锚定框提取模块,用于使用softmax分类器对生成的锚定框进行分类,并提取有目标的锚定框;

29、边界框回归模块,回归学习有目标的锚定框与真实目标的标注位置的偏移量,以对锚定框进行修正,提高定位物体的精度并输出候选框。

30、本发明的有益效果在于:

31、本发明使用并行模型transformer来融合cnn卷积神经网络,将这个网络作为特征图预处理网络,从而更好地进行特征提取。在faster-rcnn的特征图提取方面,一般使用带膨胀卷积的cnn来进行特征图的提取,但是cnn一般只能保留局部特征,很难捕获全局信息,而transformer可以捕获长距离依赖关系,故本发明在特征提取网络中融合transformer和cnn两种网络结构,使这种网络结构能够具备cnn和transformer的优点,从而更好地进行特征提取,提高识别率,同时在rpn网络结构中,融合kmeans算法,从而使锚定框精确定位物体。

32、本发明的系统具有其它的特性和优点,这些特性和优点从并入本文中的附图和随后的具体实施方式中将是显而易见的,或者将在并入本文中的附图和随后的具体实施方式中进行详细陈述,这些附图和具体实施方式共同用于解释本发明的特定原理。



技术特征:

1.一种基于faster-rcnn的图像检测方法,其特征在于,包括:

2.根据权利要求1所述的基于faster-rcnn的图像检测方法,其特征在于,所述特征提取网络包括:依次连接的3*3一维卷积层、64*64一维卷积层、2*2的最大池化层、全连接层、第一归一化层、多头注意力机制层、第二归一化层和多层感知器层;

3.根据权利要求2所述的基于faster-rcnn的图像检测方法,其特征在于,3*3一维卷积和64*64一维卷积均使用relu激活函数。

4.根据权利要求1所述的基于faster-rcnn的图像检测方法,其特征在于,所述区域候选网络用于使用kmeans算法生成精确定位物体的候选框。

5.根据权利要求4所述的基于faster-rcnn的图像检测方法,其特征在于,所述区域候选网络包括:

6.一种基于faster-rcnn的图像检测装置,其特征在于,包括:

7.根据权利要求1所述的基于faster-rcnn的图像检测装置,其特征在于,所述特征提取网络包括:依次连接的3*3一维卷积层、64*64一维卷积层、2*2的最大池化层、全连接层、第一归一化层、多头注意力机制层、第二归一化层和多层感知器层;

8.根据权利要求7所述的基于faster-rcnn的图像检测装置,其特征在于,3*3一维卷积和64*64一维卷积均使用relu激活函数。

9.根据权利要求6所述的基于faster-rcnn的图像检测装置,其特征在于,所述区域候选网络用于使用kmeans算法生成精确定位物体的候选框。

10.根据权利要求9所述的基于faster-rcnn的图像检测装置,其特征在于,所述区域候选网络包括:


技术总结
本发明公开了一种基于Faster‑RCNN的图像检测方法及装置,该方法包括:构建基于Faster‑RCNN的图像检测模型,包括:构建融合Transformer模块与CNN网络的特征提取网络;构建区域候选网络,区域候选网络用于生成定位物体的候选框;构建兴趣区池化层和全连接层,兴趣区池化层用于收集区域候选网络生成的候选框,并从特征提取网络中提取特征图生成候选框特征图,全连接层用于利用候选框特征图计算出具体类别,并通过边界框回归获得检测框最终的精确位置;利用预先构建的训练数据集对构建的图像检测模型进行训练;利用完成训练的图像检测模型对待检测图像进行目标检测。本发明可更好地进行全局信息特征的提取,提高识别率并精确定位物体。

技术研发人员:李相
受保护的技术使用者:北京汽车股份有限公司
技术研发日:
技术公布日:2024/12/5

最新回复(0)