一种基于区域级特征融合的位姿估计方法与流程

专利查询1月前  26



1.本发明属于人工智能的技术领域,涉及一种基于区域级特征融合的位姿估计方法。


背景技术:

2.6d位姿估计是估计3d空间中的物体旋转和平移,具体而言,6d位姿由刚性变换[r|t]表示,其中r表示3d旋转,t表示3d平移。6d位姿估计是现实世界许多应用的重要环节,例如机器人抓取和操纵,自主导航和增强现实。
[0003]
传统上,6d对象位姿估计的问题是通过在3d模型和图像之间匹配特征点来解决的。但是,这些方法需要对象具有丰富的纹理,以便检测要匹配的特征点,因此,他们无法处理没有纹理的对象,因为无纹理对象的表面无法提供足够的信息来提取2d关键点,随着深度相机的出现,已经提出了几种使用rgb-d数据识别较少纹理的对象的方法。
[0004]
近年来,因为深度学习在许多其他领域取得的巨大成功,例如对象检测和语义分割,深读学习的方法也尝试应用在位姿估计领域。这些方法可以分为三类,第一类使用深度学习来寻找2d-3d或3d-3d特征点的对应,包括显式的和隐式的方法,如显示的方法bb8,隐式的方法3dfeat-net,以解决传统方法对无纹理物体不适用的问题,然而,此方法仍然对遮挡敏感;第二类寻找当前输入和已有带6d位姿的模板之间的对应,包括显式的和隐式的方式,如显示的方法posecnn,隐式的方法ssd6d,然而,位姿估计的精度通常是不够准确的,因此这些方法都需要费时的后处理步骤(如icp)优化位姿估计结果;第三类通过像素点或者3d点间接投票得到关键点然后使用算法得到6d位姿或者直接投票得到6d位姿,如间接投票的pvnet,直接投票的densefusion。
[0005]
基于深度学习的位姿估计方法能够适用于无纹理物体,能够在深度图像和彩色图像中提取有效的信息,因此基于深度学习的位姿估计方法在一些位姿估计数据集测试中中取得了令人满意的实验结果。尽管如此,目前的算法还存在以下缺陷:
[0006]
在重度遮挡和复杂背景下,由于受到遮挡只能看到部分物体,现有的多数以rgb-d为数据源的深度学习位姿估计方法通常从彩色和深度数据中分别提取信息,在提取特征时无法有效的排除干扰得到有效信息,这严重限制了算法在重度遮挡和复杂背景下的预测性能。


技术实现要素:

[0007]
本发明的目的在于克服现有位姿估计方法在重度遮挡和复杂背景下的预测性能差的缺陷,提供一种基于区域级特征融合的位姿估计方法,将深度信息和颜色特征融合在一起,然后使用神经网络处理所得的区域级融合特征,利用对称约简函数对多个区域级融合特征进行处理生成一个全局特征,再把全局特征添加进每个区域级融合特征,从而获得具有更多细节、多尺度的颜色和深度区域融合特征,使得算法在背景混乱和严重遮挡情况下有很好的鲁棒性,同时将位姿估计分为两步进行,先计算出三维平移预测,然后结合区域
级融合特征更准确的获得了三维旋转预测,使得网络的注意力更为集中,将解空间的范围缩小,更易求解,计算速度更快,响应更加及时。
[0008]
本发明可通过以下技术方案实现:
[0009]
一种基于区域级特征融合的位姿估计方法,包括以下步骤:
[0010]
s1、通过三维相机获取待检对象的图像,包括颜色图像和深度图像;
[0011]
s2、将所述颜色图像输入到第一神经网络,提取待检对象的颜色特征;
[0012]
s3、将待检对象在深度图像中的对应区域转换为点云图,再将所述点云图输入到第二神经网络,提取待检图像的几何特征,并生成三维平移预测;
[0013]
s4、将所述颜色特征和几何特征进行逐像素融合,生成多个区域级融合特征,再将多个所述区域级融合特征输入多层感知机,生成多个三维旋转预测及其对应的置信度;
[0014]
s5、将所述三维平移预测和置信度最大的三维旋转预测组合生成6d位姿估计。
[0015]
进一步,将所述颜色特征和几何特征输入到第三神经网络进行逐像素融合生成多个区域级融合特征,利用对称约简函数对多个区域级融合特征进行处理生成一个全局特征,再把所述全局特征添加进每个区域级融合特征,然后将添加后的多个区域级融合特征输入到多层感知机,生成多个三维旋转预测及其对应的置信度。
[0016]
进一步,所述第二神经网络设置为类poinnet网络,包括五层网络结构,所述点云图输入到类poinnet网络进行特征提取,其中的第一层网络和第二层网络的输出结果拼接在一起组成待检对象的几何特征,类poinnet网络的最终输出结果作为待检对象的三维平移预测。
[0017]
进一步,所述类pointnet网络设置为n*3-mlp(3,640)-mlp(64,128)-mlp(128,512)-mlp(512,1024)-average pooling-mlp(1024,512,128,3),其中,n*3表示输入层即是点云图,n=h*w,h、w分别表示待检对象在深度图像中的对应区域的高度和宽度,mlp表示多层感知机,权值是所有点云点共享的,average pooling表示平均池化层。
[0018]
进一步,将在真实位姿下待检对象模型上的取样点与估计位姿下待检对象模型相对应点之间的距离定义为位姿估计损失,经过训练学习,不断减小位姿估计损失,选择位姿估计损失最小的作为最终6d位姿估计,
[0019]
对于不对称物体,利用如下方程式计算位姿估计损失,
[0020][0021]
其中,xj表示从真实位姿下待检对象模型上随机选择的一个三维点,共有m个,p=[r|t]表示真实位姿,表示第i次迭代后的位姿估计;
[0022]
对于对称物体,利用如下方程式计算位姿估计损失,
[0023][0024]
其中,xj表示从真实位姿下待检对象模型上随机选择的一个三维点,共有m个,p=[r|t]表示真实位姿,表示第i次迭代后的位姿估计;xk表示位姿估计下待
检对象模型上随机选择的m个三位点中离xj最近的三维点。
[0025]
进一步,将最终6d位姿估计对应的网络结构设置为主网络,当位姿估计损失小于预定值时,加载优化网络,对主网络的最终6d位姿估计进行优化,所述优化网络的结构和主网络的结构一样。
[0026]
进一步,将最终6d位姿估计的结果进行变换后得到点云图,再将其和原始的颜色图像作为优化网络的输入,计算估计位姿残差,然后,将所述估计位姿残差变换后得到的点云图再和原始的颜色图像作为优化网络的下一次输入,直至迭代指定次数,利用如下方程式计算最优位姿估计,
[0027]
p2=p1
·
t4
·
t3
·
t2
·
t1
[0028]
其中,p2为最优位姿估计,p1为主网络估计的最终6d位姿估计,t1、t2、t3、t4为优化网络每次迭代计算得到的估计位姿残差。
[0029]
进一步,所述预设值设置为0.013,所述指定次数设置为100。
[0030]
有益效果:
[0031]
第一,本发明首次提出了区域融合特征:网络将深度信息合并到颜色特征中,然后使用神经网络处理所得的融合特征,从而获得进一步细节的颜色和深度区域融合特征,使得算法在背景混乱和严重遮挡情况下有很好的鲁棒性。
[0032]
第二,本发明利用解耦合的方式使得位姿估计精度提高,将位姿估计分为两步进行,先评估出三维平移,然后结合区域融合特征更准确的获得了三维旋转。
[0033]
第三,本发明能够在linemod数据集上实现了超过densefusion的6d位姿估计性能。
附图说明
[0034]
图1为本发明的总体流程示意图;
[0035]
图2为本发明的类poinnet网络的结构示意图;
[0036]
图3为本发明的加载优化网络进一步进行位姿估计的流程示意图。
具体实施方式
[0037]
下面结合附图,对本发明的具体实施方式做进一步阐述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
[0038]
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0039]
本发明提出一种基于区域级特征融合的位姿估计方法,如图1所示,具体包括以下步骤:
[0040]
s1、通过三维相机获取待检对象的图像,包括颜色图像和深度图像;
[0041]
s2、语义分割与颜色特征提取:
[0042]
将颜色图像输入第一神经网络如pspnet网络中,pspnet网络是一种将彩色图像作为输入,并输出n+1通道的分割图的编码器-解码器体系结构,其中,第一个通道描述了背
景,其他n个通道描述了n个已知类的对象,在输出的分割图中找到要待测对象的边界框,将分割后的边界框中的彩色图像作为颜色特征,边界框应用于下列步骤的深度图像的裁剪。
[0043]
s3、几何特征提取与三维平移预测:将待检对象在深度图像中的对应区域转换为点云图,再将该点云图输入到第二神经网络,提取待检图像的几何特征,并生成三维平移预测;
[0044]
根据s2得到的边界框对深度图像进行裁剪,获得仅包含一个待检对象的大小为h
×w×
depth的深度图像块,然后,利用如下方程式将深度图像块转化为点云图,将图像点[u,v]转换到到世界坐标点[xw,yw,zw],
[0045][0046]
其中,s为摄像头缩放参数,u0,v0为摄像头的中心坐标,f
x
,fy分别为摄像头的x,y轴的长度。
[0047]
使用类似pointnet网络的体系结构提取几何特征和预测三维平移:将转换后的点云图输入第二神经网络如类poinnet网络,该类pointnet网络的具体结构可采用n*3-mlp(3,640)-mlp(64,128)-mlp(128,512)-mlp(512,1024)-average pooling-mlp(1024,512,128,3),如图2所示,其中,n*3表示输入层,是深度图像块转换来的点云图,n=h*w,mlp是多层感知机,权值是所有点云点共享的,average pooling是平均池化层,最后的输出结果有两个分支,一是三维旋转预测即网络的最终输出结果,二是由mlp(3*64)提取的n*64特征图和mlp(64*128)提取的n*128特征图组合的多阶段几何特征即网络第一层和第二层的输出结果拼接在一起得到的。
[0048]
s4、将上述颜色特征和几何特征进行逐像素融合,生成多个区域级融合特征,再将多个区域级融合特征输入多层感知机,生成多个三维旋转预测及其对应的置信度,具体如下:
[0049]
a)特征融合与区域级融合特征提取:到目前为止,已经从深度图中提取出了几何特征,从颜色图中提取出了颜色特征,由于几何特征和颜色特征是一一对应的,所以可以采用逐像素的融合即将几何特征点对点地融合进颜色特征中,可将几何特征与颜色特征输入cnn网络进行点对点融合,输出多个区域级融合特征,该cnn网络的结构可采用input-conv-lrn-pooling-conv-lrn

pooling,其中,input表示输入层,conv表示卷积层,lrn表示非线性归一化层,pooling表示降采样层。
[0050]
b)三维旋转预测:我们将多个区域级融合特征使用对称约简函数将局部特征图生成一个全局特征,再把所述全局特征添加进每个区域级融合特征,然后将添加后的多个区域级融合特征输入多层感知机,生成多个三维旋转预测,同时多层感知机还会针对每个三维旋转预测输出一个预测的置信度ci,达到一种自监督的效果。
[0051]
s5、将上述三维平移预测和置信度最大的三维旋转预测组合生成6d位姿估计。
[0052]
为了不断优化6d位姿估计的结果,我们可使用linemod数据集对上述网络进行不断训练学习,该linemod数据集是广泛用于6d位姿估计的基准数据集。训练的时候可加载2373张训练集,但会重复训练20次,所以就会有2373x20=47460帧,我们将batch_size设置为8,47460/8=5932.5,最后不足8张,因此只会有5932个batch加载,即:5932x8=47456帧。
[0053]
然后,将在真实位姿下待检对象模型上的取样点与估计位姿下待检对象模型相对应点之间的距离定义为位姿估计损失,经过训练学习,不断减小位姿估计损失,选择位姿估计损失最小的作为最终6d位姿估计。
[0054]
对于不对称物体,利用如下方程式计算位姿估计损失,
[0055][0056]
其中,xj表示从真实位姿下待检对象模型上随机选择的一个三维点,共有m个,p=[r|t]表示真实位姿,表示第i次迭代后的位姿估计;
[0057]
对于对称物体,利用如下方程式计算位姿估计损失,
[0058][0059]
其中,xj表示从真实位姿下待检对象模型上随机选择的一个三维点,共有m个,p=[r|t]表示真实位姿,表示第i次迭代后的位姿估计;xk表示位姿估计下待检对象模型上随机选择的m个三位点中离xj最近的三维点。
[0060]
另外,考虑到计算速度问题以及网络本身的结构,以上述内容所讲的网络为主网络,我们还可以加载优化网络对上述最终6d位姿估计的结果进一步优化,如图3所示,该优化网络不与主网络一起训练,因为它很难收敛,所以,首先训练主网络直到它收敛,然后设置主网络固定再开始训练优化网络。
[0061]
具体如下:
[0062]
当位姿估计损失小于预设值如0.013时,才会加载优化网络一起训练;
[0063]
先将最终6d位姿估计的结果进行变换后得到点云图,再将其和原始的颜色图像作为优化网络的输入,计算估计位姿残差,然后,将该估计位姿残差变换后得到的点云图再和原始的颜色图像作为优化网络的下一次输入,直至迭代指定次数如100,如将epoch设置为100,利用如下方程式计算最优位姿估计,
[0064]
p2=p1
·
t4
·
t3
·
t2
·
t1
[0065]
其中,p2为最优位姿估计,p1为主网络估计的最终6d位姿估计,t1、t2、t3、t4为优化网络每次迭代计算得到的估计位姿残差。
[0066]
为了验证本发明的性能,本发明在一个公开数据集linemod上进行了实验,并且对本发明的主网络即区域级融合位姿估计网络与其他基准网络进行了分析比较,实验均按照相应数据集的实验规定进行训练与测试。
[0067]
其中,表1显示了本发明的方法和其他基准的方法在linemod数据集上的add(-s)度量结果,从表1可以看出来,在没有优化网络的情况下,本发明的方法达到了82.9%的准确率,该方法的准确率高于没有优化网络的其他方法;有优化网络的情况下,本发明的精度提高了13.65%,达到了96.50%,该方法的准确率也高于有优化网络的其他方法,比posecnn和densefusion分别高出7.9%和2.2%。
[0068]
表2显示了本发明的方法和其他基准的方法在linemod数据集上2d投影度量结果,
从表2可以看出来,根据优化网络的存在和不存在将这些方法分别对比。没有优化网络的情况下,本发明的方法达到了97.47%的准确率,该方法的准确率高于其他方法;有优化网络的情况下,本发明的方法达到了97.82%,该方法的准确率高于有优化网络的其他方法。
[0069]
值得注意的是,本发明的方法在linemod数据集上在add(-s)度量和2d投影度量上都取得了比densefusion更好的性能。
[0070]
表1-add度量方法上,本文的方法和基准方法在linemod数据集上的准确性
[0071][0072]
表2-2d投影度量方法上,本文的方法和基准方法在linemod数据集上的准确性
[0073][0074]
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应该理解,这些仅是举例说明,在不违背本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改。

技术特征:
1.一种基于区域级特征融合的位姿估计方法,其特征在于包括以下步骤:s1、通过三维相机获取待检对象的图像,包括颜色图像和深度图像;s2、将所述颜色图像输入到第一神经网络,提取待检对象的颜色特征;s3、将待检对象在深度图像中的对应区域转换为点云图,再将所述点云图输入到第二神经网络,提取待检图像的几何特征,并生成三维平移预测;s4、将所述颜色特征和几何特征进行逐像素融合,生成多个区域级融合特征,再将多个所述区域级融合特征输入多层感知机,生成多个三维旋转预测及其对应的置信度;s5、将所述三维平移预测和置信度最大的三维旋转预测组合生成6d位姿估计。2.根据权利要求1所述的基于区域级特征融合的位姿估计方法,其特征在于:将所述颜色特征和几何特征输入到第三神经网络进行逐像素融合生成多个区域级融合特征,利用对称约简函数对多个区域级融合特征进行处理生成一个全局特征,再把所述全局特征添加进每个区域级融合特征,然后将添加后的多个区域级融合特征输入到多层感知机,生成多个三维旋转预测及其对应的置信度。3.根据权利要求1所述的基于区域级特征融合的位姿估计方法,其特征在于:所述第二神经网络设置为类poinnet网络,包括五层网络结构,所述点云图输入到类poinnet网络进行特征提取,其中的第一层网络和第二层网络的输出结果拼接在一起组成待检对象的几何特征,类poinnet网络的最终输出结果作为待检对象的三维平移预测。4.根据权利要求4所述的基于区域级特征融合的位姿估计方法,其特征在于:所述类pointnet网络设置为n*3-mlp(3,640)-mlp(64,128)-mlp(128,512)-mlp(512,1024)-average pooling-mlp(1024,512,128,3),其中,n*3表示输入层即是点云图,n=h*w,h、w分别表示待检对象在深度图像中的对应区域的高度和宽度,mlp表示多层感知机,权值是所有点云点共享的,average pooling表示平均池化层。5.根据权利要求1所述的基于区域级特征融合的位姿估计方法,其特征在于:将在真实位姿下待检对象模型上的取样点与估计位姿下待检对象模型相对应点之间的距离定义为位姿估计损失,经过训练学习,不断减小位姿估计损失,选择位姿估计损失最小的作为最终6d位姿估计,对于不对称物体,利用如下方程式计算位姿估计损失,其中,x
j
表示从真实位姿下待检对象模型上随机选择的一个三维点,共有m个,p=[r|t]表示真实位姿,表示第i次迭代后的位姿估计;对于对称物体,利用如下方程式计算位姿估计损失,其中,x
j
表示从真实位姿下待检对象模型上随机选择的一个三维点,共有m个,p=[r|t]表示真实位姿,表示第i次迭代后的位姿估计;x
k
表示位姿估计下待检对
象模型上随机选择的m个三位点中离x
j
最近的三维点。6.根据权利要求5所述的基于区域级特征融合的位姿估计方法,其特征在于:将最终6d位姿估计对应的网络结构设置为主网络,当位姿估计损失小于预定值时,加载优化网络,对主网络的最终6d位姿估计进行优化,所述优化网络的结构和主网络的结构一样。7.根据权利要求7所述的基于区域级特征融合的位姿估计方法,其特征在于:将最终6d位姿估计的结果进行变换后得到点云图,再将其和原始的颜色图像作为优化网络的输入,计算估计位姿残差,然后,将所述估计位姿残差变换后得到的点云图再和原始的颜色图像作为优化网络的下一次输入,直至迭代指定次数,利用如下方程式计算最优位姿估计,p2=p1
·
t4
·
t3
·
t2
·
t1其中,p2为最优位姿估计,p1为主网络估计的最终6d位姿估计,t1、t2、t3、t4为优化网络每次迭代计算得到的估计位姿残差。8.根据权利要求7所述的基于区域级特征融合的位姿估计方法,其特征在于:所述预设值设置为0.013,所述指定次数设置为100。

技术总结
本发明属于人工智能的技术领域,公开了一种基于区域级特征融合的位姿估计方法,包括S1、通过三维相机获取待检对象的图像,包括颜色图像和深度图像;S2、将所述颜色图像输入到第一神经网络,提取待检对象的颜色特征;S3、将待检对象在深度图像中的对应区域转换为点云图,再将所述点云图输入到第二神经网络,提取待检图像的几何特征,并生成三维平移预测;S4、将所述颜色特征和几何特征进行逐像素融合,生成多个区域级融合特征,再将多个所述区域级融合特征输入多层感知机,生成多个三维旋转预测及其对应的置信度;S5、将所述三维平移预测和置信度最大的三维旋转预测组合生成6D位姿估计。计。计。


技术研发人员:安康 王万诚 曾莉 宋亚庆 上官倩芡 管西强 李一染
受保护的技术使用者:上海优爱宝智能机器人科技股份有限公司
技术研发日:2021.11.25
技术公布日:2022/3/8

最新回复(0)