本发明属于基于图像的三维重建方法,具体涉及基于视觉显著性驱动的单视角三维重建方法。
背景技术:
1、基于图像的三维重建是从输入的二维图像中还原物体的三维几何形状模型的过程。根据输入图像数量的不同,可以分为多视图三维重建和单视图三维重建两种方法。单视图三维重建由于其较低的输入成本和更广泛的适用性,特别适合于难以获取多个角度图像的场景。然而,与多视图方法相比,单视图重建面临着视角受限、缺乏空间和语义信息等挑战。
2、解决单视图三维重建的基本问题包括从单张图像中提取物体信息,通过语义表达、几何认知和统计学习等不同维度发现视觉特征和模式,最终恢复物体的三维模型。当前的挑战在于如何有效地结合低级图像线索、部件结构知识和高级语义信息,以推断出精确的三维模型。
3、人类视觉系统通过感知和从不同角度分析物体,能够快速识别出物体之间的差异。相比之下,计算机视觉在这方面仍有限制,通常依赖于物理相似性的计算和投影来探索物体之间的差异。当前的三维重建方法往往集中于优化重建模型与真实模型之间的几何误差,但在处理复杂的几何细节和人类视觉感知的差异时,效果可能不理想。
4、因此,需要发展更高效、更准确的单视图三维重建方法,以更好地应对人类视觉感知的挑战和需求。这些方法应该能够有效整合多源信息,提升在重建过程中的几何精确度和视觉真实性,从而更好地模拟和满足人类视觉系统对物体形状和结构的高要求。
技术实现思路
1、本发明所为了解决背景技术中存在的技术问题,目的在于提供了基于视觉显著性驱动的单视角三维重建方法,通过收集人类视觉感知信息,基于人类视觉显著性构建算法模型,能够模仿人对三维形状的感知信息,综合全局与局部形状信息特征,提供了一种全新的单视图三维重建方法。相较于现有方法,本发明方法不仅提高了重建模型与真实模型之间的几何相似性,更注重在人类视觉感知上的差异。通过引入人类视觉显著性先验,本发明方法能够有效地捕捉和利用人类在观察物体时关注的重要区域和特征。这种方法不仅限于单一的几何误差优化,而是通过全面考虑形状的全局和局部信息特征,使得重建结果更加符合人类对物体形状和结构的直观认知,提高重建方法与主观感知的一致性。
2、为了解决技术问题,本发明的技术方案是:
3、基于视觉显著性驱动的单视角三维重建方法,所述方法包括:
4、s1:获得多个rgb图像及其对应的三维模型组成的训练集和验证集;
5、s2:收集人类对三维模型的显著性部件排序标注并进行预处理,得到三维显著性感知器的训练集和测试集;
6、s3:构建并训练三维显著性感知器,通过对训练集中三维形状进行采样并分组为多个子点云,利用三维点云特征提取器对所述子点云进行特征提取,获取与各子点云对应的特征;将对应的特征作为三维显著性感知器的输入,设计回归头将提取到的子点云特征分层连接,利用多层感知机和多个动态图卷积网络进行显著性预测;
7、s4:构建并训练三维重建网络模型,设计rgb图像特征提取器,从所述训练集提取rgb图像的特征,设计三维解码器,将rgb图像特征输入,获得重建的三维形状,利用所述显著性预测结果对三维形状进行加权处理,构建新的损失函数,持续优化训练过程中的重建结果。
8、进一步,所述方法还包括:
9、s5:重复所述步骤s3和s4,逐步优化模型的性能和泛化能力;
10、s6:利用所述验证集,评估模型的性能和准确性。
11、进一步,所述步骤s2包括:
12、s201:利用预设的三维模型数据进行人工标注,将三维模型进行多角度动态展示,根据显著性对三维模型的部件进行排序,最显著的部件标记为r=1,其余部件依据显著性排序;
13、s202:根据显著性部件排序结果,将进行归一化处理,得到预处理后的三维显著性感知器的训练集和测试集。
14、进一步,所述步骤s3包括:
15、s301:对三维形状进行采样,使用最远点采样和k最近邻算法处理点云,分组得到中心点和子点云,将子点云根据中心点排列为一个连续的序列,通过三维点云特征提取器提取子点云丰富的几何特征;
16、s302:构建显著性解码器,分层传播特征到每个点,通过多层感知机、动态图卷积网络和全连接层预测显著性权重分数;
17、s303:将预测显著性权重分数结果与真实显著性权重标签作回归损失,以优化显著性感知器。
18、进一步,所述三维显著性感知器的深度神经网络模型包括三维点云特征提取器和显著性解码器;
19、所述构建显著性部件感知器的深度神经网络模型包括:
20、对三维形状进行采样,采样后的点云可表示为其中每个点pi是其三维坐标的向量;使用最远点采样和k最近邻算法处理点云,分组得到中心点和子点云将子点云根据中心点排列为一个连续的序列,中心点的坐标使用莫顿码编码到一维空间中,然后进行排序,以确定这些中心点的顺序具体计算公式为然后,点面块以相同的顺序排列,排序中心点cs和排序点斑块ps的计算公式为cs,
21、所述三维点云特征提取器为深度神经网络架构,包括多个卷积层、批归一化层、激活层和池化层;
22、构建显著性解码器,分层传播特征到每个点,通过多层感知机、动态图卷积网络和全连接层预测显著性权重分数;
23、所述显著性解码器由多层感知机、两个相连的动态图卷积网络和全连接层构建,这两个动态图卷积网络对点云特征进行分层更新,以进行特征更新,通过多层感知机以及全连接层得到最终的显著性权重分数结果,通过动态图卷积网络,能够较好地多层次捕捉和提取输入数据中的几何特征;
24、将预测显著性权重分数结果与真实显著性权重标签作回归损失,以优化显著性感知器;所述用于预测显著性权重分数结果与真实显著性权重标签的回归损失,使用均方误差损失函数其中,是预测的显著性权重分数,wi是真实的显著性权重标签,n是样本数量。
25、进一步,所述步骤s4包括:
26、s401:构建rgb图像提取器,包括多个二维卷积块和深度残差网络,通过输入rgb图像提取图像特征信息;
27、s402:构建三维解码器,输入从rgb中提取到的特征信息与坐标信息,以获得重建的三维形状;
28、s403:将s402重建得到的三维形状输入到s3训练完成的显著性感知器中生成其显著性感知权重分数,加权计算重建形状与真实形状重建损失函数,优化模型。
29、进一步,所述损失函数为基于显著性的倒角距离,具体公式为:
30、
31、其中,ppred和pgt分别代表预测重建点云和真实三维点云数据,ngt和npred别代表预测重建点云与真实三维点云模型的点集个数,s(x)表示点x的显著性权重,α为调节因子我们将其设置为10。
32、进一步,所述步骤s6包括:
33、s601:在每个训练阶段结束后,使用与训练样本分布不同的验证集来测试模型的性能,评估指标包括但不限于倒角距离和推土机距离;
34、s602:根据性能评估的结果,调整模型的超参数,包括学习率、正则化系数,优化模型结构,改善模型的评估性能。
35、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述中任一项所述的基于视觉显著性驱动的单视角三维重建方法。
36、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述中任一项所述的基于视觉显著性驱动的单视角三维重建方法。
37、与现有技术相比,本发明的优点在于:
38、本发明通过整合人类视觉显著性先验和深度学习技术进行显著性预测,从而更好地模拟和反映人类视觉特性。本技术能够生成更自然、更真实的三维模型,提升了视觉信息的表达和传递效果;
39、本发明具备良好的交互性,允许用户根据具体需求指定关注区域或动态调整重建参数,实现定制化的三维重建模型。这种灵活性使得本技术在面对多样化的三维数据时能够有效适应,大大提升了其在不同应用场景和行业中的适用性和用户满意度;
40、本发明在算法设计上综合使用基于显著性的重建损失函数,显著提高了三维重建算法的鲁棒性和预测结果的精确性。这种方法不仅增强了模型的泛化能力,还有效缓解了传统方法易于面对多样化数据时出现的过拟合问题,从而进一步提升了重建结果的质量和稳定性。
41、综上所述,本发明相较于现有技术,本发明在单视图三维重建领域具有显著的精确性、用户友好性和实用性优势,为市场应用带来了更高的价值和广阔的应用前景。
1.基于视觉显著性驱动的单视角三维重建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于视觉显著性驱动的单视角三维重建方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的基于视觉显著性驱动的单视角三维重建方法,其特征在于,所述步骤s2包括:
4.根据权利要求1所述的基于视觉显著性驱动的单视角三维重建方法,其特征在于,所述步骤s3包括:
5.根据权利要求4所述的基于视觉显著性驱动的单视角三维重建方法,其特征在于,所述三维显著性感知器的深度神经网络模型包括三维点云特征提取器和显著性解码器;
6.根据权利要求1所述的基于视觉显著性驱动的单视角三维重建方法,其特征在于,所述步骤s4包括:
7.根据权利要求1所述的基于视觉显著性驱动的单视角三维重建方法,其特征在于,所述损失函数为基于显著性的倒角距离,具体公式为:
8.根据权利要求2所述的基于视觉显著性驱动的单视角三维重建方法,其特征在于,所述步骤s6包括:
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至8中任一项所述的基于视觉显著性驱动的单视角三维重建方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1至8中任一项所述的基于视觉显著性驱动的单视角三维重建方法。