一种基于扩散模型的单视图三维建模方法及系统与流程

专利查询6天前  4


本发明涉及人工智能,特别涉及一种基于扩散模型的单视图三维建模方法及系统。


背景技术:

1、随着计算机视觉和图形学技术的不断发展,三维建模在各个领域中的应用越来越广泛,如虚拟现实、游戏开发、影视制作和建筑设计等。传统的三维建模方法通常依赖于专业的建模软件和人工操作,这不仅耗时费力,而且对操作人员的专业技能要求较高。为了提高三维建模的效率和质量,研究人员和工程师们不断探索新的自动化建模方法。

2、目前,基于图像的三维重建技术已经取得了显著的进展。常见的方法包括多视图立体视觉(multi-view stereo,mvs)和结构光扫描(structured light scanning)。这些方法通常需要多张不同视角的图像来重建三维模型,虽然能够生成高质量的三维网格,但在实际应用中,获取多视角图像的过程复杂且耗时。此外,现有的三维重建方法在处理稀疏视图时,往往难以保证重建结果的精度和完整性。

3、近年来,深度学习技术在计算机视觉领域的应用取得了突破性进展,特别是扩散模型(diffusionmodels)和大型重建模型(large reconstructionmodels,lrm)的出现,为三维建模提供了新的思路。扩散模型通过逐步去噪的过程生成高质量的图像,已经在图像生成和图像修复等任务中表现出色。而基于lrm架构的稀疏视图重建模型则能够在稀疏视图条件下,利用深度学习网络的强大表征能力,重建出高质量的三维模型。

4、然而,现有的基于扩散模型和lrm的三维建模方法仍存在一些不足之处。例如,扩散模型在生成三维模型时,通常需要大量的计算资源和时间,难以满足实时应用的需求;而基于lrm的稀疏视图重建模型在处理单张图像时,重建结果的多样性和细节表现仍有待提高。


技术实现思路

1、基于此,本技术实施例提供了一种基于扩散模型的单视图三维建模方法及系统,结合现有多视图扩散模型和基于lrm架构的稀疏视图重建模型的优势,提供一种能够从单张图像快速生成高质量3d网格的前馈框架,能够在10秒内创建多样化的3d资产,显著提高了三维建模的效率和质量。

2、第一方面,提供了一种基于扩散模型的单视图三维建模方法,该方法包括:

3、输入图像:获取单张图像作为输入;

4、多视图生产:将接收的图像输入到多视图扩散模型中,生成6个不同角度的视图;

5、图像令牌生成:将生成的多视图图像输入到vit编码器中,通过vit编码器将每个视图图像转换为图像令牌;

6、三平面解码:将图像令牌输入到三平面解码器中生成三平面表示;

7、等值面提取:使用flexicubes对三平面表示进行等值面提取将三平面表示转换为网格表示;

8、3d网格渲染:对生成的网格表示进行渲染,生成3d模型视图。

9、可选地,获取单张图像作为输入包括,还包括:

10、对图像进行预处理操作;其中,所述预处理操作包括缩放、裁剪和去噪。

11、可选地,将接收的图像输入到多视图扩散模型中,生成6个不同角度的视图,具体包括:

12、多视图扩散模型利用深度学习中的卷积神经网络来捕捉图像的空间结构信息生成多个不同角度的视图;其中,视图对应于固定的相机位置。

13、可选地,将生成的多视图图像输入到vit编码器中,通过vit编码器将每个视图图像转换为图像令牌,具体包括:

14、将生成的多视图图像中的每个视图都分割成固定大小的图像块;

15、每个图像块会被展平成一维向量,并经过一个线性变换映射到相同的维度空间,并进行位置编码得到图像令牌;

16、对于多视图扩散模型生成的每个视图图像,都重复图像分块和位置编码过程,从而得到每个视图的一组图像令牌;

17、将所有视图的图像令牌输入到vit编码器中;其中,vit编码器由多个堆叠的变换器层组成,每个变换器层都包含一个自注意力机制和一个前馈神经网络;

18、经过vit编码器的处理,每个图像令牌都会被更新以包含更多的上下文信息和语义特征;最后vit编码器输出更新后的图像令牌。

19、可选地,将图像令牌输入到三平面解码器中生成三平面表示,具体包括:

20、接收vit编码器输出的图像令牌后,三平面解码器会将这些令牌转换为三平面表示;其中,三平面为三个正交平面。

21、可选地,使用flexicubes对三平面表示进行等值面提取将三平面表示转换为网格表示,具体包括:

22、flexicubes模块首先接收三平面解码器输出的三平面表示作为输入,并初始化一个空的128*128*128的三维网格;

23、在等值面提取过程中,flexicubes模块会遍历三平面表示中的每一个样本点,并计算这些点在三维空间中的位置,并检查这些点是否满足阈值条件;其中,阈值条件用于定义等值面的边界;

24、当样本点满足等值面条件时,将其位置映射到初始化的三维网格上,并标记该网格点属于等值面;

25、通过等值面提取过程,在三维网格上形成多个等值面点,并通过网格细化技术来连接这些点,生成连续的网格表面;其中,网格细化技术包括插值和平滑。

26、第二方面,提供了一种基于扩散模型的单视图三维建模系统,该系统包括:

27、输入图像模块:用于获取单张图像作为输入;

28、多视图生产模块:用于将接收的图像输入到多视图扩散模型中,生成6个不同角度的视图;

29、图像令牌生成模块:用于将生成的多视图图像输入到vit编码器中,通过vit编码器将每个视图图像转换为图像令牌;

30、三平面解码模块:用于将图像令牌输入到三平面解码器中生成三平面表示;

31、等值面提取模块:用于使用flexicubes对三平面表示进行等值面提取将三平面表示转换为网格表示;

32、3d网格渲染模块:用于对生成的网格表示进行渲染,生成3d模型视图。

33、第三方面,提供了一种电子设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面任一所述的单视图三维建模方法。

34、第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面任一所述的单视图三维建模方法。

35、第五方面,提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述第一方面任一所述的单视图三维建模方法。

36、本发明通过创新的多视图扩散模型和稀疏视图大规模重建模型,实现了从单张输入图像快速生成高质量3d网格模型,具有以下显著优点和效果:

37、(1)生成速度快:本发明的整体框架能够在大约10秒内完成从图像到3d模型的生成过程。相比于传统的3d重建方法,本发明显著提高了生成速度,满足了实时性要求。

38、(2)模型质量高:通过多视图扩散模型生成一致性高的多视图图像,结合稀疏视图大规模重建模型和flexicubes模块的几何监督,本发明生成的3d网格模型具有高精度和高质量,几何细节丰富。

39、(3)几何细节丰富:flexicubes模块在等值面提取过程中集成了深度和法线等几何监督,确保生成的3d网格模型具有丰富的几何细节和准确性。

40、(4)系统结构优化:本发明通过模块化设计,将多视图生成、图像令牌生成、三平面解码和等值面提取等步骤有机结合,形成了高效的图像到3d模型生成流程,简化了操作和控制过程。

41、(5)资源节省:通过多视图扩散模型生成多视图图像,避免了传统方法中需要多次拍摄或获取多视图图像的资源消耗,节省了计算资源和存储空间。

42、(6)操作简便:本发明的框架设计简洁,用户只需输入单张图像即可生成高质量的3d网格模型,操作简便,降低了使用门槛。


技术特征:

1.一种基于扩散模型的单视图三维建模方法,其特征在于,所述方法包括:

2.根据权利要求1所述的单视图三维建模方法,其特征在于,获取单张图像作为输入包括,还包括:

3.根据权利要求1所述的单视图三维建模方法,其特征在于,将接收的图像输入到多视图扩散模型中,生成6个不同角度的视图,具体包括:

4.根据权利要求1所述的单视图三维建模方法,其特征在于,将生成的多视图图像输入到vit编码器中,通过vit编码器将每个视图图像转换为图像令牌,具体包括:

5.根据权利要求1所述的单视图三维建模方法,其特征在于,将图像令牌输入到三平面解码器中生成三平面表示,具体包括:

6.根据权利要求1所述的单视图三维建模方法,其特征在于,使用flexicubes对三平面表示进行等值面提取将三平面表示转换为网格表示,具体包括:

7.一种基于扩散模型的单视图三维建模系统,其特征在于,所述系统包括:

8.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6任一所述的单视图三维建模方法。

9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一所述的单视图三维建模方法。

10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1至6任一所述的单视图三维建模方法。


技术总结
本申请公开了一种基于扩散模型的单视图三维建模方法及系统。本方法首先获取单张图像作为输入;将接收的图像输入到多视图扩散模型中,然后将生成的多视图图像输入到ViT编码器中,通过ViT编码器将每个视图图像转换为图像令牌;将图像令牌输入到三平面解码器中生成三平面表示;最后使用FlexiCubes对三平面表示进行等值面提取将三平面表示转换为网格表示;3D网格渲染:对生成的网格表示进行渲染,生成3D模型视图。本申请通过多视图扩散模型和稀疏视图大规模重建模型的协同工作,实现了从单张图像快速三维建模,具有生成速度快、模型质量高、几何细节丰富等优点。

技术研发人员:王泓皓
受保护的技术使用者:艺咖(北京)科技有限公司
技术研发日:
技术公布日:2024/12/5

最新回复(0)