一种构建与自动标注的三维场景生成系统和方法

专利查询1月前  29


本发明涉及计算机视觉、人工智能及三维点云数据处理,尤其涉及一种构建与自动标注的三维场景生成系统和方法。


背景技术:

1、近年来,构建能够理解三维世界的机器感知系统成为了一个备受关注的研究热点。现有技术的研究主要集中于通过点云学习三维表示,并在对象分类方面取得了显著进展。随着大语言模型的成功,研究的重心逐渐超越了传统的对象分类任务,例如pointllm和3d-llm,旨在将文本描述的潜在表示与三维点云对齐,使机器感知系统能够通过基于文本的指令,更加高效地理解和与物理世界进行交互。如果能够根据文本描述准确识别场景中的目标,将大幅提升机器人应用的智能性,使其能够通过文本指令执行任务,或促进人机协作的优化。

2、然而,实现上述三维场景理解的愿景目前因缺乏全面的三维基准数据集而面临挑战。现有的场景级基准数据集主要基于scannet数据集,scannet数据集是一个三维数据集,包含超过1600个真实场景的扫描数据,主要采集了室内场景信息,包括rgb、深度、三维点云ply数据,并进行了语义标签和实例标签标注。后续在scannet数据集基础上进行了完善,生成了scanref数据集、multi3dref数据集以及scanqa数据集,改进并丰富了scannet的文本注释,以促进三维模型的评估和开发。尽管如此,现有的三维基准数据集仍无法完全满足三维模型发展的需求,表现为:

3、1、数据集规模有限,与二维视觉-文本大模型训练需要的大规模文本-图像对的数据集规模相比,三维场景数据集,由于主要是源自现实世界场景的扫描,规模相对较小;

4、2、数据集注释不够精细,注释的细粒度在客观评估三维模型的优劣并推动其改进方面至关重要。定位文本本身可能存在歧义,指代多个场景中的对象,由此造成模型在点云场景中提取的目标与标签不一致;

5、3、缺乏灵活定制的挑战级别,当前的三维场景数据主要采集于有限数量的场景布局及对象组合和摆放设置。尽管这些数据集可能包含部分具有挑战性的场景,但其不可定制性可能导致模型过拟合。拥有多样化的场景数据和可调节难度的数据将有助于更全面地评估模型的表现。

6、基于上述局限性以及对更全面三维场景数据集的迫切需求,本领域的技术人员致力于开发一种构建与自动标注的三维场景生成系统和方法。


技术实现思路

1、鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何扩展数据集规模,精细化数据集注释和提供灵活的场景构建方法,以构建更加多样化的场景和构建自动化且精细化的注释流程。

2、本技术提出通过整合物品级点云数据和场景级点云数据构建多样化场景。物品级点云数据包括modelnet数据集、shapenet数据集、scanobjectnn数据集和omniobject数据集;场景级点云数据包括scannet数据集。与场景级点云数据相比,物品级点云数据能够提供更广泛的对象类别和更丰富的物品变体,特别是在需要包含微妙对象区分的挑战性场景中。除了场景构建,本技术还进一步整合了大语言模型和二维视觉语言模型,构建自动化且精细化的注释流程。具体而言,指示大语言模型(large language model,简称llm)引导视觉语言模型(vision language model,简称vlm)关注目标对象与干扰物之间的差异,并从颜色、形状、位置等多个方面总结其区别作为数据集注释。

3、本发明的一个实施例中,提供了一种构建与自动标注的三维场景生成系统,包括:

4、物品分类模块,对物品级点云数据进行整理,根据物理特征使用物品归类方法进行分类,得到候选物品池;

5、物品检索模块,根据目标对象的物理特征,按照检索规范在候选物品池中进行查找,得到相似物品;

6、场景整合模块,调整相似物品到目标对象的大小,按预先定义的空间位置进行位移,与目标对象合成整合物品点云,并放入场景级点云数据按标签分割出的背景中,得到三维场景;

7、关键区分点识别模块,驻留大语言模型和视觉语言模型,使用区分点识别方法捕捉目标对象与相似物品之间的区别,得到目标对象与相似物品细节的差异文本描述;

8、场景标注整合模块,驻留大语言模型,汇总目标对象与相似物品的差异文本描述,输入大语言模型进行总结,提炼关键的差异文本,得到三维场景的标注;

9、物品分类模块、物品检索模块、场景整合模块、关键区分点识别模块和场景标注整合模块依次通信连接;

10、根据场景级点云的分割标签将场景分离为背景和目标对象,物品分类模块对物品级点云数据进行整理,根据物理特征使用物品归类方法进行分类,得到候选物品池;物品检索模块根据目标对象的物理特征,按照检索规范在候选物品池中检索得到相似物品;场景整合模块将相似物品按预先定义的空间位置进行位移拼接,与目标对象合成整合物品点云,放入场景级点云数据按标签分割出的背景中,得到三维场景;关键区分点识别模块驻留大语言模型和视觉语言模型,使用区分点识别方法捕捉目标对象与相似物品之间的区别,得到目标对象与相似物品细节的差异文本描述;场景标注整合模块汇总目标对象与相似物品的差异文本描述,输入大语言模型进行总结,提炼关键的差异文本,得到三维场景的标注。

11、可选地,在上述实施例中的构建与自动标注的三维场景生成系统中,物理特征包括物品的类别、物品的颜色和物品的形状。

12、可选地,在上述任一实施例中的构建与自动标注的三维场景生成系统中,物品归类方法包括首先对物品级点云数据根据物品的类别进行整理,然后使用标准的rgb三元组表示物品的颜色,通过l2范数量化颜色相似度,最后将物品的形状限制为标准形状。

13、进一步地,在上述实施例中的构建与自动标注的三维场景生成系统中,标准形状包括立方体、l形、球体。

14、可选地,在上述任一实施例中的构建与自动标注的三维场景生成系统中,物品的分类包括室内常见物品。

15、进一步地,在上述实施例中的构建与自动标注的三维场景生成系统中,室内常见物品包括桌子、沙发、椅子、床、柜子、门、窗。

16、可选地,在上述任一实施例中的构建与自动标注的三维场景生成系统中,检索规范包括满足至少在一种物理特征相同,组合的物理特征不同。

17、可选地,在上述任一实施例中的构建与自动标注的三维场景生成系统中,预先定义的空间位置包括上、下、左、右、前、后。

18、可选地,在上述任一实施例中的构建与自动标注的三维场景生成系统中,区分点识别方法包括:

19、多视角识别,从多个角度渲染目标对象与相似物品,避免遗漏关键区别,使用视觉语言模型识别差异;

20、迭代区分点捕捉,提示大语言模型持续向视觉语言模型询问新的潜在区分点维度,促使视觉语言模型捕捉更多的区别,视觉语言模型与大语言模型之间进行迭代问答,增强差异识别的全面性。

21、优选地,在上述实施例中的构建与自动标注的三维场景生成系统中,大语言模型使用gpt。

22、优选地,在上述实施例中的构建与自动标注的三维场景生成系统中,视觉语言模型使用llava。

23、进一步地,在上述实施例中的构建与自动标注的三维场景生成系统中,迭代问答进行至少四轮。

24、基于上述任一实施例,本发明的另一个实施例中,提供了一种构建与自动标注的三维场景生成方法,包括如下步骤:

25、s100、场景分离,根据场景级点云的分割标签将场景分离为目标对象和背景;

26、s200、物品分类,对物品级点云数据进行整理,根据物理特征使用物品归类方法进行分类,得到候选物品池;

27、s300、物品检索,根据目标对象的物理特征,按照检索规范在候选物品池中进行查找,得到相似物品;

28、s400、场景整合,调整相似物品到目标对象的大小,按预先定义的空间位置进行位移,与目标对象合成整合物品点云,并放入场景级点云数据按标签分割出的背景中,得到三维场景;

29、s500、关键区分点识别,使用区分点识别方法捕捉目标对象与相似物品之间的区别,得到目标对象与相似物品细节的差异文本描述;

30、s600、场景标注整合,汇总差异文本描述,输入大语言模型进行总结,提炼关键的差异文本,得到三维场景的标注。

31、可选地,在上述实施例中的构建与自动标注的三维场景生成方法中,物理特征包括物品的类别、物品的颜色和物品的形状。

32、进一步地,在上述实施例中的构建与自动标注的三维场景生成方法中,步骤s200包括:

33、s210、类别信息整理,根据物品的类别进行整理;

34、s220、量化颜色相似度,使用标准的rgb三元组表示物品的颜色,通过l2范数量化颜色相似度;

35、s230、形状信息整理,将物品的形状范围限制为标准形状;

36、s240、得到相似物品候选池。

37、进一步地,在上述实施例中的构建与自动标注的三维场景生成系统中,标准形状包括立方体、l形、球体。

38、可选地,在上述实施例中的构建与自动标注的三维场景生成方法中,步骤s300包括:

39、s310、确定目标物品的物理特征;

40、s320、根据目标对象的物理特征,按照检索规范在候选物品池中进行查找,得到相似物品。

41、进一步地,在上述实施例中的构建与自动标注的三维场景生成方法中,检索规范包括满足至少在一种物理特征相同,组合的物理特征不同。

42、进一步地,在上述实施例中的构建与自动标注的三维场景生成方法中,预先定义的空间位置包括上、下、左、右、前、后。

43、可选地,在上述实施例中的构建与自动标注的三维场景生成方法中,步骤s400包括:

44、s410、调整相似物品大小,调整相似物品到目标对象的大小;

45、s420、合成整合物品点云,按预先定义的空间位置对调整大小后的相似物品进行位移,与目标对象合成整合物品点云;

46、s430、背景整合,把整合物品点云放入场景级点云数据按标签分割出的背景中,得到三维场景。

47、可选地,在上述任一实施例中的构建与自动标注的三维场景生成方法中,步骤s500包括:

48、s510、多视角识别,从多个角度渲染目标对象与相似物品,避免遗漏关键区别,使用视觉语言模型识别差异;

49、s520、迭代区分点捕捉,提示大语言模型持续向视觉语言模型询问新的潜在区分点维度,促使视觉语言模型捕捉更多的区别,视觉语言模型与大语言模型之间进行迭代问答,增强差异识别的全面性;

50、s530、得到差异文本描述,得到目标对象与相似物品细节的差异文本描述。

51、进一步地,在上述实施例中的构建与自动标注的三维场景生成方法中,迭代问答进行至少四轮。

52、进一步地,在上述实施例中的构建与自动标注的三维场景生成方法中,步骤s600包括:

53、s610、文本描述汇总,汇总差异文本描述;

54、s620、文本描述总结,把汇总的差异文本描述输入大语言模型进行总结;

55、s630、得到三维场景的标注,提炼差异最大的物理特征的文本描述,得到三维场景的标注。

56、优选地,在上述实施例中的构建与自动标注的三维场景生成方法中,大语言模型使用gpt。

57、优选地,在上述实施例中的构建与自动标注的三维场景生成方法中,视觉语言模型使用llava。

58、本发明通过整合物品级点云数据和场景级点云数据构建更加多样化的场景,扩展了现有的三维数据集规模,提供了更广泛的对象类别和更丰富的物品变体;通过整合了大语言模型和二维视觉语言模型,构建了自动化注释流程,能够捕捉目标对象与相似干扰物的细微差异,提供更精细的文本注释。

59、以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。


技术特征:

1.一种构建与自动标注的三维场景生成系统,其特征在于,包括:

2.如权利要求1所述的构建与自动标注的三维场景生成系统,其特征在于,所述物理特征包括物品的类别、物品的颜色和物品的形状。

3.如权利要求2所述的构建与自动标注的三维场景生成系统,其特征在于,所述物品归类方法包括首先对所述物品级点云数据根据物品的类别进行整理,然后使用标准的rgb三元组表示所述物品的颜色,通过l2范数量化颜色相似度,最后将所述物品的形状限制为标准形状。

4.如权利要求1所述的构建与自动标注的三维场景生成系统,其特征在于,所述检索规范包括满足至少在一种所述物理特征相同,组合的所述物理特征不同。

5.如权利要求1所述的构建与自动标注的三维场景生成系统,其特征在于,所述区分点识别方法包括:

6.一种构建与自动标注的三维场景生成方法,使用如权利要求1-5任一所述的构建与自动标注的三维场景生成系统,其特征在于,包括如下步骤:

7.如权利要求6所述的构建与自动标注的三维场景生成方法,其特征在于,所述步骤s200包括:

8.如权利要求6或7所述的构建与自动标注的三维场景生成方法,其特征在于,所述步骤s400包括:

9.如权利要求8所述的构建与自动标注的三维场景生成方法,其特征在于,所述步骤s500包括:

10.如权利要求9所述的构建与自动标注的三维场景生成方法,其特征在于,所述步骤s600包括:


技术总结
本发明公开了一种构建与自动标注的三维场景生成系统和方法,涉及技术领域,一种构建与自动标注的三维场景生成系统包括物品分类模块、物品检索模块、场景整合模块、关键区分点识别模块和场景标注整合模块;一种构建与自动标注的三维场景生成方法包括:S100、场景分离;S200、物品分类;S300、物品检索;S400、场景整合;S500、关键区分点识别;S600、场景标注整合。本发明扩展了现有的三维数据集规模,提供了更广泛的对象类别和更丰富的物品变体,构建了自动化注释流程,能够捕捉目标对象与相似干扰物的细微差异,提供更精细的文本注释。

技术研发人员:曹启航,杨根科
受保护的技术使用者:上海交通大学宁波人工智能研究院
技术研发日:
技术公布日:2024/12/5

最新回复(0)