一种基于三模态对比学习蒸馏的多模态城市场景解析网络的城市场景解析预测方法与流程

专利查询7天前  3


本发明涉及深度学习,尤其涉及一种基于三模态对比学习蒸馏的多模态城市场景解析网络的城市场景解析预测方法。


背景技术:

1、在智慧交通系统中,场景解析的准确性和效率对于提高道路安全和交通效率至关重要。传统的视觉方法通常采用rgb图像进行场景解析,随着技术的进步,基于传统视觉传感方法已经逐步无法满足复杂交通环境下的需求,特别是强光和弱光环境。近年来,多模态感知技术,比如红绿蓝-热红外图像融合和红绿蓝-深度图像融合,特别是多模态图像融合,被认为是提高城市场景解析精度的有效途径。多模态城市场景解析通过结合可见光图像和热红外图像,由于热红外图像根据热辐射原理在强光和弱光环境下可以提供很好的互补信息,而可见光图像可以提供丰富的细节和纹理信息,利用两者的互补信息,增强了对各种天气和光照条件下场景的理解能力。此外,深度图像含有丰富的空间几何信息,可以很好地区分在热红外图像中由于相同热辐射导致混淆的不同解析物体,因此,深度图像在复杂环境下可以很好地互补热红外图像的不足。

2、对比学习作为一种强大的特征学习方法,已经在单一模态学习中展示出其优势,通过最大化相似样本之间的一致性并增强样本之间的区分度,有效提升了学习的特征表达能力。在多模态任务中,应用对比学习不仅可以分别提取二种模态中的特有特征,还可以通过跨模态对比,强化模型对于两种模态数据间复杂关联性的捕捉能力,从而更好地进行信息融合。

3、知识蒸馏是一种提升模型准确率和效率的技术,它通过从复杂模型(教师模型)向简化模型(学生模型)转移知识来优化学习过程。在多模态视觉任务中,知识蒸馏可以用来融合教师模型中多种模态的高层特征,通过学生模型学习这些融合特征,实现在计算资源有限的设备上也能高效运行的轻量级模型。此外,知识蒸馏还有助于提高学生模型对复杂城市场景中多种动态对象和环境变化的适应能力。

4、现有的多模态城市场景解析通常采用双分支的独立编码-解码器架构,其中,一个分支是对rgb图像进行编码,另一个分支对热力图像进行编码,然后对它们的编码特征进行融合,接着通过解码器实现城市场景解析。然而,首先,它们只在输入rgb和热力模态的情况下,只探索了这两种模态的充分互补融合,而没有探索生成深度信息的互补融合。其次,它们对相似物体解析中的可鉴别性不足,导致类内和类间物体解析混淆,从而使得场景解析的精度下降。最后,它们通常需要大量的参数和庞大的计算量实现高性能的城市场景解析,导致在资源受限的设备上无法使用。

5、因此,提出一种基于三模态对比学习蒸馏的多模态城市场景解析网络的城市场景解析预测方法,来解决现有技术存在的问题,是本领域技术人员亟须解决的问题。


技术实现思路

1、有鉴于此,本发明提供了一种基于三模态对比学习蒸馏的多模态城市场景解析网络的城市场景解析预测方法,能够在资源受限的设备上执行高精度和高效的城市场景解析任务。

2、为了实现上述目的,本发明采用如下技术方案:

3、一种基于三模态对比学习蒸馏的多模态城市场景解析网络的城市场景解析预测方法,包括训练阶段和测试阶段两个过程;

4、训练阶段包括以下步骤:

5、s1-1、获取原始城市场景图像和与原始城市图像对应的热红外图像、真实城市场景解析图像,生成初始数据集;

6、s1-2、将初始数据集中的真实城市场景解析图像转换成独热编码图像作为热力图数据集,将初始数据集中的原始城市场景图像和对应的热红外图像构建多光谱图像,对多光谱图像数据增强生成彩色图数据集,将热力图数据集和彩色图数据集按照一定比例分为训练集和测试集;

7、s1-3、构建教师变压器网络;

8、s1-4、将训练集数据增强后输入至教师变压器网络中,输出语义分割预测图像和二值分割预测图像

9、s1-5、采用交叉熵损失函数评估s2中独热编码图像与语义分割预测图像的误差损失值,采用混合对比学习相似度损失函数评估s2中独热编码图像和二值分割预测图像与语义分割预测图像和二值分割预测图像之间的类内类间相似度差距损失值,将误差损失值和类内类间相似度差距损失值累加构成总损失值;

10、s1-6、重复步骤s1-4-s1-5共v次至变压器网络收敛,且损失函数的值降到最低点得到训练好的教师变压器网络,将与最低损失值对应的权重和偏置设置为最优权重向量wt_best和最优偏置bt_best;

11、s1-7、构建学生变压器网络,重复步骤s1-4-s1-5共v次至变压器网络收敛,且损失函数的值降到最低点得到训练好的学生变压器网络,将与最低损失值对应的权重和偏置设置为最优权重向量ws_best和最优偏置bs_best;

12、s1-8、构建包括软标签响应关系蒸馏和多尺度图关系蒸馏的知识蒸馏,软标签响应关系蒸馏使用真实标签校正教师变压器网络输出,获得校正后的教师输出与学生输出之间建立的相关性损失函数,多尺度图关系蒸馏用于构建多尺度图,对多尺度图卷积获得多尺度增强的教师特征与多尺度增强的学生特征并建立相关损失函数;

13、s1-9、重复步骤s1-4、s1-5和s1-8至变压器网络稳定收敛且损失函数的值降到最低点得到学习好的学生变压器网络,将与最低损失值对应的权重和偏置设置为最优权重向量wkd_best和最优偏置bkd_best;

14、测试阶段包括以下步骤:

15、s2-1、选取测试集中的第p组待检测的城市场景图像,并标记为ip,其中,1≤p≤p;

16、s2-2、将第p组待检测的城市场景图像的各种通道分量输入到学习好的学生变压器网络,获得原城市场景图像对应的城市场景解析预测图,记作

17、上述的方法,可选的,s1-3中,教师变压器网络包括特征提取和特征融合;

18、特征提取包括rgb图像输入层、热力图像输入层、八个变压器模块、一个高效上下文对齐模块;

19、特征融合包括四个三模态融合模块。

20、上述的方法,可选的,rgb图像依次经过第一变压器模块、第二变压器模块、第三变压器模块和第四变压器模块;

21、热力图像依次经过第五变压器模块、第六变压器模块、第七变压器模块和第八变压器模块;

22、rgb图像通过深度图生成算法生成深度图;

23、第一变压器模块、第二变压器模块、第三变压器模块和第四变压器模块与第五变压器模块、第六变压器模块、第七变压器模块和第八变压器模块垂直对应,垂直对应的变压器模块输出与深度图分别输入第一三模态融合模块、第二三模态融合模块、第三三模态融合模块和第四三模态融合模块;

24、第四三模态融合模块与高效上下文模块、第一解码器模块、第二解码器模块、第三解码器模块和第四解码器模块依次连接;

25、第四三模态融合模块、第三三模态融合模块、第二三模态融合模块、第一三模态融合模块分别与第一解码器模块、第二解码器模块、第三解码器模块、第四解码器模块跳跃连接。

26、上述的方法,可选的,变压器模组包括依次连接的多组重叠补丁编码单元、变压器块和随机路径丢弃操作单元;

27、重叠补丁编码单元使用3×3的卷积核、步长为1、填充为1的卷积操作将图像分割成重叠的补丁嵌入;

28、变压器块包括层归一化、8个头的注意力机制和2层的多层感知器,用于聚焦并加工关键特征;

29、随机路径丢弃操作单元用于整嵌入,以帮助正则化并避免过拟合。

30、上述的方法,可选的,三模态融合模块中,将rgb图特征经过第九变压器块得到输出七;

31、热力图特征依次经过第二去噪块和第十一变压器块得到输出九;

32、深度图特征和热力图特征分别经过第一去噪块、第二去噪块后相乘得到一次相乘结果,一次相乘结果与输出七逐元素相加得到输出十,输出十分别与输出七、输出九依次经历矩阵乘法和全连接层,对全连接层输出数据逐元素相乘后输入激活函数,将激活函数得到的结果与rgb图特征相乘后相加,得到三模态融合模块输出。

33、上述的方法,可选的,高效上下文对齐模块包括四个池化层、四个上采样层、一个变压器模组和一个激活函数;

34、池化层分为两个自适应最大池化层和两个自适应平均池化层,每个池化层与上采样层连接,用于获取输入图像不同方向的上下文特征;

35、上采样层用于恢复输入图像尺寸,获得的图像特征按通道维度拼接后输入变压器模组;

36、变压器模组输出与输入图像逐元素相加输入激活函数,得到高效上下文对齐模块输出。

37、上述的方法,可选的,解码器模块两个自适应上采样层、两个卷积层、两个批归一化层和三个激活函数;

38、三模态融合模块输出依次经过第一自适应采样层、第一卷积层、第一批归一化层和第一relu层;高效上下文对齐模块输出依次经过第二卷积层、第二批归一化层和第二relu层;第一relu层输出与第二relu层输出相加后依次经过第二自适应上采样层和激活函数得到解码器输出。

39、上述的方法,可选的,s1-8中构建知识蒸馏包括将热力图数据集和彩色图数据集分别输入教师变压器网络和学生变压器网络,热力图数据集和彩色图数据集在教师变压器网络中依次经过第一教师融合特征、第二教师融合特征、第三教师融合特征、第四教师融合特征、教师响应输出和软标签响应关系蒸馏;

40、热力图数据集和彩色图数据集在学生变压器网络中依次经过第一学生融合特征、第二学生融合特征、第三学生融合特征、第四学生融合特征、学生响应输出和软标签响应关系蒸馏;

41、第一教师融合特征、第二教师融合特征、第三教师融合特征、第四教师融合特征和教师响应输出与第一学生融合特征、第二学生融合特征、第三学生融合特征、第四学生融合特征和学生响应输出垂直对应;

42、将垂直对应的融合特征输入多尺度图关系蒸馏中,教师响应输出和学生响应输出分别与硬标签输入混合对比学习块中。

43、经由上述的技术方案可知,与现有技术相比,本发明提供了一种基于三模态对比学习蒸馏的多模态城市场景解析网络的城市场景解析预测方法,具有以下有益效果:

44、1)本发明提出的新颖的三模态融合模块优化了多模态信息的处理方式,通过模拟类脑思维的共性对齐和差异互补的二阶段策略,实现了对各模态数据的深度整合。在第一阶段,通过对齐共性特征,模型促进了不同模态间的基本信息同步。第二阶段则通过互补差异,精确捕捉每种模态独有的细节,从而丰富了模型的语义理解能力;

45、2)本发明提出的混合对比学习策略从二值和语义的角度出发,有效地优化了网络的可鉴别性。通过促进类内差距的减小和类间差异的增大,混合对比学习确保了网络能够更精确地区分不同类别。这种方法不仅提高了分类精度,还增强了模型对于复杂数据特征的理解和处理能力。因此,混合对比学习策略显著提升了网络在进行高难度识别任务时的性能,使其在处理多样化和复杂场景时更为鲁棒和有效;

46、3)本发明提出的软标签响应关系蒸馏和多尺度图关系蒸馏策略,具有显著优势。首先,通过软标签响应关系蒸馏策略能够细化和优化学生网络的输出,使其更接近真实的标签分布,从而提高场景解析的准确性。其次,多尺度图关系蒸馏策略能够在不同的尺度上捕捉到更加丰富和细致的特征信息,增强学生网络对于复杂场景中对象的识别能力。因此,特别适用于资源受限的设备上执行高精度和高效的城市场景解析任务。


技术特征:

1.一种基于三模态对比学习蒸馏的多模态城市场景解析网络的城市场景解析预测方法,其特征在于,包括训练阶段和测试阶段两个过程;

2.根据权利要求1所述的一种基于三模态对比学习蒸馏的多模态城市场景解析网络的城市场景解析预测方法,其特征在于,

3.根据权利要求2所述的一种基于三模态对比学习蒸馏的多模态城市场景解析网络的城市场景解析预测方法,其特征在于,

4.根据权利要求3所述的一种基于三模态对比学习蒸馏的多模态城市场景解析网络的城市场景解析预测方法,其特征在于,

5.根据权利要求2所述的一种基于三模态对比学习蒸馏的多模态城市场景解析网络的城市场景解析预测方法,其特征在于,

6.根据权利要求2所述的一种基于三模态对比学习蒸馏的多模态城市场景解析网络的城市场景解析预测方法,其特征在于,

7.根据权利要求2所述的一种基于三模态对比学习蒸馏的多模态城市场景解析网络的城市场景解析预测方法,其特征在于,

8.根据权利要求1所述的一种基于三模态对比学习蒸馏的多模态城市场景解析网络的城市场景解析预测方法,其特征在于,


技术总结
本发明公开了一种基于三模态对比学习蒸馏的多模态城市场景解析网络的城市场景解析预测方法,涉及深度学习技术领域。包括获取原始城市场景图像和与原始城市图像对应的热红外图像、真实城市场景解析图像,将真实城市场景解析图像转换为热编码图像作为热力图数据集,构建多光谱图像增强生成彩色图数据集,将热力图数据集和彩色图数据集按照一定比例分为训练集和测试集,构建教师变压器网络和学生变压器网络,将训练集分别输入教师变压器网络和学生网络,构建知识蒸馏模型,训练好的学生变压器网络利用知识蒸馏模型学习训练好的教师变压器网络,得到学习好的学生变压器网络并测试,得到城市场景预测解析图。本发明有助于在资源受限的设备上执行高精度和高效的城市场景解析任务。

技术研发人员:钱小鸿,任钢要
受保护的技术使用者:银江技术股份有限公司
技术研发日:
技术公布日:2024/12/5

最新回复(0)