1.本发明属于计算机视觉技术领域,具体涉及一种无监督可见光与红外双向跨模态行人搜索方法。
背景技术:
2.现如今,视频摄像头已广泛部署于公共场所如车站、机场、商场、学校等,形成了庞大的监控网络。近几年来,行人搜索逐渐成为计算机视觉在视频监控领域的重要应用之一。值得注意的是,行人搜索处理的是摄像机拍摄的整幅图像,采集图像的各摄像头之间通常没有视野重叠。行人检测、行人重识别和行人搜索是不同的;其中,行人检测是无差别地在场景图像中定位出行人的位置,不同行人之间没有区别;行人重识别是给定查询的行人图像,在包含众多行人图像的图库中搜索出对应身份的行人图像,不同行人的身份不同;行人搜索是给定查询的行人图像,在包含众多场景图像的图库中搜索到出现对应行人的场景图像并获取其所在位置,即同时包含检测和重识别两个过程,更适用于实际应用。
3.现有的行人搜索方法针对的是可见光图像。然而,实际应用中,需要在弱光或无光的不良光照条件下检测并重识别出特定身份的行人。在这种情况下,现有的基于可见光的行人搜索方法很难获取到有效的行人外观特征。另外,行人搜索数据集的标注问题限制了当前有监督方法的实用性和扩展性。
技术实现要素:
4.本发明的目的在于解决现有行人搜索方法在不良光照条件下的局限性以及数据集标注问题,提供能够实现可见光-红外双向跨模态行人搜索的一种无监督可见光与红外双向跨模态行人搜索方法。
5.一种无监督可见光与红外双向跨模态行人搜索方法,包括以下步骤:
6.步骤1:分别采集可见光和红外查询行人图像和场景图像数据,并制作适用于无监督方法的可见光-红外双向跨模态行人搜索数据集;
7.步骤2:设计模态自适应动态视觉transformer网络作为特征提取器,输入为可见光和红外的图库场景图像和查询行人图像,输出为相应模态的特征映射;
8.步骤3:设计查询引导的无监督行人建议生成模块,将图库场景图像和查询行人图像的特征映射同时输入给该模块,经过处理得到预测的场景行人特征映射;
9.步骤4:设计双向跨模态匹配模块,将查询行人图像的特征映射和预测的场景行人特征映射经过池化层和模态自适应动态视觉transformer处理后,输入给双向跨模态匹配损失函数,通过无监督方式进行网络优化。
10.进一步地,所述步骤2中设计的模态自适应动态视觉transformer网络由堆叠的模态自适应动态视觉transformer构成;模态自适应动态视觉transformer中包括可切换归一化层、多头注意力层和1x1动态卷积层;其输入为线性嵌入和模态嵌入的组合,能够根据模态的不同自适应地选择归一化方式,并动态地调整线性映射部分的结构。
11.进一步地,所述步骤3中设计的查询引导的无监督行人建议生成模块,包括可切换归一化层、查询引导注意力层、无监督行人建议框层;在查询引导注意力层中,步骤2得到的图库场景图像特征映射在输入给卷积操作之前,分别经过不同权值矩阵进行加权后做逐像素点积,并通过softmax计算;之后,以步骤2得到的查询行人特征映射作为卷积核,在经过处理的图库场景图像特征映射上进行卷积操作,得到查询引导的注意力映射;无监督行人建议框层根据查询引导的注意力映射和步骤2得到的图库场景图像特征映射得到场景图像中预测的行人特征映射。
12.进一步地,所述步骤4中设计的双向跨模态匹配模块包括池化层、模态自适应动态视觉transformer和双向跨模态匹配损失函数;步骤4所设计的模块的输入是步骤3输出的预测的行人特征映射和步骤2输出的查询行人特征映射;两组特征映射在分别经过池化层和模态自适应动态视觉transformer后,被输入给双向跨模态匹配损失函数,对网络进行优化;
13.定义的双向跨模态匹配损失函数如下,
[0014][0015]
其中,
‘
·’是内积运算;τ1和τ2为超参数且τ1,τ2>0,是控制概率分布的软度的温度系数,在训练过程中是可自动学习的值;xi指的是一个批次中第i个图库场景图像经过步骤3后得到的预测的行人特征;qi和qj指的是一个批次中第i个和第j个查询行人图像经过步骤2后得到的特征,且j≠i;每次训练时,分别选取2n张场景图像和2n张查询行人图像;每一批次中,红外模态图库场景图像和可见光模态图库场景图像总数相同,总数为n,同理,可见光模态查询行人图像和红外模态查询行人图像总数相同,总数为n;i∈[0,n-1]时,xi为可见光模态图库场景图像的预测行人特征,i∈[n,2n-1]时,xi为红外模态图库场景图像的预测行人特征;j∈[0,n-1]时,qi和qj为红外模态查询行人图像的特征;j∈[n,2n-1]时,qi和qj为可见光模态查询行人图像的特征;
[0016]
步骤2、步骤3、步骤4整个网络是端到端的,训练和测试过程从输入到输出过程中无需终止。
[0017]
本发明的有益效果在于:
[0018]
本发明设计了模态自适应动态视觉transformer网络,通过同一网络同时处理可见光和红外两种不同模态的图像,满足模态差异性和一致性的要求;设计了查询引导的无监督行人建议生成模块,并利用基于对比学习的双向跨模态匹配损失函数,实现了无监督的可见光-红外双向跨模态行人搜索。本发明解决了现有行人搜索方法在不良光照条件下的局限性以及数据集标注问题,能够实现可见光-红外双向跨模态行人搜索,即,给定可见光行人图像搜索到出现对应行人的红外场景图像并获取其所在位置,给定红外行人图像搜索到出现对应行人的可见光场景图像并获取其所在位置。
附图说明
[0019]
图1为本发明的整体流程图。
[0020]
图2为本发明的整体网络结构示意图。
[0021]
图3为本发明的特征提取器网络结构图。
[0022]
图4为本发明的模态自适应动态视觉transformer示意图。
[0023]
图5为本发明的查询引导的无监督行人建议生成模块图。
[0024]
图6为本发明的查询引导注意力层示意图。
[0025]
图7为本发明的双向跨模态匹配模块图。
具体实施方式
[0026]
下面结合附图对本发明做进一步描述。
[0027]
本发明提出了一种无监督可见光-红外双向跨模态行人搜索方法,该方法针对新的应用领域,提出了一种新的网络架构。本发明设计了模态自适应动态视觉transformer网络,通过同一网络同时处理可见光和红外两种不同模态的图像,满足模态差异性和一致性的要求;设计了查询引导的无监督行人建议生成模块,并利用基于对比学习的双向跨模态匹配损失函数,实现了无监督的可见光-红外双向跨模态行人搜索。本发明弥补了现有行人搜索方法在不良光照条件下的局限性,缓解了海量数据情况下行人搜索数据集的标注问题对于有监督方法的限制。
[0028]
本发明解决了现有行人搜索方法在不良光照条件下的局限性以及数据集标注问题,能够实现可见光-红外双向跨模态行人搜索,即,给定可见光行人图像搜索到出现对应行人的红外场景图像并获取其所在位置,给定红外行人图像搜索到出现对应行人的可见光场景图像并获取其所在位置。
[0029]
s1.分别采集可见光和红外查询行人图像和场景图像数据,并制作适用于无监督方法的可见光-红外双向跨模态行人搜索数据集;
[0030]
s2.设计了模态自适应动态视觉transformer网络作为特征提取器,输入为可见光和红外的图库场景图像和查询行人图像,输出为相应模态的特征映射;
[0031]
s3.设计了查询引导的无监督行人建议生成模块,将图库场景图像和查询行人图像的特征映射同时输入给该模块,经过处理得到预测的场景行人特征映射;
[0032]
s4.设计了双向跨模态匹配模块,将查询行人图像的特征映射和预测的场景行人特征映射经过池化层和模态自适应动态视觉transformer处理后,输入给双向跨模态匹配损失函数,通过无监督方式进行网络优化;
[0033]
实施例1:
[0034]
s1,分别采集可见光和红外行人图像和场景图像数据,并制作数据集;
[0035]
已知有2m名不同身份的行人,其中m名行人,在良好光照条件下,通过可见光摄像机采集得到其在室内和室外的行人图像,在不良光照条件下,通过红外摄像机采集得到其在室内和室外的场景图像;另m名行人,在良好光照条件下,通过可见光摄像机采集得到其在室内和室外的场景图像,在不良光照条件下,通过红外摄像机采集得到其在室内和室外的行人图像;
[0036]
行人图像的覆盖范围至少为包围完整行人的矩形框,允许有不超过30%的部分遮
挡,行人姿态动作不限;场景图像中可包含多名行人;摄像机的视野互不重叠;
[0037]
s2,设计了模态自适应动态视觉transformer网络作为特征提取器;
[0038]
特征提取器包括图库特征提取和查询特征提取两个分支,两者之间参数是独立的,如图3所示;
[0039]
对输入图像进行归一化处理,其中,图库场景图像归一化为1500x 900大小,查询行人图像归一化为250x 150大小;假设每个批次的图像个数为2n,则图库特征提取网络的输入中,第0个到第n-1个为可见光图像,第n个到第2n-1个为红外图像,而查询特征提取网络的输入中,第0个到第n-1个为红外图像,第n个到第2n-1个为可见光图像;
[0040]
以swin transformer的补丁划分方式为例,但不限于其他视觉transformer的划分方式,将图像划分为补丁后,映射为线性嵌入向量;在不同模态的线性嵌入后叠加模态嵌入,并作为模态自适应动态视觉transformer的输入;
[0041]
如图4所示,模态自适应动态视觉transformer由可切换归一化层,多头注意力层和1x1动态卷积层组成,其输入为线性嵌入和模态嵌入的组合,能够根据模态嵌入的不同,动态地调整transformer的关注点,从而实现通过同一网络同时处理可见光和红外两种不同模态的图像,满足模态差异性和一致性的要求。
[0042]
s3,如图5所示,对于s2得到的图库场景特征g和查询行人特征q,在经过可切换归一化层处理后,输入给查询引导注意力层;
[0043]
查询引导注意力层的结构如图6所示,g'i指的是s2输出的一个批次中第i个场景图像特征映射经过归一化后的特征,q'i指的是s2输出的一个批次中第i个查询行人图像特征映射经过归一化后的特征,w
ik
和w
iq
是注意力层中的权值矩阵,g'i在分别经过w
ik
和w
iq
加权后做逐像素点积,并通过softmax计算,之后,以qi作为卷积核,在其上进行卷积操作,得到查询引导的注意力映射。
[0044]
输出得到的注意力映射中的激活部分即为预测的行人位置;无监督行人建议框层根据查询引导的注意力映射得到预测的行人位置坐标,并将预测的行人位置坐标与s2得到的图库场景特征g对应得到预测的行人特征x。
[0045]
s4,如图7所示,将s3输出的预测行人特征x和s2中输出的查询行人特征q作为池化层的输入,输出大小相同的特征映射,并分别输入给模态自适应动态视觉transformer,得到的输出特征作为双向跨模态匹配损失函数的输入;双向跨模态匹配损失函数定义如下,
[0046][0047]
其中,
‘
·’是内积运算;τ1和τ2为超参数且τ1,τ2>0,是控制概率分布的软度的温度系数,在训练过程中是可自动学习的值;xi指的是一个批次中第i个图库场景图像经过s3后得到的预测行人特征,qi和qj指的是一个批次中第i个和第j个查询行人图像经过s2后得到的特征,且j≠i;每次训练时,分别选取2n张场景图像和2n张查询行人图像;每一批次中,
红外模态场景图像和可见光模态场景图像总数相同,总数为n,同理,可见光模态查询行人图像和红外模态查询行人图像总数相同,总数为n;i∈[0,n-1]时,xi为可见光模态场景图像的预测行人特征,i∈[n,2n-1]时,xi为红外模态场景图像的预测行人特征;j∈[0,n-1]时,qi和qj为红外模态查询行人图像的特征;j∈[n,2n-1]时,qi和qj为可见光模态查询行人图像的特征;因此通过该损失函数能够实现双向跨模态匹配。s2、s3、s4整个网络是端到端的,训练和测试过程从输入到输出过程中无需终止。
[0048]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种无监督可见光与红外双向跨模态行人搜索方法,其特征在于,包括以下步骤:步骤1:分别采集可见光和红外查询行人图像和场景图像数据,并制作适用于无监督方法的可见光-红外双向跨模态行人搜索数据集;步骤2:设计模态自适应动态视觉transformer网络作为特征提取器,输入为可见光和红外的图库场景图像和查询行人图像,输出为相应模态的特征映射;步骤3:设计查询引导的无监督行人建议生成模块,将图库场景图像和查询行人图像的特征映射同时输入给该模块,经过处理得到预测的场景行人特征映射;步骤4:设计双向跨模态匹配模块,将查询行人图像的特征映射和预测的场景行人特征映射经过池化层和模态自适应动态视觉transformer处理后,输入给双向跨模态匹配损失函数,通过无监督方式进行网络优化。2.根据权利要求1所述的一种无监督可见光与红外双向跨模态行人搜索方法,其特征在于:所述步骤2中设计的模态自适应动态视觉transformer网络由堆叠的模态自适应动态视觉transformer构成;模态自适应动态视觉transformer中包括可切换归一化层、多头注意力层和1x1动态卷积层;其输入为线性嵌入和模态嵌入的组合,能够根据模态的不同自适应地选择归一化方式,并动态地调整线性映射部分的结构。3.根据权利要求1所述的一种无监督可见光与红外双向跨模态行人搜索方法,其特征在于:所述步骤3中设计的查询引导的无监督行人建议生成模块,包括可切换归一化层、查询引导注意力层、无监督行人建议框层;在查询引导注意力层中,步骤2得到的图库场景图像特征映射在输入给卷积操作之前,分别经过不同权值矩阵进行加权后做逐像素点积,并通过softmax计算;之后,以步骤2得到的查询行人特征映射作为卷积核,在经过处理的图库场景图像特征映射上进行卷积操作,得到查询引导的注意力映射;无监督行人建议框层根据查询引导的注意力映射和步骤2得到的图库场景图像特征映射得到场景图像中预测的行人特征映射。4.根据权利要求1所述的一种无监督可见光与红外双向跨模态行人搜索方法,其特征在于:所述步骤4中设计的双向跨模态匹配模块包括池化层、模态自适应动态视觉transformer和双向跨模态匹配损失函数;步骤4所设计的模块的输入是步骤3输出的预测的行人特征映射和步骤2输出的查询行人特征映射;两组特征映射在分别经过池化层和模态自适应动态视觉transformer后,被输入给双向跨模态匹配损失函数,对网络进行优化;定义的双向跨模态匹配损失函数如下,其中,
‘
·’是内积运算;τ1和τ2为超参数且τ1,τ2>0,是控制概率分布的软度的温度系数,在训练过程中是可自动学习的值;x
i
指的是一个批次中第i个图库场景图像经过步骤3后得到的预测的行人特征;q
i
和q
j
指的是一个批次中第i个和第j个查询行人图像经过步骤2
后得到的特征,且j≠i;每次训练时,分别选取2n张场景图像和2n张查询行人图像;每一批次中,红外模态图库场景图像和可见光模态图库场景图像总数相同,总数为n,同理,可见光模态查询行人图像和红外模态查询行人图像总数相同,总数为n;i∈[0,n-1]时,x
i
为可见光模态图库场景图像的预测行人特征,i∈[n,2n-1]时,x
i
为红外模态图库场景图像的预测行人特征;j∈[0,n-1]时,q
i
和q
j
为红外模态查询行人图像的特征;j∈[n,2n-1]时,q
i
和q
j
为可见光模态查询行人图像的特征;步骤2、步骤3、步骤4整个网络是端到端的,训练和测试过程从输入到输出过程中无需终止。
技术总结
本发明属于计算机视觉技术领域,具体涉及一种无监督可见光与红外双向跨模态行人搜索方法。本发明设计了模态自适应动态视觉Transformer网络,通过同一网络同时处理可见光和红外两种不同模态的图像,满足模态差异性和一致性的要求;设计了查询引导的无监督行人建议生成模块,并利用基于对比学习的双向跨模态匹配损失函数,实现了无监督的可见光-红外双向跨模态行人搜索。本发明解决了现有行人搜索方法在不良光照条件下的局限性以及数据集标注问题,能够实现可见光-红外双向跨模态行人搜索,即,给定可见光行人图像搜索到出现对应行人的红外场景图像并获取其所在位置,给定红外行人图像搜索到出现对应行人的可见光场景图像并获取其所在位置。景图像并获取其所在位置。景图像并获取其所在位置。
技术研发人员:项学智 吕宁
受保护的技术使用者:哈尔滨工程大学
技术研发日:2021.11.26
技术公布日:2022/3/8