1.本技术涉及计算机技术领域,尤其涉及对象检索技术领域,提供一种图像档案巡检方法、装置、设备及计算机存储介质。
背景技术:
2.随着科技的发展,可以通过部署在各个区域的抓拍摄像机抓拍图像,并通过图像识别技术和图像聚类技术,对这些抓拍图像进行归档,形成不同的图像档案。
3.以人像档案为例,每个人像档案是由抓拍的人像图像,通过人像识别技术和人像聚类技术进行归档形成的,每个人像档案由多个人像图片组成。但是,人像聚类技术大多都是基于图像识别技术,根据图片之间的相似度进行人像聚类,但由于不同场景下的抓拍条件的不同,不同人像图片可能会存在相似度较高的情况,因此常常会存在错误归档的情况,即,针对人像档案a,同时将行人1和行人2的人像图片归入了人像档案a,那么不同人的人像档案的混入则会影响每个人像档案a的表示,后续利用人像档案a进行人像识别时则可能出现识别错误的情况。
4.同样的,在其他类型的图像档案中也会存在类似的问题。
技术实现要素:
5.本技术实施例提供一种图像档案巡检方法、装置、设备及计算机存储介质,用于提升图像档案的准确性。
6.一方面,提供一种图像档案巡检方法,所述方法包括:
7.从多个候选图像档案中,确定出符合设定巡检条件的待处理图像档案;
8.基于确定出的各个待处理图像档案各自包括的各个存档图像之间的相似度,对相应的待处理图像档案进行拆分处理,获得所述各个待处理图像档案各自对应的子档案集合;其中,在子档案集合包括多个子档案时,任意两个子档案包括的存档图像之间的相似度的总和小于拆档相似度阈值;
9.基于每两个子档案包括的存档图像之间的相似度,对获得的各个子档案集合包括的各个子档案进行合并处理,获得多个目标图像档案。
10.一方面,提供一种图像档案巡检装置,所述装置包括:
11.确定单元,用于从多个候选图像档案中,确定出符合设定巡检条件的待处理图像档案;
12.档案拆分单元,用于基于确定出的各个待处理图像档案各自包括的各个存档图像之间的相似度,对相应的待处理图像档案进行拆分处理,获得所述各个待处理图像档案各自对应的子档案集合;其中,在子档案集合包括多个子档案时,任意两个子档案包括的存档图像之间的相似度的总和小于拆档相似度阈值;
13.档案合并单元,用于基于每两个子档案包括的存档图像之间的相似度,对获得的各个子档案集合包括的各个子档案进行合并处理,获得多个目标图像档案。
14.可选的,所述确定单元,具体用于:
15.针对所述多个候选图像档案,分别执行如下操作:
16.针对一个候选图像档案,确定一个候选图像档案包括的存档图像的数量是否大于巡检数量阈值;
17.若大于所述巡检数量阈值,则确定所述候选图像档案满足所述巡检条件。
18.可选的,所述档案拆分单元,具体用于:
19.针对所述各个待处理图像档案,分别执行如下操作:
20.针对一个待处理图像档案,基于其包括的各个存档图像之间的相似度,构造所述一个待处理图像档案对应的连边图;其中,所述连边图中的一个节点对应一个存档图像;
21.基于所述连边图包括的各个节点之间的连边权重,对所述连边图进行切图,获得至少一个子图;其中,两个节点之间的连边权重与相应的两个存档图像之间的相似度呈正相关;
22.基于所述至少一个子图,对所述一个待处理图像档案进行拆分,获得相应的子档案集合;其中,每个子档案中的存档图像与一个子图中的节点一一对应。
23.可选的,所述档案拆分单元,具体用于:
24.针对所述各个存档图像中每两个存档图像,确定所述每两个存档图像之间的相似度,是否大于第一相似度阈值;
25.若大于,则所述每两个存档图像之间在所述连边图中存在连边;并,
26.基于所述每两个存档图像之间相似度,确定所述每两个存档图像之间的连边权重。
27.可选的,所述档案拆分单元,具体用于:
28.基于所述连边图包括的各个节点,确定所述连边图的多种候选切图方式;其中,切图后的任意两个子图的交集为空集,且所有子图的并集为所述连边图;
29.基于按照所述多种候选切图方式中的各种候选切图方式,进行切图后的两个子图之间的连边权重总和,从所述多种候选切图方式中确定出连边权重总和不大于拆档权重阈值的目标切图方式;
30.按照确定的目标切图方式对所述连边图进行切图,获得所述至少一个子图。
31.可选的,所述档案合并单元,具体用于:
32.针对所述各个子档案中每两个子档案,分别执行如下操作:
33.若确定所述每两个子档案对应的两个子图之间的连边权重总和大于合档权重阈值,则对所述每两个子档案进行合并处理;其中,所述合档权重阈值大于拆档权重阈值。
34.可选的,所述装置还包括相似度计算单元,用于:
35.针对所述各个存档图像进行特征提取,分别获得所述各个存档图像各自对应的特征矩阵;
36.基于所述各个存档图像各自对应的特征矩阵,确定每两个存档图像之间的相似度。
37.一方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种方法的步骤。
38.一方面,提供一种计算机存储介质,其上存储有计算机程序指令,该计算机程序指
令被处理器执行时实现上述任一种方法的步骤。
39.一方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一种方法的步骤。
40.本技术实施例中,通过利用每个图像档案中各个存档图像相互之间的相似度,对图像档案进行拆分,使得拆分后的任意两个子档案包括的存档图像之间的相似度的总和小于拆档相似度阈值,而每个子档案内的存档图像之间的相似度的总和则是大于拆档相似度阈值的,表明该图像档案可能存在错误归档的情况,那么则对原本错误归档的图像档案拆分开来,再利用拆分得到的各个子档案的存档图像之间的相似度对子档案重新进行合档,合档后的每个图像档案中的各个存档图像之间联系更为紧密,从而则对原本错误归档的图像档案进行了纠正,提升了每个图像档案的准确性,相应提升了下游应用的准确性。此外,还选择了满足巡检条件的图像档案作为待处理退选哪个档案,例如针对图像数量较多或者建档时间较长的图像档案进行巡检,由于其包含充足的存档图像,档案内的图像特征分布比较明显,进而后续拆档和合档的效果均较好,进一步提升了图像档案的准确性。
附图说明
41.为了更清楚地说明本技术实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
42.图1为本技术实施例提供的应用场景示意图;
43.图2为本技术实施例提供的图像档案巡检方法的流程示意图;
44.图3为本技术实施例提供的采用谱聚类的方式进行拆档的流程示意图;
45.图4为本技术实施例提供的待处理图像档案b对应的连边图的示意图;
46.图5为本技术实施例提供的几种可能的候选切换方式的示意图;
47.图6为本技术实施例提供的合档后形成的连通图的示意图;
48.图7为本技术实施例提供的图像档案巡检装置的一种结构示意图;
49.图8为本技术实施例提供的计算机设备的一种结构示意图。
具体实施方式
50.为使本技术的目的、技术方案和优点更加清楚明白,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
51.为便于理解本技术实施例提供的技术方案,这里先对本技术实施例使用的一些关
键名词进行解释:
52.图像档案:为了方便对同一个人或者事物进行描述,可以将同一个人或者事物的多个图像归档至同一图像档案中,以及同一图像档案中的多个图像进行该人或者事物的表示,以辅助进行下游应用。例如,对于一个人像档案a为例,若该人像档案a包括的均为用户1的人像图片,则可以通过该人像档案a内的多个人像图片对用户1进行向量表示,以方便后续进行用户跟踪和检索。
53.图像聚类方法:用于实现图像聚类的方法,例如k均值聚类(k-means clustering algorithm,k-means)方法、基于密度的聚类方法(density-based spatial clustering of applications with noise,dbscan)方法以及谱聚类(spectral clustering)方法等,以谱聚类对图像档案进行巡检为例,则相当于把一个图像档案中所有的图像看作空间中的点,这些点之间可以用边连接起来,距离较远的两个点,即相似度较低的两个图像之间的边权重值较低,而距离较近的两个点之间的边权重值较高,再通过对档案中所有人像特征数据点组成的连通图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。
54.下面对本技术实施例的设计思想进行简要介绍。
55.目前,图像档案的应用十分广泛,以图像档案为人像档案为例,有关行政部门可以利用形成的人像档案信息,对目标对象进行监控,以维持社会治安。
56.由于各种因素条件的限制,人像档案常常会存在错误归档的情况,并且不只是人像档案,其他图像档案中也会存在类似的问题。因此,对形成的人像档案进行巡检,以识别并纠正错误归档是十分必要的。
57.鉴于此,本技术实施例提供一种基于对象检索方法,在该方法中,通过利用每个图像档案中各个存档图像相互之间的相似度,对图像档案进行拆分,使得拆分后的任意两个子档案包括的存档图像之间的相似度的总和小于拆档相似度阈值,而每个子档案内的存档图像之间的相似度的总和则是大于拆档相似度阈值的,表明该图像档案可能存在错误归档的情况,那么则对原本错误归档的图像档案拆分开来,再利用拆分得到的各个子档案的存档图像之间的相似度对子档案重新进行合档,合档后的每个图像档案中的各个存档图像之间联系更为紧密,从而则对原本错误归档的图像档案进行了纠正,提升了每个图像档案的准确性,相应提升了下游应用的准确性。
58.其次,还选择了满足巡检条件的图像档案作为待处理退选哪个档案,例如针对图像数量较多或者建档时间较长的图像档案进行巡检,由于其包含充足的存档图像,档案内的图像特征分布比较明显,进而后续拆档和合档的效果均较好,进一步提升了图像档案的准确性。
59.此外,本技术实施例在拆档和合档时均采用了同一种方法,防止一边拆档一边合档使得存在归档错误的情况出现。
60.下面对本技术实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本技术实施例而非限定。在具体实施过程中,可以根据实际需要灵活地应用本技术实施例提供的技术方案。
61.本技术实施例提供的方案可以适用于大多数图像档案应用场景中,例如对象监控场景和对象检索场景等。如图1所示,为本技术实施例提供的一种应用场景示意图,在该场
景中,可以包括前端监控设备101和服务器102。
62.前端监控设备101例如可以为设置于各个监控区域的摄像设备。前端监控设备101可以包括摄像机、云台、防护罩、监听器、报警探测器、多功能解码器以及信号收发器等部件组成,前端监控设备101可以通过摄像机抓拍的图像,并利用信号收发器传输至后端的服务器102。
63.服务器102可以为前端监控设备101所对应的后台服务器,其可以用于实现对各个前端监控设备101的管理功能,以及对抓拍的图像的管理功能,来实现本技术实施例所提供的图像档案巡检方法的步骤。例如可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、即内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
64.服务器102可以包括一个或多个处理器1021、存储器1022以及与终端交互的i/o接口1023等。此外,服务器102还可以配置数据库1024,数据库1024可以用于存储各个图像档案包括的存档图像、各个存档图像的表示向量以及各个图像档案对应的表示向量等。其中,服务器102的存储器1022中还可以存储本技术实施例提供图像档案巡检方法的程序指令,这些程序指令被处理器1021执行时能够用以实现本技术实施例提供的图像档案巡检方法的步骤,以实现图像档案巡检过程。
65.具体的,前端监控设备101抓拍的图像传送至服务器102后,服务器102可以将各个图像进行聚类,归档至各个图像档案中。例如,可以定时对接收到的图像进行聚类,形成图像档案;此外,也可以在已形成图像档案之后,将新接收到的图像与各个图像档案进行对比,进而将新接收到的图像归档至相应的图像档案中。
66.在经过长时间的归档后,则有的图像档案中已存在数量众多的存档图像了,其图像特征分布也更为明显,那么则可以本技术实施例提供的图像档案巡检方法,对这些图像档案进行巡检,以清洗掉每个图像档案中的错误归档图像。
67.上述过程得到的图像档案可以应用至下游应用场景中。
68.例如,在对象检索场景中,针对检索对象,提取图像特征表示向量,并与存储的各个图像档案的表示向量进行匹配,找到相似度较高的图像档案。在对象监控场景中,还可以针对监控对象,找到其对应的图像档案,进而根据该图像档案中的各个存档图像对该对象的出行轨迹进行跟踪。
69.本技术实施例中,前端监控设备101和服务器102之间可以通过一个或者多个网络103进行直接或间接的通信连接。该网络103可以是有线网络,也可以是无线网络,例如无线网络可以是移动蜂窝网络,或者可以是无线保真(wireless-fidelity,wifi)网络,当然还可以是其他可能的网络,本发明实施例对此不做限制。
70.需要说明的是,在本技术实施例中,前端监控设备101的数量可以为一个,也可以为多个,同样的,服务器102的数量也可以为一个,也可以为多个,也就是说对于,前端监控设备101或者服务器102的数量并不进行限制。
71.在一种可能的应用场景中,本技术实施例中涉及的相关数据(如存档图像以及表示向量等)可以采用云存储(cloud storage)技术进行存储。云存储是在云计算概念上延伸
和发展出来的一个新的概念,分布式云存储系统是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(或称存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
72.在一种可能的应用场景中,为了便于降低检索的通信时延,可以在各个地区部署服务器102,或为了负载均衡,可以由不同的服务器102分别去服务不同地区的前端监控设备101,例如,前端监控设备101位于地点a,与服务地点a的服务器102建立通信连接,前端监控设备101位于地点b,与服务地点b的服务器102建立通信连接,多个服务器102组成一数据共享系统,通过区块链实现数据的共享。
73.对于数据共享系统中的每个服务器102,均具有与该服务器102对应的节点标识,数据共享系统中的每个服务器102均可以存储有数据共享系统中其他服务器102的节点标识,以便后续根据其他服务器102的节点标识,将生成的区块广播至数据共享系统中的其他服务器102。每个服务器102中可维护一个节点标识列表,将服务器102名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为网络之间互联的协议(internet protocol,ip)地址以及其他任一种能够用于标识该节点的信息。
74.当然,本技术实施例提供的方法并不限用于图1所示的应用场景中,还可以用于其他可能的应用场景,本技术实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。
75.本技术各实施例中提供的方法流程,可以通过图1中的服务器102或者前端监控设备101来执行,也可以由服务器102和前端监控设备101共同执行,这里主要以服务器102来执行为例进行介绍。
76.参见图2所示,为本技术实施例提供的图像档案巡检方法的流程示意图,在后续的介绍中,主要以图像档案为人像档案为例进行介绍,当然,其他类型的图像档案也可适用。
77.步骤201:从多个候选图像档案中,确定出符合设定巡检条件的待处理图像档案。
78.本技术实施例中,由于数据库中存储的候选图像档案的数量众多,在进行巡检时,需要选取符合一定的巡检条件的图像档案进行后续的巡检过程。
79.在一种实施方式中,考虑到时间经过长时间聚类后的图像档案中累积的存档图像的数量较多,档案中的图像对象的特征较为丰富,同一个对象的图像之间的联系比较紧密,相似度较高,而不同对象之间的联系比较稀疏,相似度较低,因此可以有效的进行巡检进行档案的拆分且准确率较高。因此,可以选取满足巡检条件的图像档案来进行后续的巡检过程。
80.具体的,巡检条件可以是存档图像的数量需要大于巡检数量阈值,那么针对数据库中存储的每个候选图像档案而言,需要确定该候选图像档案包括的存档图像的数量是否大于巡检数量阈值,若存档图像的数量大于巡检数量阈值,则确定该候选图像档案满足巡检条件,这些满足巡检条件的候选图像档案则作为后续的巡检过程针对的待处理图像档案;否则,若存档图像的数量不大于巡检数量阈值,则不满足巡检条件,则不会针对该候选图像档案进行后续的巡检过程。
81.在一种实施方式中,还可以根据时间段进行设定巡检条件,即考虑到候选图像档案的数量众多,则可以分时间进行巡检,即每次巡检可以针对一个时间段内的存档图像,那么在进行一次巡检时,则需要判断哪些属于本次巡检所针对的候选图像档案,将其筛选出
来,作为待处理图像档案。
82.在一种实施方式中,还可以根据候选图像档案中的特征分布情况进行巡检条件的设定,即特征分布分散的候选图像档案表明其错档的可能性很大,那么可以针对特征分布分散的候选图像档案进行巡检。其中,特征分布情况例如可以通过离散分布参数进行衡量。
83.考虑到在实际应用时,人或者事物的活动区域通常较为固定,因而可以获取需要指定区域内所有的图像档案,并根据图像档案中的存档图像进行特征提取,得到每个存档图像的特征矩阵,进而后续在进行相似度的计算时,则可以各个存档图像各自对应的特征矩阵,确定每两个存档图像之间的相似度。
84.以图像档案为人脸档案为例,考虑到在实际应用时,行人的活动区域变化通常不会太大,因而可以获取需要进行人像聚类的区域内所有的人像档案,并根据人像档案中的各个人像图片进行特征提取,得到每张人像图片的特征矩阵。其中,人像图片可以仅为人脸,则提取得到的特征矩阵用于表征人脸特征,人像图片还可以包括人体,则提取得到的特征矩阵用于表征人脸特征和身体特征,如穿着、身高以及发型等特征。
85.步骤202:基于确定出的各个待处理图像档案各自包括的各个存档图像之间的相似度,对相应的待处理图像档案进行拆分处理,获得各个待处理图像档案各自对应的子档案集合;其中,在子档案集合包括多个子档案时,任意两个子档案包括的存档图像之间的相似度的总和小于拆档相似度阈值。
86.本技术实施例中,针对确定出的各个待处理图像档案,则可以采用聚类方法对其进行数据清洗,使得错误归档的待处理图像档案拆分开来。
87.在一种实施方式中,可以采用如k-means聚类等聚类方法进行拆档过程。其中,在进行拆档时,例如可以将各个待处理图像档案包括的各个存档图像全部融合到一起,重新进行聚类,从而得到拆分结果。
88.在另一种实施方式中,考虑到重新进行聚类的方式实质上推翻了原本的聚类结果,且计算量较为庞大,进而为了沿用原本的聚类结果,且进一步减少计算量,本技术实施例还可以采用谱聚类的方式进行拆档过程,下面,具体以谱聚类为例对拆档过程进行介绍。其中,由于在进行拆档时是针对每个待处理图像档案进行的,且每个待处理图像档案的拆档过程较为类似,因此这里具体以一个待处理图像档案,即下面提及的待处理图像档案b为例进行介绍。
89.参见图3所示,为采用谱聚类的方式进行拆档的流程示意图。
90.步骤2021:基于待处理图像档案b包括的各个存档图像之间的相似度,构造待处理图像档案b对应的连边图;其中,连边图中的一个节点对应一个存档图像。
91.例如,待处理图像档案b包括n个存档图像,获取这n个存档图像的图片特征,分别为b1,b2,
…
,bn,假设每个存档图像的图片特征为n维向量,则可以将这n个存档图像的图片特征理解为n维空间中的n个节点,每个节点代表一个存档图像的图片特征,并将这n个节点两两连接起来,作为节点和节点之间的边,并计算这n个节点对应的存档图像两两之间的相似度,从而得到每条边的权重。
92.具体的,每两个存档图像之间的相似度可以通过在上述n维空间中的距离来表征,则每条边的权重可以表示为:
[0093][0094]
其中,w
ij
表示bi和bj两个存档图像对应的两个节点之间的连边权重,i≠j,且i和j均为不小于1且不大于n的正整数,表示bi和bj两个存档图像对应的两个节点间的二范式距离;σ为扩展常数,其可以根据实际的实验结果进行设定。
[0095]
基于上述方式可以得到待处理图像档案b中的各个存档图像对应节点两两之间的边权重,从而构成连通图。
[0096]
在实际应用时,若是两个存档图像之间的距离很远,则两个的相似度是很小的,相应的连边权重也就很小,这两者之间的联系也就很弱,从而在构建连边图时,可以将连边权重小于一定权重阈值的两个存档图像对应节点之间的连边去除。
[0097]
具体的,针对各个存档图像中每两个存档图像,确定每两个存档图像之间的相似度,是否大于第一相似度阈值,若大于第一相似度阈值,则每两个存档图像之间在连边图中存在连边,并基于每两个存档图像之间相似度,确定每两个存档图像之间的连边权重。
[0098]
这里,以n为10为例,参见图4所示,为待处理图像档案b对应的连边图的示意图。
[0099]
具体的,计算待处理图像档案b中的10个节点两两之间的边权重,构成连通图,同时若存在两个节点之间的连边权重小于一定阈值,则去掉这两个节点之间的边,最终得到待处理图像档案b的连边图如图4所示。其中,下图为待处理图像档案b的10个存档图像在二维空间中对应的特征数据点间的连边图,假设阈值为0.3,即两个存档图像对应的两个节点之间的连边权重大于0.3时,在连边图中保留相应的连边。
[0100]
如图4所示,待处理图像档案b包含b1~b10总共10个存档图像,每个存档图像对应一个节点,如b3和b6之间的连边权重为0.54,b3和b7之间的连边权重为0.56。
[0101]
步骤2022:基于连边图包括的各个节点之间的连边权重,对连边图进行切图,获得至少一个子图;其中,两个节点之间的连边权重与相应的两个存档图像之间的相似度呈正相关。
[0102]
本技术实施例中,针对上述得到的连边图,可以通过尝试切图的方式对连边图进行切分,当切分后的两个子图满足切图条件时,则保留该种切图方式。
[0103]
其中,切图条件可以包括如下条件的一个或者多个的组合:
[0104]
(1)切图后的任意两个子图的交集为空集,且所有子图的并集为连边图。
[0105]
例如,进行切图后的多个子图分别为g1,
…
,gn,则g1,
…
,gn满足任意两个子图满足且所有子图满足g1∪g2∪
…
∪gn=b
[0106]
(2)切图后的任意两个子图之间的连边权重总和不大于拆档权重阈值。
[0107]
本技术实施例中,可以基于连边图包括的各个节点,确定连边图的多种候选切图方式,当切图后的任意两个子图的交集为空集,且所有子图的并集为连边图,则该切图方式则可以作为候选切图方式。
[0108]
参见图5所示,为本技术实施例提供的几种可能的候选切换方式的示意图。其中,方式1将连边图划分为(b3,b7,b1)和(b6,b2,b8,b10,b5,b4,b9)这两个子图,方式2将连边图划分为(b3,b7,b1,b6,b2,b8)和(b10,b5,b4,b9)这两个子图,方式3将连边图划分为(b3,b7,b1,b6,b2,b8,b10)和(b5,b4,b9)这两个子图,方式4将连边图划分为(b3,b7,b1,b6,b2,
b8,b10,b5,b4)和(b9)这两个子图,当然,除此之外,还可以存在其他可能的候选切图方式,在此不再一一进行列举。
[0109]
进而,针对每种候选切图方式,需要计算切图后两个子图之间的连边权重总和,作为切图权重,进而根据切图权重从多种候选切图方式中确定出连边权重总和不大于拆档权重阈值的目标切图方式,即判断是否要按照这种方式进行切图。
[0110]
具体的,若是切图后的两个子图之间的连边权重总和不大于拆档权重阈值,则该种候选切图方式被确定为目标切图方式,进而按照确定的目标切图方式对连边图进行切图,获得至少一个子图。
[0111]
其中,可以按照如下的方式进行计算切图权重:
[0112][0113]
其中,g
x
,gy分别表示切图后的两个子图,w(g
x
,gy)表征g
x
,gy之间的切图权重。
[0114]
这里,若设置拆档权重阈值为0.8,则在上述方式1中,w(g
x
,gy)则为(b3,b7,b1)和(b6,b2,b8,b10,b5,b4,b9)这两个子图之间的连边权重总和,这两个子图之间存在6条连边,其连边权重分别为0.54、0.37、0.44、0.41、0.36和0.49,显然连边权重总和显然大于0.8,则方式1不能作为目标切图方式。
[0115]
在上述方式2中,w(g
x
,gy)则为(b3,b7,b1,b6,b2,b8)和(b10,b5,b4,b9)这两个子图之间的连边权重总和,这两个子图之间存在2条连边,其连边权重分别为0.39和0.34,显然连边权重总和显然不大于0.8,则方式2可以作为目标切图方式,将其拆分为两个子图。
[0116]
在上述方式3中,w(g
x
,gy)则为(b3,b7,b1,b6,b2,b8,b10)和(b5,b4,b9)这两个子图之间的连边权重总和,这两个子图之间存在2条连边,其连边权重分别为0.45和0.32,显然连边权重总和显然不大于0.8,则方式3也可以作为目标切图方式,将其拆分为两个子图。
[0117]
在上述方式4中,w(g
x
,gy)则为(b3,b7,b1,b6,b2,b8,b10,b5,b4)和(b9)这两个子图之间的连边权重总和,这两个子图之间存在2条连边,其连边权重分别为0.32和0.48,显然连边权重总和等于0.8,则方式4也不能作为目标切图方式。
[0118]
进而,经过尝试确定后,则可以发现共有两种切图方式可以使w(g
x
,gy)小于拆档权重阈值0.8,分别是方式2和方式3,因此待处理图像档案b的连边图共可以拆成3个子图,即(b3,b7,b1,b6,b2,b8)、(b10)和(b5,b4,b9)三个子图。
[0119]
步骤2023:基于至少一个子图,对待处理图像档案b进行拆分,获得相应的子档案集合;其中,每个子档案中的存档图像与一个子图中的节点一一对应。
[0120]
具体的,每个子图的一个节点对应待处理图像档案b中的一个存档图像,从而可以按照上述对应关系相应得到待处理图像档案b的拆分结果,即也拆分为3个子档案。
[0121]
针对任意的待处理图像档案,都可以通过上述的拆档过程拆分得到相应的子档案集合,每个子档案集合对应一个待处理图像档案的拆分结果。需要说明的是,在实际情况中,可能存在一个待处理图像档案不满足拆档条件的情况出现,那么对于该待处理图像档案不会进行拆分,则其对应的子档案集合仅包括一个图像档案,即原本的待处理图像档案。
[0122]
步骤203:基于每两个子档案包括的存档图像之间的相似度,对获得的各个子档案集合包括的各个子档案进行合并处理,获得多个目标图像档案。
[0123]
本技术实施例中,由于之前聚类错误的档案可能为其他人或事物的档案,但被错
误聚类,因此需要对拆分后得到的子档案进行重新合档。
[0124]
在一种实施方式中,可以通过提取各个子档案的表示向量,进而基于表示向量,计算各个子档案之间的相似度,若大于一定的相似度阈值,则可以对其进行合档。
[0125]
在一种实施方式中,也可以采用与拆档时相同的方式进行合档,例如拆档时采用谱聚类方式进行,那么也可以采用谱聚类方式进行合档,这里具体以谱聚类方式为例进行介绍。
[0126]
具体的,在将各个待处理图像档案进行拆分之后,则可以得到每个待处理图像档案对应的子档案集合,针对这些子档案集合可以混合到一起进行合档处理。在进行合档时,针对每两个子档案,若确定每两个子档案对应的两个子图之间的连边权重总和大于合档权重阈值,则对每两个子档案进行合并处理。
[0127]
这里以子档案c和子档案d为例,子档案c和子档案d可以为任意的两个子档案,则子档案c和子档案d之间的连边权重总和为:
[0128][0129]
其中,gc,gd分别表示子档案c和子档案d对应的两个子图,w(gc,gd)表征gc,gd之间的合图权重,即上述的连边权重总和。
[0130]
则若存在子档案c和子档案d合档后形成的连通图的连边权重和w(gc,gd)大于合档权重阈值,则认为这两个档案合档成功。
[0131]
在实际应用中,若拆档权重阈值大于合档权重阈值,则会陷入拆档和合档的循环,因而通常合档权重阈值大于拆档权重阈值。例如,设置合档权重阈值为0.9,则参见图6所示,为子档案c和子档案d合档后形成的连通图的示意图,其中子档案c包括(c1,c3,c5,c4,c2,c8),子档案d包括(d1,d2,d3),且各个节点之间的连边权重如图6所示,则若子档案c和子档案d合档后,两者之间的连边包括3条,其连边权重分别为0.42、0.33和0.45,从而连边权重总和为1.2显然大于合档权重阈值0.9,从而子档案c和子档案d能够合档。
[0132]
本技术实施例中,上述步骤202和203的过程可以执行一次即可巡检完毕;或者,步骤202和203的过程也可以循环执行多次,直至达到一定的终止条件,例如无法在继续进行拆档为止,本技术实施例对此不进行限制。
[0133]
综上所述,本技术实施例中,提供一种根据谱聚类的方法找到错误聚类的档案,以将存在多个错误聚类的图像档案进行拆分,例如可以将多张同一人像错误聚类的人像图片的档案进行拆分,同时对拆档完的档案再通过谱聚类的方法进行二次合档,有效的提升了图像聚类的准确率和召回率。此外,合档和拆档可以使用同一个方法,防止造成一边拆档一边合档的情况,并且,基于长时间形成的档案进行拆档合档,档案内的图片特征分布比较明显,效果较好。
[0134]
请参见图7,基于同一发明构思,本技术实施例还提供了一种图像档案巡检装置70,该装置包括:
[0135]
确定单元701,用于从多个候选图像档案中,确定出符合设定巡检条件的待处理图像档案;
[0136]
档案拆分单元702,用于基于确定出的各个待处理图像档案各自包括的各个存档图像之间的相似度,对相应的待处理图像档案进行拆分处理,获得各个待处理图像档案各
自对应的子档案集合;其中,在子档案集合包括多个子档案时,任意两个子档案包括的存档图像之间的相似度的总和小于拆档相似度阈值;
[0137]
档案合并单元703,用于基于每两个子档案包括的存档图像之间的相似度,对获得的各个子档案集合包括的各个子档案进行合并处理,获得多个目标图像档案。
[0138]
可选的,确定单元701,具体用于:
[0139]
针对多个候选图像档案,分别执行如下操作:
[0140]
针对一个候选图像档案,确定一个候选图像档案包括的存档图像的数量是否大于巡检数量阈值;
[0141]
若大于巡检数量阈值,则确定候选图像档案满足巡检条件。
[0142]
可选的,档案拆分单元702,具体用于:
[0143]
针对各个待处理图像档案,分别执行如下操作:
[0144]
针对一个待处理图像档案,基于其包括的各个存档图像之间的相似度,构造一个待处理图像档案对应的连边图;其中,连边图中的一个节点对应一个存档图像;
[0145]
基于连边图包括的各个节点之间的连边权重,对连边图进行切图,获得至少一个子图;其中,两个节点之间的连边权重与相应的两个存档图像之间的相似度呈正相关;
[0146]
基于至少一个子图,对一个待处理图像档案进行拆分,获得相应的子档案集合;其中,每个子档案中的存档图像与一个子图中的节点一一对应。
[0147]
可选的,档案拆分单元702,具体用于:
[0148]
针对各个存档图像中每两个存档图像,确定每两个存档图像之间的相似度,是否大于第一相似度阈值;
[0149]
若大于,则每两个存档图像之间在连边图中存在连边;并,
[0150]
基于每两个存档图像之间相似度,确定每两个存档图像之间的连边权重。
[0151]
可选的,档案拆分单元702,具体用于:
[0152]
基于连边图包括的各个节点,确定连边图的多种候选切图方式;其中,切图后的任意两个子图的交集为空集,且所有子图的并集为连边图;
[0153]
基于按照多种候选切图方式中的各种候选切图方式,进行切图后的两个子图之间的连边权重总和,从多种候选切图方式中确定出连边权重总和不大于拆档权重阈值的目标切图方式;
[0154]
按照确定的目标切图方式对连边图进行切图,获得至少一个子图。
[0155]
可选的,档案合并单元703,具体用于:
[0156]
针对各个子档案中每两个子档案,分别执行如下操作:
[0157]
若确定每两个子档案对应的两个子图之间的连边权重总和大于合档权重阈值,则对每两个子档案进行合并处理;其中,合档权重阈值大于拆档权重阈值。
[0158]
可选的,该装置还包括相似度计算单元704,用于:
[0159]
针对各个存档图像进行特征提取,分别获得各个存档图像各自对应的特征矩阵;
[0160]
基于各个存档图像各自对应的特征矩阵,确定每两个存档图像之间的相似度。
[0161]
通过上述装置,可以根据谱聚类的方法找到错误聚类的档案,以将存在多个错误聚类的图像档案进行拆分,例如可以将多张同一人像错误聚类的人像图片的档案进行拆分,同时对拆档完的档案再通过谱聚类的方法进行二次合档,有效的提升了图像聚类的准
确率和召回率。此外,合档和拆档可以使用同一个方法,防止造成一边拆档一边合档的情况,并且,基于长时间形成的档案进行拆档合档,档案内的图片特征分布比较明显,效果较好。
[0162]
该装置可以用于执行本技术各实施例中所示的方法,因此,对于该装置的各功能模块所能够实现的功能等可参考前述实施例的描述,不多赘述。
[0163]
请参见图8,基于同一技术构思,本技术实施例还提供了一种计算机设备80,该计算机设备80可以为图1所示的终端设备或服务器,该计算机设备80可以包括存储器801和处理器802。
[0164]
所述存储器801,用于存储处理器802执行的计算机程序。存储器801可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据计算机设备的使用所创建的数据等。处理器802,可以是一个中央处理单元(central processing unit,cpu),或者为数字处理单元等等。本技术实施例中不限定上述存储器801和处理器802之间的具体连接介质。本技术实施例在图8中以存储器801和处理器802之间通过总线803连接,总线803在图8中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线803可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0165]
存储器801可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,ram);存储器801也可以是非易失性存储器(non-volatile memory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,hdd)或固态硬盘(solid-state drive,ssd)、或者存储器801是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器801可以是上述存储器的组合。
[0166]
处理器802,用于调用所述存储器801中存储的计算机程序时执行本技术各实施例中设备所执行的方法。
[0167]
在一些可能的实施方式中,本技术提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本技术各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行本技术各实施例中设备所执行的方法。
[0168]
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0169]
尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0170]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精
神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
技术特征:
1.一种图像档案巡检方法,其特征在于,所述方法包括:从多个候选图像档案中,确定出符合设定巡检条件的待处理图像档案;基于确定出的各个待处理图像档案各自包括的各个存档图像之间的相似度,对相应的待处理图像档案进行拆分处理,获得所述各个待处理图像档案各自对应的子档案集合;其中,在子档案集合包括多个子档案时,任意两个子档案包括的存档图像之间的相似度的总和小于拆档相似度阈值;基于每两个子档案包括的存档图像之间的相似度,对获得的各个子档案集合包括的各个子档案进行合并处理,获得多个目标图像档案。2.如权利要求1所述的方法,其特征在于,从多个候选图像档案中,确定出符合设定巡检条件的待处理图像档案,包括:针对所述多个候选图像档案,分别执行如下操作:针对一个候选图像档案,确定一个候选图像档案包括的存档图像的数量是否大于巡检数量阈值;若大于所述巡检数量阈值,则确定所述候选图像档案满足所述巡检条件。3.如权利要求1所述的方法,其特征在于,基于确定出的各个待处理图像档案各自包括的各个存档图像之间的相似度,对相应的待处理图像档案进行拆分处理,获得所述各个待处理图像档案各自对应的子档案集合,包括:针对所述各个待处理图像档案,分别执行如下操作:针对一个待处理图像档案,基于其包括的各个存档图像之间的相似度,构造所述一个待处理图像档案对应的连边图;其中,所述连边图中的一个节点对应一个存档图像;基于所述连边图包括的各个节点之间的连边权重,对所述连边图进行切图,获得至少一个子图;其中,两个节点之间的连边权重与相应的两个存档图像之间的相似度呈正相关;基于所述至少一个子图,对所述一个待处理图像档案进行拆分,获得相应的子档案集合;其中,每个子档案中的存档图像与一个子图中的节点一一对应。4.如权利要求3所述的方法,其特征在于,针对一个待处理图像档案,基于其包括的各个存档图像之间的相似度,构造所述一个待处理图像档案对应的连边图,包括:针对所述各个存档图像中每两个存档图像,确定所述每两个存档图像之间的相似度,是否大于第一相似度阈值;若大于,则所述每两个存档图像之间在所述连边图中存在连边;并,基于所述每两个存档图像之间相似度,确定所述每两个存档图像之间的连边权重。5.如权利要求3所述的方法,其特征在于,基于所述连边图包括的各个节点之间的连边权重,对所述连边图进行切图,获得至少一个子图,包括:基于所述连边图包括的各个节点,确定所述连边图的多种候选切图方式;其中,切图后的任意两个子图的交集为空集,且所有子图的并集为所述连边图;基于按照所述多种候选切图方式中的各种候选切图方式,进行切图后的两个子图之间的连边权重总和,从所述多种候选切图方式中确定出连边权重总和不大于拆档权重阈值的目标切图方式;按照确定的目标切图方式对所述连边图进行切图,获得所述至少一个子图。6.如权利要求3~5任一所述的方法,其特征在于,基于每两个子档案包括的存档图像
之间的相似度,对获得的各个子档案集合包括的各个子档案进行合并处理,获得多个目标图像档案,包括:针对所述各个子档案中每两个子档案,分别执行如下操作:若确定所述每两个子档案对应的两个子图之间的连边权重总和大于合档权重阈值,则对所述每两个子档案进行合并处理;其中,所述合档权重阈值大于拆档权重阈值。7.如权利要求1~5任一所述的方法,其特征在于,在基于确定出的各个待处理图像档案各自包括的各个存档图像之间的相似度,对相应的待处理图像档案进行拆分处理,获得所述各个待处理图像档案各自对应的子档案集合之前,所述方法还包括:针对所述各个存档图像进行特征提取,分别获得所述各个存档图像各自对应的特征矩阵;基于所述各个存档图像各自对应的特征矩阵,确定每两个存档图像之间的相似度。8.一种图像档案巡检装置,其特征在于,所述装置包括:确定单元,用于从多个候选图像档案中,确定出符合设定巡检条件的待处理图像档案;档案拆分单元,用于基于确定出的各个待处理图像档案各自包括的各个存档图像之间的相似度,对相应的待处理图像档案进行拆分处理,获得所述各个待处理图像档案各自对应的子档案集合;其中,在子档案集合包括多个子档案时,任意两个子档案包括的存档图像之间的相似度的总和小于拆档相似度阈值;档案合并单元,用于基于每两个子档案包括的存档图像之间的相似度,对获得的各个子档案集合包括的各个子档案进行合并处理,获得多个目标图像档案。9.如权利要求8所述的装置,其特征在于,所述档案拆分单元,具体用于:针对所述各个待处理图像档案,分别执行如下操作:针对一个待处理图像档案,基于其包括的各个存档图像之间的相似度,构造所述一个待处理图像档案对应的连边图;其中,所述连边图中的一个节点对应一个存档图像;基于所述连边图包括的各个节点之间的连边权重,对所述连边图进行切图,获得至少一个子图;其中,两个节点之间的连边权重与相应的两个存档图像之间的相似度呈正相关;基于所述至少一个子图,对所述一个待处理图像档案进行拆分,获得相应的子档案集合;其中,每个子档案中的存档图像与一个子图中的节点一一对应。10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。11.一种计算机存储介质,其上存储有计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。12.一种计算机程序产品,包括计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现权利要求1至7任一项所述方法的步骤。
技术总结
本申请公开了一种图像档案巡检方法、装置、设备及计算机存储介质,涉及图像聚类技术领域,用于提升图像档案的准确性,该方法包括:从多个候选图像档案中,确定出符合设定巡检条件的待处理图像档案;基于确定出的各个待处理图像档案各自包括的各个存档图像之间的相似度,对相应的待处理图像档案进行拆分处理,获得所述各个待处理图像档案各自对应的子档案集合;其中,在子档案集合包括多个子档案时,任意两个子档案包括的存档图像之间的相似度的总和小于拆档相似度阈值;基于每两个子档案包括的存档图像之间的相似度,对获得的各个子档案集合包括的各个子档案进行合并处理,获得多个目标图像档案。个目标图像档案。个目标图像档案。
技术研发人员:王凯垚 陈立力 周明伟 何林强
受保护的技术使用者:浙江大华技术股份有限公司
技术研发日:2021.11.26
技术公布日:2022/3/8