人像聚类方法、装置、电子设备和存储介质与流程

1.本技术涉及图像聚类技术领域，尤其涉及一种人像聚类方法、装置、电子设备和存储介质。

背景技术：

2.在图像识别与聚类技术、实时计算技术以及硬件存储介质等的共同推动下，大规模的人像聚类逐渐成为可能。目前通常会建立一人一档的信息库，该信息库中同一人的图像归属于同一档案。为了使档案具有实时性，通常会在实时图片进入图像库的时候进行图像聚类，即将一个人的图片聚成一个类簇。然后再将这个类簇和历史底库中所有人像底档进行比对，匹配上的实时图片类簇会合入其对应的历史档案中，未匹配上的实时图片类簇会被建立成为新的档案。
3.传统的人像聚类技术专注于从图像本身出发进行图像特征值对比，从而实现人像聚类。在聚类过程中，会出现同一个人的图片记录被分成多个档案(通常用召回率这一指标描述)。召回率是评价聚档质量的重要指标。如何进一步提高召回率成为当前亟需解决的问题。

技术实现要素：

4.本技术的目的是提供一种人像聚类方法、装置、电子设备和存储介质，用于提高人像聚类的召回率。
5.第一方面，提供一种人像聚类方法，该方法可以包括：获取第一卡口在第一时间段内采集的第一人像信息，获取第二卡口在第一时间段内采集的第二人像信息。根据第一卡口和第二卡口的相关性程度，以及第一人像信息和第二人像信息的相似度比对结果，确定第一人像信息和第二人像信息的目标相似度。所述相关性程度是基于在第二时间段经过所述第一卡口的人和经过所述第二卡口的人的信息确定的。
6.相比仅仅通过人像信息的相似度比对结果对人像信息进行聚类的方案，本技术可以基于第一卡口和第二卡口的相关性确定第一人像信息和第二人像信息的目标相似度，比如当第一卡口和第二卡口的相关性程度较高的情况下，可以对第一时间段内的该两个卡口的两个人像信息的相似度进行相应的拉伸，从而可以提高人像聚类的召回率，可以对人像信息进行更加准确的聚类。
7.为了说明上述有益效果，下面通过一个示例用于说明：比如第一人像信息和第二人像信息进行相似度比对之后得到的相似度为88分，若不对相似度进行拉伸，则会将第一人像信息和第二人像信息分别归类于两个档案。
8.但是若第一卡口和第二卡口的相关性程度较高，则可以对该两个人像信息进行相似度拉伸，比如可以将该两个人像信息的相似度从88分拉伸至91分。若当两个人像信息的相似度为90分，则可以将两个人像信息判定为属于同一个人的人像信息。可以看出，由于91分大于90分，因此可以将该两个人像信息确定为同一个人的人像信息，进而归至同一个档
案。
9.通过上述示例可以看出，本技术实施例中基于卡口的相关性对两个图形的相似度进行拉伸，可以减轻将一个人的多个人像信息归至多个档案的现象，从而可以提高召回率。另一方面，当两个卡口的相关性程度较高的情况下，两个卡口的两个较为相似的人像信息同属于同一个人的概率也会较大，基于此，本技术实施例中也可以更为准确的对人像信息进行聚类。
10.在一种可能的实施方式中，第一卡口和第二卡口的相关性程度用于：指示在第二时间段内经过第一卡口的人中经过第二卡口的人的占比，和/或，在第二时间段内经过第二卡口的人中经过第一卡口的人的占比。根据目标相似度，对第一人像信息和第二人像信息进行聚类。
11.在一种可能的实施方式中，第一卡口和第二卡口的相关性程度根据以下内容中的至少一项确定：第一数量与第二数量的第一比值，第一数量为第二时间段内经过第一卡口且经过第二卡口的人的数量，第二数量为第二时间段内经过第一卡口的人的数量；第一数量与第三数量的第二比值；第三数量为第二时间段内经过第二卡口的人的数量；或，指示第一比值和第二比值的均值的信息。
12.第一比值可以指示出经过第一卡口的人中有多少人在第二时间段内经过第二卡口。第二比值可以指示出经过第二卡口的人中有多少人在第二时间段内经过第一卡口。因此采用上述内容中的至少一项确定第一卡口和第二卡口的相关性程度，可以更加准确。进一步，第二时间段的设置可以相对短一些，比如为一个小时、两个小时等，则可以通过数据更加准确的推断出第一卡口和第二卡口的关联性，进一步降低误差。
13.在一种可能的实施方式中，指示第一比值和第二比值的均值的信息包括以下内容中的至少一项：第一比值和第二比值的平均数；或，第一比值和第二比值的调和平均数。
14.如此，可以减少在确定第一卡口和第二卡口的相关性程度的过程中的误差。又一方面，比如当第一卡口为宾馆门口的卡口，第二卡口为宾馆过道的卡口，则第一卡口采集到的人像信息明显更多，若采用第一比值和第二比值的调和平均数确定第一卡口和第二卡口的相关性程度，则由于第一比值和第二比值的调和平均数更偏向于较小的值，因此可以进一步减少在确定第一卡口和第二卡口的相关性程度的过程中的误差。
15.在一种可能的实施方式中，根据第一卡口和第二卡口的相关性程度，以及第一人像信息和第二人像信息的相似度比对结果，确定第一人像信息和第二人像信息的目标相似度，包括：对第一人像信息和第二人像信息进行相似度比对，得到第一相似度。在第一卡口和第二卡口的相关性程度指示的相关性大于预设的相关性阈值的情况下，根据第一卡口和第二卡口的相关性程度对应的相似度映射关系，将第一相似度对应的第二相似度确定为目标相似度；其中，相似度映射关系包括第一相似度和第二相似度的对应关系。在一种可能的实施方式中，第二相似度指示的相似程度高于第一相似度指示的相似程度。
16.当第一卡口和第二卡口的相关性程度指示的相关性大于预设的相关性阈值的情况下，说明第一卡口和第二卡口之间具有一定的相关性，这种情况下，可以对第一时间段内的该两个卡口的两个人像信息的相似度进行相应的拉伸，从而可以提高召回率。
17.在一种可能的实施方式中，对第一人像信息和第二人像信息进行相似度比对，得到第一相似度之后，还包括：在第一卡口和第二卡口的相关性程度指示的相关性不大于预
设相关性阈值的情况下，将第一相似度确定为目标相似度。
18.当第一卡口和第二卡口的相关性程度指示的相关性不大于预设的相关性阈值，则说明第一卡口和第二卡口为弱相关，这种情况下，该两个卡口的两个人像信息属于同一个人的概率较低，这种情况下可以仅基于第一人像信息和第二人像信息的相似度比对结果进行聚类，不再对人像信息的相似度进行拉伸，从而可以更加准确的进行人像信息的聚类。
19.第二方面，提供一种人像聚类的装置，该装置包括获取模块和聚类模块。获取模块，用于获取第一卡口在第一时间段内采集的第一人像信息；获取第二卡口在第一时间段内采集的第二人像信息。聚类模块，根据第一卡口和第二卡口的相关性程度，以及第一人像信息和第二人像信息的相似度比对结果，确定第一人像信息和第二人像信息的目标相似度。所述相关性程度是基于在第二时间段经过所述第一卡口的人和经过所述第二卡口的人的信息确定的。
20.相比仅仅通过人像信息的相似度比对结果对人像信息进行聚类的方案，本技术可以基于第一卡口和第二卡口的相关性确定第一人像信息和第二人像信息的目标相似度，从而可以提高人像聚类的召回率。
21.在一种可能的实施方式中，第一卡口和第二卡口的相关性程度用于：指示在第二时间段内经过第一卡口的人中经过第二卡口的人的占比，和/或，在第二时间段内经过第二卡口的人中经过第一卡口的人的占比；根据目标相似度，对第一人像信息和第二人像信息进行聚类。
22.在一种可能的实施方式中，第一卡口和第二卡口的相关性程度根据以下内容中的至少一项确定：第一数量与第二数量的第一比值，第一数量为第二时间段内经过第一卡口且经过第二卡口的人的数量，第二数量为第二时间段内经过第一卡口的人的数量；第一数量与第三数量的第二比值；第三数量为第二时间段内经过第二卡口的人的数量；或，指示第一比值和第二比值的均值的信息。
23.第一比值可以指示出经过第一卡口的人中有多少人在第二时间段内经过第二卡口。第二比值可以指示出经过第二卡口的人中有多少人在第二时间段内经过第一卡口。因此采用上述内容中的至少一项确定第一卡口和第二卡口的相关性程度，可以更加准确。进一步，第二时间段的设置可以相对短一些，比如为一个小时、两个小时等，则可以通过数据更加准确的推断出第一卡口和第二卡口的关联性，进一步降低误差。
24.在一种可能的实施方式中，指示第一比值和第二比值的均值的信息包括以下内容中的至少一项：第一比值和第二比值的平均数；或第一比值和第二比值的调和平均数。
25.如此，可以减少在确定第一卡口和第二卡口的相关性程度的过程中的误差。又一方面，比如当第一卡口为宾馆门口的卡口，第二卡口为宾馆过道的卡口，则第一卡口采集到的人像信息明显更多，若采用第一比值和第二比值的调和平均数确定第一卡口和第二卡口的相关性程度，则由于第一比值和第二比值的调和平均数更偏向于较小的值，因此可以进一步减少在确定第一卡口和第二卡口的相关性程度的过程中的误差。
26.在一种可能的实施方式中，聚类模块，具体用于：对第一人像信息和第二人像信息进行相似度比对，得到第一相似度。在第一卡口和第二卡口的相关性程度指示的相关性大于预设的相关性阈值的情况下，根据预设的相似度映射关系，将第一相似度对应的第二相似度确定为目标相似度；其中，相似度映射关系包括第一相似度和第二相似度的对应关系。
在一种可能的实施方式中，第二相似度指示的相似程度高于第一相似度指示的相似程度。
27.当第一卡口和第二卡口的相关性程度指示的相关性大于预设的相关性阈值的情况下，说明第一卡口和第二卡口之间具有一定的相关性，这种情况下，可以对第一时间段内的该两个卡口的两个人像信息的相似度进行相应的拉伸，从而可以提高召回率。
28.在一种可能的实施方式中，聚类模块，还用于：在第一卡口和第二卡口的相关性程度指示的相关性不大于预设相关性阈值的情况下，将第一相似度确定为目标相似度。
29.当第一卡口和第二卡口的相关性程度指示的相关性不大于预设的相关性阈值，则说明第一卡口和第二卡口为弱相关，该两个卡口的两个人像信息属于同一个人的概率较低，这种情况下可以仅基于第一人像信息和第二人像信息的相似度比对结果进行聚类，不再对人像信息的相似度进行拉伸，从而可以更加准确的进行人像信息的聚类。
30.第三方面，提供一种电子设备，电子设备包括：
31.存储器，用于存储程序指令；
32.处理器，用于调用存储器中存储的程序指令，按照获得的程序指令执行第一方面中任一的方法包括的步骤。
33.第四方面，提供一种计算可读存储介质，计算可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行第一方面中任一的方法包括的步骤。
34.第五方面，提供一种包含指令的计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各种可能的实现方式中所描述的身份归档方法。
附图说明
35.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例。
36.图1为本技术实施例提供的一种人像聚类适用场景的架构示意图；
37.图2为本技术实施例提供的一种人像聚类方法的可能的流程示意图；
38.图3为本技术实施例提供的一种人像聚类方法的可能的流程示意图；
39.图4为本技术实施例提供的一种人像聚类方法的可能的流程示意图；
40.图5为本技术实施例提供的一种人像聚类方法的可能的流程示意图；
41.图6为本技术实施例提供的一种人像聚类的装置的可能的结构示意图；
42.图7为本发明实施例中的又一种人像聚类的装置的可能的结构示意图。
具体实施方式
43.为了使本领域普通人员更好地理解本技术的技术方案，下面将结合附图，对本技术实施例中的技术方案进行清楚、完整地描述。
44.需要说明的是，本技术的说明书和权利要求书的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置
和方法的例子。
45.为了便于理解，首先对本技术中的专业名词进行解释：
46.人像信息，人像信息一般包括人脸图像信息以及人体图像信息。人像信息也可以称为人像数据。人像信息可以包括人像图像。人脸图像信息也可以称为人脸图像数据，人脸图像信息也可以包括人脸图像。人体图像信息也可以称为人体图像数据，人体图像信息也可以包括人体图像。本技术实施例中提到的第一人像信息和第二人像信息为两个人像信息，其中“第一”、“第二”仅仅是为了区分第一人像信息和第二人像信息。
47.对人像信息进行聚类：对一个库中的图像数据进行比对和分组以形成多个人员图像集合的过程。
48.档案：人脸聚类产生的集合，标识一个虚拟的人的集合。
49.发明人研究发现，若为了提高聚档的准确性和召回率而采用如下方案：
50.对归档到档案的图片按照角度、属性等进行分类，每个类别至多保留2张高质量的图片，当出现更高图片质量的归档图片时进行更新替换，类别图片不够没有达到上限时进行新增，这些档案的图片进行特征融合，生成这个档案的档案特征，以此来提高聚档的准确性和召回率。
51.上述方案存在缺点，比如没有很好的能够判定一张图片是否是更高质量图片的模型。举个例子，两个人像信息都是侧脸的情况下，如何界定一张图片更好。此外，当两个人像信息都是侧脸的情况下，由于侧脸所刻画的人脸特征较少，会使本身特征中人脸信息偏少，从而无法充分代表对应的人，对聚类起到的正面作用有限，容易引入更多错误。
52.有鉴于此，本技术提出了一种人像聚类方法、装置、电子设备和存储介质，用于基于卡口之间的相关性对人像信息进行聚类，从而提高召回率。
53.下面对本技术实施例的技术方案能够适用的应用场景做一些简单的介绍，需要说明的是，以下介绍的应用场景仅用于说明本技术实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本技术实施例提供的技术方案。
54.如图1所示，为本技术实施例中的人像聚类方法的应用场景图。图中包括：服务器101、存储器102和卡口。图1中示出了两个卡口，分别为第一卡口103和第二卡口104。实际应用中，该场景中还可以包括更多的卡口，本技术实施例中不做限制。
55.卡口也可以称为卡口装置，或者称为图像采集装置。卡口比如可以为监控设备、或人脸识别相机等可以用于图像采集的装置。
56.服务器101和卡口可以通过网络进行数据传输。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算等进行云计算的云服务器。
57.本技术中的描述中仅就单个服务器、第一卡口和第二卡口进行详述，但是本领域技术人员应当理解的是，示出的卡口、服务器101和存储器102旨在表示本技术的技术方案涉及的卡口、服务器以及存储器的操作。对单个服务器和存储器加以详述至少为了说明方便，而非暗示对卡口和服务器的数量、类型或是位置等具有限制。应当注意，如果向图示环境中添加附加模块或从其中去除个别模块，不会改变本技术的示例实施例的底层概念。
58.需要说明的是，本技术实施例中的存储器例如可以是缓存系统、也可以是硬盘存储、内存存储等等。此外，本技术提出的人像聚类方法不仅适用于图1所示的应用场景，还适
用于任何有人像聚类需求的装置。
59.下面结合说明书附图对本技术实施例提供的人像聚类方法进行介绍。本技术实施例提供的人像聚类方法可以由图1中的服务器101来执行，也可以由服务器101中的模块、芯片或单元执行。请参见图2所示，本技术实施例中的人像聚类方法的流程描述如下：
60.s201，服务器获取第一卡口在第一时间段内采集的第一人像信息。
61.s201，服务器获取第二卡口在第一时间段内采集的第二人像信息。
62.s203，服务器根据第一卡口和第二卡口的相关性程度，以及第一人像信息和第二人像信息的相似度比对结果，确定第一人像信息和第二人像信息的目标相似度。
63.所述相关性程度可以是基于在第二时间段经过所述第一卡口的人和经过所述第二卡口的人的信息确定的。在一种可能的实施方式中，第一卡口和第二卡口的相关性程度用于：指示在第二时间段内经过第一卡口的人中经过第二卡口的人的占比，和/或，在第二时间段内经过第二卡口的人中经过第一卡口的人的占比。
64.s204，服务器根据目标相似度，对第一人像信息和第二人像信息进行聚类。
65.在s204中，在目标相似度大于预设的相似度阈值的情况下，可以确定第一人像信息和第二人像信息为同一个人的人像信息。可以将第一人像信息和第二人像信息确定为同一个人的人像信息，进而可以归为同一个档案中。
66.相比仅仅通过人像信息的相似度比对结果对人像信息进行聚类的方案，本技术可以基于第一卡口和第二卡口的相关性确定第一人像信息和第二人像信息的目标相似度，从而可以提高人像聚类的召回率。
67.在上述s203之前，基于上述内容，本技术实施例中可以先根据历史数据计算出两个卡口之间的相关性。在实际应用中会涉及多个卡口，本技术实施例中以计算第一卡口和第二卡口的相关性为例展示一种可能的计算两个卡口之间相关性的方案。第一卡口可以为图1中的第一卡口103，第二卡口可以为图1中的第二卡口104。图3示例性示出了本技术实施例提供的一种可能的计算第一卡口和第二卡口的相关性的方法流程示意图。本技术实施例提供的人像聚类方法可以由图1中的服务器101来执行，也可以由服务器101中的模块、芯片或单元执行。请参阅图3：
68.s301，服务器统计第二时间段内经过第一卡口且经过第二卡口的人的第一数量。
69.本技术实施例中为了便于区分，将第二时间段内经过第一卡口且经过第二卡口的人的数量称为第一数量。
70.本技术实施例中第二时间段可以为一个历史的时间段，第二时间段可以为一个小时、两个小时或半个小时等。进一步，若将第二时间段的时长设置的相对短一些，比如为一个小时、两个小时等，则可以通过数据更加准确的推断出第一卡口和第二卡口的关联性，进一步降低误差。
71.s302，服务器统计第二时间段内经过第一卡口的人的第二数量。
72.本技术实施例中为了便于区分，将第二时间段内经过第一卡口的人的数量称为第二数量。第二数量不小于第一数量。
73.s303，服务器统计第二时间段内经过第二卡口的人的第三数量。
74.本技术实施例中为了便于区分，将第二时间段内经过第二卡口的人的数量称为第三数量。第三数量不小于第一数量。第三数量和第二数量之间没有一定的大小关系，第三数
量有可能大于第二数量，也有可能等于第二数量，也有可能小于第二数量。
75.s304，服务器计算第一数量与第二数量的第一比值。
76.本技术实施例中为了便于区分，将第一数量与第二数量的比值称为第一比值。第一比值可以指示出经过第一卡口的人中有多少人在第二时间段内经过第二卡口。
77.s305，服务器计第一数量与第三数量的第二比值。
78.本技术实施例中为了便于区分，将第一数量与第三数量的比值称为第二比值。第二比值可以指示出经过第二卡口的人中有多少人在第二时间段内经过第一卡口。
79.s306，服务器根据第一比值或第二比值中的至少一项，确定第一卡口和第二卡口的相关性程度。
80.在s306中，第一卡口和第二卡口的相关性程度根据以下内容中的至少一项确定：
81.第一比值；
82.第二比值；或，
83.指示第一比值和第二比值的均值的信息。
84.其中，指示第一比值和第二比值的均值的信息包括：第一比值和第二比值的平均数；或第一比值和第二比值的调和平均数中的至少一项。如此，可以减少在确定第一卡口和第二卡口的相关性程度的过程中的误差。又一方面，比如当第一卡口为宾馆门口的卡口，第二卡口为宾馆过道的卡口，则第一卡口采集到的人像信息明显更多，若采用第一比值和第二比值的调和平均数确定第一卡口和第二卡口的相关性程度，则由于第一比值和第二比值的调和平均数更偏向于较小的值，因此可以进一步减少在确定第一卡口和第二卡口的相关性程度的过程中的误差。
85.比如，可以设置一个相关性阈值，比如设置第一相关性阈值。第一卡口和第二卡口的相关性可以为第一比值和第二比值的调和平均数，这种情况下，当第一比值和第二比值的调和平均数大于该预设的第一相关性阈值，则可以确定第一卡口和第二卡口的相关性程度为强相关，否则，则确定第一卡口和第二卡口的相关性程度为弱相关。
86.再比如，第一卡口和第二卡口的相关性可以为第一比值和第二比值的平均数，这种情况下，当第一比值和第二比值的平均数大于预设的第二相关性阈值，则可以确定第一卡口和第二卡口的相关性程度为强相关，否则，则确定第一卡口和第二卡口的相关性程度为弱相关。
87.再比如，第一卡口和第二卡口的相关性可以为第一比值或第二比值，以第一卡口和第二卡口的相关性为第一比值为例，这种情况下，当第一比值大于该预设的第三相关性阈值，则可以确定第一卡口和第二卡口的相关性程度为强相关，否则，则确定第一卡口和第二卡口的相关性程度为弱相关。
88.上述第一相关性阈值、第二相关性阈值和第三相关性阈值仅仅是为了区分该三个相关性阈值，该三个相关性阈值中的任意两个可以相同，也可以不同，本技术实施例不做限制。
89.上述示例中仅仅示出了几种确定相关性程度的示例，实际应用中还可以根据其他公式和运算规则计算第一卡口和第二卡口的相关性，比如可以为第一比值和第二比值分别设置权重，对第一比值和第二比值进行加权相加，得到第一卡口和第二卡口的相关性，进一步将第一卡口和第二卡口的相关性与预设的相关性阈值进行比较，以便确定出第一卡口和
第二卡口之间的相关性程度。
90.上述内容仅仅为示例，实际应用中还可以设置多个相关性阈值，比如第四相关性阈值和第五相关性阈值。第一卡口和第二卡口的相关性可以为第一比值和第二比值的调和平均数，这种情况下，当第一比值和第二比值的调和平均数大于该第四相关性阈值，则可以确定第一卡口和第二卡口的相关性程度为强相关。当第一比值和第二比值的调和平均数不大于该第四相关性阈值且大于第五相关性阈值，则可以确定第一卡口和第二卡口的相关性程度为中等程度相关。当第一比值和第二比值的调和平均数不大于第五相关性阈值，则可以确定第一卡口和第二卡口的相关性程度为弱相关。如此，可以将相关性程度划出更多的等级，以便提高计算的准确度。
91.针对上述s203,图4示例性示出了本技术实施例提供的一种基于卡口的相关性程度确定两个人像信息的相似度的一种可能的方法流程示意图。该方法可以由图1中的服务器101来执行，也可以由服务器101中的模块、芯片或单元执行。图4中第一卡口采集到的第一人像信息和第二卡口采集到的第二人像信息为例进行展示，其他两个卡口采集到的两个人像信息之间的相似度的确定方案与之类似，不再赘述。下面参见图4，该方法包括：
92.s401，服务器对第一人像信息和第二人像信息进行相似度比对，得到第一相似度。
93.在s401中可以通过多种方案确定两个人像信息的相似度，比如可以通过余弦相似度(这种情况下，第一相似度可以为第一人像信息和第二人像信息的余弦相似度数值)、曼哈顿距离，或内积相似度等，本技术实施例不做限制。
94.s402，服务器判断第一卡口和第二卡口的相关性程度指示的相关性是否大于预设的相关性阈值；
95.若是，则执行s403；
96.若否，则执行s404。
97.s403，服务器根据第一卡口和第二卡口的相关性程度对应的相似度映射关系，将第一相似度对应的第二相似度确定为目标相似度；其中，相似度映射关系包括第一相似度和第二相似度的对应关系。
98.其中，第二相似度指示的相似程度高于第一相似度指示的相似程度。
99.本技术实施例中，可以预设一个相关性阈值，当第一卡口和第二卡口的相关性大于该相关性阈值，则可以确定第一卡口和第二卡口为强相关，否则，则为弱相关。这种情况下，在s402中，当确定第一卡口和第二卡口的相关性程度指示的相关性大于预设的相关性阈值的情况下，也可以替换为：第一卡口和第二卡口的相关性程度为强相关。
100.又一种可能的实施方式中，本技术实施例中可以预设多个相关性阈值。这种情况下，s402中的第一卡口和第二卡口的相关性程度指示的相关性大于相关性阈值可以包括：第一卡口和第二卡口的相关性程度并非弱相关。
101.举个例子，本技术实施例中分别设置第四相关性阈值和第五相关性阈值，第一卡口和第二卡口的相关性可以为第一比值和第二比值的调和平均数，这种情况下，当第一比值和第二比值的调和平均数大于该第四相关性阈值，则可以确定第一卡口和第二卡口的相关性程度为强相关。当第一比值和第二比值的调和平均数不大于该第四相关性阈值且大于第五相关性阈值，则可以确定第一卡口和第二卡口的相关性程度为中等程度相关。当第一比值和第二比值的调和平均数不大于第五相关性阈值，则可以确定第一卡口和第二卡口的
相关性程度为弱相关。一种可能的实施方式中，s402中的相关性阈值可以为第五相关性阈值。又一种可能的实施方式中，s402中的相关性阈值可以为第四相关性阈值。
102.本技术实施例中可以预设一个或多个相似度映射关系，相似度应关系包括两个相似度的对应关系。比如，本技术实施例中可以为强相关设置对应的相似度映射关系，也可以为中等程度相关设置对应的相似度映射关系，这种情况下，当第一卡口和第二卡口的相关性程度指示的相关性大于第四阈值，即第一卡口和第二卡口为强相关，则可以根据强相关性程度设置对应的相似度映射关系确定出第一相似度对应的第二相似度。当第一卡口和第二卡口的相关性程度指示的相关性不大于第四阈值但是大于第三阈值，即第一卡口和第二卡口为中等程度相关，则可以根据中等程度相关设置对应的相似度映射关系确定出第一相似度对应的第二相似度。
103.本技术实施例中，当两个卡口之间的相关性越强，则相似度可以被拉伸至更高值，也就是说，当两个卡口之间的相关性越强，经过该两个卡口的两个人像信息属于同一个人的可能性会更大。
104.举个例子，强相关对应的相似度映射关系中包括第三相似度和第四相似度的对应关系，中等程度相关对应的相似度映射关系中包括第五相似度和第六相似度的对应关系。其中，第四相似度大于第三相似度，第六相似度大于第五相似度。第四相似度与第三相似度的差值可以大于第六相似度与第五相似度的差值。举个例子，第三相似度为88分，第四相似度可能被拉高3分，至91分。第五相似度为85分，第六相似度可能被拉高2分，至87分。即当两个卡口之间为强相关，则该两个卡口下的两个人像信息之间的相似度可以被拉伸3分。当两个卡口之间为中等程度相关，则该两个卡口下的两个人像信息之间的相似度可以被拉伸2分。如此，可以提高人像信息聚类的准确度。
105.s404，服务器将第一相似度确定为目标相似度。
106.通过上述方案可以看出，当第一卡口和第二卡口的相关性程度指示的相关性大于预设的相关性阈值的情况下，说明第一卡口和第二卡口之间具有一定的相关性，这种情况下，可以对第一时间段内的该两个卡口的两个人像信息的相似度进行相应的拉伸，从而可以提高召回率。
107.举个例子，当两个人像信息的相似度为90分，则可以将两个人像信息判定为属于同一个人的人像信息。而对第一人像信息和第二人像信息进行相似度比对之后得到的第一相似度为88分，若不对相似度进行拉伸，则会将第一人像信息和第二人像信息分别归类于两个档案中，但是若第一卡口和第二卡口是强相关，经过相似度拉伸，可以将第一相似度的88分拉伸至第二相似度91分。由于91分大于90分，因此可以将该两个人像信息确定为同一个人的人像信息，进而归至同一个档案。通过该示例可以看出，本技术实施例中基于卡口的相关性对两个图形的相似度进行拉伸，可以减轻将一个人的多个人像信息归至多个档案的现象，从而可以提高召回率。
108.下面贝叶斯理论进一步描述本技术实施例提供的方案带来的有益效果：
[0109][0110]
在公式(1)中：
[0111]
x表示阈值；
[0112]
a表示第一卡口在第一时间段内采集到的第一人像信息；
[0113]
b表示第二卡口在第一时间段内采集到的第二人像信息；
[0114]
p(a和b是一个人)表示事件“a和b是一个人”发生的概率；其中，事件“a和b是一个人”表示：第一人像信息和第二人像信息为同一个人的人像信息的事件；
[0115]
p(a和b是一个人|x＝μ1)表示在事件“x＝μ
1”发生的情况下，事件“a和b是一个人”发生的概率；
[0116]
p(x＝μ1|a和b是一个人)表示在事件“a和b是一个人”发生的情况下，事件“x＝μ
1”发生的概率；
[0117]
p(x＝μ1)表示事件“x＝μ
1”发生的概率。
[0118]
当第一卡口和第二卡口的相关性程度指示的相关性大于预设的相关性阈值的情况下，说明第一卡口和第二卡口之间具有一定的相关性，比如第一卡口和第二卡口为强相关，这种情况下，p(a和b是一个人)会变大，而p(x＝μ1a和b是一个人)和p(x＝μ1)为常量，并不会发生变化。进而，p(a和b是一个人|x＝μ1)也会变大，从而可以使在模糊边界上的阈值带来正确样本的概率变大。进而针对第一卡口和第二卡口，当该两个卡口是强相关卡口，该两个卡口下的两个人像信息是一个人的几率会变大。
[0119]
通过上述贝叶斯理论的论述可以看出，本技术实施例提供的方案在理论上也可以可行的，且本技术实施例带来的优势在环节的参数设定都具有理论依据，且比较有效。另一方面，一个档案内部出现多个人的情况可以用准确率这一指标描述，而本技术实施例提供的方案，当两个人像信息进行相似度对比后，该相似度比对结果指示的相似度大于相似度阈值，则可以将该两个人像信息归为同一个档案，而本技术实施例中提供的方案对这一规则没有影响，即本技术实施例提供的方案可以不降低准确率，如此可以实现在不降低准确率的情况下，达到提升召回率的目的。
[0120]
又一方面，在s404中，当第一卡口和第二卡口的相关性程度指示的相关性不大于预设的相关性阈值，则说明第一卡口和第二卡口为弱相关，这种情况下，该两个卡口的两个人像信息属于同一个人的概率较低，这种情况下可以仅基于第一人像信息和第二人像信息的相似度比对结果进行聚类，不再对人像信息的相似度进行拉伸，从而可以更加准确的进行人像信息的聚类。
[0121]
值得注意的是，上述内容是以两个卡口下的两个人像信息为例进行展示的，实际应用中还可以对所有卡口中任意两个卡口下的任意两张图片之间的相似度进行确定，得到任意两张图片之间对应的目标相似度，从而得到相似度矩阵，进而可以利用相似度矩阵对所有卡口中的图片进行聚类。其中任意两张图片之间对应的目标相似度的确定方案可以参见前述图4所提供的方案，在此不再赘述。
[0122]
基于上述内容，图5示例性示出了本技术实施例中提供的又一种人像信息的聚类方法。图5所示的方案可以适用于冷启动后的一个时间段。比如可以适用于前述图2的步骤201之前，以便提前积累一定的人像信息。该方法可以由图1中的服务器101来执行，也可以由服务器101中的模块、芯片或单元执行。
[0123]
请参阅图5，该方法包括：
[0124]
s501，服务器接收第三时间段内多个卡口采集到的人像信息多个人像信息。
[0125]
在s501中，多个卡口可以包括有第一卡口和第二卡口，还可以包括其他卡口；多个
人像信息中可以包括至少两个人像信息，下面以多个人像信息中包括的第三人像信息和第四人像信息为例进行介绍。第三时间段可以为第一时间段之前的一段历史时间段。
[0126]
s502，服务器运用人脸解析模型，得到各个人像信息的特征信息。
[0127]
s503，服务器针对两个人像信息，可以计算该两个人像信息对应的特征信息之间的余弦相似度，得到该两个人像信息之间的相似度。
[0128]
s504，服务器根据计算机指定的预设的相似度阈值对人像信息进行聚类，以得到一个或多个人像信息所构成的类簇。
[0129]
在s504中，具体地，可以为层次聚类等多种方式。比如，可以进行初始化，之后将每个样本视为一个簇。然后计算任意两簇距离，两个簇的距离可用簇内点的最近距离、最远距离或加权平均距离等方式计算。找出距离最近的两个簇，合并这两簇。重复这一步骤直到最远两簇距离超过预设的相似度阈值。以此得到人像信息类簇，一个人像信息类簇在理想状态下指代一个人在一段时间内被多个卡口捕捉到的人像信息所构成的类簇。
[0130]
s505，服务器将得到的各个人像信息所构成的类簇归入底库档案中。
[0131]
在s505中，针对一个人像信息类簇，服务器可以将该人像信息类簇与底库中已有的档案进行比对。若经过比对，底库中存在一个档案，该档案中包括的人像信息对应的特征信息与该人像信息类簇中的人像信息对应的特征之间的相似度大于预设的相似度阈值，则可以将该人像信息类簇归入该档案中。否则，则可以在地库中新建档案。
[0132]
在一种可能的实施方式中，可以在冷启动的情况下，即底库中不具备充足的档案的情况下，可以通过上述图5的方式先在底库中积累一定的档案。之后可以通过前述图3的方案计算卡口之间的相关性，继而采用上述图2或图4所示的方案，基于卡口之间的相关性对两个人像信息之间的相似度进行拉伸，继而提高聚类的召回率。上述图2、图3、图4和图5所示的各个方案也可以单独执行，本技术实施例不做限制。
[0133]
如图6示，基于相同的发明构思，提出一种人像聚类的装置600，包括获取模块601和聚类模块602。
[0134]
获取模块601，用于获取第一卡口在第一时间段内采集的第一人像信息；获取第二卡口在第一时间段内采集的第二人像信息。
[0135]
聚类模块602，根据第一卡口和第二卡口的相关性程度，以及第一人像信息和第二人像信息的相似度比对结果，确定第一人像信息和第二人像信息的目标相似度。所述相关性程度可以是基于在第二时间段经过所述第一卡口的人和经过所述第二卡口的人的信息确定的。
[0136]
在一些可能的实施例中，聚类模块602，具体用于：对第一人像信息和第二人像信息进行相似度比对，得到第一相似度。在第一卡口和第二卡口的相关性程度指示的相关性大于预设的相关性阈值的情况下，根据预设的相似度映射关系，将第一相似度对应的第二相似度确定为目标相似度；其中，相似度映射关系包括第一相似度和第二相似度的对应关系。
[0137]
在一些可能的实施例中，聚类模块602，还用于：在第一卡口和第二卡口的相关性程度指示的相关性不大于预设相关性阈值的情况下，将第一相似度确定为目标相似度。
[0138]
该方案的其他相关内容可以参见前述图2、图3、图4和图5所示的相关内容，在此不再赘述。
[0139]
在介绍了本技术示例性实施方式的人像聚类方法和装置之后，接下来，介绍根据本技术的另一示例性实施方式的电子设备。
[0140]
所属技术领域的技术人员能够理解，本技术的各个方面可以实现为系统、方法或程序产品。因此，本技术的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。
[0141]
在一些可能的实施方式中，根据本技术的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本技术各种示例性实施方式的人像聚类方法中的步骤。
[0142]
下面参照图7来描述根据本技术的这种实施方式的电子设备130。图7显示的电子设备130仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
[0143]
如图7所示，电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。
[0144]
电子设备可以用于通过输入/输出(i/o)接口执行：获取第一卡口在第一时间段内采集的第一人像信息；获取第二卡口在第一时间段内采集的第二人像信息。根据第一卡口和第二卡口的相关性程度，以及第一人像信息和第二人像信息的相似度比对结果，确定第一人像信息和第二人像信息的目标相似度；其中，第一卡口和第二卡口的相关性程度指示的相关性用于：指示在第二时间段内经过第一卡口的人中经过第二卡口的人的占比，和/或，在第二时间段内经过第二卡口的人中经过第一卡口的人的占比；根据目标相似度，对第一人像信息和第二人像信息进行聚类。
[0145]
总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
[0146]
存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(ram)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(rom)1323。
[0147]
存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0148]
电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备130交互的设备通信，和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口135进行。并且，电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解，尽管图7中未示出，可以结合电子设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0149]
在一些可能的实施方式中，本技术提供的一种人像聚类方法的各个方面还可以实
现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本技术各种示例性实施方式的一种人像聚类方法中的步骤。
[0150]
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0151]
本技术的实施方式的用于人像聚类的程序产品可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在电子设备上运行。然而，本技术的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0152]
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0153]
可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
[0154]
应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本技术的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
[0155]
此外，尽管在附图中以特定顺序描述了本技术方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。
[0156]
本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0157]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0158]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0159]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0160]
显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

技术特征：
1.一种人像聚类方法，其特征在于，所述方法包括：获取第一卡口在第一时间段内采集的第一人像信息；获取第二卡口在所述第一时间段内采集的第二人像信息；根据所述第一卡口和所述第二卡口的相关性程度，以及所述第一人像信息和所述第二人像信息的相似度比对结果，确定所述第一人像信息和所述第二人像信息的目标相似度；所述相关性程度是基于在第二时间段经过所述第一卡口的人和经过所述第二卡口的人的信息确定的；根据所述目标相似度，对所述第一人像信息和所述第二人像信息进行聚类。2.如权利要求1所述的方法，其特征在于，所述相关性程度包括如下至少一个信息：所述第二时间段内经过所述第一卡口的人中经过所述第二卡口的人的第一占比；所述第二时间段内经过所述第二卡口的人中经过所述第一卡口的人的第二占比。3.如权利要求1所述的方法，其特征在于，所述相关性程度根据以下内容中的至少一项确定：第一数量与第二数量的第一比值；所述第一数量为所述第二时间段内经过所述第一卡口且经过所述第二卡口的人的数量，所述第二数量为所述第二时间段内经过所述第一卡口的人的数量；所述第一数量与第三数量的第二比值；所述第三数量为所述第二时间段内经过所述第二卡口的人的数量；或，指示所述第一比值和所述第二比值的均值的信息。4.如权利要求3所述的方法，其特征在于，指示所述第一比值和所述第二比值的均值的信息包括以下内容中的至少一项：所述第一比值和所述第二比值的平均数；或，所述第一比值和所述第二比值的调和平均数。5.如权利要求1-4任一项所述的方法，其特征在于，所述根据所述第一卡口和所述第二卡口的相关性程度，以及所述第一人像信息和所述第二人像信息的相似度比对结果，确定所述第一人像信息和所述第二人像信息的目标相似度，包括：对所述第一人像信息和所述第二人像信息进行相似度比对，得到第一相似度；在所述第一卡口和所述第二卡口的相关性程度指示的相关性大于预设的相关性阈值的情况下，根据第一卡口和所述第二卡口的相关性程度对应的相似度映射关系，将所述第一相似度对应的第二相似度确定为所述目标相似度；其中，所述相似度映射关系包括所述第一相似度和第二相似度的对应关系。6.如权利要求5所述的方法，其特征在于，所述第二相似度指示的相似程度高于所述第一相似度指示的相似程度。7.如权利要求5所述的方法，其特征在于，所述对所述第一人像信息和所述第二人像信息进行相似度比对，得到第一相似度之后，还包括：在所述第一卡口和所述第二卡口的相关性程度指示的相关性不大于预设相关性阈值的情况下，将所述第一相似度确定为所述目标相似度。8.一种人像聚类的装置，其特征在于，所述装置包括：获取模块，用于获取第一卡口在第一时间段内采集的第一人像信息；获取第二卡口在
所述第一时间段内采集的第二人像信息；聚类模块，根据所述第一卡口和所述第二卡口的相关性程度，以及所述第一人像信息和所述第二人像信息的相似度比对结果，确定所述第一人像信息和所述第二人像信息的目标相似度；所述相关性程度是基于在第二时间段经过所述第一卡口的人和经过所述第二卡口的人的信息确定的；根据所述目标相似度，对所述第一人像信息和所述第二人像信息进行聚类。9.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令，使得所述装置通过执行如权利要求1-7中任一项所述的方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储指令，当所述指令被执行时，使如权利要求1-7中任一项所述的方法被实现。

技术总结
一种人像聚类方法、装置、电子设备和存储介质，用于提高人像聚类的召回率。本申请中，获取第一卡口在第一时间段内采集的第一人像信息，获取第二卡口在第一时间段内采集的第二人像信息。根据第一卡口和第二卡口的相关性程度，以及第一人像信息和第二人像信息的相似度比对结果，确定第一人像信息和第二人像信息的目标相似度。根据目标相似度，对第一人像信息和第二人像信息进行聚类。由于结合了卡口的相关性进行聚类，因此可以提高人像聚类的召回率。率。率。

技术研发人员：柯辛玥陈立力周明伟
受保护的技术使用者：浙江大华技术股份有限公司
技术研发日：2021.11.24
技术公布日：2022/3/7

专利

最新回复(0)