信息处理方法、装置、设备、存储介质及程序产品与流程

专利查询2024-7-13 100

1.本发明涉及信息处理技术领域，尤其涉及一种信息处理方法、装置、设备、存储介质及程序产品。

背景技术：

2.纵向联邦学习是在参与者的数据特征重叠较小，而用户重叠较多的情况下，取出参与者用户相同而用户数据特征不同的那部分用户及数据进行联合机器学习训练。
3.然而，在纵向联邦学习应用中，存在只有一个参与方有标签，另外参与方都没有标签的场景。实际应用中，传统的深度学习方法无法得到直接的模型参数进行更新，并且在传统的纵向联邦学习架构中，通常在训练过程中需要大量信息同步与交互。
4.因此，现有技术无法有效地实现模型更新并且通信效率低。

技术实现要素：

5.本发明的主要目的在于提供一种信息处理方法、装置、设备、存储介质及程序产品，旨在有效地实现模型更新，且提高了通信效率。
6.为实现上述目的，本发明提供一种信息处理方法，所述方法应用于参加联邦学习的多个参与方中的第一参与方，所述第一参与方持有标签；所述方法包括：
7.对所述第一参与方提供的各个数据在本地进行自监督训练后进行特征提取，得到所述第一参与方提供的各个数据的第一特征向量；
8.接收所述多个参与方中的第二参与方发送的各个数据的第二特征向量，所述第二特征向量是由所述第二参与方在本地进行自监督训练得到的；其中，所述第一特征向量与所述第二特征向量为对齐样本的特征数据，所述多个参与方中的任一个参与方对应一类特征向量；
9.根据各个所述第一特征向量和各个所述第二特征向量，确定用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，所述联邦学习模型用于支持所述多个参与方进行信息交互。
10.可选地，根据各个所述第一特征向量和各个所述第二特征向量，确定用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，包括：
11.将各个所述第一特征向量作为第一分布的样本，且将各个所述第二特征向量作为第二分布的样本，并将一个第一分布的样本与对应的一个第二分布的样本作为一组分布的样本；
12.针对每组分布的样本，通过在样本空间上的映射函数集，确定每组分布的样本在映射函数集上的最大均值差异距离；
13.若所述最大均值差异距离小于或等于预设距离阈值，则根据每组分布的样本，确定用于更新联邦学习模型以及各个参与方的本地模型的参数；
14.若所述最大均值差异距离大于预设距离阈值，则根据每组分布的样本以及对应的
所述最大均值差异距离，确定用于更新联邦学习模型以及各个参与方的本地模型的参数，以及确定第一目标参数和第二目标参数，所述第一目标参数用于更新第一参与方的本地模型，所述第二目标参数用于更新第二参与方的本地模型。
15.可选地，通过在样本空间上的映射函数集，确定每组分布的样本在映射函数集上的最大均值差异距离，包括：
16.针对映射函数集中的每个映射函数，根据每组分布的样本中的所述第一分布的样本和所述第二分布的样本，分别计算所述第一分布的样本在所述映射函数上的函数值的第一均值和所述第二分布的样本在所述映射函数上的函数值的第二均值；
17.根据所述第一均值和所述第二均值，计算得到在所述映射函数上的均值差异距离；
18.从各个所述映射函数对应的均值差异距离中获取最大均值差异距离。
19.可选地，根据每组分布的样本，确定用于更新联邦学习模型以及各个参与方的本地模型的参数，包括：
20.针对每组分布的样本，将该组中的第一分布样本与第二分布样本融合，得到新的样本；
21.根据各个所述新的样本以及所述新的样本对应的所述标签，确定用于更新联邦学习模型以及各个参与方的本地模型的参数。
22.可选地，所述根据每组分布的样本以及对应的所述最大均值差异距离，确定用于更新联邦学习模型以及各个参与方的本地模型的参数，以及确定第一目标参数和第二目标参数，包括：
23.针对每组分布的样本，则根据所述最大均值差异距离调整所述第一参与方的本地模型的参数，得到第一参数；
24.将所述最大均值差异距离发送至所述第二参与方，以使所述第二参与方根据所述最大均值差异距离调整所述第二参与方的本地模型的参数得到第二参数；
25.针对每组分布的样本，将该组中的第一分布样本与第二分布样本融合，得到新的样本；
26.根据各个所述新的样本以及所述新的样本对应的所述标签，确定用于更新联邦学习模型以及各个参与方的本地模型的参数并发送给所述第二参与方，使得所述第二参与方基于用于更新联邦学习模型以及各个参与方的本地模型的参数以及所述第二参数确定所述第二目标参数；
27.根据所述用于更新联邦学习模型以及各个参与方的本地模型的参数以及所述第一参数，确定所述第一目标参数。
28.可选地，所述根据每组分布的样本以及对应的所述最大均值差异距离，确定用于更新联邦学习模型以及各个参与方的本地模型的参数，以及确定第一目标参数和第二目标参数，包括：
29.针对每组分布的样本，则根据所述最大均值差异距离调整所述第一参与方的本地模型的参数，得到第一目标参数和对应的第一参与方的新本地模型并通过所述第一参与方的新本地模型得到该组中的第一分布样本对应的第一新分布样本，第一参与方的新本地模型用于使得所述最大均值差异距离小于所述预设距离阈值；
30.将所述最大均值差异距离发送至所述第二参与方，以使所述第二参与方根据所述最大均值差异距离调整所述第二参与方的本地模型的参数得到第二目标参数和对应的第二参与方的新本地模型并通过所述第二参与方的新本地模型得到该组中的第二分布样本对应的第二新分布样本，第二参与方的新本地模型用于使得所述最大均值差异距离小于所述预设距离阈值；
31.接收第二参与方发送的第二新分布样本，将该组对应的第一新分布样本与第二新分布样本融合，得到新的样本；
32.根据各个所述新的样本以及所述新的样本对应的所述标签，确定用于更新联邦学习模型以及各个参与方的本地模型的参数。
33.可选地，根据各个所述新的样本以及所述新的样本对应的所述标签，确定用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，包括：
34.根据各个所述新的样本，通过联邦学习模型，得到预测结果；
35.根据所述预测结果、所述新的样本对应的所述标签以及所述新的样本对应的所述最大均值差异距离，确定损失函数对中间层输出的梯度；
36.将所述损失函数对中间层输出的梯度作为所述用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数。可选地，所述方法还包括：
37.根据所述用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，通过梯度下降算法对联邦学习模型和所述第一参与方的本地模型进行更新；
38.将所述用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数发送给所述第二参与方，以使所述第二参与方更新自身的本地模型。
39.可选地，所述方法还包括：
40.获取多个正样本以及每个正样本对应的多个副样本；
41.根据多个正样本以及每个正样本对应的多个副样本，通过自监督训练，得到特征提取模型；
42.其中，所述特征提取模型用于提取所述第一参与方提供的各个数据的第一特征向量。
43.本发明还提供一种信息处理装置，所述装置应用于参加联邦学习的多个参与方中的第一参与方，所述第一参与方持有标签；所述装置包括：
44.特征提取模块，用于对所述第一参与方提供的各个数据在本地进行自监督训练后进行特征提取，得到所述第一参与方提供的各个数据的第一特征向量；
45.接收模块，用于接收所述多个参与方中的第二参与方发送的各个数据的第二特征向量，所述第二特征向量是由所述第二参与方在本地进行自监督训练得到的；其中，所述第一特征向量与所述第二特征向量为对齐样本的特征数据，所述多个参与方中的任一个参与方对应一类特征向量；
46.处理模块，用于根据各个所述第一特征向量和各个所述第二特征向量，确定用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，所述联邦学习模型用于支持所述多个参与方进行信息交互。
47.本发明还提供一种信息处理设备，所述信息处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息处理程序，所述信息处理程序被所述处理
器执行时实现如前述任一项所述的信息处理方法的步骤。
48.本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息处理程序，所述信息处理程序被处理器执行时实现如前述任一项所述的信息处理方法的步骤。
49.本发明还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一项所述的方法。
50.本发明中，参加联邦学习的多个参与方中的持有标签的第一参与方可以进行信息处理，通过对所述第一参与方提供的各个数据在本地进行自监督训练后进行特征提取，得到所述第一参与方提供的各个数据的第一特征向量以及接收所述多个参与方中的第二参与方发送的各个数据的第二特征向量，所述第二特征向量是由所述第二参与方在本地进行自监督训练得到的；根据各个所述第一特征向量和各个所述第二特征向量，确定用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，进而通过多个参与方之间的信息交互实现联邦学习。因此，通过采用自监督训练对无标签或有标签的参与方在本地学习进行数据特征提取，得到每个参与方的特征向量，由于各个参与方是在各自本地学习训练的，并且基于特征向量，通过纵向联邦学习进行微调即可得到模型的更新参数，进而得到各自的最终预测模型，有效地实现了模型更新，并且只需要进行少量的通信交互次数即可，降低了纵向联邦场景下的通信成本，提高了通信效率。
附图说明
51.图1为本发明实施例提供的一种应用场景示意图；
52.图2为本发明实施例提供的一种信息处理方法的流程示意图；
53.图3为本发明实施例提供的自监督训练的示意图；
54.图4为本发明实施例提供的一种信息处理装置的结构示意图；
55.图5为本发明实施例提供的一种信息处理设备的结构示意图。
56.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
57.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明完整地传达给本领域的技术人员。
58.在纵向联邦学习应用中，存在只有一个参与方有标签，另外参与方都没有标签的场景。实际应用中，传统的深度学习方法无法得到直接的模型参数(比如梯度信息)进行更新，并且在传统的纵向联邦学习架构中，通常在训练过程中需要大量信息同步与交互。因此，现有技术无法有效地实现模型更新并且通信效率低。
59.为了解决这一问题，本发明的技术构思是通过采用自监督学习，使得各个参与方在不需要标签的情况下，能够自主学习到较好的特征提取模型，充分利用了各方的数据，尤其是在双方标签数据较少或目标标签不同的场景下。基于自监督学习到的模型，各个参与方通过纵向联邦进行微调时，只需要进行少量的通信交互次数，就能得到较好的模型，降低
了纵向联邦场景下的通信成本，提高了通信效率。
60.下面结合附图，对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。
61.需要说明的是，本技术中的“多个”用于表示两个或两个以上，具体数目在此不做具体地限定。示例性地，多个参与方可以为两个参与方或两个以上参与方，由于多个参与方包括第一参与方和第二参与方，则多个参与方中的第二参与方可以为一个或一个以上。
62.图1为本发明实施例提供的一种应用场景示意图。如图1所示，有两个机构作为信息处理的参与方，分别记为第一参与方和第二参与方(即多个参与方中的第二参与方)。示例性地，第一参与方可以为银行，第二参与方可以为电商平台，且第一参与方和第二参与方均持有多个用户的信息，第一参与方和第二参与方在同一地区。其中，一个自然人可以被看作一个用户，或者，一个银行账号可以被看作一个用户、一个电商账户可以被看作一个用户。
63.具体地，结合图1中的步骤
①
、
②
以及
③
所示，第一参与方持有的用户和第二参与方持有的用户进行对齐，比如第一参与方有10个用户的信息，第二参与方有8个用户的信息，对两个参与方的用户的信息进行对齐，即选取相同的用户：第一参与方有用户1至5的信息且持有标签，第二参与方也有用户1至5的信息，两个参与方各自通过本地自监督训练，提取用户的信息对应的特征向量，即第一参与方通过其特征提取器a(即extractor a)提取用户1至5的信息各自对应的特征向量ua(使用第一特征向量表示，其中，第一参与方的用户信息用xa表示，每个用户对应一个第一特征向量ua)，第二参与方通过其特征提取器b(即extractor b)提取用户1至5的信息各自对应的特征向量ub(使用第二特征向量表示，其中，第二参与方的用户信息用xb表示，每个用户对应一个第二特征向量ub)。
64.第二参与方将各个用户对应的ub传输给第一参与方，第一参与方将ua和ub进行数据融合，比如ua和ub加起来或者拼接起来，然后通过联邦学习模型(比如分类器，即classifier)得到预测结果y
pred
，并基于预测接结果和第一参与方持有的标签y计算损失将损失函数对中间层输出的梯度传输至第二参与方。其中，第一参与方根据梯度下降算法对分类器和extractor a进行更新，第二参与方根据链式法则和梯度下降算法对extractor b进行更新，通过微调迭代，确定最终的联邦学习模型。
65.通过本发明实施例给出的信息处理方法，可以通过采用自监督训练对无标签或有标签的参与方在本地学习进行数据特征提取，得到每个参与方的特征向量，由于各个参与方是在各自本地学习训练的，自监督训练过程不会产生任何通信，并且基于特征向量，通过纵向联邦学习进行微调即可得到模型的更新参数，进而得到各自的最终预测模型，有效地实现了模型更新，并且只需要进行少量的通信交互次数即可，降低了纵向联邦场景下的通信成本，提高了通信效率。
66.图2为本发明实施例提供的一种信息处理方法的流程示意图。所述方法应用于参加联邦学习的多个参与方中的第一参与方，如图2所示，本实施例中的方法可以包括：
67.s201、对所述第一参与方提供的各个数据在本地进行自监督训练后进行特征提取，得到所述第一参与方提供的各个数据的第一特征向量；
68.s202、接收所述多个参与方中的第二参与方发送的各个数据的第二特征向量，所
述第二特征向量是由所述第二参与方在本地进行自监督训练得到的；其中，所述第一特征向量与所述第二特征向量为对齐样本的特征数据，所述多个参与方中的任一个参与方对应一类特征向量。
69.其中，第二参与方可以持有标签(比如少量标签)也可以无标签。
70.每个参与方都会提供一类特征向量，如果考虑k个参与方，就有k类特征向量。比如，参与方包括第一参与方和m个第二参与方，第一参与方持有标签，m个第二参与方可以持有标签(比如少量标签)也可以无标签，第一参与方对应第一特征向量，m个第二参与方中的每个第二参与方对应第二特征向量，比如第二特征向量1、第二特征向量2
…
第二特征向量m。
71.基于第一特征向量和第二特征向量来确定用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，可以是基于第一特征向量和各个第一特征向量(比如第二特征向量1、第二特征向量2
…
第二特征向量m)进行分析，进而确定更新参数。其中，针对每个数据对应的特征向量，第一特征向量和与其匹配的各个第二特征向量为对齐样本数据。
72.第二参与方示例性地，下述均以多个参与方中的第二参与方为一个参与方即第二参与方且无标签为例对信息处理方法进行详细说明。
73.在纵向联邦的场景中，各方都有各自的数据特征，除了有标签的一方，其他的所有参与方都没有标签，其中，没有标签的参与方不能进行有监督的训练。为了充分利用没有标签的参与方的数据，各个参与方可以利用自监督学习方法，充分地在参与方本地学习到有效的特征提取模型。
74.具体地，第一参与方(标记为client a方)和第二参与方(标记为client b方)均可以通过自监督训练本地模型，得到特征提取模型，比如client a方的特征提取模型(或特征提取器)extractor a、client b方的特征提取模型(或特征提取器)extractor b。其中，client a方有数据和标签，client b方只有数据。client a方和client b方有各自的特征提取器extractor a和extractor b分别输出特征ua和ub。client b方将输出的ub通过加密的方式传输给client a。此外，clienta方有classifier(分类器)，作用于ua和ub，产生预测结果。
75.其中，各参与方初始化各自模型extractor a和extractor b。自监督训练前，client a和client b通过加密的方式实现数据对齐。
76.可选地，特征提取模型的训练过程可以通过以下步骤实现：
77.步骤a1、获取多个正样本以及每个正样本对应的多个副样本。
78.步骤a2、根据多个正样本以及每个正样本对应的多个副样本，通过自监督训练，得到特征提取模型。
79.其中，所述特征提取模型用于提取所述第一参与方提供的各个数据的第一特征向量。
80.相应地，client b方可以通过上述步骤实现extractor b的训练。
81.具体地，各个参与方本地自监督训练特征提取器的过程可以为：
82.自监督训练方法结构如图3所示，定义了一个query[q](可以表示一个图像的图像特征，即特征向量)和一个队列的[k](可以表示多个增强图像的图像特征，即特征向量)，在
该队列中，一般包含了单个的正样本(即positive样本，比如一张原始图)和多个副样本(即negative样本，比如增强图)，其中，多个副样本中含有一个与正样本匹配的副样本，其他的副样本可以是其他不同的增强图。通过对比损失来学习特征表示。使用一个队列来存储和采样negative样本，队列中存储多个近期用于训练的一批特征向量。队列在不断地进行更新，新的训练一批特征向量入队列后，最早的训练一批特征向量出队列。这里入队列的并不是图像本身，而是图像特征。
[0083]
训练时，目标样本(即anchor样本)记为[xq](query)，经过编码器网络(即encoder网络)[fq]进行编码得到q＝fq(xq)。随后从队列中采样了k+1个样本{k0,k1,k2，
……
}作为key。这些key是用不同的队列encoder网络fk进行编码得到的。由于fk的变化非常缓慢，因此虽然{k0,k1,k2，
……
}是通过不同encoder编码的，编码器导致的差异会非常小。比如，本实施例采用一种momentum(即动量)更新的方式来更新fk，其参数是对query encoder的平滑拷贝：
[0084]
θk＝mθk+(1-m)θq[0085]
假设其中有一个positive样本k+，其余均是negative样本，则根据lnfonce(损失函数)的损失，损失表示为：
[0086][0087]
其中，q和k
+
可以有多种构造方式。比如，本实施例使用了一种较为简单的方式：(1)一种图片进行随机调整大小(即random resize)；(2)进行两次224*224的随机剪短(crop)得到两个图像分别作为q和k
+
；(3)进行增强操作，包括随机色抖动(random color jittering)，随机水平翻转(即random horizontal flip)，随机灰度变换(random grayscale conversion)等。
[0088]
编码器网络可以根据参与方的特征和任务特点，选择任意的深度学习网络作为编码器网络，并生成最终的特征提取器，如resnet等。
[0089]
s203、根据各个所述第一特征向量和各个所述第二特征向量，确定用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，所述联邦学习模型用于支持所述多个参与方进行信息交互。
[0090]
由自监督训练可知，此时各方初始化各自的模型extractor，是已经充分学习到本地数据的特征提取器，具有很好的提取特征的功能，因此，各个参与方只需要与持有标签的一方进行少量的通信，以微调模型，便可以得到较好的最终模型。通过采用自监督训练对无标签或有标签的参与方在本地学习进行数据特征提取，得到每个参与方的特征向量，由于各个参与方是在各自本地学习训练的，自监督训练过程不会产生任何通信，并且基于特征向量，通过纵向联邦学习进行微调即可得到模型的更新参数，进而得到各自的最终预测模型，有效地实现了模型更新，并且只需要进行少量的通信交互次数即可，降低了纵向联邦场景下的通信成本，提高了通信效率。
[0091]
可选地，根据各个所述第一特征向量和各个所述第二特征向量，确定用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，可以通过以下步骤实现：
[0092]
步骤b1、将各个所述第一特征向量作为第一分布的样本，且将各个所述第二特征向量作为第二分布的样本，并将一个第一分布的样本与对应的一个第二分布的样本作为一组分布的样本。
[0093]
步骤b2、针对每组分布的样本，通过在样本空间上的映射函数集，确定每组分布的样本在映射函数集上的最大均值差异距离。
[0094]
步骤b3、若所述最大均值差异距离小于或等于预设距离阈值，则根据每组分布的样本，确定用于更新联邦学习模型以及各个参与方的本地模型的参数。
[0095]
步骤b4、若所述最大均值差异距离大于预设距离阈值，则根据每组分布的样本以及对应的所述最大均值差异距离，确定用于更新联邦学习模型以及各个参与方的本地模型的参数，以及确定第一目标参数和第二目标参数，所述第一目标参数用于更新第一参与方的本地模型(即特征提取模型)，所述第二目标参数用于更新第二参与方的本地模型。
[0096]
其中，将每个特征向量作为一个分布的样本，则第一特征向量和第二特征向量可以看作是两种分布的样本。由于第一参与方的各个第一特征向量和第二参与方的各个第二特征向量所对应的样本是对齐的，则将第一特征向量与其对应(比如相同用户)的第二特征向量作为一组分布的样本，包括两个分布的样本。
[0097]
然后针对每组分布的样本，计算在映射函数集上的最大均值差异距离，基于最大均值差异距离以及每组分布的样本来微调联邦学习模型以及各自参与方的本地模型。
[0098]
具体地，以一组分布的样本为例，如果最大均值差异距离小于或等于预设距离阈值，说明该组中两个分布的样本分布相同，直接基于该组分布的样本，确定用于更新联邦学习模型以及各个参与方的本地模型的参数。
[0099]
如果最大均值差异距离大于预设距离阈值，说明该组中两个分布的样本分布不相同，特征空间差异较大，如果直接将双方特征进行拼接或者相加，会降低特征的表示能力，将此特征用于训练分类器，也会降低模型的判别能力。因此，为了加快收敛，提升模型的性能，可以将该组分布的样本结合最大均值差异距离来更新各自本地模型以及联邦学习模型。可选地，通过在样本空间上的映射函数集，确定每组分布的样本在映射函数集上的最大均值差异距离，可以通过以下步骤实现：
[0100]
步骤c1、针对映射函数集中的每个映射函数，根据每组分布的样本中的所述第一分布的样本和所述第二分布的样本，分别计算所述第一分布的样本在所述映射函数上的函数值的第一均值和所述第二分布的样本在所述映射函数上的函数值的第二均值。
[0101]
步骤c2、根据所述第一均值和所述第二均值，计算得到在所述映射函数上的均值差异距离。
[0102]
步骤c3、从各个所述映射函数对应的均值差异距离中获取最大均值差异距离。
[0103]
可选地，针对每组分布的样本，若所述最大均值差异距离小于预设距离阈值，则确定该组中两个分布的样本分布相同；反之，则确定该组中两个分布的样本分布不同。如果分布不同，为了加速模型收敛或减少设备间的交互通信次数，可以通过至少以下两种方式实现：
[0104]
方式1、根据每组分布的样本以及对应的所述最大均值差异距离，确定用于更新联邦学习模型以及各个参与方的本地模型的参数，以及确定第一目标参数和第二目标参数，可以通过以下步骤实现：
[0105]
步骤d1、针对每组分布的样本，根据所述最大均值差异距离调整所述第一参与方的本地模型的参数，得到第一参数；
[0106]
步骤d2、将所述最大均值差异距离发送至所述第二参与方，以使所述第二参与方根据所述最大均值差异距离调整所述第二参与方的本地模型的参数得到第二参数。
[0107]
步骤d3、针对每组分布的样本，将该组中的第一分布样本与第二分布样本融合，得到新的样本。
[0108]
步骤d4、根据各个所述新的样本以及所述新的样本对应的所述标签，确定用于更新联邦学习模型以及各个参与方的本地模型的参数并发送给所述第二参与方，使得所述第二参与方基于用于更新联邦学习模型以及各个参与方的本地模型的参数以及所述第二参数确定所述第二目标参数。
[0109]
步骤d5、根据所述用于更新联邦学习模型以及各个参与方的本地模型的参数以及所述第一参数，确定所述第一目标参数。
[0110]
因此，基于最大均值差异距离分别调整各自的本地模型，实现距离拉近；同时，基于两个分布的样本调整联邦学习模型的参数以及各自的本地模型的参数，将两次调整的本地模型的参数进行叠加或加权计算，确定本地模型的目标参数。本地模型的调整和联邦学习模型的调整同步进行，减少了训练模型的时间，并且加速了收敛过程。
[0111]
方式2、根据每组分布的样本以及对应的所述最大均值差异距离，确定用于更新联邦学习模型以及各个参与方的本地模型的参数，以及确定第一目标参数和第二目标参数，可以通过以下步骤实现：
[0112]
步骤e1、针对每组分布的样本，根据所述最大均值差异距离调整所述第一参与方的本地模型的参数，得到第一目标参数和对应的第一参与方的新本地模型并通过所述第一参与方的新本地模型得到该组中的第一分布样本对应的第一新分布样本，第一参与方的新本地模型用于使得所述最大均值差异距离小于所述预设距离阈值。
[0113]
步骤e2、将所述最大均值差异距离发送至所述第二参与方，以使所述第二参与方根据所述最大均值差异距离调整所述第二参与方的本地模型的参数得到第二目标参数和对应的第二参与方的新本地模型，并通过所述第二参与方的新本地模型得到该组中的第二分布样本对应的第二新分布样本，第二参与方的新本地模型用于使得所述最大均值差异距离小于所述预设距离阈值。
[0114]
步骤e3、接收第二参与方发送的第二新分布样本，将该组对应的第一新分布样本与第二新分布样本融合，得到新的样本。
[0115]
步骤e4、根据各个所述新的样本以及所述新的样本对应的所述标签，确定用于更新联邦学习模型以及各个参与方的本地模型的参数。
[0116]
因此，基于最大均值差异距离，对该组两个分布的样进行距离拉近操作，即基于最大均值差异距离调整各自的本地模型，直至收敛到计算出的最大均值差异距离小于或等于预设距离阈值，然后基于拉近后的两个分布样本，调整联邦学习模型的参数，进而下发给各自的本地模型，减少了训练模型的时间，并且加速了收敛过程。
[0117]
其中，由于在预训练阶段，各个参与方只在自己的数据和特征上进行无监督训练，因此对于对齐的一个样本(第一分布的样本、第二分布的样本)，样本的特征分布在不同的设备上，并在这些设备上各自训练，这种情况下，不同设备得到的特征向量不在同一个特征
空间上。这种情况下，由于特征空间差异较大，如果直接将双方特征进行拼接或者相加，会降低特征的表示能力，将此特征用于训练分类器，也会降低模型的判别能力。因此，为了避免模型收敛时间过长，模型性能过低，需要对第一参与方和第二参与方的特征做一个特征空间上的拉近。
[0118]
具体地，若所述最大均值差异距离大于或等于预设距离阈值，通过优化该组分布的样本对应的所述最大均值差异距离，用以拉近第一分布的样本和第二分布的样本对应的两个分布空间，优化的过程可以是将最大均值差异距离作为损失，调整第一参与方、第二参与方各自的本地模型参数。其中，第一参与方可以基于最大均值差异距离，通过优化ua和ub的mmd距离，拉近ua和ub对应的两个分布空间。其中，最大均值差异距离mmd(maximum mean discrepancy)用于度量在再生希尔伯特空间中两个分布的距离，是一种核学习方法。两个随机变量的距离为：
[0119][0120]
其中k是映射，用于把原变量映射到高维空间中。x，y表示两种分布的样本(x表示第一分布的样本，y表示第二分布的样本)，f表示映射函数集；m、n分别表示所在分布的样本中元素的个数，x表示第一分布的样本中的元素，y表示第二分布的样本中的元素。
[0121]
基于两个分布的样本，通过寻找在样本空间上的映射函数k，求不同分布的样本在k上的函数值的均值，通过把两个均值作差可以得到两个分布对应于k的mean discrepancy(即均值差异距离)。寻找一个k使得这个mean discrepancy有最大值，就得到了mmd。最后取mmd作为检验统计量(test statistic)，从而判断两个分布是否相同。如果这个值足够小(比如mmd小于预设距离阈值)，就认为两个分布相同，否则就认为它们不相同。
[0122]
可选地，根据各个所述新的样本以及所述新的样本对应的所述标签，确定用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，可以通过以下步骤实现：
[0123]
步骤e1、根据各个所述新的样本，通过联邦学习模型，得到预测结果。
[0124]
步骤e2、根据所述预测结果以及所述新的样本对应的所述标签，确定损失函数对中间层输出的梯度。
[0125]
步骤e3、将所述损失函数对中间层输出的梯度作为所述用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数。
[0126]
其中，第一参与方将拉近后的ua和ub加起来或者拼接起来，通过classifier得到最终的预测结果。此外，可以通过多种加密方式处理对ub、进一步增加数据的安全性，如差分隐私方法dp或同态加密方法he。然后基于预测结果以及标签，确定损失函数对中间层输出的梯度，用以调整或训练联邦学习模型的参数以及各自参与方的本地模型的参数，进而得到最终的模型。可选地，在确定用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数之后，所述方法还可以通过以下步骤实现：
[0127]
步骤f1、根据所述用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，通过梯度下降算法对联邦学习模型和所述第一参与方的本地模型进行更
新。
[0128]
步骤f2、将所述用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数发送给所述第二参与方，以使所述第二参与方更新各自的本地模型。
[0129]
其中，第一参与方得到预测结果并求得损失，将损失函数对中间层输出的梯度传输至第二参与方。第一参与方根据梯度下降算法对classifier和extractor a进行更新，第二参与方根据链式法则和梯度下降算法对extractor b进行更新。
[0130]
具体地，结合图1所示，纵向联邦学习微调的过程可以为：各参与方初始化各自模型extractor a和extractor b，第一参与方和第二参与方通过各自的模型extractor a和extractor b得到数据的特征ua和ub；第二参与方将ub传给第一参与方，第一参与方通过优化ua和ub的mmd距离，拉近两个分布空间；第一参与方将拉近后的ua和ub加起来或者拼接起来，通过classifier得到最终的预测结果。第一参与方得到预测结果并求得损失，将损失函数对中间层输出的梯度传输至第二参与方。第一参与方根据梯度下降算法对classifier和extractor a进行更新，第二参与方根据链式法则和梯度下降算法对extractor b进行更新。
[0131]
本发明通过采用自监督学习，使得各个参与方在不需要标签的情况下，能够自主学习到较好的特征提取模型，充分利用了各方的数据，尤其是在双方标签数据较少或目标标签不同的场景下。基于自监督学习到的模型，各个参与方通过纵向联邦进行微调时，只需要进行少量的通信交互次数，就能得到较好的模型，大大降低了纵向联邦场景下的通信成本。在微调的时候，实现对各参与方的特征进行特征空间维度上的拉近，使得不同参与方的样本在相同的分布上，能够加速联邦学习模型的收敛，提升模型性能，同时减少设备间的通信交互次数。
[0132]
因此，本发明可以应用于纵向联邦学习，训练过程可以为：首先各个参与方进行自监督训练，此时不会产生任何的通信，然后各个参与方基于自监督训练模型，通过纵向联邦方法进行微调得到各自的最终预测模型。通过使用自监督学习预训练，可以充分利用大量的无标签数据，同时大大减少数据通信；解决了各方自训练造成的特征维度不一致的问题以及利用差分隐私方法dp或同态加密方法he保证数据和模型安全。
[0133]
图4为本发明实施例提供的一种信息处理装置的结构示意图。所述装置应用于参加联邦学习的多个参与方中的第一参与方，所述第一参与方持有标签。
[0134]
如图4所示，所述信息处理装置可以包括：
[0135]
特征提取模块401，用于对所述第一参与方提供的各个数据在本地进行自监督训练后进行特征提取，得到所述第一参与方提供的各个数据的第一特征向量；
[0136]
接收模块402，用于接收所述多个参与方中的第二参与方发送的各个数据的第二特征向量，所述第二特征向量是由所述第二参与方在本地进行自监督训练得到的；其中，所述第一特征向量与所述第二特征向量为对齐数据，所述多个参与方中的任一个参与方对应一类特征向量；
[0137]
处理模块403，用于根据各个所述第一特征向量和各个所述第二特征向量，确定用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，所述联邦学习模型用于支持所述多个参与方进行信息交互。
[0138]
可选地，所述处理模块403，包括第一处理单元、第二处理单元以及第三处理单元；
所述第一处理单元，用于将各个所述第一特征向量作为第一分布的样本，且将各个所述第二特征向量作为第二分布的样本，并将一个第一分布的样本与对应的一个第二分布的样本作为一组分布的样本；第二处理单元，用于针对每组分布的样本，通过在样本空间上的映射函数集，确定每组分布的样本在映射函数集上的最大均值差异距离；第三处理单元，用于根据每组分布的样本以及对应的所述最大均值差异距离，确定用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数。
[0139]
可选地，所述第二处理单元，包括第一处理子单元、第二处理子单元、第三处理子单元以及第四处理子单元；第一处理子单元，用于针对映射函数集中的每个映射函数，根据每组分布的样本中的所述第一分布的样本和所述第二分布的样本，分别计算所述第一分布的样本在所述映射函数上的函数值的第一均值和所述第二分布的样本在所述映射函数上的函数值的第二均值；第二处理子单元，用于根据所述第一均值和所述第二均值，计算得到在所述映射函数上的均值差异距离；第三处理子单元，用于在所述最大均值差异距离小于或等于预设距离阈值时，根据每组分布的样本，确定用于更新联邦学习模型以及各个参与方的本地模型的参数；第四处理子单元，用于在所述最大均值差异距离大于预设距离阈值时，根据每组分布的样本以及对应的所述最大均值差异距离，确定用于更新联邦学习模型以及各个参与方的本地模型的参数，以及确定第一目标参数和第二目标参数，所述第一目标参数用于更新第一参与方的本地模型，所述第二目标参数用于更新第二参与方的本地模型。可选地，确定模块，还用于在所述最大均值差异距离大于或等于预设距离阈值时，通过优化该组分布的样本对应的所述最大均值差异距离，用以拉近第一分布的样本和第二分布的样本对应的两个分布空间。
[0140]
可选地，第三处理子单元，具体用于：
[0141]
针对每组分布的样本，将该组中的第一分布样本与第二分布样本融合，得到新的样本；
[0142]
根据各个所述新的样本以及所述新的样本对应的所述标签，确定用于更新联邦学习模型以及各个参与方的本地模型的参数。
[0143]
可选地，第四处理子单元，具体用于：
[0144]
针对每组分布的样本，根据所述最大均值差异距离调整所述第一参与方的本地模型的参数，得到第一参数；
[0145]
将所述最大均值差异距离发送至所述第二参与方，以使所述第二参与方根据所述最大均值差异距离调整所述第二参与方的本地模型的参数得到第二参数；
[0146]
针对每组分布的样本，将该组中的第一分布样本与第二分布样本融合，得到新的样本；
[0147]
根据各个所述新的样本以及所述新的样本对应的所述标签，确定用于更新联邦学习模型以及各个参与方的本地模型的参数并发送给所述第二参与方，使得所述第二参与方基于用于更新联邦学习模型以及各个参与方的本地模型的参数以及所述第二参数确定所述第二目标参数；
[0148]
根据所述用于更新联邦学习模型以及各个参与方的本地模型的参数以及所述第一参数，确定所述第一目标参数。
[0149]
可选地，第四处理子单元，还具体用于：
[0150]
针对每组分布的样本，根据所述最大均值差异距离调整所述第一参与方的本地模型的参数，得到第一目标参数和对应的第一参与方的新本地模型并通过所述第一参与方的新本地模型得到该组中的第一分布样本对应的第一新分布样本，第一参与方的新本地模型用于使得所述最大均值差异距离小于所述预设距离阈值；
[0151]
将所述最大均值差异距离发送至所述第二参与方，以使所述第二参与方根据所述最大均值差异距离调整所述第二参与方的本地模型的参数得到第二目标参数和对应的第二参与方的新本地模型并通过所述第二参与方的新本地模型得到该组中的第二分布样本对应的第二新分布样本，第二参与方的新本地模型用于使得所述最大均值差异距离小于所述预设距离阈值；
[0152]
接收第二参与方发送的第二新分布样本，将该组对应的第一新分布样本与第二新分布样本融合，得到新的样本；
[0153]
根据各个所述新的样本以及所述新的样本对应的所述标签，确定用于更新联邦学习模型以及各个参与方的本地模型的参数。
[0154]
可选地，第四处理单元，具体用于：
[0155]
根据各个所述新的样本，通过联邦学习模型，得到预测结果；
[0156]
根据所述预测结果以及所述新的样本对应的所述标签，确定损失函数对中间层输出的梯度；
[0157]
将所述损失函数对中间层输出的梯度作为所述用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数。
[0158]
可选地，所述装置还包括：更新模块；更新模块，用于：
[0159]
根据所述用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，通过梯度下降算法对联邦学习模型和所述第一参与方的本地模型进行更新；
[0160]
将所述用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数发送给所述第二参与方，以使所述第二参与方更新各自的本地模型。
[0161]
可选地，所述装置还包括：自监督训练模块；自监督训练模块，用于：
[0162]
获取多个正样本以及每个正样本对应的多个副样本；
[0163]
根据多个正样本以及每个正样本对应的多个副样本，通过自监督训练，得到特征提取模型；
[0164]
其中，所述特征提取模型用于提取所述第一参与方提供的各个数据的第一特征向量。
[0165]
前述任一实施例提供的信息处理装置，用于执行前述任一方法实施例的技术方案，其实现原理和技术效果类似，在此不再赘述。
[0166]
图5为本发明实施例提供的一种信息处理设备的结构示意图。如图5所示，所述设备可以包括：存储器501、处理器502及存储在所述存储器501上并可在所述处理器502上运行的信息处理程序，所述信息处理程序被所述处理器502执行时实现如前述任一实施例所述的信息处理方法的步骤。
[0167]
可选地，存储器501既可以是独立的，也可以跟处理器502集成在一起。
[0168]
本实施例提供的设备的实现原理和技术效果可以参见前述各实施例，此处不再赘述。
[0169]
本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有信息处理程序，所述信息处理程序被处理器执行时实现如前述任一实施例所述的信息处理方法的步骤。
[0170]
本发明实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一实施例所述的方法。
[0171]
在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。
[0172]
上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本发明各个实施例所述方法的部分步骤。
[0173]
应理解，上述处理器可以是中央处理单元(central processing unit，简称cpu)，还可以是其它通用处理器、数字信号处理器(digital signal processor，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。
[0174]
存储器可能包含高速ram存储器，也可能还包括非易失性存储nvm，例如至少一个磁盘存储器，还可以为u盘、移动硬盘、只读存储器、磁盘或光盘等。
[0175]
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0176]
一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(application specific integrated circuits，简称asic)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
[0177]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0178]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0179]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服
务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。
[0180]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

技术特征：
1.一种信息处理方法，其特征在于，所述方法应用于参加联邦学习的多个参与方中的第一参与方，所述第一参与方持有标签；所述方法包括：对所述第一参与方提供的各个数据在本地进行自监督训练后进行特征提取，得到所述第一参与方提供的各个数据的第一特征向量；接收所述多个参与方中的第二参与方发送的各个数据的第二特征向量，所述第二特征向量是由所述第二参与方在本地进行自监督训练得到的；其中，所述第一特征向量与所述第二特征向量为对齐样本的特征数据，所述多个参与方中的任一个参与方对应一类特征向量；根据各个所述第一特征向量和各个所述第二特征向量，确定用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，所述联邦学习模型用于支持所述多个参与方进行信息交互。2.根据权利要求1所述的方法，其特征在于，根据各个所述第一特征向量和各个所述第二特征向量，确定用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，包括：将各个所述第一特征向量作为第一分布的样本，且将各个所述第二特征向量作为第二分布的样本，并将一个第一分布的样本与对应的一个第二分布的样本作为一组分布的样本；针对每组分布的样本，通过在样本空间上的映射函数集，确定每组分布的样本在映射函数集上的最大均值差异距离；若所述最大均值差异距离小于或等于预设距离阈值，则根据每组分布的样本，确定用于更新联邦学习模型以及各个参与方的本地模型的参数；若所述最大均值差异距离大于预设距离阈值，则根据每组分布的样本以及对应的所述最大均值差异距离，确定用于更新联邦学习模型以及各个参与方的本地模型的参数，以及确定第一目标参数和第二目标参数，所述第一目标参数用于更新第一参与方的本地模型，所述第二目标参数用于更新第二参与方的本地模型。3.根据权利要求2所述的方法，其特征在于，通过在样本空间上的映射函数集，确定每组分布的样本在映射函数集上的最大均值差异距离，包括：针对映射函数集中的每个映射函数，根据每组分布的样本中的所述第一分布的样本和所述第二分布的样本，分别计算所述第一分布的样本在所述映射函数上的函数值的第一均值和所述第二分布的样本在所述映射函数上的函数值的第二均值；根据所述第一均值和所述第二均值，计算得到在所述映射函数上的均值差异距离；从各个所述映射函数对应的均值差异距离中获取最大均值差异距离。4.根据权利要求2所述的方法，其特征在于，根据每组分布的样本，确定用于更新联邦学习模型以及各个参与方的本地模型的参数，包括：针对每组分布的样本，将该组中的第一分布样本与第二分布样本融合，得到新的样本；根据各个所述新的样本以及所述新的样本对应的所述标签，确定用于更新联邦学习模型以及各个参与方的本地模型的参数。5.根据权利要求2所述的方法，其特征在于，所述根据每组分布的样本以及对应的所述最大均值差异距离，确定用于更新联邦学习模型以及各个参与方的本地模型的参数，以及
确定第一目标参数和第二目标参数，包括：针对每组分布的样本，根据所述最大均值差异距离调整所述第一参与方的本地模型的参数，得到第一参数；将所述最大均值差异距离发送至所述第二参与方，以使所述第二参与方根据所述最大均值差异距离调整所述第二参与方的本地模型的参数得到第二参数；针对每组分布的样本，将该组中的第一分布样本与第二分布样本融合，得到新的样本；根据各个所述新的样本以及所述新的样本对应的所述标签，确定用于更新联邦学习模型以及各个参与方的本地模型的参数并发送给所述第二参与方，使得所述第二参与方基于用于更新联邦学习模型以及各个参与方的本地模型的参数以及所述第二参数确定所述第二目标参数；根据所述用于更新联邦学习模型以及各个参与方的本地模型的参数以及所述第一参数，确定所述第一目标参数。6.根据权利要求2所述的方法，其特征在于，所述根据每组分布的样本以及对应的所述最大均值差异距离，确定用于更新联邦学习模型以及各个参与方的本地模型的参数，以及确定第一目标参数和第二目标参数，包括：针对每组分布的样本，根据所述最大均值差异距离调整所述第一参与方的本地模型的参数，得到第一目标参数和对应的第一参与方的新本地模型并通过所述第一参与方的新本地模型得到该组中的第一分布样本对应的第一新分布样本，第一参与方的新本地模型用于使得所述最大均值差异距离小于所述预设距离阈值；将所述最大均值差异距离发送至所述第二参与方，以使所述第二参与方根据所述最大均值差异距离调整所述第二参与方的本地模型的参数得到第二目标参数和对应的第二参与方的新本地模型并通过所述第二参与方的新本地模型得到该组中的第二分布样本对应的第二新分布样本，第二参与方的新本地模型用于使得所述最大均值差异距离小于所述预设距离阈值；接收第二参与方发送的第二新分布样本，将该组对应的第一新分布样本与第二新分布样本融合，得到新的样本；根据各个所述新的样本以及所述新的样本对应的所述标签，确定用于更新联邦学习模型以及各个参与方的本地模型的参数。7.根据权利要求4-6任一项所述的方法，其特征在于，根据各个所述新的样本以及所述新的样本对应的所述标签，确定用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，包括：根据各个所述新的样本，通过联邦学习模型，得到预测结果；根据所述预测结果以及所述新的样本对应的所述标签，确定损失函数对中间层输出的梯度；将所述损失函数对中间层输出的梯度作为所述用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数。8.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：根据所述用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，通过梯度下降算法对联邦学习模型和所述第一参与方的本地模型进行更新；
将所述用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数发送给所述第二参与方，以使所述第二参与方更新自身的本地模型。9.根据权利要求1-6任一项所述的方法，其特征在于，所述方法还包括：获取多个正样本以及每个正样本对应的多个副样本；根据多个正样本以及每个正样本对应的多个副样本，通过自监督训练，得到特征提取模型；其中，所述特征提取模型用于提取所述第一参与方提供的各个数据的第一特征向量。10.一种信息处理装置，其特征在于，所述装置应用于参加联邦学习的多个参与方中的第一参与方，所述第一参与方持有标签；所述装置包括：特征提取模块，用于对所述第一参与方提供的各个数据在本地进行自监督训练后进行特征提取，得到所述第一参与方提供的各个数据的第一特征向量；接收模块，用于接收所述多个参与方中的第二参与方发送的各个数据的第二特征向量，所述第二特征向量是由所述第二参与方在本地进行自监督训练得到的；其中，所述第一特征向量与所述第二特征向量为对齐样本的特征数据，所述多个参与方中的任一个参与方对应一类特征向量；处理模块，用于根据各个所述第一特征向量和各个所述第二特征向量，确定用于更新联邦学习模型以及所述多个参与方中各个参与方的本地模型的参数，所述联邦学习模型用于支持所述多个参与方进行信息交互。11.一种信息处理设备，其特征在于，所述信息处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息处理程序，所述信息处理程序被所述处理器执行时实现如权利要求1-9中任一项所述的信息处理方法的步骤。12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信息处理程序，所述信息处理程序被处理器执行时实现如权利要求1-9中任一项所述的信息处理方法的步骤。13.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法。

技术总结
本发明公开了一种信息处理方法、装置、设备、存储介质及程序产品，其中方法应用于参加联邦学习的多个参与方中的第一参与方，该第一参与方持有标签；该方法包括：对第一参与方提供的各个数据在本地进行特征提取，得到第一参与方提供的各个数据的第一特征向量；接收多个参与方中的第二参与方发送的各个数据的第二特征向量，第二特征向量是由第二参与方在本地进行自监督训练得到的；其中，所述第一特征向量与所述第二特征向量为对齐样本的特征数据，一个参与方对应一类特征向量；根据各个第一特征向量和各个第二特征向量，确定用于更新联邦学习模型以及多个参与方中各个参与方的本地模型的参数。本发明可以有效地实现模型更新，且提高了通信效率。且提高了通信效率。且提高了通信效率。

技术研发人员：骆家焕
受保护的技术使用者：深圳前海微众银行股份有限公司
技术研发日：2021.12.10
技术公布日：2022/3/8

专利

最新回复(0)