图像识别模型训练方法及装置与流程

1.本发明涉及图像处理技术领域，尤其涉及一种图像识别模型训练方法及装置。

背景技术：

2.随着图像识别技术的发展，深度学习技术逐渐被引入这一领域，以提高图像识别的精度，让例如图像中的字符识别的效率提高，但提高效率和精度的代价往往是需要付出高算力。因此，准确度越高的图像识别模型往往需要更高的成本，例如耗费更高的计算资源和占据更高的内存，导致其难以部署到移动端设备中，实现本地的实时识别。
3.现有技术的模型训练方案，为解决高精度大体积的模型的成本过高的问题，常常不得不在精度和成本之间做出抉择，因此难以有效兼顾精度和成本，存在缺陷，亟需得到解决。

技术实现要素：

4.本发明所要解决的技术问题在于，提供一种图像识别模型训练确定方法及装置，能够利用训练好的网络参数来提高模型训练的速度，降低训练的成本，且训练得到的第二图像识别模型可以保持较小的规模的同时达到更好的识别效果。
5.为了解决上述技术问题，本发明第一方面公开了一种图像识别模型训练方法，所述方法包括：
6.确定训练好的第一图像识别模型；所述第一图像识别模型包括有训练好的第一特征编码网络；
7.确定待训练的第二图像识别模型；所述第二图像识别模型的模型参数少于所述第一图像识别模型的模型参数；
8.将所述第二图像识别模型中的第二特征编码网络的网络参数，确定为所述第一特征编码网络的网络参数；
9.确定损失函数为所述第一特征编码网络的特征输出和所述第二特征编码网络的特征输出之间的差异，对所述第一图像识别模型和所述第二图像识别模型进行联合训练，得到训练好的所述第二图像识别模型。
10.作为一种可选的实施方式，在本发明第一方面中，所述对所述第一图像识别模型和所述第二图像识别模型进行联合训练，得到训练好的所述第二图像识别模型，包括：
11.将训练数据集同时输入至所述第一图像识别模型和所述第二图像识别模型进行训练；
12.在所述训练中将所述第一图像识别模型的所有模型参数和所述第二图像识别模型的所述第二特征编码网络的参数进行固定以保持不变；
13.在所述训练中，优化所述第二图像识别模型中除所述第二特征编码网络的参数以外的其他模型参数，直至所述损失函数收敛，得到训练好的所述第二图像识别模型。
14.作为一种可选的实施方式，在本发明第一方面中，所述第二特征编码网络的网络
层数与所述第一特征编码网络的网络层数相同；和/或，所述第一特征编码网络为bilstm网络；和/或，所述第二特征编码网络为bilstm网络。
15.作为一种可选的实施方式，在本发明第一方面中，所述第二图像识别模型的模型参数少于所述第一图像识别模型的模型参数，多于所述第一图像识别模型的模型参数的1/10；
16.和/或，
17.所述第一图像识别模型还包括第一特征提取网络；所述第二图像识别模型还包括第二特征提取网络；所述第二特征提取网络的网络参数少于所述第一特征提取网络的网络参数，多于所述第一特征提取网络的网络参数的1/10。
18.作为一种可选的实施方式，在本发明第一方面中，所述确定损失函数为所述第一特征编码网络的特征输出和所述第二特征编码网络的特征输出之间的差异，包括：
19.将所述第一特征编码网络的特征输出和所述第二特征编码网络的特征输出之间的向量距离确定为损失函数；
20.和/或，
21.确定所述第一特征编码网络的特征输出和所述第二特征编码网络的特征输出之间的向量距离；
22.确定所述第二图像识别模型对应的识别损失；所述识别损失用于衡量所述第二图像识别模型的输出识别结果和训练数据的标注之间的差异；
23.根据所述向量距离和所述识别损失，确定出损失函数。
24.作为一种可选的实施方式，在本发明第一方面中，所述根据所述向量距离和所述识别损失，确定出损失函数，包括：
25.确定所述识别损失和预设权重之间的乘积；
26.将所述向量距离和所述乘积的和，确定为损失函数。
27.作为一种可选的实施方式，在本发明第一方面中，所述向量距离包括l1距离、l2距离、余弦距离和kl散度中的至少一种；和/或，所述识别损失为ctc损失；和/或，所述预设权重为0.1。
28.本发明第二方面公开了一种图像识别模型训练装置，所述装置包括：
29.第一确定模块，用于确定训练好的第一图像识别模型；所述第一图像识别模型包括有训练好的第一特征编码网络；
30.第二确定模块，用于确定待训练的第二图像识别模型；所述第二图像识别模型的模型参数少于所述第一图像识别模型的模型参数；
31.参数共享模块，用于将所述第二图像识别模型中的第二特征编码网络的网络参数，确定为所述第一特征编码网络的网络参数；
32.损失确定模块，用于确定损失函数为所述第一特征编码网络的特征输出和所述第二特征编码网络的特征输出之间的差异；
33.模型训练模块，用于对所述第一图像识别模型和所述第二图像识别模型进行联合训练，得到训练好的所述第二图像识别模型。
34.作为一种可选的实施方式，在本发明第二方面中，所述模型训练模块包括：
35.训练单元，用于将训练数据集同时输入至所述第一图像识别模型和所述第二图像
识别模型进行训练；
36.参数固定单元，用于在所述训练中将所述第一图像识别模型的所有模型参数和所述第二图像识别模型的所述第二特征编码网络的参数进行固定以保持不变；
37.参数优化单元，用于在所述训练中，优化所述第二图像识别模型中除所述第二特征编码网络的参数以外的其他模型参数，直至所述损失函数收敛，得到训练好的所述第二图像识别模型。
38.作为一种可选的实施方式，在本发明第二方面中，所述第二特征编码网络的网络层数与所述第一特征编码网络的网络层数相同；和/或，所述第一特征编码网络为bilstm网络；和/或，所述第二特征编码网络为bilstm网络。
39.作为一种可选的实施方式，在本发明第二方面中，所述第二图像识别模型的模型参数少于所述第一图像识别模型的模型参数，多于所述第一图像识别模型的模型参数的1/10；
40.和/或，
41.所述第一图像识别模型还包括第一特征提取网络；所述第二图像识别模型还包括第二特征提取网络；所述第二特征提取网络的网络参数少于所述第一特征提取网络的网络参数，多于所述第一特征提取网络的网络参数的1/10。
42.作为一种可选的实施方式，在本发明第二方面中，所述损失确定模块确定损失函数为所述第一特征编码网络的特征输出和所述第二特征编码网络的特征输出之间的差异的具体方式，包括：
43.将所述第一特征编码网络的特征输出和所述第二特征编码网络的特征输出之间的向量距离确定为损失函数；
44.和/或，
45.确定所述第一特征编码网络的特征输出和所述第二特征编码网络的特征输出之间的向量距离；
46.确定所述第二图像识别模型对应的识别损失；所述识别损失用于衡量所述第二图像识别模型的输出识别结果和训练数据的标注之间的差异；
47.根据所述向量距离和所述识别损失，确定出损失函数。
48.作为一种可选的实施方式，在本发明第二方面中，所述损失确定模块根据所述向量距离和所述识别损失，确定出损失函数的具体方式，包括：
49.确定所述识别损失和预设权重之间的乘积；
50.将所述向量距离和所述乘积的和，确定为损失函数。
51.作为一种可选的实施方式，在本发明第二方面中，所述向量距离包括l1距离、l2距离、余弦距离和kl散度中的至少一种；和/或，所述识别损失为ctc损失；和/或，所述预设权重为0.1。
52.本发明第三方面公开了另一种图像识别模型训练装置，所述装置包括：
53.存储有可执行程序代码的存储器；
54.与所述存储器耦合的处理器；
55.所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的图像识别模型训练方法中的部分或全部步骤。
56.本发明实施例第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明实施例第一方面公开的图像识别模型训练方法中的部分或全部步骤。
57.与现有技术相比，本发明实施例具有以下有益效果：
58.本发明实施例中，确定训练好的第一图像识别模型；所述第一图像识别模型包括有训练好的第一特征编码网络；确定待训练的第二图像识别模型；所述第二图像识别模型的模型参数少于所述第一图像识别模型的模型参数；将所述第二图像识别模型中的第二特征编码网络的网络参数，确定为所述第一特征编码网络的网络参数；确定损失函数为所述第一特征编码网络的特征输出和所述第二特征编码网络的特征输出之间的差异，对所述第一图像识别模型和所述第二图像识别模型进行联合训练，得到训练好的所述第二图像识别模型。可见，本发明能够让规模更小的第二图像识别模型共享训练好的第一图像识别模型中的特征编码网络参数，并对两个图像模型进行联合训练以使得第二图像识别模型的识别效果逼近第一图像识别模型，从而能够利用训练好的网络参数来提高模型训练的速度，降低训练的成本，且训练得到的第二图像识别模型可以保持较小的规模的同时达到更好的识别效果。
附图说明
59.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
60.图1是本发明实施例公开的一种图像识别模型训练方法的流程示意图；
61.图2是本发明实施例公开的另一种图像识别模型训练方法的流程示意图；
62.图3是本发明实施例公开的一种图像识别模型训练装置的结构示意图；
63.图4是本发明实施例公开的另一种图像识别模型训练装置的结构示意图；
64.图5是本发明实施例公开的又一种图像识别模型训练装置的结构示意图。
具体实施方式
65.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
66.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
67.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同
的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
68.本发明公开了一种图像识别模型训练方法及装置，能够让规模更小的第二图像识别模型共享训练好的第一图像识别模型中的特征编码网络参数，并对两个图像模型进行联合训练以使得第二图像识别模型的识别效果逼近第一图像识别模型，从而能够利用训练好的网络参数来提高模型训练的速度，降低训练的成本，且训练得到的第二图像识别模型可以保持较小的规模的同时达到更好的识别效果。以下分别进行详细说明。
69.实施例一
70.请参阅图1，图1是本发明实施例公开的一种图像识别模型训练方法的流程示意图。其中，图1所描述的方法应用于图像识别装置中，该识别装置可以是相应的识别终端、识别设备或识别服务器，且该服务器可以是本地服务器，也可以是云服务器，本发明实施例不做限定。如图1所示，该图像识别模型训练方法可以包括以下操作：
71.101、确定训练好的第一图像识别模型。
72.可选的，第一图像识别模型包括有训练好的第一特征编码网络。可选的，第一图像识别模型可以为已经利用训练数据集充分训练好的大规模的图像识别模型，其可以用于图像中的文字或字符的识别，或是图像中的其他特征的识别，且其规模较大，难以部署在例如移动设备等的算力较低或计算资源较少的小规模设备上，因此需要结合本发明中的方法进行模型的迁移。可选的，第一图像识别模型在训练中可以采用ctc(connectionist temporal classification,基于连接主义时间分类)损失作为损失函数进行训练，ctc损失能够避开输入与输出手动对齐而计算输入和输出之间的差异，应用于图像识别，特别是图像中的字符识别领域，能够达到有益的效果。
73.102、确定待训练的第二图像识别模型。
74.可选的，第二图像识别模型的模型参数少于第一图像识别模型的模型参数，也即第二图像识别模型是属于规模更小的模型，以用于共享第一图像识别模型的参数并被训练成为规模小但识别效果相同或接近的模型。优选的，第二图像识别模型的模型参数少于第一图像识别模型的模型参数，但多于第一图像识别模型的模型参数的1/10，其中，1/10为经验值，以保证第二图像识别模型的模型参数不至于过小，而导致训练失败。
75.103、将第二图像识别模型中的第二特征编码网络的网络参数，确定为第一特征编码网络的网络参数。
76.可选的，可以将训练好的第一特征编码网络的网络参数，直接复制到第二图像识别模型中的第二特征编码网络中，以实现两个模型之间的参数共享。可选的，第二特征编码网络的网络层数与第一特征编码网络的网络层数相同，也即两个特征编码网络输出的向量维度数相同，以便于网络参数的复制以及后续的两个特征编码网络的输出之间的差异衡量。
77.可选的，第一特征编码网络和第二特征编码网络均为含有多个隐藏层lstm网络或bilstm网络，以用于解码图像特征，且第一特征编码网络和第二特征编码网络的隐藏层数目相同，实现上述所说的，两个特征编码网络输出的向量维度数相同，以便于网络参数的复制以及后续的两个特征编码网络的输出之间的差异衡量。
78.104、确定损失函数为第一特征编码网络的特征输出和第二特征编码网络的特征
输出之间的差异，根据损失函数，对第一图像识别模型和第二图像识别模型进行联合训练，得到训练好的第二图像识别模型。
79.可选的，可以将标注有特征识别标注的训练数据集同时输入至第一图像识别模型和第二图像识别模型进行联合训练，直至该损失函数收敛，也即第二图像识别模型的特征提取输出接近第一图像识别模型的特征提取精度，以得到训练好的第二图像识别模型，且在实际实验中证明，如此训练得到的第二图像识别模型，不仅可以保持较小的规模，也即更少的模型参数，同时能够得到接近甚至超过第一图像识别模型的识别精度。
80.可见，实施本发明实施例所描述的方法能够让规模更小的第二图像识别模型共享训练好的第一图像识别模型中的特征编码网络参数，并对两个图像模型进行联合训练以使得第二图像识别模型的识别效果逼近第一图像识别模型，从而能够利用训练好的网络参数来提高模型训练的速度，降低训练的成本，且训练得到的第二图像识别模型可以保持较小的规模的同时达到更好的识别效果。
81.作为一种可选的实施方式，第一图像识别模型还包括第一特征提取网络，第二图像识别模型还包括第二特征提取网络，且相应的，第二特征提取网络的网络参数少于第一特征提取网络的网络参数，多于第一特征提取网络的网络参数的1/10。
82.可选的，第一特征提取网络和第二特征提取网络可以均为resnet网络，并具有不同的网络深度，具体的，第二特征提取网络的网络深度少于第一特征提取网络的网络深度，多于第一特征提取网络的网络深度的1/10。例如，第一特征提取网络可以为网络深度为101的resnet-101网络，而第二特征提取网络可以为网络深度为18的resnet-18网络，以保证第二图像识别模型的模型参数不至于过小，而导致训练失败。
83.可选的，第一图像识别模型可以包括有依次连接的第一特征提取网络、第一特征编码网络和第一分类层，第二图像识别模型可以包括有依次连接的第二特征提取网络、第二特征编码网络和第二分类层，其中，第一分类层和第二分类层均可以为softmax分类层，以用于输出图像识别结果。
84.可见，通过该可选的实施方式，可以具体限定两个模型的特征提取网络之间的网络参数的关系，首先一方面可以利用特征提取网络提高模型的图像识别表现，另一方面能够保证第二图像识别模型的模型参数不至于过小，提高后续的训练效果。
85.作为一种可选的实施方式，在上述步骤104中的，确定损失函数为第一特征编码网络的特征输出和第二特征编码网络的特征输出之间的差异，包括：
86.将第一特征编码网络的特征输出和第二特征编码网络的特征输出之间的向量距离确定为损失函数。
87.可选的，向量距离可以包括l1距离、l2距离、余弦距离和kl散度中的至少一种，其可以为其中的任何一种向量距离，也可以为任意多种距离的加权求和结果，例如综合考虑l1距离和l2距离，将l1距离和l2距离的加权求和结果作为向量距离。
88.可见，通过实施该可选的实施方式，可以将第一特征编码网络的特征输出和第二特征编码网络的特征输出之间的向量距离确定为损失函数，从而使得在训练中两个模型的特征提取差异能够被更精确地衡量，且在选用l1距离和/或l2距离作为向量距离时，相对于现有技术在进行图像分类任务的模型训练中常见的利用kl散度逼近两个模型的输出的做法，这一向量距离的选择更适合图像识别任务的模型训练任务，能够达到更优秀的训练效
果。
89.作为一种可选的实施方式，在上述步骤104中的，确定损失函数为第一特征编码网络的特征输出和第二特征编码网络的特征输出之间的差异，包括：
90.确定第一特征编码网络的特征输出和第二特征编码网络的特征输出之间的向量距离；
91.确定第二图像识别模型对应的识别损失；
92.根据向量距离和识别损失，确定出损失函数。
93.其中，识别损失用于衡量第二图像识别模型的输出识别结果和训练数据的标注之间的差异。可选的，识别损失可以为ctc损失函数，ctc损失能够避开输入与输出手动对齐而计算输入和输出之间的差异，应用于图像识别，特别是图像中的字符识别领域，能够达到有益的效果。相应的，在第二图像识别模型可以包括有依次连接的第二特征提取网络、第二特征编码网络和第二分类层的可选实施方式中，识别损失可以为用于衡量第二分类层的识别结果输出和训练数据的标注之间的差异的ctc损失函数。
94.可见，通过实施该可选的实施方式，可以综合考虑第一特征编码网络的特征输出和第二特征编码网络的特征输出之间的向量距离和第二图像识别模型对应的识别损失来确定出损失函数，从而使得损失函数能够同时衡量在训练中两个模型的特征提取差异以及第二图像识别模型的识别精度，有利于提高模型训练收敛的速度，进而能够使得训练出的第二图像识别模型能够达到更优秀的识别效果。
95.作为一种可选的实施方式，在上述步骤中的，根据向量距离和识别损失，确定出损失函数，包括：
96.确定识别损失和预设权重之间的乘积；
97.将向量距离和乘积的和，确定为损失函数。
98.可选的，预设权重一般设置小于1。可选的，预设权重为0.1，这是由多次试验得到的经验值，以使得损失函数中识别损失占到合适的比例，既不会因为识别损失的比例过高而使得整个训练的成本过高和效率过低，也不会因为识别损失的比例过低而使得训练出的第二图像识别模型无法达到应有的识别效果。
99.可见，实施该可选的实施方式能够将识别损失和预设权重之间的乘积和向量距离的和确定为损失函数，从而使得损失函数能够更合理地同时衡量在训练中两个模型的特征提取差异以及第二图像识别模型的识别精度，有利于提高模型训练收敛的速度，进而能够使得训练出的第二图像识别模型能够达到更优秀的识别效果。
100.实施例二
101.请参阅图2，图2是本发明实施例公开的另一种图像识别模型训练方法的流程示意图。其中，图2所描述的方法应用于图像识别装置中，该识别装置可以是相应的识别终端、识别设备或识别服务器，且该服务器可以是本地服务器，也可以是云服务器，本发明实施例不做限定。如图2所示，该图像识别模型训练方法可以包括以下操作：
102.201、确定训练好的第一图像识别模型。
103.202、确定待训练的第二图像识别模型。
104.203、将第二图像识别模型中的第二特征编码网络的网络参数，确定为第一特征编码网络的网络参数。
105.204、确定损失函数为第一特征编码网络的特征输出和第二特征编码网络的特征输出之间的差异。
106.上述步骤201-204的具体的技术细节和技术名词解释，可以参照实施一中对步骤101-103的表述，在此不再赘述。
107.205、将训练数据集同时输入至第一图像识别模型和第二图像识别模型进行训练。
108.206、在训练中将第一图像识别模型的所有模型参数和第二图像识别模型的第二特征编码网络的参数进行固定以保持不变。
109.207、在训练中，优化第二图像识别模型中除第二特征编码网络的参数以外的其他模型参数，直至损失函数收敛，得到训练好的第二图像识别模型。
110.可选的，参照实施例一的阐述，第一图像识别模型可以包括第一特征提取网络和第一特征编码网络，而第二图像识别模型包括第二特征提取网络和第二特征编码网络，则在上述训练中，应将第一图像识别模型中的第一特征提取网络和第一特征编码网络的参数和第二图像识别模型中的第二特征编码网络的参数进行固定不变，只优化第二图像识别模型中的第二特征提取网络的参数，直至损失函数收敛，得到训练好的第二特征提取网络，并将训练好的第二特征提取网络和复制了参数的第二特征编码网络确定为训练好的第二图像识别模型。
111.可见，实施本发明实施例所描述的方法能够在训练中将第一图像识别模型的所有模型参数和第二图像识别模型的第二特征编码网络的参数进行固定以保持不变，并优化第二图像识别模型中除第二特征编码网络的参数以外的其他模型参数，直至损失函数收敛，得到训练好的第二图像识别模型，从而一方面降低训练的成本，提高训练的效率，另一方面可以保证第二图像识别模型的输出有效逼近第一图像识别模型的识别效果，达到良好的训练效果。
112.实施例三
113.请参阅图3，图3是本发明实施例公开的一种图像识别模型训练装置的结构示意图。其中，图3所描述的装置可以应用于相应的图像识别装置中，该识别装置可以是相应的识别终端、识别设备或识别服务器，且该服务器可以是本地服务器，也可以是云服务器，本发明实施例不做限定。如图3所示，该装置可以包括：
114.第一确定模块301，用于确定训练好的第一图像识别模型。
115.可选的，第一图像识别模型包括有训练好的第一特征编码网络。可选的，第一图像识别模型可以为已经利用训练数据集充分训练好的大规模的图像识别模型，其可以用于图像中的文字或字符的识别，或是图像中的其他特征的识别，且其规模较大，难以部署在例如移动设备等的算力较低或计算资源较少的小规模设备上，因此需要结合本发明中的方法进行模型的迁移。可选的，第一图像识别模型在训练中可以采用ctc(connectionist temporal classification,基于连接主义时间分类)损失作为损失函数进行训练，ctc损失能够避开输入与输出手动对齐而计算输入和输出之间的差异，应用于图像识别，特别是图像中的字符识别领域，能够达到有益的效果。
116.第二确定模块302，用于确定待训练的第二图像识别模型。
117.可选的，第二图像识别模型的模型参数少于第一图像识别模型的模型参数，也即第二图像识别模型是属于规模更小的模型，以用于共享第一图像识别模型的参数并被训练
成为规模小但识别效果相同或接近的模型。优选的，第二图像识别模型的模型参数少于第一图像识别模型的模型参数，但多于第一图像识别模型的模型参数的1/10，其中，1/10为经验值，以保证第二图像识别模型的模型参数不至于过小，而导致训练失败。
118.参数共享模块303，用于将第二图像识别模型中的第二特征编码网络的网络参数，确定为第一特征编码网络的网络参数。
119.可选的，可以将训练好的第一特征编码网络的网络参数，直接复制到第二图像识别模型中的第二特征编码网络中，以实现两个模型之间的参数共享。可选的，第二特征编码网络的网络层数与第一特征编码网络的网络层数相同，也即两个特征编码网络输出的向量维度数相同，以便于网络参数的复制以及后续的两个特征编码网络的输出之间的差异衡量。
120.可选的，第一特征编码网络和第二特征编码网络均为含有多个隐藏层lstm网络或bilstm网络，以用于解码图像特征，且第一特征编码网络和第二特征编码网络的隐藏层数目相同，实现上述所说的，两个特征编码网络输出的向量维度数相同，以便于网络参数的复制以及后续的两个特征编码网络的输出之间的差异衡量。
121.损失确定模块304，用于确定损失函数为第一特征编码网络的特征输出和第二特征编码网络的特征输出之间的差异。
122.模型训练模块305，用于对第一图像识别模型和第二图像识别模型进行联合训练，得到训练好的第二图像识别模型。
123.可见，实施本发明实施例所描述的装置能够让规模更小的第二图像识别模型共享训练好的第一图像识别模型中的特征编码网络参数，并对两个图像模型进行联合训练以使得第二图像识别模型的识别效果逼近第一图像识别模型，从而能够利用训练好的网络参数来提高模型训练的速度，降低训练的成本，且训练得到的第二图像识别模型可以保持较小的规模的同时达到更好的识别效果。
124.作为一种可选的实施方式，第一图像识别模型还包括第一特征提取网络，第二图像识别模型还包括第二特征提取网络，且相应的，第二特征提取网络的网络参数少于第一特征提取网络的网络参数，多于第一特征提取网络的网络参数的1/10。
125.可选的，第一特征提取网络和第二特征提取网络可以均为resnet网络，并具有不同的网络深度，具体的，第二特征提取网络的网络深度少于第一特征提取网络的网络深度，多于第一特征提取网络的网络深度的1/10。例如，第一特征提取网络可以为网络深度为101的resnet-101网络，而第二特征提取网络可以为网络深度为18的resnet-18网络，以保证第二图像识别模型的模型参数不至于过小，而导致训练失败。
126.可选的，第一图像识别模型可以包括有依次连接的第一特征提取网络、第一特征编码网络和第一分类层，第二图像识别模型可以包括有依次连接的第二特征提取网络、第二特征编码网络和第二分类层，其中，第一分类层和第二分类层均可以为softmax分类层，以用于输出图像识别结果。
127.可见，通过该可选的实施方式，可以具体限定两个模型的特征提取网络之间的网络参数的关系，首先一方面可以利用特征提取网络提高模型的图像识别表现，另一方面能够保证第二图像识别模型的模型参数不至于过小，提高后续的训练效果。
128.作为一种可选的实施方式，如图4所示，模型训练模块305包括：
129.训练单元3051，用于将训练数据集同时输入至第一图像识别模型和第二图像识别模型进行训练；
130.参数固定单元3052，用于在训练中将第一图像识别模型的所有模型参数和第二图像识别模型的第二特征编码网络的参数进行固定以保持不变；
131.参数优化单元3053，用于在训练中，优化第二图像识别模型中除第二特征编码网络的参数以外的其他模型参数，直至损失函数收敛，得到训练好的第二图像识别模型。
132.可选的，第一图像识别模型可以包括第一特征提取网络和第一特征编码网络，而第二图像识别模型包括第二特征提取网络和第二特征编码网络，则参数固定单元3052在上述训练中，应将第一图像识别模型中的第一特征提取网络和第一特征编码网络的参数和第二图像识别模型中的第二特征编码网络的参数进行固定不变，参数优化单元3053只优化第二图像识别模型中的第二特征提取网络的参数，直至损失函数收敛，得到训练好的第二特征提取网络，并将训练好的第二特征提取网络和复制了参数的第二特征编码网络确定为训练好的第二图像识别模型。
133.可见，实施本发明实施例所描述的方法能够在训练中将第一图像识别模型的所有模型参数和第二图像识别模型的第二特征编码网络的参数进行固定以保持不变，并优化第二图像识别模型中除第二特征编码网络的参数以外的其他模型参数，直至损失函数收敛，得到训练好的第二图像识别模型，从而一方面降低训练的成本，提高训练的效率，另一方面可以保证第二图像识别模型的输出有效逼近第一图像识别模型的识别效果，达到良好的训练效果。
134.作为一种可选的实施方式，损失确定模块304确定损失函数为第一特征编码网络的特征输出和第二特征编码网络的特征输出之间的差异的具体方式，包括：
135.将第一特征编码网络的特征输出和第二特征编码网络的特征输出之间的向量距离确定为损失函数。
136.可选的，向量距离可以包括l1距离、l2距离、余弦距离和kl散度中的至少一种，其可以为其中的任何一种向量距离，也可以为任意多种距离的加权求和结果，例如综合考虑l1距离和l2距离，将l1距离和l2距离的加权求和结果作为向量距离。
137.可见，通过实施该可选的实施方式，可以将第一特征编码网络的特征输出和第二特征编码网络的特征输出之间的向量距离确定为损失函数，从而使得在训练中两个模型的特征提取差异能够被更精确地衡量，且在选用l1距离和/或l2距离作为向量距离时，相对于现有技术在进行图像分类任务的模型训练中常见的利用kl散度逼近两个模型的输出的做法，这一向量距离的选择更适合图像识别任务的模型训练任务，能够达到更优秀的训练效果。
138.作为一种可选的实施方式，损失确定模块304确定损失函数为第一特征编码网络的特征输出和第二特征编码网络的特征输出之间的差异的具体方式，包括：
139.确定第一特征编码网络的特征输出和第二特征编码网络的特征输出之间的向量距离；
140.确定第二图像识别模型对应的识别损失；
141.根据向量距离和识别损失，确定出损失函数。
142.其中，识别损失用于衡量第二图像识别模型的输出识别结果和训练数据的标注之
间的差异。可选的，识别损失可以为ctc损失函数，ctc损失能够避开输入与输出手动对齐而计算输入和输出之间的差异，应用于图像识别，特别是图像中的字符识别领域，能够达到有益的效果。相应的，在第二图像识别模型可以包括有依次连接的第二特征提取网络、第二特征编码网络和第二分类层的可选实施方式中，识别损失可以为用于衡量第二分类层的识别结果输出和训练数据的标注之间的差异的ctc损失函数。
143.可见，通过实施该可选的实施方式，可以综合考虑第一特征编码网络的特征输出和第二特征编码网络的特征输出之间的向量距离和第二图像识别模型对应的识别损失来确定出损失函数，从而使得损失函数能够同时衡量在训练中两个模型的特征提取差异以及第二图像识别模型的识别精度，有利于提高模型训练收敛的速度，进而能够使得训练出的第二图像识别模型能够达到更优秀的识别效果。
144.作为一种可选的实施方式，损失确定模块304根据向量距离和识别损失，确定出损失函数的具体方式，包括：
145.确定识别损失和预设权重之间的乘积；
146.将向量距离和乘积的和，确定为损失函数。
147.可选的，预设权重一般设置小于1。可选的，预设权重为0.1，这是由多次试验得到的经验值，以使得损失函数中识别损失占到合适的比例，既不会因为识别损失的比例过高而使得整个训练的成本过高和效率过低，也不会因为识别损失的比例过低而使得训练出的第二图像识别模型无法达到应有的识别效果。
148.可见，实施该可选的实施方式能够将识别损失和预设权重之间的乘积和向量距离的和确定为损失函数，从而使得损失函数能够更合理地同时衡量在训练中两个模型的特征提取差异以及第二图像识别模型的识别精度，有利于提高模型训练收敛的速度，进而能够使得训练出的第二图像识别模型能够达到更优秀的识别效果。
149.实施例四
150.请参阅图5，图5是本发明实施例公开的又一种图像识别模型训练装置的结构示意图。如图5所示，该装置可以包括：
151.存储有可执行程序代码的存储器401；
152.与存储器401耦合的处理器402；
153.处理器402调用存储器401中存储的可执行程序代码，执行本发明实施例一或实施例二公开的图像识别模型训练方法中的部分或全部步骤。
154.实施例五
155.本发明实施例公开了一种计算机存储介质，该计算机存储介质存储有计算机指令，该计算机指令被调用时，用于执行本发明实施例一或实施例二公开的图像识别模型训练方法中的部分或全部步骤。
156.上述对本说明书特定实施例进行了描述，其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
157.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部
分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
158.本说明书实施例提供的装置、设备、非易失性计算机可读存储介质与方法是对应的，因此，装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、设备、非易失性计算机存储介质的有益技术效果。
159.在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(programmable logic device,pld)(例如现场可编程门阵列(field programmable gatearray，fpga))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(hardware description language，hdl)，而hdl也并非仅有一种，而是有许多种，如abel(advanced boolean expression language)、ahdl(altera hardware descriptionlanguage)、confluence、cupl(cornell university programming language)、hdcal、jhdl(java hardware description language)、lava、lola、myhdl、palasm、rhdl(rubyhardware description language)等，目前最普遍使用的是vhdl(very-high-speedintegrated circuit hardware description language)与verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。
160.控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit，asic)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：arc 625d、atmel at91sam、microchip pic18f26k20以及silicone labs c8051f320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
161.上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可
以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
162.为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
163.本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
164.本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
165.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
166.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
167.在一个典型的配置中，计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
168.内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
169.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
170.还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的
包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
171.本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
172.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
173.最后应说明的是：本发明实施例公开的一种图像识别模型训练方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

技术特征：
1.一种图像识别模型训练方法，其特征在于，所述方法包括：确定训练好的第一图像识别模型；所述第一图像识别模型包括有训练好的第一特征编码网络；确定待训练的第二图像识别模型；所述第二图像识别模型的模型参数少于所述第一图像识别模型的模型参数；将所述第二图像识别模型中的第二特征编码网络的网络参数，确定为所述第一特征编码网络的网络参数；确定损失函数为所述第一特征编码网络的特征输出和所述第二特征编码网络的特征输出之间的差异，对所述第一图像识别模型和所述第二图像识别模型进行联合训练，得到训练好的所述第二图像识别模型。2.根据权利要求1所述的图像识别模型训练方法，其特征在于，所述对所述第一图像识别模型和所述第二图像识别模型进行联合训练，得到训练好的所述第二图像识别模型，包括：将训练数据集同时输入至所述第一图像识别模型和所述第二图像识别模型进行训练；在所述训练中将所述第一图像识别模型的所有模型参数和所述第二图像识别模型的所述第二特征编码网络的参数进行固定以保持不变；在所述训练中，优化所述第二图像识别模型中除所述第二特征编码网络的参数以外的其他模型参数，直至所述损失函数收敛，得到训练好的所述第二图像识别模型。3.根据权利要求1所述的图像识别模型训练方法，其特征在于，所述第二特征编码网络的网络层数与所述第一特征编码网络的网络层数相同；和/或，所述第一特征编码网络为bilstm网络；和/或，所述第二特征编码网络为bilstm网络。4.根据权利要求1所述的图像识别模型训练方法，其特征在于，所述第二图像识别模型的模型参数少于所述第一图像识别模型的模型参数，多于所述第一图像识别模型的模型参数的1/10；和/或，所述第一图像识别模型还包括第一特征提取网络；所述第二图像识别模型还包括第二特征提取网络；所述第二特征提取网络的网络参数少于所述第一特征提取网络的网络参数，多于所述第一特征提取网络的网络参数的1/10。5.根据权利要求1所述的图像识别模型训练方法，其特征在于，所述确定损失函数为所述第一特征编码网络的特征输出和所述第二特征编码网络的特征输出之间的差异，包括：将所述第一特征编码网络的特征输出和所述第二特征编码网络的特征输出之间的向量距离确定为损失函数；和/或，确定所述第一特征编码网络的特征输出和所述第二特征编码网络的特征输出之间的向量距离；确定所述第二图像识别模型对应的识别损失；所述识别损失用于衡量所述第二图像识别模型的输出识别结果和训练数据的标注之间的差异；根据所述向量距离和所述识别损失，确定出损失函数。6.根据权利要求5所述的图像识别模型训练方法，其特征在于，所述根据所述向量距离
和所述识别损失，确定出损失函数，包括：确定所述识别损失和预设权重之间的乘积；将所述向量距离和所述乘积的和，确定为损失函数。7.根据权利要求6所述的图像识别模型训练方法，其特征在于，所述向量距离包括l1距离、l2距离、余弦距离和kl散度中的至少一种；和/或，所述识别损失为ctc损失；和/或，所述预设权重为0.1。8.一种图像识别模型训练装置，其特征在于，所述装置包括：第一确定模块，用于确定训练好的第一图像识别模型；所述第一图像识别模型包括有训练好的第一特征编码网络；第二确定模块，用于确定待训练的第二图像识别模型；所述第二图像识别模型的模型参数少于所述第一图像识别模型的模型参数；参数共享模块，用于将所述第二图像识别模型中的第二特征编码网络的网络参数，确定为所述第一特征编码网络的网络参数；损失确定模块，用于确定损失函数为所述第一特征编码网络的特征输出和所述第二特征编码网络的特征输出之间的差异；模型训练模块，用于对所述第一图像识别模型和所述第二图像识别模型进行联合训练，得到训练好的所述第二图像识别模型。9.一种图像识别模型训练装置，其特征在于，所述装置包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的图像识别模型训练方法。10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-7任一项所述的图像识别模型训练方法。

技术总结
本发明公开了一种图像识别模型训练方法及装置，该方法包括：确定训练好的第一图像识别模型；第一图像识别模型包括有训练好的第一特征编码网络；确定待训练的第二图像识别模型；第二图像识别模型的模型参数少于第一图像识别模型的模型参数；将第二图像识别模型中的第二特征编码网络的网络参数，确定为第一特征编码网络的网络参数；确定损失函数为第一特征编码网络的特征输出和第二特征编码网络的特征输出之间的差异，对第一图像识别模型和第二图像识别模型进行联合训练，得到训练好的第二图像识别模型。可见，通过本发明的方案训练得到的第二图像识别模型可以保持较小的规模的同时达到更好的识别效果。同时达到更好的识别效果。同时达到更好的识别效果。

技术研发人员：钟艺豪蔡锐涛
受保护的技术使用者：有米科技股份有限公司
技术研发日：2021.11.12
技术公布日：2022/3/8

专利

最新回复(0)