一种场景文本识别方法和装置与流程

1.本发明涉及图像识别领域，具体而言，涉及一种场景文本识别方法和装置。

背景技术：

2.近年来，随着计算机视觉技术的发展，作为计算机视觉技术的重要分支文本识别应用到更广泛的场景中，例如智能交通监控系统、网络信息安全监控、保险理赔等等。
3.基于传统光学字符识别技术中，通过传统的图像处理(例如，二值化、形态学变换、连通域分析、投影分析)实现文字逐字符的检测分割，进一步的，将分割后的文字区域输入识别模块获取文字内容。文字识别的准确性依赖于检测分割的质量，在背景单一、应用场景简单的场景下能达到理想的效果。但是在更复杂多变的应用场景下，传统方法难以保证识别的准确性。例如，车牌识别技术在实际应用场景中却不可避免地遇到光照条件、成像质量等的影响。
4.随着深度学习技术的发展，借助深层神经网络实现较复杂场景下的文本区域检测和识别的许多工作取得了很好的效果。主流的技术方案是crnn和序列到序列，但此类方法在实践中存在以下限制：抗攻击性差，识别非文本图片时会错误识别出若干字符结果；识别稳定性低，在不利场景下例如拍摄角度不佳，光照条件复杂下容易误识别；针对多行文本或者不规则文本，实践中需要额外采集大量样本针对性训练方可实现可靠有效的的识别。此外，现有技术包含单帧图像文本识别部分的技术，不涉及图像在复杂场景下的定位以及多帧图像文本识别结果的融合。
5.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

6.本发明实施例提供了一种场景文本识别方法和装置，以至少解决现有技术场景文本识别准确率低、识别稳定性低、对采集图像要求高和抗攻击性差的技术问题。
7.根据本发明实施例的一个方面，提供了一种场景文本识别方法和装置，包括：获取多张目标场景图像，其中，上述目标场景图像包含目标对象；将每张上述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列；通过解码器解码上述图像编码特征序列，生成每张上述目标场景图像的字符识别结果；将多帧上述字符识别结果输入多帧综合模块，确定最终字符识别结果。
8.可选地，上述将每张上述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列以前，上述方法还包括：将上述目标场景图像输入经过训练的目标定位检测网络，获得上述目标对象的区域坐标和区域类型；根据上述区域坐标和上述区域类型，将上述目标场景图像仿射变换生成校正后的目标场景图像。
9.可选地，将每张上述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列，包括：将上述目标场景图像经主干网络特征提取，获得特征序列；将上述特征序列通过至少一层双向循环网络，生成上述图像编码特征序列。
10.可选地，将上述目标场景图像经主干网络特征提取，获得特征序列，包括：将上述目标场景图像经上述主干网络处理，生成长宽与上述目标场景图像的长宽呈比例的多层特征图；按上述目标场景图像中文本排列方向，将上述多层特征图切割分离生成上述特征序列。
11.可选地，上述主干网络由至少一个卷积层，至少一个激活层，重排列层，切割层和合并层组成。
12.可选地，将上述特征序列通过至少一层双向循环网络，生成上述图像编码特征序列，包括：将上述特征序列分别从正向和反向输入上述至少一层双向循环网络，生成两个候选特征序列；将上述两个候选特征序列按空间对应关系合并，得到上述图像编码特征序列。
13.可选地，上述解码器由全连接层或多层感知器、联结时序连接分类模型组成，或者，上述解码器由全连接层或多层感知器、注意力机制和循环神经网络组成。
14.可选地，当上述解码器由全连接层或多层感知器、时序连接分类模型组成，上述方法包括：将上述图像编码特征序列输入上述全连接层或多层感知器，获得与输入特征序列同样长度的分类概率分布向量；根据上述目标对象的解码规则，通过上述联结时序分类模型解码上述分类概率分布向量，生成上述每张上述目标场景图像的字符识别结果。
15.可选地，当上述解码器由全连接层或多层感知器、注意力机制和循环神经网络组成，包括：将上述图像编码特征序列中每个序列通过上述全连接层或多层感知器转换为各序列的权重向量；根据上述各序列的权重向量，通过注意力机制融合得到能够表征当前待识别的字符的特征向量；将待识别的字符的特征向量送入上述循环神经网络中进而依次得到上述每张上述目标场景图像的字符识别结果。
16.可选地，将多帧上述字符识别结果输入多帧综合模块，确定最终字符识别结果，包括：综合上述字符识别结果，上述多帧综合模块判断是否得到稳定识别结果，若是，完成识别流程并输出上述最终字符识别结果，若否，则返回上述编码器和上述解码器重复识别流程，其中，上述最终字符识别结果为上述字符识别结果的投票结果中重复次数最多且大于第一阈值对应的字符识别结果。
17.可选地，上述将多帧上述字符识别结果输入多帧综合模块，确定最终字符识别结果之前，上述方法包括：将上述目标场景图像输入质量评价单元，生成图片质量评分结果。
18.可选地，将多帧上述字符识别结果输入多帧综合模块，确定最终字符识别结果之前，上述方法还包括：综合每帧上述字符识别结果、上述图片质量评分结果和目标识别类型的编码规则，对多帧上述字符识别结果进行合理性校验，若是，则输入上述多帧综合模块，若否，则不输入上述多帧综合模块。
19.可选地，将上述目标场景图像输入质量评价单元，生成图片质量评分结果，包括：通过对上述目标场景图像进行低通滤波处理得到退化图像，分别度量上述目标场景图像和上述退化图像的图像质量生成两组向量，将上述两组元素中各元素差的平方和的均值作为上述图片质量评分结果。
20.可选地，度量上述目标场景图像和上述退化图像的图像质量生成两组向量，包括：分别将上述目标场景图像和上述退化图像中每个像素计算该像素与相邻像素的灰度差的绝对值并求平均值，将上述平均值除以该像素周围邻域内的灰度均值，生成上述两组向量。
21.可选地，上述目标定位检测网络包括：第二主干网路，用于处理上述目标场景图
像，生成长宽均与目标场景图像的长宽呈比例的第二特征图；区域定位分支，用于根据上述第二特征图，确定目标对象的区域描述向量并输出上述区域坐标；分类网络分支，用于根据上述第二特征图，预测上述区域类型。
22.可选地，根据上述区域坐标和上述区域类型，将上述目标场景图像仿射变换生成校正后的目标场景图像，包括：结合上述区域坐标和预设目标对象模板确定变换矩阵，其中，上述预设目标对象模板的坐标和上述区域坐标一一对应，上述变换矩阵包括：仿射变换矩阵和/或透视变换矩阵；根据上述变换矩阵将上述目标场景图像仿射变换生成校正后的目标场景图像。
23.可选地，上述方法包括：创建初始目标定位检测网络；使用样本数据对上述初始目标定位检测网络进行训练，获得上述经过训练的目标定位检测网络，其中，上述样本数据包括第一样本数据和对上述第一样本数据施加随机透视变化生成的第二样本数据。
24.可选地，对上述第一样本数据施加随机透视变化生成的第二样本数据，包括：对上述第一样本数据的第一标注区域坐标施加第一范围内的随机偏移生成第二标注区域；根据一一对应的训练目标对象模板区域和上述第二标注区域，确定训练变换矩阵；依据上述训练变换矩阵对上述第一样本数据变换后生成上述第二样本数据。
25.可选地，解码上述图像编码特征序列之前，上述方法还包括：通过上述汉字区域预测网络对上述图像编码特征序列进行分类和定位，确定包含汉字区域的第一序列、不包含汉字区域的第二序列、汉字区域坐标和非汉字区域坐标。
26.可选地，上述汉字区域预测网络包括：汉字区域预测分类分支，用于对上述图像编码特征序列中每个像素预测对应唯一的汉字区域，确定不同汉字区域中包含的上述图像编码特征序列；汉字区域坐标偏移量预测分支，用于在上述图像编码特征序列上通过邻域非极大值抑制确定汉字区域坐标。
27.可选地，通过上述汉字区域预测网络对上述图像编码特征序列进行分类和定位之后，将分类后的特征序列输入上述解码器和汉字解码器生成每张上述目标场景图像的字符识别结果；其中，将分类后的特征序列输入上述解码器和汉字解码器生成每张上述目标场景图像的字符识别结果包括：上述第一序列通过上述汉字解码器解码生成汉字区域的第一字符识别结果，上述第二序列通过上述解码器解码生成非汉字区域的第二字符识别结果；结合上述汉字区域坐标和上述非汉字区域坐标，拼接上述第一字符结果和上述第二字符结果，生成上述每张上述目标场景图像的字符识别结果。
28.可选地，上述编码器和上述解码器在训练过程中对训练集进行数据扩增，上述数据扩增包括以下至少一个：伽玛校正、高斯模糊、上下左右翻转。
29.可选地，上述编码器和上述解码器的各参数通过反向传播算法和随机梯度下降方法确定。
30.可选地，上述区域类型为以下至少一种：单行文本，多行文本，单列文本，多列文本。
31.可选地，当上述区域类型为上述多行文本或多列文本，将上述目标场景图像仿射变换生成校正后的目标场景图像后，上述方法还包括：根据多层文本排列的方式和数目，将上述校正后的目标场景图像划分为多个包含单层文本的子图像；将上述子图像按比例缩放配准至同一规格，并按排列顺序拼接生成拼接后的目标场景图像。
32.可选地，获取上述包含目标对象的上述目标场景图像方法包括：用户根据移动端设备图形界面上引导框使用采集装置连续捕获，或，基于目标检测和目标追踪采集装置自动捕获。
33.根据本发明实施例的另一个方面，还提供了一种场景文本识别装置，包括：图像采集单元，用于获取多张目标场景图像，其中，上述目标场景图像包含目标对象；编码单元，用于将每张上述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列；解码单元，用于通过解码器解码上述图像编码特征序列，生成每张上述目标场景图像的字符识别结果；多帧综合单元，用于将多帧上述字符识别结果输入多帧综合模块，确定最终字符识别结果。
34.可选地，上述装置还包括：定位单元，用于将上述目标场景图像输入经过训练的目标定位检测网络，获得上述目标对象的区域坐标和区域类型；校正单元，用于根据上述区域坐标和上述区域类型，将上述目标场景图像仿射变换生成校正后的目标场景图像。
35.可选地，上述目标定位检测网络包括：第二主干网路，用于处理上述目标场景图像，生成长宽均与目标场景图像的长宽呈比例的第二特征图；区域定位分支，用于根据上述第二特征图，确定目标对象的区域描述向量并输出上述区域坐标；分类网络分支，用于根据上述第二特征图，预测上述区域类型。
36.可选地，上述装置还包括：汉字定位单元，用于通过上述汉字区域预测网络对上述图像编码特征序列进行分类和定位，确定包含汉字区域的第一序列、不包含汉字区域的第二序列、汉字区域坐标和非汉字区域坐标。
37.根据本发明实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，存储介质所在设备执行上述任意一项上述的场景文本识别方法。
38.根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述中任意一项场景文本识别方法。
39.在本发明实施例中，通过执行以下步骤：获取多张目标场景图像，其中，上述目标场景图像包含目标对象；将每张上述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列；通过解码器解码上述图像编码特征序列，生成每张上述目标场景图像的字符识别结果；将多帧上述字符识别结果输入多帧综合模块，确定最终字符识别结果，解决现有技术场景文本识别准确率低、识别稳定性低、对采集图像要求高和抗攻击性差的技术问题。
附图说明
40.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
41.图1是根据本发明实施例的一种可选的场景文本识别方法的流程图；
42.图2是根据本发明实施例的一种可选的提取特征序列的示意图；
43.图3是根据本发明实施例的另一种可选的场景文本识别方法的流程图；
44.图4是根据本发明实施例的一种可选的随机透视变换示意图；
45.图5是根据本发明实施例的一种可选的多行场景文本识别示意图；
46.图6是根据本发明实施例的另一种可选的场景文本识别方法的流程图；
47.图7是根据本发明其中一实施例的场景文本识别装置的结构框图。
具体实施方式
48.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
49.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的顺序在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
50.下面说明本发明实施例的一种可选的场景文本识别方法的流程图。需要说明的是，在附图流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
51.参考图1，是根据本发明实施例的一种可选的场景文本识别方法的流程图。如图1所示，该场景文本识别方法包括如下：
52.s100，获取多张目标场景图像，其中，目标场景图像包含目标对象；
53.s102，将每张目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列；
54.s104，通过解码器解码图像编码特征序列，生成每张目标场景图像的字符识别结果；
55.s106，将多帧字符识别结果输入多帧综合模块，确定最终字符识别结果。
56.通过上述步骤，获取多张目标场景图像，其中，目标场景图像包含目标对象；将每张目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列；通过解码器解码图像编码特征序列，生成每张目标场景图像的字符识别结果；将多帧字符识别结果输入多帧综合模块，确定最终字符识别结果。通过上述步骤，解决相关技术在复杂场景下文本识别时，存在识别准确率低、识别稳定性低、对采集图像要求高和抗攻击性差等问题。
57.下面结合上述各实施步骤进行详细说明。
58.s100,获取多张目标场景图像，其中，上述目标场景图像包含目标对象；
59.在本实施例中，目标场景包括但不限于：保险理赔，自动驾驶，智能购物，网络信息监控和大数据产业。对应的，在目标场景包含的目标对象包括但不限于序列号，车牌号，路牌，广告内容等。具体的，在目标场景中对目标对象实现文本识别的前提是目标场景图象中包含文本区域的对象，在本技术中可通过人工检测或自动检测确保目标场景图像包含目标对象。
60.在一种可选的实施例中，获取上述包含目标对象的上述目标场景图像方法包括：用户根据移动端设备图形界面上引导框使用采集装置连续捕获，或，基于目标检测和目标追踪采集装置自动捕获。例，用户可在交互界面显示的画面中，指引用户选定引导框控制采集装置的采集画面在处理过程中捕获包含目标对象的车牌图片。应用场景和需求发生变化时，例如高速驾驶时人工滞后导致无法保证捕获速度时，通过基于机器学习或深度学习的目标追踪方法替代人工引导框的形式实现对目标对象捕获。当目标对象的数目为多个时，例如自动驾驶的场景中，目标对象包括车牌和路牌信息，则对包含多个目标对象同时进行追踪和采集，本技术并不限制目标检测、目标追踪和图像采集的方法。
61.s102,将每张目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列；
62.在一种可选的实施例中，步骤102，将每张目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列，可以包括以下步骤：
63.s200将目标场景图像经主干网络特征提取，获得特征序列；
64.s202将特征序列通过至少一层双向循环网络，生成图像编码特征序列。
65.具体的，对于多张待检测和识别的目标场景图像依次输入编码器，编码器中的主干网络自动从输入的图像中提取特征序列，将这些特征序列输入编码器的循环网络进行预测和标注，生成图像编码特征序列。由于场景文本识别时，文本常以序列的形式出现，而不是孤立地出现，识别这样的类序列对象通常需要系统预测一系列对象标签，而不是单个标签。因此，可以自然地将这样的对象的识别作为序列识别问题。
66.在一种可选的实施例中，步骤s200，将目标场景图像经主干网络特征提取，获得特征序列，包括：
67.将目标场景图像经主干网络处理，生成长宽均与目标场景图像的长宽呈比例的多层特征图；
68.按目标场景图像中文本排列方向，将多层特征图切割分离生成特征序列。
69.在一种可选的实施例中，主干网络由至少一个卷积层，至少一个激活层，重排列层，切割层和合并层组成。
70.在本实施例中，目标场景图像经过主干网络的至少一个卷积层生成长宽与目标场景图像的长宽呈比例的多层特征图，图像长宽的单位为像素。具体的，长度的比例和宽度的比例可以相同，亦可以因为降采样比例不同而不同，但两者的比例均满足比例为1除以2的整数次幂，例如，可以是1/8，1/32，比例的具体数值与输入图像的质量以及识别精度有关，可通过卷积层的参数设置进行调节。
71.实际应用场景中，文本的排列方向可以从左往右，从右往左，从上往下，斜方向排列等多种排列方式。具体的文本排列方向亦是特征信息的一部分，将影响后续文本识别的准备性，根据文本排列方向切割多层特征图生成特征序列，由于主干网络的内部网络结构均在局部区域上执行，特征序列中的每个向量关联原始图像的一个区域。
72.图2是根据本发明实施例的一种可选的提取特征序列的示意图。以提取车牌图像的特征序列为例，如图2所示，车牌文本顺序从左往右，获取多层特征图后按行方向从左到右进行切割生成特征序列，特征序列的每一个特征向量在特征图上按列从左到右生成，这意味着第i个特征向量是多层特征图第i列的连接，每列特征序列的宽度固定，且特征序列
的每列对应于原始图像的一个区域，可认为该区域的描述符。本实施例通过将包含文本的目标场景图像转换为多个特征序列，可处理任意长度和任意排列的文本，同时获取的特征序列包含完整的特征信息文本排列和文本内容。
73.在一种可选的实施例中，将特征序列通过至少一层双向循环网络，生成图像编码特征序列，包括：
74.将特征序列分别从正向和反向输入至少一层双向循环网络，生成两个候选特征序列；
75.将两个候选特征序列按空间对应关系合并，得到图像编码特征序列。
76.特征序列每一帧使用至少一层双向循环网络对特征序列进行预测，对序列中的每个特征向量预测标签分布。单向的循环网络是定向，仅仅联系过去的序列信息，然而基于图像的序列标签既需要联系过去的信息，也与之后的信息相关，即在两个方向的上下文信息是相互作用且互补。本技术实施例中将一个向前和一个向后的循环网络组合成双向循环网络，能更加充分利用上下文信息，在网络结构具体的表现形式为网络会对过去的信息进行记忆并应用于当前输出的计算中，即循环网络的隐藏层之间的节点有连接的，并且其输入不仅包括当前时刻输入层的输出，还包括上一时刻隐藏层的输出。通过正向和反向输入生成的两个候选特征序列分别具有该方向上充分的特征信息，根据空间对应关系合并候选特征序列获图像编码特征，生成的图像编码特征具有所有方向的特征信息。此外，本技术支持堆叠多层循环神经网络，深层结构具有比浅层抽象更高层次的抽象，对特征标签分布的预测更精确，从而进一步提高后续识别的准确率。
77.双向循环网络具有捕获序列内上下文信息的能力，同样基于图像序列识别场景文本，相较于独立处理单个字符，使用上下文提示会更稳定。例如，宽字符可能需要一些连续的帧来完全描述。针对模糊的字符观察上下文信息亦更容易区分，针对任意长度的序列都可进行操作识别。
78.需要说明的是，本技术并不限制双向循环网络的具体层数，在实际应用中根据用户实际需求适当进行改变。上述至少一层的双向循环网络，可以是lstm,rnn,gru等等。以及主干网络的输出维度和循环网络的输入维度并不完全相同，通过构造维度转换层作为两个结构之间的过渡，使最终特征序列的输入满足循环网络的输入要求。在上述循环神经网络中，所有层均共享参数，故在训练中减少要学习的参数，大幅提高训练效率，同时使用中可以减少需要设置的参数，综合提高计算效率。此外，在成像质量高且稳定并且需要即时得到识别结果的场景下,可以使用一个全连接层或多层感知器替代双向循环网络,同样可以作为一种轻量级的编码器形式。
79.s104，通过解码器解码图像编码特征序列，生成每张目标场景图像的字符识别结果；
80.具体的，解码器的作用是将图像编码特征序列解码为输入的目标场景图像对应的字符识别结果，选取图像编码特征序列中每个分量中概率最大的索引对应的符号作为识别结果，最终组成序列作为最终的识别序列。
81.在一种可选的实施例中，上述解码器由全连接层或多层感知器、联结时序连接分类模型组成，或者，上述解码器由全连接层或多层感知器、注意力机制和循环神经网络组成。在本技术的示例性实施例中，根据不同结构的解码器分别提供了两种可行的解码方式。
82.解码方法一：
83.在一种可选的实施例中，当解码器由全连接层或多层感知器、时序连接分类模型组成，上述方法包括：
84.将图像编码特征序列输入全连接层或多层感知器，获得与输入特征序列同样长度的分类概率分布向量；
85.根据目标对象的解码规则，通过联结时序分类模型解码分类概率分布向量，生成每张目标场景图像的字符识别结果。
86.具体的，在将图像编码特征序列转换为识别结果的过程中，图像编码特征序列通过全连接层或多层传感器生成与输入特征序列同样长度的分类概率分布向量。若序列的先后长度不相等，则无法用先验知识将输出序列的向量和输入的序列的向量一一对齐。通过全连接层或多层感知器输出的分类概率分布向量的长度为待识别字符的类别数加一，额外多出来的类别为时序连接分类模型中的分隔边界类。联结时序模型的输出层将各个时刻的输出值合并在一起，定义了各种可能的输出序列和输入序列进行对齐的方式的概率，进一步的，任何一个标签分布序列的概率值可以通过对其所有不同的对齐方式的概率进行求和得到，通过动态规划等最优算法寻找出概率最大的输出序列。目标对象的解码规则会改变联结时序分类模型的参数，例如目标对象是车牌和证件文本时，时序分类模型的参数设定不同。此外，在模型训练过程中，这一概率分布向量序列送入联结时序分类(ctc)损失函数中用于优化网络参数，在推理过程中，这一概率分布向量序列根据ctc解码规则转换为输出字符串。
87.解码方法二：
88.在一种可选的实施例中,当解码器由全连接层或多层感知器、注意力机制和循环神经网络组成，包括：
89.将图像编码特征序列中每个序列通过全连接层或多层感知器转换为各序列的权重向量；
90.根据各序列的权重向量，通过注意力机制融合得到能够表征当前待识别的字符的特征向量；
91.将待识别的字符的特征向量送入循环神经网络中进而依次得到每张上述目标场景图像的字符识别结果。
92.具体的，本技术实施例可支持从两个长度不相等的一个序列到另一个序列的映射。通过解码器每个时间片的输出状态通过全连接层转换为图片编码序列的各时间片的权重向量，进而通过注意力机制得到能够表征当前待识别的字符的特征向量并送入循环神经网络单元中进而得到当前时间片的所有字符类别的概率分布向量。上述循环神经网络具体包括：输入层、多个隐藏层及输出层；多个隐藏层之间的节点相互连接；每个隐藏层的输入包括输入层的输出及上一隐藏层的输出。需要说明的是，上述循环神经网络可以是rnn，也可以是、lstm、gru等等。
93.在上述结构的解码器中，解码阶段计算获得各序列的权重向量，间接反映特征序列与待识别字符的关联性。解码器按照识别顺序依次输出每个字符的识别结果直至输出终止符或抵达最大支持输出字符长度。在识别每个字符的时候将编码器得到的所有特征向量都输入解码器并由注意力机制确定各组特征向量的权重并叠加所有的隐藏层特征后输入
解码器中进行这一循环解码的过程，而不是仅仅将最后一个隐藏层或其中一个隐藏层特征送入解码器解码，此外，当前循环神经网络输入的不仅是当前字符的特征向量还有上一时刻循环神经网络的输出，本技术实施例通过联结上下文特征向量并赋予权重逐步解码出字符识别结果提高了场景文本识别的精度。
94.此外，本技术实施例中编码器和解码器支持多种格式的图像，可以为彩色图像、灰度图像和二值图像，例如，rgb或yuv空间下的彩色图像，或灰度图像；并且输入特征中包含灰度、亮度分量的信息，从而可同时工作于多种条件的光照条件。需要说明的是，针对不同类型的图像进行定位的检测网络模型，需要基于该图像类型的素材进行训练。
95.在一种可选的实施例中，编码器和解码器在训练过程中对训练集进行数据扩增，数据扩增包括：伽玛校正、高斯模糊、上下左右翻转。具体的，通过对训练集数据扩增可降低对输入图像的质量要求，同时支持正反文本的识别，从而丰富了应用场景，例如左右翻转的数据扩增支持镜面场景的文本识别。
96.在一种可选的实施例中，编码器和解码器的各参数通过反向传播算法和随机梯度下降方法确定。
97.本技术实施例中包含上述两种解码器的识别网络都支持输入单行文本图片端到端的训练和部署，训练算法网络模型时只需准备较多数量的文本图片和对应的文本内容的标记信息，避免了逐字符所在图片位置信息的标注，减少了标注工作量，使大规模数量的标注变得可能。
98.s106，将多帧字符识别结果输入多帧综合模块，确定最终字符识别结果。
99.在一种可选的实施例中，将多帧上述字符识别结果输入多帧综合模块，确定最终字符识别结果，包括：
100.综合字符识别结果，上述多帧综合模块判断是否得到稳定识别结果，若是，完成识别流程并输出最终字符识别结果，若否，则返回编码器和解码器重复识别流程，其中，最终字符识别结果为字符识别结果的投票结果中重复次数最多且大于第一阈值对应的字符识别结果。
101.将多帧字符识别结果依次输入多帧综合模块判断，多帧综合模块内部会记录从当前时刻之前所有的识别结果字符串并判断，如判断得到稳定识别结果，则完成整个识别流程并输出多帧投票结果，否则重复s100-s104中过程，直至得到稳定识别结果或用户手动退出识别流程，稳定的结果意味若干连续帧有效识别结果保持一致，具体若干帧的数目由识别精度的需求确定。当判断得到稳定识别结果后，多帧综合模块则将输入的多帧识别结果进行投票，并将重复次数最多且大于第一阈值的字符串结果作为最终输出结果。
102.具体的，由于基于单帧的字符识别的识别性和抗攻击性表现不佳，输入文本图片存在一定扰动时有一定几率输出不同的结果，对于非文本图片，也存在一定概率错误地输出非空结果。在车载dvr设备，安防，监控，卡口等场景下存在车牌识别的需求，同时在智能零售、智能仪表等领域也存在到场景文本识别的需求。在这些应用中，单帧识别往往已经不能满足实际应用上的需求，为了能够更稳定精确的工作，本技术实施例通过引入多帧综合模块提升了识别系统的准确性。
103.在实用场景中，成像质量不可避免地将遇到光照条件、成像清晰度等的影响，针对多帧低质量图片的识别，识别系统可能将会给出无法识别的输出，为了减少误识别的概率，
改善系统的稳定性，本技术实施例还考虑了图像质量对识别的影响。
104.在一种可选的实施例中，上述方法包括：将上述目标场景图像输入质量评价单元，生成图片质量评分结果。本技术并不限制对图片进行图片质量评价与多帧综合模块识别步骤的先后顺序，两者可串行进行亦可以并行进行。例如，可采取将多帧上述字符识别结果输入多帧综合模块，确定最终字符识别结果之前，将目标场景图像输入质量评价单元，生成对应的图片质量评分结果。
105.在一种可选的实施例中，将上述目标场景图像输入质量评价单元，生成图片质量评分结果，包括：
106.通过对上述目标场景图像进行低通滤波处理得到退化图像，分别度量上述目标场景图像和上述退化图像的图像质量生成两组向量，将上述两组元素中各元素差的平方和的均值作为上述图片质量评分结果。
107.在一种可选的实施例中，度量上述目标场景图像和上述退化图像的图像质量生成两组向量，包括：
108.分别将目标场景图像和上述退化图像中每个像素计算该像素与相邻像素的灰度差的绝对值并求平均值，将上述平均值除以该像素周围邻域内的灰度均值，生成上述两组向量。
109.本技术实施例根据应用场景预先定义一种无参考图像的图像质量度量方式，无需额外确定参考图像以及质量的绝对标准，而是通过对退化图像和目标场景图像之间局部因子比较关系表示局部范围内像素变化的剧烈程度，从而有效反映出待评价对象的图像质量，有效简化了质量评价的过程同时保证了计算的准确度。
110.在多帧字符识别结果输入多帧综合模块以前，对多帧字符识别结果进行合理性校验，综合每帧字符识别结果和目标识别类型的编码规则，对多帧字符识别结果进行合理性校验，若是合理的识别结果则送入多帧综合模块。例如，当识别目标为vin码时，根据vin编码规则和校验位的校验结果对识别结果首先做合理性校验，当识别目标为车牌时，则不符合对应类型的车牌编码规则做合理性校验，不合理的识别结果则不送如多帧投票模块
111.在多帧字符识别结果在考虑图像质量评分时，一种可选的实施例中，将多帧上述字符识别结果输入多帧综合模块，确定最终字符识别结果之前，上述方法还包括：
112.综合每帧上述字符识别结果、上述图片质量评分结果和目标识别类型的编码规则，对多帧上述字符识别结果进行合理性校验，若是，则输入上述多帧综合模块，若否，则不输入上述多帧综合模块。
113.具体的，综合多个因素进行合理性校验，例如，如果车牌识别结果同时满足预设车牌号规则，图片质量评分超过预设阈值，则认为是合理性的字符识别结果，并将结果送入多帧结果融合模块。本技术实施例中对于低质量的多帧图片输入，更大可能将会给出无法识别的输出，减少误识别的概率，改善系统的稳定性。
114.在复杂的场景中，由于主体繁多、遮挡等因素将导致目标对象在场景图像中并非显而易见的，即便采集的图像中包含目标对象，若识别区域中未包含目标对象同样将无法获取正确的识别结果，故本技术实施例在复杂场景下采集目标场景图像通过目标定位检测网络对目标对象的区域精确定位。
115.在一种可选的实施例中，将每张上述目标场景图像依次输入编码器进行特征提取
和编码，生成图像编码特征序列以前，包括：
116.将目标场景图像输入经过训练的目标定位检测网络，获得目标对象的区域坐标和区域类型；
117.根据区域坐标和区域类型，将目标场景图像仿射变换生成校正后的目标场景图像。
118.图3是根据本发明实施例的另一种可选的场景文本识别方法的流程图，如图3所示，该文本识别方法包括如下步骤：
119.s300，获取多张目标场景图像，其中，目标场景图像包含目标对象；
120.s302，将目标场景图像输入经过训练的目标定位检测网络，获得目标对象的区域坐标和区域类型；
121.s304，根据区域坐标和区域类型，将目标场景图像仿射变换生成校正后的目标场景图像；
122.s306，将每张校正后的目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列；
123.s308，通过解码器解码图像编码特征序列，生成每张目标场景图像的字符识别结果；
124.s310，将多帧字符识别结果输入多帧综合模块，确定最终字符识别结果。
125.此外，上述步骤s300,s306,s308,s310与图1中的步骤100，s102,s104,s106相同，具体课参见图1的相应描述，在此不再详细描述。图3所描述的实施例与图1的不同之处在于，该文本识别方法还包括s302,s304，通过目标定位检测网络对目标对象的区域精确定位以及目标场景图像的校正。
126.在一种可选的实施例中，上述目标定位检测网络包括：
127.第二主干网路，用于处理上述目标场景图像，生成长宽均与目标场景图像的长宽呈比例的第二特征图；
128.区域定位分支，用于根据上述第二特征图，确定目标对象的区域描述向量并输出上述目标对象的区域坐标；
129.分类网络分支，用于根据上述第二特征图，预测上述目标对象的区域类型。
130.目标定位检测网络模型能精确定位目标对象的区域坐标，区域形状不限制为四边形，而为目标对象实际所占区域的形状，例如圆形广告牌，三角形路标等。此外，目标定位检测网络模型支持多种格式的图像，可以为彩色图像、灰度图像和二值图像，例如，rgb或yuv空间下的彩色图像，或灰度图像。需要说明的是，针对不同类型的图像进行定位的检测网络模型，需要基于该图像类型的素材进行训练。
131.具体的，目标定位检测网络中的第二主干网络生成长宽与目标场景图像的长宽呈比例的第二特征图，特征图图像的长宽单位为像素。具体的，长度的比例和宽度的比例可以相同，亦可以因为降采样比例不同而不同，但两者的比例均满足比例为1除以2的整数次幂，特征图保证获得丰富的图像特征信息的同时，还通过改变特征图的尺寸大小可达到控制网络结构的作用，比例的具体数值与输入图像的质量以及识别精度有关，可通过卷积层的参数设置进行调节。
132.针对第二特征图，每个像素分类网络分支负责预测该以像素为中心对应的区域为
目标对象的概率，根据概率确定目标对象区域描述向量，同时输出上述目标对象的区域坐标。以车牌识别为例，在获取对应的特征图后，根据区域定位分支预测每个像素点为车牌四边形区域的概率，根据概率分布确定车牌四边形中心和四边形四个顶点的坐标并输出。此外，分类网络分支根据第二特征图预测出目标对象的具体的区域类型。
133.在一种可选的实施例中，上述区域类型为以下至少一种：单行文本，多行文本，单列文本，多列文本。
134.本技术实施例通过引入分类网路分支预测出区域类型，一方面，根据区域类型更正调整编码器中特征序列的排列，另一方面在不调整网络结构的前提下，通过先验知识区域类型，为后续编码器和解码器识别过程中提供了参考信息，为一个识别网络能识别单行和多行文本提供了可能以提高识别效果。
135.实际场景中，采集装置采集目标场景图像时并非保持正对目标，以及镜头自身组织结构导致成像存在形变、畸变等现象，通过对输入网络前的图像进行校正变化，使在不同角度下拍摄的图像在通过校正处理后有助于精确定位目标对象区域，提取出更精确的特征，从而保持高准确度的识别。
136.在一种可选的实施例中，根据上述区域坐标将上述目标场景图像仿射变换生成校正后的目标场景图像，包括：
137.结合上述区域坐标和预设目标对象模板确定变换矩阵，其中，上述预设目标对象模板的坐标和上述区域坐标一一对应，上述变换矩阵包括：仿射变换矩阵和/或透视变换矩阵；
138.根据上述变换矩阵将上述目标场景图像仿射变换生成校正后的目标场景图像。
139.具体的，目标定位检测和后续识别网络的检测对象作为预设目标对象模板，本技术不限定其设定的方法，可以是人为设定，亦可以通过目标对象的区域类型自动确认，目标对象模板规范了输入图像的格式，检测获取的区域坐标和预设目标对象模板的区域坐标一一对应，联立上述对应的坐标信息确定变换矩阵，上述变换矩阵包括：仿射变换矩阵和/或透视变换矩阵，本技术并不限制变换矩阵的确定方式，根据上述变换矩阵将上述目标场景图像仿射变换生成校正后的目标场景图像，最终实现图像形变的消除，提高检测和识别效率的同时提高准确度。
140.上述为目标定位检测网络在获取到具有形变的目标对象的区域坐标后，通过变换矩阵校正从而消除形变的干扰。故校正具有形变的目标对象图像的前提为，在形变的目标对象图像中依旧可以快速精确定位出目标对象的区域，在目标定位检测网络训练阶段，对输入图像和标注内容施加随机透视变换，使得网络对于不同角度下拍摄的图像具有更稳定准确的定位效果。
141.在一种可选的实施例中，上述方法包括：
142.创建初始目标定位检测网络；
143.使用样本数据对上述初始目标定位检测网络进行训练，获得上述经过训练的目标定位检测网络，其中，上述样本数据包括第一样本数据和对上述第一样本数据施加随机透视变换生成的第二样本数据。
144.本步骤的目的使为了训练初始目标定位检测网络，使搭建的网络对多种角度下的图像进行定位和检测。在常用的图像数据以及标注区域坐标作为第一样本数据的同时，通
过对第一样本数据施加随机透视变换丰富了样本数据，使样本数据尽可能包括多种角度下的图像信息。
145.在一种可选的实施例中，对第一样本数据施加随机透视变换生成的第二样本数据，包括：
146.对第一样本数据的第一标注区域坐标施加第一范围内的随机偏移生成第二标注区域；
147.根据一一对应的训练目标对象模板区域和第二标注区域，确定训练变换矩阵；
148.依据训练变换矩阵对第一样本数据变换后生成第二样本数据。
149.通常来说，第一样本数据集包括目标对象的第一标注区域坐标，对上述第一标注区域坐标施加第一范围内的随机偏移生成第二标注区域，其中第一范围的设定依据对后续对定位图像的形变角度范围要求确定。目标对象模板给定了定位区域坐标规范，其区域坐标和第二标注区域一一对应可确定训练变换矩阵，依据训练变换矩阵对第一样本数据变换后生成第二样本数据。
150.图4是根据本发明实施例的一种可选的随机透视变换示意图，以车牌图像和标注内容施随机透视变换为例。如图4所示，车牌四边形四个顶点在图像中坐标为(xi，yi)，i∈{1，2，3，4}，对每个顶点坐标施加适当范围内的随机偏移(三角形符号分别表示四个顶点经随机扰动后的顶点坐标)得到对应的四个顶点(x
′i，y
′i)，i∈{1，2，3，4}。同时由于当前目标定位检测网络检测的是车牌，故预设目标对象模板为四边形车牌，且输入的预设车牌模板的宽高分别为w和h，按顺时针方向扰动后的四个顶点经随机透视变换后对应的顶点坐标依次为(0，0)，(w，0)，(w，h)，(0，h)。将四组透视变换前后对应顶点坐标带入如下转换公式后可以确定变换矩阵：
[0151][0152]
根据随机透视变换矩阵得到透视变换后的原图像和标注信息。如图4所示，针对第一样本数据中标注的第一标注区域坐标，包括括车牌区域以及车牌汉字区域，通过随机透视变换以后生成的第二样本数据是在预设车牌模板中的车牌图像，且包括车牌汉字区域标注框。本技术通过对样本数据施加随机扰动，并且透视变换至预设目标对象模板中，丰富了样本数据，使得后续网络对于不同角度下拍摄的目标图像仍具有更稳定准确的定位效果。
[0153]
同时，在目标定位检测网络的训练阶段，对样本施加适合取值范围内的随机参数的伽玛校正，高斯模糊，图像上下翻转180
°
的形式扩增样本，使得网络同时支持正反目标对象的定位。
[0154]
在一种可选的实施例中，当上述区域类型为上述多行文本或多列文本，将上述目标场景图像仿射变换生成校正后的目标场景图像后，上述方法还包括：
[0155]
根据多层文本排列的方式和数目，将上述校正后的目标场景图像划分为多个包含单层文本的子图像；
[0156]
将上述子图像按比例缩放配准至同一规格，并按排列顺序拼接生成拼接后的目标场景图像。
[0157]
具体的，根据区域类型提供多层文本信息，将校正后的目标场景图像进行划分和
拼接，上述多层文本信息包括但不限于多层文本排列的方式和数目，本技术并不限制图像划分和拼接的方法。通过区域类型提供了先验知识，将包含多层文本的目标场景图像调整为单层文本以适配后续支持单行文本识别的识别网络，这不仅为一个识别网络能识别单行和多行文本提供了可能，而且大幅降低了训练样本的数目和种类要求。以国内大型汽车和挂车所使用的双行黄色车牌图像识别为例，图5是根据本发明实施例的一种可选的多行场景文本识别示意图，如图5所示，首先根据区域类型结果确定初始图像为双行文本上下排列，将校正后的目标场景图像分割为2个包含单行文本的子图像，两个子图像大小不一，再按照比例缩放并先后拼接上部分和下部分对应的子图像，生成最终拼接后的目标场景图像。
[0158]
汉字由于笔画结构复杂，往往给场景识别场景带来困难，尤其在输入图片质量较差时往往是汉字部分识别最有可能出现错误，当目标是识别这种带有汉字的低质量图片时，为了提高识别成功率，本技术实施例还引入了汉字区域预测网络。图6是根据本发明实施例的另一种可选的场景文本识别方法的流程图。
[0159]
在一种可选的实施例中，解码上述图像编码特征序列之前，上述方法还包括：通过上述汉字区域预测网络对上述图像编码特征序列进行分类和定位，确定包含汉字区域的第一序列和不包含汉字区域的第二序列。
[0160]
在一种可选的实施例中，通过上述汉字区域预测网络对上述图像编码特征序列进行分类和定位之后，将分类后的特征序列输入上述解码器和汉字解码器生成每张上述目标场景图像的字符识别结果；
[0161]
其中，将分类后的特征序列输入上述解码器和汉字解码器生成每张上述目标场景图像的字符识别结果包括：
[0162]
上述第一序列通过上述汉字解码器解码生成汉字区域的第一字符识别结果，上述第二序列通过上述解码器解码生成非汉字区域的第二字符识别结果；
[0163]
结合汉字区域坐标和非汉字区域坐标，拼接上述第一字符结果和上述第二字符结果，生成上述每张上述目标场景图像的字符识别结果。
[0164]
如图6所示，在图像经过编码器生成图像编码特征序列以后，通过汉字区域预测网络是否包含汉字对编码特征序列进行分类和定位，确定包含汉字区域的第一序列和不包含汉字区域的第二序列，同时输出对应区域在特征图上的坐标。
[0165]
在一种可选的实施例中，上述汉字区域预测网络包括：汉字区域预测分类分支，用于对上述图像编码特征序列中每个像素预测对应唯一的汉字区域，确定不同汉字区域中包含的上述图像编码特征序列；汉字区域坐标偏移量预测分支，用于在上述图像编码特征序列上通过邻域非极大值抑制确定汉字区域坐标；
[0166]
为了实现汉字区域预测，类似目标定位检测网络中，汉字区域预测网络中包含汉字区域预测分类分支和汉字区域坐标偏移量预测分支。对于图像编码特征序列中每个像素都预测得到最多一个唯一对应的汉字区域，并进一步根据不同汉字区域中包含的特征序列对图像编码特征序列进行分类。汉字区域坐标偏移量预测分支通过非极大值抑制最终得到图像中每个汉字的坐标信息。此外，根据汉字区域坐标信息和预设汉字模板，可唯一性地确定用于配准每个汉字的变换矩阵，变换矩阵包括透视变换或仿射变换矩阵从而可以预测得到每个汉字配准后的图像，进一步提高了汉字识别的精度，其中，预设汉字模板包括对所有
汉字统一的预设的宽高像素数。为了实施这种方法，在准备训练素材时，除了文本图像整体文本内容外，还需要标注每个汉字区域的坐标。
[0167]
通过对序列分类可更针对性进行后续解码，提高识别的准确度。将分类后的特征序列分别输入解码器和汉字解码器进行解码，第一序列通过汉字解码器预测汉字，为识别印刷体和艺术体可在训练汉字解码器中扩增相应种类的样本。本技术不限制汉字解码器的形式，例如rnn，crnn网络。第二序列则通过解码器预测非汉字字符，解码器与上述图1中的解码器一致，不再赘述，其可以在训练解码器中去除汉字素材。最终结合汉字区域预测网络输出的汉字区域坐标和非汉字区域坐标、第一字符结果和第二字符结果拼接生成字符识别结果。本技术根据不同字符类型的特点，对序列分区域分网络进行解码识别，实现了精准识别，亦避免了训练中样本素材繁多冗余导致的训练效率低下的问题。
[0168]
在本技术实施例中，经本技术实施例方案可以从光照条件复杂或者其他影响准确获取识别结果的不利因素影响下仍然能稳定准确的得到识别结果，解决了现有技术场景文本识别准确率低、识别稳定性低、对采集图像要求高和抗攻击性差等问题。
[0169]
根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行任意一项的场景文本识别方法。
[0170]
根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行任意一项的场景文本识别方法。
[0171]
根据本发明实施例的另一方面，还提供了一种场景文本识别装置。参考图7，是根据本发明其中一实施例的场景文本识别装置的结构框图。如图7所示，场景文本识别装置包括图像采集单元700、编码单元702、解码单元704和多帧综合单元706
[0172]
图像采集单元700，用于获取多张目标场景图像，其中，所述目标场景图像包含目标对象；
[0173]
编码单元702，用于将每张所述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列；
[0174]
解码单元704，用于通过解码器解码所述图像编码特征序列，生成每张所述目标场景图像的字符识别结果；
[0175]
多帧综合单元706，用于将多帧所述字符识别结果输入多帧综合模块，确定最终字符识别结果。
[0176]
在一种可选的实施例中，所述装置还包括：
[0177]
定位单元，用于将所述目标场景图像输入经过训练的目标定位检测网络，获得所述目标对象的区域坐标和区域类型；
[0178]
校正单元，用于根据所述区域坐标和所述区域类型，将所述目标场景图像仿射变换生成校正后的目标场景图像。
[0179]
在一种可选的实施例中，所述目标定位检测网络包括：
[0180]
第二主干网路，用于处理所述目标场景图像，生成长宽均与目标场景图像的长宽呈比例的第二特征图；
[0181]
区域定位分支，用于根据所述第二特征图，确定目标对象的区域描述向量并输出所述区域坐标；
[0182]
分类网络分支，用于根据所述第二特征图，预测所述区域类型。
[0183]
在一种可选的实施中，所述装置还包括：
[0184]
汉字定位单元，用于通过所述汉字区域预测网络对所述图像编码特征序列进行分类和定位，确定包含汉字区域的第一序列、不包含汉字区域的第二序列、汉字区域坐标和非汉字区域坐标。
[0185]
在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0186]
在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
[0187]
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0188]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0189]
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0190]
以上上述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

技术特征：
1.一种场景文本识别方法，其特征在于，包括：获取多张目标场景图像，其中，所述目标场景图像包含目标对象；将每张所述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列；通过解码器解码所述图像编码特征序列，生成每张所述目标场景图像的字符识别结果；将多帧所述字符识别结果输入多帧综合模块，确定最终字符识别结果。2.根据权利要求1所述的方法，其特征在于，所述将每张所述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列以前，所述方法还包括：将所述目标场景图像输入经过训练的目标定位检测网络，获得所述目标对象的区域坐标和区域类型；根据所述区域坐标和所述区域类型，将所述目标场景图像仿射变换生成校正后的目标场景图像。3.根据权利要求1所述的方法，其特征在于，将每张所述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列，包括：将所述目标场景图像经主干网络特征提取，获得特征序列；将所述特征序列通过至少一层双向循环网络，生成所述图像编码特征序列。4.根据权利要求3所述的方法，其特征在于，将所述目标场景图像经主干网络特征提取，获得特征序列，包括：将所述目标场景图像经所述主干网络处理，生成长宽与所述目标场景图像的长宽呈比例的多层特征图；按所述目标场景图像中文本排列方向，将所述多层特征图切割分离生成所述特征序列。5.根据权利要求3所述的权利要求，其特征在于，所述主干网络由至少一个卷积层，至少一个激活层，重排列层，切割层和合并层组成。6.根据权利要求3所述的权利要求，其特征在于，将所述特征序列通过至少一层双向循环网络，生成所述图像编码特征序列，包括：将所述特征序列分别从正向和反向输入所述至少一层双向循环网络，生成两个候选特征序列；将所述两个候选特征序列按空间对应关系合并，得到所述图像编码特征序列。7.根据权利要求1所述的方法，其特征在于，所述解码器由全连接层或多层感知器、联结时序连接分类模型组成，或者，所述解码器由全连接层或多层感知器、注意力机制和循环神经网络组成。8.根据权利要求7所述的方法，其特征在于，当所述解码器由全连接层或多层感知器、时序连接分类模型组成，所述方法包括：将所述图像编码特征序列输入所述全连接层或多层感知器，获得与输入特征序列同样长度的分类概率分布向量；根据所述目标对象的解码规则，通过所述联结时序分类模型解码所述分类概率分布向量，生成所述每张所述目标场景图像的字符识别结果。
9.根据权利要求7所述的方法，其特征在于，当所述解码器由全连接层或多层感知器、注意力机制和循环神经网络组成，包括：将所述图像编码特征序列中每个序列通过所述全连接层或多层感知器转换为各序列的权重向量；根据所述各序列的权重向量，通过注意力机制融合得到能够表征当前待识别的字符的特征向量；将待识别的字符的特征向量送入所述循环神经网络中进而依次得到所述每张所述目标场景图像的字符识别结果。10.根据权利要求1所述的方法，其特征在于，将多帧所述字符识别结果输入多帧综合模块，确定最终字符识别结果，包括：综合所述字符识别结果，所述多帧综合模块判断是否得到稳定识别结果，若是，完成识别流程并输出所述最终字符识别结果，若否，则返回所述编码器和所述解码器重复识别流程，其中，所述最终字符识别结果为所述字符识别结果的投票结果中重复次数最多且大于第一阈值对应的字符识别结果。11.根据权利要求1所述的方法，其特征在于，所述将多帧所述字符识别结果输入多帧综合模块，确定最终字符识别结果之前，所述方法包括：将所述目标场景图像输入质量评价单元，生成图片质量评分结果。12.根据权利要求11所述的方法，其特征在于，将多帧所述字符识别结果输入多帧综合模块，确定最终字符识别结果之前，所述方法还包括：综合每帧所述字符识别结果、所述图片质量评分结果和目标识别类型的编码规则，对多帧所述字符识别结果进行合理性校验，若是，则输入所述多帧综合模块，若否，则不输入所述多帧综合模块。13.根据权利要求11所述的方法，其特征在于，将所述目标场景图像输入质量评价单元，生成图片质量评分结果，包括：通过对所述目标场景图像进行低通滤波处理得到退化图像，分别度量所述目标场景图像和所述退化图像的图像质量生成两组向量，将所述两组元素中各元素差的平方和的均值作为所述图片质量评分结果。14.根据权利要求13所述的方法，其特征在于，度量所述目标场景图像和所述退化图像的图像质量生成两组向量，包括：分别将所述目标场景图像和所述退化图像中每个像素计算该像素与相邻像素的灰度差的绝对值并求平均值，将所述平均值除以该像素周围邻域内的灰度均值，生成所述两组向量。15.根据权利要求2所述的方法，其特征在于，所述目标定位检测网络包括：第二主干网路，用于处理所述目标场景图像，生成长宽均与目标场景图像的长宽呈比例的第二特征图；区域定位分支，用于根据所述第二特征图，确定目标对象的区域描述向量并输出所述区域坐标；分类网络分支，用于根据所述第二特征图，预测所述区域类型。16.根据权利要求2所述的方法，其特征在于，根据所述区域坐标和所述区域类型，将所
述目标场景图像仿射变换生成校正后的目标场景图像，包括：结合所述区域坐标和预设目标对象模板确定变换矩阵，其中，所述预设目标对象模板的坐标和所述区域坐标一一对应，所述变换矩阵包括：仿射变换矩阵和/或透视变换矩阵；根据所述变换矩阵将所述目标场景图像仿射变换生成校正后的目标场景图像。17.根据权利要求2所述的方法，其特征在于，所述方法包括：创建初始目标定位检测网络；使用样本数据对所述初始目标定位检测网络进行训练，获得所述经过训练的目标定位检测网络，其中，所述样本数据包括第一样本数据和对所述第一样本数据施加随机透视变化生成的第二样本数据。18.根据权利要求17所述的方法，其特征在于，对所述第一样本数据施加随机透视变化生成的第二样本数据，包括：对所述第一样本数据的第一标注区域坐标施加第一范围内的随机偏移生成第二标注区域；根据一一对应的训练目标对象模板区域和所述第二标注区域，确定训练变换矩阵；依据所述训练变换矩阵对所述第一样本数据变换后生成所述第二样本数据。19.根据权利要求1所述的方法，其特征在于，解码所述图像编码特征序列之前，所述方法还包括：通过所述汉字区域预测网络对所述图像编码特征序列进行分类和定位，确定包含汉字区域的第一序列、不包含汉字区域的第二序列、汉字区域坐标和非汉字区域坐标。20.根据权利要求19所述的方法，其特征在于，所述汉字区域预测网络包括：汉字区域预测分类分支，用于对所述图像编码特征序列中每个像素预测对应唯一的汉字区域，确定不同汉字区域中包含的所述图像编码特征序列；汉字区域坐标偏移量预测分支，用于在所述图像编码特征序列上通过邻域非极大值抑制确定汉字区域坐标。21.根据权利要求19所述的方法，其特征在于，通过所述汉字区域预测网络对所述图像编码特征序列进行分类和定位之后，将分类后的特征序列输入所述解码器和汉字解码器生成每张所述目标场景图像的字符识别结果；其中，将分类后的特征序列输入所述解码器和汉字解码器生成每张所述目标场景图像的字符识别结果包括：所述第一序列通过所述汉字解码器解码生成汉字区域的第一字符识别结果，所述第二序列通过所述解码器解码生成非汉字区域的第二字符识别结果；结合所述汉字区域坐标和所述非汉字区域坐标，拼接所述第一字符结果和所述第二字符结果，生成所述每张所述目标场景图像的字符识别结果。22.根据权利要求1所述的方法，其特征在于，所述编码器和所述解码器在训练过程中对训练集进行数据扩增，所述数据扩增包括以下至少一个：伽玛校正、高斯模糊、上下左右翻转。23.根据权利要求1所述的方法，其特征在于，所述编码器和所述解码器的各参数通过反向传播算法和随机梯度下降方法确定。24.根据权利要求2所述的方法，其特征在于，所述区域类型为以下至少一种：单行文本，多行文本，单列文本，多列文本。
25.根据权利要求24所述的方法，其特征在于，当所述区域类型为所述多行文本或多列文本，将所述目标场景图像仿射变换生成校正后的目标场景图像后，所述方法还包括：根据多层文本排列的方式和数目，将所述校正后的目标场景图像划分为多个包含单层文本的子图像；将所述子图像按比例缩放配准至同一规格，并按排列顺序拼接生成拼接后的目标场景图像。26.根据权利要求1所述的方法，其特征在于，获取所述包含目标对象的所述目标场景图像方法包括：用户根据移动端设备图形界面上引导框使用采集装置连续捕获，或，基于目标检测和目标追踪采集装置自动捕获。27.一种场景文本识别装置，其特征在于，包括：图像采集单元，用于获取多张目标场景图像，其中，所述目标场景图像包含目标对象；编码单元，用于将每张所述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列；解码单元，用于通过解码器解码所述图像编码特征序列，生成每张所述目标场景图像的字符识别结果；多帧综合单元，用于将多帧所述字符识别结果输入多帧综合模块，确定最终字符识别结果。28.根据权利要求27所述的装置，其特征在于，所述装置还包括：定位单元，用于将所述目标场景图像输入经过训练的目标定位检测网络，获得所述目标对象的区域坐标和区域类型；校正单元，用于根据所述区域坐标和所述区域类型，将所述目标场景图像仿射变换生成校正后的目标场景图像。29.根据权利要求28所述的装置，其特征在于，所述目标定位检测网络包括：第二主干网路，用于处理所述目标场景图像，生成长宽均与目标场景图像的长宽呈比例的第二特征图；区域定位分支，用于根据所述第二特征图，确定目标对象的区域描述向量并输出所述区域坐标；分类网络分支，用于根据所述第二特征图，预测所述区域类型。30.根据权利要求27所述的装置，其特征在于，所述装置还包括：汉字定位单元，用于通过所述汉字区域预测网络对所述图像编码特征序列进行分类和定位，确定包含汉字区域的第一序列、不包含汉字区域的第二序列、汉字区域坐标和非汉字区域坐标。31.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至26中任意一项所述的场景文本识别方法。32.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至26中任意一项所述的场景文本识别方法。

技术总结
本发明公开了一种场景文本识别方法和装置。其中，该方法包括：获取多张目标场景图像，其中，所述目标场景图像包含目标对象；将每张所述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列；通过解码器解码所述图像编码特征序列，生成每张所述目标场景图像的字符识别结果；将多帧所述字符识别结果输入多帧综合模块，确定最终字符识别结果，解决现有技术场景文本识别准确率低、识别稳定性低、对采集图像要求高和抗攻击性差的技术问题。术问题。术问题。

技术研发人员：张春阳王进徐刚
受保护的技术使用者：虹软科技股份有限公司
技术研发日：2021.11.12
技术公布日：2022/3/8

专利

最新回复(0)