1.本发明涉及计算机视觉及图像生成领域,具体而言,涉及一种基于残差网络的图像处理方法及装置。
背景技术:
2.随着计算机性能的快速提升以及大数据时代的来临,以深度学习作为主要方式的ocr(optical character recognition,光学字符识别)技术已经被广泛应用到卡证分析、交通管理以及票据识别等场景中。作为数据驱动的技术方向,主流的ocr算法模型都需要大量的标注数据作为模型性能提升的保证。但是在实际情况中,符合目标场景的开源数据集较少;此外,人工标注业务数据的方式成本较高。相较于人工标注的方式,利用图像文本生成算法批量生成数据的方式拥有量级可控、成本低廉的优势,已经被业界广泛使用。
3.为了提升ocr算法的检测和识别性能,图像文本生成技术已经成为训练ocr算法模型必备的前置策略。相关技术中提供了一种基于风格迁移的图像文本生成方式可以将带有目标字体风格的文本渲染到原始文本所在的背景图像中,但是,该算法针对的是固定位置的文本进行替换,导致背景图像块信息的缺失。
4.针对上述的问题,目前尚未提出有效的解决方案。
技术实现要素:
5.本发明实施例提供了一种基于残差网络的图像处理方法及装置,以至少解决现有算法无法将新文本渲染到其他位置造成数据集中背景图像块信息缺失的技术问题。
6.根据本发明实施例的一个方面,提供了一种基于残差网络的图像处理方法,包括:获取第一文本图像、第二文本图像和目标背景图像,其中,第一文本图像至少包含第一风格的第一文本和第一背景图像,第二文本图像至少包含第二风格的第二文本和第二背景图像,目标背景图像和第二背景图像都属于同一张背景图像;利用训练好的残差网络对第一文本图像和第二文本图像进行风格迁移,得到第三文本图像,其中,第三文本图像至少包含第二风格的第一文本和第一背景图像;利用训练好的残差网络将第二风格的第一文本与目标背景图像进行融合,生成目标文本图像。
7.可选地,获取第一文本图像包括:从文本集合中随机获取第一文本;基于第一字体文件将第一文本渲染至第一背景图像,生成第一文本图像,其中,第一字体文件为第一风格对应的字体文件。
8.可选地,获取目标背景图像包括:获取第二文本图像对应的业务数据的标注信息,其中,标注信息用于表征业务数据中包含的文本在业务数据中的位置;基于标注信息从业务数据中随机确定目标背景图像。
9.可选地,上述方法还包括:构建训练数据集,其中,训练数据集包括:第一训练图像、第二训练图像和第三训练图像,其中,第一训练图像包含第一风格的第一训练文本,第二训练图像包含第二风格的第二训练文本,第三训练图像包含第二风格的第一训练文本,
第三训练图像中的背景图像与第二训练图像中的背景图像为同一张背景图像的不同图像块;利用训练数据集对初始残差网络进行训练,得到训练好的残差网络。
10.可选地,构建训练数据集包括:获取第一训练文本、第二训练文本、预设背景图像和第一训练背景图像;对预设背景图像进行分块处理,得到多个图像块;从多个图像块中随机确定第二训练背景图像和第三训练背景图像;基于第一字体文件将第一训练文本渲染至第一训练背景图像,生成第一训练图像,其中,第一字体文件为第一风格对应的字体文件;基于第二字体文件将第二训练文本渲染至第二训练背景图像,生成第二训练图像,其中,第二字体文件为第二风格对应的字体文件;基于第二字体文件将第一训练文本渲染至第三训练背景图像,生成第三训练图像。
11.可选地,训练数据集还包括:第四训练图像和第一骨架引导图像,其中,第四训练图像包含第二风格的第一训练文本和第一训练背景图像,第一骨架引导图像包含第二风格的第一训练文本对应的文本骨架。
12.可选地,基于第二字体文件将第一训练文本渲染至第一训练背景图像,生成第四训练图像;利用第二字体文件对第一风格的第一训练文本进行渲染,得到渲染后的第一训练文本;对渲染后的第一训练文本的文本骨架进行处理,生成第一骨架引导图像。
13.可选地,利用训练数据集对初始残差网络进行训练,得到训练好的残差网络包括:利用初始残差网络对第一训练图像和第二训练图像进行风格迁移,得到第一生成图像和第二骨架引导图像;利用初始残差网络将第一生成图像和目标背景图像进行融合,生成第二生成图像;基于第一生成图像和第四训练图像,确定第一损失函数;基于第二生成图像和第三训练图像,确定第二损失函数;基于第一骨架引导图像和第二骨架引导图像,确定第三损失函数;基于第一损失函数、第二损失函数和第三损失函数调整初始残差网络的模型参数,得到训练好的残差网络。
14.根据本发明实施例的另一方面,还提供了一种基于残差网络的图像处理装置,包括:获取模块,用于获取第一文本图像、第二文本图像和目标背景图像,其中,第一文本图像至少包含第一风格的第一文本和第一背景图像,第二文本图像至少包含第二风格的第二文本和第二背景图像,第二背景图像和目标背景图像同属于同一张背景图像;迁移模块,用于利用训练好的残差网络对第一文本图像和第二文本图像进行风格迁移,得到第三文本图像,其中,第三文本图像至少包含第二风格的第一文本和第一背景图像;融合模块,用于利用训练好的残差网络将第二风格的第一文本与目标背景图像进行融合,生成目标文本图像。
15.根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述基于残差网络的图像处理方法。
16.根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述基于残差网络的图像处理方法。
17.在本发明实施例中,通过获取第一文本图像、第二文本图像和目标背景图像,其中,第一文本图像至少包含第一风格的第一文本和第一背景图像,第二文本图像至少包含第二风格的第二文本和第二背景图像,目标背景图像和第二背景图像都属于同一张背景图像;利用训练好的残差网络对第一文本图像和第二文本图像进行风格迁移,得到第三文本
图像,其中,第三文本图像至少包含第二风格的第一文本和第一背景图像;利用训练好的残差网络将第二风格的第一文本与目标背景图像进行融合,生成目标文本图像,实现了针对图像中任意非文本区域的文字填充的技术效果,能够有效增加数据集图像背景信息的比重,进而解决了现有算法无法将新文本渲染到其他位置造成数据集中背景图像块信息缺失的技术问题。
附图说明
18.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
19.图1是根据相关技术的一种synthtext算法生成的文本图像示意图;
20.图2是根据相关技术的一种srnet算法模型结构图的示意图;
21.图3是根据本发明实施例的一种基于残差网络的图像处理方法的流程图;
22.图4是根据本发明实施例的一种可选的残差网络模型结构图的示意图;
23.图5是根据本发明实施例的一种可选的数据集制作流程图的示意图;
24.图6是根据本发明实施例的一种基于残差网络的图像处理装置的结构示意图。
具体实施方式
25.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
26.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
27.为了提升ocr算法的检测和识别性能,图像文本生成技术已经成为训练ocr算法模型必备的前置策略。目前主流的图像文本生成算法主要分为以下几个类型:
28.第一种可以是基于图像语义信息的图像文本生成方式。以synthtext算法为代表的图像文本生成方式利用图像的语义信息,计算得到该图像的梯度以及深度信息,然后利用此类信息确定文本在背景图像中的放置位置以及方向。synthtext算法采用了朴素的“贴图“思想,将随机给定的文本放置到背景图像中的确定位置。但是在实际的业务场景中,文本图像的中文本颜色、字体类型以及文本的形变方式等字体风格是确定的,该类算法无法通过图像的像素信息获取到业务数据中的字体风格信息,导致被放置后的文本信息与背景图像的语义信息视觉差异较大,其主观效果如图1所示。
29.第二种可以是基于风格迁移方式的单字符图像文本生成方式。利用gan
(generative adversarial networks,生成对抗网络)的思想,tet-gan算法实现了基于单字符的图像文本生成。该算法准备了文本内容不同的原始图像和目标图像,其中目标图像中的文本风格与原始文本的文本风格不一致,然后利用gan的训练方式将原始文本图像中的文本内容转换成为目标图像中文本的风格,并保证文本内容不变。tet-gan算法能够有效完成文本的风格迁移任务,但是该算法的输入图像高度是256,这与ocr实际业务场景中的文本图像高度差异较大(通用文本检测和识别模型所需的文本图像高度一般是32),因此可扩展性较差。
30.第三种可以是基于3d引擎的图像文本生成方式。此类算法利用3d引擎对现实场景进行建模,然后根据场景中的光影信息将文本渲染到3d场景中,再将包含文本的3d场景恢复到2d图像。由于此类算法在应用中缺乏符合实际场景的3d模型文件,并且随机指定渲染字体的风格,所以该类算法无法在业务场景中大规模使用。
31.第四种可以是基于风格迁移的长文本图像文本生成方式。以srnet(steganalysis residual network,隐写分析残差网络)为代表的算法将获取目标字体风格、背景文本去除和文本贴图三个任务进行解耦,能够使带有目标字体风格的文本渲染到原始文本所在的背景图像中,实现了在背景图像固定位置的文本图像的批量生成。图2展示了srnet算法的结构示意图。
32.由图2的结构可知,srnet算法完成了将固定位置的原始文本进行擦除、并将文本内容不同、带有该位置初始文本字体风格的新文本渲染到该位置的任务,即通过对固定位置的文本内容进行批量替换,实现了数据集的扩增。此方法由于增加了文本数据的丰富度,能够有效提升ocr模型对文本的识别性能。但是由于该算法无法将新文本渲染到其他位置,所以造成了数据集中背景图像块信息的缺失。另一方面,ocr模型的检测子模型通过鉴别文本图像中前景与背景信息的差异,实现了对图像中文本内容的框选,因此在训练检测模型时要求训练集中包含的文本背景图像尽可能丰富。综上,srnet算法在提升ocr模型的检测性能方面存在模型缺陷。
33.实施例1
34.根据本发明实施例,提供了一种基于残差网络的图像处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
35.图3是根据本发明实施例的基于残差网络的图像处理方法,如图3所示,该方法包括如下步骤:
36.步骤s302,获取第一文本图像、第二文本图像和目标背景图像;
37.其中,第一文本图像至少包含第一风格的第一文本和第一背景图像,第二文本图像至少包含第二风格的第二文本和第二背景图像,目标背景图像和第二背景图像都属于同一张背景图像。
38.具体地,第一文本图像可以指的是用户提供的替换后的文本的新文本图像,第二文本图像指的是业务数据中需要进行文本替换的原始文本图像。文本图像中的文本(包括上述的第一文本和第二文本)可以是指图像中文本的具体内容,风格是指可以是对应文本内容的格式,如文本颜色、字体类型以及文本的形变方式等。不同文本图像中的文本的格式
可以相同也可以不同,但是通常情况下是不同的。目标背景图像可以是随机选取的业务数据的新背景图像,该背景图像与原始文本图像中的背景图像不同,但是与原始文本图像属于同一张背景图像。
39.在一种可选的实施例中,第二文本图像可以是业务数据中文本标注框内的文本图像,目标背景图像可以从业务数据的背景图像集合中随机选取得到,第一文本图像也可以由用户提供第一文本,并在一张灰色背景图像(即上述的第一背景图像)上渲染生成。
40.通过上述步骤,可以获得新文本图像和原始文本图像的文本内容、文本格式和新的背景图像。
41.步骤s304,利用训练好的残差网络对第一文本图像和第二文本图像进行风格迁移,得到第三文本图像;
42.其中,第三文本图像至少包含第二风格的第一文本和第一背景图像。
43.通过观察业务数据可知,含有非文本的区域面积在一张图像中的占比较大。因此为了充分利用标注数据中的背景图像,增加数据集中背景图像信息的比重,进一步提升ocr模型的文本检测能力,可以对srnet算法进行改进。原始srnet算法分为三个模块,分别是用于获取第二风格的第一文本的风格迁移模块,去除原始文本图像中文本内容的文本去除模块以及融合第二风格的第一文本与无文本新背景图像的融合模块。如图4所示,为了增加背景图像块的多样性,上述的残差网络去除掉了原始srnet算法中的文本去除模块;另一方面,为了提升新文本在新背景中的主观一致性,上述的残差网络的融合模块输入中的去除文本背景改为获取到的真实背景。
44.具体地,可以预先利用训练数据训练得到一个上述残差网络,如图4所示,在获取到新文本图像i_t和原始文本图像i_s(即图1所示的原始图像文本块i_s)之后,可以利用该网络中的风格迁移模块对新文本图像i_t以及原始文本图像i_s进行风格迁移,即将新文本图像i_t中文字的格式更改为原始文本图像i_s的文字格式,得到与原始文本图像中文字的风格相同的新文本(即图4中的目标风格新文本t_t)。
45.需要说明的是,如图4所示,风格迁移模块对新文本图像i_t以及原始文本图像i_s进行风格迁移得到目标风格新文本,将目标风格新文本输入骨架算法可以提取出目标风格新文本t_t中文本的骨架。
46.步骤s306,利用训练好的残差网络将第二风格的第一文本与目标背景图像进行融合,生成目标文本图像。
47.具体地,如图4所示,可以利用上述网络中的融合模块将风格迁移后的新文本(即图4中的目标风格新文本t_t)与获取到的新背景图像new_bg融合在一起,生成目标文本图像(即图4中的新背景新文本图像t_f)。具体可以通过将新文本渲染到新背景图像中的方式,实现文本与背景图像融合的目的。
48.在本发明实施例中,通过获取第一文本图像、第二文本图像和目标背景图像,其中,第一文本图像至少包含第一风格的第一文本和第一背景图像,第二文本图像至少包含第二风格的第二文本和第二背景图像,目标背景图像和第二背景图像都属于同一张背景图像;利用训练好的残差网络对第一文本图像和第二文本图像进行风格迁移,得到第三文本图像,其中,第三文本图像至少包含第二风格的第一文本和第一背景图像;利用训练好的残差网络将第二风格的第一文本与目标背景图像进行融合,生成目标文本图像,实现了针对
图像中任意非文本区域的文字填充的技术效果,能够有效增加数据集图像背景信息的比重,进而解决了现有算法无法将新文本渲染到其他位置造成数据集中背景图像块信息缺失的技术问题。
49.可选地,获取第一文本图像包括:从文本集合中随机获取第一文本;基于第一字体文件将第一文本渲染至第一背景图像,生成第一文本图像,其中,第一字体文件为第一风格对应的字体文件。
50.具体地,在数据生成阶段,首先随机选择文本行text_t(即上述第一文本),然后结合标准字体文件font_t(即上述第一字体文件)以及灰色背景图像gray_bg(即上述第一背景图像),利用标准字体渲染模块render_t进行渲染得到新文本图像i_t,即第一文本图像。
51.可选地,获取目标背景图像包括:获取第二文本图像对应的业务数据的标注信息,其中,标注信息用于表征业务数据中包含的文本在业务数据中的位置;基于标注信息从业务数据中随机确定目标背景图像。
52.具体地,业务数据可以是包含很多文本的图像,可以由人工或其他算法模型对图像中的文本内容进行框选,得到不同文本的标注框,也即,得到上述的标注信息。
53.在一种可选的实施例中,可以根据业务数据中所有文本的标注框的坐标,按照一定逻辑可得到业务数据中的背景图像,然后可以从该背景图像中随机选择一个图像块作为上述的目标背景图像(new_bg)。
54.可选地,上述方法还包括:构建训练数据集,其中,训练数据集包括:第一训练图像、第二训练图像和第三训练图像,其中,第一训练图像包含第一风格的第一训练文本,第二训练图像包含第二风格的第二训练文本,第三训练图像包含第二风格的第一训练文本,第三训练图像中的背景图像与第二训练图像中的背景图像为同一张背景图像的不同图像块;利用训练数据集对初始残差网络进行训练,得到训练好的残差网络。
55.具体地,第一训练图像可以作为新文本图像,该文本图像的文本风格为第一风格;第二训练图像可以作为原始文本图像,该文本图像的文本风格为第二风格。第三训练图像可以作为新背景新文本图像,且第三训练图像和第二训练图像的背景图像属于同一张背景图像中不同的图像块。
56.为了适应改进策略,本发明实施例可以对制作数据集的流程进行调整,在大流程不变的情况下,在本发明实施例中可以对背景图像的选择作出更改。原始srnet算法中对背景图像可以随便选择,但是在改进策略中为了保证一次训练过程中涉及到的所有背景图像块都位于一张图像中,可以对一张背景图像进行分块,训练阶段每次选择背景图像时从各自分块后的图像块中随机挑选两张,一张作为渲染新文本的旧背景,即第二训练图像的背景,另一张作为渲染新文本的新背景,即第三训练图像的背景。
57.可选地,构建训练数据集包括:获取第一训练文本、第二训练文本、预设背景图像和第一训练背景图像;对预设背景图像进行分块处理,得到多个图像块;从多个图像块中随机确定第二训练背景图像和第三训练背景图像;基于第一字体文件将第一训练文本渲染至第一训练背景图像,生成第一训练图像,其中,第一字体文件为第一风格对应的字体文件;基于第二字体文件将第二训练文本渲染至第二训练背景图像,生成第二训练图像,其中,第二字体文件为第二风格对应的字体文件;基于第二字体文件将第一训练文本渲染至第三训练背景图像,生成第三训练图像。
58.具体地,在构建训练数据集之前,可以按照上述方式准备数据集。制作数据集需要准备不含文本的背景图像bg、灰色背景图像gray_bg、文本语料库text(包含原始文本text_s和新文本text_t)、标准字体文件font_t和风格字体文件font_s;代码方面需要准备标准字体渲染模块render_t、风格字体渲染模块render_s和骨架生成模块sk,两个渲染模块的区别在于后者加入了丰富的形变操作(投影变换、弯曲等)。准备好上述文件以及模块后,按照如图5所示流程制作数据集,数据集的制作流程可以包括四条线程:第一训练图像的制作流程、第二训练图像的制作流程、目标风格新文本图像(即第四训练图像)的制作以及新背景新文本图像(即第三训练图像)的制作流程。
59.具体地,获取的第一训练文本可以是第一文本图像的第一文本text_t,第二训练文本可以是第二文本图像的第二文本text_s。第一训练图像的背景图像可以是灰色背景图像gray_bg。
60.进一步地,根据业务数据的标注信息对预设背景图像进行分块处理,训练阶段每次可以从上述图像块中随机挑选两个,一个作为第二训练背景图像bg,一张作为第三训练背景图像new_bg。
61.具体地,使用渲染模块render_t将第一训练文本text_t、第一字体文件font_t和第一训练背景图像gray_bg进行渲染,生成第一训练图像i_t(即新文本图像);使用渲染模块render_s将第二训练文本text_s、风格字体文件font_s和第二训练背景图像bg进行渲染,生成第二训练图像(即原始图像文本块);使用渲染模块render_s将第一文本text_t、风格字体文件font_s和第一训练背景图像gray_bg进行渲染,生成第四训练图像(即目标风格新文本图像t_t),同时通过骨架生成模块sk对第四训练图像进行骨架提取得到骨架引导图像t_sk;使用渲染模块render_s将第一文本text_t、风格字体文件font_s和第三训练背景图像new_bg进行渲染,生成第三训练图像(即新背景新文本图像t_f)。
62.可选地,训练数据集还包括:第四训练图像和骨架引导图像,其中,第四训练图像包含第二风格的第一训练文本和第一训练背景图像,第一骨架引导图像包含第二风格的第一训练文本对应的文本骨架。
63.具体地,骨架提取,也叫二值图像细化。这种算法能将一个连通区域细化成一个像素的宽度,用于特征提取和目标拓扑表示。上述的第四训练图像包含目标风格的第一文本,也即,含有第二文本图像文本风格的第一文本图像的第一文本,骨架引导图像包含经第二字体文件渲染后的第一训练文本对应的文本骨架。
64.可选地,基于第二字体文件将第一训练文本渲染至第一训练背景图像,生成第四训练图像;利用第二字体文件对第一风格的第一训练文本进行渲染,得到渲染后的第一训练文本;对渲染后的第一训练文本的文本骨架进行处理,生成第一骨架引导图像。
65.具体地,基于第二字体文件(即风格字体文件font_s),将新文本图像中的第一训练文本通过风格字体渲染模块render_s渲染至第一训练背景图像生成第四训练图像;将第四训练图像输入骨架算法可以得到相应的骨架引导图像,即第一骨架引导图像。
66.可选地,利用训练数据集对初始残差网络进行训练,得到训练好的残差网络包括:利用初始残差网络对第一训练图像和第二训练图像进行风格迁移,得到第一生成图像和第二骨架引导图像;利用初始残差网络将第一生成图像和目标背景图像进行融合,生成第二生成图像;基于第一生成图像和第四训练图像,确定第一损失函数;基于第二生成图像和第
三训练图像,确定第二损失函数;基于第一骨架引导图像和第二骨架引导图像,确定第三损失函数;基于第一损失函数、第二损失函数和第三损失函数调整初始残差网络的模型参数,得到训练好的残差网络。
67.具体地,利用上述准备的数据集对初始残差网络进行训练,初始残差网络的输入为第一训练图像和第二训练图像,输出为第一生成图像、第二骨架引导图像和第二生成图像。通过对比分析第一生成图像和第四训练图像得到该初始残差网络的第一损失函数;通过对比分析第二生成图像以及第三训练图像得到该初始残差网络的第二损失函数;通过对比分析第一骨架引导图像以及第二骨架引导图像得到该初始残差网络的第三损失函数。第一、二、三损失函数反映了初始残差网络的精度,根据第一损失函数、第二损失函数和第三损失函数调整模型参数,继续训练,最终可以得到训练好的残差网络模型,该模型满足精度要求。
68.需要说明的是,上述第一、二、三损失函数可以根据实际需要选择具体的函数类型,本发明对此不作具体限定。
69.实施例2
70.根据本发明实施例的另一方面,还提供了一种基于残差网络的图像处理装置,该装置可以执行上述实施例中提供的基于残差网络的图像处理方法,具体实现方案与应用场景与上述实施例相同,在此不做赘述。
71.图6是根据本发明实施例的一种基于残差网络的图像处理装置的示意图,如图6所示,该装置包括:
72.获取模块60,用于获取第一文本图像、第二文本图像和目标背景图像,其中,第一文本图像至少包含第一风格的第一文本和第一背景图像,第二文本图像至少包含第二风格的第二文本和第二背景图像,第二背景图像和目标背景图像同属于同一张背景图像;
73.迁移模块62,用于利用训练好的残差网络对第一文本图像和第二文本图像进行风格迁移,得到第三文本图像,其中,第三文本图像至少包含第二风格的第一文本和第一背景图像;
74.融合模块64,用于利用训练好的残差网络将第二风格的第一文本与目标背景图像进行融合,生成目标文本图像。
75.可选地,第一文本图像的获取还包括:从文本集合中随机获取第一文本;基于第一字体文件将第一文本渲染至第一背景图像,生成第一文本图像,其中,第一字体文件为第一风格对应的字体文件。
76.可选地,目标背景图像的获取包括:获取第二文本图像对应的业务数据的标注信息,其中,标注信息用于表征业务数据中包含的文本在业务数据中的位置;基于标注信息从业务数据中随机确定目标背景图像。
77.可选地,上述方法还包括构建训练数据集,其中,训练数据集包括:第一训练图像、第二训练图像和第三训练图像,其中,第一训练图像包含第一风格的第一训练文本,第二训练图像包含第二风格的第二训练文本,第三训练图像包含第二风格的第一训练文本,第三训练图像中的背景图像与第二训练图像中的背景图像为同一张背景图像的不同图像块;利用训练数据集对初始残差网络进行训练,得到训练好的残差网络。
78.可选地,构建训练数据集包括:获取第一训练文本、第二训练文本、预设背景图像
和第一训练背景图像;对预设背景图像进行分块处理,得到多个图像块;从多个图像块中随机确定第二训练背景图像和第三训练背景图像;基于第一字体文件将第一训练文本渲染至第一训练背景图像,生成第一训练图像,其中,第一字体文件为第一风格对应的字体文件;基于第二字体文件将第二训练文本渲染至第二训练背景图像,生成第二训练图像,其中,第二字体文件为第二风格对应的字体文件;基于第二字体文件将第一训练文本渲染至第三训练背景图像,生成第三训练图像。
79.可选地,训练数据集还包括:第四训练图像和第一骨架引导图像,其中,第四训练图像包含第二风格的第一训练文本和第一训练背景图像,第一骨架引导图像包含第二风格的第一训练文本对应的文本骨架。
80.可选地,基于第二字体文件将第一训练文本渲染至第一训练背景图像,生成第四训练图像;利用第二字体文件对第一风格的第一训练文本进行渲染,得到渲染后的第一训练文本;对渲染后的第一训练文本的文本骨架进行处理,生成第一骨架引导图像。
81.可选地,利用训练数据集对初始残差网络进行训练,得到训练好的残差网络包括:利用初始残差网络对第一训练图像和第二训练图像进行风格迁移,得到第一生成图像和第二骨架引导图像;利用初始残差网络将第一生成图像和目标背景图像进行融合,生成第二生成图像;基于第一生成图像和第四训练图像,确定第一损失函数;基于第二生成图像和第三训练图像,确定第二损失函数;基于第一骨架引导图像和第二骨架引导图像,确定第三损失函数;基于第一损失函数、第二损失函数和第三损失函数调整初始残差网络的模型参数,得到训练好的残差网络。
82.实施例3
83.根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行实施例1中的图像处理方法。
84.实施例4
85.根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行实施例1中的图像处理方法。
86.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
87.在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
88.在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
89.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
90.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以
是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
91.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
92.以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
技术特征:
1.一种基于残差网络的图像处理方法,其特征在于,包括:获取第一文本图像、第二文本图像和目标背景图像,其中,所述第一文本图像至少包含第一风格的第一文本和第一背景图像,所述第二文本图像至少包含第二风格的第二文本和第二背景图像,所述目标背景图像和所述第二背景图像都属于同一张背景图像;利用训练好的残差网络对所述第一文本图像和所述第二文本图像进行风格迁移,得到第三文本图像,其中,所述第三文本图像至少包含所述第二风格的所述第一文本和所述第一背景图像;利用所述训练好的残差网络将所述第二风格的所述第一文本与所述目标背景图像进行融合,生成目标文本图像。2.根据权利要求1所述的方法,其特征在于,获取所述第一文本图像包括:从文本集合中随机获取所述第一文本;基于第一字体文件将所述第一文本渲染至所述第一背景图像,生成所述第一文本图像,其中,所述第一字体文件为所述第一风格对应的字体文件。3.根据权利要求1所述的方法,其特征在于,获取所述目标背景图像包括:获取所述第二文本图像对应的业务数据的标注信息,其中,所述标注信息用于表征所述业务数据中包含的文本在所述业务数据中的位置;基于所述标注信息从所述业务数据中随机确定所述目标背景图像。4.根据权利要求1至3中任意一项所述的方法,其特征在于,所述方法还包括:构建训练数据集,其中,所述训练数据集包括:第一训练图像、第二训练图像和第三训练图像,其中,所述第一训练图像包含所述第一风格的第一训练文本,所述第二训练图像包含所述第二风格的第二训练文本,所述第三训练图像包含所述第二风格的所述第一训练文本,所述第三训练图像中的背景图像与所述第二训练图像中的背景图像为同一张背景图像的不同图像块;利用所述训练数据集对初始残差网络进行训练,得到所述训练好的残差网络。5.根据权利要求4所述的方法,其特征在于,构建训练数据集包括:获取所述第一训练文本、所述第二训练文本、预设背景图像和第一训练背景图像;对所述预设背景图像进行分块处理,得到多个图像块;从所述多个图像块中随机确定第二训练背景图像和第三训练背景图像;基于第一字体文件将所述第一训练文本渲染至所述第一训练背景图像,生成所述第一训练图像,其中,所述第一字体文件为所述第一风格对应的字体文件;基于第二字体文件将所述第二训练文本渲染至所述第二训练背景图像,生成所述第二训练图像,其中,所述第二字体文件为所述第二风格对应的字体文件;基于所述第二字体文件将所述第一训练文本渲染至所述第三训练背景图像,生成所述第三训练图像。6.根据权利要求5所述的方法,其特征在于,所述训练数据集还包括:第四训练图像和第一骨架引导图像,其中,所述第四训练图像包含所述第二风格的所述第一训练文本和所述第一训练背景图像,所述第一骨架引导图像包含所述第二风格的所述第一训练文本对应的文本骨架。7.根据权利要求6所述的方法,其特征在于,构建所述训练数据集还包括:
基于所述第二字体文件将所述第一训练文本渲染至所述第一训练背景图像,生成所述第四训练图像;利用所述第二字体文件对所述第一风格的所述第一训练文本进行渲染,得到渲染后的第一训练文本;对所述渲染后的第一训练文本的文本骨架进行处理,生成所述第一骨架引导图像。8.根据权利要求6所述的方法,其特征在于,利用所述训练数据集对初始残差网络进行训练,得到所述训练好的残差网络包括:利用所述初始残差网络对所述第一训练图像和所述第二训练图像进行风格迁移,得到第一生成图像和第二骨架引导图像;利用所述初始残差网络将所述第一生成图像和所述目标背景图像进行融合,生成第二生成图像;基于所述第一生成图像和所述第四训练图像,确定第一损失函数;基于所述第二生成图像和所述第三训练图像,确定第二损失函数;基于所述第一骨架引导图像和所述第二骨架引导图像,确定第三损失函数;基于所述第一损失函数、所述第二损失函数和所述第三损失函数调整所述初始残差网络的模型参数,得到所述训练好的残差网络。9.一种基于残差网络的图像处理装置,其特征在于,包括:获取模块,用于获取第一文本图像、第二文本图像和目标背景图像,其中,所述第一文本图像至少包含第一风格的第一文本和第一背景图像,所述第二文本图像至少包含第二风格的第二文本和第二背景图像,所述第二背景图像和所述目标背景图像同属于同一张背景图像;迁移模块,用于利用训练好的残差网络对所述第一文本图像和所述第二文本图像进行风格迁移,得到第三文本图像,其中,所述第三文本图像至少包含所述第二风格的所述第一文本和所述第一背景图像;融合模块,用于利用所述训练好的残差网络将所述第二风格的所述第一文本与所述目标背景图像进行融合,生成目标文本图像。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至8中任意一项所述的基于残差网络的图像处理方法。11.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的基于残差网络的图像处理方法。
技术总结
本发明公开了一种基于残差网络的图像处理方法及装置。其中,该方法包括:获取第一文本图像、第二文本图像和目标背景图像,其中,第一文本图像至少包含第一风格的第一文本和第一背景图像,第二文本图像至少包含第二风格的第二文本和第二背景图像,目标背景图像和第二背景图像都属于同一张背景图像;利用训练好的残差网络对第一文本图像和第二文本图像进行风格迁移,得到第三文本图像,其中,第三文本图像至少包含第二风格的第一文本和第一背景图像;利用训练好的残差网络将第二风格的第一文本与目标背景图像进行融合,生成目标文本图像。本发明解决了现有算法无法将新文本渲染到其他位置造成数据集中背景图像块信息缺失的技术问题。术问题。术问题。
技术研发人员:张凯昱 杨青
受保护的技术使用者:度小满科技(北京)有限公司
技术研发日:2021.12.13
技术公布日:2022/3/8