1.本发明涉及图像处理领域,尤其涉及一种基于文本信息的目标图像的块的识别和提取系统。
背景技术:
2.当前,针对含有密集文本的目标图像中的多个块进行自动识别和提取可以采用目标检测的方法,然而对于遇到部分残缺或者遮挡的目标图像采用该方法效果较差,且目标检测需要对这些目标块分别进行图像采集、标注然后训练,非常耗时。因此,通过目标检测方法提取密集文本图像块存在识别不准确和效率低下的问题。
技术实现要素:
3.本发明针对含有密集文本的任意目标图像进行指定块的自动识别和提取,解决采用通过目标检测方法提取密集文本图像块不准确和效率低下的问题;采用该发明能够快速方便提取密集文本中指定图像块,对于不同的图像目标,不需进行图像标注和模型训练。基于ocr文本检测和识别方法,本发明通过分析利用ocr技术获得的坐标和文本信息,以及图像中的文本之间的相对位置关系和块中确定的关键字来对目标图像中指定块进行自动识别和提取;待测图像从某种意义上可以是任意图像,图像中的目标块可以是直立,倒立,倾斜,部分遮挡或者缺失;目标块可以是附在平面物体或者曲面物体上。不管是何种情形,最终目的是根据ocr文本检测和识别的结果,近似的获取待测图像中目标块的四个顶点的坐标,从而最终快速、准确自动识别和提取待测图像中的目标块。
4.本发明的技术方案是:基于文本信息的目标图像的块识别和提取系统,包括:目标图像采集模块、文本检测和识别模块、关键字和基本信息模块、目标块顶点坐标计算模块、目标块识别和提取模块;所述目标图像采集模块利用手机或者平板采集多样性的目标图像;所述文本检测和识别模块采用ocr技术获取图像中文本所在文本框的坐标信息;所述关键字和基本信息模块用于确定标准图像中的关键字、其高度及其某固定顶点和目标块四个顶点的水平和垂直距离;所述目标块顶点坐标计算模块根据关键字和文本框坐标计算目标块的四个顶点坐标;所述目标块识别和提取模块根据目标块四个顶点坐标和待测图像大小对目标块图像进行识别和提取,当未检测到相关的关键字时则认为目标块不存在或者不完整。
5.系统各模块的主要特征及实现方法如下:1. 所述目标图像采集模块包括:利用包含手机、平板、相机等拍照设备采集含有目标的多种多样的多张图像,包括图像背景多样性、目标完整或者不完整(遮挡或者只拍摄到局部)、目标倾斜、直立或者倒立等;目的是测试使用ocr技术被识别准确的常见文本,为后续关键字选择提供依据。
6.2. 所述文本检测和识别模块包括:利用ocr技术对所述采集到的图像进行文本检测和识别获取文本框坐标和对应文本信息;
其中所述ocr技术可以识别到包含中文、英文、字母、阿拉伯数字、标点符号等在内的文本信息;其中所述文本框是一个长方形,输出的坐标是指该长方形的四个顶点坐标,由于图像中的文本本身在图像中可能是倾斜的,因此所述ocr技术输出的坐标顺序并不一定是按照文本框的左上角顶点、右上角顶点、右下角顶点和左下角顶点顺序输出的。
7.3. 所述关键字和基本信息确定模块包括:标准图像选定子单元、关键字和其某固定顶点选定子单元、标准图像中关键字高度计算子单元、关键字固定顶点和块中顶点距离计算子单元。
8.所述标准图像是指清晰且目标完整的其中主要文本是水平的图像。
9.3(1)所述标准图像子单元用于选定一张含有完整目标的清晰图像,在该图像中的主要文本信息应该是处于水平位置的。
10.3(2)所述关键字和其某固定顶点选定子单元ocr技术中所得到的文本框和文本信息确定目标块对应的多个关键字,这些关键字是水平的,且应该是被识别到的概率较大,且一般位于文本框的两端,其中对于选定的关键字识别到得概率越大优先级越高;对于关键字固定顶点一般选择它的四个顶点之一。
11.3(3)所述标准图像中关键字高度计算子单元通过获取该关键字的右上角顶点和右下角顶点坐标计算得到其高度。
12.3(4)所述标准图像中关键字固定顶点和块中顶点距离计算子单元通过获取到关键字固定顶点坐标、块的顶点坐标,从而计算该关键字固定顶点和块顶点的水平距离和垂直距离。
13.4. 所述目标块顶点坐标计算模块包括:文本检测和识别子单元、目标块和关联的关键字确定子单元、关键字所在文本框形状确定子单元、关键字所在文本框顶点坐标重排子单元、关键字固定顶点坐标计算子单元、目标块四个顶点坐标计算子单元。
14.4(1)所述文本检测和识别子单元用于对待测图像进行文本检测和识别获取其中的文本框坐标和对应文本信息。
15.4(2)所述目标块和关联的关键字确定子单元根据文本框坐标和文本信息结合3(2)中的关键字优先级确定该目标块对应的关键字以及固定顶点。
16.4(3)所述关键字所在文本框形状确定子单元用于确定所述文本框的形状,包括8种形状,分别是“直立”、“倒立”、“向左旋转90度”、“向右旋转90度”、“左上角倾斜”、“右下角倾斜”、“左下角倾斜”、“右上角倾斜”。
17.4(4)所述关键字所在文本框的坐标顶点重排子单元用于将ocr输出的文本框坐标顶点顺序进行重新排列,使得排列之后的四个顶点的坐标依次对应着标准图像中的四个顶点坐标顺序,即左上角、右上角、右下角、左下角的顺时针顺序。
18.4(5)所述关键字固定顶点坐标计算子单元通过结合其所在文本框的形状、文本框重排之后对应到的坐标、以及该关键字在文本信息中的位置来计算该固定顶点的坐标。
19.4(6)所述目标块四个顶点的坐标计算子单元结合关键字所在文本框的形状根据标准图像中关键字固定顶点和块的顶点的相对距离来计算块中每一个顶点的坐标。
20.所述的目标块四个顶点的坐标计算子单元:4(6)(a)根据关键字所在文本框计算该关键字的高。
21.4(6)(b)根据标准图像中该关键字的高度和其固定顶点与目标块的顶点的水平距离和垂直距离,计算出待测图像中该固定顶点和的待测目标图像中的目标块顶点的水平距离和垂直距离。
22.4(6)(c)再结合该固定顶点的坐标计算出目标块顶点的坐标。
23.5. 所述目标块的识别和提取模块根据有无相应关键字和计算出来的目标块的四个顶点的坐标与待测图像大小进行比较确定待测图像中是否存在或者该块是否残缺太多,根据预设的阈值确定是否利用四个顶点坐标对其进行提取。对于需要提取的目标块,根据对应文本框倾斜角度对所述待测图像按照某种坐标变换得到新的图像,在新的图像中根据四个对应的坐标顶点直接提取该矩形块即为待测图像中的目标块。
附图说明
24.图1是本发明“一种基于文本信息的目标图像的识别和提取模块”的实施例的结构示意图。
25.图2是图像的像素坐标系、文本框示意图。
26.图3是关键字和基本信息模块流程图。
27.图4是目标块顶点坐标计算模块流程图。
28.图5 (a) 和5 (b) 分别是图像文本框中“向左旋转90度”和“向右旋转90度”形状示例图。
29.图6 (c) 和 6 (d) 分别是图像文本框中“直立”和“倒立”形状示例图。
30.图7 (e) 和 7 (f) 分别是图像文本框中“左上角倾斜”和“右下角倾斜”形状示例图。
31.图8 (g) 和 8 (h) 分别是图像文本框中“左下角倾斜”和“右上角倾斜”形状示例图。
32.图9是图像文本框中形状为“左上角倾斜”情形时计算其所在块左上角顶点的示意图。
具体实施方式
33.以下结合附图对本发明实施例作进一步说明,下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制,凡在本发明的精神和原则之内所做的任何修改、等同替换或改进等,均应包含在本发明的权利要求范围之内,本技术方案中未详细述及的,均为公知技术。
34.参见图1~及附图9,本发明基于文本信息的目标图像的块识别和提取系统,包括:目标图像采集模块、文本检测和识别模块、关键字和基本信息模块、目标块顶点坐标计算模块、目标块识别和提取模块。
35.所述目标图像采集模块利用手机或者平板采集多样性的目标图像;所述文本检测和识别模块采用ocr技术获取图像中文本所在文本框的坐标信息;所述关键字和基本信息模块用于确定标准图像中的关键字、其高度及其某固定顶点和目标块四个顶点的水平和垂直距离;所述目标块顶点坐标计算模块根据关键字和文本框坐标计算目标块的四个顶点坐标;所述目标块识别和提取模块根据目标块四个顶点坐标和待测图像大小对目标块图像进
行识别和提取,当未检测到相关的关键字时则认为该块不存在或者非常不完整。
36.附图1是本发明“一种基于文本信息的目标图像的识别和提取模块”的实施例的结构示意图。
37.系统各模块的主要特征及实现方法如下:1. 所述目标图像采集模块包括:利用包含手机、平板、相机等拍照设备采集含有目标的多种多样的多张图像,包括图像背景多样性、目标完整或者不完整(遮挡或者只拍摄到局部)、目标倾斜、直立或者倒立等。
38.2. 所述文本检测和识别模块包括:利用ocr技术对所述采集到的图像进行文本检测和识别获取文本框坐标和对应文本信息;其中所述ocr技术可以识别到包含中文、英文、字母、阿拉伯数字、标点符号等在内的文本信息;其中所述文本框是一个长方形,输出的坐标是指该长方形的四个顶点坐标,由于图像中文本本身在图像中是倾斜的,因此所述ocr技术输出的坐标顺序并不一定是按照文本框的左上角顶点、右上角顶点、右下角顶点和左下角顶点顺序输出的。
39.示例性的,附图2中,“文本检测与识别”文本框中左上角顶点是 (x0, y0)、右上角顶点 (x1, y1)、右下角顶点 (x2, y2) 和左下角顶点 (x3, y3)。
40.所述ocr技术,可选的,百度公司开源的paddleocr模型,可以识别和检测图像中的文本信息;所述paddleocr模型能够检测密集文本或者曲面上文本中的部分文本。
41.所述ocr技术输出的文本框坐标是由图像的像素坐标系得到的,该坐标系中以图像的左上角为原点,以图像的最上方的那条边为x轴,其中往右为其正方向;以图像的最左边那条边为y轴,其中往下为其正方向,像素坐标系见附图2。
42.3. 所述关键字和基本信息确定模块包括:标准图像选定子单元、关键字和其某固定顶点选定子单元、标准图像中关键字高度计算子单元、关键字固定顶点和块中顶点距离计算子单元。附图3是关键字和基本信息模块流程图。
[0043] 3(1)所述标准图像子单元用于选定一张含有完整目标的清晰图像,在该图像中的主要文本信息应该是处于水平位置的。
[0044]
示例性的,附图2中的图像是含有“关键字”和“文本检测与识别”两个文本的标准图像。
[0045]
3(2)所述关键字和其某固定顶点选定子单元ocr技术中所得到的文本框和文本信息确定目标块对应的多个关键字,这些关键字是水平的,被识别到的概率较大,且一般位于文本框的两端,其中对于选定的关键字被识别到得概率越大优先级越高;对于关键字固定顶点一般选择它的四个顶点之一。
[0046]
示例性的,假设所选的关键字都在相应的目标块中。
[0047]
3(3)所述标准图像中关键字高度计算子单元通过获取该关键字的右上角顶点坐标(x1, y1)和右下角顶点坐标(x2, y2)计算得到其高度h
key
,如下公式,。
[0048]
3(4)所述标准图像中关键字固定顶点和块中顶点距离计算子单元通过获取到关键字固定顶点坐标(x
key
, y
key
)、块的顶点坐标(a, b),从而如下公式计算该关键字固定顶点和块顶点的水平距离dish和垂直距离disv,
,此处,h表示水平方向,v表示垂直方向,对于块中的其他顶点的坐标可以类似计算。
[0049]
可选的,可以通过python中的用鼠标点击点的方式获取图像中某点的像素坐标;由于考虑的块是一个长方形,优选的,可以只需获取关键字的固定顶点坐标、长方形的左上角顶点的坐标(水平距离h
lu
,垂直距离v
lu
)和右下角顶点的坐标(水平距离h
rd
,垂直距离v
rd
),则可以得到所述固定顶点和长方形的左下角顶点的坐标(水平距离h
ld
,垂直距离v
ld
)和长方形右上角顶点的坐标(水平距离h
ru
,垂直距离v
ru
)如下式子:,此处,l表示left,r表示right,u表示up,d表示down。
[0050]
4. 所述目标块顶点坐标计算模块包括:文本检测和识别子单元、目标块和关联的关键字确定子单元、关键字所在文本框形状确定子单元、关键字所在文本框顶点坐标重排子单元、关键字固定顶点坐标计算子单元、目标块四个顶点坐标计算子单元。附图4是目标块顶点坐标计算模块流程图。
[0051]
4(1)所述文本检测和识别子单元用于对待测图像进行文本检测和识别获取其中的文本框坐标和对应文本信息。
[0052]
4(2)所述目标块和关联的关键字确定子单元根据文本框坐标和文本信息结合3(2)中的关键字优先级确定该目标块对应的关键字以及固定顶点。
[0053]
所述关键字固定顶点为所述关键字的左上角、右上角、右下角、左下角四个顶点之一。
[0054]
4(3)所述关键字所在文本框形状确定子单元用于确定所述文本框的形状,包括8种形状,分别是“直立”、“倒立”、“向左旋转90度”、“向右旋转90度”、“左上角倾斜”、“右下角倾斜”、“左下角倾斜”、“右上角倾斜”。
[0055] 4(3)中所述关键字所在的文本框形状根据该文本框长边的斜率以及和目标图像中其他文本所在的不同文本框的位置进行比较确定。具体的,如下面情形。
[0056]
示例性的,见附图2,“关键字”和“文本检测与识别”是该图中的文本,且在标准图像中前者在后者上面;下面考虑关键字“关”所在文本框的形状。
[0057]
当“关键字”文本框长边斜率不存在且该文本框坐标的x轴方向的坐标大小小于在“文本检测与识别”文本框坐标的x轴方向的坐标大小时,则该文本框的形状是“向左旋转90度”,见附图5 (a)。
[0058]
当“关键字”文本框长边斜率不存在且该文本框坐标的x轴方向的坐标大小大于在“文本检测与识别”文本框坐标的x轴方向的坐标大小时,则该文本框的形状是“向右旋转90度”,见附图5 (b)。
[0059]
当“关键字”文本框长边斜率等于0且“文本检测与识别”文本框的顶点坐标在“关
键字”文本框的长边的下方时,则该文本框的形状是“直立的”,见附图6(c)。
[0060]
当“关键字”文本框长边斜率等于0且“文本检测与识别”文本框的顶点坐标在“关键字”文本框的长边的上方时,则该文本框的形状是“倒立”,见附图6(d)。
[0061]
当“关键字”文本框长边斜率小于0且“文本检测与识别”文本框的顶点坐标在“关键字”文本框的长边的下方时,则该文本框的形状是“左上角倾斜”的,见附图7(e)。
[0062]
当“关键字”文本框长边斜率小于0且“文本检测与识别”文本框的顶点坐标在“关键字”文本框的长边的上方时,则该文本框的形状是“右下角倾斜”的,见附图7(f)。
[0063]
当“关键字”文本框长边斜率大于0且“文本检测与识别”文本框的顶点坐标在“关键字”文本框的长边的上方时,则该文本框的形状是“左下角倾斜”的,见附图8(g)。
[0064]
当“关键字”文本框长边斜率大于0且“文本检测与识别”文本框的顶点坐标在“关键字”文本框的长边的下方时,则该文本框的形状是“右上角倾斜”的,见附图8(h)。
[0065]
4(4)所述关键字所在文本框的坐标顶点重排子单元用于将ocr输出的文本框坐标顶点顺序进行重新排列,使得排列之后的四个顶点的坐标依次对应着标准图像中的四个顶点坐标顺序,即左上角、右上角、右下角、左下角的顺时针顺序。
[0066]
示例性的,给定文本框的四个顶点的坐标:[(x1,y1),(x2,y2),(x3,y3),(x4,y4)],令box[1]=(x1,y1),box[2]=(x2,y2),box[3]=(x3,y3),box[4]=(x4,y4);假设重排之后的四个顶点的坐标是:a,b,c,d,则根据文本框的形状,重排之后的四个顶点坐标a,b,c,d分别计算如下。
[0067]
若文本框的形状是“直立”的,则有:a=(x1,y1);b=(x2,y2);c=(x3,y3);d=(x4,y4)。
[0068]
若文本框的形状是“倒立”的,则有:a=(x3,y3);b=(x4,y4);c=(x1,y1);d=(x2,y2)。
[0069]
若文本框的形状是“向左旋转90度”的,则有:a=(x4,y4);b=(x1,y1);c=(x2,y2);d=(x3,y3)。
[0070]
若文本框的形状是“向右旋转90度”的,则有:a=(x2,y2);b=(x3,y3);c=(x4,y4);d=(x1,y1)。
[0071]
若文本框的形状是“左上角倾斜”、“右下角倾斜”、“左下角倾斜”或“右上角倾斜”时,令point
x
={x1,x2,x3,x4};pointy={y1,y2,y3,y4},显然point
x
中的四个数互不相等,pointy中的四个数也互不相等;记min_point
x
为point
x
中的最小数的下标;记max_point
x
为point
x
中的最大数的下标;记min_pointy为pointy中的最小数的下标;记max_pointy为pointy中的最大数的下标;显然{min_point
x
,max_point
x
,min_pointy,max_pointy}={1,2,3,4}。
[0072]
若文本框的形状是“左上角倾斜”的,则有:a=box[min_point
x
];b=box[min_pointy];c=box[max_point
x
];d=box[max_pointy]。
[0073]
若文本框的形状是“右下角倾斜”的,则有:a=box[max_point
x
];b=box[max_pointy];c=box[min_point
x
];d=box[min_pointy]。
[0074]
若文本框的形状是“左下角倾斜”的,则有:
x’,得到如下三个式子,。
[0085]
通过结合上述式子,该块的左上角顶点坐标 (x, y):,其中,
ꢀꢀ
。
[0086]
针对文本框形状为“左上角倾斜”时,类似的,可计算块的右上角顶点坐标 (x, y) 得到:。
[0087]
针对文本框形状为“左上角倾斜”时,类似的,可计算块的右下角顶点坐标 (x, y) 得到:。
[0088]
针对文本框形状为“左上角倾斜”时,类似的,可计算块的左下角顶点坐标 (x, y) 得到:
。
[0089]
为了简单,令:。
[0090]
文本框为“左上角倾斜”情形时,根据标准图像中块按照左上角、右上角、右下角、左下角的顺序时所述块的四个顶点坐标分别计算得到为,左上角顶点坐标:,右上角顶点坐标:,右下角顶点坐标:,左下角顶点坐标:。
[0091]
文本框为“右下角倾斜”情形时,根据标准图像中块按照左上角、右上角、右下角、左下角的顺序时所述块的四个顶点坐标分别计算得到为,左上角顶点坐标:,右上角顶点坐标:
,右下角顶点坐标:,左下角顶点坐标:。
[0092]
文本框为“左下角倾斜”情形时,根据标准图像中块按照左上角、右上角、右下角、左下角的顺序时所述块的四个顶点坐标分别计算得到为,左上角顶点坐标:,右上角顶点坐标:,右下角顶点坐标:,左下角顶点坐标:。
[0093]
文本框为“右上角倾斜”情形时,根据标准图像中块按照左上角、右上角、右下角、左下角的顺序时所述块的四个顶点坐标分别计算得到为,左上角顶点坐标:,右上角顶点坐标:,
右下角顶点坐标:,左下角顶点坐标:。
[0094]
文本框为“直立”情形时,根据标准图像中块按照左上角、右上角、右下角、左下角的顺序时所述块的四个顶点坐标分别计算得到为,左上角顶点坐标:,右上角顶点坐标:,右下角顶点坐标:,左下角顶点坐标:。
[0095]
文本框为“倒立”情形时,根据标准图像中块按照左上角、右上角、右下角、左下角的顺序时所述块的四个顶点坐标分别计算得到为,左上角顶点坐标:,右上角顶点坐标:,右下角顶点坐标:,左下角顶点坐标:
。
[0096]
文本框为“向左旋转90度”情形时,根据标准图像中块按照左上角、右上角、右下角、左下角的顺序时所述块的四个顶点坐标分别计算得到为,左上角顶点坐标:,右上角顶点坐标:,右下角顶点坐标:,左下角顶点坐标:。
[0097]
文本框为“向右旋转90度”情形时,根据标准图像中块按照左上角、右上角、右下角、左下角的顺序时所述块的四个顶点坐标分别计算得到为,左上角顶点坐标:,右上角顶点坐标:,右下角顶点坐标:,左下角顶点坐标:。
[0098]
5. 所述目标块的识别和提取模块根据有无相应关键字和计算出来的目标块的四个顶点的坐标与待测图像大小进行比较确定待测图像中是否存在或者该块是否残缺太多,根据预设的阈值确定是否利用四个顶点坐标对其进行提取。
[0099]
对于需要提取的目标块,根据对应文本框倾斜角度对所述待测图像按照某种坐标变换得到新的图像,在新的图像中根据四个对应的坐标顶点直接提取该矩形块即为待测图像中的目标块。
[0100]
本发明基于文本信息对目标图像的块识别和提取的系统,能解决现有目标检测方法不能对密集文本图像中的多目标块进行快速,自动有效提取的问题。
[0101]
在本系统中,待提取图像目标块可以完整,残缺,遮挡,密集文本目标可能位于平面上,也可能位于曲面上。避免了采用需要进行图像标注、模型训练耗时耗力且效果不好的目标检测方法。
[0102]
使用可获取的ocr技术直接对文本进行检测和识别,不需要额外进行大量数据采集、标注、训练。尽管当前ocr技术对于曲面文本进行检测效果有限,但是经过实验检测,一般都能够识别到一定的文本,利用选定关键字的方法,只需在存在的块中找到某一个关键字就可以使用本发明对块进行自动识别和提取。本系统为后续的对密集文本的图像进行分块校正等应用有帮助,比如含有说明书等密集文本的商标的分块图像校正。
技术特征:
1.一种基于文本信息的目标图像的块识别和提取系统,包括:目标图像采集模块、文本检测和识别模块、关键字和基本信息模块、目标块顶点坐标计算模块、目标块识别和提取模块;所述目标图像采集模块利用手机或者平板采集多样性的目标图像;所述文本检测和识别模块采用ocr技术获取图像中文本所在文本框的坐标信息;所述关键字和基本信息模块用于确定标准图像中的关键字、其高度及其某固定顶点和目标块四个顶点的水平和垂直距离;所述目标块顶点坐标计算模块根据关键字和文本框坐标计算目标块的四个顶点坐标;所述目标块识别和提取模块根据目标块四个顶点坐标和待测图像大小对目标块图像进行识别和提取,当未检测到相关的关键字时则认为该块不存在或者不完整;其特征在于:所述关键字和基本信息确定模块包括:标准图像选定子单元、关键字和其某固定顶点选定子单元、标准图像中关键字高度计算子单元、关键字固定顶点和块中顶点距离计算子单元;所述标准图像是指清晰且目标完整的其中主要文本是水平的图像;所述目标块顶点坐标计算模块包括:文本检测和识别子单元、目标块和关联的关键字确定子单元、关键字所在文本框形状确定子单元、关键字所在文本框顶点坐标重排子单元、关键字固定顶点坐标计算子单元、目标块四个顶点坐标计算子单元。2.如权利要求1所述一种基于文本信息的目标图像的块识别和提取系统,其特征在于:所述目标图像采集模块包括:利用包含手机、平板、相机等拍照设备采集含有目标的多种多样的多张图像,包括图像背景多样性、目标完整或者不完整、目标倾斜、直立或者倒立等。3.如权利要求1所述的一种基于文本信息的目标图像的块识别和提取系统,其特征在于:所述文本检测和识别模块包括:利用ocr技术对所述采集到的图像进行文本检测和识别获取文本框坐标和对应文本信息;其中所述ocr技术可以识别到包含中文、英文、字母、阿拉伯数字、标点符号等在内的文本信息;其中所述文本框是一个长方形,输出的坐标是指该长方形的四个顶点坐标,由于图像中的文本本身在图像中可能是倾斜的,因此所述ocr技术输出的坐标顺序并不一定是按照文本框的左上角顶点、右上角顶点、右下角顶点和左下角顶点顺序输出的。4.如权利要求1所述的一种基于文本信息的目标图像的块识别和提取系统,其特征在于:所述关键字和基本信息模块包括:所述标准图像子单元用于选定一张含有完整目标的清晰图像,在该图像中的主要文本信息应该是处于水平位置的;所述关键字和其某固定顶点选定子单元根据权利要求3中所得到的文本框和文本信息确定目标块对应的多个关键字,这些关键字是水平的,被识别到的概率较大,且一般位于文本框的两端,其中对于选定的关键字出现的概率越大优先级越高;对于关键字固定顶点一般选择它的四个顶点之一;所述标准图像中关键字高度计算子单元通过获取该关键字的右上角顶点和右下角顶点坐标计算得到其高度;所述标准图像中关键字固定顶点和块中顶点距离计算子单元通过获取到关键字固定
顶点坐标、块的顶点坐标,从而计算该关键字固定顶点和块顶点的水平距离和垂直距离。5.如权利要求1所述的一种基于文本信息的目标图像的块识别和提取系统,其特征在于:所述目标块顶点坐标计算模块包括:所述文本检测和识别子单元用于对待测图像进行文本检测和识别获取其中的文本框坐标和对应文本信息;所述目标块和关联的关键字确定子单元根据文本框坐标和文本信息结合权利要求4中的关键字优先级确定该目标块对应的关键字以及固定顶点;所述关键字所在文本框形状确定子单元用于确定所述文本框的形状,包括8种形状,分别是“直立”、“倒立”、“向左旋转90度”、“向右旋转90度”、“左上角倾斜”、“右下角倾斜”、“左下角倾斜”、“右上角倾斜”;所述关键字所在文本框的坐标顶点重排子单元用于将ocr输出的文本框坐标顶点顺序进行重新排列,使得排列之后的四个顶点的坐标依次对应着标准图像中的四个顶点坐标顺序,即左上角、右上角、右下角、左下角的顺时针顺序;所述关键字固定顶点坐标计算子单元通过结合其所在文本框的形状、文本框重排之后对应到的坐标、以及该关键字在文本信息中的位置来计算该固定顶点的坐标;所述目标块四个顶点的坐标计算子单元结合关键字所在文本框的形状根据标准图像中关键字固定顶点和块的顶点的相对距离来计算块中每一个顶点的坐标。6.如权利要求5所述的目标块四个顶点的坐标计算子单元,其特征还在于:根据关键字所在文本框计算该关键字的高度;根据标准图像中该关键字的高度和其固定顶点与目标块的顶点的水平距离和垂直距离,计算出待测图像中该固定顶点和的待测目标图像中的目标块顶点的水平距离和垂直距离;再结合该固定顶点的坐标计算出目标块顶点的坐标。7.如权利要求1所述的一种基于文本信息的目标图像的块识别和提取系统,其特征在于:所述目标块的识别和提取模块根据有无相应关键字和计算出来的目标块的四个顶点的坐标与待测图像大小进行比较确定待测图像中是否存在或者该块是否残缺太多,根据预设的阈值确定是否利用四个顶点坐标对其进行提取;对于可提取目标块的图像,根据计算出来的四个顶点坐标以及所述对应文本框的倾斜角度进行旋转,以及坐标变换之后根据新的四个坐标对图像进行裁剪得到所述的目标块。
技术总结
本发明公开了一种基于文本信息的目标图像的块识别和提取系统,包括:目标图像采集模块、文本检测和识别模块、关键字和基本信息模块、目标块顶点坐标计算模块、目标块识别和提取模块。目标图像采集模块利用手机或者平板采集多样性的目标图像;文本检测和识别模块采用OCR技术获取图像中文本所在文本框坐标;关键字和基本信息模块用于确定标准图像中的关键字、其高度和目标块顶点的距离;目标块顶点坐标计算模块根据关键字和文本框坐标计算目标块的四个顶点坐标;目标块识别和提取模块根据目标块四个顶点坐标和待测图像大小对目标块图像进行识别和提取。本发明可根据待测图中的文本自动、快速、准确识别和提取密集文本图像中所含的指定块。中所含的指定块。中所含的指定块。
技术研发人员:ꢀ(51)Int.Cl.G06V30/148
受保护的技术使用者:珠海丹德图像技术有限公司
技术研发日:2021.12.13
技术公布日:2022/3/8