1.本公开涉及信息处理领域,尤其涉及一种文本识别及问答方法、装置、设备及介质。
背景技术:
2.近年来,随着信息技术的飞速发展,信息的展现形式也从文字为主逐渐向以包含文本信息的图片展示方式发展。在其发展过程中,如何从图片中更好地提取与理解图片中的文本内容尤其重要。
3.现阶段,往往利用现有的文本识别方法直接从图片中识别得到文本内容,但是该方案,往往无法准确获取图片中的文本内容。
技术实现要素:
4.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种文本识别及问答方法、装置、设备及介质。
5.第一方面,本公开提供了一种文本识别方法,其特征在于,包括:
6.获取待识别图像;
7.对待识别图像进行文本识别,得到文本识别结果,文本识别结果包括多个连续文本片段;
8.计算待拼接文本片段对的语义关联得分,其中,待拼接文本片段对由多个连续文本片段中的两个连续文本片段组成;
9.在待拼接文本片段对的语义关联得分满足预设语义关联条件的情况下,对待拼接文本片段对进行文本拼接,得到待识别图像的文本内容。
10.第二方面,本公开提供了一种问答方法,包括:
11.接收用户输入的提问信息;
12.在预设答案库中,确定与待选答案文本提问信息对应的待选答案文本,待选答案文本包括与待选答案文本提问信息对应的待识别图像内的文本内容,文本内容是对满足预设语义关联条件的语义关联得分所属的待拼接文本片段文本拼接得到的,待选答案文本待拼接文本片段对由多个连续文本片段中的两个连续文本片段组成,待选答案文本多个连续文本片段由对待选答案文本待识别图像进行文本识别得到;
13.利用输入预先训练的问答模型,在待选答案文本中确定提问信息的目标答案。
14.第三方面,本公开提供了一种文本识别装置,包括:
15.图像获取模块,配置为获取待识别图像;
16.文本识别模块,配置为对待识别图像进行文本识别,得到文本识别结果,文本识别结果包括多个连续文本片段;
17.分数计算模块,配置为计算待拼接文本片段对的语义关联得分,待拼接文本片段对由多个连续文本片段中的两个连续文本片段组成;
18.第一文本拼接模块,配置为在待拼接文本片段对的语义关联得分满足预设语义关联条件的情况下,对待拼接文本片段对进行文本拼接,得到待识别图像的文本内容。
19.第四方面,本公开提供了一种问答装置,包括:
20.信息接收模块,配置为接收用户输入的提问信息;
21.信息处理模块,配置为在预设答案库中,确定与待选答案文本提问信息对应的待选答案文本,待选答案文本包括与待选答案文本提问信息对应的待识别图像内的文本内容,文本内容是对满足预设语义关联条件的语义关联得分所属的待拼接文本片段文本拼接得到的,待选答案文本待拼接文本片段对由多个连续文本片段中的两个连续文本片段组成,待选答案文本多个连续文本片段由对待选答案文本待识别图像进行文本识别得到;
22.答案确定模块,配置为利用输入预先训练的问答模型,在待选答案文本中确定提问信息的目标答案。
23.第五方面,本公开提供了一种计算设备,包括:
24.处理器;
25.存储器,用于存储可执行指令;
26.其中,处理器用于从存储器中读取可执行指令,并执行可执行指令以实现第一方面的文本识别方法或者以实现第二方面的问答方法。
27.第六方面,本公开提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现第一方面的文本识别方法或者使得服务器实现第二方面的问答方法。
28.本公开实施例提供的技术方案与现有技术相比具有如下优点:
29.本公开实施例的文本识别及问答方法、装置、设备及介质,在通过文本识别技术从待识别图像中获取多个连续文本片段之后,可以计算多个连续文本片段中待拼接文本片段对的语义关联得分,由于语义关联得分能够表征待拼接文本片段之间的语义关联性,因此通过对语义关联得分满足预设语义关联条件的待拼接文本片段对进行文本拼接,能够将语义关联性高的文本片段进行拼接,使得拼接得到的文本内容能够反映图片中文字的正确文本信息,从而提高了图文识别精度。
附图说明
30.结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
31.图1为本公开实施例提供的一种文本识别方法的流程示意图;
32.图2为本公开实施例提供的另一种文本识别方法的流程示意图;
33.图3为本公开实施例提供的又一种文本识别方法的流程示意图;
34.图4为本公开实施例提供的再一种文本识别方法的流程示意图
35.图5示出了本公开实施例提供的一种示例性地待识别文本的示意图;
36.图6示出了本公开实施例提供的一种示例性地文本识别结果的示意图;
37.图7示出了本公开实施例提供的一种示例性地基于区域性拼接的文本拼接结果的示意图;
38.图8示出了本公开实施例提供的一种问答方法的流程示意图;
39.图9示出了本公开实施例提供的一种示例性地问答方法的逻辑示意图;
40.图10示出了本公开实施例提供的一种示例性地问答方法的流程示意图;
41.图11示出了本公开实施例提供的一种文本识别装置的结构示意图;
42.图12示出了本公开实施例提供的一种问答装置的结构示意图;
43.图13示出了本公开实施例提供的一种计算设备的结构示意图。
具体实施方式
44.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
45.应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
46.本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
47.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
48.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
49.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
50.近年来,随着5g、互联网和云计算等技术的飞速发展,信息技术也得到了快速发展。随着互联网应用更趋向于多模态化的发展,在信息的传播渠道也从报纸杂志等传统平面媒体逐渐向网站、移动客户端、微博、微信、社交媒体等新兴媒体传播渠道发展的过程中,信息的展现形式也从文字为主逐渐向包含文本信息的图片展示方式发展。在其发展过程中,如何从大量的图片中更好地提取与理解图片中的文本内容,对于快速获取信息尤其重要。
51.在一种相关的图文识别技术中,从图片中识别得到文本框之后,会对文本框进行简单文本拼接后,生成图片的文字内容。
52.但是这种图文识别技术,无法很好地理解图片中的文本内容。特别是在待识别图片中的文本框存在分栏情况、或者待识别图像中的文字在位置上未对齐或者存在一定间距的具体场景中,该种图文识别技术无法对上述复杂文本进行正确拼接,存在导致文本内容语序错乱的可能性,图文识别精度较低。
53.由于图文识别技术可以应用于文本视觉问答场景中,对文本视觉问答模型的答案库进行构建,因此,为了便于理解,本公开实施例的下述部分将结合视觉问答场景对图文识
别技术展开具体说明。
54.通用的视觉问答主要关注图片中的目标,属性和活动识别的问题。文本视觉问答与通用的视觉问答有所不同,旨在给定一张图片和关于图片的自然语言问题,提取图片中的文本信息和结构信息,并给出准确的自然语言答案。解决文本视觉问答任务的关键在于文本识别、语义关联和机器阅读理解,这是现有的视觉问答模型无法解决文本视觉问答任务的原因之一,这些模型无法有效读取和利用图像中的文本内容。
55.对于文本视觉问答任务,最近提出了两个比赛,即场景文本视觉问答挑战赛(scene text visual question answering,st-vqa)和文本视觉问答挑战赛(text visual question answering,textvqa)。这两个比赛都是场景文本视觉问答方面的比赛,需要阅读场景中的文本并在场景中理解它,然后回答给定的问题。st-vqa的获胜者是vta方法,它使用bert编码问题和文本,并使用自下而上和自上而下机制来解码答案。lorra(即一种基于看、读、推理及回答的视觉问答模型)是textvqa比赛的基线,它分别获取光学字符识别(optical character recognition,ocr)技术识别出的文本和问题、图像和问题之间的融合特征,并将这两个融合的特征拼接起来用分类器来训练。但是,这些方法只是将ocr文本添加到现有的视觉问答模型中作为单独的输入,而没有利用ocr文本之间的关系。
56.最近,在一种相关技术中提出了一种多模态图神经网络(multi-media graph neural network,mm-gnn)来表示图像中的三种模态(即视觉、语义和数字),并提出了三种聚合器来指导各种模态之间的信息流。
57.在另一种相关技术中,提出一种基于文本的文本视觉问答方法,它包括阅读组件、理解组件和答案选择组件,理解组件通过对ocr文本向量或目标检测模型得到的目标检测框向量分别进行单词级注意力、多层级注意力和自注意力处理以获得ocr文本或目标检测框之间的语义关系,进而提高答案选择的准确率。
58.申请人通过研究发现,这些方法开始意识到ocr文本之间的重要性,但是它们仍然将ocr文本看作是独立的对象,没有对ocr文本框之间进行有效的合并,以更好地理解图片中文本的内容。总之,上述所有方法,只是对ocr得到的文本框进行简单拼接或者直接将ocr得到的字符输入长短期记忆网络(long short-term memory,lstm)模型,当图片中文本框存在分栏情况或者文本框存在位置偏差时,上述方法不能很好地理解图片中的文本信息。
59.基于此,申请人提出了一种文本识别方案,可以应用于文本识别场景中。示例性地,可以应用于基于文本识别技术的视觉问答的具体场景中。本公开实施例提出的文本识别及问答方案,由于语义关联得分能够表征待拼接文本片段之间的语义关联性,因此通过对语义关联得分满足预设语义关联条件的待拼接文本片段对进行文本拼接,能够将语义关联性高的文本片段进行拼接,从而使得拼接得到的文本内容能够反映图片中文字的正确文本信息,从而提高了图文识别精度。
60.图1示出了本公开实施例提供的一种文本识别方法的流程示意图。
61.在本公开实施例中,文本识别方法各步骤的执行主体可以是台式计算机、笔记本电脑、云服务器、服务器集群等具有计算功能的设备或者模块,对此不作具体限定。
62.如图1所示,该文本识别方法可以包括如下步骤。
63.s110,获取待识别图像。
64.在s110中,待识别图像可以是包括文字内容的图片。可选地,待识别图像可以是拍
摄得到的,比如可以是对公告、海报、纸质/电子文档、纸质/电子报刊等记载有文字内容的对象拍摄得到的图片或者是视频中的帧图像。又可选地,待识别图像可以是从应用平台或者网络中获取的、或者用户上传的图片或者是视频中的帧图像。比如,可以是新闻平台发布的电子报刊、或者由word、pdf等电子文档转档得到的图片格式的文件。
65.在一些实施例中,待识别图像上的至少部分文字分布于不相连的多个图像区域内。也就是说,待识别图像中的至少部分文字与其他部分文字存在间隔。比如,对于文字分栏的图片,又比如,对于文字不对齐且部分字符串之间存在间距的图片。
66.具体地,待识别图像中存在文字分布的上述每个图像区域内存在至少一个连续文本片段。也就是说,不是所有的文本片段都是连续的,至少部分文本片段之间存在着距离间隔。其中,对于连续文本片段,待识别图像中的连续字符串可以组成一个连续文本片段。
67.对于连续文本片段,在一个实施例中,可以将通过图文识别技术直接识别得到的一个文本框内文字作为一个连续文本片段。在一个示例中,对于存在多栏、多行文字的待识别图像,可以将每个文字栏内的一行文字识别为一个连续文本片段。比如,对于文字分栏的图片,若图片中的第一文本栏中包含两行文字,则可以将第一文本栏中的两行文字分别作为一个连续文本片段。
68.在另一个实施例中,可以将通过图片识别技术和初步文本拼接后的文本框内文字作为一个连续文本片段。比如,对于若通过图像识别在一个示例中,继续以存在多栏、多行文字的待识别图像,可以将每个文字栏内的一行文字识别为一个连续文本片段,然后通过图像识别技术和文本拼接技术,将该文本栏中的多行文字识别为一个连续文本片段。比如,对于文字分栏的图片,若图片中的第一文本栏中包含两行文字,则可以将两行文字作为一个连续文本片段。
69.s120,对待识别图像进行文本识别,得到文本识别结果。其中,文本识别结果包括多个连续文本片段。
70.在一些实施例中,可以利用图文识别技术来进行文本识别。其中,图文识别技术可以是诸如ocr或者其他能够从图像中识别出文字的图文处理技术,对其不作具体限定。
71.可选地,可以先从待识别图像中识别得到多个文本框区域,再获取文本框区域内的文字串作为连续文本片段。
72.相应地,s120的具体实施方式可以包括步骤a1和步骤a2。
73.步骤a1,对待识别图像进行文字检测,得到多个文本框区域。
74.在一个实施例中,可以利用文字检测模型来进行文字检测,其中,文字检测模型可以是具有文字检测功能的模型。具体地,文字检测模块可以是其他诸如快速的区域型卷积神经网络(faster region-based convolutional neural network,faster rcnn)、全卷积目标检测算法(single shot multi-box detector,ssd)模型、全卷积网络(fully convolutional network,fcn)模型、旋转区域候选网络(rrpn,rotation region proposal networks)、基于连接预选框网络的文本检测(connectionist text proposal network,ctpn)模型等,对此不作具体限定。
75.在一个示例中,为了提高文字检测精度,可以选用ctpn模型。具体地,假设输入ctpn模型的待识别图像为i,则利用ctpn模型识别得到多个文本框区域的过程中,可以得到多个文本框区域在待识别图像上的坐标,即文本框坐标boxes可以表示为公式(1):
76.boxes=ctpn(i)
ꢀꢀꢀ
(1)
77.在步骤a1中通过ctpn模型能够检测水平或微斜的图像文本行,提高了文本检测精度,且其属于能够检测出文字所在图像中的所在区域的坐标,可以便于后续过程中根据文本框区域的位置进行基于位置关系的文本拼接。
78.需要说明的是,还可以利用其他能够从图像中分割得到文本框区域的算法或者模型得到文本框区域,对此不作具体限定。
79.步骤a2,对多个文本框区域进行文本识别,得到多个文本框区域内的连续文本片段。
80.其中,可以利用文本识别模型从多个文本框区域内识别到多个连续文本片段。可选地,文本识别模型可以是文字识别功能的模型,比如,诸如基于密度卷积网络(dense convolutional network,densenet)和联接时间分类(connectionist temporal classification,ctc)的文字识别模型,需要说明的是,本公开实施例中还可以是其他具有文字识别能力的模型,比如诸如基于自动校正的鲁棒场景文本识别(robust scene text recognition with automatic rectification,rare)模型等,对此不作具体限定。
81.继续以上一示例进行说明,利用ctpn模型识别得到多个文本框区域在待识别图像上的坐标boxes之后,将上述文本框坐标和待识别图像i输入文本识别模型densenet得到多个文本框区域内的连续文本片段,即连续文本片段texts可以表示为公式(2):
82.texts=densenet(boxes,i)
ꢀꢀꢀ
(2)
83.其中,texts为每个文本框区域对应的连续文本片段。
84.可选地,可以将文本框坐标与对应的连续文本片段一起保存到指定数据库中。
85.需要说明的是,在选用ctpn模型以及densenet+ctc模型,可以实现端到端的不定长中文字符的检测与识别,提高了识别的灵活性。
86.在另一些实施例中,还可以利用一个文字识别模型同时进行上述文字检测和文字识别,比如诸如统一进行快速定向文本识别的网络模型(fast oriented text spotting with a unified network,fots),或者基于空间变换网络的光学字符识别(single neural network-optical character recognition,stn-ocr)模型等来直接实现s120,对此不作具体限定。
87.s130,计算多个连续文本片段中待拼接文本片段对的语义关联得分。
88.首先,对于待拼接文本片段对的说明如下。
89.待拼接文本片段对,可以是将多个连续文本片段中、需要确定是否可以基于语义关联性进行文本拼接的两个连续文本片段作为一个待拼接文本片段对。接下来,将通过多个实施例对待拼接文本片段对的可行确定方式展开具体说明。
90.在一些实施例中,待拼接文本片段对的确定方式包括下述步骤b11至步骤b15。
91.步骤b11,可以根据多个连续文本片段在图片上的位置关系,从中选择第一个在位置上靠近前端的连续文本片段作为第一待拼接文本片段。示例性地,可以按照预设选择次序,从多个连续文本片段中选择第一待拼接文本片段。其中,预设选择次序可以是:由左到右、由上到下的选择次序。比如,可以选择左上角的连续文本片段作为第一待拼接文本片段。又比如,若存在左下角和右上两个连续文本片段,则可以先选择左下角的连续文本片段作为第一待拼接文本片段。需要说明的是,还可以根据其他场景和具体需求,按照其他次序
选择第一待拼接文本片段,对此不作限定。
92.步骤b12,将与第一待拼接文本片段在位置上存在一定相邻概率的l个目标连续文本片段中的每一连续文本片段分别与第一待拼接文本片段组成一个待拼接文本片段对,共组成l个待拼接文本片段对。其中,l为1或者大于1的正整数。示例性地,对于文字分栏的待识别图像,可以将位于第一待拼接文本片段的右侧、左侧、下侧、或者左下侧的连续文本片段认为与第一待拼接文本片段在位置上存在一定相邻概率。又一示例性地,对于文字未分栏的待识别图像,可以将其左侧、右侧、下侧的连续文本片段认为与第一待拼接文本片段在位置上存在一定相邻概率。
93.需要说明的是,还可以根据其他场景和具体需求,选择其他方位上的待拼接文本片段,认为其与第一待拼接文本片段在位置上存在一定相邻概率,对此不作限定。
94.步骤b13,判断l个待拼接文本片段对中是否存在满足预设语义关联得分条件的一个文本片段对,若存在则执行步骤b14,若不存在,则继续执行步骤b15。
95.步骤b14,若l个待拼接文本片段对中存在满足预设语义关联得分条件的一个目标文本片段对,则将第一待拼接文本片段与该目标文本片段对中的目标连续文本片段进行拼接,得到新的第一待拼接文本片段对。然后返回步骤b12,直到基于新的第一待拼接文本片段得到的待拼接文本片段对中不存在满足预设语义关联得分条件的一个文本片段对。
96.步骤b15,若l个待拼接文本片段对中不存在满足预设语义关联得分条件的一个目标文本片段对,则返回步骤b11,从第一待拼接文本片段之外的剩余连续文本片段中重新选择新的第一待拼接文本片段,直到完成对所有连续文本片段的遍历。
97.在另一些实施例中,待拼接文本片段的确定方式如下述步骤b21至步骤b25所示。
98.步骤b21,可以在多个连续文本片段中选择一个连续文本片段作为第一待拼接文本片段。
99.步骤b22,将剩下的未拼接的连续文本片段中的每一连续文本片段与第一待匹配文本片段组成一个待拼接文本片段对。
100.步骤b23,判断组成的待拼接文本片段对中是否存在满足预设语义关联得分条件的一个文本片段对。若判断结果为是,执行步骤b24,若判断结果为否,执行步骤b25。
101.步骤b24,若组成的待拼接文本片段对中存在满足预设语义关联得分条件的一个文本片段对,则将满足预设语义关联得分条件的一个文本片段对中的两个连续文本片段进行拼接后,得到一个新的第一待拼接文本片段,返回步骤b22,从剩下的未拼接的连续文本片段中的每一连续文本片段与新的第一待匹配文本片段组成一个新的待拼接文本片段对。
102.步骤b25,若组成的待拼接文本片段对中不存在满足预设语义关联得分条件的一个文本片段对,则返回步骤b21,从除第一待拼接文本片段之外的连续文本片段中选择新的第一待拼接文本片段,直到完成对所有连续文本片段的遍历。
103.在又一些实施例中,可以将多个连续文本片段任意两两组合,得到多个连续文本片段对,并将多个连续文本片段对作为待拼接文本片段对。
104.需要说明的是,还可以根据实际场景和具体需求,利用其他方式从多个连续文本片段中选择待拼接文本片段对,本公开实施例对此不作具体限定。
105.接着,在介绍了待拼接文本片段之后,接下来对s130的具体实施方式进行具体说明。
106.在一些实施例中,s130可以具体实现为步骤c1。
107.步骤c1,利用语义分析模型,计算得到待拼接文本片段对的语义关联得分。
108.可选地,语义分析模型可以是自然语言推理模型。其中,自然语言推理是自然语言处理(natural language processing,nlp)高级别的任务之一,可以判断两个句子是否有语义关联。在一个示例中,语义分析模型可以是基于转换器的双向编码表征(bidirectional encoder representations from transformers,bert)模型。其中,bert模型为词向量(word2vec)模型的替代者之一,其在nlp领域的11个方向大幅提高了模型效果。本公开实施例通过基于bert的方法可以推断得到最相关的两个连续文本片段,并对最相关的连续文本片段进行智能合并。由于bert模型具有强大的学习文本特征的能力,从而提高了基于语义关联进行文本合并的准确率。
109.需要说明的是,语义分析模型还可以是除自然语言推理模型之外的其他具有语义关联性分析功能的模型,又或者可以是除bert模型之外的其他具有语义关联性分析功能的自然语言推理模型,对此不作具体限定。
110.在一个实施例中,为了提高计算效率,可以在待拼接文本片段对中的第一待拼接文本片段和第二待拼接文本片段中选取关键语句来计算待拼接文本片段对的语义关联得分。
111.相应地,步骤c1的具体实施方式可以包括步骤c11至步骤c13。
112.步骤c11,对待拼接文本片段对中的第一待拼接文本片段进行语句分割处理,得到第一待拼接文本片段的第一关键语句。其中,语句分割可以采用诸如句子分割器、预设的具有从文本片段中分割出句子的语言程序、句子分割模型等来进行语义分割,对此不作具体限定。
113.可选地,第一关键语句可以是第一待拼接文本片段的末尾k句话。其中,k为1或者大于1的整数。末尾k句话包括第一待拼接文本片段末尾的k个完整句子。其中,若最后一句话不是完整的句子,则末尾k句话可以包括末尾的k个完整句子以及最后的非完整句子。在一个示例中,可以根据句子的词性结构等判断最后的一句话是否是完整的。在另一个示例中,可以根据最后一句话是否以目标标点符号结尾来判断最后一句话是否完整。比如,若根据目标标点符号判断最后一句话是否完整,则可以将第一待拼接文本片段中的倒数第k+1个目标标点符号之后的连续字符串作为第一关键语句。其中,句子结束符可以是常用于句子结束的标点符号,比如,对于中文,目标标点符号可以是诸如“。”、“!”“?”等符号。需要说明的是,其他语言的目标标点符号与中文类似,均为常用于句子结束的标点符号,对此不再赘述。需要说明的是,还可以采用其他方式判断最后一句话是否完整对此不作具体限定。
114.作一个具体的示例,若第一待拼接文本片段的最后一句话不是完整的句子,比如,若k为1,第一待拼接文本片段的末端文本内容为“对的。这是真的。我非常喜欢”,则第一关键语句可以是“这是真的。我非常喜欢”。
115.作另一个具体的示例,若第一待拼接文本片段的最后一句话是完整的句子,比如,若k为1,第一待拼接文本片段的末端文本内容为“是真的?我非常喜欢天津!”,则第一关键语句可以是“我非常喜欢天津!”。
116.步骤c12,对待拼接文本片段对中的第二待拼接文本片段进行语句分割处理,得到第二待拼接文本片段的第二关键语句。其中,步骤c12与步骤c11的具体实施方式类似,对此
不再赘述。
117.可选地,第二关键语句可以是第二待拼接文本片段的首部l句话。其中,l为1或者大于1的整数。首部l句话包括第二待拼接文本片段首部的前l个完整句子。其中,若最前面的一句话不是完整的句子,则首部l句话可以包括首部的前l个完整句子以及最前端的非完整句子。在一个示例中,可以根据句子的词性结构等判断最前端的一句话是否是完整的。在另一个示例中,可以根据最前端一句话是否缩进来判断其是否完整。需要说明的是,还可以采用其他方式判断最前端一句话是否完整,比如用目标标点符号来判断等,对此不作具体限定。
118.作一个具体的示例,若第二待拼接文本片段的第一句话是完整的句子,比如,若l为1,第二待拼接文本片段的首段文本内容为“天津煎饼果子真好吃。我非常喜欢它!”,则第一关键语句可以是“天津煎饼果子真好吃。我非常喜欢”。
119.作另一个具体的示例,第二待拼接文本片段的第一句话不是完整的句子,比如,若l为1,第二待拼接文本片段的首段文本内容为“真好吃。我非常喜欢它!”,则第一关键语句可以是“真好吃。我非常喜欢它!”。
120.步骤c13,将第一关键语句和第二关键语句输入预先训练的语义分析模型,得到语义关联得分。其中,语义分析模型可以参见上述说明,对此不再赘述。
121.在一个示例中,在输入语义分析模型之前,可以先对第一关键语句和第二关键语句进行拼接处理,得到语义分析模型的输入数据。
122.比如,对于一个待拼接文本片段对,若其对应的第一关键语句表示为s1,第二关键语句表示为s2,比如s1为左上角的文本片段的最后一句话,s2为右侧文本区域的第一句话。则其输入数据a表示为a=[cls,s1,sep,s2,sep]。其中,sep为分隔符,cls为起始符。相应地,通过语义分析模型得到的语义关联得分为ya。
[0123]
比如,对于另一个待拼接文本片段对,若其对应的第一关键语句表示为s1,第二关键语句表示为s3,比如,s3为下侧文本区域的第一句话。则其输入数据b表示为b=[cls,s1,sep,s3,sep]。相应地,通过语义分析模型得到的语义关联得分为yb。
[0124]
通过上述步骤c11至c13,由于相邻文本片段间往往前一文本片段的末尾与后一文本片段的开头语义相似度较高。因此,基于前一文本片段的末尾n句话和后一文本片段的前m句话进行智能合并,可以兼顾语义合并的准确度和计算效率。需要说明的是,除了关键语句之外,还可以选用关键词、词频等方式来计算语义关联得分,对此不作限定。
[0125]
需要说明的是,除了利用语义分析模型之外,本公开实施例还可以采用诸如基于余弦相似度方法、欧式距离法、曼哈顿距离法、jaccard相似系数法等来计算两个连续文本片段之间的语义相似度的方法来计算两个连续文本片段之间的语关联得分,本公开实施例对此不作具体限定。
[0126]
s140,在待拼接文本片段对的语义关联得分满足预设语义关联条件的情况下,对待拼接文本片段对进行文本拼接,得到待识别图像的文本内容。
[0127]
在一些实施例中,预设语义关联条件是表征待拼接文本片段对中的两个连续文本片段之间语义关联的条件。
[0128]
可选地,预设语义关联条件可以包括下述条件1和/或条件2。
[0129]
条件1、语义关联得分是语义关联得分集合中的最高分。其中,其中,每一待拼接文
本片段对对应一个语义关联得分集合,每一待拼接文本片段的语义关联得分集合包括该待拼接文本片段对中的第一待拼接文本片段与多个连续文本片段中目标连续文本片段的语义关联得分。其中,目标连续文本片段可以是多个连续文本片段中除第一待拼接文本片段之外的、其他未拼接的其他任意文本片段。或者是多个连续文本片段中与第一待拼接文本片段在位置上存在一定相邻概率的任意文本片段。或者是多个连续文本片段中除第一待拼接文本片段之外的连续文本片段,对此不作具体限定。
[0130]
示例性地,若待拼接图像上存在左上侧的连续文本片段、右上侧的连续文本片段和下侧的连续文本片段,若将左上侧的连续文本片段作为第一待拼接文本片段,则可以将左上侧的连续文本片段与右上侧的连续文本片段的语义关联得分ya以及左上侧的连续文本片段与下侧的连续文本片段的语义关联得分为yb作为一个语义关联得分集合。然后将ya、yb中的最大值对应的待拼接文本片段对满足条件1。
[0131]
需要说明的是,通过条件1,可以从多个连续文本片段中找到与第一待拼接文本片段语义最相关的连续文本片段进行拼接,保证了拼接的准确性。
[0132]
条件2、语义关联得分大于预设分数阈值。其中,预设分数阈值可以根据具体场景和实际需求设置,对此不作具体限定。示例性地,若语义关联得分小于预设分数阈值,则表征待拼接文本片段对中的两个连续文本片段之间语义关联性较低,或者不存在语义关联性,二者可作为独立的文本片段,无法继续进行合并。
[0133]
需要说明的是,通过条件2,避免了将不存在语义关联的连续文本片段误合并的可能性,进一步提高了合并的效率。
[0134]
在一些实施例中,s140的具体实施方式可以包括:将满足语义关联得分条件的待拼接文本片段对中的两个连续文本片段进行文本拼接,得到一个新的连续文本片段。可选地,对不满足语义关联得分条件的待拼接文本片段对的两个连续文本片段不进行文本拼接。
[0135]
在一个实施例中,若利用位于第一待拼接文本片段尾部的第一关键语句和第二待拼接文本片段首部的第二关键语句计算得到的语义关联得分满足预设语义关联条件,则将第一待拼接文本片段的尾部和第二待拼接文本片段的首部进行拼接。
[0136]
在一些实施例中,可以通过多次执行步骤s130和步骤s140对多个连续文本片段中所有能够拼接的文本片段进行拼接,将最终得到的结果作为待识别图像的文本内容。
[0137]
本公开实施例的文本识别方法,在通过文本识别技术从待识别图像中获取多个连续文本片段之后,可以计算多个连续文本片段中待拼接文本片段对的语义关联得分,由于语义关联得分能够表征待拼接文本片段之间的语义关联性,因此通过对语义关联得分满足预设语义关联条件的待拼接文本片段对进行文本拼接,能够将语义关联性高的文本片段进行拼接,使得拼接得到的文本内容能够反映图片中文字的正确文本信息,从而提高了图文识别精度。
[0138]
对于本公开实施例提供的文本识别方法的可行应用场景,在一个示例中,可以应用于从电子期刊中正确获取新闻信息的场景中。在另一个示例中,可以应用于辅助视觉障碍者通过摄像装置了解真实世界和网络视觉中文字信息的场景。需要说明的是,本公开实施例提供的文本识别方法,还可以应用于其他需要图文识别的场景中,本公开实施例对此不作具体限定。
[0139]
在一些实施例中,步骤s130中的语义关联得分可以由预先训练的语义分析模型得到。
[0140]
相应地,s130之前,文本识别方法还包括训练语义分析模型的步骤d1至步骤d4。
[0141]
步骤d1,获取待训练文本。在一个实施例中,可以从网络中获取已有文本作为待训练文本。比如可以根据具体文本识别场景和实际需求选择待训练文本,比如从通用的中文维基百科、新闻、问答模型的答案库中获取待训练文本。
[0142]
步骤d2,将待训练文本中的相邻语句作为正样本,将待训练文本中不相邻语句作为负样本,得到多个训练样本。
[0143]
示例性地,针对正样本,若其相邻语句中的前一句,即句子1,表示为[w1,w2,...,wn],其中n为句子1的字的个数。其相邻语句中的后一句,即句子2,表示为[s1,s2,...,sk],其中k为句子2的字的个数,n和k为大于1的整数。
[0144]
相应地,正样本t可以表示为下述公式(3):
[0145]
t=[cls,w1,w2,...,wn,sep,s1,s2,...,sk,sep]
ꢀꢀꢀ
(3)
[0146]
需要说明的是,负样本与正样本的构造方式类似,可以参见上述公式(3),对此不再赘述。
[0147]
步骤d3,将多个训练样本输入待训练的语义分析模型,得到多个训练样本的语义关联得分。
[0148]
在一个实施例中,步骤d3的具体步骤如下:
[0149]
步骤d31,通过语义分析模型,可以得到各训练样本对应的文本向量h
t
。具体地,文本向量h
t
表示为下述公式(4):
[0150]ht
=bert(t)
ꢀꢀꢀ
(4)
[0151]
步骤d32,通过分类层,对文本向量h
t
进行分类处理,得到语义关联得分。其中,分类层可以通过预设分类函数来对文本向量h
t
进行分类处理。可选地,预设分类函数可以是softmax函数,又或者还可以是sigmoid等具有分类功能的函数,对此不作限定。
[0152]
示例性地,以预设分类函数为softmax函数为例,语义关联得分y
t
可以表示为下述公式(5)
[0153]yt
=softmax(wh
t
+b)
ꢀꢀꢀ
(5)
[0154]
其中,w和b是可训练的模型参数。语义关联得分y
t
的取值范围为[0,1],y
t
越接近于0,则表示各训练样本的两个句子之间语义关联性越低,反之,y
t
越接近于1,则表示各训练样本的两个句子之间语义关联性越高。
[0155]
步骤d4,根据多个训练样本的语义关联得分和多个训练样本的样本标签确定是否满足训练停止条件,在不满足训练停止条件的情况下,重复执行步骤d2-d4以利用再次获取的训练样本和/或原有输入的训练样本对语义分析模型继续训练,直到满足训练停止条件,得到训练完成的语义分析模型。
[0156]
可选地,训练停止条件可以为将多个训练样本的语义关联得分和多个训练样本的样本标签代入损失函数后得到的损失值符合预设损失条件。其中,预设损失条件可以根据具体需求和实际场景设置,对此不再赘述。
[0157]
其中,损失值loss表示为下述公式(6):
[0158]
[0159]
其中,表示与y
t
对应的待训练样本的样本标签。其中,若待训练样本为正样本,则其样本标签为1,若待训练样本为负样本,则其样本标签为0。
[0160]
通过上述步骤d1至步骤d4训练得到的语义分析模型,由于其可以将相邻语句作为正样本,将不相邻的、随机打乱的语句作为负样本,由于相邻语句的语义关联性强、不相邻语句的语义关联性弱,从而利用样本数据训练得到的语义分析模型能够准确计算出语义关联得分,提高了文本拼接的准确性。
[0161]
图2为本公开实施例提供的另一种文本识别方法的流程示意图。本公开实施例在上述实施例的基础上进行优化,本公开实施例可以与上述一个或者多个实施例中各个可选方案结合。
[0162]
在本公开实施例中,文本识别方法各步骤的执行主体可以是台式计算机、笔记本电脑、云服务器、服务器集群等具有计算功能的设备或者模块,对此不作具体限定。
[0163]
如图2所示,该文本识别方法可以包括如下步骤。
[0164]
s210,获取待识别图像。其中,s210与上述s110类似,在此不再赘述。
[0165]
s220,对待识别图像进行文本识别,得到文本识别结果。文本识别结果包括多个连续文本片段。其中,s220与上述s120类似,在此不再赘述。
[0166]
s230,在多个连续文本片段中,选取第一待拼接文本片段和第二待拼接文本片段作为待拼接文本片段对。
[0167]
第一待拼接文本片段和第二待拼接文本片段可以是多个连续文本片段中需要确认是否进行拼接的文本片段。在一些实施例中,选取第一待拼接文本片段和第二待拼接文本片段的具体实施方式可以参见s130对待拼接文本片段对的相关描述,对此不再赘述。需要说明的是,可以将与第一待拼接文本片段组成待拼接文本片段对的连续文本片段称为第二待拼接文本片段。
[0168]
s240,对第一待拼接文本片段和第二待拼接文本片段进行语义关联性计算,得到第一待拼接文本片段和第二待拼接文本片段的语义关联得分。其中,s240与上述s130类似,在此不再赘述。
[0169]
s250,在语义关联得分满足预设语义关联条件的情况下,对第一待拼接文本片段和第二待拼接文本片段进行文本拼接。其中,s250与上述s140类似,在此不再赘述。
[0170]
s260,在多个连续文本片段中确定新的第一待拼接文本片段和新的第二待拼接文本片段作为新的待拼接文本片段对,以及返回步骤s230对新的待拼接文本片段对进行语义关联性计算得到新的语义关联得分,并在新的语义关联得分满足预设语义关联条件的情况下,对新的待拼接文本片段对进行拼接,直到完成对所有连续文本片段的拼接。
[0171]
需要说明的是,s260中对各连续文本片段的拼接结果包括拼接或者不拼接,也就是说,完成对所有连续文本片段的拼接,并非特指将所有的连续文本片段必须全部拼接在一起,而是通过语义关联得分确认完所有的连续文本片段是否与其他连续文本片段之间的语义关联性。
[0172]
本公开实施例的文本识别方法,在通过文本识别技术从待识别图像中获取多个连续文本片段之后,可以计算多个连续文本片段中待拼接文本片段对的语义关联得分,由于语义关联得分能够表征待拼接文本片段之间的语义关联性,因此通过对语义关联得分满足预设语义关联条件的待拼接文本片段对进行文本拼接,能够将语义关联性高的文本片段进
行拼接,使得拼接得到的文本内容能够反映图片中文字的正确文本信息,从而提高了图文识别精度。
[0173]
此外,本公开实施例可以通过迭代、循环的方式依次对多个连续文本片段进行高效、有序地语义拼接,提高了拼接的效率。
[0174]
图3示出了本公开实施例提供的又一种文本识别方法的流程示意图。本公开实施例在上述实施例的基础上进行优化,本公开实施例可以与上述一个或者多个实施例中各个可选方案结合。
[0175]
在本公开实施例中,文本识别方法各步骤的执行主体可以是台式计算机、笔记本电脑、云服务器、服务器集群等具有计算功能的设备或者模块,对此不作具体限定。
[0176]
如图3所示,该文本识别方法可以包括如下步骤。
[0177]
s310,获取待识别图像。其中,s310与上述s110类似,在此不再赘述。
[0178]
s320,对待识别图像进行文本识别,得到文本识别结果。
[0179]
其中,文本识别结果包括多个连续文本片段以及多个连续文本片段在待识别图像上的位置信息。
[0180]
此外,s320的其他内容与上述s120类似,在此不再赘述。
[0181]
s330,将位置信息满足预设位置分布条件的任意两个连续文本片段进行拼接,得到拼接而成的连续文本片段。
[0182]
其中,预设位置分布条件表示两个连续文本片段在位置上具有连续性。
[0183]
在一些实施例中,预设位置分布条件包括下述条件3和/或条件4。
[0184]
条件3,任意两个连续文本片段在横向上的重合度大于预设重合度阈值。
[0185]
可选地,设第一个连续文本片段在待识别图像上的位置信息表示为[x0,y0,x1,y1],其中,[x0,y0]为第一个连续文本片段所对应文本框左上角的坐标,[x1,y1]为第一个连续文本片段所对应文本框右下角的坐标。设第二个连续文本片段在待识别图像上的位置信息表示为[x2,y2,x3,y3],其中,[x2,y2]为第二个连续文本片段所对应文本框左上角的坐标,[x3,y3]为第二个连续文本片段所对应文本框右下角的坐标。其中,x轴所在方向为待识别图像的横向,y轴所在方向为待识别图像的纵向。
[0186]
则两个连续文本片段在横向上的重合度步骤包括下述步骤e1至e3。
[0187]
步骤e1,确定第一个连续文本片段所对应文本框在横向上的长度h0,以及确定第二个连续文本片段所对应文本框在横向上的长度h1。以及确定长度h0和长度h1中的较大值max(h0,h1)。
[0188]
其中,长度h0和长度h1分别满足下述公式(7)和公式(8):
[0189]
h0=x
1-x0ꢀꢀꢀ
(7)
[0190]
h1=x
3-x2ꢀꢀꢀ
(8)
[0191]
步骤e2,确定第一个连续文本片段所对应文本框和第二个连续文本片段所对应文本框在横向上的重合长度max(0,m
1-m0)。
[0192]
其中,m0和m1分别满足下述公式(9)和公式(10):
[0193]
m0=max(x0,x2)
ꢀꢀꢀ
(9)
[0194]
m1=min(x1,x3)
ꢀꢀꢀ
(10)
[0195]
步骤e3,计算重合长度与较大值max(h0,h1)的比值,作为两个连续文本片段在横向
上的重合度。
[0196]
其中,重合度x_overlap满足下述公式(11):
[0197]
x_overlap=max(0,m
1-m0)/max(h0,h1)
ꢀꢀꢀ
(11)
[0198]
需要说明的是,还可以采用其他方式计算两个连续文本片段在横向上的重合度,比如,计算重合长度与第一个连续文本片段所对应文本框与第二个连续文本片段所对应文本框在横向上的共同投影长度的比值作为该重合度,对此不作具体限定。
[0199]
条件4,任意两个连续文本片段在纵向上的距离处于预设距离范围内。
[0200]
在一些实施例中,该预设距离范围可以是使得两个连续文本片段在纵向上存在一定间距、但是又不是距离较远的距离范围。预设距离范围可以根据实际场景和具体需求设置,对此不再赘述。
[0201]
可选地,当下侧文本框的y轴起始坐标大于上侧文本框y轴起始坐标加上指定的阈值,且小于上侧文本框y轴终点坐标加上指定的阈值时可认为任意两个连续文本片段在纵向上的距离处于预设距离范围内。
[0202]
示例性地,继续上一示例,则需要满足下述公式(12)
[0203]
y0+dist0<y2<y1+dist0ꢀꢀꢀ
(12)
[0204]
其中,dist0为指定的阈值。其可以根据实际场景和具体需求设置,对此不作具体限定。
[0205]
需要说明的是,还可以采用其他方式确定任意两个连续文本片段在纵向上的距离处于预设距离范围内,对此不作具体限定。
[0206]
在一些实施例中,对于s330,可以将位置信息满足预设位置分布条件的任意两个连续文本片段中、横坐标较小的连续文本片段作为首、将横坐标较大的连续文本片段作为尾进行有序拼接。
[0207]
s340,将拼接而成的连续文本片段作为一个新的连续文本片段。
[0208]
需要说明的是,通过s330和s340,可以得到至少两个新的连续文本片段。
[0209]
s350,计算待拼接文本片段对的语义关联得分,其中,待拼接文本片段对是由至少两个新的连续文本片段中的两个连续文本片段组成的。其中,s350的其他内容与上述s130类似,在此不再赘述。
[0210]
s360,在待拼接文本片段对的语义关联得分满足预设语义关联条件的情况下,对待拼接文本片段对进行文本拼接,得到待识别图像的文本内容。s360的其他内容与上述s140类似,在此不再赘述。
[0211]
本公开实施例的文本识别方法,在通过文本识别技术从待识别图像中获取多个连续文本片段之后,可以计算多个连续文本片段中待拼接文本片段对的语义关联得分,由于语义关联得分能够表征待拼接文本片段之间的语义关联性,因此通过对语义关联得分满足预设语义关联条件的待拼接文本片段对进行文本拼接,能够将语义关联性高的文本片段进行拼接,使得拼接得到的文本内容能够反映图片中文字的正确文本信息,从而提高了图文识别精度。
[0212]
此外,本公开实施例可以基于连续文本片段的位置关系和语义关联性进行两阶段的智能合并,使得拼接得到的文本内容能够反映图片中文字的正确文本信息,进一步提高了图文识别精度。
[0213]
图4示出了本公开实施例提供的另一种文本识别方法的流程示意图。本公开实施例在上述实施例的基础上进行优化,本公开实施例可以与上述一个或者多个实施例中各个可选方案结合。
[0214]
在本公开实施例中,文本识别方法各步骤的执行主体可以是台式计算机、笔记本电脑、云服务器、服务器集群等具有计算功能的设备或者模块,对此不作具体限定。
[0215]
如图4所示,该文本识别方法可以包括如下步骤。
[0216]
s410,获取待识别图像。其中,s410与上述s110类似,在此不再赘述。
[0217]
s420,对待识别图像进行文本识别,得到文本识别结果。其中,文本识别结果包括多个连续文本片段。具体地,s430与上述s110类似,在此不再赘述。
[0218]
s430,计算待拼接文本片段对的语义关联得分,其中,待拼接文本片段对是由多个连续文本片段中的两个连续文本片段组成的;
[0219]
s440,在待拼接文本片段对的语义关联得分满足预设语义关联条件的情况下,对待拼接文本片段对进行文本拼接,得到待识别图像的文本内容。
[0220]
s450,将待识别图像的文本内容存储至预设答案库,该预设答案库可以为用户提供与用户输入的提问信息相匹配的待选答案文本。其中,预设答案库可以是预设问答模型对应的答案库。
[0221]
在一些实施例中,若存在多张待识别图像,则可以将每张待识别图像的文本内容作为一条待选答案文本存储至预设答案库中。
[0222]
在另一些实施例中,可以将待识别图像的文本内容中的、经过步骤s410-s440拼接后得到的每一连续文本片段均作为一条待选答案文本。
[0223]
在另一些实施例中,可以将待识别图像的文本内容与其他关联待识别图像的文本内容进行语义拼接后的一个连续文本片段,作为一条待选答案文本。比如,可以将同一电子期刊的对应不同页码的电子图像作为关联的待识别图像。又比如,可以将同一视频中相邻的图像帧作为关联的待识别图像。
[0224]
本公开实施例的文本识别方法,在通过文本识别技术从待识别图像中获取多个连续文本片段之后,可以计算多个连续文本片段中待拼接文本片段对的语义关联得分,由于语义关联得分能够表征待拼接文本片段之间的语义关联性,因此通过对语义关联得分满足预设语义关联条件的待拼接文本片段对进行文本拼接,能够将语义关联性高的文本片段进行拼接,使得拼接得到的文本内容能够反映图片中文字的正确文本信息,从而提高了图文识别精度。
[0225]
通过本公开实施例,可以丰富问答模型中的答案类型,丰富问答场景以及答案的范围。
[0226]
为了便于理解,接下来本公开实施例以新闻图片为例,通过图5-图7对本公开实施例提供的文本识别方法展开具体说明。
[0227]
图5示出了本公开实施例提供的一种示例性的待识别文本的示意图。如图5所示,待识别文本可以是具有分栏文本的新闻图片501。
[0228]
图6示出了本公开实施例提供的一种示例性地文本识别结果的示意图。如图6所示,对新闻图片501进行文本识别处理后,得到的文本识别结果,即多个连续文本片段,其中,每一个文本框601中文本内容作为一个连续文本片段。
[0229]
对图6中的连续文本片段进行区域拼接后,初步拼接结果如图7所示。图7示出了本公开实施例提供的一种示例性地基于区域性拼接的文本拼接结果的示意图。如图7所示,可以将图6中处于同一区域内的多个文本框601合并为大文本框701。大文本框701中的文本内容即为需要进行语义拼接的连续文本片段。
[0230]
需要说明的是,后续对大文本框701的语义合并步骤未结合附图示出。继续以图7为例,左上侧的连续文本片段的结尾为“同治四年”,右上侧连续文本片段的开始为“(1865年)的会试朱卷”,下侧连续文本片段的开始为“煎饼果子调查(三)”。本方案根据训练的自然语言推理模型判断左上侧的连续文本片段应该与右上侧连续文本片段合并还是与下侧连续文本片段合并。
[0231]
图8示出了本公开实施例提供的一种问答方法的流程示意图。
[0232]
在本公开实施例中,问答方法各步骤的执行主体可以是台式计算机、笔记本电脑、云服务器、服务器集群等具有计算功能的设备或者模块,对此不作具体限定。
[0233]
如图8所示,该问答方法可以包括如下步骤。
[0234]
s810,接收用户输入的提问信息。
[0235]
其中,用户输入的提问信息可以是用户直接输入的文字信息或者语音信息或者图像信息,对此不作限定。
[0236]
可选地,提问信息可以是用户在预设提问框中输入的信息。或者是,用户在多个候选提问信息中选择的信息。又或者可以是从用户输入提问内容中提取得到的关键信息,对提问信息的具体输入方式不作限定。
[0237]
s820,在预设答案库中,确定与提问信息对应的待选答案文本。其中,待选答案文本包括与待选答案文本提问信息对应的待识别图像内的文本内容,文本内容是对满足预设语义关联条件的语义关联得分所属的待拼接文本片段文本拼接得到的,待选答案文本待拼接文本片段对由多个连续文本片段中的两个连续文本片段组成,待选答案文本多个连续文本片段由对待选答案文本待识别图像进行文本识别得到其中,本公开实施例中的待识别图像内的文本内容可以参见上述结合图2至图4示出的一个或者多个实施例中各个可选方案示出的文本内容,对此不作赘述。
[0238]
在一些实施例中,可以从预设答案库中初步筛选出多个待选答案文本,比如可以是与提问问题最相关的前m个答案文本作为m个待选答案文本。
[0239]
具体地,可以先获取m个待选答案文本,然后将其输入预设问答模型。其中,利用elasticsearch方法获取m个待选答案文本,或者可以基于提问信息中关键特征匹配得到m个待选答案文本,对此不作具体限定。又或者,可以利用预先训练的问答模型得到m个待选答案文本。
[0240]
s830,在待选答案文本中确定提问信息的目标答案。
[0241]
在一些实施例中,可以利用预先训练的问答模型确定提问信息的目标答案。其中,问答模型可以是bert模型、cnn模型等具有问答功能的模型,对此不作限定。
[0242]
在一个实施例中,s830的具体实施方式可以包括:
[0243]
步骤f1,基于预先训练的问答模型,得到每一待选答案文本对应的答案概率。
[0244]
在一个示例中,每一待选答案文本对应的答案概率p是由答案在该每一候选文本中的开始位置的概率p
start
与答案在该每一待选答案文本中的结束位置的概率p
end
的乘积。
[0245]
在一个示例中,步骤f1可以具体包括步骤f11和步骤f12。
[0246]
步骤f11,利用预先训练的问答模型,得到每一待选答案文本对应的向量hg。其中,每一待选答案文本对应的向量hg可以是利用问答模型对由用户输入的提问信息与该每一候选答案文本拼接而成的拼接向量处理得到的。
[0247]
示例性地,步骤f11可以包括下述步骤f111和f112。
[0248]
步骤f111,对于提问信息和每一待选答案文本,构建问答模型的输入数据g的步骤。
[0249]
其中,输入数据g满足下述公式(13):
[0250]
g=[cls,q1,q2,...,qr,sep,d1,d2,...,d
l
,sep]
ꢀꢀꢀ
(13)
[0251]
其中,q1,q2,...,qr是提问信息中的r个字,d1,d2,...,d
l
是待选答案文本中的l个字。又或者,还可以根据提问信息和每一待选答案文本中的关键字或者关键词来构建输入数据,对此不作具体限定。
[0252]
步骤f112,将每一待选答案文本对应的输入数据g输入预先训练的问答模型,得到该每一待选答案文本对应的向量hg。
[0253]
其中,每一待选答案文本对应的向量hg可以表示为下述公式(14);
[0254]
hg=bert(g)
ꢀꢀꢀ
(14)
[0255]
步骤f12,根据每一待选答案文本对应的向量hg,确定答案开始位置的预测概率以及答案结束位置的预测概率。
[0256]
其中,答案开始位置的预测概率以及答案结束位置的预测概率分别满足下述公式(15)和(16):
[0257]ystart
=softmax(wshg+bs)
ꢀꢀꢀ
(15)
[0258]yend
=softmax(wehg+be)
ꢀꢀꢀ
(16)
[0259]
其中,ws、we、bs和be是可训练的模型参数。此外,还可以选用其他分类算法来计算答案开始位置的预测概率以及答案结束位置的预测概率,对此不作具体限定。可选地,可以利用问答模型的分类层来实现答案开始位置的预测概率以及答案结束位置的预测概率的计算。又或者可以对问答模型的输出结果进行分类计算,得到答案开始位置的预测概率以及答案结束位置的预测概率,对此不作具体限定。
[0260]
步骤f2,将m个待选答案文本的答案概率中的最大值作为目标答案文本。以及在目标答案文本中选择出目标答案。示例性地,可以将答案开始位置和答案结束位置之间的文本作为目标答案,比如从p
start
开始至p
end
结束的文本。
[0261]
本公开实施例的问答方法,在通过文本识别技术从待识别图像中获取多个连续文本片段之后,可以计算多个连续文本片段中待拼接文本片段对的语义关联得分,由于语义关联得分能够表征待拼接文本片段之间的语义关联性,因此通过对语义关联得分满足预设语义关联条件的待拼接文本片段对进行文本拼接,能够将语义关联性高的文本片段进行拼接,使得拼接得到的文本内容能够反映图片中文字的正确文本信息,从而提高了待选答案文本的准确度。
[0262]
通过本公开实施例,可以丰富问答模型中的答案类型,丰富问答场景以及答案的范围。
[0263]
为了便于整体了解本公开实施例提供的问答方法,下面对本公开实施例提供的问
答方法的逻辑展开具体说明。
[0264]
图9示出了本公开实施例提供的一种示例性地问答方法的逻辑示意图。如图9所示,问答方法的逻辑如下。
[0265]
首先,获取n张待识别图像1-n之后,可以利用文本识别方法获取n张待识别图像对应的文本内容,即文本内容1-n,其中,文本识别方法可以是本公开实施例上述部分结合图2至图4示出的文本识别方法。在一个示例中,在获取待识别图像之后,可以利用ctpn、densenet以及ctc模型,识别得到多个文本框。再基于条件3、条件4和步骤s330对多个文本框进行基于空间位置关系的初次合并。对初次合并后的文本框利用语义分析模型(比如bert模型)计算语义关联得分后,再基于条件1和条件2和步骤s140进行再次的语义合并,得到文本片段。
[0266]
其次,将获取的文本内容1-n存储入elasticsearch的答案库中。
[0267]
再其次,当用户输入提问信息之后,elasticsearch可以从答案库中找到与提问信息相匹配的m个待选答案文本1-m。
[0268]
再其次,利用预先训练的问答模型,确定各待选答案文本对应的答案概率p,以及答案在该每一候选文本中的开始位置poss,以及答案在该每一候选文本中的结束位置pose。具体地,该步骤可以参见f1的具体内容,在此不再赘述。其中,问答模型可以是基于bert的问答模型。
[0269]
最后,在m个待选答案文本对应的答案概率p中确定最大值,并根据最大值对应的开始位置poss以及结束位置pose确定目标答案。具体地,该步骤可以参见f2的具体内容,在此不再赘述。
[0270]
通过本公开实施例可以实现对待识别图像的问答,且提高了问答模型的图像答案的精确度,进而提高了问答精度。
[0271]
为了便于整体理解,图10示出了本公开实施例提供的一种示例性地问答方法的流程示意图。本公开实施例可以在上述实施例的基础上进行优化,本公开实施例可以与上述一个或者多个实施例中各个可选方案结合。
[0272]
在本公开实施例中,问答方法各步骤的执行主体可以是台式计算机、笔记本电脑、云服务器、服务器集群等具有计算功能的设备或者模块,对此不作具体限定。
[0273]
如图10所示,该问答方法可以包括如下步骤。
[0274]
s1001,获取待识别图像。其中,s1001与上述s110类似,在此不再赘述。
[0275]
s1002,对待识别图像进行文本识别,得到文本识别结果。其中,文本识别结果包括多个连续文本片段以及多个连续文本片段在待识别图像上的位置信息。此外,s1002的其他内容与上述s120类似,在此不再赘述。
[0276]
s1003,将多个连续文本片段中、位置信息满足预设位置分布条件的任意两个连续文本片段进行拼接,得到多个拼接而成的连续文本片段。其中,s1003的其他内容与上述s330类似,在此不再赘述。
[0277]
s1004,将每一拼接而成的连续文本片段作为一个新的连续文本片段,得到多个新的连续文本片段。其中,s1004的其他内容与上述s340类似,在此不再赘述。
[0278]
其中,s1004的其他内容与上述s340类似,在此不再赘述。
[0279]
s1005,在多个新的连续文本片段中,选取第一待拼接文本片段和第二待拼接文本
片段作为待拼接文本片段对。其中,s1005的其他内容与上述s230类似,在此不再赘述。
[0280]
s1006,对第一待拼接文本片段和第二待拼接文本片段进行语义关联性计算,得到第一待拼接文本片段和第二待拼接文本片段的语义关联得分。其中,s1006与上述s130类似,在此不再赘述。
[0281]
s1007,在语义关联得分满足预设语义关联条件的情况下,对第一待拼接文本片段和第二待拼接文本片段进行文本拼接,以及返回步骤s1005,在多个连续文本片段中确定新的第一待拼接文本片段和新的第二待拼接文本片段作为新的待拼接文本片段对,对新的待拼接文本片段对进行语义关联性计算得到新的语义关联得分,并在新的语义关联得分满足预设语义关联条件的情况下,对新的待拼接文本片段对进行拼接。
[0282]
s1008,在语义关联得分不满足预设语义关联条件的情况下,不对第一待拼接文本片段和第二待拼接文本片段进行拼接,并返回步骤s1005,在多个连续文本片段中确定新的第一待拼接文本片段和新的第二待拼接文本片段作为新的待拼接文本片段对,对新的待拼接文本片段对进行语义关联性计算得到新的语义关联得分,并在新的语义关联得分满足预设语义关联条件的情况下,对新的待拼接文本片段对进行拼接。
[0283]
s1009,在完成对所有连续文本片段的拼接之后,得到待识别图像的文本内容。其中,s1009与上述s140类似,在此不再赘述。
[0284]
s1010,将待识别图像的文本内容存储至预设答案库。其中,s1010与上述s450类似,在此不再赘述。
[0285]
s1011,接收用户输入的提问信息。其中,s1011与上述s810类似,在此不再赘述。
[0286]
s1012,在预设答案库中,确定与提问信息对应的待选答案文本以及各待选答案文本对应的答案信息。其中,各待选答案文本对应的答案信息包括各待选答案文本对应的答案概率p,以及答案在该每一候选文本中的开始位置poss,以及答案在该每一候选文本中的结束位置pose。其中,s1012与上述s820类似,在此不再赘述。
[0287]
s1013,在待选答案文本中确定提问信息的目标答案。其中,s1013与上述s830类似,在此不再赘述。
[0288]
本公开实施例的问答方法,在通过文本识别技术从待识别图像中获取多个连续文本片段之后,可以计算多个连续文本片段中待拼接文本片段对的语义关联得分,由于语义关联得分能够表征待拼接文本片段之间的语义关联性,因此通过对语义关联得分满足预设语义关联条件的待拼接文本片段对进行文本拼接,能够将语义关联性高的文本片段进行拼接,使得拼接得到的文本内容能够反映图片中文字的正确文本信息,从而提高了待选答案文本的准确度。
[0289]
通过本公开实施例,可以丰富问答模型中的答案类型,丰富问答场景以及答案的范围。
[0290]
本公开实施例还提供了一种用于实现上述文本识别方法的文本识别装置,下面结合图11进行说明。
[0291]
在本公开实施例中,文本识别装置可以为台式计算机、笔记本电脑、云服务器、服务器集群等具有计算功能的设备或者模块,对此不作具体限定。
[0292]
图11示出了本公开实施例提供的一种文本识别装置的结构示意图。
[0293]
如图11所示,该文本识别装置1100可以包括图像获取模块1100、文本识别模块
1120、分数计算模块1130以及第一文本拼接模块1140。
[0294]
图像获取模块1100,配置为获取待识别图像;
[0295]
文本识别模块1120,配置为对待识别图像进行文本识别,得到文本识别结果,文本识别结果包括多个连续文本片段;
[0296]
分数计算模块1130,配置为计算待拼接文本片段对的语义关联得分,其中,待拼接文本片段对由多个连续文本片段中的两个连续文本片段组成;
[0297]
第一文本拼接模块1140,配置为在待拼接文本片段对的语义关联得分满足预设语义关联条件的情况下,对待拼接文本片段对进行文本拼接,得到待识别图像的文本内容。
[0298]
本公开实施例的文本识别装置,在通过文本识别技术从待识别图像中获取多个连续文本片段之后,可以计算多个连续文本片段中待拼接文本片段对的语义关联得分,由于语义关联得分能够表征待拼接文本片段之间的语义关联性,因此通过对语义关联得分满足预设语义关联条件的待拼接文本片段对进行文本拼接,能够将语义关联性高的文本片段进行拼接,使得拼接得到的文本内容能够反映图片中文字的正确文本信息,从而提高了图文识别精度。
[0299]
在一些实施例中,分数计算模块1130进一步配置为:
[0300]
在多个连续文本片段中选取第一待拼接文本片段和第二待拼接文本片段作为待拼接文本片段对;
[0301]
对第一待拼接文本片段和第二待拼接文本片段进行语义关联性计算,得到第一待拼接文本片段和第二待拼接文本片段的语义关联得分;
[0302]
其中,第一文本拼接模块1140,进一步配置为:
[0303]
在语义关联得分满足预设语义关联条件的情况下,对第一待拼接文本片段和第二待拼接文本片段进行文本拼接;
[0304]
在多个连续文本片段中确定新的第一待拼接文本片段和新的第二待拼接文本片段作为新的待拼接文本片段对,并对新的待拼接文本片段对进行语义关联性计算得到新的语义关联得分,并在新的语义关联得分满足预设语义关联条件的情况下,对新的待拼接文本片段对进行拼接,直到完成对所有连续文本片段的拼接。
[0305]
在一些实施例中,分数计算模块1130进一步配置为:
[0306]
计算待拼接文本片段对的语义关联得分,包括:
[0307]
对待拼接文本片段对中的第一待拼接文本片段进行语句分割处理,得到第一待拼接文本片段的第一关键语句;
[0308]
对待拼接文本片段对中的第二待拼接文本片段进行语句分割处理,得到第二待拼接文本片段的第二关键语句;
[0309]
将第一关键语句和第二关键语句输入预先训练的语义分析模型,得到语义关联得分。
[0310]
在一些实施例中,预设语义关联条件包括:
[0311]
语义关联得分是语义关联得分集合中的最高分,和/或,语义关联得分大于预设分数阈值,
[0312]
其中,语义关联得分集合包括待拼接文本片段对中的第一待拼接文本片段与多个连续文本片段中目标连续文本片段的语义关联得分。
[0313]
在一些实施例中,文本识别结果还包括多个连续文本片段在待识别图像上的位置信息。
[0314]
文本识别装置1100还包括第二文本拼接模块以及文本片段处理模块。
[0315]
第二文本拼接模块,配置为将位置信息满足预设位置分布条件的任意两个连续文本片段进行拼接,得到拼接而成的连续文本片段;
[0316]
文本片段处理模块,配置为将拼接而成的连续文本片段作为新的连续文本片段。
[0317]
可选地,预设位置分布条件包括:
[0318]
任意两个连续文本片段在横向上的重合度大于预设重合度阈值;和/或,
[0319]
任意两个连续文本片段在纵向上的距离在预设距离范围内。
[0320]
在一些实施例中,文本识别模块1120,可以进一步配置为:
[0321]
对待识别图像进行文字检测,得到多个文本框区域;
[0322]
对多个文本框区域进行文本识别,得到多个文本框区域内的连续文本片段。
[0323]
在一些实施例中,语义关联得分由预先训练的语义分析模型得到。
[0324]
文本识别装置1100还包括模型训练模块。
[0325]
模型训练模块可以进一步配置为:
[0326]
获取待训练文本;
[0327]
将待训练文本中的相邻语句作为正样本,将待训练文本中不相邻语句作为负样本,得到多个训练样本;
[0328]
将多个训练样本输入待训练的语义分析模型,得到多个训练样本的语义关联得分;根据多个训练样本的语义关联得分和多个训练样本的样本标签确定是否满足训练停止条件,在不满足训练停止条件的情况下,对语义分析模型继续训练,直到满足训练停止条件,得到训练完成的语义分析模型。
[0329]
在一些实施例中,文本识别装置1100还包括数据存储模块。
[0330]
数据存储模块,配置为将文本内容存储至预设答案库,用于为用户提供与用户输入的提问信息相匹配的待选答案文本。
[0331]
在一些实施例中,待识别图像上的文字分布于不相连的多个图像区域内,其中,每个图像区域内存在至少一个连续文本片段。
[0332]
需要说明的是,图10所示的文本识别装置1000可以执行图2-图7所示的方法实施例中的各个步骤,并且实现图2-图7所示的文本识别方法实施例中的各个过程和效果,在此不做赘述。
[0333]
本公开实施例还提供了一种用于实现上述问答方法的问答装置,下面结合图12进行说明。
[0334]
在本公开实施例中,问答装置可以为台式计算机、笔记本电脑、云服务器、服务器集群等具有计算功能的设备或者模块,对此不作具体限定。
[0335]
图12示出了本公开实施例提供的一种问答装置的结构示意图。
[0336]
如图12所示,该问答装置1200可以包括信息接收模块1210、信息处理模块1220以及答案确定模块1230。
[0337]
信息接收模块1210,配置为接收用户输入的提问信息;
[0338]
信息处理模块1220,配置为在预设答案库中,确定与提问信息对应的待选答案文
本,待选答案文本包括与提问信息对应的待识别图像内的文本内容,文本内容是对满足预设语义关联条件的语义关联得分所属的待拼接文本片段文本拼接得到的,待拼接文本片段对由多个连续文本片段中的两个连续文本片段组成,多个连续文本片段由对待识别图像进行文本识别得到;
[0339]
答案确定模块1230,配置为利用输入预先训练的问答模型,在待选答案文本中确定提问信息的目标答案。
[0340]
本公开实施例的问答装置,在通过文本识别技术从待识别图像中获取多个连续文本片段之后,可以计算多个连续文本片段中待拼接文本片段对的语义关联得分,由于语义关联得分能够表征待拼接文本片段之间的语义关联性,因此通过对语义关联得分满足预设语义关联条件的待拼接文本片段对进行文本拼接,能够将语义关联性高的文本片段进行拼接,使得拼接得到的文本内容能够反映图片中文字的正确文本信息,从而提高了图文识别精度。
[0341]
需要说明的是,图12所示的问答装置1200可以执行图8至图10所示的方法实施例中的各个步骤,并且实现图8至图10所示的方法实施例中的各个过程和效果,在此不做赘述。
[0342]
图13示出了本公开实施例提供的一种计算设备的结构示意图。
[0343]
如图13所示,该计算设备可以包括处理器1301以及存储有计算机程序指令的存储器1302。
[0344]
具体地,上述处理器1301可以包括中央处理器(cpu),或者特定集成电路(application specific integrated circuit,asic),或者可以被配置成实施本公开实施例的一个或多个集成电路。
[0345]
存储器1302可以包括用于信息或指令的大容量存储器。举例来说而非限制,存储器1302可以包括硬盘驱动器(hard disk drive,hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus,usb)驱动器或者两个及其以上这些的组合。在合适的情况下,存储器1302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器1302可在综合网关设备的内部或外部。在特定实施例中,存储器1302是非易失性固态存储器。在特定实施例中,存储器1302包括只读存储器(read-only memory,rom)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(programmable rom,prom)、可擦除prom(electrical programmable rom,eprom)、电可擦除prom(electrically erasable programmable rom,eeprom)、电可改写rom(electrically alterable rom,earom)或闪存,或者两个或及其以上这些的组合。
[0346]
处理器1301通过读取并执行存储器1302中存储的计算机程序指令,以执行本公开实施例所提供的文本识别方法的步骤,或者以执行本公开实施例所提供的问答方法的步骤。
[0347]
在一个示例中,该计算设备还可包括收发器1303和总线1304。其中,如图13所示,处理器1301、存储器1302和收发器1303通过总线1304连接并完成相互间的通信。
[0348]
总线1304包括硬件、软件或两者。举例来说而非限制,总线可包括加速图形端口(accelerated graphics port,agp)或其他图形总线、增强工业标准架构(extended industry standard architecture,eisa)总线、前端总线(front side bus,fsb)、超传输
(hyper transport,ht)互连、工业标准架构(industrial standard architecture,isa)总线、无限带宽互连、低引脚数(low pin count,lpc)总线、存储器总线、微信道架构(micro channel architecture,mca)总线、外围控件互连(peripheral component interconnect,pci)总线、pci-express(pci-x)总线、串行高级技术附件(serial advanced technology attachment,sata)总线、视频电子标准协会局部(video electronics standards association local bus,vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线1304可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线,但本技术考虑任何合适的总线或互连。
[0349]
本公开实施例还提供了一种计算机可读存储介质,该存储介质可以存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现本公开实施例所提供的文本识别方法或者问答方法。
[0350]
上述的存储介质可以例如包括计算机程序指令的存储器1302,上述指令可由计算设备的处理器1301执行以完成本公开实施例所提供的文本识别方法或者问答方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是rom、随机存取存储器(random access memory,ram)、光盘只读存储器(compact discrom,cd-rom)、磁带、软盘和光数据存储设备等。
[0351]
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0352]
以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种文本识别方法,其特征在于,包括:获取待识别图像;对所述待识别图像进行文本识别,得到文本识别结果,所述文本识别结果包括多个连续文本片段;计算待拼接文本片段对的语义关联得分,其中,所述待拼接文本片段对由所述多个连续文本片段中的两个连续文本片段组成;在所述待拼接文本片段对的语义关联得分满足预设语义关联条件的情况下,对所述待拼接文本片段对进行文本拼接,得到所述待识别图像的文本内容。2.根据权利要求1所述的方法,其特征在于,所述计算待拼接文本片段对的语义关联得分,包括:在所述多个连续文本片段中选取第一待拼接文本片段和第二待拼接文本片段作为所述待拼接文本片段对;对所述第一待拼接文本片段和所述第二待拼接文本片段进行语义关联性计算,得到所述第一待拼接文本片段和所述第二待拼接文本片段的语义关联得分;其中,所述对所述待拼接文本片段对进行文本拼接,包括:在所述语义关联得分满足预设语义关联条件的情况下,对所述第一待拼接文本片段和所述第二待拼接文本片段进行文本拼接;在所述多个连续文本片段中确定新的第一待拼接文本片段和新的第二待拼接文本片段作为新的待拼接文本片段对,并对新的待拼接文本片段对进行语义关联性计算得到新的语义关联得分,并在所述新的语义关联得分满足预设语义关联条件的情况下,对所述新的待拼接文本片段对进行拼接,直到完成对所有连续文本片段的拼接。3.根据权利要求1或2所述的方法,其特征在于,所述计算待拼接文本片段对的语义关联得分,包括:对所述待拼接文本片段对中的第一待拼接文本片段进行语句分割处理,得到所述第一待拼接文本片段的第一关键语句;对所述待拼接文本片段对中的第二待拼接文本片段进行语句分割处理,得到第二待拼接文本片段的第二关键语句;将所述第一关键语句和所述第二关键语句输入所述预先训练的语义分析模型,得到所述语义关联得分。4.根据权利要求1所述的方法,其特征在于,所述预设语义关联条件包括:所述语义关联得分是语义关联得分集合中的最高分,和/或,所述语义关联得分大于预设分数阈值,其中,语义关联得分集合包括所述待拼接文本片段对中的第一待拼接文本片段与所述多个连续文本片段中目标连续文本片段的语义关联得分。5.根据权利要求1所述的方法,其特征在于,所述文本识别结果还包括所述多个连续文本片段在所述待识别图像上的位置信息;在计算待拼接文本片段对的语义关联得分之前,所述方法还包括:将位置信息满足预设位置分布条件的任意两个连续文本片段进行拼接,得到拼接而成的连续文本片段;
将所述拼接而成的连续文本片段作为新的连续文本片段。6.根据权利要求5所述的方法,其特征在于,所述预设位置分布条件,包括:所述任意两个连续文本片段在横向上的重合度大于预设重合度阈值;和/或,所述任意两个连续文本片段在纵向上的距离在预设距离范围内。7.根据权利要求1所述的方法,其特征在于,所述对所述待识别图像进行文本识别,得到文本识别结果,包括:对所述待识别图像进行文字检测,得到多个文本框区域;对所述多个文本框区域进行文本识别,得到所述多个文本框区域内的连续文本片段。8.根据权利要求1所述的方法,其特征在于,所述语义关联得分由预先训练的语义分析模型预测得到;其中,所述计算待拼接文本片段对的语义关联得分之前,所述方法还包括:获取待训练文本;将所述待训练文本中的相邻语句作为正样本,将所述待训练文本中不相邻语句作为负样本,得到多个训练样本;将所述多个训练样本输入待训练的语义分析模型,得到所述多个训练样本的语义关联得分;根据所述多个训练样本的语义关联得分和所述多个训练样本的样本标签确定是否满足训练停止条件,在不满足所述训练停止条件的情况下,对语义分析模型继续训练,直到满足训练停止条件,得到训练完成的所述语义分析模型。9.根据权利要求1所述的方法,其特征在于,所述得到所述待识别图像的文本内容之后,所述方法还包括:将所述文本内容存储至预设答案库,所述预设答案库用于为用户提供与所述用户输入的提问信息相匹配的待选答案文本。10.根据权利要求1-9任一项所述的方法,其特征在于,所述待识别图像上的文字分布于不相连的多个图像区域内,其中,每个所述图像区域内存在至少一个连续文本片段。11.一种问答方法,其特征在于,包括:接收用户输入的提问信息;在预设答案库中,确定与所述提问信息对应的待选答案文本,所述待选答案文本包括与所述提问信息对应的待识别图像内的文本内容,所述文本内容是对满足预设语义关联条件的语义关联得分所属的待拼接文本片段文本拼接得到的,所述待拼接文本片段对由多个连续文本片段中的两个连续文本片段组成,所述多个连续文本片段由对所述待识别图像进行文本识别得到;在所述待选答案文本中确定所述提问信息的目标答案。12.一种文本识别装置,其特征在于,包括:图像获取模块,配置为获取待识别图像;文本识别模块,配置为对所述待识别图像进行文本识别,得到文本识别结果,所述文本识别结果包括多个连续文本片段;分数计算模块,配置为计算待拼接文本片段对的语义关联得分,其中,所述待拼接文本片段对由所述多个连续文本片段中的两个连续文本片段组成;第一文本拼接模块,配置为在待拼接文本片段对的语义关联得分满足预设语义关联条
件的情况下,对所述待拼接文本片段对进行文本拼接,得到所述待识别图像的文本内容。13.一种问答装置,其特征在于,包括:信息接收模块,配置为接收用户输入的提问信息;信息处理模块,配置为在预设答案库中,确定与所述提问信息对应的待选答案文本,所述待选答案文本包括与所述提问信息对应的待识别图像内的文本内容,所述文本内容是对满足预设语义关联条件的语义关联得分所属的待拼接文本片段文本拼接得到的,所述待拼接文本片段对由多个连续文本片段中的两个连续文本片段组成,所述多个连续文本片段由对所述待识别图像进行文本识别得到;答案确定模块,配置为利用输入预先训练的问答模型,在所述待选答案文本中确定所述提问信息的目标答案。14.一种计算设备,其特征在于,包括:处理器;存储器,用于存储可执行指令;其中,所述处理器用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现上述权利要求1-10中任一项所述的文本识别方法,或者以实现上述权利要求11所述的问答方法。15.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得处理器实现用上述权利要求1-10中任一项所述的文本识别方法,或者使得处理器实现上述权利要求11所述的问答方法。
技术总结
本公开涉及一种文本识别及问答方法、装置、设备及介质。其中,文本识别方法包括:获取待识别图像;对待识别图像进行文本识别,得到文本识别结果,文本识别结果包括多个连续文本片段;计算待拼接文本片段对的语义关联得分;在待拼接文本片段对的语义关联得分满足预设语义关联条件的情况下,对待拼接文本片段对进行文本拼接,得到待识别图像的文本内容。根据本公开实施例,能够提高图文识别精度。能够提高图文识别精度。能够提高图文识别精度。
技术研发人员:王俊艳 张文军 王璋盛 罗引 王磊
受保护的技术使用者:北京中科闻歌科技股份有限公司
技术研发日:2021.11.10
技术公布日:2022/3/8