基于光学字符识别的附件分类方法、装置、设备及介质与流程

专利查询10月前  74

1.本发明涉及智能决策
技术领域
:,尤其涉及一种基于光学字符识别的附件分类方法、装置、电子设备及计算机可读存储介质。
背景技术
::2.随着计算机技术的普及,原本纸质化的附件记录逐渐被电子附件所取代,电子附件以其高效便捷的优势,被广泛应用于各行各业。3.当前电子附件的记录大部分以图片的形式进行记载和保存,例如:合同协议、表格清单及发票单据等,且并未根据附件的类别或内容进行标记,大多数情况都是用户打开附件后才知道该附件具体记录的图片内容及类别。这种附件的分类不明确的保存方式,使得用户对附件的查询效率极低。技术实现要素:4.本发明提供一种基于光学字符识别的附件分类方法、装置及计算机可读存储介质,其主要目的在于解决光学字符识别扫描出的附件的分类不明确问题。5.为实现上述目的,本发明提供的一种基于光学字符识别的附件分类方法,包括:6.获取待分类图片集经过光学字符识别产生的文本附件集合;7.从所述文本附件集中逐一选择其中一个文本附件,提取所述文本附件预先被标注的真实类别及所述文本附件中所有的附件关键词、段落标签及表格标签;8.将所述文本附件中提取到的各个附件关键词进行组合,得到所述文本附件的训练关键词集,并计算所述段落标签与所述表格标签在数量上的比值,得到训练标签比值;9.利用所述训练关键词集及所述训练标签比值,配置预构建的原始附件分类器;10.利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值;11.判断所述分值是否小于预设的预测阈值;12.当所述分值小于预设的预测阈值时,利用所述分值对所述原始附件分类器进行梯度调节,并返回至上述的利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值步骤;13.当所述分值大于或等于预设的预测阈值时,将所述预测得到的附件类别与所述文本附件的真实类别进行比较,得到预测正确或者预测错误的预测结果;14.汇总所述文本附件集中所有的文本附件的预测结果,得到预测正确率;15.判断所述预测正确率是否大于或等于预设的训练阈值;16.若所述预测正确率小于所述训练阈值,返回上述的利用所述训练关键词集及所述训练标签比值,配置预构建的原始附件分类器的步骤,直至所述预测正确率大于或等于所述训练阈值,则停止所述迭代训练,得到标准附件分类器;17.接收待分类附件,利用所述标准附件分类器对所述待分类附件进行分类,得到所述待分类附件的分类结果。18.可选的,所述利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值,包括:19.根据所述训练关键词集中的每一个训练关键词,在预构建的附件类别评分表中的每一个附件类别下,对所述文本附件进行评分,得到关键词评分集;20.根据所述训练标签比值,在所述附件类别评分表中的每一个附件类别下,对所述文本附件进行评分,得到标签比评分集;21.根据所述关键词评分集及所述标签比评分集,构建所述文本附件在所述附件类别评分表中的每一个附件类别下的综合评分,得到综合评分集;22.查询所述综合评分集中的最高综合评分对应的附件类别,并将所述最高综合评分对应的附件类别及所述最高综合评分,作为所述文本附件的附件类别及对应的分值。23.可选的,所述根据所述关键词评分集及所述标签比评分集,构建所述文本附件在所述附件类别评分表中的每一个附件类别下的综合评分,得到综合评分集,包括:24.叠加所述关键词评分集中在同一附件类别下的评分,得到所述训练关键词集在每一个附件类别下的评分;25.利用预构建的第一归一化公式,对所述训练关键词集在每一个附件类别下的评分进行归一化处理,得到关键词归一评分集;26.利用预构建的第二归一化公式,对所述标签比评分集中的评分进行归一化处理,得到标签比归一评分集;27.对应叠加所述关键词归一评分集及所述标签比归一评分集中,在同一附件类别下的评分,得到所述综合评分集。28.可选的,所述提取所述文本附件预先被标注的真实类别及所述文本附件中所有的附件关键词、段落标签及表格标签,包括:29.提取所述文本附件预设的附件编号,根据所述附件编号在预构建的训练附件类别表中查询所述文本附件预先被标注的真实类别;30.将所述文本附件转换为html格式,得到html附件;31.根据预构建的附件关键词集,提取所述html附件中所有的附件关键词;32.根据预设的附件段落标签集,提取所述html附件中的所有段落标签;33.根据预设的附件表格标签集,提取所述html附件中的所有表格标签。34.可选的,所述根据预构建的附件关键词集,提取所述html附件中所有的附件关键词,包括:35.对所述html附件中的内容进行分词处理,得到待匹配词语集;36.提取所述待匹配词语集和所述附件关键词集中同时存在的词语,将所述同时存在的词语作为所述附件关键词。37.可选的,所述利用所述分值对所述原始附件分类器进行梯度调节,并返回至上述的利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值步骤,包括:38.计算所述分值与所述预测阈值的差值,得到预测残差;39.根据所述预测残差的大小,设置调节所述关键词评分集及所述标签比评分集的调节梯度;40.根据所述调节梯度,调节所述关键词评分集及所述标签比评分集中每一个附件类别下的评分,根据调节后的所述关键词评分集及所述标签比评分集,预测所述文本附件的附件类别及对应的分值。41.可选的,所述接收待分类附件,利用所述标准附件分类器对所述待分类附件进行分类,得到所述待分类附件的分类结果,包括:42.提取所述待分类附件中的所有附件关键词、段落标签及表格标签;43.根据所述待分类附件中的所有附件关键词、段落标签及表格标签,利用所述标准附件分类器对所述待分类附件进行分类,得到所述待分类附件的分类结果。44.为了解决上述问题,本发明还提供一种基于光学字符识别的附件分类装置,所述装置包括:45.样本数据提取模块,用于获取待分类图片集经过光学字符识别产生的文本附件集合,及从所述文本附件集中逐一选择其中一个文本附件,提取所述文本附件预先被标注的真实类别及所述文本附件中所有的附件关键词、段落标签及表格标签,及将所述文本附件中提取到的各个附件关键词进行组合,得到所述文本附件的训练关键词集,并计算所述段落标签与所述表格标签在数量上的比值,得到训练标签比值;46.分类器预测模块,用于利用所述训练关键词集及所述训练标签比值,配置预构建的原始附件分类器,及利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值;47.分类结果判断模块,用于判断所述分值是否小于预设的预测阈值,及当所述分值小于预设的预测阈值时,利用所述分值对所述原始附件分类器进行梯度调节,并返回至上述的利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值的步骤;48.分类器效果判断模块,用于当所述分值大于或等于预设的预测阈值时,将所述预测得到的附件类别与所述文本附件的真实类别进行比较,得到预测正确或者预测错误的预测结果,及汇总所述文本附件集中所有的文本附件的预测结果,得到预测正确率,并判断所述预测正确率是否大于或等于预设的训练阈值,及若所述预测正确率小于所述训练阈值,返回上述的利用所述训练关键词集及所述训练标签比值,配置预构建的原始附件分类器的过程,直至所述预测正确率大于或等于所述训练阈值,则停止所述迭代训练,得到标准附件分类器;49.分类器识别模块,用于接收待分类附件,利用所述标准附件分类器对所述待分类附件进行分类,得到所述待分类附件的分类结果。50.为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:51.至少一个处理器;以及,52.与所述至少一个处理器通信连接的存储器;其中,53.所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的基于光学字符识别的附件分类方法。54.为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于光学字符识别的附件分类方法。55.本发明实施例提取通过对图片附件进行光学字符识别操作得到的文本附件的附件关键字及训练标签比值,其中,所述附件关键字及训练标签比值可以表征一个图片附件中的所有特征信息,利用所述训练关键词集及训练标签比值对附件分类器训练可以使所述附件分类器更加准确,此外,根据所述附件分类器预测得到每个附件类别的分值以及所述附件分类器的预测正确率,两个评判标准对所述附件分类器进行训练,进一步提高了所述附件分类器的分类准确性。因此,本发明提出的基于光学字符识别的附件分类方法、装置、电子设备及计算机可读存储介质,可以提高对光学字符识别扫描出的附件的分类准确性。附图说明56.图1为本发明一实施例提供的基于光学字符识别的附件分类方法的流程示意图;57.图2为本发明一实施例提供的基于光学字符识别的附件分类方法中一个步骤的流程示意图;58.图3为本发明一实施例提供的基于光学字符识别的附件分类方法中一个步骤的流程示意图;59.图4为本发明一实施例提供的基于光学字符识别的附件分类装置的功能模块图;60.图5为本发明一实施例提供的实现所述基于光学字符识别的附件分类方法的电子设备的结构示意图。61.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式62.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。63.本技术实施例提供一种基于光学字符识别的附件分类方法。所述基于光学字符识别的附件分类方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之,所述基于光学字符识别的附件分类方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdeliverynetwork,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。64.参照图1所示,为本发明一实施例提供的基于光学字符识别的附件分类方法的流程示意图。在本实施例中,所述基于光学字符识别的附件分类方法包括:65.s1、获取待分类图片集经过光学字符识别产生的文本附件集合。66.本发明实施例中,所述待分类图片集可以为存储在网站中的业务附件,例如:中登网上登记了用户之间的关于实际融资业务的合同图片附件、租赁物清单图片附件及发票图片附件等等,这些附件均要求扫描上传件。进一步地本发明实施例通过光学字符识别技术(opticalcharacterrecognition,简称ocr)得到所述待分类图片集对应的文本附件集。67.详细地,所述待分类图片集包括某一领域内所有类型的附件类别,例如:在实际融资业务领域内的附件类别包括:纯文本类、纯表格类、复合类及发票类等等,其中,所述纯文本类可以为合同协议,基本无表格,所述纯表格类可以为表格清单,基本无文本,所述复合类为一半表格和一半纯文本组成,所述发票类可以为增值税普通发票和专用发票等。特别地,当附件出现特别模糊或无法打开的情况时,可以将该附件归类为异常类。68.s2、从所述文本附件集中逐一选择其中一个文本附件,提取所述文本附件预先被标注的真实类别及所述文本附件中所有的附件关键词、段落标签及表格标签。69.本发明实施例中,所述附件关键词为预设的每种附件类别中出现频次比较高的特征词语,例如:纯文本类的合同协议中,“合同”、“协议”及“盖章”等词语可以作为附件关键词;纯表格类的表格清单中,“清单”等词语可以作为附件关键词;发票类的附件中,“增值税专用发票”、“增值税普通发票”、“发票联”、“抵扣联”、“纳税人识别号”及“开票人”等词语可以作为附件关键词。70.本发明实施例中,通过所述文本附件中的每一个附件关键词来在每一种附件类别下进行可能性评分,当某种附件类别下的评分越高,表示所述文本附件属于该附件类别的可能性越大,最后综合所述文本附件中的所有附件关键词来预测所述文本附件的附件类别。71.本发明实施例中,所述段落标签指html格式的文件附件中的段落标签,例如:《p》、《span》等。所述表格标签指html格式的文本附件中的表格标签,例如:《table》、《tr》、《td》等;72.本发明实施例中,所述提取所述文本附件预先被标注的真实类别及所述文本附件中所有的附件关键词、段落标签及表格标签,包括:73.提取所述文本附件预设的附件编号,根据所述附件编号在预构建的训练附件类别表中查询所述文本附件预先被标注的真实类别;74.将所述文本附件转换为html格式,得到html附件;75.根据预构建的附件关键词集,提取所述html附件中所有的附件关键词;76.根据预设的附件段落标签集,提取所述html附件中的所有段落标签;77.根据预设的附件表格标签集,提取所述html附件中的所有表格标签。78.本发明实施例中,所述训练附件类别表指预构建的查询所述文本附件集中每个文本附件的真实类别的查询表,其中,所述训练附件类别表根据每一个文本附件预设的附件编号和文本附件的真实类别的对应关系建立。79.本发明实施例中,所述根据预构建的附件关键词集,提取所述html附件中所有的附件关键词,包括:80.对所述html附件中的内容进行分词处理,得到待匹配词语集;81.提取所述待匹配词语集和所述附件关键词集中同时存在的词语,将所述同时存在的词语作为所述附件关键词。82.本发明实施例中,可以利用jieba分词工具或其他分词工具对所述html附件进行分词处理。83.具体的,本发明实施例中,分词完成后,可以通过提取所述附件关键词集中的每一个附件关键词,与所述待匹配词语集中的每一个待匹配词语与进行匹配,当匹配成功时,表示所述待匹配词语为附件关键词。84.s3、将所述文本附件中提取到的各个附件关键词进行组合,得到所述文本附件的训练关键词集,并计算所述段落标签与所述表格标签在数量上的比值,得到训练标签比值。85.本发明实施例中,因为每种附件类别的附件中出现某个附件关键词的频次以及段落标签和表格标签的比值不同,所以可以将提取的所述文本附件中的所有附件关键词及所述段落标签与所述表格标签的比值作为所述文本附件的附件类别特征,并通过统计所述段落标签的数量与所述表格标签的数量进行计算,得到训练标签比,为后续分类器类别过程提供数据特征。86.s4、利用所述训练关键词集及所述训练标签比值,配置预构建的原始附件分类器。87.本发明实施例中,所述原始附件分类器可以接收用户根据所述训练关键词集中的每一个训练关键词及所述训练标签比值来对所述文本附件在每一种附件类别下的评分,当某一附件类别的评分最高且大于预设的阈值时,则将对应的附件类别作为预测的附件类别。88.s5、利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值。89.详细的,如图2所示,本发明实施例中,所述利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值,包括:90.s51、根据所述训练关键词集中的每一个训练关键词,在预构建的附件类别评分表中的每一个附件类别下,对所述文本附件进行评分,得到关键词评分集;91.s52、根据所述训练标签比值,在所述附件类别评分表中的每一个附件类别下,对所述文本附件进行评分,得到标签比评分集;92.s53、根据所述关键词评分集及所述标签比评分集,构建所述文本附件在所述附件类别评分表中的每一个附件类别下的综合评分,得到综合评分集;93.s54、查询所述综合评分集中的最高综合评分对应的附件类别,并将所述最高综合评分对应的附件类别及所述最高综合评分,作为所述文本附件的附件类别及对应的分值。94.其中,所述附件类别评分表指预构建的包含所有预设的附件类别的评分表,例如:纯文本类、纯表格类、复合类及发票类等。所述附件类别可以置于所述附件类别评分表的第一横栏位中。所述关键词评分集包含根据所述训练关键词集中的每一个训练关键词在所述附件类别评分表的所有附件类别下的评分。例如:当所述训练关键词为“合同”时,在纯文本类的附件类别下的评分可以为0.70,在纯表格类的附件类别下的评分可以为0.60,在复合类的附件类别下的评分可以为0.65,在发票类的附件类别下的评分可以为0.30。95.此外,所述标签比评分集包含根据所述训练标签比值在所述附件类别评分表的所有附件类别下的评分。例如:当所述训练标签比值为7:3时,在纯文本类的附件类别下的评分可以为0.30,在纯表格类的附件类别下的评分可以为0.10,在复合类的附件类别下的评分可以为0.70,在发票类的附件类别下的评分可以为0.20。96.进一步地,所述综合评分集指整合所述关键词评分集及所述标签比评分集中针对同一附件类别的评分,得到所述同一附件类别的综合评分,再根据所有附件类别的综合评分,得到的评分集。97.详细的,如图3所示,本发明实施例中,所述根据所述关键词评分集及所述标签比评分集,构建所述文本附件在所述附件类别评分表中的每一个附件类别下的综合评分,得到综合评分集,包括:98.s531、叠加所述关键词评分集中在同一附件类别下的评分,得到所述训练关键词集在每一个附件类别下的评分;99.s532、利用预构建的第一归一化公式,对所述训练关键词集在每一个附件类别下的评分进行归一化处理,得到关键词归一评分集;100.s533、利用预构建的第二归一化公式,对所述标签比评分集中的评分进行归一化处理,得到标签比归一评分集;101.s534、对应叠加所述关键词归一评分集及所述标签比归一评分集中,在同一附件类别下的评分,得到所述综合评分集。102.本发明实施例中,所述第一归一化公式如下:[0103][0104]其中,g词集指所述训练关键词集在某一附件类别下的所有评分经归一化处理后,得到所述训练关键词集在该附件类别下的评分,q词集指预设的关键词归一化权重,可以为0.5,p词集评分指叠加所述训练关键词集中的所有训练关键词在某一附件类别下的评分,s训练词数指所述训练关键词集中的训练关键词数目。[0105]进一步地,所述第二归一化公式如下:[0106]g标签=q标签*p标签评分[0107]其中,g标签指所述标签比评分集中在某一附件类别下的评分经归一化后,在该附件类别下的评分,q标签指预设的标签比归一化权重,可以为0.5,p标签评分指所述标签比评分集中在某一附件类别下的评分。[0108]s6、判断所述分值是否小于预设的预测阈值;[0109]当所述分值小于预设的预测阈值时,s7、利用所述分值对所述原始附件分类器进行梯度调节,并返回至上述的s4。[0110]本发明实施例中,所述预测阈值可以为0.7,当某一最高综合评分大于或等于0.7时,则将所述最高综合评分作为所述文本附件预测的分值。[0111]详细的,本发明实施例中,所述利用所述分值对所述原始附件分类器进行梯度调节,并返回至上述的利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值步骤,包括:[0112]计算所述分值与所述预测阈值的差值,得到预测残差;[0113]根据所述预测残差的大小,设置调节所述关键词评分集及所述标签比评分集的调节梯度;[0114]根据所述调节梯度,调节所述关键词评分集及所述标签比评分集中每一个附件类别下的评分,根据调节后的所述关键词评分集及所述标签比评分集,预测所述文本附件的附件类别及对应的分值。[0115]本发明实施例根据预设的调节策略,当所述最高综合评分小于0.7时,则需要根据所述预测残差的大小,设置所述关键词评分集及所述标签比评分集中在每一个附件类别下的评分的调整梯度大小。[0116]当所述分值大于或等于预设的预测阈值时,s8、将所述预测得到的附件类别与所述文本附件的真实类别进行比较,得到预测正确或者预测错误的预测结果。[0117]本发明实施例通过将预测所述文本附件得到的附件类别与预先提取的真实类别进行比较,当两者相同时,则表示预测正确,当两者不相同时,则表示预测错误。[0118]s9、汇总所述文本附件集中所有的文本附件的预测结果,得到预测正确率。[0119]本发明实施例中,根据所述文本附件集中的所有文本附件的预测结果中预测正确和预测错误的比例,得到预测正确率,根据所述预测正确率可以得到预测的效果。[0120]s10、判断所述预测正确率是否大于或等于预设的训练阈值。[0121]若所述预测正确率小于所述训练阈值,返回上述的s4,直至所述预测正确率大于或等于所述训练阈值,则执行s11,停止所述迭代训练,得到标准附件分类器。[0122]本发明实施例中设置所述训练阈值为0.85,当所述预测正确率小于所述训练阈值时,则表示所述关键词评分及所述标签比评分集中的评分不准确,需要重新进行评分,再次得到预测正确率,直至所述预测正确率大于或等于预设的训练阈值时,则表示评分准确度较高。[0123]s12、接收待分类附件,利用所述标准附件分类器对所述待分类附件进行分类,得到所述待分类附件的分类结果。[0124]详细的,本发明实施例中,所述接收待分类附件,利用所述标准附件分类器对所述待分类附件进行分类,得到所述待分类附件的分类结果,包括[0125]提取所述待分类附件中的所有附件关键词、段落标签及表格标签;[0126]根据所述待分类附件中的所有附件关键词、段落标签及表格标签,利用所述标准附件分类器对所述待分类附件进行分类,得到所述待分类附件的分类结果。[0127]本发明实施例中,当获得所述标准附件分类器后,可以逐一提取预构建的待分类图片集中图片附件的附件关键词,及段落标签与表格标签的数目比值,并根据所述待分类附件的附件关键词及附件的段落标签数目和表格标签数目,作为所述待分类附件的附件特征,所述标准附件分类器可以根据所述附件特征进行分类,得到分类结果。[0128]如图4所示,是本发明一实施例提供的基于光学字符识别的附件分类装置的功能模块图。[0129]本发明所述基于光学字符识别的附件分类装置100可以安装于电子设备中。根据实现的功能,所述基于光学字符识别的附件分类装置100可以包括样本数据提取模块101、分类器预测模块102、分类结果判断模块103、分类器效果判断模块104及分类器识别模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。[0130]在本实施例中,关于各模块/单元的功能如下:[0131]所述样本数据提取模块101,用于获取待分类图片集经过光学字符识别产生的文本附件集合,及从所述文本附件集中逐一选择其中一个文本附件,提取所述文本附件预先被标注的真实类别及所述文本附件中所有的附件关键词、段落标签及表格标签,及将所述文本附件中提取到的各个附件关键词进行组合,得到所述文本附件的训练关键词集,并计算所述段落标签与所述表格标签在数量上的比值,得到训练标签比值;[0132]所述分类器预测模块102,用于利用所述训练关键词集及所述训练标签比值,配置预构建的原始附件分类器,及利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值;[0133]所述分类结果判断模块103,用于判断所述分值是否小于预设的预测阈值,及当所述分值小于预设的预测阈值时,利用所述分值对所述原始附件分类器进行梯度调节,并返回至上述的利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值的步骤;[0134]所述分类器效果判断模块104,用于当所述分值大于或等于预设的预测阈值时,将所述预测得到的附件类别与所述文本附件的真实类别进行比较,得到预测正确或者预测错误的预测结果,及汇总所述文本附件集中所有的文本附件的预测结果,得到预测正确率,并判断所述预测正确率是否大于或等于预设的训练阈值,及若所述预测正确率小于所述训练阈值,返回上述的利用所述训练关键词集及所述训练标签比值,配置预构建的原始附件分类器的过程,直至所述预测正确率大于或等于所述训练阈值,则停止所述迭代训练,得到标准附件分类器;[0135]所述分类器识别模块105,用于接收待分类附件,利用所述标准附件分类器对所述待分类附件进行分类,得到所述待分类附件的分类结果。[0136]详细地,本发明实施例中所述基于光学字符识别的附件分类装置100中所述的各模块在使用时采用与上述图1至图3中所述的基于光学字符识别的附件分类方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。[0137]如图5所示,是本发明一实施例提供的实现基于光学字符识别的附件分类方法的电子设备的结构示意图。[0138]所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于光学字符识别的附件分类程序。[0139]其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(centralprocessingunit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(controlunit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于光学字符识别的附件分类程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。[0140]所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(smartmediacard,smc)、安全数字(securedigital,sd)卡、闪存卡(flashcard)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于光学字符识别的附件分类程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。[0141]所述通信总线12可以是外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。[0142]所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。[0143]图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。[0144]例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。[0145]应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。[0146]所述电子设备1中的所述存储器11存储的基于光学字符识别的附件分类程序是多个指令的组合,在所述处理器10中运行时,可以实现:[0147]获取待分类图片集经过光学字符识别产生的文本附件集合;[0148]从所述文本附件集中逐一选择其中一个文本附件,提取所述文本附件预先被标注的真实类别及所述文本附件中所有的附件关键词、段落标签及表格标签;[0149]将所述文本附件中提取到的各个附件关键词进行组合,得到所述文本附件的训练关键词集,并计算所述段落标签与所述表格标签在数量上的比值,得到训练标签比值;[0150]利用所述训练关键词集及所述训练标签比值,配置预构建的原始附件分类器;[0151]利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值;[0152]判断所述分值是否小于预设的预测阈值;[0153]当所述分值小于预设的预测阈值时,利用所述分值对所述原始附件分类器进行梯度调节,并返回至上述的利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值的步骤;[0154]当所述分值大于或等于预设的预测阈值时,将所述预测得到的附件类别与所述文本附件的真实类别进行比较,得到预测正确或者预测错误的预测结果;[0155]汇总所述文本附件集中所有的文本附件的预测结果,得到预测正确率;[0156]判断所述预测正确率是否大于或等于预设的训练阈值;[0157]若所述预测正确率小于所述训练阈值,返回上述的利用所述训练关键词集及所述训练标签比值,配置预构建的原始附件分类器的过程,直至所述预测正确率大于或等于所述训练阈值,则停止所述迭代训练,得到标准附件分类器;[0158]接收待分类附件,利用所述标准附件分类器对所述待分类附件进行分类,得到所述待分类附件的分类结果。[0159]具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。[0160]进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)。[0161]本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:[0162]获取待分类图片集经过光学字符识别产生的文本附件集合;[0163]从所述文本附件集中逐一选择其中一个文本附件,提取所述文本附件预先被标注的真实类别及所述文本附件中所有的附件关键词、段落标签及表格标签;[0164]将所述文本附件中提取到的各个附件关键词进行组合,得到所述文本附件的训练关键词集,并计算所述段落标签与所述表格标签在数量上的比值,得到训练标签比值;[0165]利用所述训练关键词集及所述训练标签比值,配置预构建的原始附件分类器;[0166]利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值;[0167]判断所述分值是否小于预设的预测阈值;[0168]当所述分值小于预设的预测阈值时,利用所述分值对所述原始附件分类器进行梯度调节,并返回至上述的利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值的步骤;[0169]当所述分值大于或等于预设的预测阈值时,将所述预测得到的附件类别与所述文本附件的真实类别进行比较,得到预测正确或者预测错误的预测结果;[0170]汇总所述文本附件集中所有的文本附件的预测结果,得到预测正确率;[0171]判断所述预测正确率是否大于或等于预设的训练阈值;[0172]若所述预测正确率小于所述训练阈值,返回上述的利用所述训练关键词集及所述训练标签比值,配置预构建的原始附件分类器的过程,直至所述预测正确率大于或等于所述训练阈值,则停止所述迭代训练,得到标准附件分类器;[0173]接收待分类附件,利用所述标准附件分类器对所述待分类附件进行分类,得到所述待分类附件的分类结果。[0174]在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。[0175]所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。[0176]另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。[0177]对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。[0178]因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。[0179]本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。[0180]本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。[0181]此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。[0182]最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。当前第1页12当前第1页12
技术特征:
1.一种基于光学字符识别的附件分类方法,其特征在于,所述方法包括:获取待分类图片集经过光学字符识别产生的文本附件集合;从所述文本附件集中逐一选择其中一个文本附件,提取所述文本附件预先被标注的真实类别及所述文本附件中所有的附件关键词、段落标签及表格标签;将所述文本附件中提取到的各个附件关键词进行组合,得到所述文本附件的训练关键词集,并计算所述段落标签与所述表格标签在数量上的比值,得到训练标签比值;利用所述训练关键词集及所述训练标签比值,配置预构建的原始附件分类器;利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值;判断所述分值是否小于预设的预测阈值;当所述分值小于预设的预测阈值时,利用所述分值对所述原始附件分类器进行梯度调节,并返回至上述的利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值步骤;当所述分值大于或等于预设的预测阈值时,将所述预测得到的附件类别与所述文本附件的真实类别进行比较,得到预测正确或者预测错误的预测结果;汇总所述文本附件集中所有的文本附件的预测结果,得到预测正确率;判断所述预测正确率是否大于或等于预设的训练阈值;若所述预测正确率小于所述训练阈值,返回上述的利用所述训练关键词集及所述训练标签比值,配置预构建的原始附件分类器的步骤,直至所述预测正确率大于或等于所述训练阈值,则停止所述迭代训练,得到标准附件分类器;接收待分类附件,利用所述标准附件分类器对所述待分类附件进行分类,得到所述待分类附件的分类结果。2.如权利要求1所述的基于光学字符识别的附件分类方法,其特征在于,所述利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值,包括:根据所述训练关键词集中的每一个训练关键词,在预构建的附件类别评分表中的每一个附件类别下,对所述文本附件进行评分,得到关键词评分集;根据所述训练标签比值,在所述附件类别评分表中的每一个附件类别下,对所述文本附件进行评分,得到标签比评分集;根据所述关键词评分集及所述标签比评分集,构建所述文本附件在所述附件类别评分表中的每一个附件类别下的综合评分,得到综合评分集;查询所述综合评分集中的最高综合评分对应的附件类别,并将所述最高综合评分对应的附件类别及所述最高综合评分,作为所述文本附件的附件类别及对应的分值。3.如权利要求2所述的基于光学字符识别的附件分类方法,其特征在于,所述根据所述关键词评分集及所述标签比评分集,构建所述文本附件在所述附件类别评分表中的每一个附件类别下的综合评分,得到综合评分集,包括:叠加所述关键词评分集中在同一附件类别下的评分,得到所述训练关键词集在每一个附件类别下的评分;利用预构建的第一归一化公式,对所述训练关键词集在每一个附件类别下的评分进行
归一化处理,得到关键词归一评分集;利用预构建的第二归一化公式,对所述标签比评分集中的评分进行归一化处理,得到标签比归一评分集;对应叠加所述关键词归一评分集及所述标签比归一评分集中,在同一附件类别下的评分,得到所述综合评分集。4.如权利要求1所述的基于光学字符识别的附件分类方法,其特征在于,所述提取所述文本附件预先被标注的真实类别及所述文本附件中所有的附件关键词、段落标签及表格标签,包括:提取所述文本附件预设的附件编号,根据所述附件编号在预构建的训练附件类别表中查询所述文本附件预先被标注的真实类别;将所述文本附件转换为html格式,得到html附件;根据预构建的附件关键词集,提取所述html附件中所有的附件关键词;根据预设的附件段落标签集,提取所述html附件中的所有段落标签;根据预设的附件表格标签集,提取所述html附件中的所有表格标签。5.如权利要求4所述的基于光学字符识别的附件分类方法,其特征在于,所述根据预构建的附件关键词集,提取所述html附件中所有的附件关键词,包括:对所述html附件中的内容进行分词处理,得到待匹配词语集;提取所述待匹配词语集和所述附件关键词集中同时存在的词语,将所述同时存在的词语作为所述附件关键词。6.如权利要求1所述的基于光学字符识别的附件分类方法,其特征在于,所述利用所述分值对所述原始附件分类器进行梯度调节,并返回至上述的利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值步骤,包括:计算所述分值与所述预测阈值的差值,得到预测残差;根据所述预测残差的大小,设置调节所述关键词评分集及所述标签比评分集的调节梯度;根据所述调节梯度,调节所述关键词评分集及所述标签比评分集中每一个附件类别下的评分,根据调节后的所述关键词评分集及所述标签比评分集,预测所述文本附件的附件类别及对应的分值。7.如权利要求1-6中任一项所述的基于光学字符识别的附件分类方法,其特征在于,所述接收待分类附件,利用所述标准附件分类器对所述待分类附件进行分类,得到所述待分类附件的分类结果,包括:提取所述待分类附件中的所有附件关键词、段落标签及表格标签;根据所述待分类附件中的所有附件关键词、段落标签及表格标签,利用所述标准附件分类器对所述待分类附件进行分类,得到所述待分类附件的分类结果。8.一种基于光学字符识别的附件分类装置,其特征在于,所述装置包括:样本数据提取模块,用于获取待分类图片集经过光学字符识别产生的文本附件集合,及从所述文本附件集中逐一选择其中一个文本附件,提取所述文本附件预先被标注的真实类别及所述文本附件中所有的附件关键词、段落标签及表格标签,及将所述文本附件中提取到的各个附件关键词进行组合,得到所述文本附件的训练关键词集,并计算所述段落标
签与所述表格标签在数量上的比值,得到训练标签比值;分类器预测模块,用于利用所述训练关键词集及所述训练标签比值,配置预构建的原始附件分类器,及利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值;分类结果判断模块,用于判断所述分值是否小于预设的预测阈值,及当所述分值小于预设的预测阈值时,利用所述分值对所述原始附件分类器进行梯度调节,并返回至上述的利用所述原始附件分类器对所述文本附件进行分类预测,得到所述文本附件的附件类别及对应的分值的步骤;分类器效果判断模块,用于当所述分值大于或等于预设的预测阈值时,将所述预测得到的附件类别与所述文本附件的真实类别进行比较,得到预测正确或者预测错误的预测结果,及汇总所述文本附件集中所有的文本附件的预测结果,得到预测正确率,并判断所述预测正确率是否大于或等于预设的训练阈值,及若所述预测正确率小于所述训练阈值,返回上述的利用所述训练关键词集及所述训练标签比值,配置预构建的原始附件分类器的过程,直至所述预测正确率大于或等于所述训练阈值,则停止所述迭代训练,得到标准附件分类器;分类器识别模块,用于接收待分类附件,利用所述标准附件分类器对所述待分类附件进行分类,得到所述待分类附件的分类结果。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的基于光学字符识别的附件分类方法。10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于光学字符识别的附件分类方法。

技术总结
本发明涉及智能决策技术,揭露一种基于光学字符识别的附件分类方法,包括:获取待分类图片集经过光学字符识别产生的文本附件集合,提取所述文本附件的真实类别及训练关键词集与训练标签比值;利用训练关键词集及训练标签比值配置原始附件分类器,利用原始附件分类器对所述文本附件预测,得到预测的附件类别及分值;将预测的附件类别与真实类别进行比较得到预测正确率;根据预测正确率训练原始附件分类器,直至预测正确率大于训练阈值,得到标准附件分类器;利用标准附件分类器对待分类附件进行分类。本发明还提出一种基于光学字符识别的附件分类装置、电子设备以及存储介质。本发明可以解决光学字符识别扫描出的附件的分类不明确问题。明确问题。明确问题。


技术研发人员:董润华
受保护的技术使用者:深圳壹账通智能科技有限公司
技术研发日:2021.11.30
技术公布日:2022/3/8

最新回复(0)