1.本技术涉及信息处理技术领域,具体而言,涉及一种信息提取方法、装置、设备和存储介质。
背景技术:
2.随着互联网技术的发展,越来越多的商品由线上订单进行采购,比如通过邮件传递订货信息,比如当用户在一个平台下单订购一批商品后,该订单信息被通过邮件来传递。
3.订单信息中的商品信息和到货日期是非常重要的商品数据,当用户想要查看邮件中相关商品的商品信息和到货日期时,往往需要打开邮件人工进行查找,对于用户来说很不方便。因此邮件内容的信息自动提取技术应运而生。
4.在现有的邮件提取方法中,主要是通过编写规则等的方式进行信息的提取,但是提取的信息具有局限性,精度不高,由于邮件内容具有多样性,不能满足对任意形式的信息提取,因此如何提高邮件内容信息的提取精度成为一个亟待解决的问题。
技术实现要素:
5.本技术实施例的目的在于提供一种信息提取方法、装置、设备和存储介质,同时结合了模型识别和标准词库规则校验对订单信息进行提取,提高提取精度。
6.本技术实施例第一方面提供了一种信息提取方法,包括:获取查询指令对应的订单数据;将所述订单数据输入至预设识别模型,输出所述订单数据中的标的物信息;基于标准词库对所述标的物信息进行校验处理,得到校验后的标的物信息;基于所述校验后的标的物信息生成所述订单数据的三元组信息。
7.于一实施例中,所述查询指令中携带有目标订单的标识信息;所述获取查询指令对应的订单数据,包括:在接收到查询指令时,在预设订单库中抽取所述标识信息对应的订单内容;对所述订单内容进行内容解析,得到所述目标订单的文本数据,将所述文本数据作为所述订单数据。
8.于一实施例中,建立所述预设识别模型的步骤包括:获取样本订单数据集;将所述样本订单数据集转换为预定标准格式;对标准格式的所述样本订单数据集中的样品标的物信息进行标注;采用标注后的所述样本订单数据集训练神经网络模型,得到所述预设识别模型。
9.于一实施例中,所述标的物信息中包括:标的物标识文本和所述标识文本在所述订单数据中的文本位置;所述基于标准词库对所述标的物信息进行校验处理,得到校验后的标的物信息,包括:判断所述标准词库中是否存在与所述标识文本相同的目标标准数据;当所述标准词库中不存在所述目标标准数据时,基于所述文本位置对所述标识文本做校正处理,得到所述校验后的标的物信息。
10.于一实施例中,在所述判断所述标准词库中是否存在与所述标识文本相同的目标标准数据之前,还包括:检测所述标识文本边界处的字符信息,将所述标识文本边界处的非
文本符号删除,得到校正后的标识文本。
11.于一实施例中,所述基于所述文本位置对所述标识文本做校正处理,得到所述校验后的标的物信息,包括:当所述标准词库中不存在所述目标标准数据时,从所述标准词库中选取出与所述标识文本之间的相似度大于预设阈值的目标候选数据;判断所述目标候选数据的拼写顺序是否与所述订单数据中所述文本位置指定区间的拼写顺序相同;当所述目标候选数据的拼写顺序与所述订单数据中所述文本位置指定区间的拼写顺序相同时,将所述目标候选数据作为所述校验后的标的物信息。
12.于一实施例中,所述基于所述文本位置对所述标识文本做校正处理,得到所述校验后的标的物信息,还包括:当所述目标候选数据的拼写顺序与所述订单数据中所述文本位置指定区间的拼写顺序不相同时,在所述订单数据中沿着所述文本位置边界扩展文本内容,直至遇到空格符号时停止,将扩展后得到的文本内容和所述文本内容对应的新文本位置作为所述校验后的标的物信息。
13.于一实施例中,还包括:将所述校验后的标的物信息更新到所述标准词库中。
14.于一实施例中,所述标的物信息包括:目标物品标识和所述目标物品对应的日期信息;所述基于所述校验后的标的物信息生成所述订单数据的三元组信息,包括:将所述目标物品标识和所述日期信息分别作为两个实体,将所述目标物品的类型标签和日期标签作为所述两个实体之间的关系,生成所述订单数据的三元组信息。
15.本技术实施例第二方面提供了一种信息提取装置,包括:获取模块,用于获取查询指令对应的订单数据;识别模块,用于将所述订单数据输入至预设识别模型,输出所述订单数据中的标的物信息;校验模块,用于基于标准词库对所述标的物信息进行校验处理,得到校验后的标的物信息;生成模块,用于基于所述校验后的标的物信息生成所述订单数据的三元组信息。
16.于一实施例中,所述查询指令中携带有目标订单的标识信息;所述获取模块用于:在接收到查询指令时,在预设订单库中抽取所述标识信息对应的订单内容;对所述订单内容进行内容解析,得到所述目标订单的文本数据,将所述文本数据作为所述订单数据。
17.于一实施例中,还包括:建立模块,用于:获取样本订单数据集;
18.将所述样本订单数据集转换为预定标准格式;对标准格式的所述样本订单数据集中的样品标的物信息进行标注;采用标注后的所述样本订单数据集训练神经网络模型,得到所述预设识别模型。
19.于一实施例中,所述标的物信息中包括:标的物标识文本和所述标识文本在所述订单数据中的文本位置;所述校验模块用于:判断所述标准词库中是否存在与所述标识文本相同的目标标准数据;当所述标准词库中不存在所述目标标准数据时,基于所述文本位置对所述标识文本做校正处理,得到所述校验后的标的物信息。
20.于一实施例中,在所述判断所述标准词库中是否存在与所述标识文本相同的目标标准数据之前,还包括:检测所述标识文本边界处的字符信息,将所述标识文本边界处的非文本符号删除,得到校正后的标识文本。
21.于一实施例中,所述基于所述文本位置对所述标识文本做校正处理,得到所述校验后的标的物信息,包括:当所述标准词库中不存在所述目标标准数据时,从所述标准词库中选取出与所述标识文本之间的相似度大于预设阈值的目标候选数据;判断所述目标候选
数据的拼写顺序是否与所述订单数据中所述文本位置指定区间的拼写顺序相同;当所述目标候选数据的拼写顺序与所述订单数据中所述文本位置指定区间的拼写顺序相同时,将所述目标候选数据作为所述校验后的标的物信息。
22.于一实施例中,所述基于所述文本位置对所述标识文本做校正处理,得到所述校验后的标的物信息,还包括:当所述目标候选数据的拼写顺序与所述订单数据中所述文本位置指定区间的拼写顺序不相同时,在所述订单数据中沿着所述文本位置边界扩展文本内容,直至遇到空格符号时停止,将扩展后得到的文本内容和所述文本内容对应的新文本位置作为所述校验后的标的物信息。
23.于一实施例中,还包括:更新模块,用于将所述校验后的标的物信息更新到所述标准词库中。
24.于一实施例中,所述标的物信息包括:目标物品标识和所述目标物品对应的日期信息;所述生成模块用于:将所述目标物品标识和所述日期信息分别作为两个实体,将所述目标物品的类型标签和日期标签作为所述两个实体之间的关系,生成所述订单数据的三元组信息。
25.本技术实施例第三方面提供了一种电子设备,包括:存储器,用以存储计算机程序;处理器,用以执行本技术实施例第一方面及其任一实施例的方法。
26.本技术实施例第四方面提供了一种非暂态电子设备可读存储介质,包括:程序,当其藉由电子设备运行时,使得所述电子设备执行本技术实施例第一方面及其任一实施例的方法。
27.本技术提供的信息提取方法、装置、设备和存储介质,首先将查询指令对应的订单数据用识别模型处理,得到统一格式的标的物信息,然后基于标准词库对识别模型输出的标的物信息进行校验,并基于校验后的标的物信息生成该订单数据的三元组信息,如此同时结合了模型识别和标准词库规则校验对订单信息进行提取,提高了信息提取精度。
附图说明
28.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
29.图1为本技术一实施例的电子设备的结构示意图;
30.图2a为本技术一实施例的信息提取方法的流程示意图;
31.图2b为本技术一实施例的邮件内容解析的示意图;
32.图3为本技术一实施例的信息提取方法的流程示意图;
33.图4本技术一实施例的信息提取装置的结构示意图。
具体实施方式
34.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述。在本技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
35.如图1所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图1中以一个处理器为例。处理器11和存储器12通过总线10连接。存储器12存储有可被处理器11执行的指令,指令被处理器11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程,以结合模型识别和标准词库规则校验对订单信息进行提取,提高信息提取精度。
36.于一实施例中,电子设备1可以是手机、平板电脑、笔记本电脑、台式计算机或者多个计算机设备组成的大型运算系统等设备。
37.请参看图2a,其为本技术一实施例的信息提取方法,该方法可由图1所示的电子设备1来执行,并可以应用到以邮件为信息载体的订单数据的信息抽取场景中,以结合模型识别和标准词库规则校验对订单信息进行提取,提高信息提取精度。该方法包括如下步骤:
38.步骤201:获取查询指令对应的订单数据。
39.在本步骤中,查询指令可以是用户输入的,比如可以是用户通过终端的交互界面录入的,查询指令中可以包含指定订单数据的标识信息,比如名称。订单数据可以由多种承载方式,比如订单数据可以经由电子邮件传输的数据,此时查询指令中可以包含需要查询的邮件名称。订单数据可以预存在预设订单库中。
40.于一实施例中,步骤201可以包括:在接收到查询指令时,在预设订单库中抽取标识信息对应的订单内容。对订单内容进行内容解析,得到目标订单的文本数据,将文本数据作为订单数据。
41.在本步骤中,预设订单库中预存了大量可查询的订单数据,订单数据可以是以邮件或单据等形式的数据。假设用户录入的查询指令中携带有目标订单的标识信息,比如目标订单的邮件名称,首先在预设订单库中查找该邮件名称对应的目标订单内容,然后对订单内容进行内容解析得到该订单的文本数据,文本数据作为该目标订单的订单数据,如此无论是那种形式的订单内容,均可以被处理成统一的文本数据,使得信息提取不在收到订单形式的限制。
42.于一实施例中,如图2b所示,以邮件形式的订单为例,用户输入要查询的邮件名称,订单内容即包含目标订单的邮件内容,在对订单内容进行内容解析时,首先判断邮件的内容类型,基于邮件内容类型进行内容的解析。邮件的内容类型可以包括如下几种:
43.1、如果只有文本,将邮件内容输入到文本解析模块,得到相应的文本内容。
44.2、如果邮件正文中有表格,则将表格部分输入到表格解析模块,统一姜表格转为文本格式。
45.3、如果邮件有附件,则判别附件的类型,如附件为word文档,采用word解析器解析,如果是excel文档,采用excel解析器解析,如果是pdf文档,采用pdf解析器解析,如果是图片,采用ocr(optical character recognition,光学字符识别)图片解析工具提取信息,如果是文本文件,直接转入到文本解析模块,通过上述方式将不同格式的邮件内容,统一转为文本内容。邮件内容提取不再受限于邮件类型,扩展了邮件信息提取的使用范围。
46.步骤202:将订单数据输入至预设识别模型,输出订单数据中的标的物信息。
47.在本步骤中,标的物可以是商品、普通物品等,基于不同的场景,可以选取不同的标的物。实际场景中,与标的物有关的邮件一般包含标的物的各种属性信息,比如名称、类别等,如果标的物是商品,订单数据就可以是邮件内容形式传递的该商品的订购信息,比如
一批文创产品的邮件订货单,该邮件订货单内一般会包含商品的类别、名称、数量以及到货日期等信息。
48.预设识别模型可以是基于神经网络的识别模型。假设标的物是商品,以邮件形式的订单数据为例,由于商品信息与其到货日期具有强相关性,可以基于根据以往邮件中商品信息和到货日期的规律性,训练神经网络模型,进而得到预设识别模型,邮件内容首先经过步骤201统一转为文本格式,然后将文本格式的邮件内容输入到预设识别模型,即可输出该邮件中商品信息和到货日期等信息。
49.于一实施例中,在将文本格式的邮件内容输入预设识别模型之前,可以先将文本格式的邮件内容标准化处理,转成预定的标准格式,以供预设识别模型可以更加准确的提取标的物信息。
50.于一实施例中,在步骤202之前还可以包括:建立预设识别模型的步骤包括:获取样本订单数据集。将样本订单数据集转换为预定标准格式。对标准格式的样本订单数据集中的样品标的物信息进行标注。采用标注后的样本订单数据集训练神经网络模型,得到预设识别模型。
51.在本步骤中,样本订单数据集可以是标的物的多个订购单邮件内容集合经过解析器处理后,统一转化为文本格式的订单数据集,首先将订单数据集标准化处理成预定标准格式,比如统一文本排版格式,进行数据清洗、去重等处理,然后对标准格式的样本订单数据集进行标注,比如标注出每个文本中涉及的标的物信息以及高标的物信息对应的标签,标签可以是表征标的物的类别的标签。最后采用标注后的样本订单数据集训练神经网络模型,即可得到预设识别模型。
52.以标的物可以是商品为例,预设识别模型的输入是商品信息的文本和标签,预设识别模型的输出结果是被查询的标的物信息的文本、标签以及标的物信息的文本在输入文本中的位置信息。
53.于一实施例中,模型训练可以采用双向lstm+crf网络架构,以商品信息为例,将预处理后商品信息和标签作为网络架构的输入数据,对数据进行迭代训练,使损失函数loss达到最小,并在测试集上达到设置的f1值后,模型训练过程结束。预测时,输入文本信息后,模型对预测概率最大的标签通过一些处理,就能得到输入文本中是否有商品信息、标签和商品信息对应的位置信息。
54.步骤203:基于标准词库对标的物信息进行校验处理,得到校验后的标的物信息。
55.在本步骤中,预设识别模型输出的标的物信息可能存在不够准确的现象,比如可能对邮件内容的断词不准确,会导致识别结果中可能包含不完整的信息,进而影响最终的信息提取精度,因此可以在模型识别的基础上,因此规则校验,即基于标准词库对标的物信息进行校验处理,得到校验后的标的物信息。标准词库中预设了标的物的相关的标准格式信息,以商品为标的物为例,标准词库中可以包括一种已完成订购的商品的名称、订购数量、到货日期等信息。该标准词库可以基于不同的已完成订单数据统计得到。因此,通过标准词库对模型识别的结果进行校验,可以进一步保证信息提取的准确度。
56.步骤204:基于校验后的标的物信息生成订单数据的三元组信息。
57.在本步骤中,基于校验后的标的物信息,抽取出相应的三元组信息,可以让用户更加明了的查阅邮件的感兴趣内容,避免当邮件内容非常多时,用户要通篇阅读才能得到相
关标的物信息。以商品为标的物为例,实际场景中,一种商品的订单邮件可能包含很多内容,甚至还附带有很多附件,如果用户只是想要查询其中商品相关的名称和到货日期,通过阅读全部邮件内容的方式获知显然过于浪费时间和精力,如果用户只需要录入查询邮件的名称,即可自动返回该邮件中商品信息及其到货日期相关的三元组信息,将会大大节约用户的查询时间。
58.上述信息提取方法,首先通过解析器将将查询指令对应的邮件内容转为统一的文本格式,然后文本格式的订单数据用识别模型处理,得到统一格式的标的物信息,然后基于标准词库对识别模型输出的标的物信息进行校验,并基于校验后的标的物信息生成该订单数据的三元组信息,如此,统一转换为文本格式,使得邮件信息提取不再受限于邮件内容的类型,同时结合了模型识别和标准词库规则校验对订单信息进行提取,提高了信息提取精度。
59.请参看图3,其为本技术一实施例的信息提取方法,该方法可由图1所示的电子设备1来执行,并可以应用到以邮件为信息载体的订单数据的信息抽取场景中,以结合模型识别和标准词库规则校验对订单信息进行提取,提高信息提取精度。该方法包括如下步骤:
60.步骤301:获取查询指令对应的订单数据。详细参见上述实施例中对步骤201的描述。
61.步骤302:将订单数据输入至预设识别模型,输出订单数据中的标的物信息。详细参见上述实施例中对步骤202的描述。
62.步骤303:判断标准词库中是否存在与标识文本相同的目标标准数据。若是,进入步骤308,否则进入步骤304。
63.在本步骤中,预设识别模型输出的物信息中可以包括:标的物标识文本和标识文本在订单数据中的文本位置。以标的物为商品为例,假设标的物标识是商品名称,则预设识别模型输出的标的物信息中还包括该商品名称在输入文本中的文本位置,文本位置可以是坐标位置。则基于标准词库对标的物信息进行校验处理时,可以首先判断标准词库中是否存在与标识文本相同的目标标准数据。以商品为例,则标识文本就是商品名称的文本,每种商品可以具备有一个标准词库,可以通过标签匹维护不同的标准词库。在判断时,可以将商品名称的文本输入到商品信息的标准词库中,如果标准词库中没有与该商品名称的文本完全相同的目标标准数据,进入步骤304,否则如果有,进入步骤308。
64.于一实施例中,在步骤303之前,还可以包括:检测标识文本边界处的字符信息,将标识文本边界处的非文本符号删除,得到校正后的标识文本。
65.实际场景中,预设识别模型识别到的标识文本可能不够准确,比如可能将相近的某些非文字符号作为了标识文本的内容,会导致基于标准词库的额校验不够准确,比如场景1:
66.用户输入邮件名,解析得到邮件内容如下:
[0067]-cssa monte vlcc load mongstad/discharge india laycan 20-21/08-remark rplc
[0068]
解析器首先将上述邮件内容解析为文本格式的订单数据,经过预设识别模型识别得到-cssa monte为商品名称文本(即标识文本),且文本位置信息为(0,12),到货日期的文本为20-21/08,且文本位置信息为(57,65),-cssa monte的标签是prd,20-21/08的标签是
dat,则预设识别模型的输出结果为:(-cssa monte,product,0,12)和(20-21/08,data,57,65)。其中对于商品名称的文本-cssa monte中带有非文本符号
“‑”
,如果直接将-cssa monte与标准词库进行匹配校验,由于在标准词库中该真实商品名称为cssa monte,因此标准词库中无法匹配到与-cssa monte相同目标标准数据。
[0069]
而上述误差是预设识别模型的输出结果带来的,为了避免上述误差给最终的信息提取结果造成误差,可以在与标准词库匹配校验前,先对预设识别模型的输出结果进行预处理,基于标识文本的文本位置,检测标识文本边界处的字符信息,将标识文本边界处的非文本符号删除,得到校正后的标识文本。比如通过位置信息对商品名称进行截断,去掉
“‑”
得到cssa monte,最后得到商品名称的元组为(cssa monte,product,2,12)。显然此时由于cssa monte已经在词库表中了,即标准词库中有目标标准数据则可以进入步骤308。
[0070]
步骤304:从标准词库中选取出与标识文本之间的相似度大于预设阈值的目标候选数据。
[0071]
在本步骤中,当标准词库中不存在目标标准数据时,需要基于文本位置对标识文本做校正处理,得到校验后的标的物信息。比如对于场景2:
[0072]
用户输入需要查询的邮件名,解析相应的邮件内容如下:
[0073]
09-12 delta apollonia 319 15 22.52 vadinar 17-11 delta
[0074]
首先会将上述邮件内容解析为文本格式的订单数据,然后经过预设识别模型识别得到delta apollon为商品名称的文本,且文本位置信息为(9,22),到货日期的文本为17-11,且文本位置信息为(61,66),delta apollon的标签是prd,17-11的标签是dat,预设识别模型的输出结果记为:(delta apollon,product,9,22)和(17-11,data,61,66),在对每个元组中的第一项通过标准词库进行匹配校验,如果标准词库中没有该词delta apollon,则可以进一步在标准词库中查询,从中选出与商品名称的文本delta apollon之间的相似度大于预设阈值的目标候选数据,相似度大于预设阈值的候选数据可能有多个,则从多个候选数据中选出相似度值最大的作为目标候选数据。
[0075]
步骤305:判断目标候选数据的拼写顺序是否与订单数据中文本位置指定区间的拼写顺序相同。若是,进入步骤306,否则进入步骤307。
[0076]
在本步骤中,对于选出来的目标候选数据,虽然与商品名称的文本delta apollon之间的相似度大于预设阈值,但是可能拼写顺序并不相同,尤其是类似英文的文本,相同字母的拼写顺序不同就会标识不同的含义,因此,可以将目标候选数据从标准词库中的词提取出来,假设目标候选数据为delta apollonia,在商品名称的文本delta apollon的起始位置和终止位置的区间内,将目标候选数据delta apollonia在文本商品名称的文本delta apollon上进行滑动判断,进而逐个字母的判断在文本deltaapollon的起始位置和终止位置的指定区间内的字母拼写顺序是否与目标候选数据相同,此处可以得到目标候选数据delta apollonia的拼写顺序在指定区间内与商品名称的文本delta apollon相同,则可以进入步骤306。
[0077]
步骤306:将目标候选数据作为校验后的标的物信息。然后进入步骤308。
[0078]
在本步骤中,当目标候选数据的拼写顺序与订单数据中文本位置指定区间的拼写顺序相同时,比如上述场景2中的目标候选数据delta apollonia的拼写顺序在指定区间内与商品名称的文本delta apollon相同,则可以将目标候选数据delta apollonia作为校验
后的标的物信息。
[0079]
步骤307:在订单数据中沿着文本位置边界扩展文本内容,直至遇到空格符号时停止,将扩展后得到的文本内容和文本内容对应的新文本位置作为校验后的标的物信息。进入步骤308。
[0080]
在本步骤中,当目标候选数据的拼写顺序与订单数据中文本位置指定区间的拼写顺序不相同时,或者步骤304中并没有从标准词库中筛选到符合标准的目标候选数据,则说明,标准词库中可能并没有预先保存本次查询的标的物的标准数据,此时,可以基于标的物的标识文本的文本位置和原订单数据对标识文本进行校正处理,比如可能预设识别模型输出的标识文本不完整,则可以进行补全处理。
[0081]
以场景2中为例,假设标的物的标识文本为商品名称的文本delta apollon,文本位置是(9,22),可以在原订单数据中定位到文本位置边界22为n,继续沿着该边界往后扩展文本内容,后一位是字母i,则将商品名称往后延长一位,依次循环进行上述扩展,以空格符号作为分割符结束,如果遇到空格符号,则停止,将最后扩展得到的文本内容delta apollonia及其新文本位置(9,24)作为校验后的标的物信息,得到校验后标的物信息为(delta apollonia,product,9,24)。
[0082]
于一实施例中,假设标的物信息包括:目标物品标识和目标物品对应的日期信息。需要说明的是,上述场景1和2中均以商品名称作为目标物品标识的三元组为例进行校验过程的说明,对于目标物品对应的日期信息的校验处理,可以参阅目标物品标识的校验过程。比如商品到货日期对应的三元组信息也可以同理进行校验处理,由于原邮件句子中有多个日期,直接通过规则寻找日期,在一个句中,只有一半的机会找对,而通过预设识别模型能识别到日期的大概位置,通过标准词库校验,能得更加准确的结果。此处不再赘述。
[0083]
步骤308:将标的物信息中的目标物品标识和日期信息分别作为两个实体,将目标物品的类型标签和日期标签作为两个实体之间的关系,生成订单数据的三元组信息。
[0084]
在本步骤中,假设通过把每个三元组中的标的物的标识文本在标准词库中进行匹配后,找到了完全匹配的目标标准数据,比如场景1中cssa monte已经在词库表中,或者经过步骤307、步骤306的校验处理后,得到了完整的标的物信息,而标的物信息包括:目标物品标识和目标物品对应的日期信息。以商品为标的物为例,标的物信息中就可以包括商品的标识和商品的到货日期,则三元组信息可以为(商品标识,商品-日期,到货日期),如此,用户可以一眼明了的查阅到该邮件中感兴趣的内容。
[0085]
于一实施例中,对于日期信息可以进行格式处理,将其转化为统一的预定日期格式,比如场景1中,日期信息识别正确,不需要校正处理,原来的日期20-21/08,其实是两个日期的缩写,只需要将20-21/08转换为标准格式2021-08-20/2021-08-21。最后输出三元组内容为(cssa monte,prd-dat,2021-08-20/2021-08-21)
[0086]
比如场景2中,将日期17-11转换为标准格式2021-11-17,最后输出三元组内容为(delta apollonia,prd-dat,2021-11-17)。
[0087]
步骤309:将校验后的标的物信息更新到标准词库中。
[0088]
在本步骤中,对于为在标准词库中匹配到目标标准数据或目标候选数据的标的物信息,说明该标的物信息没有在标准词库中备案,为了丰富标准词库,可以将该标的物信息加入到对应的标准词库中,更新标准词库,进一步促进后续提高信息提取的精度。
[0089]
请参看图4,其为本技术一实施例的信息提取装置400,该装置可应用于图1所示的电子设备1,并可以应用到以邮件为信息载体的订单数据的信息抽取场景中,以结合模型识别和标准词库规则校验对订单信息进行提取,提高信息提取精度。该装置包括:获取模块401、识别模块402、校验模块403和生成模块404,各个模块的原理关系如下:
[0090]
获取模块401,用于获取查询指令对应的订单数据。
[0091]
识别模块402,用于将订单数据输入至预设识别模型,输出订单数据中的标的物信息。
[0092]
校验模块403,用于基于标准词库对标的物信息进行校验处理,得到校验后的标的物信息。
[0093]
生成模块404,用于基于校验后的标的物信息生成订单数据的三元组信息。
[0094]
于一实施例中,查询指令中携带有目标订单的标识信息。获取模块401用于:在接收到查询指令时,在预设订单库中抽取标识信息对应的订单内容。对订单内容进行内容解析,得到目标订单的文本数据,将文本数据作为订单数据。
[0095]
于一实施例中,还包括:建立模块405,用于:获取样本订单数据集。
[0096]
将样本订单数据集转换为预定标准格式。对标准格式的样本订单数据集中的样品标的物信息进行标注。采用标注后的样本订单数据集训练神经网络模型,得到预设识别模型。
[0097]
于一实施例中,标的物信息中包括:标的物标识文本和标识文本在订单数据中的文本位置。校验模块403用于:判断标准词库中是否存在与标识文本相同的目标标准数据。当标准词库中不存在目标标准数据时,基于文本位置对标识文本做校正处理,得到校验后的标的物信息。
[0098]
于一实施例中,在判断标准词库中是否存在与标识文本相同的目标标准数据之前,还包括:检测标识文本边界处的字符信息,将标识文本边界处的非文本符号删除,得到校正后的标识文本。
[0099]
于一实施例中,基于文本位置对标识文本做校正处理,得到校验后的标的物信息,包括:当标准词库中不存在目标标准数据时,从标准词库中选取出与标识文本之间的相似度大于预设阈值的目标候选数据。判断目标候选数据的拼写顺序是否与订单数据中文本位置指定区间的拼写顺序相同。当目标候选数据的拼写顺序与订单数据中文本位置指定区间的拼写顺序相同时,将目标候选数据作为校验后的标的物信息。
[0100]
于一实施例中,基于文本位置对标识文本做校正处理,得到校验后的标的物信息,还包括:当目标候选数据的拼写顺序与订单数据中文本位置指定区间的拼写顺序不相同时,在订单数据中沿着文本位置边界扩展文本内容,直至遇到空格符号时停止,将扩展后得到的文本内容和文本内容对应的新文本位置作为校验后的标的物信息。
[0101]
于一实施例中,还包括:更新模块406,用于将校验后的标的物信息更新到标准词库中。
[0102]
于一实施例中,标的物信息包括:目标物品标识和目标物品对应的日期信息。生成模块404用于:将目标物品标识和日期信息分别作为两个实体,将目标物品的类型标签和日期标签作为两个实体之间的关系,生成订单数据的三元组信息。
[0103]
上述信息提取装置400的详细描述,请参见上述实施例中相关方法步骤的描述。
[0104]
本发明实施例还提供了一种非暂态电子设备可读存储介质,包括:程序,当其在电子设备上运行时,使得电子设备可执行上述实施例中方法的全部或部分流程。其中,存储介质可为磁盘、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等。存储介质还可以包括上述种类的存储器的组合。
[0105]
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
技术特征:
1.一种信息提取方法,其特征在于,包括:获取查询指令对应的订单数据;将所述订单数据输入至预设识别模型,输出所述订单数据中的标的物信息;基于标准词库对所述标的物信息进行校验处理,得到校验后的标的物信息;基于所述校验后的标的物信息生成所述订单数据的三元组信息。2.根据权利要求1所述的方法,其特征在于,所述查询指令中携带有目标订单的标识信息;所述获取查询指令对应的订单数据,包括:在接收到查询指令时,在预设订单库中抽取所述标识信息对应的订单内容;对所述订单内容进行内容解析,得到所述目标订单的文本数据,将所述文本数据作为所述订单数据。3.根据权利要求1所述的方法,其特征在于,建立所述预设识别模型的步骤包括:获取样本订单数据集;将所述样本订单数据集转换为预定标准格式;对标准格式的所述样本订单数据集中的样品标的物信息进行标注;采用标注后的所述样本订单数据集训练神经网络模型,得到所述预设识别模型。4.根据权利要求1所述的方法,其特征在于,所述标的物信息中包括:标的物标识文本和所述标识文本在所述订单数据中的文本位置;所述基于标准词库对所述标的物信息进行校验处理,得到校验后的标的物信息,包括:判断所述标准词库中是否存在与所述标识文本相同的目标标准数据;当所述标准词库中不存在所述目标标准数据时,基于所述文本位置对所述标识文本做校正处理,得到所述校验后的标的物信息。5.根据权利要求4所述的方法,其特征在于,在所述判断所述标准词库中是否存在与所述标识文本相同的目标标准数据之前,还包括:检测所述标识文本边界处的字符信息,将所述标识文本边界处的非文本符号删除,得到校正后的标识文本。6.根据权利要求4所述的方法,其特征在于,所述基于所述文本位置对所述标识文本做校正处理,得到所述校验后的标的物信息,包括:当所述标准词库中不存在所述目标标准数据时,从所述标准词库中选取出与所述标识文本之间的相似度大于预设阈值的目标候选数据;判断所述目标候选数据的拼写顺序是否与所述订单数据中所述文本位置指定区间的拼写顺序相同;当所述目标候选数据的拼写顺序与所述订单数据中所述文本位置指定区间的拼写顺序相同时,将所述目标候选数据作为所述校验后的标的物信息。7.根据权利要求6所述的方法,其特征在于,所述基于所述文本位置对所述标识文本做校正处理,得到所述校验后的标的物信息,还包括:当所述目标候选数据的拼写顺序与所述订单数据中所述文本位置指定区间的拼写顺序不相同时,在所述订单数据中沿着所述文本位置边界扩展文本内容,直至遇到空格符号时停止,将扩展后得到的文本内容和所述文本内容对应的新文本位置作为所述校验后的标的物信息。
8.根据权利要求7所述的方法,其特征在于,还包括:将所述校验后的标的物信息更新到所述标准词库中。9.根据权利要求1所述的方法,其特征在于,所述标的物信息包括:目标物品标识和所述目标物品对应的日期信息;所述基于所述校验后的标的物信息生成所述订单数据的三元组信息,包括:将所述目标物品标识和所述日期信息分别作为两个实体,将所述目标物品的类型标签和日期标签作为所述两个实体之间的关系,生成所述订单数据的三元组信息。10.一种信息提取装置,其特征在于,包括:获取模块,用于获取查询指令对应的订单数据;识别模块,用于将所述订单数据输入至预设识别模型,输出所述订单数据中的标的物信息;校验模块,用于基于标准词库对所述标的物信息进行校验处理,得到校验后的标的物信息;生成模块,用于基于所述校验后的标的物信息生成所述订单数据的三元组信息。11.一种电子设备,其特征在于,包括:存储器,用以存储计算机程序;处理器,用以执行所述计算机程序,以实现如权利要求1至9中任一项所述的方法。12.一种非暂态电子设备可读存储介质,其特征在于,包括:程序,当其藉由电子设备运行时,使得所述电子设备执行权利要求1至9中任一项所述的方法。
技术总结
本申请提供一种信息提取方法、装置、设备和存储介质,该方法包括:获取查询指令对应的订单数据;将所述订单数据输入至预设识别模型,输出所述订单数据中的标的物信息;基于标准词库对所述标的物信息进行校验处理,得到校验后的标的物信息;基于所述校验后的标的物信息生成所述订单数据的三元组信息。本申请同时结合了人工智能模型识别和标准词库规则校验对订单信息进行提取,提高提取精度。提高提取精度。提高提取精度。
技术研发人员:简仁贤 李梦雄 马永宁 王海波
受保护的技术使用者:竹间智能科技(上海)有限公司
技术研发日:2021.12.13
技术公布日:2022/3/8