1.本发明涉及产品信息检验及搜索技术领域,尤其是涉及一种基于知识图谱的资源字段有效性检验方法、介质及设备。
背景技术:
2.钢铁电商平台目前对挂货资源的“牌号”字段,采用与专家数据库完全匹配的逻辑来进行牌号的对齐和属性归一。目前这种逻辑存在以下缺点:
3.1、由于采用的是完全匹配的逻辑,导致对牌号字段的要求比较严格,即使多一个空格也会导致匹配失败。简单来说,容错能力比较差,对用户的专业性要求比较高;
4.2、后台人员需要维护的数据量过于庞大,如针对sgcc dc51d和dc51d sgcc这两条牌号,表达的是同一类牌号信息,但因为数据表述不同,所以需要维护两条记录;
5.3、针对牌号的有效性判断完全依赖于专家逐个确认,导致专家判定工作量比较大。
6.所以,目前的牌号对齐和属性归一逻辑没办法灵活处理表述不一致但表达内容相同的牌号字段,且对用户、专家等人员的专业性要求比较高,一旦不能完全匹配的情况出现,针对挂货资源“牌号”字段的搜索无法返回精准的结果给用户。
技术实现要素:
7.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种容错力强、匹配精准、提高搜索效率的基于知识图谱的资源字段有效性检验方法、介质及设备。
8.本发明的目的可以通过以下技术方案来实现:
9.一种基于知识图谱的资源字段有效性检验方法,包括以下步骤:
10.1)提取待检测的资源字段;
11.2)利用专家数据库对所述资源字段进行循环最长匹配,获得匹配结果,所述匹配结果包括字段匹配成功数和/或剩余字符数;
12.3)判断所述字段匹配成功数是否为0,若是,则产生异常提示,若否,则执行步骤4);
13.4)判断所述剩余字符数是否大于5,若是,则产生异常提示,若否,则执行步骤5);
14.5)判断字段匹配成功数是否大于1,若是,则执行步骤6),若否,则将该匹配字段对齐到实体链,执行步骤7);
15.6)基于知识图谱对各匹配字段进行属性归一判定,若为同一属性,则将各匹配字段对齐到实体链,执行步骤7),否则产生异常提示;
16.7)生成与所述待检测的资源对应的sp码,在图数据库中构建实体链编码对照关系表。
17.进一步地,所述资源字段为牌号字段。
18.进一步地,所述专家数据库为细颗粒度的牌号清单。
19.进一步地,所述利用专家数据库对所述资源字段进行循环最长匹配具体包括以下步骤:
20.201)使用最长匹配逻辑判断资源字段是否存在专家数据库中某一匹配字段,若是,则字段匹配成功数加1,并执行步骤202),若否,则输出字段匹配成功数为0;
21.202)将资源字段减去已匹配成功的匹配字段后的剩余字符进行最长匹配,判断是否存在专家数据库中某一匹配字段,若是,则字段匹配成功数加1,并返回步骤202),若否,则输出当前字段匹配成功数及剩余字符数。
22.进一步地,所述剩余字符数为删除标点符号后的字符数。
23.进一步地,所述资源字段为牌号字段,所述基于知识图谱对各匹配字段进行属性归一判定具体为:
24.判断各匹配字段是否属于同一钢种。
25.进一步地,所述产生异常提示时,将所述待检测的资源字段写入mysql异常记录表。
26.进一步地,基于所述实体链编码对照关系表实现产品信息的搜索。
27.本发明还提供一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如上所述基于知识图谱的资源字段有效性检验方法的指令。
28.本发明还提供一种电子设备,包括:
29.一个或多个处理器;
30.存储器;和
31.被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如上所述基于知识图谱的资源字段有效性检验方法的指令。
32.与现有技术相比,本发明具有以下有益效果:
33.1、本发明通过专家数据库进行字段校验,利用最长匹配方式替代完全匹配的方式,并对每次匹配完的剩余字符进行循环最长匹配,通过这种方式能够在很大程度上提高系统的容错力,降低对用户的专业性要求,即使搜索内容中包含很多无关字符也不会影响搜索效果。
34.2、本发明引入了知识图谱技术,即基于知识图谱对匹配到的多个字段进行属性归一判定,从而改进了钢铁领域业务平台的分析能力,使得业务平台更加智能化。
35.3、本发明应用于钢铁领域,结合钢铁领域专家知识,构建了一份细颗粒度的牌号清单,使得针对用户的搜索内容能够得到更加精准的匹配结果。
36.4、本发明针对钢铁牌号字段进行处理,能够对挂货资源中“牌号”字段中的无效信息进行过滤,并校验用户上传的资源信息是否无误,即使业务平台具备一定的自动校验牌号有效性的功能,从而减轻专家人工判定的工作量,同时形成有效的图数据库,能够提高平台搜索的准确度和可靠性,进而提升用户的满意度和体验感。
附图说明
37.图1为本发明的流程示意图。
具体实施方式
38.下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
39.实施例1
40.本实施例提供一种基于知识图谱的资源字段有效性检验方法,以钢铁产品的牌号字段为例,将钢铁挂货资源(如热轧类产品)作为实验对象,通过构建细粒度的牌号清单,改进挂货资源“牌号”字段对齐和属性归一的逻辑,引入知识图谱技术这三个维度的优化,使得业务平台能够对挂货资源中“牌号”字段中的无效信息进行过滤,并校验用户上传的资源信息是否无误,即使业务平台具备一定的自动判定牌号有效性的功能,从而大大减轻专家人工判定的工作量,同时能够提高平台搜索的准确度和可靠性,进而提升用户的满意度和体验感。
41.如图1所示,该校验方法包括以下步骤:
42.1)提取待检测的资源字段,本实施例中为牌号字段。
43.2)利用专家数据库对资源字段进行循环最长匹配,获得匹配结果,匹配结果包括字段匹配成功数和/或剩余字符数。
44.本实施例中,专家数据库为细颗粒度的牌号清单,该牌号清单通过以下方式获得:
45.结合钢铁领域专家知识,构建细颗粒度的牌号清单(简称“牌号清单”);
46.对牌号清单中的数据进行预处理:首先将牌号清单的数据都转为大写;然后计算每个牌号的长度;接着构建一份包含“牌号”、“对齐牌号”和“牌号长度”的数据;最后按照“牌号长度”字段对牌号进行从长到短的排序。
47.字段匹配成功数基于匹配得到的牌号数量分为n、1、0三种情况,如果匹配到的牌号数量为0,就产生异常提示;如果匹配到了牌号,就将匹配完之后的剩余字符循环进行最长匹配直至牌号清单中没有能与之匹配的牌号为止,在牌号数量分为n为1时,可能存在剩余字符。具体利用专家数据库对资源字段进行循环最长匹配包括以下步骤:
48.201)使用最长匹配逻辑判断资源字段是否存在专家数据库中某一匹配字段,若是,则字段匹配成功数加1,并执行步骤202),若否,则输出字段匹配成功数为0;
49.202)将资源字段减去已匹配成功的匹配字段后的剩余字符进行最长匹配,判断是否存在专家数据库中某一匹配字段,若是,则字段匹配成功数加1,并返回步骤202),若否,则输出当前字段匹配成功数及剩余字符数。
50.3)判断字段匹配成功数是否为0,若是,则产生异常提示,若否,则执行步骤4)。
51.字段匹配成功数为0,则说明未在专家数据库中匹配到相应的牌号,则将其定义为异常情况,将该牌号写入mysql异常记录表。
52.4)判断剩余字符数是否大于5,若是,则产生异常提示,若否,则执行步骤5)。
53.本实施例中,针对匹配完之后的牌号剩余字符进行判断,如果剩余字符去除标点符号之后的长度大于5,则提示用户确认资源信息上传是否有误,同时将这条牌号写入到mysql异常记录表中;如果剩余字符去除标点符号之后的长度不超过5,则对匹配到的牌号数量进行判断。
54.5)判断字段匹配成功数是否大于1,若是,则执行步骤6),若否,则将待检测的资源
对齐到实体链(商品sku),执行步骤7)。
55.6)基于知识图谱对各匹配字段进行属性归一判定,若为同一属性,则将待检测的资源对齐到实体链,执行步骤7),否则产生异常提示。
56.本实施例中,资源字段为牌号字段,则基于知识图谱对各匹配字段进行属性归一判定具体为:判断各匹配字段是否属于同一钢种,如果这些牌号均属于同一钢种,则将其对齐到实体链。
57.7)生成与待检测的资源对应的sp码,在图数据库中构建实体链编码对照关系表,方便后期利用知识图谱来搜索钢铁产品信息,提升平台的搜索能力。最后将资源与sp码信息回写到综合平台,并将异常情况所对应的牌号写入mysql异常记录表中供专家人工核对和完善对齐表,便于综合平台对数据进行跟踪。
58.上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
59.实施例2
60.本实施例提供一种电子设备,包括:一个或多个处理器、存储器和被存储在存储器中的一个或多个程序,一个或多个程序包括用于执行如实施例1所述的基于知识图谱的资源字段有效性检验方法的指令。
61.以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
技术特征:
1.一种基于知识图谱的资源字段有效性检验方法,其特征在于,包括以下步骤:1)提取待检测的资源字段;2)利用专家数据库对所述资源字段进行循环最长匹配,获得匹配结果,所述匹配结果包括字段匹配成功数和/或剩余字符数;3)判断所述字段匹配成功数是否为0,若是,则产生异常提示,若否,则执行步骤4);4)判断所述剩余字符数是否大于5,若是,则产生异常提示,若否,则执行步骤5);5)判断字段匹配成功数是否大于1,若是,则执行步骤6),若否,则将该匹配字段对齐到实体链,执行步骤7);6)基于知识图谱对各匹配字段进行属性归一判定,若为同一属性,则将各匹配字段对齐到实体链,执行步骤7),否则产生异常提示;7)生成与所述待检测的资源对应的sp码,在图数据库中构建实体链编码对照关系表。2.根据权利要求1所述的基于知识图谱的资源字段有效性检验方法,其特征在于,所述资源字段为牌号字段。3.根据权利要求2所述的基于知识图谱的资源字段有效性检验方法,其特征在于,所述专家数据库为细颗粒度的牌号清单。4.根据权利要求1所述的基于知识图谱的资源字段有效性检验方法,其特征在于,所述利用专家数据库对所述资源字段进行循环最长匹配具体包括以下步骤:201)使用最长匹配逻辑判断资源字段是否存在专家数据库中某一匹配字段,若是,则字段匹配成功数加1,并执行步骤202),若否,则输出字段匹配成功数为0;202)将资源字段减去已匹配成功的匹配字段后的剩余字符进行最长匹配,判断是否存在专家数据库中某一匹配字段,若是,则字段匹配成功数加1,并返回步骤202),若否,则输出当前字段匹配成功数及剩余字符数。5.根据权利要求1或4所述的基于知识图谱的资源字段有效性检验方法,其特征在于,所述剩余字符数为删除标点符号后的字符数。6.根据权利要求1所述的基于知识图谱的资源字段有效性检验方法,其特征在于,所述资源字段为牌号字段,所述基于知识图谱对各匹配字段进行属性归一判定具体为:判断各匹配字段是否属于同一钢种。7.根据权利要求1所述的基于知识图谱的资源字段有效性检验方法,其特征在于,所述产生异常提示时,将所述待检测的资源字段写入mysql异常记录表。8.根据权利要求1所述的基于知识图谱的资源字段有效性检验方法,其特征在于,基于所述实体链编码对照关系表实现产品信息的搜索。9.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述基于知识图谱的资源字段有效性检验方法的指令。10.一种电子设备,其特征在于,包括:一个或多个处理器;存储器;和被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-8任一所述基于知识图谱的资源字段有效性检验方法的指令。
技术总结
本发明涉及一种基于知识图谱的资源字段有效性检验方法、介质及设备,所述方法包括以下步骤:提取待检测的资源字段;利用专家数据库对所述资源字段进行循环最长匹配,获得匹配结果,所述匹配结果包括字段匹配成功数和/或剩余字符数;判断所述字段匹配成功数是否为0,若是,则产生异常提示,若否,判断所述剩余字符数是否大于5,若是,则产生异常提示,若否,判断字段匹配成功数是否大于1,若是,则基于知识图谱对各匹配字段进行属性归一判定;生成与所述待检测的资源对应的SP码,在图数据库中构建实体链编码对照关系表。与现有技术相比,本发明具有容错力强、匹配精准、提高搜索效率等优点。提高搜索效率等优点。提高搜索效率等优点。
技术研发人员:沈海伦 陈茂建 于智洋 邹晓峰 罗熊 黄子阳
受保护的技术使用者:欧冶云商股份有限公司
技术研发日:2021.11.09
技术公布日:2022/3/7