1.本公开涉及网络技术领域,尤其涉及一种知识图谱构建方法、装置、电子设备及存储介质。
背景技术:
2.知识图谱的构建通常可分为两个阶段:模式层构建与数据层构建。其中,模式层是知识图谱的核心,在模式层存储的是经过提炼后的知识内容;数据层存储的是具体数据信息。在构建知识图谱的过程中,需要对大量的实体(知识)数据进行多步处理,具体的,首先对大量源数据进行数据清洗、模式映射、实体分类等操作,得到清洗后的垂类实体仓库,然后在垂类实体仓库中根据具体的属性进行分桶操作,并使得处于同一个桶内的多个实体之间,两两组成候选实体对,并对每一对候选实体对打分,依据得分结果得到对齐后的融合实体仓库,最后对可融合实体组进行属性择优得到对应的垂类实体图谱。
3.但是,从整体的构建流程可以看出,因为需要对大量的实体数据进行多步处理,实体数据量非常大,从而对实体数据进行处理时的耗时较大,效率较低;因此,知识图谱构建的效率较低,从而对下游数据任务产生较大的影响。
技术实现要素:
4.本公开提供一种知识图谱构建方法、装置、电子设备及存储介质,能够提高知识图谱构建的效率,降低对下游数据任务产生的影响。本公开的技术方案如下:
5.根据本公开的第一方面,提供一种知识图谱构建方法,该方法包括:获取增量数据和第一历史数据库;增量数据为在目标时间戳之后更新的数据,第一历史数据库包括目标时间戳之前的历史数据;从第一历史数据库中获取第一数据组,并将第一数据组和增量数据进行融合处理,得到目标融合数据组;第一数据组为第一历史数据库中与增量数据关联的历史数据;将目标融合数据组和第一历史数据库进行融合处理,得到目标融合数据库,并根据目标融合数据库生成目标知识图谱。
6.由上可知,电子设备可以通过获取目标时间戳之后更新的增量数据,并获取包括目标时间戳之前对应的第一历史数据,从而可以从第一历史数据库中获取增量数据关联的第一数据组,并将第一数据组和增量数据进行融合处理,得到目标融合数据组;进一步的,电子设备还可以将目标融合数据组和第一历史数据库进行融合处理,得到目标融合数据库,并根据目标融合数据库生成目标知识图谱。在这种情况下,电子设备可以仅对增量数据,以及第一历史数据库中与增量数据关联的第一数据组进行处理即可得到最新的知识图谱,而无需对全部数据进行处理,以得到最新的知识图谱,从而有效的减少了电子设备所处理的数据量,提高了知识图谱构建的效率,进而降低对下游数据任务产生的影响。
7.可选地,上述“从第一历史数据库中获取第一数据组,并将第一数据组和增量数据进行融合处理,得到目标融合数据组”之前,方法具体还包括:获取第二历史数据库;其中,第一历史数据库中的数据为对第二历史数据库中的数据进行第一数据处理所得到的数据;
对增量数据进行第二数据处理得到目标更新数据,并将目标更新数据与第二历史数据库进行数据融合处理得到目标数据库,第二数据处理与第一数据处理的处理方式不同。
8.由上可知,电子设备还可以获取第二历史数据库,并在对增量数据进行第二数据处理得到目标更新数据之后,将目标更新数据与第二历史数据库进行数据融合处理得到目标数据库,从而在得到目标融合数据组时,还可以基于目标数据库中的数据确定目标融合数据组,进一步的给出了更具体的数据处理过程,给出了一种电子设备得到目标融合数据组的具体实现方式,从而电子设备可以快速高效的进行数据融合处理得到目标融合数据组。
9.可选地,上述“从第一历史数据库中获取第一数据组,并将第一数据组和增量数据进行融合处理,得到目标融合数据组”的方法具体包括:从第一历史数据库中获取第一数据组,并从目标数据库中获取第二数据组;第二数据组为目标数据库中与增量数据关联的数据;根据第一数据组和第二数据组中数据的比较结果确定目标融合数据组。上述“将目标融合数据组和第一历史数据库进行融合处理,得到目标融合数据库”的方法具体包括:将目标融合数据组与第一历史数据库中除第一数据组之外的数据进行融合处理,得到目标融合数据库。
10.由上可知,在对数据进行融合得到目标融合数据库时,电子设备可以在从第一历史数据库中获取第一数据组的情况下,再从目标数据库中获取与增量数据关联的第二数据组,从而可以根据第一数据组和第二数据组中数据的比较结果确定目标融合数据组,进一步的,将确定的目标融合数据组与第一历史数据库中除第一数据组之外的数据进行融合处理,得到目标融合数据库。给出了一种电子设备得到目标融合数据库的具体实现方式,通过这种实现方式,电子设备可以具体的明确需要进行融合处理的数据,从而更准确的进行数据融合处理,得到目标融合数据,提高了数据融合的效率。
11.可选地,上述“从第一历史数据库中获取第一数据组,并从目标数据库中获取第二数据组”的方法具体包括:根据增量数据的属性信息,从第一历史数据库中获取增量数据对应的第一数据组,并根据属性信息从目标数据库中获取第二数据组;属性信息包括以下至少一项:增量数据的名称标识、增量数据的别名标识。
12.由上可知,电子设备在从第一历史数据库中获取第一数据组,并从目标数据库中获取第二数据组时,可以根据增量数据的名称标识和别名标识中的至少一项,从第一历史数据库中获取增量数据对应的第一数据组,并根据增量数据的名称标识和别名标识中的至少一项,从目标数据库中获取第二数据组。给出了一种电子设备获取数据组的具体实现方式,通过这种实现方式,电子设备可以根据增量数据的属性信息准确定获取到第一数据组和第二数据组,从而提高了电子设备获取第一数据组和第二数据组的准确度。
13.可选地,上述第一历史数据库为历史融合数据库,历史融合数据库用于存储进行第一数据处理之后的历史数据,第一数据组包括第三数据组;上述“根据增量数据的属性信息,从第一历史数据库中获取增量数据对应的第一数据组”的方法具体包括:根据增量数据的属性信息,从历史融合数据库中获取增量数据对应的第三数据组。
14.由上可知,在第一历史数据库为用于存储进行第一数据处理之后的历史数据的历史融合数据库的情况下,电子设备可以根据增量数据的属性信息,从历史融合数据库中获取增量数据对应的第三数据组。给出了一种电子设备获取数据组的具体实现方式,由此,电
子设备根据增量数据的属性信息,可以具体的从历史融合数据库中获取到增量数据对应的数据,进而,提高了电子设备获取数据组的准确度。
15.可选地,上述第一历史数据库为历史知识图谱,历史知识图谱为根据历史融合数据库生成的知识图谱,历史融合数据库用于存储进行第一数据处理之后的历史数据,第一数据组包括第四数据组;上述“从第一历史数据库中获取第一数据组”的方法具体包括:根据增量数据的属性信息,从历史知识图谱中获取增量数据对应的第四数据组,第四数据组所包含的数据为第三数据组中的数据进行融合之后得到的数据,第三数据组包括历史融合数据库中进行第一数据处理之后得到的历史数据。
16.由上可知,在第一历史数据库为根据历史融合数据库生成的历史知识图谱的情况下,电子设备可以根据增量数据的属性信息,从历史知识图谱中获取增量数据对应的第四数据组。给出了一种电子设备获取数据组的具体实现方式,由此,电子设备根据增量数据的属性信息,可以具体的从历史知识图谱中获取到增量数据对应的数据,可以有效的减少获取到的数据组,进而,提高了电子设备获取数据组的效率。
17.可选地,上述“对增量数据进行第二数据处理得到目标更新数据”的方法具体包括:根据增量数据中每个数据对应的更新时间,确定待处理数据,待处理数据对应的更新时间为目标时间戳之后的时间;对待处理数据进行目标处理,得到目标更新数据,目标处理包括以下至少一项:数据加工处理、模式映射处理、数据分类处理。
18.由上可知,在电子设备对增量数据进行第二数据处理得到目标更新数据时,电子设备可以根据增量数据中每个数据对应的更新时间,先确定更新时间为目标时间戳之后的时间范围内的待处理数据,进一步的,再对待处理数据进行数据加工处理、模式映射处理、数据分类处理中的至少一项,以得到目标更新数据。给出了一种电子设备得到目标更新数据的具体实现方式,根据每个数据对应的更新时间,具体的确定待处理数据,从而电子设备可以快速、准确的确定出所需的待处理数据,进而得到对应的目标更新数据。
19.可选地,上述“根据第一数据组和第二数据组中数据的比较结果确定目标融合数据组”的方法具体包括:对第一数据组和第二数据组中包括的数据进行评分,确定第一数据组和第二数据组中包括的数据之间的关联度;将第一数据组和第二数据组中评分结果大于或等于预设评分的数据确定为目标融合数据组。
20.由上可知,在电子设备根据第一数据组和第二数据组中数据的比较结果确定目标融合数据组时,可以先对第一数据组和第二数据组中包括的数据进行评分,确定第一数据组和第二数据组中包括的数据之间的关联度,从而将第一数据组和第二数据组中评分结果大于或等于预设评分的数据确定为目标融合数据组,给出了一种电子设备确定融合数据组的具体实现方式,通过对第一数据组和第二数据组中包括的数据进行评分,根据评分结果可以准确的确定出对应的目标融合数据组,从而可以提高确定目标融合数据组的准确性。
21.根据本公开的第二方面,提供一种知识图谱构建装置,该知识图谱构建装置包括:获取单元、处理单元和生成单元;获取单元,被配置为执行获取增量数据和第一历史数据库;增量数据为在目标时间戳之后更新的数据,第一历史数据库包括目标时间戳之前的历史数据;获取单元,还被配置为执行从第一历史数据库中获取第一数据组;处理单元,被配置为执行将第一数据组和增量数据进行融合处理,得到目标融合数据组;第一数据组为第一历史数据库中与增量数据关联的历史数据;处理单元,还被配置为执行将目标融合数据
组和第一历史数据库进行融合处理,得到目标融合数据库;生成单元,被配置为执行根据目标融合数据库生成目标知识图谱。
22.可选地,获取单元,还被配置为执行获取第二历史数据库;其中,第一历史数据库中的数据为对第二历史数据库中的数据进行第一数据处理所得到的数据;处理单元,还被配置为执行对增量数据进行第二数据处理得到目标更新数据,并将目标更新数据与第二历史数据库进行数据融合处理得到目标数据库,第二数据处理与第一数据处理的处理方式不同。
23.可选地,获取单元,具体被配置为执行从第一历史数据库中获取第一数据组,并从目标数据库中获取第二数据组;第二数据组为目标数据库中与增量数据关联的历史数据;处理单元,具体被配置为执行根据第一数据组和第二数据组中数据的比较结果确定目标融合数据组,并将目标融合数据组与第一历史数据库中除第一数据组之外的数据进行融合处理,得到目标融合数据库。
24.可选地,获取单元,具体被配置为执行根据增量数据的属性信息,从第一历史数据库中获取增量数据对应的第一数据组,并根据属性信息从目标数据库中获取第二数据组;属性信息包括以下至少一项:增量数据的名称标识、增量数据的别名标识。
25.可选地,第一历史数据库为历史融合数据库,历史融合数据库用于存储进行第一数据处理之后的历史数据,第一数据组包括第三数据组;获取单元,具体被配置为执行根据增量数据的属性信息,从历史融合数据库中获取增量数据对应的第三数据组。
26.可选地,第一历史数据库为历史知识图谱,历史知识图谱为根据历史融合数据库生成的知识图谱,历史融合数据库用于存储进行第一数据处理之后的历史数据,第一数据组包括第四数据组;获取单元,具体被配置为执行根据增量数据的属性信息,从历史知识图谱中获取增量数据对应的第四数据组,第四数据组所包含的数据为第三数据组中的数据进行融合之后得到的数据,第三数据组包括历史融合数据库中进行第一数据处理之后得到的历史数据。
27.可选地,处理单元,具体被配置为执行根据增量数据中每个数据对应的更新时间,确定待处理数据,待处理数据对应的更新时间为目标时间戳之后的时间;并对待处理数据进行目标处理,得到目标更新数据,目标处理包括以下至少一项:数据加工处理、模式映射处理、数据分类处理。
28.可选地,处理单元,具体被配置为执行对第一数据组和第二数据组中包括的数据进行评分,确定第一数据组和第二数据组中包括的数据之间的关联度;并将第一数据组和第二数据组中评分结果大于或等于预设评分的数据确定为目标融合数据组。
29.根据本公开的第三方面,提供一种电子设备,电子设备包括:
30.处理器。用于存储处理器可执行指令的存储器。其中,处理器被配置为执行指令,以实现上述第一方面中任一种可选地知识图谱构建方法。
31.根据本公开的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述第一方面中任一种可选地知识图谱构建方法。
32.根据本公开的第五方面,提供一种计算机程序产品,包含指令,当其在计算机上运行时,使得计算机执行如第一方面中任一种可选地知识图谱构建方法。
33.根据本公开的第六方面,本公开提供一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行计算机程序或指令,以实现如第一方面和第一方面的任一种可能的实现方式中所描述的知识图谱构建方法。
34.本公开提供的技术方案至少带来以下有益效果:
35.基于上述任一方面,本公开中,电子设备可以通过获取目标时间戳之后更新的增量数据,并获取包括目标时间戳之前对应的第一历史数据,从而可以从第一历史数据库中获取增量数据关联的第一数据组,并将第一数据组和增量数据进行融合处理,得到目标融合数据组;进一步的,电子设备还可以将目标融合数据组和第一历史数据库进行融合处理,得到目标融合数据库,并根据目标融合数据库生成目标知识图谱。在这种情况下,电子设备可以仅对增量数据,以及第一历史数据库中与增量数据关联的第一数据组进行处理即可得到最新的知识图谱,而无需对全部数据进行处理,以得到最新的知识图谱,从而有效的减少了电子设备所处理的数据量,提高了知识图谱构建的效率,进而降低对下游数据任务产生的影响。
36.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
37.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
38.图1是现有的知识图谱构建系统的流程示意图;
39.图2是根据本公开实施例示出的一种知识图谱构建系统示意图;
40.图3是根据本公开实施例示出的一种知识图谱构建方法的流程示意图;
41.图4是根据本公开实施例示出的另一种知识图谱构建方法的流程示意图;
42.图5是根据本公开实施例示出的又一种知识图谱构建方法的流程示意图;
43.图6是根据本公开实施例示出的又一种知识图谱构建方法的流程示意图;
44.图7是根据本公开实施例示出的又一种知识图谱构建方法的流程示意图;
45.图8是根据本公开实施例示出的一种知识图谱构建系统的流程示意图;
46.图9是根据本公开实施例示出的又一种知识图谱构建方法的流程示意图;
47.图10是根据本公开实施例示出的另一种知识图谱构建系统的流程示意图;
48.图11是根据本公开实施例示出的又一种知识图谱构建方法的流程示意图;
49.图12是根据本公开实施例示出的又一种知识图谱构建方法的流程示意图;
50.图13是根据本公开实施例示出的一种知识图谱构建装置的结构示意图;
51.图14是根据本公开实施例示出的另一种知识图谱构建装置的结构示意图。
具体实施方式
52.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
53.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用
的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
54.首先,对本公开实施例的应用场景进行介绍。
55.本公开实施例的知识图谱构建方法应用于构建知识图谱的场景中。在相关技术中,知识图谱(knowledge graph)旨在描述真实世界中存在的各种实体或概念及其关系,知识图谱可用一张巨大的语义网络图来表示,节点表示实体或概念或属性值,边则代表属性或关系。知识图谱被用来泛指各种大规模的知识库。知识图谱的构建通常可分为两个阶段:模式层构建与数据层构建。其中模式层是知识图谱的核心,在模式层存储的是经过提炼的知识;数据层存储的是具体数据信息。在构建支撑搜索业务的垂类实体图谱的过程中,需要首先观察大量该类别实体数据,同时参考通用类别实体模式定义中文站,设计该垂类实体模式层,既而由模式层引导完成后续的数据清洗、实体比较与实体融合等过程。
56.如图1所示为现有的知识图谱构建流程示意图,在现有的实体图谱构建方案中,每天需要处理千万量级的实体数据,首先需要对垂类源数据01进行数据清洗、模式映射、数据分类等知识加工操作(数据处理),得到清洗后的垂类数据库02(垂类实体仓库),然后在垂类数据库02中利用实体的名称与别名属性进行分桶操作,处于同一个桶内的实体之间两两组成候选实体对,形成候选实体对组,接着利用一套实体比较的规则与模型对每一对候选实体对打分,依据得分结果得到对齐后的融合数据库03(融合实体仓库),最后对可对融合数据库03中的融合实体组进行属性择优得到当天的垂类知识图谱04。图 1中融合数据库03与垂类数据库02的区别在于,经过比较之后已经确定了哪些实体应该融合,因此融合实体仓库多一个标识符,应当融合的实体组内部共享同一个标识符,不同组之间标识符不同。而垂类知识图谱04中是将应当融合的实体组进行属性择优融合之后的最终结果。
57.从整体的流程可以看出,因为实体数据量非常大,每天需要进行千万量级的数据处理操作,实体比较的次数(候选实体对数量)也达到千万量级,现有方案的主要耗时也集中在数据加工和实体比较过程中。另外,为了保证每天能够获取最新的数据,知识图谱构建以天为单位进行更新构建是有必要的,因此如何提高知识图谱构建(收录)的效率是一个非常关键的问题,对下游任务产生较大的影响。
58.为了解决上述问题,本公开实施例提供一种知识图谱构建方法,电子设备可以通过获取目标时间戳之后更新的增量数据,并获取包括目标时间戳之前对应的第一历史数据,从而可以从第一历史数据库中获取增量数据关联的第一数据组,并将第一数据组和增量数据进行融合处理,得到目标融合数据组;进一步的,电子设备还可以将目标融合数据组和第一历史数据库进行融合处理,得到目标融合数据库,并根据目标融合数据库生成目标知识图谱。在这种情况下,电子设备可以仅对增量数据,以及第一历史数据库中与增量数据关联的第一数据组进行处理即可得到最新的知识图谱,而无需对全部数据进行处理,以得到最新的知识图谱,从而有效的减少了电子设备所处理的数据量,提高了知识图谱构建的效率,进而降低对下游数据任务产生的影响。
59.以下结合附图对本公开实施例提供的内容显示方法进行示例性说明:
60.图2是本公开实施例提供的一种知识图谱构建系统示意图,如图2所示,该知识图
谱构建系统可以包括服务器11和客户端12(图2中仅示例性的给出一个客户端12,在具体实施时可以有更多的客户端)。其中,服务器11可以与客户端12建立通信连接。服务器 11与客户端12之间可以采用有线方式连接,也可以采用无线方式连接,本公开实施例对此不作限定。
61.服务器11,用于接收并保存客户端12发送的实时数据信息。例如,服务器11接收客户端12发送的账号信息、名称信息、属性信息等,并将这些数据信息进行保存,以用于构建知识图谱。
62.客户端12,用于生成实时的数据信息,并向服务器11发送实时的数据信息。例如,客户端12根据用户的操作,实时生成账号信息、名称信息、属性信息等,并将这些数据信息发送至服务器11,以保存在服务器11中,以用于构建知识图谱。
63.在一种可实施的方式中,服务器11可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。服务器11可以包括处理器、存储器以及网络接口等。
64.在一种可实施的方式中,客户端12用于向用户提供语音和/或数据连通性服务。客户端12可以有不同的名称,例如ue端、终端单元、终端站、移动站、移动台、远方站、远程终端、移动设备、无线通信设备、车辆用户设备、终端代理或终端装置等。
65.可选的,客户端12可以为各种具有通信功能的手持设备、车载设备、可穿戴设备、计算机,本公开实施例对此不作任何限定。例如,手持设备可以是智能手机。车载设备可以是车载导航系统。可穿戴设备可以是智能手环。计算机可以是个人数字助理(personaldigital assistant,pda)电脑、平板型电脑以及膝上型电脑(laptop computer)。
66.本公开实施例提供的知识图谱构建方法可以应用于前述图2所示的知识图谱构建系统中的服务器11和客户端12。本公开涉及的电子设备可以是该服务器11或客户端12。以本公开的知识图谱构建方法应用在构建知识图谱的过程中的服务器上为例,对本公开实施例提供的知识图谱构建方法进行详细介绍。
67.在介绍了本公开实施例的应用场景和知识图谱构建系统之后,下面结合图2所示的知识图谱构建系统,对本公开实施例提供的知识图谱构建方法进行详细介绍。
68.如图3所示,根据一示例性实施例示出的一种知识图谱构建方法的流程图。该知识图谱构建方法可以包括s201-s203。
69.s201、获取增量数据和第一历史数据库。
70.具体的,增量数据为在目标时间戳之后更新的数据,第一历史数据库包括目标时间戳之前的历史数据。
71.在本公开实施例中,电子设备可以间隔预设时长构建一次知识图谱,以保证知识图谱中所包括的数据信息的完整性,以及时的更新(收录)知识图谱,在电子设备构建知识图谱的过程中,需要获取到包括最新数据的目标源数据,该目标源数据还包括全部的历史数据,从而电子设备可以根据这些数据构建知识图谱。既可以理解,增量数据和第一历史数据库均为从目标源数据中获取到的数据。
72.可选的,电子设备还可以获取当前时刻之前所构建得到的第一历史数据库,该第一历史数据库可以为通过对历史数据进行全量知识加工,以对数据进行数据清洗、模式映射、数据分类之后得到的历史垂类数据库。
73.可选的,上述目标时间戳可以为当前时刻之前对应的一个时间点,该时间点可以理解为当前时刻之前最后一次构建知识图谱的时间点。从而,上述增量数据可以理解为:最后一次构建知识图谱之后,更新的数据;第一历史数据库可以理解为最后一次构建的知识图谱所对应的历史数据库。
74.示例性的,电子设备需要每天构建知识图谱,针对当天的垂类实体源数据(即目标源数据),可以截取数据更新(更新是指新增数据或数据字段内容有更新)的目标时间戳之后的数据,由此可以得到增量数据,进一步的,将增量数据与前一天得到的垂类数据库(即第二历史数据库)进行合并处理(此处合并是指,数据重复时只保留当天最新的数据)得到当天的垂类实体仓库(即目标数据库),从而减少数据清洗加工的次数。
75.s202、从第一历史数据库中获取第一数据组,并将第一数据组和增量数据进行融合处理,得到目标融合数据组。
76.具体的,第一数据组为第一历史数据库中与增量数据关联的历史数据。
77.可选的,电子设备还可以获取当前时刻之前所构建得到的第一历史数据库,并从该第一历史数据库中获取到与增量数据具有关联关系的第一数据组(也可以称为待更新的数据),从而可以将目标源数据中的增量数据和该第一数据组进行融合处理,以得到目标融合数据组。
78.示例性的,电子设备可以获取前一天构建得到的融合数据库(即第一历史数据库),并从中获取受到当前增量数据影响的第一数据组,从而可以在前一天构造的融合数据库中更新受影响的数据组,以达到更新数据库的效果。
79.需要说明的是,前一天构建得到的融合数据库是根据将前一天构建得到的垂类数据库得到的,通过将垂类数据库中的数据进行数据比较,对齐处理,进行分组分类(即将相关的数据进行融合关联)得到对应的融合数据库。
80.s203、将目标融合数据组和第一历史数据库进行融合处理,得到目标融合数据库,并根据目标融合数据库生成目标知识图谱。
81.可选的,电子设备可以将目标融合数据组和第一历史数据库进行融合处理,得到当前时刻对应的最新的融合数据库,从而得到最新的知识图谱,即可以理解,通过对第一历史数据库中待更新的数据进行数据更新,得到最新的融合数据库。
82.可选的,电子设备根据得到的目标融合数据库,对目标融合数据库中的数据进一步的进行数据融合择优,可以得到对应的知识图谱。
83.示例性的,电子设备根据当前数据处理得到的当天最新的融合数据库(即目标融合数据库),基于现有的属性融合、择优策略与方案,可以得到当天最新的知识图谱。
84.本公开解决的技术问题为如何在保证垂类实体知识图谱构建(收录)以天为单位的前提下,尽可能减少知识加工、数据比较等数据处理操作的次数,提高知识图谱收录的效率,同时使得当天的例行结果中能够包含最新(包括新增与更新)的数据,以支撑下游的业务通路。
85.上述实施例提供的技术方案至少带来以下有益效果:电子设备可以通过获取目标时间戳之后更新的增量数据,并获取包括目标时间戳之前对应的第一历史数据,从而可以从第一历史数据库中获取增量数据关联的第一数据组,并将第一数据组和增量数据进行融合处理,得到目标融合数据组;进一步的,电子设备还可以将目标融合数据组和第一历史数
据库进行融合处理,得到目标融合数据库,并根据目标融合数据库生成目标知识图谱。在这种情况下,电子设备可以仅对增量数据,以及第一历史数据库中与增量数据关联的第一数据组进行处理即可得到最新的知识图谱,而无需对全部数据进行处理,以得到最新的知识图谱,从而有效的减少了电子设备所处理的数据量,提高了知识图谱构建的效率,进而降低对下游数据任务产生的影响。
86.在一种可实施的方式中,结合图3,如图4所示,上述s202之前,具体还可以包括 s301-s302。
87.s301、获取第二历史数据库。
88.其中,第一历史数据库中的数据为对第二历史数据库中的数据进行第一数据处理所得到的数据。
89.s302、对增量数据进行第二数据处理得到目标更新数据,并将目标更新数据与第二历史数据库进行数据融合处理得到目标数据库。
90.其中,第二数据处理与第一数据处理的处理方式不同。
91.可选的,上述第二数据处理为对增量数据进行增量数据加工处理,以对增量数据进行数据清洗、模式映射、数据分类等处理操作,从而在根据增量数据和第二历史数据库得到目标数据库时,可以通过对增量数据进行进一步的数据处理,得到目标更新数据,以便于将目标更新数据与第二历史数据库进行数据融合处理得到目标数据库。
92.示例性的,在截取得到数据更新的时间戳之后的增量数据之后,可以以从中筛选当天更新的数据进行数据清洗、模式映射等操作,由此可以得到当日的变化实体数据(即目标更新数据),从而可以通过将得到的目标更新数据与前一天的垂类数据库进行融合处理,得到当天的垂类数据库(即目标数据库)。
93.上述实施例提供的技术方案至少带来以下有益效果:电子设备还可以获取第二历史数据库,并在对增量数据进行第二数据处理得到目标更新数据之后,将目标更新数据与第二历史数据库进行数据融合处理得到目标数据库,从而在得到目标融合数据组时,还可以基于目标数据库中的数据确定目标融合数据组,进一步的给出了更具体的数据处理过程,给出了一种电子设备得到目标融合数据组的具体实现方式,从而电子设备可以快速高效的进行数据融合处理得到目标融合数据组。
94.在一种可实施的方式中,结合图4,如图5所示,上述s202中的方法,具体可以包括s401-s402,并且,上述s203中的方法,具体可以包括s403。
95.s401、从第一历史数据库中获取第一数据组,并从目标数据库中获取第二数据组。
96.其中,第二数据组为目标数据库中与增量数据关联的历史数据。
97.可选的,在一种实现方式中,电子设备在从第一历史数据库中获取第一数据组的同时,可以从得到的目标数据库中获取与增量数据关联的第二数据组,该第二数据组为目标数据库中受到增量数据影响的数据。
98.s402、根据第一数据组和第二数据组中数据的比较结果确定目标融合数据组。
99.s403、将目标融合数据组与第一历史数据库中除第一数据组之外的数据进行融合处理,得到目标融合数据库。
100.可选的,在得到第一数据组和第二数据组之后,电子设备可以将第一数据组和第二数据组中所包括的数据进行比较,以确定第一数据组和第二数据组中所包括的数据之间
是否存在关联数据,从而得到融合数据组。
101.可选的,在得到融合数据组之后,可以将该融合数据组与第一历史数据库进行融合处理,具体的,是将融合数据组与删除了第一数据组之后的第一历史数据库进行融合处理,从而得到目标融合数据库。
102.示例性的,可以从前一天的融合数据库中获取召回受增量数据影响的候选实体组,以得到前一天图谱中受影响的所有实体对(即第一数据组);同时利用当日的增量数据从当天的垂类数据库中获取召回当天可能需要进行融合比较的候选实体组,得到当天待比较 (可能受影响)的实体对(第二数据组)。进一步的,利用现有的实体比较策略、模型,根据第一数据组和第二数据组得到当天变化的融合数据组,并将当天变化的融合数据组与前一天融合数据库中未受影响的融合实体组进行合并得到当天最新的融合数据库。
103.上述实施例提供的技术方案至少带来以下有益效果:在对数据进行融合得到目标融合数据库时,电子设备可以在从第一历史数据库中获取第一数据组的情况下,再从目标数据库中获取与增量数据关联的第二数据组,从而可以根据第一数据组和第二数据组中数据的比较结果确定目标融合数据组,进一步的,将确定的目标融合数据组与第一历史数据库中除第一数据组之外的数据进行融合处理,得到目标融合数据库。给出了一种电子设备得到目标融合数据库的具体实现方式,通过这种实现方式,电子设备可以具体的明确需要进行融合处理的数据,从而更准确的进行数据融合处理,得到目标融合数据,提高了数据融合的效率。
104.在一种可实施的方式中,结合图5,如图6所示,上述s401中的方法,具体可以包括s501。
105.s501、根据增量数据的属性信息,从第一历史数据库中获取增量数据对应的第一数据组,并根据属性信息从目标数据库中获取第二数据组。
106.其中,属性信息包括以下至少一项:增量数据的名称标识、增量数据的别名标识。
107.可选的,电子设备可以根据增量数据的名称标识和别名标识(即属性信息),从第一历史数据库中确定对应的第一数据组,同样的,电子设备还可以根据增量数据的名称标识和别名标识,从目标数据库中确定对应的第二数据组。
108.示例性的,本公开的目标在于减少对实体数据的清洗加工、实体比较对齐等数据处理操作的次数,从而达到减少知识图谱构建过程中的耗时,同时提高数据收录效率的目的。经过实际测试,使用本公开提供的知识图谱增量构建流程,能够将知识加工(数据清洗、模式映射)等数据处理操作减少为现有方案的百分之一,而实体比较的次数也减少为现有方案的三分之一,数据处理由千万量级降低为百万量级,耗时大大降低,实体知识图谱构建流程效率也得到了提升。
109.上述实施例提供的技术方案至少带来以下有益效果:电子设备在从第一历史数据库中获取第一数据组,并从目标数据库中获取第二数据组时,可以根据增量数据的名称标识和别名标识中的至少一项,从第一历史数据库中获取增量数据对应的第一数据组,并根据增量数据的名称标识和别名标识中的至少一项,从目标数据库中获取第二数据组。给出了一种电子设备获取数据组的具体实现方式,通过这种实现方式,电子设备可以根据增量数据的属性信息准确定获取到第一数据组和第二数据组,从而提高了电子设备获取第一数据组和第二数据组的准确度。
110.在一种可实施的方式中,第一历史数据库为历史融合数据库,历史融合数据库用于存储进行第一数据处理之后的历史数据,第一数据组包括第三数据组。结合图6,如图7所示,上述s501中的“根据增量数据的属性信息,从第一历史数据库中获取增量数据对应的第一数据组”,具体可以包括s5011。
111.s5011、根据增量数据的属性信息,从历史融合数据库中获取增量数据对应的第三数据组,并根据属性信息从目标数据库中获取第二数据组。
112.可选的,上述第三数据处理为对目标时间戳之前的历史数据进行实体数据比较,对齐的处理,以得到历史融合数据库。
113.可选的,在第一历史数据库为历史融合数据库时,电子设备根据增量数据的名称标识和别名标识(即属性信息),从历史融合数据库中获取增量数据对应的数据组(即第三数据组)。
114.示例性的,如图8所示,为在第一历史数据库为历史融合数据库时,具体的知识图谱构建流程示意图。首先,在获取到当天的目标源数据21之后,电子设备可以确定发生更新的增量数据对应的时间点,即目标时间戳对应的时间点。例如,目标时间戳为每天的 00:00,增量数据为当前的变化数据。然后,截取发生更新的增量数据对应的时间点到当前时刻对应的增量数据(新增数据或更新数据),并对增量数据进行数据加工(增量知识加工)处理,以得到当天变化数据22(即增量数据)。进一步的,获取前一天垂类数据库23(即第二历史数据库),并通过当天变化数据22和前一天垂类数据库23融合得到当天垂类数据库24(即目标数据库)。电子设备再通过根据当天变化数据22的属性信息从前一天融合数据库25(即第一历史数据库)中获取第一数据组26,并从当天垂类数据库24中获取第二数据组27,最终根据第一数据组26和第二数据组27的融合数据,以及前一天融合数据库25进行数据比较对齐处理,得到当天融合数据库28(即目标融合数据库)。而后,电子设备再对当天融合数据库28进行数据融合择优得到当天知识图谱29。
115.上述实施例提供的技术方案至少带来以下有益效果:在第一历史数据库为用于存储进行第一数据处理之后的历史数据的历史融合数据库的情况下,电子设备可以根据增量数据的属性信息,从历史融合数据库中获取增量数据对应的第三数据组。给出了一种电子设备获取数据组的具体实现方式,由此,电子设备根据增量数据的属性信息,可以具体的从历史融合数据库中获取到增量数据对应的数据,进而,提高了电子设备获取数据组的准确度。
116.在一种可实施的方式中,第一历史数据库为历史知识图谱,历史知识图谱为根据历史融合数据库生成的知识图谱,历史融合数据库用于存储进行第一数据处理之后的历史数据,第一数据组包括第四数据组。结合图3,如图9所示,上述s202中的“从第一历史数据库中获取第一数据组”,具体可以包括s2021。
117.s2021、根据增量数据的属性信息,从历史知识图谱中获取增量数据对应的第四数据组,并将第四数据组和增量数据进行融合处理,得到目标融合数据组。
118.其中,第四数据组所包含的数据为第三数据组中的数据进行融合之后得到的数据,第三数据组包括历史融合数据库中进行第一数据处理之后得到的历史数据。
119.可选的,上述历史知识图谱为通过对历史融合数据库进行数据融合择优处理之后得到的知识图谱。
120.可选的,在第一历史数据库为历史知识图谱时,电子设备根据增量数据的名称标识和别名标识(即属性信息),从历史知识图谱中获取增量数据对应的数据组(即第四数据组)。
121.可选的,电子设备在通过从历史知识图谱中获取的增量数据对应的第四数据组中包括的数据量,相对于从历史融合数据库中获取的增量数据对应的第三数据组中包括的数据量较少。
122.示例性的,在从前一天的知识图谱中获取召回受当天变化实体影响的候选数据组时,可以考虑直接从前一天的知识图谱中获取候选实体(利用则增量数据的名称、别名属性),这样得到的候选数据组的数量会减少,理论上能够进一步降低计算耗时,提升效率,最后依据候选数据组的比较结果得到当天最终的知识图谱。
123.又示例性的,如图10所示,为在第一历史数据库为历史知识图谱时,具体的知识图谱构建流程示意图,首先在获取到当天的目标源数据31之后,电子设备可以确定发生更新的增量数据对应的时间点,并截取发生更新的增量数据对应的时间点到当前时刻对应的增量数据(新增数据或更新数据),并对增量数据进行数据加工(增量知识加工)处理,以得到当天变化数据32(即增量数据),进一步的,获取前一天垂类数据库33(即第二历史数据库),并通过当天变化数据32和前一天垂类数据库33融合得到当天垂类数据库 34(即目标数据库),电子设备再通过根据当天变化数据32的属性信息从前一天知识图谱35(即第一历史数据库)中获取第一数据组36,最终根据第一数据组36和前一天知识图谱35进行数据比较对齐处理,得到图谱比较结果37(即目标融合数据库),直接得到当天知识图谱38。
124.上述实施例提供的技术方案至少带来以下有益效果:在第一历史数据库为根据历史融合数据库生成的历史知识图谱的情况下,电子设备可以根据增量数据的属性信息,从历史知识图谱中获取增量数据对应的第四数据组。给出了一种电子设备获取数据组的具体实现方式,由此,电子设备根据增量数据的属性信息,可以具体的从历史知识图谱中获取到增量数据对应的数据,可以有效的减少获取到的数据组,进而,提高了电子设备获取数据组的效率。
125.在一种可实施的方式中,结合图4,如图11所示,上述s302中的“对增量数据进行第二数据处理得到目标更新数据”,具体可以包括s3021-s3022。
126.s3021、根据增量数据中每个数据对应的更新时间,确定待处理数据。
127.其中,待处理数据对应的更新时间为目标时间戳之后的时间。
128.可选的,在电子设备确定增量数据之后,电子设备可以获取增量数据中每个数据对应的更新时间,从而将数据更新时间处于目标时间戳之后的时间范围内的数据确定为待处理的数据。
129.s3022、对待处理数据进行目标处理,得到目标更新数据,并将目标更新数据与第二历史数据库进行数据融合处理得到目标数据库。
130.其中,目标处理包括以下至少一项:数据加工处理、模式映射处理、数据分类处理。
131.可选的,电子设备在对增量数据进行数据处理的过程中,可以对确定的待处理数据进行数据加工处理、模式映射处理、数据分类处理中的至少一项处理,以得到对应的目标更新数据。
132.可选的,上述数据加工处理可以理解为对数据进行进一步的分析或修正加工等处
理;上述模式映射处理可以理解为对数据进行映射处理,得到映射数据;上述数据分类处理可以理解为对数据按照具体的特征进行分类。
133.可以理解,电子设备可以根据实际处理需求,对待处理数据进行数据处理;即,电子设备可以按照处理顺序对待处理数据进行数据加工处理、模式映射处理、数据分类处理;或者电子设备可以仅对待处理数据进行上述三种数据处理中的一种或两种处理。
134.上述实施例提供的技术方案至少带来以下有益效果:在电子设备对增量数据进行第二数据处理得到目标更新数据时,电子设备可以根据增量数据中每个数据对应的更新时间,先确定更新时间为目标时间戳之后的时间范围内的待处理数据,进一步的,再对待处理数据进行数据加工处理、模式映射处理、数据分类处理中的至少一项,以得到目标更新数据。给出了一种电子设备得到目标更新数据的具体实现方式,根据每个数据对应的更新时间,具体的确定待处理数据,从而电子设备可以快速、准确的确定出所需的待处理数据,进而得到对应的目标更新数据。
135.在一种可实施的方式中,结合图5,如图12所示,上述s402中的“根据第一数据组和第二数据组中数据的比较结果确定目标融合数据组”,具体可以包括s4021-s4022。
136.s4021、对第一数据组和第二数据组中包括的数据进行评分,确定第一数据组和第二数据组中包括的数据之间的关联度。
137.s4022、将第一数据组和第二数据组中评分结果大于或等于预设评分的数据确定为目标融合数据组。
138.可选的,电子设备可以对第一数据组和第二数据组中包括的每个数据之间的关联度进行评分,从而将数据之间评分结果大于或等于预设评分的数据,确定为具有关联关系的数据,从而通过得到的评分结果和数据之间的关联关系,确定目标融合数据组。
139.可选的,上述目标融合数据组包括第一数据组和第二数据组中的全部数据,本步骤的处理过程时为了将第一数据组和第二数据组中具有关联关系的数据进行融合,得到总的融合数据组。
140.上述实施例提供的技术方案至少带来以下有益效果:在电子设备根据第一数据组和第二数据组中数据的比较结果确定目标融合数据组时,可以先对第一数据组和第二数据组中包括的数据进行评分,确定第一数据组和第二数据组中包括的数据之间的关联度,从而将第一数据组和第二数据组中评分结果大于或等于预设评分的数据确定为目标融合数据组,给出了一种电子设备确定融合数据组的具体实现方式,通过对第一数据组和第二数据组中包括的数据进行评分,根据评分结果可以准确的确定出对应的目标融合数据组,从而可以提高确定目标融合数据组的准确性。
141.结合上述示例可知,现有方案中,在构建知识图谱的过程中,每天需要进行的知识加工等数据处理操作次数达到千万量级,实体比较次数也达到了千万量级,这些是目前知识图谱全量构建流中的主要耗时来源,容易影响下游任务,本公开的目标则是尽可能减少该问题带来的影响。我们发现数据虽然每天都有变化,但变化量相比数据总量是有限的,因此本方案提出的切入点则是从每天数据的增量数据入手,此处的增量数据不仅包括当日新增数据,还包括过去已有但内容发生变化的数据,因此当前的增量方案不能完全适用于本方案的知识图谱增量构建过程。本方案从当日增量数据切入,在减少数据处理操作的同时,通过获取召回受当日变化实体数据所影响的前一天图谱实体(数据)与当天实体,使得需要
进行比较的候选实体对数量尽可能低,从而进一步达到减少实体比较次数的目的,进而缩短知识图谱构建的耗时,提升效率。
142.可以理解的是,上述方法可以由知识图谱构建装置实现。知识图谱构建装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。
143.本公开实施例可以根据上述方法示例对上述知识图谱构建装置等进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
144.图13是根据一示例性实施例示出的一种知识图谱构建装置的结构示意图。参照图13,该知识图谱构建装置130可以包括:获取单元1301、处理单元1302和生成单元1303。
145.获取单元1301,被配置为执行获取增量数据和第一历史数据库;增量数据为在目标时间戳之后更新的数据,第一历史数据库包括目标时间戳之前的历史数据;例如,获取单元1301可以用于执行图3中的步骤201中的步骤。
146.获取单元1301,还被配置为执行从第一历史数据库中获取第一数据组;例如,获取单元1301可以用于执行图3中的步骤201中的步骤。
147.处理单元1302,被配置为执行将第一数据组和增量数据进行融合处理,得到目标融合数据组;第一数据组为第一历史数据库中与增量数据关联的历史数据;例如,处理单元 1302可以用于执行图3中的步骤201中的步骤。
148.处理单元1302,还被配置为执行将目标融合数据组和第一历史数据库进行融合处理,得到目标融合数据库;例如,处理单元1302可以用于执行图3中的步骤202中的步骤。
149.生成单元1303,被配置为执行根据目标融合数据库生成目标知识图谱;例如,生成单元1303可以用于执行图3中的步骤203中的步骤。
150.可选地,获取单元1301,还被配置为执行获取第二历史数据库;其中,第一历史数据库中的数据为对第二历史数据库中的数据进行第一数据处理所得到的数据;例如,处理单元1302可以用于执行图4中的步骤301。
151.处理单元1302,还被配置为执行对增量数据进行第二数据处理得到目标更新数据,并将目标更新数据与第二历史数据库进行数据融合处理得到目标数据库,第二数据处理与第一数据处理的处理方式不同;例如,处理单元1302可以用于执行图4中的步骤301。
152.可选地,获取单元1301,具体被配置为执行从第一历史数据库中获取第一数据组,并从目标数据库中获取第二数据组;第二数据组为目标数据库中与增量数据关联的历史数据;例如,获取单元1301可以用于执行图5中的步骤401。
153.处理单元1302,具体被配置为执行根据第一数据组和第二数据组中数据的比较结果确定目标融合数据组,并将目标融合数据组与第一历史数据库中除第一数据组之外的数
据进行融合处理,得到目标融合数据库;例如,处理单元1302可以用于执行图5中的步骤 402。
154.可选地,获取单元1301,具体被配置为执行根据增量数据的属性信息,从第一历史数据库中获取增量数据对应的第一数据组,并根据属性信息从目标数据库中获取第二数据组;属性信息包括以下至少一项:增量数据的名称标识、增量数据的别名标识;例如,获取单元1301可以用于执行图6中的步骤501。
155.可选地,第一历史数据库为历史融合数据库,历史融合数据库用于存储进行第一数据处理之后的历史数据,第一数据组包括第三数据组;获取单元1301,具体被配置为执行根据增量数据的属性信息,从历史融合数据库中获取增量数据对应的第三数据组;例如,获取单元1301可以用于执行图7中的步骤5011。
156.可选地,第一历史数据库为历史知识图谱,历史知识图谱为根据历史融合数据库生成的知识图谱,历史融合数据库用于存储进行第一数据处理之后的历史数据,第一数据组包括第四数据组;获取单元1301,具体被配置为执行根据增量数据的属性信息,从历史知识图谱中获取增量数据对应的第四数据组,第四数据组所包含的数据为第三数据组中的数据进行融合之后得到的数据,第三数据组包括历史融合数据库中进行第一数据处理之后得到的历史数据;例如,获取单元1301可以用于执行图9中的步骤2011。
157.可选地,处理单元1302,具体被配置为执行根据增量数据中每个数据对应的更新时间,确定待处理数据,待处理数据对应的更新时间为目标时间戳之后的时间;并对待处理数据进行目标处理,得到目标更新数据,目标处理包括以下至少一项:数据加工处理、模式映射处理、数据分类处理;例如,处理单元1302可以用于执行图11中的步骤3011和步骤3012。
158.可选地,处理单元1302,具体被配置为执行对第一数据组和第二数据组中包括的数据进行评分,确定第一数据组和第二数据组中包括的数据之间的关联度;并将第一数据组和第二数据组中评分结果大于或等于预设评分的数据确定为目标融合数据组;例如,处理单元1302可以用于执行图12中的步骤4021。
159.如上,本公开实施例可以根据上述方法示例对电子设备进行功能模块的划分。其中,上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。另外,还需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。
160.关于上述实施例中的知识图谱构建装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
161.图14是本公开提供的一种知识图谱构建装置60的结构示意图。如图14,该知识图谱构建装置60可以包括至少一个处理器601以及用于存储处理器601可执行指令的存储器603。其中,处理器601被配置为执行存储器603中的指令,以实现上述实施例中的知识图谱构建方法。
162.另外,知识图谱构建装置60还可以包括通信总线602以及至少一个通信接口604。
163.处理器601可以是一个gpu,微处理单元,asic,或一个或多个用于控制本公开方案程序执行的集成电路。
164.通信总线602可包括一通路,在上述组件之间传送信息。
165.通信接口604,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,ran),无线局域网(wireless local area networks, wlan)等。
166.存储器603可以是只读存储器(read-only memory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,ram)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,eeprom)、只读光盘(compact disc read-onlymemory,cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理单元相连接。存储器也可以和处理单元集成在一起,为gpu中的易失性存储介质。
167.其中,存储器603用于存储执行本公开方案的指令,并由处理器601来控制执行。处理器601用于执行存储器603中存储的指令,从而实现本公开方法中的功能。
168.在具体实现中,作为一种实施例,处理器601可以包括一个或多个gpu,例如图14中的gpu0和gpu1。
169.在具体实现中,作为一种实施例,知识图谱构建装置60可以包括多个处理器,例如图 14中的处理器601和处理器607。这些处理器中的每一个可以是一个单核(single-cpu)处理器,也可以是一个多核(multi-gpu)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
170.在具体实现中,作为一种实施例,知识图谱构建装置60还可以包括输出设备605和输入设备606。输出设备605和处理器601通信,可以以多种方式来显示信息。例如,输出设备605可以是液晶显示器(liquid crystal display,lcd),发光二极管(light emitting diode, led)显示设备,阴极射线管(cathode ray tube,crt)显示设备,或投影仪(projector) 等。输入设备606和处理器601通信,可以以多种方式接受用户的输入。例如,输入设备606 可以是鼠标、键盘、触摸屏设备或传感设备等。
171.本领域技术人员可以理解,图14中示出的结构并不构成对知识图谱构建装置60的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
172.本公开还提供了一种计算机可读存储介质,计算机可读存储介质上存储有指令,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述本公开实施例提供的群组通信方法。
173.本公开实施例还提供了一种包含指令的计算机程序产品,当其在电子设备上运行时,使得电子设备执行上述本公开实施例提供的知识图谱构建方法。
174.本公开实施例还提供一种通信系统,如图2所示,该系统包括服务器11和客户端12。其中服务器11和客户端12分别用于执行本公开上述实施例中的相应步骤,从而以使该通信系统解决本公开实施例所解决的技术问题,以及实现本公开实施例所实现的技术效果,在此不再赘述。
175.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其
它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
176.应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
技术特征:
1.一种知识图谱构建方法,其特征在于,所述方法包括:获取增量数据和第一历史数据库;所述增量数据为在目标时间戳之后更新的数据,所述第一历史数据库包括所述目标时间戳之前的历史数据;从所述第一历史数据库中获取第一数据组,并将所述第一数据组和所述增量数据进行融合处理,得到目标融合数据组;所述第一数据组为所述第一历史数据库中与所述增量数据关联的历史数据;将所述目标融合数据组和所述第一历史数据库进行融合处理,得到目标融合数据库,并根据所述目标融合数据库生成目标知识图谱。2.根据权利要求1所述的方法,其特征在于,所述从所述第一历史数据库中获取第一数据组,并将所述第一数据组和所述增量数据进行融合处理,得到目标融合数据组之前,所述方法还包括:获取第二历史数据库;其中,所述第一历史数据库中的数据为对所述第二历史数据库中的数据进行第一数据处理所得到的数据;对所述增量数据进行第二数据处理得到目标更新数据,并将所述目标更新数据与所述第二历史数据库进行数据融合处理得到目标数据库,所述第二数据处理与所述第一数据处理的处理方式不同。3.根据权利要求2所述的方法,其特征在于,所述从所述第一历史数据库中获取第一数据组,并将所述第一数据组和所述增量数据进行融合处理,得到目标融合数据组,包括:从所述第一历史数据库中获取所述第一数据组,并从所述目标数据库中获取第二数据组;所述第二数据组为所述目标数据库中与所述增量数据关联的数据;根据所述第一数据组和所述第二数据组中数据的比较结果确定所述目标融合数据组;所述将所述目标融合数据组和所述第一历史数据库进行融合处理,得到目标融合数据库,包括:将所述目标融合数据组与所述第一历史数据库中除所述第一数据组之外的数据进行融合处理,得到所述目标融合数据库。4.根据权利要求3所述的方法,其特征在于,所述从所述第一历史数据库中获取第一数据组,并从所述目标数据库中获取第二数据组,包括:根据所述增量数据的属性信息,从所述第一历史数据库中获取所述增量数据对应的第一数据组,并根据所述属性信息从所述目标数据库中获取所述第二数据组;所述属性信息包括以下至少一项:所述增量数据的名称标识、所述增量数据的别名标识。5.根据权利要求4所述的方法,其特征在于,所述第一历史数据库为历史融合数据库,所述历史融合数据库用于存储进行第一数据处理之后的历史数据,所述第一数据组包括第三数据组;所述根据所述增量数据的属性信息,从所述第一历史数据库中获取所述增量数据对应的第一数据组,包括:根据所述增量数据的所述属性信息,从所述历史融合数据库中获取所述增量数据对应的第三数据组。6.根据权利要求1所述的方法,其特征在于,所述第一历史数据库为历史知识图谱,所述历史知识图谱为根据历史融合数据库生成的知识图谱,所述历史融合数据库用于存储进
行第一数据处理之后的历史数据,所述第一数据组包括第四数据组;所述从所述第一历史数据库中获取第一数据组,包括:根据所述增量数据的属性信息,从所述历史知识图谱中获取所述增量数据对应的第四数据组,所述第四数据组所包含的数据为第三数据组中的数据进行融合之后得到的数据,所述第三数据组包括所述历史融合数据库中进行第一数据处理之后得到的历史数据。7.一种知识图谱构建装置,其特征在于,包括:获取单元,被配置为执行获取增量数据和第一历史数据库;所述增量数据为在目标时间戳之后更新的数据,所述第一历史数据库包括所述目标时间戳之前的历史数据;所述获取单元,还被配置为执行从所述第一历史数据库中获取第一数据组;处理单元,被配置为执行将所述第一数据组和所述增量数据进行融合处理,得到目标融合数据组;所述第一数据组为所述第一历史数据库中与所述增量数据关联的历史数据;所述处理单元,还被配置为执行将所述目标融合数据组和所述第一历史数据库进行融合处理,得到目标融合数据库;生成单元,被配置为执行根据所述目标融合数据库生成目标知识图谱。8.一种电子设备,其特征在于,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如权利要求1-6任一项所述的知识图谱构建方法。9.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1-6中任一项所述的知识图谱构建方法。10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1-6中任一项所述的知识图谱构建方法。
技术总结
本公开关于一种知识图谱构建方法、装置、电子设备及存储介质,能够提高知识图谱构建的效率,降低对下游数据任务产生的影响。具体方案包括:获取增量数据和第一历史数据库;增量数据为在目标时间戳之后更新的数据,第一历史数据库包括目标时间戳之前的历史数据;从第一历史数据库中获取第一数据组,并将第一数据组和增量数据进行融合处理,得到目标融合数据组;第一数据组为第一历史数据库中与增量数据关联的历史数据;将目标融合数据组和第一历史数据库进行融合处理,得到目标融合数据库,并根据目标融合数据库生成目标知识图谱。根据目标融合数据库生成目标知识图谱。根据目标融合数据库生成目标知识图谱。
技术研发人员:徐也 陶浒 徐海峰 张琳 庄楠 肖阳
受保护的技术使用者:北京达佳互联信息技术有限公司
技术研发日:2021.11.29
技术公布日:2022/3/8