本发明涉及计算机数据质量管理,尤其涉及一种针对知识图谱环形路径的冲突矫正方法。
背景技术:
1、知识图谱(kg)是一种用于表示和存储知识的结构化方式,其可以将信息组织成一种图的形式,并通过图结构,将庞大的信息系统化和语义化,以挖掘数据之间的关联和意义。知识图谱在信息检索、复杂知识查询与知识发现发挥着重要的作用,是现代信息系统中不可或缺的技术支柱。
2、数据是支撑知识图谱复杂任务的关键因素,数据的准确性会直接影响kg下游应用的最终效果。因此,确保知识图谱中信息的正确性至关重要。然而,由于数据来源的多样性与复杂性、自动化数据提取技术的局限性,以及数据来源本身的不准确性等因素,知识图谱中的数据难免出现错误。进一步地,由于知识图谱的数据量庞大且错误原因错综复杂,人为针对知识图谱进行纠错的代价往往过高。此外,在一些通用领域,知识更新速度快,数据的频繁更新使得人工矫正难以及时跟上变化的步伐。因此,在实际生产场景中,利用自动化工具和算法来矫正知识图谱中的错误显得尤为重要。
3、目前,知识图谱的冲突检测方法已经得到了广泛的研究,但针对冲突矫正的方法仍然相对有限。现有的冲突矫正方法主要包括:基于三元组的矫正方法和基于规则的矫正方法;其中,
4、所述基于三元组的矫正方法侧重于验证kg中各个三元组(主语-谓语-宾语)的正确性。这类方法通常依赖于外部数据源或通过与其他知识图谱交叉引用的方式,实现自动验证某一事实的真实性。然而,现实世界的事实往往依赖于更广泛的背景,单独校正三元组可能会导致纠错的不正确;
5、所术基于规则的方法则试图通过路径规则,如星型结构等,对三元组进行矫正。这类方法主要关注实体与关系的固有属性之间的规则。然而,其对于涉及一系列相互关联的三元组的更复杂情况,其适用性有限。
技术实现思路
1、本发明的目的是提供了一种针对知识图谱环形路径的冲突矫正方法,以提高整体纠错的精度,解决现有技术中存在的上述技术问题。
2、本发明的目的是通过以下技术方案实现的:
3、一种针对知识图谱环形路径的冲突矫正方法,包括:
4、在知识图谱中提取简单环,并提取对应三元组的正向环和反向环,获得错误三元组的正反关系环;
5、利用嵌入模型对所述知识图谱进行嵌入学习,并对所述简单环进行非冲突环提取,之后再基于非冲突环提取结果进行二次嵌入学习;
6、利用二次嵌入学习后的嵌入模型对所述错误三元组的正反关系环中的反向环进行冲突检测,当确定其无冲突时,则以该反向三元组关系的反向关系作为该三元组的正向三元组的正确关系,否则,当确定该三元组的反向环有冲突时,则基于所述二次嵌入学习后的嵌入模型利用所述冲突检测处理后获得的正反关系环对反向环存在冲突的三元组进行正确的三组组关系的预测,以实现对该三元组的冲突矫正,直至完成针对知识图谱环型路径的冲突矫正。
7、所述二次嵌入学习包括:
8、采用正负样本的学习方式,目标是使正样本之间的距离最小化,同时使正样本与负样本之间的距离最大化,以进行二次嵌入学习;其中正样本学习的目标函数是环上关系向量的和为零向量,负样本学习的目标是增大不同关系的距离,且在学习结束后,返回环的关系的二次嵌入表示。
9、所述二次嵌入学习过程中还包括:
10、第k个环上的第h个关系的损失函数表示为:且返回关系的二次嵌入表示
11、所述实现相应知识图谱环形路径的冲突矫正的步骤包括:
12、基于冲突检测处理后的简单环采用所述二次嵌入学习后的嵌入模型生成相应的关系的嵌入向量,将所述简单环采用所述关系的嵌入向量表示;
13、将三元组的正向环和反向环两个环除去错误三元组后的其他关系向量序列分别输入预测模型,得到两个环各自的输出预测关系;
14、分别将所述两个输出的预测关系代替所述错误三元组的正反关系环中的错误关系,并将该三元组包含的两个环分别输入多层感知机以获得其对应的置信度,若正向环置信度高,则直接将其作为返回三元组的正确关系,否则,则返回反向环的预测关系的反向关系作为三元组的正确关系;
15、返回冲突矫正后的三元组,实现相应知识图谱环形路径的冲突矫正。
16、所述预测模型包括:传统深度学习模型或长短期记忆神经网络lstm模型,或者,对二次嵌入结果求环上欧氏距离并取最大值进行预测的方式。
17、所述分别将三元组的正向环和反向环两个环除去错误三元组后的其他关系向量的过程包括:
18、所述三元组的正向环和反向环两个环的嵌入向量表示为:其中表示正向环的错误关系,表示反向环的错误关系;
19、则除去错误三元组后的其他关系向量表示为:
20、所述获得输出预测关系包括:
21、两个环对应的两个输出的预测关系分别为:
22、所述直接将其作为返回三元组的正确关系为;(e1,rp[1],e2);所述返回反向环的预测关系的反向关系作为三元组的正确关系为
23、与现有技术相比,本发明所提供技术方案可以将传统的三元组纠错转化为对知识图谱中关系环的纠错,以更加系统地发现并矫正潜在的错误,提高整体纠错的精度。本发明还通过多层次嵌入学习的方式提高基于嵌入的方法的准确率,以进一步提升模型对知识图谱的表示能力和纠错效果,使得预测更加精确。进一步地,本发明还可以根据具体应用场景的需求,灵活选择或调整嵌入和预测算法。不仅提升了方法的适应性,还为实现更高精度的知识图谱冲突矫正提供了可能性。
1.一种针对知识图谱环形路径的冲突矫正方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述二次嵌入学习包括:
3.根据权利要求2所述的方法,其特征在于,所述二次嵌入学习过程中还包括:
4.根据权利要求1、2或3所述的方法,其特征在于,所述实现相应知识图谱环形路径的冲突矫正的步骤包括:
5.根据权利要求4所述的方法,其特征在于,所述预测模型包括:传统深度学习模型或长短期记忆神经网络lstm模型,或者,对二次嵌入结果求环上欧氏距离并取最大值进行预测的方式。
6.根据权利要求4所述的方法,其特征在于,所述分别将三元组的正向环和反向环两个环除去错误三元组后的其他关系向量的过程包括:
7.根据权利要求6所述的方法,其特征在于,所述获得输出预测关系包括:
8.根据权利要求7所述的方法,其特征在于,所述直接将其作为返回三元组的正确关系为;(e1,rp[1],e2);所述返回反向环的预测关系的反向关系作为三元组的正确关系为