基于知识图谱的分子调控关系预测方法及系统

专利查询6月前  47



1.本发明属于图论学习、深度学习分析领域,更具体地,涉及一种基于知识图谱的分子调控关系预测方法及系统,利用对知识图谱的神经网络学习加上深度学习框架训练,达到对构建的先验知识进行合理分子预测的目的,为后续组学数据分析及实验设计作为指导。


背景技术:

2.现有的分子间作用关系繁多,且大多研究构建的分子间相互作用网络为无向网络,因此基于无向图的各种分析推断不能有效挖掘分子间的相互作用顺序信息。例如在对分子调控网络构建中,如若使用无向网络进行构建与建模,使用者只能获取到分子间相互作用的关系,即只能得知两分子存在调控关系,但是具体调控过程未知,所以训练的模型在预测时会存在预测结果与真实结果相反但仍然预测分值很高的情况。但在有向网络中,因存在节点与节点间的有向调控关系,因此在训练过程中较少出现反向预测的情况,有向网络相较于无向网络包含了更多调控信息,对于后续实验的设计更具有指导意义。
3.另一方面,依赖公共的分子相互作用数据库中的分子有向调控关系数据,可以构建出更为精准的分子有向调控网络。


技术实现要素:

4.针对现有图结构分析方法的改进需求,本发明的目的在于提供基于知识图谱的分子调控关系预测方法及系统,其中通过对预测方法整体流程设计进行改进,首先结合图学习将有向图中的有向调控关系和各调控分子节点(即各调控分子实例)进行最优特征编码,接着在获得各节点与关系的特征编码后,利用深度神经网络框架进一步加强有向图的预测能力,经过迭代训练后提升有向调控的预测准确度。本发明能够获取分子间有向调控信息后能构建出有向图,可较为准确预测分子调控关系(如后文的图3所示),为数据分析和实验设计提供指导。
5.为实现上述目的,按照本发明的一个方面,提供了一种基于知识图谱的分子调控关系预测方法,其特征在于,包括以下步骤:
6.(1)训练数据集的准备:
7.以某种基因或某种代谢物分子为节点,两两节点之间的关系构成分子调控关系,每一个分子调控关系对应一组头节点-关系-尾节点的组合;其中,所述关系选自:激活、抑制和相互作用,所述激活和所述抑制对应单向关系,所述相互作用对应双向关系;
8.从分子相互作用数据库中提取分子间有向调控关系,获得多个节点所对应的已知分子调控关系构建阳性数据集;并且,在所述阳性数据集的全部数据中,至少存在一个数据其头节点或尾节点为预测所针对的待预测节点;所述待预测节点具体为预先选定的基因或代谢物分子;
9.在所述阳性数据集已有节点的范围内,随机变化头节点、关系和尾节点,得到的不
在阳性数据集内的分子调控关系记为伪调控关系,用于构建阴性数据集;
10.(2)有向图模型的构建与训练:
11.构建图学习模型,按预先设定的迭代次数要求,利用所述步骤(1)得到的所述阳性数据集,以阳性数据作为输入,对该图学习模型进行训练;
12.训练后的图学习模型,能够针对每个节点和每个关系分别赋予目标维度的特征向量;
13.(3)神经网络的构建与训练:
14.构建神经网络,按预先设定的迭代次数要求,针对所述步骤(1)得到的所述阳性数据集和所述阴性数据集中的数据,将每个数据中的头节点、关系和尾节点,依据所述训练后的图学习模型,从中找到对应的特征向量,接着将头节点对应的特征向量、关系对应的特征向量、尾节点的特征向量按照预先设定的运算规则进行处理,得到的结果作为神经网络的输入,从而对该神经网络进行训练;
15.训练后的神经网络,能够针对头节点-关系-尾节点输出它为阳性的概率值;
16.(4)实际预测:
17.以待预测节点为头节点或尾节点,并随机变化头节点、关系和尾节点得到与该待预测节点相关的、多个待测试的分子调控关系;对于每一个待测试的分子调控关系:依据所述训练后的图学习模型,从中找到该待测试的分子调控关系中头节点、关系和尾节点所对应的特征向量,然后按照预先设定的运算规则对该待测试的分子调控关系中头节点、关系和尾节点的特征向量进行运算处理,得到的结果再输入至训练后的神经网络,即可得到与该待测试的分子调控关系相对应的阳性概率值;当所述阳性概率值满足根据预先设定的概率阈值要求,则预测该待测试的分子调控关系成立,否则预测该待测试的分子调控关系不成立;如此即可预测得到与所述预先选定的基因或代谢物分子相关且成立的分子调控关系。
18.作为本发明的进一步优选,所述步骤(3)中,所述神经网络包括至少2个并行的子神经网络,针对某个头节点-关系-尾节点,每个子神经网络得到的概率值还经过了逻辑回归进行综合,综合后得到的结果即为神经网络整体输出的阳性概率值。
19.作为本发明的进一步优选,所述步骤(3)中,所述神经网络包括卷积神经网络和深度学习网络这2个并行的子神经网络。
20.作为本发明的进一步优选,所述步骤(3)中,所述训练是以二值交叉熵作为损失函数,roc工作性能曲线面积作为模型的评价指标,训练过程中以roc工作性能曲线面积最大的模式保存最佳模型;
21.所述步骤(3)中,所述预先设定的运算规则具体为将3个特征向量首尾拼接由此形成新的一维向量,或者为以3个特征向量为行向量或列向量由此形成的二维矩阵。
22.作为本发明的进一步优选,所述图学习模型具体基于dgl-ke框架中的complex方法构建得到的。
23.按照本发明的另一方面,本发明提供了一种基于知识图谱的分子调控关系预测系统,其特征在于,包括训练数据集准备功能模块、有向图模型功能模块、神经网络功能模块和预测功能模块,其中:
24.训练数据集准备功能模块,用于:以某种基因或某种代谢物分子为节点,两两节点
之间的关系构成分子调控关系,每一个分子调控关系对应一组头节点-关系-尾节点的组合;其中,所述关系选自:激活、抑制和相互作用,所述激活和所述抑制对应单向关系,所述相互作用对应双向关系;
25.从分子相互作用数据库中提取分子间有向调控关系,获得多个节点所对应的已知分子调控关系构建阳性数据集;并且,在所述阳性数据集的全部数据中,至少存在一个数据其头节点或尾节点为预测所针对的待预测节点;所述待预测节点具体为预先选定的基因或代谢物分子;
26.在所述阳性数据集已有节点的范围内,随机变化头节点、关系和尾节点,得到的不在阳性数据集内的分子调控关系记为伪调控关系,用于构建阴性数据集;
27.有向图模型功能模块,包括训练后的图学习模型,用于:针对每个节点和每个关系分别赋予目标维度的特征向量;
28.所述图学习模型的训练,具体是按预先设定的迭代次数要求,利用所述阳性数据集,以阳性数据作为输入,对所述图学习模型进行训练;
29.神经网络功能模块,包括训练后的神经网络,用于:针对头节点-关系-尾节点输出它为阳性的概率值;
30.所述神经网络的训练,具体是按预先设定的迭代次数要求,针对所述阳性数据集和所述阴性数据集中的数据,将每个数据中的头节点、关系和尾节点,依据所述训练后的图学习模型,从中找到对应的特征向量,接着将头节点对应的特征向量、关系对应的特征向量、尾节点的特征向量按照预先设定的运算规则进行处理,得到的结果作为神经网络的输入,从而对该神经网络进行训练;
31.预测功能模块,用于:以待预测节点为头节点或尾节点,并随机变化头节点、关系和尾节点得到与该待预测节点相关的、多个待测试的分子调控关系;对于每一个待测试的分子调控关系:依据所述训练后的图学习模型,从中找到该待测试的分子调控关系中头节点、关系和尾节点所对应的特征向量,然后按照预先设定的运算规则对该待测试的分子调控关系中头节点、关系和尾节点的特征向量进行运算处理,得到的结果再输入至训练后的神经网络,即可得到与该待测试的分子调控关系相对应的阳性概率值;当所述阳性概率值满足根据预先设定的概率阈值要求,则预测该待测试的分子调控关系成立,否则预测该待测试的分子调控关系不成立;如此即可预测得到与所述预先选定的基因或代谢物分子相关且成立的分子调控关系。
32.作为本发明的进一步优选,所述神经网络功能模块中,所述神经网络包括至少2个并行的子神经网络,针对某个头节点-关系-尾节点,每个子神经网络得到的概率值还经过了逻辑回归进行综合,综合后得到的结果即为神经网络整体输出的阳性概率值。
33.作为本发明的进一步优选,所述神经网络包括卷积神经网络和深度学习网络这2个并行的子神经网络。
34.作为本发明的进一步优选,对于所述神经网络功能模块,所述训练是以二值交叉熵作为损失函数,roc工作性能曲线面积作为模型的评价指标,训练过程中以roc工作性能曲线面积最大的模式保存最佳模型;
35.对于所述神经网络功能模块,所述预先设定的运算规则具体为将3个特征向量首尾拼接由此形成新的一维向量,或者为以3个特征向量为行向量或列向量由此形成的二维
矩阵。
36.作为本发明的进一步优选,所述有向图模型功能模块中,所述图学习模型具体基于dgl-ke框架中的complex方法构建得到的。
37.通过本发明所构思的以上技术方案,与现有技术相比,本发明基于图学习技术和深度学习技术,能够有效提升对现有分子调控关系的信息抽提能力,能实现对分子间有向调控的准确推断,为后续组学数据分析和实验设计提供辅助。
38.本发明中基于知识图谱的分子调控关系预测方法及对应预测系统,通过构建有向图(其有向调控关系来源可以为kegg的network数据库等分子相互作用数据库),相比于庞大的蛋白质相互作用无向网络来说,有向图的数据调控关系更加清晰且不含有错误数据,因此对于后续推断更有帮助,预测更为准确。
39.本发明中知识图谱构建的框架,尤其可采用以神经网络为架构的图学习模型框架dgl-ke中的complex方法进行构建,相较于传统的图学习编码,其编码方式能够更好地表征了实例与关系的高维特征。
40.在后续预测时,本发明沿用了神经网络框架强大的特征提取能力,将图模型的特征作为输入,输出某一分子调控关系成立的概率值(即为阳性的概率)。本发明尤其可以使用cnn+dnn的混合学习框架,能使得对于分子调控关系的预测更为准确。
41.综上,本发明利用图学习技术和深度学习框架的整合,能够预测分子调控关系,进而为后续组学分析和实验设计前的分子调控推断提供更合理的建议与参考。
附图说明
42.图1是本发明实施例方法对应的流程示意图。
43.图2是模型的评价结果;其中,图2中的a对应仅使用有向图模型(complex),图2中的b对应同时使用有向图模型与单一dnn架构的神经网络,图2中的c对应同时使用有向图模型与单一cnn架构的神经网络,图2中的d对应实施例1中同时使用有向图模型与混合神经网络(混合神经网络同时包括子dnn神经网络与子cnn神经网络,两者的预测结果再通过逻辑回归lr综合)。
44.图3是本发明的验证实施例。
具体实施方式
45.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
46.本发明基于知识图谱的分子调控关系预测方法,在具体实施上,可以分为三个步骤,分别是:(i)有向图模型的构建与训练,(ii)神经网络的构建与训练,和(iii)实际预测。
47.具体的:
48.1、有向图模型的构建与训练
49.可以从公共数据库kegg(kyoto encyclopedia of genes and genomes)的network数据库(https://www.kegg.jp/kegg/network.html)提取分子间有向调控关系(该
curve)作为模型的评价指标。
61.3、实际预测
62.可以选取5倍交叉训练中的最优模型作为最终模型,针对预先选取的感兴趣基因(如mapk1基因)进行分子调控预测。可按预先设定的阈值要求(本发明后续实施例中选取的阈值为0.5),在阳性数据集中涉及mapk1的调控关系为34个(每一个调控关系对应一个头实例-关系-尾实例的组合,mapk1是作为头实例或者尾实例),其中28个调控关系可以利用上述有向图模型与神经网络的配合被预测出来,因此达到了针对兴趣基因的调控关系的预测。
63.使用cnn+dnn的混合学习框架,配合逻辑回归(lr)综合cnn网络的预测结果与dnn网络的预测结果,对于分子调控关系的预测更为准确。如图2所示,相比于图模型的初步结果,roc(receiver operating characteristic curve)工作曲线的auc(area under curve)值从0.8234提升到0.9082。同样如图2所示,使用图模型配合cnn+dnn的混合学习框架、再配合逻辑回归(lr),对比图模型配合单一cnn或单一dnn的结果,roc工作曲线的auc值也有提升。当然,cnn+dnn的混合学习框架仅为优选示例,单一的cnn网络或单一的dnn网络也能实现相当功能;另外,混合学习框架也可以是采用其它类型不同神经网络的组合,只要整体包括至少2个并行的子神经网络即可。
64.实施例1
65.本实施案例为分子有向调控关系预测方法,利用的数据来源于kegg的network数据库,共囊括6,746个已知调控关系(对应阳性数据),其中涉及1,824个不同的实例。利用dgl-ke框架中的complex方法针对有向图中的实例和关系进行高维特征编码,后将这些编码作为输入,利用卷积神经网络和深度神经网络的混合网络框架对数据集进行迭代学习(迭代次数可预先设定),并将两个神经网络的输出结果利用逻辑回归综合判断输入数据为阳性的概率。最后,以预测mapk1的调控关系为例,从最后针对mapk1的调控关系网络预测结果来看(如图3所示),本发明方法能较准确预测关键基因的有向调控关系,从而进一步为后续的组学数据上下游分析和实验设计做出有效指导。
66.上述实施例仅为示例,例如,神经网络也可采用其它具体构架。另外,本发明中所基于的图学习技术和深度学习技术,其它未详细说明之处,均可参照相关现有技术。
67.本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种基于知识图谱的分子调控关系预测方法,其特征在于,包括以下步骤:(1)训练数据集的准备:以某种基因或某种代谢物分子为节点,两两节点之间的关系构成分子调控关系,每一个分子调控关系对应一组头节点-关系-尾节点的组合;其中,所述关系选自:激活、抑制和相互作用,所述激活和所述抑制对应单向关系,所述相互作用对应双向关系;从分子相互作用数据库中提取分子间有向调控关系,获得多个节点所对应的已知分子调控关系构建阳性数据集;并且,在所述阳性数据集的全部数据中,至少存在一个数据其头节点或尾节点为预测所针对的待预测节点;所述待预测节点具体为预先选定的基因或代谢物分子;在所述阳性数据集已有节点的范围内,随机变化头节点、关系和尾节点,得到的不在阳性数据集内的分子调控关系记为伪调控关系,用于构建阴性数据集;(2)有向图模型的构建与训练:构建图学习模型,按预先设定的迭代次数要求,利用所述步骤(1)得到的所述阳性数据集,以阳性数据作为输入,对该图学习模型进行训练;训练后的图学习模型,能够针对每个节点和每个关系分别赋予目标维度的特征向量;(3)神经网络的构建与训练:构建神经网络,按预先设定的迭代次数要求,针对所述步骤(1)得到的所述阳性数据集和所述阴性数据集中的数据,将每个数据中的头节点、关系和尾节点,依据所述训练后的图学习模型,从中找到对应的特征向量,接着将头节点对应的特征向量、关系对应的特征向量、尾节点的特征向量按照预先设定的运算规则进行处理,得到的结果作为神经网络的输入,从而对该神经网络进行训练;训练后的神经网络,能够针对头节点-关系-尾节点输出它为阳性的概率值;(4)实际预测:以待预测节点为头节点或尾节点,并随机变化头节点、关系和尾节点得到与该待预测节点相关的、多个待测试的分子调控关系;对于每一个待测试的分子调控关系:依据所述训练后的图学习模型,从中找到该待测试的分子调控关系中头节点、关系和尾节点所对应的特征向量,然后按照预先设定的运算规则对该待测试的分子调控关系中头节点、关系和尾节点的特征向量进行运算处理,得到的结果再输入至训练后的神经网络,即可得到与该待测试的分子调控关系相对应的阳性概率值;当所述阳性概率值满足根据预先设定的概率阈值要求,则预测该待测试的分子调控关系成立,否则预测该待测试的分子调控关系不成立;如此即可预测得到与所述预先选定的基因或代谢物分子相关且成立的分子调控关系。2.如权利要求1所述预测方法,其特征在于,所述步骤(3)中,所述神经网络包括至少2个并行的子神经网络,针对某个头节点-关系-尾节点,每个子神经网络得到的概率值还经过了逻辑回归进行综合,综合后得到的结果即为神经网络整体输出的阳性概率值。3.如权利要求2所述预测方法,其特征在于,所述步骤(3)中,所述神经网络包括卷积神经网络和深度学习网络这2个并行的子神经网络。4.如权利要求1所述预测方法,其特征在于,所述步骤(3)中,所述训练是以二值交叉熵作为损失函数,roc工作性能曲线面积作为模型的评价指标,训练过程中以roc工作性能曲线面积最大的模式保存最佳模型;
所述步骤(3)中,所述预先设定的运算规则具体为将3个特征向量首尾拼接由此形成新的一维向量,或者为以3个特征向量为行向量或列向量由此形成的二维矩阵。5.如权利要求1所述预测方法,其特征在于,所述图学习模型具体基于dgl-ke框架中的complex方法构建得到的。6.一种基于知识图谱的分子调控关系预测系统,其特征在于,包括训练数据集准备功能模块、有向图模型功能模块、神经网络功能模块和预测功能模块,其中:训练数据集准备功能模块,用于:以某种基因或某种代谢物分子为节点,两两节点之间的关系构成分子调控关系,每一个分子调控关系对应一组头节点-关系-尾节点的组合;其中,所述关系选自:激活、抑制和相互作用,所述激活和所述抑制对应单向关系,所述相互作用对应双向关系;从分子相互作用数据库中提取分子间有向调控关系,获得多个节点所对应的已知分子调控关系构建阳性数据集;并且,在所述阳性数据集的全部数据中,至少存在一个数据其头节点或尾节点为预测所针对的待预测节点;所述待预测节点具体为预先选定的基因或代谢物分子;在所述阳性数据集已有节点的范围内,随机变化头节点、关系和尾节点,得到的不在阳性数据集内的分子调控关系记为伪调控关系,用于构建阴性数据集;有向图模型功能模块,包括训练后的图学习模型,用于:针对每个节点和每个关系分别赋予目标维度的特征向量;所述图学习模型的训练,具体是按预先设定的迭代次数要求,利用所述阳性数据集,以阳性数据作为输入,对所述图学习模型进行训练;神经网络功能模块,包括训练后的神经网络,用于:针对头节点-关系-尾节点输出它为阳性的概率值;所述神经网络的训练,具体是按预先设定的迭代次数要求,针对所述阳性数据集和所述阴性数据集中的数据,将每个数据中的头节点、关系和尾节点,依据所述训练后的图学习模型,从中找到对应的特征向量,接着将头节点对应的特征向量、关系对应的特征向量、尾节点的特征向量按照预先设定的运算规则进行处理,得到的结果作为神经网络的输入,从而对该神经网络进行训练;预测功能模块,用于:以待预测节点为头节点或尾节点,并随机变化头节点、关系和尾节点得到与该待预测节点相关的、多个待测试的分子调控关系;对于每一个待测试的分子调控关系:依据所述训练后的图学习模型,从中找到该待测试的分子调控关系中头节点、关系和尾节点所对应的特征向量,然后按照预先设定的运算规则对该待测试的分子调控关系中头节点、关系和尾节点的特征向量进行运算处理,得到的结果再输入至训练后的神经网络,即可得到与该待测试的分子调控关系相对应的阳性概率值;当所述阳性概率值满足根据预先设定的概率阈值要求,则预测该待测试的分子调控关系成立,否则预测该待测试的分子调控关系不成立;如此即可预测得到与所述预先选定的基因或代谢物分子相关且成立的分子调控关系。7.如权利要求6所述预测系统,其特征在于,所述神经网络功能模块中,所述神经网络包括至少2个并行的子神经网络,针对某个头节点-关系-尾节点,每个子神经网络得到的概率值还经过了逻辑回归进行综合,综合后得到的结果即为神经网络整体输出的阳性概率
值。8.如权利要求7所述预测系统,其特征在于,所述神经网络包括卷积神经网络和深度学习网络这2个并行的子神经网络。9.如权利要求6所述预测系统,其特征在于,对于所述神经网络功能模块,所述训练是以二值交叉熵作为损失函数,roc工作性能曲线面积作为模型的评价指标,训练过程中以roc工作性能曲线面积最大的模式保存最佳模型;对于所述神经网络功能模块,所述预先设定的运算规则具体为将3个特征向量首尾拼接由此形成新的一维向量,或者为以3个特征向量为行向量或列向量由此形成的二维矩阵。10.如权利要求6所述预测系统,其特征在于,所述有向图模型功能模块中,所述图学习模型具体基于dgl-ke框架中的complex方法构建得到的。

技术总结
本发明属于图论学习、深度学习分析领域,具体涉及一种基于知识图谱的分子调控关系预测方法及系统,其中的预测方法包括以下步骤:(1)训练数据集的准备;(2)有向图模型的构建与训练;(3)神经网络的构建与训练;(4)实际预测。本发明通过对预测方法整体流程设计进行改进,首先结合图学习将有向图中的有向调控关系和各调控分子节点(即各调控分子实例)进行最优特征编码,接着在获得各节点与关系的特征编码后,利用深度神经网络框架进一步加强有向图的预测能力,经过迭代训练后提升有向调控的预测准确度。准确度。准确度。


技术研发人员:薛宇 张玮之 王晨玮
受保护的技术使用者:华中科技大学
技术研发日:2021.12.30
技术公布日:2022/3/8

最新回复(0)