1.本发明涉及癌症体细胞突变功能影响预测技术领域,是一种癌症体细胞突变功能影响预测方法。
背景技术:
2.用于癌症研究中的体细胞突变对分子、组织或个体的发展是否产生有害影响。随着下一代测序等高通量生物芯片技术的发展,产生了大量的基因突变相关的实验数据,如何有效准确的对这些突变数据进行功能注释,是一项十分有意义且富有挑战的研究工作,通过对体细胞突变进行功能注释。现有的癌症体细胞突变功能预测算法多基于突变的相关生物特征(例如,序列保守性),这些算法对于体细胞突变的功能影响预测效果一般。
技术实现要素:
3.本发明针对现有技术的缺点,本发明提供了一种癌症体细胞突变功能影响预测方法,本发明提供了以下技术方案:
4.一种癌症体细胞突变功能影响预测方法,包括以下步骤:
5.步骤1:将不同种群的突变频率整合在一起,完成突变频率特征构建;
6.步骤2:基于多物种的突变位点进行保守性估计,完成突变保守性特征构建;
7.步骤3:基于基因产物互作的突变网络特征构建,完成突变网络特征构建;
8.步骤4:构建基于多重采样和层次结构的深度随机森林预测模型,对癌症体细胞突变做出功能预测。
9.优选地,所述步骤1具体为:
10.突变在不同人群中有不同的发生频率,当一些突变在人群中有较高的频率倾向于无害突变,当某些突变出现的频率较低,则倾向于有害突变;将不同种群的突变频率整合在一起,作为一类预测特征来预测突变的功能影响。
11.优选地,所述步骤2具体为:
12.步骤2.1:基于现有的遗传信息知识库,收集不同物种的dna或蛋白质序列;
13.步骤2.2:选取多个物种的dna或蛋白质序列与突变序列进行比对,找到与突变序列相似性最高的多条序列数据,得到多序列比对结果;
14.步骤2.3:结合所获得的多序列比对结果,采用估计突变位点的保守性分数。
15.优选地,所述步骤2.3中采用似然估计或隐马尔可夫算法估计突变位点的保守性分数。
16.优选地,所述步骤3具体为:
17.步骤3.1:基于基因产物互作的突变网络特征构建,基于现有的蛋白质互作数据库,构建蛋白质互作邻接矩阵;
18.步骤3.2:基于蛋白质互作邻接矩阵,通过随机游走算法,以不同的蛋白质为起点,生成一系列的蛋白质随机游走序列;
19.步骤3.3:选取蛋白质g1及邻接蛋白质节点g2,g3,g4和g5的蛋白质随机游走序列,分别作为skip-gram模型的输入和输出,对模型进行训练;
20.步骤3.4:对所有的蛋白质分子按照步骤3.3进行选取,完成skip-gram模型的训练;
21.步骤3.5:抽取skip-gram模型的权重矩阵,完成突变:网络特征构建。
22.优选地,所述步骤4具体为:
23.步骤4.1:基于不同类型特征进行多重采样,3类共75个特征用来作为多重采样的输入数据,通过多重采样,获得多组低维特征向量,获得3组特征向量;
24.步骤4.2:建立级联森林,将获得的3组特征向量做连接,并作为级联森林的输入特征,级联森林由多层随机森林组构成,每一层级联森林包含2组随机森林和2组极度随机森林,每一层级联森林的输入数据为上一层的预测结果与初始特征的连接向量,输出为4组2维的预测分数向量,级联森林的最后一层输出结果的平均值为最终的预测分数。
25.例如,根据突变等位基因频率特征,对17维的输入特征做17次随机采样,每次采样特征数的2/3,获得17组特征实例;
26.针对每一组特征实例分别使用随机森林与极度随机森林做训练和预测,每次获得一组2维的预测分数向量,最终将所有的2维向量做连接获得68维特征向量;
27.针对三类特征均执行类似操作,最终获得3组68维,32维和200维特征向量。
28.本发明具有以下有益效果:
29.精准医学在癌症治疗中的应用是癌症研究的热点之一。肿瘤精准医学的关键是准确地寻找功能上有害的突变。但是现在有的计算方法在癌症体细胞突变上功能影响预测能力不足,无法提供较为精准的功能预测。在这里,本发明更加精准地预测突变功能影响。在实验数据集上的实验结果表明,本发明相较于现有的方法,可以更加有效地预测突变功能影响,其有效性主要体现在:a)预测分数的auc(roc曲线线下面积)显著地高于其他方法;b)分类结果的精准率,召回率,f1分数及准确率均显著地高于其他方法。
附图说明
30.图1为本发明算法模型框架;
31.图2为基于不同类型特征的多重采样算法模型;
32.图3为级联森林算法模型;
33.图4为15种不同方法auc值,dva为本发明。
具体实施方式
34.以下结合具体实施例,对本发明进行了详细说明。
35.具体实施例一:
36.根据图1至图4所示,本发明为解决上述技术问题采取的具体优化技术方案是:一种癌症体细胞突变功能影响预测方法,包括以下步骤:
37.一种癌症体细胞突变功能影响预测方法,包括以下步骤:
38.步骤1:构建综合的突变特征集,将不同种群的突变频率整合在一起;
39.所述步骤1具体为:
40.突变在不同人群中有不同的发生频率,当一些突变在人群中有较高的频率倾向于无害突变,当某些突变出现的频率较低,则倾向于有害突变;将不同种群的突变频率整合在一起,作为一类预测特征来预测突变的功能影响。
41.步骤2:基于多物种的突变位点进行保守性估计,估计这些突变为有害突变的概率;
42.所述步骤2具体为:
43.步骤2.1:通过线性序列存储遗传信息,某通过评估突变位点的保守程度,进而估计这些突变为有害突变的概率:
44.步骤2.2:选取多个物种的dna或蛋白质序列与突变序列进行比对,找到与突变序列相似性最高的多条序列数据,得到多序列比对结果;
45.步骤2.3:结合所获得的多序列比对结果,采用估计突变位点的保守性分数。
46.所述步骤2.3中采用似然估计或隐马尔可夫算法估计突变位点的保守性分数。
47.步骤3:基于基因产物互作的突变网络特征构建,完成突变网络特征构建;
48.所述步骤3具体为:
49.步骤3.1:基于基因产物互作的突变网络特征构建,基于现有的蛋白质互作数据库(如string,humnet),构建蛋白质互作邻接矩阵;
50.步骤3.2:基于蛋白质互作邻接矩阵,通过随机游走算法,以不同的蛋白质为起点,生成一系列的蛋白质随机游走序列(walk1,walk2,
…
,walkn);
51.步骤3.3:选取蛋白质g1及邻接蛋白质节点g2,g3,g4和g5,分别作为skip-gram模型的输入和输出,对模型进行训练;
52.步骤3.4:对所有的蛋白质分子按照步骤3.3进行选取,完成skip-gram模型的训练;
53.步骤3.5:抽取skip-gram模型的权重矩阵,完成突变网络特征构建。
54.步骤4:构建基于多重采样和层次结构的深度随机森林预测模型,对癌症体细胞突变做出功能预测。
55.所述步骤4具体为:
56.步骤4.1:基于不同类型特征进行多重采样,如图2所示,3类共75个特征(8维保守性特征,17维突变等位基因频率特征,50维ppi网络特征)用来作为多重采样的输入数据,通过多重采样,获得多组低维特征向量,获得3组特征向量;
57.根据突变等位基因频率特征,对17维的输入特征做17次随机采样,每次采样特征数的2/3,获得17组特征实例;
58.针对每一组特征实例分别使用随机森林与极度随机森林做训练和预测,每次获得一组2维的预测分数向量,最终将所有的2维向量做连接获得68维特征向量;针对三类样本均执行类似操作,最终获得3组68维,32维和200维)特征向量。
59.步骤4.2:建立级联森林,将获得的3组特征向量做连接,并作为级联森林的输入特征(300维),级联森林由多层随机森林组构成,每一层级联森林包含2组随机森林和2组极度随机森林,每一层级联森林的输入数据为上一层的预测结果与初始特征(300维)的连接向量,输出为4组2维的预测分数向量,级联森林的最后一层输出结果的平均值为最终的预测分数。
60.本发明在cosmic数据库中5731个有害突变与varisnp数据库中5731个无害突变进行了实验验证。
61.参数设定:本发明中所使用的随机森林均由100棵决策树组成,其余参数均设置为默认值。
62.实施步骤:
63.通过gerp++,phastcons和phylop等方法去计算每个突变的序列保守性分数。
64.检索gnomad数据库,找出突变在不同人群中的突变等位基因频率。
65.使用node2vec方法,通过图嵌入的方式将蛋白质互作网络转化为基于单一蛋白的特征矩阵。
66.将步骤1~3所产生的特征整合在一起作为突变的输入特征集,训练基于不同类型特征的多重采样以及级联森林,并通过十折交叉验证来评估所提出的模型的性能表现。
67.结果:
68.接收者操作特征曲线线下面积(auc)是常用的一种评价算法性能的指标。如图4所示,本发明测得的auc值为0.942,远高于现存的一些方法,结果表明本发明可以准确地预测突变的功能影响。
69.准确率(accuracy)、精准率(precision)、召回率(recall)和f1分数(f1-score)也常被用来作为评价指标。本方法的准确率、精准率、召回率和f1分数分别为90.48%,91.21%,89.79%和90.39%(如表1所示),结果表明本方法的识别精度高,对于正负样本的识别均有良好的性能。
70.表1. 15种预测方法的性能表现
[0071][0072]
以上所述仅是一种癌症体细胞突变功能影响预测方法的优选实施方式,一种癌症体细胞突变功能影响预测方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。
技术特征:
1.一种癌症体细胞突变功能影响预测方法,其特征是:包括以下步骤:步骤1:将不同种群的突变频率整合在一起,完成突变频率特征构建;步骤2:基于多物种的突变位点进行保守性估计,完成突变保守性特征构建;步骤3:基于基因产物互作的突变网络特征构建,完成突变网络特征构建;步骤4:构建基于多重采样和层次结构的深度随机森林预测模型,对癌症体细胞突变做出功能预测。2.根据权利要求1所述的一种癌症体细胞突变功能影响预测方法,其特征是:所述步骤1具体为:突变在不同人群中有不同的发生频率,当一些突变在人群中有较高的频率倾向于无害突变,当某些突变出现的频率较低,则倾向于有害突变;将不同种群的突变频率整合在一起,作为一类预测特征来预测突变的功能影响。3.根据权利要求2所述的一种癌症体细胞突变功能影响预测方法,其特征是:所述步骤2具体为:步骤2.1:基于现有的遗传信息知识库,收集不同物种的dna或蛋白质序列;步骤2.2:选取多个物种的dna或蛋白质序列与突变序列进行比对,找到与突变序列相似性最高的多条序列数据,得到多序列比对结果;步骤2.3:结合所获得的多序列比对结果,采用估计突变位点的保守性分数。4.根据权利要求3所述的一种癌症体细胞突变功能影响预测方法,其特征是:所述步骤2.3中采用似然估计或隐马尔可夫算法估计突变位点的保守性分数。5.根据权利要求4所述的一种癌症体细胞突变功能影响预测方法,其特征是:所述步骤3具体为:步骤3.1:基于基因产物互作的突变网络特征构建,基于现有的蛋白质互作数据库,构建蛋白质互作邻接矩阵;步骤3.2:基于蛋白质互作邻接矩阵,通过随机游走算法,以不同的蛋白质为起点,生成一系列的蛋白质随机游走序列;步骤3.3:选取蛋白质g1及邻接蛋白质节点g2,g3,g4和g5的蛋白质随机游走序列,分别作为skip-gram模型的输入和输出,对模型进行训练;步骤3.4:对所有的蛋白质分子按照步骤3.3进行选取,完成skip-gram模型的训练;步骤3.5:抽取skip-gram模型的权重矩阵,完成突变网络特征构建。6.根据权利要求5所述的一种癌症体细胞突变功能影响预测方法,其特征是:所述步骤4具体为:步骤4.1:基于不同类型特征进行多重采样,3类共75个特征用来作为多重采样的输入数据,通过多重采样,获得多组低维特征向量,获得3组特征向量;步骤4.2:建立级联森林,将获得的3组特征向量做连接,并作为级联森林的输入特征,级联森林由多层随机森林组构成,每一层级联森林包含2组随机森林和2组极度随机森林,每一层级联森林的输入数据为上一层的预测结果与初始特征的连接向量,输出为4组2维的预测分数向量,级联森林的最后一层输出结果的平均值为最终的预测分数。7.根据权利要求6所述的一种癌症体细胞突变功能影响预测方法,其特征是:根据突变等位基因频率特征,对17维的输入特征做17次随机采样,每次采样特征数的2/3,获得17组
特征实例;针对每一组特征实例分别使用随机森林与极度随机森林做训练和预测,每次获得一组2维的预测分数向量,最终将所有的2维向量做连接获得68维特征向量;针对三类特征均执行类似操作,最终获得3组68维,32维和200维特征向量。
技术总结
本发明是一种癌症体细胞突变功能影响预测方法。本发明构建综合的突变特征集,将不同种群的突变频率整合在一起;基于多物种的突变位点进行保守性估计,估计这些突变为有害突变的概率;基于基因产物互作的突变网络特征构建,完成突变网络特征构建;构建基于多重采样和层次结构的深度随机森林预测模型,对癌症体细胞突变做出功能预测。细胞突变做出功能预测。细胞突变做出功能预测。
技术研发人员:李杰 王东 王亚东
受保护的技术使用者:哈尔滨工业大学
技术研发日:2021.11.12
技术公布日:2022/3/8