癌症组织分类方法、装置、电子设备及存储介质

专利查询6天前  8



1.本发明属于基因识别技术领域,特别涉及一种癌症组织分类方法、装置、电子设备及存储介质。


背景技术:

2.癌症疾病的分类研究是一个复杂问题,随着高通量测序的快速发展,使得基因表达谱和基因网络技术的作用日渐突出,也为癌症患者的诊断与决策提供了有力的支持。一方面基因表达谱可以对样本进行疾病分类,另一方面,基因网络的作用在于基因之间的关系描述,倘若某个基因发生突变,会通过基因网络放大影响,过往的研究中,研究人员往往只针对部分基因,而基因网络可涉及多个基因之间的调控关系并存在放大效应,故而考虑多阶邻居基因网络,并将不同阶邻居基因网络信息结合分析可以帮助我们进行疾病分类。
3.从网络方法的角度来分析,网络中节点间的相关作用常见的有网络中心度指标,由于网络中心度的方法只是将节点在网络中的位置来评价节点间的重要程度,此方法忽略了节点本身的特征,也无法考虑不同阶邻居距离的节点关系。而目前许多的机器学习算法也被用于疾病检测工作,经典的机器学习算法例如逻辑回归、支持向量机(svm)分类算法、随机森林以及前馈神经网络都是直接根据样本的基因表达谱对样本进行分类与预测,这些方法均无法进一步处理网络特征。
4.现有单一基因表达谱以及网络中心度方法进行癌症组织分类时具有局限性及片面性,且分类准确率低。


技术实现要素:

5.本说明书实施例的目的是提供一种癌症组织分类方法、装置、电子设备及存储介质。
6.为解决上述技术问题,本技术实施例通过以下方式实现的:
7.第一方面,本技术提供一种癌症组织分类方法,该方法包括:
8.获取待检组织集对应的基因数据;待检组织包括若干待检组织样本;
9.根据基因数据,确定基因特征矩阵和基因邻接矩阵;
10.将基因特征矩阵和基因邻接矩阵,输入图卷积神经网络,得到多个图卷积网络层;
11.将多个图卷积网络层通过增强图卷积神经网络进行聚合,得到聚合结果;
12.将聚合结果输入分类器进行分类,得到诊断结果。
13.在其中一个实施例中,基因数据包括基因表达谱数据及对应的基因关系网络数据;
14.根据基因数据,确定基因特征矩阵和基因邻接矩阵,包括:
15.根据基因表达谱数据,确定基因特征矩阵;
16.根据基因关系网络数据,构建基因邻接矩阵。
17.在其中一个实施例中,每个待检组织样本包括若干特征,所有待检组织样本的特
征构成特征矩阵;
18.根据基因表达谱数据,确定基因特征矩阵,包括:
19.归一化特征矩阵,得到稀疏矩阵;
20.存储稀疏矩阵,得到基因特征矩阵。
21.在其中一个实施例中,基因关系网络数据包括网络节点和网络边,网络节点为基因特征,网络边表征网络节点之间的关系;
22.根据基因关系网络数据,构建基因邻接矩阵,包括:
23.根据网络节点和网络边,确定基因邻接矩阵。
24.在其中一个实施例中,将基因特征矩阵和基因邻接矩阵,输入图卷积神经网络,得到多个图卷积网络层,包括:
25.将基因邻接矩阵a通过拉普拉斯矩阵l=d-a进行变换,标准化后为:其中,in为单位矩阵;
26.使用重整化方法将转化为其中,其中,为对应的度矩阵;
27.根据上述转换,得到图卷积神经网络的第l+1层隐藏层节点特征为:
[0028][0029]
其中,σ为激活函数,b
(l)
为第l层的偏置值;
[0030]
令通过堆叠多层图卷积神经网络,得到多阶邻居的关系:
[0031][0032]

[0033][0034]

[0035][0036]
其中,h
(1)
,h
(2)
,...,h
(l)
,h
(out)
为各层隐藏层节点特征,b
(in)
,...,b
(l)
,b
(out)
为各层的偏置值,y为输出数据,f(
·
)为softmax(
·
)函数。
[0037]
在其中一个实施例中,将多个图卷积网络层通过增强图卷积神经网络进行聚合,采用拼接聚合或注意力加权拼接聚合。
[0038]
在其中一个实施例中,根据基因数据,确定基因特征矩阵和基因邻接矩阵,包括:
[0039]
预处理基因数据,得到预处理后基因数据;
[0040]
根据预处理后基因数据,确定基因特征矩阵和基因邻接矩阵。
[0041]
第二方面,本技术提供一种癌症组织分类装置,该装置包括:
[0042]
获取模块,用于获取待检组织集对应的基因数据;待检组织包括若干待检组织样本;
[0043]
确定模块,用于根据基因数据,确定基因特征矩阵和基因邻接矩阵;
[0044]
处理模块,用于将基因特征矩阵和基因邻接矩阵,输入图卷积神经网络,得到多个
图卷积网络层;
[0045]
聚合模块,用于将多个图卷积网络层通过增强图卷积神经网络进行聚合,得到聚合结果;
[0046]
分类模块,用于将聚合结果输入分类器进行分类,得到诊断结果。
[0047]
第三方面,本技术提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如第一方面的癌症组织分类方法。
[0048]
第四方面,本技术提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面的癌症组织分类方法。
[0049]
由以上本说明书实施例提供的技术方案可见,该方案通过图卷积神经网络可以融合基因表达谱数据与基因关系网络数据,解决了现有方法进行癌症组织分类时具有局限性及片面性,且分类准确率低的缺陷。
附图说明
[0050]
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0051]
图1为本技术提供的癌症组织分类方法的流程示意图;
[0052]
图2为本技术提供的癌症组织分类装置的结构示意图;
[0053]
图3为本技术提供的电子设备的结构示意图。
具体实施方式
[0054]
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
[0055]
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本技术的描述。
[0056]
在不背离本技术的范围或精神的情况下,可对本技术说明书的具体实施方式做多种改进和变化,这对本领域技术人员而言是显而易见的。由本技术的说明书得到的其他实施方式对技术人员而言是显而易见得的。本技术说明书和实施例仅是示例性的。
[0057]
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
[0058]
本技术中的“份”如无特别说明,均按质量份计。
[0059]
下面结合附图和实施例对本发明进一步详细说明。
[0060]
参照图1,其示出了适用于本技术实施例提供的癌症组织分类方法的流程示意图。
[0061]
如图1所示,癌症组织分类方法,可以包括:
[0062]
s110、获取待检组织集对应的基因数据;待检组织包括若干待检组织样本。
[0063]
具体的,待检组织样本为癌症细胞,本实施例中以乳腺癌类癌症细胞为例进行说明。待检组织集为若干待检组织样本的集合。
[0064]
基因数据包括基因表达谱数据和对应的基因关系网络数据。基因表达谱数据包括基因特征属性及对应样本的标签情况。基因关系网络数据包括基因网络简写编号、名称、基因属性以及对应的网络边等信息。
[0065]
可以从基因数据库中获取基因表达谱数据,例如三分类乳腺癌breast-a和四分类乳腺癌breast-b等,数据可以从哈佛大学broad研究院获取。
[0066]
基因关系网络数据可以从giant2.0(genome-wide analysis of gene networks in tissues)获取,该服务器托管大规模人类组织特异性基因表达网络,其中包括每个基因网络的简写编号、名称、基因属性对应的1448412条网络边。
[0067]
示例性的,获得样本数量如下:乳腺癌a类(breast-a)组织样本为98个,基因特征98
×
1214,基因网络为1214
×
1214;乳腺癌b类(breast-b)样本数目为49个,基因特征49
×
1214,基因网络为1214
×
1214。
[0068]
s120、根据基因数据,确定基因特征矩阵和基因邻接矩阵。
[0069]
在一个实施例中,s120根据基因数据,确定基因特征矩阵和基因邻接矩阵,可以包括:
[0070]
根据基因表达谱数据,确定基因特征矩阵;
[0071]
根据基因关系网络数据,构建基因邻接矩阵。
[0072]
可选的,基因表达谱数据包括对应待检组织样本的标签;每个待检组织样本包括若干特征,所有待检组织样本的特征构成特征矩阵。
[0073]
根据基因表达谱数据,确定基因特征矩阵,可以包括:
[0074]
归一化特征矩阵,得到稀疏矩阵;
[0075]
存储稀疏矩阵,得到基因特征矩阵。
[0076]
具体的,假设,共有n个待检组织样本,每个待检组织样本为m个特征,构成n
×
m的特征矩阵。对n
×
m的特征矩阵进行归一化,具体为:对传入的特征矩阵的每一行分别求和,取倒数后进行点乘。然后将归一化后的特征矩阵进行存储,由于特征有一些内容为数值0,故而对特征矩阵归一化后仍旧为稀疏矩阵,使用矩阵稀疏化的方式进行存储,得到基于特征矩阵,记基因特征矩阵为x。使用矩阵稀疏化的方式存储稀疏矩阵,可以提升运算效率。
[0077]
可以理解的,处理待检组织样本特征时,可以对样本标签进行编码化。即由于所有待检组织样本的标签构成的数据集为多分类,因此可以将标签采用one-hot编码(独热编码)方法进行编码化,即采用n位状态寄存器对n个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有效。
[0078]
可选的,基因关系网络数据包括网络节点和网络边,网络节点为基因特征,网络边表征网络节点之间的关系,
[0079]
根据基因关系网络数据,构建基因邻接矩阵,包括:
[0080]
根据网络节点和网络边,确定基因邻接矩阵。
[0081]
具体的,基因关系网络数据由网络节点和网络边组成,其中,网络节点表示的是基
因和调节基因表达的关键因素,网络边则是网络节点之间的关系,网络节点是基因特征,而非样本。
[0082]
根据网络节点和网络边可以得到一个无向图g=(v,e),其中,v=(v1,v2,

,vm)是网络节点的集合,其中,网络节点个数是基因特征个数m,而e为网络节点间的关系即网络边的集合。
[0083]
网络节点i和网络节点j之间的关系用a
ij
表示,若网络节点i和网络节点j之间存在相关关系则a
ij
=0,若不存在相关关系则a
ij
=1,以此衡量任意两个网络节点间的连接紧密程度。
[0084]
将所有网络节点和网络边之间关系存储为矩阵,即为无向图对应的基因邻接矩阵a∈rm×m。
[0085]
可以理解的,可以通过度矩阵对基因邻接矩阵进行归一化处理,d=diag(d1,d2,

,dm),其中,di=∑
jaij

[0086]
为了对数据进行有效性和一致性的处理,对获得的原始基因数据进行全面整理(即进行预处理)。
[0087]
在一个实施例中,根据基因数据,确定基因特征矩阵和基因邻接矩阵,包括:
[0088]
预处理基因数据,得到预处理后基因数据;
[0089]
根据预处理后基因数据,确定基因特征矩阵和基因邻接矩阵。
[0090]
具体的,预处理基因数据,首先是数据清洗,主要是重复值处理(对重复数据进行删除),缺失值处理(在建模前,审查缺失过多的属性删除以及使用模型对缺失较少的异常值进行均值填补),以及异常值处理;其次是进行数据集成,进行数据规范化等操作。
[0091]
可以理解的,在根据基因数据确定基因特征矩阵和基因邻接矩阵时,一般情况是基于预处理后基因数据确定基因特征矩阵和基因邻接矩阵。
[0092]
s130、将基因特征矩阵和基因邻接矩阵,输入图卷积神经网络,得到多个图卷积网络层。
[0093]
具体的,本技术中图卷积神经网络与传统图卷积神经网络(graph convolutional network,gcn)不同的是,基因关系网络数据是描述基因之间的关系,不能直接用传统的样本关系模型来对基因关系网络数据进行应用。即每个人都有固定数量的对应基因表达情况,而基因可以理解为每个样本对应的特征,本技术构建的是关于特征的图卷积神经网络,而对应的模型公式应该有所更改。
[0094]
对于输入图卷积神经网络的基因特征矩阵x和基因邻接矩阵a,图卷积神经网络需要频域转换,基因邻接矩阵a需要借助拉普拉斯矩阵l=d-a进行变换,标准化后为:其中,in为单位矩阵。
[0095]
为了避免该算子的重复应用导致的梯度爆炸和梯度消失问题,使用重整化方法将转化为其中,在原来的连接上加入自循环,从而不仅包含邻居的信息还加入自身的信息,为对应的度矩阵;在经过上述处理后,可以使得图卷积神经网络计算的计算量大幅简略。
[0096]
根据上述的输入与变化,可以得到图卷积神经网络的第l+1层隐藏层节点特征为:
[0097][0098]
其中,σ为激活函数,b
(l)
为第l层的偏置值。
[0099]
为了简化符号,令基于以上符号,可以通过堆叠多层gcn获得更大规模的领域信息,聚合更多阶邻居的关系,堆叠的图卷积网络层通过聚合邻居拓扑关系信息进一步表达节点信息(一层为一阶邻居,二层为二阶邻居,以此类推获得更多阶邻居信息),具体构建如下:
[0100][0101]

[0102][0103]

[0104][0105]
其中,h
(1)
,h
(2)
,...,h
(l)
,h
(out)
为各层隐藏层节点特征,每一层隐藏层节点特征的维度与基因特征维度一致均为1214,b
(in)
,...,b
(l)
,b
(out)
为各层的偏置值,y为输出数据,f(
·
)为softmax(
·
)函数。
[0106]
s140、将多个图卷积网络层通过增强图卷积神经网络进行聚合,得到聚合结果。
[0107]
对于基因网络来说,不同阶的邻居可能存在不同角度的影响,某些偏离基因网络核心的基因可能需要高阶图卷积的效应,而对于离核心较近的基因来说,可能只需要较少的层数。因此本技术将建立多层图卷积模型,并通过拼接聚合、注意力机制加权拼接聚合等方式将多层图卷积网络融合在一层中,并以前馈神经网络作为最后输出层来特征降维。
[0108]
通常情况下,图卷积神经网络在输出阶段只取最终层结果,而忽略网络前部的中间特征表示。受densenet模型的启发,本技术同时结合图卷积层所有隐藏层节点特征而不是只使用最后一层能提高网络性能以及泛化能力,为此本技术的增强图卷积网络(enhance graph convolutional network,egcn)用于结合gcn学习的所有隐层,从而增强网络效果。本技术将每层图卷积网络层输出h
(1)
,h
(2)
,...,h
(l)
,h
(out)
记为{h
(r)
},r={1,2,...,q),q为总层数,通过增强图卷积神经网络将所有图卷积网络层进行聚合增强表征。
[0109]
本技术示出两种方式进行聚合:拼接聚合和注意力加权拼接聚合。
[0110]
其中,拼接聚合为:
[0111]fcat
=cat(h
(1)
,h
(2)
,...,h
(q)
[0112]
将所有图卷积网络层进行拼接,其中cat(
·
)为拼接函数,直接拼接各层隐藏层节点特征,是将基因节点各阶邻居进行平均聚合,并未对每个基因节点进行适应性范围邻居聚合,其中f
cat
维度为各层维度之和。
[0113]
其中,注意力加权拼接聚合为使用注意力机制,对每层图卷积节点计算对应的注意力分数,根据注意力分数及每层隐藏层节点特征计算基因节点的输出,以使得基因节点进行邻居聚合时选择合适的邻居范围。
[0114]
示例性的,第t层图卷积节点e输出为将输入至lstm模型中,模型中每一节点都会得到其对应的后向表达并使用linear层进行降维后,通过softmax
得到对应节点的注意力分数节点e的最终输出为
[0115]
注意力加权拼接聚合为:
[0116]
其中,a为任一节点。
[0117]
可以理解的,还可以将增强图卷积神经网络聚合后的聚合结果输入全连接层进行降维:
[0118]fout
=σ(f
cat
wf+bf)
[0119]
其中,σ为激活函数relu(
·
),wf为所学习的权重参数,bf为所需要学习的偏置参数,全连接层对聚合后的信息进行进一步降维整合。
[0120]
s150、将聚合结果输入分类器进行分类,得到诊断结果。
[0121]
具体的,将聚合结果使用svm分类器进行分类。
[0122]
设计使用了svm多分类器,因为样本为多分类,使用一对多的svm分类器完成,记类别个数为l,第i个训练样本为(xi,yi),yi∈1,

l,一共有m个样本,构建l个svm模型,第k个模型以第k个类为正样本,其他为负样本,其中第k个模型优化问题如下:
[0123][0124]
s.t.(wk)
t
φ(xi)+bk≥1-ξ
ik
,if yi=k
[0125]
(wk)
t
φ(xk)+bk≤-1+ξ
ik
,if yi≠k
[0126]
ξ
ik
,≥0,i=1,...,m
[0127]
其中c、ξi为惩罚参数,φ代表输入空间到特征空间的非线性映射。
[0128]
求解之后,得到第k个决策函数为:
[0129]
(wk)
t
φ(x
t
)+bk[0130]
将x分类为有最大决策函数值的类:
[0131][0132]
使用svm分类器替代图卷积神经网络模型中常用的softmax分类器,即将增强图卷积网络模型后连接的全连接网络作为多分类svm分类器的输入,通过多次训练对svm分类器的参数进行调优,最后得到一个能够高效分类乳腺癌类型的svm分类器,从而对组织乳腺癌类型进行准确分类,最后将分类结果输出。
[0133]
可以理解的,根据egcn结构,最后聚合后,如果某一部分起着更重要的作用,那么其与(output)层之间的权重应该大于另外的部分,而由于网络层的拼接并不影响权重的连接,因此神经网络每一层的重要性都可以用连接权重衡量。本技术使用权重相对重要性分数来表达,具体某一层对整个网络的重要性之比,由此来分析egcn中某一层的重要性,从而能更好地分析得出最优的邻居阶数。
[0134]
权重相对重要性分数ris:
[0135][0136]
其中,1=1,2,3..表示拼接层中图卷积层对应的第1,2,3...层,w
cat

out
指整体拼
接层与输出层的权重、||x||1为1范数,通过对某一层的权重绝对值之和与拼接层所有权重绝对值相比,得到神经网络某一层的重要性比率,从而了解某层图卷积的相对重要性。
[0137]
本实施例通过相对重要性分数,评估增强图卷积神经网络中各层图卷积层的重要性,有助于进一步优化模型效果。
[0138]
本技术实施例通过图卷积神经网络可以融合基因表达谱数据与基因关系网络数据,解决了现有方法进行癌症组织分类时具有局限性及片面性,且分类准确率低的缺陷。另外,通过增强图卷积神经网络将记忆特征与基因的拓扑关系结合,同时聚合基因节点不同阶的邻居节点关系,更好的考虑基因调控网络的传递放大关系。
[0139]
参照图2,其示出了根据本技术一个实施例描述的癌症组织分类装置的结构示意图。
[0140]
如图2所示,癌症组织分类装置,可以包括:
[0141]
获取模块210,用于获取待检组织集对应的基因数据;待检组织包括若干待检组织样本;
[0142]
确定模块220,用于根据基因数据,确定基因特征矩阵和基因邻接矩阵;
[0143]
处理模块230,用于将基因特征矩阵和基因邻接矩阵,输入图卷积神经网络,得到多个图卷积网络层;
[0144]
聚合模块240,用于将多个图卷积网络层通过增强图卷积神经网络进行聚合,得到聚合结果;
[0145]
分类模块250,用于将聚合结果输入分类器进行分类,得到诊断结果。
[0146]
可选的,基因数据包括基因表达谱数据及对应的基因关系网络数据;
[0147]
确定模块220,还用于:
[0148]
根据基因表达谱数据,确定基因特征矩阵;
[0149]
根据基因关系网络数据,构建基因邻接矩阵。
[0150]
可选的,每个待检组织样本包括若干特征,所有待检组织样本的特征构成特征矩阵;
[0151]
确定模块220,还用于:
[0152]
归一化特征矩阵,得到稀疏矩阵;
[0153]
存储稀疏矩阵,得到基因特征矩阵。
[0154]
可选的,基因关系网络数据包括网络节点和网络边,网络节点为基因特征,网络边表征网络节点之间的关系;
[0155]
确定模块220,还用于:
[0156]
根据网络节点和网络边,确定基因邻接矩阵。
[0157]
可选的,处理模块230还用于:
[0158]
将基因邻接矩阵a通过拉普拉斯矩阵l=d-a进行变换,标准化后为:其中,in为单位矩阵;
[0159]
使用重整化方法将转化为其中,其中,为对应的度矩阵;
[0160]
根据上述转换,得到图卷积神经网络的第l+1层隐藏层节点特征为:
[0161][0162]
其中,σ为激活函数,b
(l)
为第l层的偏置值;
[0163]
令通过堆叠多层图卷积神经网络,得到多阶邻居的关系:
[0164][0165]

[0166][0167]

[0168][0169]
其中,h
(1)
,h
(2)


,h
(l)
,h
(out)
为各层隐藏层节点特征,b
(in)
,...,b
(l)
,b
(out)
为各层的偏置值,y为输出数据,f(
·
)为softmax(
·
)函数。
[0170]
可选的,将多个图卷积网络层通过增强图卷积神经网络进行聚合,采用拼接聚合或注意力加权拼接聚合。
[0171]
可选的,确定模块220还用于:
[0172]
预处理基因数据,得到预处理后基因数据;
[0173]
根据预处理后基因数据,确定基因特征矩阵和基因邻接矩阵。
[0174]
本实施例提供的一种癌症组织分类装置,可以执行上述方法的实施例,其实现原理和技术效果类似,在此不再赘述。
[0175]
图3为本发明实施例提供的一种电子设备的结构示意图。如图3所示,示出了适于用来实现本技术实施例的电子设备300的结构示意图。
[0176]
如图3所示,电子设备300包括中央处理单元(cpu)301,其可以根据存储在只读存储器(rom)302中的程序或者从存储部分308加载到随机访问存储器(ram)303中的程序而执行各种适当的动作和处理。在ram 303中,还存储有设备300操作所需的各种程序和数据。cpu 301、rom 302以及ram 303通过总线304彼此相连。输入/输出(i/o)接口305也连接至总线304。
[0177]
以下部件连接至i/o接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至i/o接口306。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
[0178]
特别地,根据本公开的实施例,上文参考图1描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行上述癌症组织分类方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。
[0179]
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程
序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0180]
描述于本技术实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
[0181]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、笔记本电脑、行动电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0182]
作为另一方面,本技术还提供了一种存储介质,该存储介质可以是上述实施例中前述装置中所包含的存储介质;也可以是单独存在,未装配入设备中的存储介质。存储介质存储有一个或者一个以上程序,前述程序被一个或者一个以上的处理器用来执行描述于本技术的癌症组织分类方法。
[0183]
存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0184]
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0185]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

技术特征:
1.一种癌症组织分类方法,其特征在于,所述方法包括:获取待检组织集对应的基因数据;所述待检组织包括若干待检组织样本;根据所述基因数据,确定基因特征矩阵和基因邻接矩阵;将所述基因特征矩阵和所述基因邻接矩阵,输入图卷积神经网络,得到多个图卷积网络层;将所述多个图卷积网络层通过增强图卷积神经网络进行聚合,得到聚合结果;将所述聚合结果输入分类器进行分类,得到诊断结果。2.根据权利要求1所述的方法,其特征在于,所述基因数据包括基因表达谱数据及对应的基因关系网络数据;所述根据所述基因数据,确定基因特征矩阵和基因邻接矩阵,包括:根据所述基因表达谱数据,确定基因特征矩阵;根据所述基因关系网络数据,构建基因邻接矩阵。3.根据权利要求2所述的方法,其特征在于,每个所述待检组织样本包括若干特征,所有所述待检组织样本的特征构成特征矩阵;所述根据所述基因表达谱数据,确定基因特征矩阵,包括:归一化所述特征矩阵,得到稀疏矩阵;存储所述稀疏矩阵,得到所述基因特征矩阵。4.根据权利要求2所述的方法,其特征在于,所述基因关系网络数据包括网络节点和网络边,所述网络节点为基因特征,所述网络边表征所述网络节点之间的关系;根据所述基因关系网络数据,构建基因邻接矩阵,包括:根据所述网络节点和所述网络边,确定所述基因邻接矩阵。5.根据权利要求1-4任一项所述的方法,其特征在于,所述将所述基因特征矩阵和所述基因邻接矩阵,输入图卷积神经网络,得到多个图卷积网络层,包括:将所述基因邻接矩阵a通过拉普拉斯矩阵l=d-a进行变换,标准化后为:其中,i
n
为单位矩阵;使用重整化方法将转化为其中,其中,为对应的度矩阵;根据上述转换,得到所述图卷积神经网络的第l+1层隐藏层节点特征为:其中,σ为激活函数,b
(l)
为第l层的偏置值;令通过堆叠多层所述图卷积神经网络,得到多阶邻居的关系:
……
其中,h
(1)
,h
(2)
,...,h
(l)
,h
(out)
为各层隐藏层节点特征,b
(in)
,...,b
(l)
,b
(out)
为各层的偏置值,y为输出数据,f(
·
)为softmax(
·
)函数。6.根据权利要求1-4任一项所述的方法,其特征在于,所述将所述多个图卷积网络层通过增强图卷积神经网络进行聚合,采用拼接聚合或注意力加权拼接聚合。7.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述基因数据,确定基因特征矩阵和基因邻接矩阵,包括:预处理所述基因数据,得到预处理后基因数据;根据所述预处理后基因数据,确定所述基因特征矩阵和所述基因邻接矩阵。8.一种癌症组织分类装置,其特征在于,所述装置包括:获取模块,用于获取待检组织集对应的基因数据;所述待检组织包括若干待检组织样本;确定模块,用于根据所述基因数据,确定基因特征矩阵和基因邻接矩阵;处理模块,用于将所述基因特征矩阵和所述基因邻接矩阵,输入图卷积神经网络,得到多个图卷积网络层;聚合模块,用于将所述多个图卷积网络层通过增强图卷积神经网络进行聚合,得到聚合结果;分类模块,用于将所述聚合结果输入分类器进行分类,得到诊断结果。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的癌症组织分类方法。10.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的癌症组织分类方法。

技术总结
本发明提供一种癌症组织分类方法、装置、电子设备及存储介质,该方法包括:获取待检组织集对应的基因数据;待检组织包括若干待检组织样本;根据基因数据,确定基因特征矩阵和基因邻接矩阵;将基因特征矩阵和基因邻接矩阵,输入图卷积神经网络,得到多个图卷积网络层;将多个图卷积网络层通过增强图卷积神经网络进行聚合,得到聚合结果;将聚合结果输入分类器进行分类,得到诊断结果。该方案癌症组织分类准确率高。类准确率高。类准确率高。


技术研发人员:金鑫 张卓辉 杨虎
受保护的技术使用者:中央财经大学
技术研发日:2021.11.08
技术公布日:2022/3/7

最新回复(0)