基于多组学特征的早期肺癌诊断系统、存储介质及设备

文档序号:33022221发布日期:2023-01-20 18:50阅读:28来源:国知局
1.本发明属于癌症诊断
技术领域
:,具体涉及一种早期肺癌诊断系统、存储介质及设备。
背景技术
::2.肺癌早期缺乏典型症状,肺癌的确诊往往根据临床症状、体征、影像学检查和组织病理学检查,由病理学医生判别。肺癌的早期诊断具有重要意义,在病变早期得到诊断和治疗,能获得最好的疗效,早期肺癌的治愈率远高于中晚期肺癌。卫健委建议40岁以上人群每年体检进行胸部x光片或ct检验,有助于检出早期肺癌。3.然而仅使用临床图像的早期肺癌筛查具有一定局限性,准确率也较低,诊断结果依赖于病理学医生的判断。对于中心型肺癌,痰细胞学可以有效检出脱落的癌细胞,具有取样容易,成本低廉的特点。近年来随着测序技术的发展,基因检测成本大幅度降低,为早期肺癌的检测提供了转录组学、基因组学、蛋白质组学等多个组学特征,从而产生了处理多组学数据的机器学习模型的需求,临床要求早期肺癌诊断辅助系统具有高效、准确、全面且高度生物解释性。技术实现要素:4.本发明为了解决仅使用临床图像的早期肺癌筛查存在准确率较低的问题。5.基于多组学特征的早期肺癌诊断系统,包括:神经网络预测单元、组学特征处理单元、分类器预测单元、集成学习自动权重平衡单元和早期肺癌诊断机器学习模型单元;6.神经网络预测单元:针对转化为矩阵形式的影像学数据,分别利用卷积神经网络cnn和深度神经网络dnn进行预测;7.组学特征处理单元:针对每个组学特征,利用图卷积网络得到全局基因关系矩阵的加权的特征矩阵,进而获得多组学特征8.利用图卷积网络得到全局基因关系矩阵的加权的特征矩阵,进而获得多组学特征的过程包括以下步骤:9.将基因调控作用网络、蛋白质关系网络和生物信号通路网络中基因集中的基因关系分别用矩阵mg、mp、ms表示,然后将mg、mp、ms取并集获取全局基因关系矩阵m;根据全局基因关系矩阵m得到对应的邻接矩阵a;a中元素aij=1代表基因i调控基因j,aij=0代表基因i不调控基因j;10.利用多层图卷积得到加权的特征矩阵,多层图卷积是指图卷积的计算深度,即迭代次数;将多层图卷积网络中每一层间的信息传播表示如下:[0011][0012]其中i表示单位矩阵,是的度矩阵,是对角矩阵,其对角线上元素通过计算得到;w是基因权值矩阵,初始化为所有基因权值相等;h(l)是每一层的特征,对于输入层h(l)就是要分析的组学特征fom,om代表组学;[0013]针对每个组学特征,把全局基因关系矩阵m的邻接矩阵a和初始权值w作为原始特征输入图卷积网络,经过3层迭代得到加权的特征矩阵om表示不同的组学;[0014]如果有多组学特征,把组学特征进行线性组合,如公式(5),然后把这个整合后的特征输入分类器单元;[0015][0016]其中,表示多组学中每个组学对应的加权的特征矩阵;||表示将有多组学特征进行线性组合;[0017]如果为单一组学时,即为对应的[0018]分类器预测单元:针对多组学数据分别使用svm-rbf,svm-poly和rf分类器进行预测;[0019]集成学习自动权重平衡单元:为cnn、dnn、svm-rbf、svm-poly、rf分配权重;[0020]早期肺癌诊断机器学习模型单元:根据分配权重的cnn、dnn、svm-rbf、svm-poly、rf对早期肺癌诊断结果进行投票,最终确定早期肺癌诊断结果。[0021]进一步地,所述系统还包括神经网络预测单元;数字图像处理单元将影像学数据转化为矩阵形式的影像学数据。[0022]进一步地,所述的卷积神经网络cnn包括:输入层、第一卷积层、第一池化层、第一残差模块、第二残差模块、第三残差模块、第四残差模块、第五残差模块、第二池化层、第一全连接层和输出层;每个残差模块包括两个卷积层;[0023]进一步地,所述的卷积神经网络cnn是使用公共数据库获取的肺癌影像学数据训练得到卷积神经网络cnn。[0024]进一步地,所述的深度神经网络dnn包括:输入层、第一hidden层、第二hidden层、第一卷积层、第二卷积层、第三卷积层、第一池化层、第一全连接层、第二全连接层、第三全连接层和输出层;[0025]其中,hidden表示隐层。[0026]进一步地,所述层图卷积网络每一层间的信息传播中的通过如下的dij替换得到:[0027][0028]其中,din代表节点的入度矩阵,入度是指向节点的边。[0029]进一步地,集成学习自动权重平衡单元为cnn、dnn、svm-rbf、svm-poly、rf分配权重的过程包括以下步骤:[0030]利用贝叶斯建模来推导联合多分类器权重,首先通过交叉熵计算单个分类器预测任务的预测损失然后将单个分类器预测任务的预测损失加权求和:[0031][0032]其中,为各个单个分类器预测损失,wω为各个单个分类器对应的权重,ω代表有ω个分类器,w1:ω表示所有分类器对用的权重;predω表示每个分类器的预测结果,pred1:ω为所有分类器的预测结果;2log(w1*…*wω)是惩罚项;[0033]训练过程中求令公式(7)在pred1:ω条件下使值最小的任务权重w1:ω,用梯度下降法求解公式(7),自动生成任务权重w1:ω。[0034]进一步地,分类器预测单元中的svm-rbf,svm-poly和rf分类器通过网格搜索法确定分类器的参数。[0035]一种计算机存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于多组学特征的早期肺癌诊断系统。[0036]一种基于多组学特征的早期肺癌诊断设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于多组学特征的早期肺癌诊断系统。[0037]有益效果:[0038]本发明的核心是使用影像学、放射组学得到的图像数据,使用基因组、转录组等数据,进行集成学习,可以有效提高早期肺癌诊断的准确率。利用本发明针对早期肺癌筛查可以极大地提高预测准确率。附图说明[0039]图1为本发明整体流程示意图。[0040]图2为图1中多组学特征示意图。[0041]图3为卷积神经网络cnn结构示意图。[0042]图4为深度神经网络dnn结构示意图。具体实施方式[0043]具体实施方式一:结合图1和图2说明本实施方式,[0044]本实施方式所述的基于多组学特征的早期肺癌诊断系统包括:[0045]数字图像处理单元:将影像学数据转化为矩阵形式的影像学数据;[0046]针对x光、ct等影像学、放射组学数据等影像学数据,首先把图像转化为矩阵形式,矩阵每一个元素对应图中相应位置的像素,元素的值对应像素的灰度值;[0047]对于彩色图像通过叠加三原色通道的方法得到对应的灰度值。[0048]数字图像具有平移不变性,即对于图像局部信息的处理与这部分信息所处图像上的位置无关,例如,使用卷积神经网络(cnn)模型判别组织切片中癌细胞时,与癌细胞所处位置无关,模型根据细胞形态等特征做出判别。[0049]神经网络预测单元:针对转化为矩阵形式的影像学数据,分别利用卷积神经网络cnn和深度神经网络dnn进行预测;[0050]将转化为矩阵形式的图像输入经过训练的卷积神经网络cnn;cnn结构如图3所示,其包括:输入层、第一卷积层、第一池化层、第一残差模块、第二残差模块、第三残差模块、第四残差模块、第五残差模块、第二池化层、第一全连接层和输出层;每个残差模块包括两个卷积层;[0051]第一卷积层(7*7,conv,64)、第一池化层(0.5),第一残差模块至第三残差模块的卷积层均为(3*3,conv,64);第五残差模块的卷积层均为(3*3,conv,128),第四残差模块的卷积层分别为(3*3,conv,128,0.5)、(3*3,conv,128,0.5),目的是为了使相加前后矩阵大小一致。第四残差模块的卷积层参数中的0.5为层间缩放参数,64=128*0.5。[0052]图2中各层含义如下:conv是卷积层,前面的数字是感知域,后面的数字是批尺寸;fc是全连接层,在整个卷积神经网络中起到“分类器”的作用;“+”是残差操作;“+’”是带卷积的残差操作,也就是为了使相加前后矩阵大小一致的残差模块;[0053]本发明使用公共数据库(https://www.cancerimagingarchive.net/collections/)获取的肺癌影像学数据,训练得到卷积神经网络cnn。[0054]将转化为矩阵形式的图像输入经过训练的深度神经网络dnn;dnn结构如图4所示,其包括输入层、第一hidden层、第二hidden层、第一卷积层、第二卷积层、第三卷积层、第一池化层、第一全连接层、第二全连接层、第三全连接层和输出层;[0055]其中,hidden是隐层;pool是池化层,可以降低数据体的空间尺寸,这样的话就能减少网络中参数的数量,使得计算资源耗费变少,也能有效控制过拟合;fc是全连接层,在整个神经网络中起到“分类器”的作用,经过fc层输出预测结果。[0056]组学特征处理单元:针对每个组学特征,利用图卷积网络得到全局基因关系矩阵的加权的特征矩阵,进而获得多组学特征[0057]癌症研究中的基因-基因调控网络、蛋白质-蛋白质互作网络(ppi)、生物分子信号通路(pathway)等知识网络属于拓扑图(topology)结构。[0058]拓扑图由节点(node)和边(edge)组成,连通节点的边表示节点间的关系,图中边可以有方向,当拓扑图中边均为无向边时,称这样的图为无向图,当拓扑图中边有方向时,称图为有向图,有向图也可以转化为矩阵形式,通常用方阵表示,矩阵中(i,j)值为节点i到节点j的关系系数,有向图的关系矩阵是对称矩阵,无向图的关系矩阵通常是不对称矩阵。[0059]拓扑图具有不规则数据结构,每个节点周围的拓扑结构互不相同,不具有平移不变性,这就使得传统卷积神经网络无法在无向图上应用,为了解决这一问题提出了新的概念,如图卷积网络(graphconvolutionalnetwork,gcn),被用于提取拓扑图的空间特征。[0060]图卷积网络的本质是基于拓扑结构的信息传播的谱卷积的一阶局部近似,多层图卷积网络(多层图卷积是指图卷积的计算深度,是迭代次数)中,每一层仅处理节点的一阶邻域信息,通过若干层的叠加实现多阶邻域的信息传播,每一层间的信息传播规则如下:[0061][0062]其中,a是基因关系网络连通矩阵,aij=1代表基因i调控基因j,aij=0代表基因i不调控基因j;w是基因权值矩阵,初始化为所有基因权值相等;h(l)是每一层的特征,对于输入层,h(l)就是要分析的组学特征fom,om代表组学;是的度矩阵,是对角矩阵,其对角线上元素通过计算。[0063]因为对的运算较复杂,为了简化信息传播运算,对于有向图进行如下改进,用公式(2)的dij取代(1)中的公式中din代表节点的入度矩阵,入度是指向节点的边(与入度对应的出度是节点发出的边,这里不用):[0064][0065]具体步骤如下:[0066]首先由先验知识建模得到公式(1)中的a矩阵(邻接矩阵)。对于基因调控作用网络,用拓扑结构ng-g(gene,regulation)表示,其中节点为基因,边为基因调控关系,是有向图;对于蛋白质关系网络,用拓扑结构np-p(protein,interaction)表示,其中节点为蛋白质,边为蛋白质互作关系,是无向图;对于生物信号通路用拓扑结构ns(signature,regulation),其中节点为生物信号,边为信号互作关系,是有向图。上述三种先验知识间具备如下关系:对于蛋白质互作网络中的每一个蛋白都由对应基因转录翻译产生,生物信号通路中节点包括且不限于基因和蛋白质信号。把上述先验知识表示为矩阵mg、mp、ms,全局基因关系矩阵m由mgmpms取并集获取。[0067]针对每个组学特征,把上述全局基因关系矩阵m的邻接矩阵a和初始权值w作为原始特征输入图卷积网络,经过3层迭代(层数过多会导致gcn性能下降),得到加权的特征矩阵om表示不同的组学;w(3)就是经过3层gcn迭代取得的特征权值。[0068]如果有多组学特征,把特征的线性组合,如公式(5),然后把这个整合后的特征输入分类器单元。[0069][0070]其中,表示多组学中每个组学对应的加权的特征矩阵;||表示将有多组学特征进行线性组合;[0071]如果为单一组学时,即为对应的[0072]分类器预测单元:针对多组学数据分别使用svm-rbf,svm-poly和rf分类器进行预测;[0073]上述分类器从scikit-leam(https://scikit-learn.org/stable/)包中获取。使用网格搜索法调整分类器参数。网格搜索(gridsearch)用于选取模型的最优超参数。获取最优超参数的方式可以绘制验证曲线,但是验证曲线只能每次获取一个最优超参数。如果多个超参数有很多排列组合的话,就可以使用网格搜索寻求最优超参数的组合。[0074]集成学习自动权重平衡单元:为cnn、dnn、svm-rbf、svm-poly、rf分配权重;[0075]集成学习涉及到整合多个分类任务,一种常见方法是对分类器结果进行加权求和,并通过为任务设置不同的权值,实现任务间协调。最简单的方法是将各个任务的权重设置相等,然而,平均权值方法只有在任务间不竞争时才有效,实际情况下由于分类器精度和先验知识利用能力不同等多个原因,会自然产生任务不平衡。因此本发明利用贝叶斯建模来推导联合多分类器权重,并通过贝叶斯任务权重学习器,自动实现任务之间的平衡。[0076]贝叶斯多任务权重学习器方法简述如下,通过多任务损失函数体现:[0077]定义多任务损失为总损失为各个单个分类器预测损失的加权(wω)和,ω代表有ω个分类器。[0078]通过公式(6)计算单个分类器预测任务的预测损失[0079][0080]其中,n是用于训练分类器权重的实例总数;[0081]公式(6)是一个概括的表示,可以把任何一个分类器对的预测代入。[0082]公式(7)是公式(6)的加权求和表示,包含使用的所有分类器的预测:[0083][0084]其中,yi是真实标签(tcga实例是有标签的实例,标签为肺癌的诊断“无肺癌”、“早期肺癌”、“中期肺癌”、“晚期肺癌”等,对其中有肺癌的记为1,无肺癌的记为0);是单个任务对于特征的预测结果(预测结果是[0,1]区间内的一个数值,越接近1代表有肺癌的可能性越高,越接近0代表无肺癌的可能性越高),虽然cnn和dnn并不是针对特征进行的预测,为了方便表示,将cnn和dnn的预测结果也用表示;[0085]同时需要说明的是:为了使多任务损失为权重系数不等于0,且正,采用平方作为分母的权重形式,以方便运算。[0086]需要说明的是,训练过程中存在“早期肺癌”、“中期肺癌”、“晚期肺癌”的标签,实际在在本发明的实际应用过程中也是会得到“早期肺癌”、“中期肺癌”、“晚期肺癌”结果。也就是说本发明实际上也可是可以对中期肺癌、晚期肺癌进行预测的。而在实际临床中,一般中期肺癌、晚期肺癌相对比较容易判断(图像中的特征非常明显),只是早期的肺癌不容易鉴别,准确率较低。因此本发明在训练过程中也准备了“中期肺癌”、“晚期肺癌”的标签。利用本发明对早期肺癌进行预测时可以极大地提升准确率。[0087]训练的目的是求令公式(7)在pred1:ω条件下使值最小的任务权重w1:ω,2log(w1*…*wω)是惩罚项,用梯度下降法求解公式(7),自动生成任务权重w1:ω。[0088]分类器结果如公式(8):[0089][0090]vote[·]是投票操作,对每个分类器的预测结果加权后进行投票,较多模型给出“有肺癌”时输出“有肺癌”结果,反之输出“无肺癌”结果。[0091]早期肺癌诊断机器学习模型单元:根据分配权重的cnn、dnn、svm-rbf、svm-poly、rf对早期肺癌诊断结果进行投票,最终确定早期肺癌诊断结果。[0092]具体实施方式二:[0093]本实施方式为一种计算机存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于多组学特征的早期肺癌诊断系统。[0094]应当理解,包括本发明描述的任何方法对应的可以被提供为计算机程序产品、软件或计算机化方法,其可以包括其上存储有指令的非暂时性机器可读介质,所述指令可以用于编程计算机系统,或其他电子装置。存储介质可以包括但不限于磁存储介质,光存储介质;磁光存储介质包括:只读存储器rom、随机存取存储器ram、可擦除可编程存储器(例如,eprom和eeprom)以及闪存层;或者适合于存储电子指令的其他类型的介质。[0095]具体实施方式三:[0096]本实施方式为基于多组学特征的早期肺癌诊断设备,所述设备包括处理器和存储器,应当理解,包括本发明描述的任何包括处理器和存储器的设备,设备还可以包括其他通过信号或指令进行显示、交互、处理、控制等以及其他功能的单元、模块;[0097]所述存储器中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现所述的基于多组学特征的早期肺癌诊断系统。[0098]本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1