基于深度学习的肿瘤早期筛查方法、装置、设备及介质与流程

文档序号:15216882发布日期:2018-08-21 16:57阅读:726来源:国知局

本发明计算机医疗技术领域,尤其涉及一种基于深度学习的肿瘤早期筛查方法、装置、终端设备及计算机可读存储介质。



背景技术:

现有针对肿瘤早期筛查的技术包括:血清学肿瘤标志物(如胚胎性抗原、肿瘤抗原、酶和同工酶、血浆蛋白、细胞代谢产物、异位激素、癌基因和抑癌基因蛋白产物及某些微量元素等)、影像学(如超声、ct、mri、pet、pet-ct)、循环肿瘤细胞(ctc)和循环肿瘤dna(ctdna)检测等。

在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:

血清学肿瘤标志物解决方案是目前较为普及的方案,对特定区域人群的肿瘤普查及高危人群进行定期的肿瘤排除和筛查有提示性作用。单个肿瘤标志物的检测敏感性低,多个肿瘤标志物联合检测虽提高了敏感性,却降低了特异性。因此需权衡两个指标的前提下选定肿瘤标志物。此外,人体在良性疾病、生理变化时会引起肿瘤标志物表达增加。如妊娠时甲胎蛋白(afp)、糖类抗原125(ca125)、人绒毛膜促性腺激素含量升高。而afp是原发性肝癌的高特异性和高灵敏度的肿瘤标志物,ca125是卵巢癌标志物。

影像学方法筛查主要用于中晚期肿瘤的诊断,对部分早癌的发现有一定效果,虽然其可快速定位肿块位置,但服用放射性示踪剂存在较大副作用,且不能发现癌前病变,不能鉴别肿瘤快的良恶性程度等。以ct为例,ct扫描筛查是一个耗时、费用高的方案,且其对肠胃系统的诊断存在缺陷,受肠壁薄、呼吸道内气体、消化液及食物残渣等的影像,筛查早期肿瘤尤其困难。mri检查效率低、定性诊断困难、且对钙化病灶显示不敏感。pet-ct须使用微量放射性同位素,造成体内会有少许的残留,且诊疗费用极高。



技术实现要素:

针对上述问题,本发明的目的在于提供一种基于深度学习的肿瘤早期筛查方法、装置、终端设备及计算机可读存储介质,成本低,周期短,适用于各类人群。

第一方面,本发明实施例提供了一种基于深度学习的肿瘤早期筛选方法,包括以下步骤:

获取通过基因测序的样本的基因序列;

对所述基因序列进行数据分析,以获取目的基因的有效表达水平;

根据所述目的基因的表达水平,通过肿瘤分类模型对所述样本的类别属性进行预测;

获取各个类别属性的概率,以根据概率最大的类别属性生成疾病风险建议。

在第一方面的第一种实现方式中,所述基因测序包括rna-seq测序及qpcr测序。

在第一方面的第二种实现方式中,所述对所述基因序列进行数据分析,以获取目的基因的有效表达水平,具体为:

对所述基因序列进行预处理,以获取预处理后的基因序列的表达水平;其中,所述预处理包括数据格式转换、清洗、缺失值分析及离群值分析;

通过特征选择算法对所述基因序列的表达水平进行特征选择,以获取目的基因的有效表达水平;其中,所述目的基因的特征基因数目小于200,所述特征选择算法包括皮尔森相关系数矩阵及卡方检验。

在第一方面的第三种实现方式中,

通过支持向量机算法、朴素贝叶斯算法或者堆叠去噪自编码器算法构建所述肿瘤分类综合模型。

第二方面,本发明实施例提供了一种基于深度学习的肿瘤早期筛选装置,包括:

基因序列获取单元,用于获取通过基因测序的样本的基因序列;

数据分析单元,用于对所述基因序列进行数据分析,以获取目的基因的有效表达水平;

模型预测单元,用于根据所述目的基因的表达水平,通过肿瘤分类模型对所述样本的类别属性进行预测;

结果生成单元,用于获取各个类别属性的概率,以根据概率最大的类别属性生成疾病风险建议。

在第二方面的第一种实现方式中,所述基因测序包括rna-seq测序及qpcr测序。

在第二方面的第二种实现方式中,所述数据分析单元,具体包括:

预处理模块,用于对所述基因序列进行预处理,以获取预处理后的基因序列的表达水平;其中,所述预处理包括数据格式转换、清洗、缺失值分析及离群值分析;

特征选择模块,用于通过特征选择算法对所述基因序列的表达水平进行特征选择,以获取目的基因的有效表达水平;其中,所述目的基因的特征基因数目小于200,所述特征选择算法包括皮尔森相关系数矩阵及卡方检验。

在第二方面的第三种实现方式中,通过支持向量机算法、朴素贝叶斯算法或者堆叠去噪自编码器算法构建所述肿瘤分类综合模型。

第三方面,本发明实施例提供了一种基于深度学习的肿瘤早期筛选终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述中任意一项所述的基于深度学习的肿瘤早期筛选方法。

第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述中任意一项所述的基于深度学习的肿瘤早期筛选方法。

本发明实施例提供了一种基于深度学习的肿瘤早期筛查方法、装置、终端设备及计算机可读存储介质,其一个实施例具有如下有益效果:

首先获取通过基因测序的样本的基因序列,然后对所述基因序列进行数据分析,以获取目的基因的有效表达水平,根据所述目的基因的表达水平,通过肿瘤分类模型对所述样本的类别属性进行预测,最后获取各个类别属性的概率,以根据概率最大的类别属性生成疾病风险建议,利用基因序列结合深度学习技术,缩小目标基因范围,高效率快速检测样本,周期短,且可以实现批量检测,降低早期筛查的成本,适用于各类人群,且可适用于不同类型的肿瘤筛查,扩展性强。

附图说明

为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供了基于深度学习的肿瘤早期筛选方法的流程示意图。

图2是本发明第三实施例提供了基于深度学习的肿瘤早期筛选装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明第一实施例提供了一种基于深度学习的肿瘤早期筛选方法,其可由终端设备来执行,并包括以下步骤:

s11,获取通过基因测序的样本的基因序列。

在本发明实施例中,所述终端设备可为桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。

在本发明实施例中,因为每一种疾病(癌症)都有其相关的基因,因此能做到高特异性和高敏感性,基因测序技术只需要获取如血液或者唾液样品即可做到基因测序,是一个无创的检测过程,所述基因测序包括rna-seq测序及qpcr测序。rna-seq即转录组测序技术,就是把mrna,smallrna,non-codingrna等或者其中一些用高通量测序技术把他们的序列测出来,反应它们的表达水平;所述qpcr(real-timequantitativepcr)即实时荧光定量核酸扩增检测系统,也叫实时定量基因扩增荧光检测系统;所述终端设备获取通过rna-seq测序或者qpcr测序的样本的基因序列;基因序列,即基因表达谱,指通过构建处于某一特定状态下的细胞或组织的非偏性cdna文库,大规模cdna测序,收集cdna序列片段,定性、定量分析其mrna群体组成,从而描绘该特定细胞或组织在特定状态下的基因表达种类和丰度信息,这样编制成的数据表就称为基因表达谱。

s12,对所述基因序列进行数据分析,以获取目的基因的有效表达水平。

在本发明实施例中,已知的人体基因数量大概有3.5万个左右,每一种癌症的发生都与特定的信息基因存在相关性,基因在不同器官、组织的表达存在差异,所述终端设备对所述基因序列进行预处理,以获取预处理后的基因序列的表达水平;其中,所述预处理包括数据格式转换、清洗、缺失值分析及离群值分析,再通过特征选择算法对所述基因序列的表达水平进行特征选择,以获取目的基因的有效表达水平,具体的,为获取目的基因的表达水平提供两种方式,第一种方式,所述终端设备通过皮尔森相关系数矩阵对所述基因序列的表达水平进行特征选择,以获取目的基因的有效表达水平,所述目的基因的特征基因数目小于200,皮尔森相关系数(pearsoncorrelationcoefficient)也称皮尔森积矩相关系数(pearsonproduct-momentcorrelationcoefficient),是一种线性相关系数,皮尔森相关系数是用来反映两个变量线性相关程度的统计量,相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值,r描述的是两个变量间线性相关强弱的程度,r的绝对值越大表明相关性越强;第二种方式,所述终端设备通过卡方检验对所述基因序列的表达水平进行特征选择,以获取目的基因的有效表达水平,所述目的基因的特征基因数目小于200,卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。所述终端设备通过皮尔森相关系数矩阵或者卡方检验,缩小目标基因范围,从而降低测序成本。

s13,根据所述目的基因的表达水平,通过肿瘤分类模型对所述样本的类别属性进行预测。

在本发明实施例中,所述终端设备通过对所述目的基因的表达水平进行数据格式转换,转换成符合肿瘤分类模型的测试集数据格式,根据转换后的目的基因的表达水平,通过所述肿瘤分类模型对所述样本的类别属性进行预测,所述样本类别属性表征肿瘤的各个阶段。

s14,获取各个类别属性的概率,以根据概率最大的类别属性生成疾病风险建议。

在本发明实施例中,所述终端设备获取测试获得各个类别属性的概率,取概率最大者为该样本的可能属性,给出疾病风险建议,对测定的基因表达水平可快速检测,在毫秒级别生即可生成针对待检样本的风险建议,速度快,基因检测是在人体还未发病时,从遗传层面上分析患病风险,是主动性的预防疾病的发生。

综上所述,本发明第一实施例提供了一种基于深度学习的肿瘤早期筛选方法,首先获取通过基因测序的样本的基因序列,然后对所述基因序列进行数据分析,以获取目的基因的表达水平,根据所述目的基因的有效表达水平,通过肿瘤分类模型对所述样本的类别属性进行预测,最后获取各个类别属性的概率,以根据概率最大的类别属性生成疾病风险建议,利用基因序列结合深度学习技术,缩小目标基因范围,高效率快速检测样本,周期短,且可以实现批量检测,降低早期筛查的成本,适用于各类人群,且可适用于不同类型的肿瘤筛查,扩展性强。

为了便于对本发明的理解,下面将对本发明的一些优选实施例做更进一步的描述。

本发明第二实施例:

在本发明第一实施例的基础上,通过支持向量机算法、朴素贝叶斯算法或者堆叠去噪自编码器算法构建所述肿瘤分类综合模型。

在本发明实施例中,通过支持向量机算法构建所述肿瘤分类模型,支持向量机(supportvectormachine,svm)的主要思想是:建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力,对于一个多维的样本集,所述终端设备随机产生一个超平面并不断移动,对样本进行分类,直到训练样本中属于不同类别的样本点正好位于该超平面的两侧,满足该条件的超平面可能有很多个,svm正式在保证分类精度的同时,寻找到这样一个超平面,使得超平面两侧的空白区域最大化,从而实现对线性可分样本的最优分类。

在本发明实施例中,通过朴素贝叶斯算法构建所述肿瘤分类模型,朴素贝叶斯算法所需估计的参数很少,对缺失数据不太敏感,算法也比较简单,与其他分类方法相比具有最小的误差率。

在本发明实施例中,通过堆叠降噪自编码器算法构建所述肿瘤分类模型,堆叠降噪自动编码器(stackeddenoisingautoencoders,sdae)把降噪作为网络学习准则,训练时可在输入信号中加入不同类型、不同强度的噪声,因此其编码过程具有良好的稳定性和鲁棒性,在特征提取和模式识别领域表现出了超越其它结构的特性。

请参阅图2,本发明第三实施例提供了一种基于深度学习的肿瘤早期筛选装置,包括:

基因序列获取单元11,用于获取通过基因测序的样本的基因序列。

数据分析单元12,用于对所述基因序列进行数据分析,以获取目的基因的有效表达水平。

模型预测单元13,用于根据所述目的基因的表达水平,通过肿瘤分类模型对所述样本的类别属性进行预测。

结果生成单元14,用于获取各个类别属性的概率,以根据概率最大的类别属性生成疾病风险建议。

在第三实施例的第一种实现方式中,所述基因测序包括rna-seq测序及qpcr测序。

在第三实施例的第二种实现方式中,所述数据分析单元12,具体包括:

预处理模块,用于对所述基因序列进行预处理,以获取预处理后的基因序列的表达水平;其中,所述预处理包括数据格式转换、清洗、缺失值分析及离群值分析。

特征选择模块,用于通过特征选择算法对所述基因序列的表达水平进行特征选择,以获取目的基因的有效表达水平;其中,所述目的基因的特征基因数目小于200,所述特征选择算法包括皮尔森相关系数矩阵及卡方检验。

在第三实施例的第三种实现方式中,通过支持向量机算法、朴素贝叶斯算法或者堆叠去噪自编码器算法构建所述肿瘤分类综合模型。

本发明第四实施例提供了一种基于深度学习的肿瘤早期筛选终端设备。该实施例的基于深度学习的肿瘤早期筛选终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如基于深度学习的肿瘤早期筛选程序。所述处理器执行所述计算机程序时实现上述各个基于深度学习的肿瘤早期筛选方法实施例中的步骤,例如图1所示的步骤s11。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如数据分析单元。

示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述基于深度学习的肿瘤早期筛选终端设备中的执行过程。

所述基于深度学习的肿瘤早期筛选终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于深度学习的肿瘤早期筛选终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述部件仅仅是基于深度学习的肿瘤早期筛选终端设备的示例,并不构成对基于深度学习的肿瘤早期筛选终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述基于深度学习的肿瘤早期筛选终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述基于深度学习的肿瘤早期筛选终端设备的控制中心,利用各种接口和线路连接整个基于深度学习的肿瘤早期筛选终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述基于深度学习的肿瘤早期筛选终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中,所述基于深度学习的肿瘤早期筛选终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1