一种对非小细胞肺癌预后生存情况的分析方法与流程

文档序号:17933846发布日期:2019-06-15 01:10阅读:292来源:国知局
一种对非小细胞肺癌预后生存情况的分析方法与流程

本发明涉及计算机辅助医学技术领域,尤其涉及一种对非小细胞肺癌预后生存情况的分析方法。



背景技术:

世界卫生组织(who)国际癌症研究机构(iarc)近日发布最新报告称,肺癌是全球范围内发病率和死亡率增长最快的恶性肿瘤,预计2018年将造成180万人死亡,占预计癌症死亡总人数的18.4%。根据组织学类型分类,肺癌分为非小细胞肺癌与小细胞肺癌,其中,非小细胞肺癌(non-smallcelllungcancer,nsclc)占肺癌患病总人数的80%~85%,包括鳞状细胞癌(鳞癌)、腺癌、大细胞癌。非小细胞肺癌相较于小细胞肺癌,生长分裂较慢,扩散转移较晚,致死性也相对较弱,但由于不同非小细胞肺癌患者的病灶之间存在大量个体间差异,使得不同患者患癌预后病情的发展速度存在很大的差别。流行病学统计表明,大量的非小细胞肺癌患者由于未得到准确的病情发展预测而未能及时接受合适的治疗,使得该类肺癌患者的死亡率高达75%。因此,迫切需要有效的患者生存时间预测模型来对治疗和复查方案的选择进行辅助,以提高非小细胞肺癌的治疗效果,进而提高患者的治愈率和存活率。

影像组学是医学中的一个新兴领域,该技术的诞生与影像基因组学在疾病研究中的良好性能以及医学影像在疾病的诊断和治疗中的巨大潜力密不可分。放射组学通过特征提取,将肿瘤区域的信息映射到高维特征空间,接着通过机器学习的方法构建疾病的预后模型来对疾病的未来发展进行预测,从而对疾病的治疗和复查方案的选择进行指导。ct影像数据拥有采集便易和结果易于比对等特点,作为影像组学数据库中的重要模态之一,在影像组学研究中得到广泛的应用。

近年来,国内外针对计算机辅助诊断(computeraideddiagnosis,cad)技术和精准医疗(precisionmedicine)的研究越来越火热。cad技术和精准医疗均需借助影像组学手段,通过提取大量影像组学特征对肿瘤进行量化分析,从而达到辅助临床诊断的目的。而利用提取的影像组学特征对患者预后生存情况进行相关性分析,构建预后评估模型预测患者的预后生存情况,从而更好的指导医生对患者的治疗和复查方法进行选择。

从目前的国内外研究现状来看,非小细胞癌预后分析的研究普遍从临床的角度出发,首先,根据病例样本的直观的临床特征(临床分期、吸烟史、有无脑转移、肿瘤标记物、医学征象等)作为病例样本的量化指标;然后,通过传统的统计学方法对临床特征与预后关系进行单因素生存分析,得到与患者预后相关的临床特征;最后,将单因素分析中与患者预后相关的临床特征代入cox回归模型进行多因素分析,得到非小细胞肺癌的预后因素,帮助医生根据预后因素对非小细胞肺癌患者进行更加精准的预后评估,设计出更好的治疗与复查方案,以延长患者生存时间。而这类方法也存在着局限性,所能利用的临床信息种类较少,且医学征象类的特征只表现出肿瘤区域的部分形态特性,而从影像组学角度出发,可以得到数量更多且种类更为丰富的影像组学特征,从而反映肿瘤更多的隐含信息,可以有效解决肿瘤异质性难以定量评估的问题。针对目前研究存在不足,本发明设计了新的肺癌预后研究方法,对非小细胞肺癌的预后生存状况进行分析探究,得出基于ct影像特征的非小细胞肺癌预后分析模型对患者的预后生存时间进行预测;同时,设计实验对实验方法进行验证,进而完善目前存在不足,获得更好的预后分析效果。



技术实现要素:

本发明的目的在于提出一种对非小细胞肺癌预后生存情况的分析方法,从而实现对患者的预后生存时间进行预测。

为达到上述目的,本发明提出一种对非小细胞肺癌预后生存情况的分析方法,包括以下步骤:

步骤1:ct影像处理;

步骤1.1:对非小细胞肺癌患者的肺部ct序列进行肺实质粗分割,并且对分割后的肺实质边缘进行修补;

步骤1.2:对粗切割后的所述肺实质进行精分割;

步骤1.3:对精切割后的所述肺实质中的肺部肿瘤进行检测;

步骤1.4:对检测出的所述肺部肿瘤进行精分割并且人工修正;

步骤1.5:在上述步骤中,同时提取用于描述肿瘤的相应的定量特征;

步骤2:特征数据处理;

步骤2.1:对所述定量特征的特征数据进行归一化处理;

步骤2.2:平衡所述特征数据集正负样本数量;

步骤2.3:筛选出权重值最高的前十个定量特征;

步骤3:影像组学特征与预后生存情况的关联分析:

步骤3.1:筛选出与预后生存情况显著关联的影像组学特征;

步骤3.2:将步骤2.3中筛选出的所述定量特征与步骤3.1中所述影像组学特征的交集作为影像组学预后因素;

步骤4:预后生存模型的建立;

步骤4.1:以非小细胞肺癌患者的截止生存时间为因变量,以所述影像组学预后因素为自变量,建立预后生存模型;

步骤4.2:评估所述预后生存模型的性能。

优选的,在步骤1.1中,利用“阈值法”对非小细胞肺癌患者的肺部ct序列进行肺实质粗分割,同时利用“链码法”对肺部边缘进行修补;

在步骤1.2中,利用“区域生长法”对粗切割后的所述肺实质进行精分割,去除气管,支气管的干扰;

在步骤1.3中,运用“高斯模板匹配法”与“hessian矩阵边缘点检测”相结合的方法对精切割后的所述肺实质中的肺部肿瘤进行检测,剔除血管区域的干扰;

在步骤1.5中,对过分割和欠分割的所述肺部肿瘤进行人工修正。

优选的,在步骤2.1中,所述归一化处理为将所述定量特征的所述特征数据的取值区间缩放到[0,1];

在步骤2.2中,利用“smote算法”平衡所述特征数据集正负样本数量;

在步骤2.3中,利用“relief特征权重算法”对所述特征数据进行筛选,筛选出权重值最高的前十个定量特征。

优选的,在步骤3.1中,利用spearman相关系数分析影像组学特征与预后生存情况之间的相关性,以p<0.05为指标筛选出统计学上与预后生存情况显著关联的影像组学特征。

优选的,在步骤4.1中,采用lasso回归拟合广义线性模型建立基于影像组学特征的预后生存模型;

在步骤4.2中,设计实验以平均绝对值误差、均方误差、r平方值作为评价指标,评估所述预后生存模型的性能。

优选的,选取124例非小细胞肺癌患者进行检测。

优选的,在步骤1.5中,提取用于描述肿瘤的相应的256个定量特征。

优选的,所述定量特征包括影像组学特征和患者临床信息。

优选的,在步骤1.4中,针对不同类型的肿瘤采取不同的精分割方案:(1)孤立型肿瘤:利用“模糊c均值聚类的方法”进行分割,得到肿瘤的二值掩模,然后通过与原图像相乘,得到分割后的肿瘤结果;(2)磨玻璃型肿瘤:通过“滤波增强法”增强磨玻璃型肿瘤的灰度值后,提高肿瘤与周围区域的对比度,然后利用聚类的方法分割出磨玻璃型肿瘤。

优选的,所述“smote算法”的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中,实验流程如下所示:

(1).对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集smin中所有样本的距离,得到其k近邻。

(2).根据样本不平衡比例设置一个采样比例以确定采样倍率n,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn。

(3).对于每一个随机选出的近邻xn,分别与原样本按照如下的公式构建新的样本xnew;

xnew=x+rand(0,1)×(x-xn)

所述“relief特征权重算法”是一种特征加权算法,根据每个定量特征和类别的相关性为特征分配不同的权重,重量小于某个阈值的功能将被删除,“relief特征权重算法”中定量特征和类别的相关性基于特征区分近距离样本的能力,该算法从训练集d中随机选择样本r,然后从相同类型r的样本中搜索最近邻样本h,称为nearhit,并从不同r类型的样本中找到最近邻样本m,称为nearmiss,然后根据以下规则更新每个定量特征的权重:如果特征上的r与近点击之间的距离小于r与近距离之间的距离,则表示所述定量特征有利于区分最近的相同类型和不同类别的邻居,然后增加定量特征的权重;相反,如果r和nearhit之间的距离大于r和nearmiss之间的距离,表明该定量特征对区分相同类型和不同类别的最近邻居具有负面影响,则该定量特征的权重减小;重复上述过程m次,最后得到每个定量特征的平均重量,定量特征的权重越大,定量特征的分类能力越强,对定量特征进行分类的能力越弱,具体算法伪代码如下所示:

设训练数据集d,样本抽样次数m,特征权重分阈值为g,输出的是各特征的权重t:

(1).置0所有特征权重,t为空集;

(2).fori=1tom

1)随机选择一个样本r;

2)从同类样本集中找到r的最近邻样本h,从不同类样本集中找到最近邻样本m;

3)fora=1ton

w(a)=w(a)-diff(a,r,h)/m+diff(a,r,m)/m

(3).fora=1ton

ifw(a)≥g

把第a个特征添加到t中

end。

与现有技术相比,本发明的优势之处在于:本发明设计实验对非小细胞肺癌患者进行预后生存分析研究,基于ct影像组学特征对非小细胞肺癌预后分析模型进行构建,按照传统影像组学研究框架,对非小细胞肺癌患者进行了肿瘤的分割、特征提取、特征筛选、影像组学特征与预后生存情况的相关性分析和预后生存分析模型建模,得到与非小细胞肺癌患者预后生存显著性相关的影像组学预后因素,从而为医生提供病人包括存活时间以及一系列后期病灶发展情况的数据信息,同时,对得到的预后生存模型的性能进行了评价,保证了预后生存模型的准确性。

附图说明

图1为本发明一实施例中对非小细胞肺癌预后生存情况的分析方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案作进一步地说明。

如图1所示,本发明提出一种对非小细胞肺癌预后生存情况的分析方法,包括以下步骤:

步骤1:ct影像处理;

步骤1.1:利用“阈值法”对选取124例非小细胞肺癌患者的肺部ct序列进行肺实质粗分割,同时利用“链码法”对分割后的肺实质边缘进行修补;

步骤1.2:利用“区域生长法”对粗切割后的肺实质进行精分割,去除气管,支气管的干扰;

步骤1.3:运用“高斯模板匹配法”与“hessian矩阵边缘点检测”相结合的方法对精切割后的肺实质中的肺部肿瘤进行检测,剔除血管区域的干扰;

步骤1.4:对检测出的肺部肿瘤进行精分割,针对不同类型的肿瘤采取不同的精分割方案:(1)孤立型肿瘤:利用“模糊c均值聚类的方法”进行分割,得到肿瘤的二值掩模,然后通过与原图像相乘,得到分割后的肿瘤结果;(2)磨玻璃型肿瘤:通过“滤波增强法”增强磨玻璃型肿瘤的灰度值后,提高肿瘤与周围区域的对比度,然后利用聚类的方法分割出磨玻璃型肿瘤;对过分割和欠分割的所述肺部肿瘤进行人工修正。

步骤1.5:在上述步骤中,同时提取提取用于描述肿瘤的相应的256个定量特征,如表1所示;

步骤2:特征数据处理;

步骤2.1:对定量特征的特征数据进行归一化处理,归一化处理为将定量特征的特征数据的取值区间缩放到[0,1];

步骤2.2:利用“smote算法”平衡特征数据集正负样本数量;

“smote算法”的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中,实验流程如下所示:

(1).对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集smin中所有样本的距离,得到其k近邻。

(2).根据样本不平衡比例设置一个采样比例以确定采样倍率n,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn。

(3).对于每一个随机选出的近邻xn,分别与原样本按照如下的公式构建新的样本xnew;

xnew=x+rand(0,1)×(x-xn)

步骤2.3:利用“relief特征权重算法”对特征数据进行筛选,筛选出权重值最高的前十个定量特征;

“relief特征权重算法”是一种特征加权算法,根据每个定量特征和类别的相关性为特征分配不同的权重,重量小于某个阈值的功能将被删除,“relief特征权重算法”中定量特征和类别的相关性基于特征区分近距离样本的能力,该算法从训练集d中随机选择样本r,然后从相同类型r的样本中搜索最近邻样本h,称为nearhit,并从不同r类型的样本中找到最近邻样本m,称为nearmiss,然后根据以下规则更新每个定量特征的权重:如果特征上的r与近点击之间的距离小于r与近距离之间的距离,则表示定量特征有利于区分最近的相同类型和不同类别的邻居,然后增加定量特征的权重;相反,如果r和nearhit之间的距离大于r和nearmiss之间的距离,表明该定量特征对区分相同类型和不同类别的最近邻居具有负面影响,则该定量特征的权重减小;重复上述过程m次,最后得到每个定量特征的平均重量,定量特征的权重越大,定量特征的分类能力越强,对定量特征进行分类的能力越弱,具体算法伪代码如下所示:

设训练数据集d,样本抽样次数m,特征权重分阈值为g,输出的是各特征的权重t:

(1).置0所有特征权重,t为空集;

(2).fori=1tom

1)随机选择一个样本r;

2)从同类样本集中找到r的最近邻样本h,从不同类样本集中找到最近邻样本m;

3)fora=1ton

w(a)=w(a)-diff(a,r,h)/m+diff(a,r,m)/m

(3).fora=1ton

ifw(a)≥g

把第a个特征添加到t中

end。

步骤3:影像组学特征与预后生存情况的关联分析:

步骤3.1:利用spearman相关系数分析影像组学特征与预后生存情况之间的相关性,以p<0.05为指标筛选出统计学上与预后生存情况显著关联的影像组学特征;其中,p值是指在一个概率模型中,统计摘要(如两组样本均值差)与实际观测数据相同,或甚至更大这一事件发生的概率;是检验假设零假设成立或表现更严重的可能性。p值若与选定显著性水平(0.05或0.01)相比更小,则零假设会被否定而不可接受,然而这并不直接表明原假设正确。p值是一个服从正态分布的随机变量,在实际使用中因样本等各种因素存在不确定性;产生的结果可能会带来争议,一般统计学计算的模型的p值小于0.05,才具有统计学意义,否则模型无效。

步骤3.2:将步骤2.3中筛选出的定量特征与步骤3.1中影像组学特征的交集作为影像组学预后因素;

步骤4:预后生存模型的建立;

步骤4.1:以非小细胞肺癌患者的截止生存时间为因变量,以影像组学预后因素为自变量,采用lasso回归拟合广义线性模型建立基于影像组学特征的预后生存模型;

步骤4.2:设计实验以平均绝对值误差(meanabsoluteerror、mae))、均方误差(meansquareerror、mse)、r平方值(r-squared)作为评价指标,评估预后生存模型的性能。

在本实施例中,本发明设计实验对非小细胞肺癌患者进行预后生存分析研究,基于ct影像组学特征对非小细胞肺癌预后分析模型进行构建,按照传统影像组学研究框架,对非小细胞肺癌患者进行了肿瘤的分割、特征提取、特征筛选、影像组学特征与预后生存情况的相关性分析和预后生存分析模型建模,得到与非小细胞肺癌患者预后生存显著性相关的影像组学预后因素,从而为医生提供病人包括存活时间以及一系列后期病灶发展情况的数据信息,同时,对得到的预后生存模型的性能进行了评价,保证了预后生存模型的准确性。

表1

上述仅为本发明的优选实施例而已,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1