一种基于CT影像学特征与非小细胞肺癌患者预后情况的相关性分析方法与流程

文档序号:17470278发布日期:2019-04-20 05:46阅读:285来源:国知局
一种基于CT影像学特征与非小细胞肺癌患者预后情况的相关性分析方法与流程

本发明涉及计算机辅助医学领域,涉及一种基于ct影像学特征与非小细胞肺癌患者预后情况的相关性分析方法。



背景技术:

世界卫生组织(who)国际癌症研究机构(iarc)近日发布最新报告称,肺癌是全球范围内发病率和死亡率增长最快的恶性肿瘤,预计2018年将造成180万人死亡,占预计癌症死亡总人数的18.4%。根据组织学类型分类,肺癌分为非小细胞肺癌与小细胞肺癌,其中,非小细胞肺癌(non-smallcelllungcancer,nsclc)占肺癌患病总人数的80%~85%,包括鳞状细胞癌(鳞癌)、腺癌、大细胞癌。非小细胞肺癌相较于小细胞肺癌,生长分裂较慢,扩散转移较晚,致死性也相对较弱,但由于不同非小细胞肺癌患者的病灶之间存在大量个体间差异,使得不同患者患癌预后病情的发展速度存在很大的差别。流行病学统计表明,大量的非小细胞肺癌患者由于未得到准确的病情发展预测而未能及时接受合适的治疗,使得该类肺癌患者的死亡率高达75%。因此,迫切需要有效的患者生存时间预测模型来对治疗和复查方案的选择进行辅助,以提高非小细胞肺癌的治疗效果,进而提高患者的治愈率和存活率。

放射组学是医学中的一个新兴领域,该技术的诞生与放射基因组学在疾病研究中的良好性能以及医学影像在疾病的诊断和治疗中的巨大潜力密不可分。放射组学通过特征提取,将肿瘤区域的信息映射到高维特征空间,接着通过机器学习的方法构建疾病的预后模型来对疾病的未来发展进行预测,从而对疾病的治疗和复查方案的选择进行指导。ct影像数据拥有采集便易和结果易于比对等特点,作为放射组学数据库中的重要模态之一,在放射组学研究中得到广泛的应用。

近年来,国内外针对计算机辅助诊断(computeraideddiagnosis,cad)技术和精准医疗(precisionmedicine)的研究越来越火热。cad技术和精准医疗均需借助影像学手段,通过提取大量影像学特征对肿瘤进行量化分析,从而达到辅助临床诊断的目的。而利用提取的影像学特征对患者预后生存情况进行相关性分析,构建预后评估模型预测患者的预后生存情况,从而更好的指导医生对患者的治疗和复查方法进行选择。

从目前的国内外研究现状来看,非小细胞癌预后分析的研究普遍从临床的角度出发,首先,根据病例样本的直观的临床特征(临床分期、吸烟史、有无脑转移、肿瘤标记物、医学征象等)作为病例样本的量化指标;然后,通过传统的统计学方法对临床特征与预后关系进行单因素生存分析,得到与患者预后相关的临床特征;最后,将单因素分析中与患者预后相关的临床特征代入cox回归模型进行多因素分析,得到非小细胞肺癌的预后因素,帮助医生根据预后因素对非小细胞肺癌患者进行更加精准的预后评估,设计出更好的治疗与复查方案,以延长患者生存时间。而这类方法也存在着局限性,所能利用的临床信息种类较少,且医学征象类的特征只表现出肿瘤区域的部分形态特性,而从影像学角度出发,可以得到数量更多且种类更为丰富的影像学特征,从而反映肿瘤更多的隐含信息,可以有效解决肿瘤异质性难以定量评估的问题。针对目前研究存在不足,本发明设计了新的肺癌预后研究方法,对非小细胞肺癌的预后生存状况进行分析探究,得出基于ct影像特征的非小细胞肺癌预后分析模型对患者的预后生存时间进行预测;同时,设计实验对实验方法进行验证,进而完善目前存在不足,获得更好的预后分析效果。



技术实现要素:

本发明的目的是针对现有研究中的不足,提出一种基于半自动分割提取的非小细胞肺癌ct影像特征与非小细胞肺癌患者预后情况的相关性分析方法。

为实现上述目的,本发明采用的技术方案包括以下步骤:

ct影像的处理、特征数据处理、影像特征与生存情况的关联分析和实验结果的验证分析。每部分的具体过程描述如下:

一.ct影像的处理:首先,通过交互式医学影像控制系统radiantviewer软件从ct影像中找到肿瘤并框选出其大致区域,得到肿瘤序列图像。然后,运用半自动分割方法分割出肿瘤,对不同类型的肿瘤采取不同的分割方案:(1)孤立型肿瘤:取灰度阈值分割算法和区域生长算法分割结果的交集;(2)粘连肺壁型肿瘤:首先,基于链码法与“滚球法”对肺区边缘进行修补。然后,参照孤立型肿瘤分割方法进一步分割,最后,检查上述分割结果,对过分割或欠分割情况进行人工修补;(3)粘连血管型肿瘤:首先,运用孤立型肿瘤分割方法得到图像。然后,采用“吹球法”与模糊c均值聚类的方法,并基于阈值得到二值图像,最终的分割结果取两者的交集。最后,检查上述分割结果,对过分割或仍有未去除血管的情况进行人工修正。在肿瘤区域分割的基础上,提取了包括灰度特征、形态特征、纹理特征、医学征象在内的258种定量特征来描述肿瘤;

二.特征数据处理:首先,由于机器学习所使用的数据正负样本不平衡会影响训练的模型性能,为了解决这一问题,本发明采用smote(syntheticminorityoversamplingtechnique)算法平衡正负样本;然后,为了探究ct影像学特征与患者预后生存情况之间的相关性,必须尽可能地多尺度多类别的提取肿瘤的定量指标,以避免造成信息的遗漏,导致分析结果不准确。而提取的特征维数太高经常会导致特征匹配过于复杂,消耗系统资源,而且绝大多数同类特征描述的是不同种类肿瘤之间的共性,还有一部分特征之间具有相关性,使用此类特征会造成大量冗余的计算。为得到性能良好的分类模型,需要对表征冗余信息的特征数据进行过滤,同时将具有类特异性的特征进行保留,因此,为得到性能良好的分类模型,需要对表征冗余信息的特征数据进行过滤,同时将具有类特异性的特征进行保留。所以,采用pca主成分分析(principalcomponentanalysis)的方法对提取到的特征数据进行降维、优化,减少冗余信息所造成的误差,提高分类模型的性能;最后,对特征数据进行归一化处理,将特征的取值区间缩放到[0,1]的范围;

三.影像特征与预后情况的关联分析:利用相关性分析算法分析影像特征与预后情况之间的相关性,以p<0.05为指标筛选出统计学上显著关联的影像特征和预后情况;

四.实验结果的验证分析:采取多种分类器建立影像学特征与病人预后生存情况的相关性模型,为了尽可能地构建一个性能最优的分类模型,本文通过大量的研究和测试,最终挑选了以下7种泛化能力强、可用于小样本数据集训练的代表性分类器,分别为决策树(decisiontree,dt)、鉴别分析分类器(discriminantanalysisclassifiers,dac)、逻辑回归分类器(logisticregression,lr)、支持向量机(supportvectormachine,svm)、k近邻分类器(k-nearestneighbor,knn)、集合分类器(ensembleclassifiers,ec),随机森林分类器(randomforest,rf)对数据进行分类和测试。以具有临床意义的3年生存期为分界进行二分类,从而预测出病人的预后情况,并以准确率(acc)、敏感性(se)、特异性(sp)、roc曲线下面积(auc)作为指标,使用十折交叉验证方法来验证预后分析模型的性能。

附图说明

图1为基于ct影像学特征与非小细胞肺癌患者预后情况的相关性分析方法的流程图。

表1为影像学特征。

表2为本发明实验结果与已有文献的实验结果的对照表

具体实施方式

下面结合说明书附图对本发明的具体实施方式作详细说明。

具体实现过程如下:

一.ct影像的处理:首先,通过交互式医学影像控制系统radiantviewer软件从ct影像中找到肿瘤并框选出其大致区域,得到肿瘤序列图像。然后,运用半自动分割方法分割出肿瘤,对不同类型的肿瘤采取不同的分割方案:(1)孤立型肿瘤:取灰度阈值分割算法和区域生长算法分割结果的交集;(2)粘连肺壁型肿瘤:首先,基于链码法与“滚球法”对肺区边缘进行修补。然后,参照孤立型肿瘤分割方法进一步分割,最后,检查上述分割结果,对过分割或欠分割情况进行人工修补;(3)粘连血管型肿瘤:首先,运用孤立型肿瘤分割方法得到图像。然后,采用“吹球法”与模糊c均值聚类的方法,并基于阈值得到二值图像,最终的分割结果取两者的交集。最后,检查上述分割结果,对过分割或仍有未去除血管的情况进行人工修正。在肿瘤区域分割的基础上,提取了包括灰度特征、形态特征、纹理特征、医学征象在内的258种定量特征来描述肿瘤;

二.特征数据处理:首先,由于机器学习所使用的数据正负样本不平衡会影响训练的模型性能,为了解决这一问题,采用smote(syntheticminorityoversamplingtechnique)算法平衡正负样本。smote算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中,实验流程如下所示:

1.对于少数类中每一个样本x,以欧氏距离为标准计算它到少数类样本集smin中所有样本的距离,得到其k近邻。

2.根据样本不平衡比例设置一个采样比例以确定采样倍率n,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn。

3.对于每一个随机选出的近邻xn,分别与原样本按照如下的公式构建新的样本xnew。

xnew=x+rand(0,1)×(x-xn)(1)

然后,为了探究ct影像学特征与患者预后生存情况之间的相关性联系,必须尽可能地多尺度多类别的提取肿瘤的定量指标,以避免造成信息的遗漏,导致分析结果不准确。而提取的特征维数太高经常会导致特征匹配时过于复杂,消耗系统资源,而且绝大多数同类特征描述的是不同种类肿瘤之间的共性,还有一部分特征之间具有相关性,使用此类特征会造成大量冗余的计算。因此,为得到性能良好的分类模型,需要对表征冗余信息的特征数据进行过滤,同时将具有类特异性的特征进行保留。所以,采用pca主成分分析(principalcomponentanalysis)的方法对提取到的特征数据进行降维、优化,减少冗余信息所造成的误差,提高分类模型的性能。最后,对特征数据进行归一化处理,将特征的取值区间缩放到[0,1]的范围;

pca主成分分析是一种较为常用的降维技术,其主要思想是找寻找一个超平面来对已有得样本进行合适的表达,使得已有样本投影在超平面上后,各样本点到这个超平面的距离都足够近。假设投影之后的新坐标为{w1,w2,w3···wd},其中的wi是标准正交基,d为原空间的维度,丢弃原有的部分坐标,将维度降低至d,原样本点xi在由{w1,w2,w3···wd}组成的空间中的投影是zi={zi1,zi2,zi3···zid'},此时有为xi在降维后的坐标系中的第j维坐标。设重构之后的xi为xi',则有则xi与xi'之间的距离为:

主成分分析的目标就是使tr(wtxxtw)尽可能的取得最小值。又由拉格朗日乘数法,有:

xxtw=λw(3)

其中λ为特征值,前d个最大的所对应的集合{w1,w2,w3···wd'}即为主成分分析的解。

pca具体的操作流程为:

1)去平均值,即每一位特征减去各自的平均值。

2)计算协方差矩阵。

3)计算协方差矩阵的特征值与特征向量。

4)对特征值从大到小排序。

5)保留最大的个特征向量。

6)将数据转换到个特征向量构建的新空间中。

最后,对特征数据进行归一化处理,将特征的取值区间缩放到[0,1]的范围;

三.影像特征与预后情况的关联分析:利用pearson相关性分析算法分析影像特征与预后情况之间的相关性,以p<0.05为指标筛选出统计学上显著关联的影像特征和预后情况;

四.实验结果的验证分析:采取多种分类器建立影像学特征与病人预后生存情况的相关性模型,为了尽可能地构建一个性能更优的分类模型,本文通过大量的研究和测试,最终挑选了以下7种泛化能力强、可用于小样本数据集训练的代表性分类器,分别为决策树(decisiontree,dt)、鉴别分析分类器(discriminantanalysisclassifiers,dac)、逻辑回归分类器(logisticregression,lr)、支持向量机(supportvectormachine,svm)、k近邻分类器(k-nearestneighbor,knn)、集合分类器(ensembleclassifiers,ec),随机森林分类器(randomforest,rf)对数据进行分类和测试。由临床研究表明,肺癌患者术后生存时间超过3年,复发几率将大大降低;生存时间超过5年,则可认定为痊愈,这类生存时间对临床医生设计患者治疗和复查方案的选择的辅助指导意义重大。故本发明以具有临床意义的3年生存期为分界进行二分类,从而预测出病人的预后情况,并以准确率(acc)、敏感性(se)、特异性(sp)、roc曲线下面积(auc)作为指标,使用十折交叉验证方法来验证预后分析模型的性能。

本发明设计实验对非小细胞肺癌患者进行预后分析研究,基于ct影像特征对非小细胞肺癌预后分析模型进行构建。按照传统放射组学研究框架,对非小细胞肺癌数据进行了半自动分割、特征提取、特征优化和分类器建模,并对预后分析模型的性能进行了评价。

将本发明算法与之前文献[1]《基于肺癌ct影像放射组学预后模型研究》和文献[2]《predictingoutcomesofnonsmallcelllungcancerusingctimagefeatures》提到的预后分析模型算法结果进行对比,以预测模型的准确率(acc)与roc曲线下面积(auc)作为算法评价指标,对比结果如表2所示。对比可见,本发明所用算法使用的特征提取类型,特征优化算法与预后分类模型的性能较之均有所提高。

表1

表2

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1