一种基于CC-注意力机制的影像组学特征筛选方法

文档序号:26551419发布日期:2021-09-08 00:21阅读:410来源:国知局
一种基于CC-注意力机制的影像组学特征筛选方法
一种基于cc

注意力机制的影像组学特征筛选方法
技术领域
1.本发明涉及计算机辅助相关性分析技术领域,具体地说是一种基于cc

注意力机制的影像组学特征筛选方法。


背景技术:

2.结直肠癌(colorectal carcinoma,crc)是第三大最常见的恶性肿瘤,也是死亡率第二高的癌症。20%的结直肠癌患者在诊断时已经有肝转移,高达50%的患者将在头三年内发生肝转移,转移的发生率因年龄、性别和不同的原发性结直肠癌部位而异。分化程度差、淋巴节转移、转移器官不同、癌胚抗原较高与这四种远处转移呈正相关。根据微卫星不稳定性的频率,可分为三种类型:微卫星高度不稳定性(microsatellite instability

high,msi

h)、微卫星低度不稳定性(microsatellite instability

low,msi

l)和微卫星稳定性(microsatellite stability,mss)。在结直肠癌中,约15%至20%的结直肠癌病例被发现与msi

h相关。事实上,早期结直肠癌和msi

h患者的总体生存率更高,复发机会更低。
3.影像组学这一新兴方向在肿瘤领域的研究发展迅速,强调的深层次含义是指从影像中高通量地提取大量影像信息,实现肿瘤分割、特征提取与模型建立,凭借对海量影像数据信息进行更深层次的挖掘、预测和分析来辅助医师做出最准确的诊断。
4.结直肠癌患者中,基于ct的放射组学特征与msi状态之间存在显著相关性。通过术前ct的放射分析对mss和msi的术前预测可以增加临床评估的特异性,并有助于个性化治疗选择。关于原发性肿瘤(结肠和/或直肠)的基于ct放射组学的分析,可以预测同步肝转移。
5.影像组学中传统的特征筛选方法比如lasso能够挑出一些优质特征帮助分类。需要减少特征数的时候它很有用,但是对于数据理解来说不是很友好,使用传统的特征筛选方法,由于并没有很好的与临床特征进行结合,可能导致筛选出的特征尽管对于分类有一定的效果,但是对于临床应用的意义不大,而一些未被lasso筛选出的特征可能临床意义更大,对于疾病的术前诊断及治疗更有意义。


技术实现要素:

6.本发明的目的就是提供一种基于cc

注意力机制的影像组学特征筛选方法,该方法利用临床特征与影像特征之间的相关性进行特征筛选,能够提高结直肠癌肝转移微卫星状态的预测率,更好的辅助肿瘤的治疗。
7.本发明是这样实现的:
8.一种基于cc(correlation with clinical)

注意力机制的影像组学特征筛选方法,包括ct影像的处理、影像特征与临床特征的相关性分析,根据影像特征与临床特征的相关性进行特征筛选,影像特征与结直肠癌肝转移微卫星不稳定性状态(包括微卫星高度不稳定性和微卫星低度不稳定性)的分析,分类模型及预测效果分析,具体步骤如下:
9.ct影像的处理:首先,通过医学图像处理软件simple itk,从ct图像中找到肿瘤部
位,先使用自动勾画选项对肿瘤部位进行勾画,再按照勾画部位进行细节填充与删除。然后将提取出的肿瘤部位与原始图像通过python的pyradiomics包来进行特征提取,将提取出的特征进行保存。
10.影像特征与临床特征的相关性分析:首先将提取出的临床特征与影像特征一一对应,将影像特征矩阵记作矩阵a,利用斯皮尔曼秩相关法求出两个矩阵之间的相关系数,记作矩阵b,然后通过注意力机制的方法将与每一个临床特征相关性最强的三个影像特征的系数置为1,其它影像特征系数置为0,得到系数矩阵c;求出此时系数矩阵c中的非零列的序号数,根据这个序号数求出矩阵a中的对应的非零列,这些非零列组成的矩阵就是我们筛选出的特征矩阵。利用这种方法分别求得微卫星高度不稳定性和微卫星低度不稳定性的影像特征与相应的临床特征之间的相关性,一共得到29个ct影像特征(去除重复组)。
11.影像特征与结直肠癌肝转移微卫星不稳定性状态的分析:将筛选出的29个影像特征分别进行微卫星不稳定性状态不同时的箱线图,分析微卫星不稳定性状态不同时,所选择影像特征的整体分布有无差异。
12.分类模型及预测效果分析:将使用传统特征筛选方法lasso进行特征筛选与本发明所提出的特征筛选方法所筛选的特征分别输入七种分类器的分类模型中,比较两种特征筛选方法的分类效果。
13.本次经过特征筛选后所得到的与临床特征相关性较强的影像特征有29个,分别是形状特征中:最小轴长。一阶特征中:能量、峰度、平均值、中值、幅度、均方根、偏度、总能量。纹理特征分四个子类别,分别如下:

灰度共生矩阵中:对比度、集群阴暗度、相关性、差异平均、联合能量、最大概率、归一化逆差;

灰度游程矩阵中:游程熵、短游程高灰度级增强、游程长度非均匀归一化、灰度不均匀性、灰度非均匀性归一化、长游程高灰度级增强;

灰度依赖矩阵中:小依赖性高灰度级增强、高灰度级增强、依赖非均匀性归一化、依赖方差、强依赖性低灰度级增强;

灰度大小区域矩阵中:大区域高灰度级增强、区域方差。
14.本发明的有益效果是:
15.本发明为探寻影像组学中的特征筛选提出了一种新的方案,即根据影像特征和临床特征之间的相关性进行特征筛选,改变了传统影像组学特征筛选方法只筛选有助于分类的特征,而不考虑特征与临床的关系以及所选特征的实际意义的情况,通过分析临床特征与影像特征之间的相关性,试寻找影像特征来判断结直肠癌肝转移微卫星不稳定性状态,为术前判断肿瘤状态提供可能,能更好辅助肿瘤的个性化治疗。
附图说明
16.图1是基于cc

注意力机制的影像组学特征筛选方法的流程图。
17.图2是图1中特征筛选的放大框图。
18.图3是筛选出的影像特征在微卫星高度不稳定性和微卫星低度不稳定性时的箱线图。
具体实施方式
19.为了改善目前影像组学的方法中,特征筛选出的特征目的仅为分类,而不是数据分析,术前诊断,没有将影像学特征与临床特征相结合,从而导致对临床分析有意义的特征
没有被筛选出来的情况,所以本发明提出一种基于cc

注意力机制的影像组学特征筛选方法,利用临床特征来进行特征筛选,选出的特征不止具有分类意义,还与临床特征相关。
20.本发明采用注意力机制方法,提出了利用临床特征与影像特征相结合的方法,将注意力集中到与临床特征的相关性更强的影像特征当中,使得与临床特征相关性更强的影像特征在特征筛选过程中占据更大的比重,获得更多的计算资源,改善传统影像组学特征筛选时,只考虑特征之间的关系,而不考虑影像特征与临床特征之间的关系的状况。
21.如图1所示,本发明使用基于cc

注意力机制的影像组学特征筛选方法来进行影像组学处理,具体实现过程如下:
22.一、ct影像的处理:
23.本实施例中选取了58例微卫星高度不稳定性患者的ct影像以及95例微卫星低度不稳定性患者的ct影像,对这153例ct影像分别进行处理,如下:
24.首先,通过医学图像处理软件simple itk,从ct图像中找到肿瘤部位,使用自动勾画选项对肿瘤部位进行勾画,再按照勾画部位进行细节填充与删除,保证所勾画的感兴趣区域距离边界2mm,然后将提取出的肿瘤部位与原始图像通过python的pyradiomics包来进行特征提取,得到可用于进行计算的影像特征,将这些影像特征保存。
25.可用于进行计算的影像特征有100个,分别如下:(1)形状特征:延伸率、平坦度、半轴长度、主轴长度、最大2d直径列、最大2d直径行、最大2d直径切片、最大3d直径柱、网格体积、最小轴长、球形度、表面积、表面体积比、体素体积。(2)一阶特征:第10%位数、第90%位数、能量、熵、四分位数、峰度、最大值、平均绝对偏差、平均值、中值、最小值、幅度、极差、均方根、偏度、总能量、均匀性、方差。(3)纹理特征:1)灰度共生矩阵:自相关、联合平均数、集群突出度、集群阴暗度、集群趋势、对比度、相关性、差异平均、差分熵、差异方差、联合能量、联合熵、相关信息度1、相关信息度2、逆差分矩归一化、反差距、逆差、归一化逆差、逆方差、最大概率、总和熵、平方和。2)灰度游程矩阵:灰度不均匀性、灰度非均匀性归一化、灰度级方差、高灰度级增强、长游程增强、长游程高灰度级增强、长游程低灰度级增强、低灰度级游程增强、游程熵、游程长度非均匀性、游程长度非均匀归一化、游程百分比、游程方差、短游程增强、短游程高灰度级增强、短游程低灰度级增强。3)灰度大小区域矩阵:灰度级不均匀性、灰度级非均匀性归一化、灰度级方差、高灰度级区域增强、大区域增强、大区域低灰度级增强、大区域高灰度级增强、低灰度级增强、尺寸区域非均匀性、尺寸区域非均匀性归一化、小区域增强、小区域高灰度级增强、小区域低灰度级增强、区域熵、区域百分比、区域方差。4)灰度依赖矩阵:依赖熵、依赖非均匀性、依赖非均匀性归一化、依赖方差、灰度级非均匀化、灰度级方差、高灰度级增强、强依赖性增强、强依赖性高灰度级增强、强依赖性低灰度级增强、低灰度级增强、小依赖增强、小依赖性高灰度级增强、小依赖性低灰度级增强。
26.二、影像特征与临床特征的相关性分析:
27.将从对应微卫星高度不稳定性的58张ct影像中提取到的影像特征划分为一组,将从对应微卫星低度不稳定性的95张ct影像中提取到的影像特征划分为另一组。
28.如图2所示,针对每一组,将影像特征记作矩阵a,利用斯皮尔曼秩相关法求出影像特征和临床特征之间的相关系数,记作矩阵b,然后通过注意力机制的方法将与每一个临床特征相关性最强的三个影像特征的系数置为1,其他影像特征系数置为0,得到系数矩阵c,根据系数矩阵c中的非零元素从矩阵a中找到对应的影像特征。若影像特征对应的是列,则
求出系数矩阵c中的非零列的序号数,根据这些序号数求出矩阵a中的对应的非零列,这些非零列组成的矩阵就是筛选出的影像特征矩阵。若影像特征对应的是行,则求出系数矩阵c中的非零行的序号数,根据这些序号数求出矩阵a 中的对应的非零行,这些非零行组成的矩阵就是筛选出的影像特征矩阵。
29.以58张ct影像所在的分组举例来说,从58张ct影像中提取到的影像特征有58*100,将该影像特征记作矩阵a,矩阵a中,每一行对应一个病患,每一列对应一个影像特征。对于每一位病患来说,临床特征包含年龄、性别、周围是否有淋巴结转移、原始病发位置、cea(癌胚抗原)和ca724(胃癌抗原)这六个特征。因此,58张ct影像对应的临床特征有58*6。利用斯皮尔曼秩相关法求出影像特征(58*100)和临床特征(58*6)之间的相关系数,所得结果仅为100个影像特征与6个临床特征之间的相关性,而无关这58位病患,将得到的100个影像特征与6个临床特征之间的相关系数记作矩阵b。矩阵b中,行为临床特征,列为影像特征,且矩阵b中的影像特征与矩阵a中的影像特征一一对应。通过注意力机制的方法将矩阵b中与每一个临床特征相关性最强的三个影像特征的系数置为1,其他影像特征系数置为0,得到系数矩阵c。找出系数矩阵c中非零列的序号数,根据这些序号数求出矩阵a中的对应列,将从矩阵a中找出的与矩阵c中非零列对应的所有影像特征挑出来,即为筛选出来的影像特征。
30.这里想说的是,影像特征在矩阵a中也可以以行的形式存在,那么相应地,矩阵b中在求影像特征与临床特征的相关系数矩阵时,应保证矩阵b中影像特征与矩阵a中影像特征一样,也以行的形式存在,这样后续在通过系数矩阵c找矩阵a中对应影像特征时方便筛选。
31.分别针对每一组ct影像,均进行上述的影像特征筛选;之后将两组所筛选出来的影像特征合并并去重,得到29个影像特征,见表1。
32.表1筛选后的影像学特征
[0033][0034]
三、影像特征与结直肠癌肝转移微卫星不稳定性状态的分析:
[0035]
如图3所示,将筛选出的29个影像特征分别进行微卫星高度不稳定性和微卫星低度不稳定性时的箱线图,分析微卫星不稳定性状态不同时,所选择影像特征的整体分布的差异。图3的六幅图中,每一个图均对应两种微卫星不稳定性状态,在图上以0和1来表示,0对应的是微卫星高度不稳定性,1对应的是微卫星低度不稳定性。且每一种微卫星不稳定性状态,由左至右所示分别对应左上角由上至下的影像特征。
[0036]
本发明发现,对于结直肠癌肝转移患者而言,他们不同的微卫星不稳定状态所对应的影像学特征具有一定的区别。可以看出依赖方差、低灰度级增强、短游程高灰度级增强、最小轴长、均值、中值、幅度、均方根、长游程高灰度级增强、偏度、差异平均、小依赖性高灰度级增强、游程熵、峰度这些特征在微卫星高度不稳定性时的值的整体分布明显高于微卫星低度不稳定性状态。而强依赖性低灰度级增强、联合能量、最大概率、依赖非均匀性归一化、灰度非均匀性归一化、相关性特征值的整体分布在微卫星高度不稳定性时的值的整体分布明显低于微卫星低度不稳定性状态。微卫星不稳定性状态不同,患者的影像特征值分布不同,这可以看作是预测微卫星高度不稳定性和低度不稳定性的依据之一。
[0037]
四、分类模型及预测效果分析:
[0038]
建立预测模型,本发明为了验证所筛选特征的分类效果,采用了七种分类器模型来进行结果比对,这七种分类器模型分别是:线性支持向量分类器(support vector classifier,svc)、决策树、逻辑回归、k近邻分类器(kneighborsclassifier,knc)、随机森林、梯度提升分类器(gradientboostingclassifier,gbc)、极端梯度提升树分类器(xgboost,xgb)。
[0039]
svc:线性svc使用一度(线性/直线)边界对数据进行分类。与非线性分类器相比,该分类器的复杂度要低得多,适用于小型数据集。
[0040]
决策树:是一种依托于策略抉择而建立起来的树。机器学习中,决策树是一个预测模型;它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,从根节点到叶节点所经历的路径对应一个判定测试序列。
[0041]
逻辑回归:第一用来预测,第二寻找因变量的影响因素。逻辑回归又称为逻辑回归分析,是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。
[0042]
knc:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例(也就是k个邻域),这k个实例的多数属于某个类,就把该输入实例分类到这个类中。
[0043]
随机森林:创建多棵决策树,用它们分别进行预测,再根据少数服从多数的原则从多个预测结果中选择最终预测结果。
[0044]
gbc:提升算法是为了减少偏差而对弱分类器进行的一种集成方法,是一种分类器的串行方法,它把每个输出作为下一个分类器的输入。梯度提升模型,采用串行方式而非并行模式获得预测结果。每棵决策树预测前一棵决策树的误差,因而使误差获得提升。
[0045]
xgb:使用cart回归树或线性分类器作为基学习器,是一种boosting算法,用于分类或者回归问题。xgboost相较于gbdt做了一些改进,引入了二阶泰勒展开和正则化项,在效果上有了明显的提升。
[0046]
将使用传统特征筛选方法lasso进行特征筛选与本发明所提出的特征筛选方法所
提取出的特征分别输入七种分类器的分类模型中,比较两种特征筛选方法在七种分类器,同样的auc值(roc曲线下与坐标轴围成的面积,判断分类方法真实性的标准)时的分类率,发现采用基于cc

注意力机制的影像组学特征筛选方法可以较大提升分类效果,见图1分类效果比较部分(左侧是本发明的效果图,右侧是传统方法的效果图)。图1中分类效果比较部分是通过下面表2中数据绘制所得。可见,采用本发明方法筛选出的特征,在后续分类器学习检验结果中,本发明检验结果准确率更高。
[0047]
表2本发明与传统方法筛选出的特征在七种分类器中的分类结果
[0048]
分类器本发明cc注意力机制方法传统方法svc0.968750.96875decision tree classifier0.87500.75000logistic regression0.937500.87500k neighbors classifier0.968750.90625random forest classifier0.968750.93750gradient boosting classifier0.906250.84375xgb0.937500.84375
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1