本发明涉及肿瘤的分级方法,尤其涉及基于ct放射组学的胰腺神经内分泌肿瘤的分级方法。
背景技术:
胰腺神经内分泌肿瘤(pnet)占胰腺肿瘤的3%~7%,根据是否导致临床症状pnet分为功能性和无功能性。功能性pnet诊断主要依据临床表现和检查,而无功能性pnet多在查体时发现,术后病理证实。
2010年世界卫生组织(who)根据核分裂象计数和ki-67阳性肿瘤细胞指数的高低将该肿瘤分为三个组织级别,即低级别(g1,核分裂象为1个/10hpf(高倍视野),ki-67<3%),中级别(g2,核分裂象为2~20个/10hpf,ki-67为3%~20%)和高级别(g3,核分裂象>20个/10hpf,ki-67>20%)。
目前对患者的胰腺神经内分泌肿瘤(pnet)的分级主要通过手术做病理切片来获知,但是此种方法会对患者的身体造成损伤,且也会增加诊断时间,不利于及时对患者进行治疗。
技术实现要素:
发明目的:本发明的目的是提供一种对患者身体无损的、快速准确判断的基于ct放射组学的胰腺神经内分泌肿瘤的分级方法。
技术方案:本发明的基于ct放射组学的胰腺神经内分泌肿瘤分级方法,包括以下步骤:
(1)采集pnet病例腹部ct图像并标记pnet肿瘤区域;
(2)在pnet肿瘤区域进行放射组学特征提取,得到数据集;
(3)将数据集的数据分为训练集和测试集,在训练集上应用bootstrap采样得到数据子集,在数据子集上分别使用mrmr算法进行特征筛选,得到特征子集,在特征子集中选取目标特征;
(4)使用筛选出来的目标特征在训练集上训练支持向量机分类器,作为pnet分级预测模型;
(5)将待测pnet病例腹部ct图像使用pnet分级预测模型测试得到分级。
优选地,所述支持向量机分类器带核函数,所述核函数包括高斯核、线性核、多项式核、拉普拉斯核和sigmoid核的一种。
优选地,所述数据集中的数据按照ct扫描时间的先后顺序分为训练集和测试集。
优选地,所述训练集和测试集中含有的病人数量比例为6∶4。
优选地,所述步骤(2)放射组学特征提取包括纹理特征和小波特征。
有益效果:1、本发明基于ct放射组学提取的目标特征能够有效预测病人的胰腺神经内分泌肿瘤分级情况;2、该方法使病人避免通过手术病理获知pnet的级别,能够减轻病人痛苦,并缩短治疗时间;3、该方法能够避免不同医生之间的诊断差异,从而得出更加精准的诊断。
附图说明
图1为放射组学预测pnet分级流程图;
图2为6个放射组学特征的箱盒图;
图3为放射组学分别在训练集和测试集上的roc曲线。
具体实施方式
如图1所示,本发明的基于ct放射组学的胰腺神经内分泌肿瘤的分级方法,包括如下步骤:
(1)放射医生对99个pnet病人进行腹部ct扫描,并分别手动标记pnet肿瘤区域;
(2)在每个肿瘤区域进行放射组学特征提取,包括纹理特征haralick,laws,collage,小波特征gabor,每种特征包含各种描述和统计值,99个病人共提取了585维的组学特征,组成数据集;
(3)将步骤(2)得到的数据集按照腹部ct扫描时间的先后顺序分成训练集和测试集,其中训练集和测试集中含有的病人数量比为6∶4。在训练集上应用bootstrap对其采样100次,每次获得子样本不超过全部训练集的75%,最终得到的样本集记为x={xi,i=1,2,...,100}。
最大相关最小冗余(mrmr)特征选择算法是基于特征间的互信息来选择特征。给定两个变量x和y,它们的互信息定义如下:
其中p(x)和p(y)为各自的概率密度函数,p(x,y)为x和y的联合概率密度函数。
最大相关:
最小冗余:
其中xi是第i个特征,c是类标签,s是特征子集。
定义算子
在100个样本子集x中分别使用mrmr算法得到每个特征的
(4)使用筛选出来的6维特征在训练集上建立一个带高斯核函数的支持向量机(svm)分类模型:
f(x)=wtφ(x)+b
其中φ(x)为原数据空间通过高斯核函数映射到高维线性可分空间中的数据,wt和b为模型参数,其中高斯核函数为:
其中xc为核函数中心,σ为函数的宽度参数,控制了函数的径向作用范围。本实施方式中,
(5)使用训练好的分类器在测试集ct图像上进行测试得到pnet分级,并与病理医生标记分级进行比较观察分类器性能。
表1是使用特征选择算法筛选出来的6个放射组学特征,每个特征都有详细的描述,具有可重复性。
图2是6个放射组学特征的箱盒图,横坐标代表6个特征,纵坐标是标准化之后的特征值,可以看出选择出来的6个特征在g1和g2之间都有差异性,说明选出的6个特征在不同的pnet分级中有不同的表现。
图3是放射组学分别在训练集和测试集上的roc曲线,曲线下面积(auc)越大说明预测模型越好,本发明的pnet分级预测模型在训练集和测试集上的auc分别达到0.81和0.77,说明预测效果较好。