1.本发明属于医疗数据处理技术领域,尤其涉及一种肺腺癌浸润性影像组学分类模型的构建方法。
背景技术:2.早期肿瘤的浸润性鉴别诊断是术前评估的关键,决定着后续的临床处理方式。比如,病理证实的浸润性早期肺腺癌预后差,需行肺叶全切术;而非浸润性早期肺腺癌(包括不典型腺瘤样增生、原位癌和微浸润癌)预后较好,可以进行观察或肺叶部分切除术。然而,当前的病理诊断需借助侵入性的操作获取病灶组织,这些操作包括穿刺、胸腔镜手术和开胸手术,最终的病理结果可能证明这些侵入性操作是不必要的。ct是一种非侵入性的成像技术,可以高清显示器官和病灶的细节纹理,结合机器学习技术可以实现无创的病灶浸润性分类。早期肺腺癌在ct上表现为磨玻璃肺结节,通过对ct上磨玻璃肺结节的纹理分析和建模,就有望实现基于图像的无创肺腺癌浸润性分类/辅助诊断。
3.影像组学以大量影像数据为基础,结合病理和预后等临床数据可实现无创肿瘤表征,有望辅助患者分层、治疗决策和疗效预测。近年来,组学的方法得到越来越多的关注,其使用大量的自动特征提取算法将影像数据转换成高维可采集特征空间(aerts,h.,velazquez,e.,leijenaar,r.et al.decoding tumour phenotype by noninvasive imaging using a quantitative radiomics approach.nat commun 5,4006(2014).https://doi.org/10.1038/ncomms5006)。fan l et.al使用组学方法鉴别表现为磨玻璃肺结节的浸润性肺腺癌和非浸润性病灶,组学特征模型(radiomics signature)的诊断准确性优于影像形态学特征和其它定量参数(fan,l.,fang,m.,li,z.et al.radiomics signature:a biomarker for the preoperative discrimination of lung invasive adenocarcinoma manifesting as a ground
‑
glass nodule.eur radiol 29,889
–
897(2019).https://doi.org/10.1007/s00330
‑
018
‑
5530
‑
z)。
4.然而,影像组学模型泛化性能往往不高,这阻碍了影像组学走向临床应用。采集参数是影像组学泛化性中的关键影响因素之一,比如扫描分辨率、重建层厚和重建卷积核,这些采集参数在临床和研究中都存在较大异质性。具体的,如果建模使用的ct数据的采集参数相对固定,来源单一,比如都是利用某种ct扫描仪按照固定的层厚和分辨率扫描或重建得到的数据,那么该模型在其他ct扫描仪按不同层厚重建后所得数据很难拥有好的表现。
5.此外,现有方法构建的影像组学模型鲁棒性差并且不是全自动。首先,现有的影像组学模型大都是在采集参数单一的数据集上搭建出来的,而临床上的采集参数变异度又很大,模型的泛化性能就有比较大的限制;其次,影像组学的搭建需要病灶的轮廓,现有的方法都是依赖人工标注,成本高昂,能获取的数据量有限,在此基础上建立的模型精度自然不高。
技术实现要素:6.本发明的目的在于利用同一患者的多分辨率ct图像构建一个适用于不同分辨率和重建的鲁棒性好、预测精度高、无创的肺腺癌浸润性影像组学分类模型,解决现有病理诊断依赖有创操作、现有影像组学模型泛化性能差、精度和稳定性达不到进入临床使用水平的问题。
7.本发明是这样实现的,一种肺腺癌浸润性影像组学分类模型的构建方法,该方法包括以下步骤:
8.s1、以不同分辨率下多组胸部ct影像为对象,通过胸部ct肺结节检测分割系统自动检测和分割胸部ct影像中的肺结节病灶,根据病理活检结果获取每个肺结节的细胞学类型,进而得到浸润性分类的真实标签;
9.s2、使用开源的pyradiomics软件库自动提取分割结果中每个所述肺结节病灶设定所需提取数目的影像组学特征,结合每个肺结节的浸润性真实标签,组成一个训练数据集;
10.s3、针对每个分辨率的ct影像,以训练数据集中的肺结节影像组学特征作为输入,基于病理诊断结果的肺结节浸润性作为真实标签,分别训练一套浸润性分类预测模型。
11.优选地,在所述病理诊断结果中,选择不典型腺瘤样增生、原位癌和微浸润腺癌作为非浸润癌,浸润性腺癌作为浸润性癌,以所述非浸润癌、浸润性癌作为真实标签以及训练分类模型的预测目标。
12.优选地,在步骤s1中,各组胸部ct影像的不同分辨率的像素尺寸分别为0.2mm
×
0.2mm、0.4mm
×
0.4mm以及0.8mm
×
0.8mm。
13.优选地,在步骤s2中,所述影像组学特征包括6个特征类别、9种图像类型;其中,
14.所述6个特征类别分别基于一阶形状、灰度共生矩阵(glcm)、灰度相关矩阵(gldm)、灰度游程长度矩阵(glrlm)和灰度大小区域矩阵(glszm);
15.所述9种图像类型分别为原图和其他8种小波变换后的图。
16.优选地,在步骤s3中,所述分类模型的训练过程为:
17.用递归特征消除从所有影像组学特征中挑出候选特征;
18.使用所有训练数据集样本的候选特征初步拟合一个逻辑回归模型,挑出这个逻辑回归模型中拟合系数显著大于零的特征;
19.使用这最优特征建模并做5折交叉验证,验证集的曲线下面积作为评估模型精度的指标。
20.相比于现有技术的缺点和不足,本发明具有以下有益效果:
21.(1)本发明使用了高清ct获取同一批患者多种分辨率的ct图像来分别创建针对不同分辨率的肺腺癌浸润性影像组学分类模型,得到了一系列最优模型,保证了模型在不同分辨率ct上的泛化性能;
22.(2)本发明基于深度学习的胸部ct肺结节实例分割网络,通过胸部ct肺结节检测分割系统自动批量获取胸部ct中肺结节病灶轮廓,再配合放射科医师的确认(包括提出假阳和补充漏检)的方式,可以节省人工成本,同时能在短时间内得到大量可训练数据,在数据量上保证了本发明中模型的精度和鲁棒性,解决了以往影像组学模型泛化性或鲁棒性不高的问题;
23.(3)本发明的分类模型基于无创的ct成像,可解决病理诊断依赖有创操作、时效性低、病理医师缺乏的问题。
附图说明
24.图1是本发明实施例中肺腺癌浸润性影像组学分类模型的构建方法步骤流程图;
25.图2是本发明实施例中肺腺癌浸润性影像组学模型的推理流程图。
具体实施方式
26.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
27.方法实施例
28.本发明公开了一种肺腺癌浸润性影像组学分类模型的构建方法,如图1所示,该方法包括以下步骤:
29.s1、以不同分辨率下多组胸部ct影像为对象,通过胸部ct肺结节检测分割系统自动检测和分割胸部ct影像中的肺结节病灶,根据病理活检结果获取每个肺结节的细胞学类型,进而得到浸润性分类的真实标签
30.在步骤s1中,以不同分辨率下多组胸部ct影像为对象,通过胸部ct肺结节检测分割系统自动检测和分割胸部ct影像中的肺结节病灶,获得各图像中有病理诊断结果的肺结3d分割结果。其中,在本方面实施例中,具体的,上述胸部ct肺结节检测分割系统(肺结节检测模型+肺结节分割模型,详见文献:kopelowitz e,engelhard g,.lung nodules detection and segmentation using 3d mask
‑
rcnn,(2019),midl,https://arxiv.org/abs/1907.07676v1)是在大型胸部ct肺结节公开数据集(luna2016,肺结节分析2016,https://luna16.grand
‑
challenge.org/)上训练得到的三维实例分割模型(3d mask
‑
rcnn)。该胸部ct肺结节检测分割系统是以人体胸部ct为输入,输出该ct中所有肺结节的位置坐标和三维轮廓,具有精度高、速度快、假阳少等特点。
31.在步骤s1中,具体的,将一套ct图剪切成若干有重叠的固定大小3d块(如128
×
128
×
128),然后将每个3d块送入3d mask rcnn模型,经过一系列特征提取和计算输出这个3d块中肺结节的三维坐标和二值化掩码。三维坐标以肺结节目标的外接矩形框(x0,x1,y0,y1,z0,z1)表示,掩码则是与输入3d块大小一致,目标区域取值为1、背景为0的二值化图像。最终将所有3d块的预测结果进行融合,得到整套ct图中所有肺结节的位置和掩码。最后根据患者病理报告,筛选出有明确病理诊断结果的肺结节病灶。
32.s2、使用开源的pyradiomics软件库自动提取分割结果中每个所述肺结节病灶设定所需提取数目的的影像组学特征,结合每个肺结节的浸润性真实标签,组成一个训练数据集
33.在步骤s2中,使用开源的pyradiomics软件库(详见文献:van griethuysen,j.j.m.,fedorov,a.,parmar,c.,hosny,a.,aucoin,n.,narayan,v.,beets
‑
tan,r.g.h.,fillion
‑
robin,j.c.,pieper,s.,aerts,h.j.w.l.(2017).computational radiomics system to decode the radiographic phenotype.cancer research,77(21),e104
–
e107.https://doi.org/10.1158/0008
‑
5472.can
‑
17
‑
0339)自动提取上述有明确病理诊断肺结节的影像组学特征。
34.具体的,以一个肺结节病灶为例,将这个病灶的原始三维图像和对应的二值掩码为输入,经过这个软件库的计算和处理,最终得到该个病灶的一系列影像组学特征。所有特征的公式和定义可以参考链接https://pyradiomics.readthedocs.io/en/latest/features.html。每个肺结节的二值化掩码与原始三维图像相乘便可准确得到只属于这个肺结节的图像区域。一阶特征(统计量)描述了目标物体在图像中体素密度的分布,如均值、标准差、偏度、丰度、能量、熵等。形状特征描述了目标物体的尺寸和形状,这些特征独立于体素密度,如体积、表面积、球度、最大径、最小径等。形状特征有三维和二维两种形式。剩余的灰度共生矩阵特征、灰度长距离矩阵特征、灰度尺寸区域矩阵、相邻的灰度色调差异矩阵、灰度依赖矩阵请参考上述文档。9种图像类型分别是原始图像(original)以及原始图像经历三次高频(h)或者低频(l)过滤后的八种小波变换(wavelet)图像,分别用hhh,hhl,hlh,hll,lhh,lhl,llh,lll表示。假设数据集中一共用n肺结节,每个肺结节计划提取m个特征,经过这一步骤,每个分辨率ct图像下,将得到一个n
×
m的特征数据集。针对c个分辨率的ct图像,最终将得到c
×
n
×
m的特征数据集。
35.s3针对每个分辨率的ct影像,以训练数据集中的肺结节影像组学特征作为输入,基于病理诊断结果的肺结节浸润性作为真实标签,分别训练一套浸润性分类预测模型
36.在步骤s3中,针对每个分辨率的ct影像,以上述步骤得到的大小为n
×
m的肺结节特征数据集作为输入,基于病理诊断结果的肺结节浸润性做为真实标签n
×
1,分别训练一套分类模型。分类模型可以使用逻辑回归、支持向量机、随机森林或xgboost等方法。以逻辑回归为例,建模流程如下,先用递归特征消除(recursive feature elimination)从所有影像组学特征中挑出k’个候选特征,然后使用所有样本的这k’个候选特征(n
×
k’)初步拟合一个逻辑回归模型,接着挑出这个初步模型中拟合系数显著大于零的最优特征(p<0.1),假设最优特征有k”个,最后使用所有样本的这k”个最优特征(n
×
k”)训练出最终分类模型。根据以上建模步骤可得到c个适用于不同分辨率的肺结节浸润性分类模型
37.具体的,递归特征剔除用所有影像组学特征(如大小为n
×
m的特征数据集)拟合一个逻辑回归分类器(ln(y/(1
‑
y))=a0*f0+a1*f1+a2*f2
…
+am*fm),然后根据分类器中所有特征的系数(a0,a1,
…
,am)绝对值进行大小排序,然后从中选出前k’个特征进入下一轮。接下来,用n
×
k’重新拟合一个逻辑回归模型,并保留系数与0存在差异的概率大于0.1的k”个特征;最终使用n
×
k”拟合出最终的分类模型。
38.应用实施例
39.使用上述方法实施例记载的构建方法,在200例患者的数据上训练出来的逻辑回归模型公式如下:
40.针对小像素尺寸(0.2
×
0.2mm)ct图像的分类模型:
41.ln(y/(1
‑
y))=1.76*original_glcm_7+(
‑
2.17)*original_shape_2+3.72*original_shape_4+5.12*wavelet
‑
hhh_firstorder_7+2.25*wavelet
‑
hhl_glrlm_13+4.75*wavelet
‑
hhl_glszm_5+(
‑
4.61)*wavelet
‑
lhh_firstorder_7+
‑
3.05*wavelet
‑
lhh_glcm_16+(
‑
1.96)*wavelet
‑
lll_glcm_12。
42.针对小像素尺寸(0.4
×
0.4mm)ct图像的分类模型:
43.ln(y/(1
‑
y))=3.65*original_shape_4+0.83*wavelet
‑
hhl_gldm_9+(
‑
2.64)*wavelet
‑
lhl_glcm_20+(
‑
1.79)*wavelet
‑
lhl_gldm_13+1.02*wavelet
‑
lhl_glszm_7+
‑
2.29*wavelet
‑
lll_glcm_13+1.15*wavelet
‑
lll_glszm_14。
44.针对小像素尺寸(0.8
×
0.8mm)ct图像的分类模型:
45.ln(y/(1
‑
y))=
‑
1.06*original_shape_2+1.90*wavelet
‑
hlh_glcm_12+(
‑
1.46)*wavelet
‑
hll_glcm_15+(
‑
1.08)*wavelet
‑
hll_glszm_7+(
‑
2.31)*wavelet
‑
lhl_firstorder_6+3.24*wavelet
‑
lhl_gldm_5+(
‑
2.23)*wavelet
‑
lhl_glszm_13+(
‑
1.90)*wavelet
‑
lll_glcm_6+2.16*wavelet
‑
lll_glcm_7。
46.根据公式求解出其中的y,y便是一个肺结节是浸润性肺腺癌的概率(范围0~1)。经过五折交叉验证,本方法的分类精度达到88%~95%,召回率达到了88%~96%,特意度达到了88%~92%。
47.本发明在部署使用阶段如图2,输入一套患者ct序列,经过专门的胸部ct肺结节检测和分割系统得到肺结节的检测框以及三维轮廓,然后使用pyradiomics软件库提取检出的肺结节影像组学特征,接着根据这套ct的分辨率选取对应的分类模型,最后将提取组学特征输入到分类模型中,输出对应肺结节的浸润性概率。例如输入ct分辨率时0.4
×
0.4mm,那选用的模型也是建立0.4
×
0.4mm数据集上的分类模型;如果输入ct分辨率时0.8
×
0.8mm,选用的则是针对0.8
×
0.8mm的组学模型。全过程仅需少量人工干预(假阳消除),系统跑完整个流程耗时5分钟以内。
48.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。