基于迁移学习的胃肠道间质瘤中核分裂象检测系统的制作方法

文档序号:22579185发布日期:2020-10-20 16:55阅读:245来源:国知局
基于迁移学习的胃肠道间质瘤中核分裂象检测系统的制作方法

本发明涉及一种胃肠道间质瘤中核分裂象检测系统。特别是涉及一种基于迁移学习的胃肠道间质瘤中核分裂象检测系统.



背景技术:

胃肠道间质瘤是一类起源于胃肠道间叶组织的肿瘤,占消化道间叶肿瘤的大部分,是最常见的腹部软组织恶性肿瘤。胃肠道间质瘤最常见于胃(50%~60%)、其次是小肠(30%~35%)、结肠和直肠(5%)、食道(<1%),以及少部分消化道外(肠系膜,大网膜和腹膜后;<5%)。平均诊断年龄为63岁,无性别差异。胃肠道间质瘤主要由梭形细胞和上皮样细胞构成,少数可见多形性肿瘤细胞,甚至破骨细胞样巨细胞.依据梭形和上皮样细胞的比例可分为上皮样细胞型、梭形细胞型和混合细胞型.排列方式多样,梭形细胞多以束状、漩涡状和栅栏状排列为主,上皮样细胞常呈弥漫片巢状排列.部分肿瘤可伴有囊性变、透明变性、黏液变性及钙化,并可见核周空泡细胞和印戒样肿瘤细胞,少数肿瘤间质可见"丝团样纤维"。胃肠道间质瘤患者常因肿瘤位于黏膜下层和肌层而无特征性症状,故术前诊断较为困难。传统的辅助检查缺乏特异性,内镜和影像学检查仅有助于确定肿瘤部位。病理诊断依靠应用超声内镜下细针穿刺活检得到组织样本,其诊断准确率较高,是胃肠道间质瘤诊断的“金标准”。因此,胃肠道间质瘤的诊断应结合临床症状、体征、消化道内镜及影像学检查,但最终必须依靠病理诊断。

医学上使用苏木精-伊红染色方法处理活检采集的组织样本制成病理切片,染色试剂中中苏木精可以使细胞核内的染色质与胞质内的核酸着紫蓝色,而试剂中的伊红可以使细胞质和细胞外基质中的成分着红色,从而方便医生对病理切片进行观察。医生在显微镜下观察病理切片中的相关特征,从而判断患者的胃肠道间质瘤的危险程度。其中,核分裂象数量是一个非常重要的指导指标——显微镜视野内的核分裂象数目是医生判断胃肠道间质瘤危险程度的重要指标。

深度学习方法作为一种机器学习算法,以其应用场景多、应用效果好等优点被广泛应用到医学的诊断中。深度学习方法起源于人工神经网络,它是一种对人类大脑中神经元的人工模拟,从而产生优异的拟合能力、泛化能力和问题解决能力。它被应用于自然语言处理、图像识别、语音识别等领域,而在图像识别领域,它又可细分为语义分割、目标检测、实例分割等方面。

由于病理切片图像中核分裂象的形态多变,其可以细分为前期、中期、后期和末期,使检测较为困难;图片中存在某些易混淆对象,如凋亡细胞,增大了检测难度;病理图像中非核分裂象细胞远多于核分裂象细胞,进一步降低了检测准确率,提高了检测难度。而深度学习方法具有泛化能力强等特征,非常适用于这种复杂情况下对目标的分割。但是由于病理图片具有类别单一、前景-背景极度不均衡等特点,需要一种基于迁移学习方法的病理切片图像中核分裂象分割的方法。



技术实现要素:

本发明所要解决的技术问题是,提供一种能够为医生的病理诊断提供有效辅助参考的基于迁移学习的胃肠道间质瘤中核分裂象检测系统。

本发明所采用的技术方案是:一种基于迁移学习的胃肠道间质瘤中核分裂象检测系统,其特征在于,包括如下步骤:

1)对病理切片图像数据进行预处理,包括:

(1)将除胃肠道间质瘤病理切片图像数据集c以外的多种不同病例的病理切片图像数据集汇总为一个综合病理切片图像数据集t,并对综合病理切片图像数据集t和胃肠道间质瘤病理切片图像数据集c进行染色均一化处理,以适应不同染色条件下导致的切片中颜色深浅不一问题。

(2)由专业医生对综合病理切片图像数据集t中图像和胃肠道间质瘤病理切片图像数据集c中图像进行手工标注,所述的手工标注是在综合病理切片图像数据集t中标注出病灶、血管和脂肪的区域,在胃肠道间质瘤病理切片图像数据集c中标注出核分裂象区域,根据手工标注的结果生成与每一张病理切片图像对应的掩膜图像yit和与每一张胃肠道间质瘤病理切片图像对应的掩膜图像其中,i表示综合病理切片图像数据集t中的图像索引,j表示胃肠道间质瘤病理切片图像数据集c中的图像索引;

(3)在40×图层下对综合病理切片图像数据集t中的每一张病理切片图像进行不重叠裁剪切块,同时对该张病理切片图像所对应掩膜图像yit在相同坐标下进行裁剪切块,得到综合病理切片图像块数据集其中,每个图像块的分辨率为512×512,xi和yi分别表示在第i张病理切片图像中图像块的左上角点在横坐标轴与纵坐标轴上的坐标,n表示综合病理切片图像数据集t中病理切片图像的数量;在40×图层下对胃肠道间质瘤病理切片图像数据集c中的每一张病理切片图像进行不重叠裁剪切块,同时对该张病理切片图像所对应掩膜图像在相同坐标下进行裁剪切块,得到胃肠道间质瘤病理切片图像块数据集其中,每个图像块的分辨率为512×512,cj和dj分别表示在第j张病理切片图像中图像块的左上角点在横坐标轴与纵坐标轴上的坐标,m表示胃肠道间质瘤病理切片图像数据集c中病理切片图像的数量;

2)构建预训练全卷积神经网络,包括编码器子网络和解码器子网络,其中,所述编码器子网络是由resnet50构成;所述的解码器子网络是由依次连接的第一卷积层、第二卷积层、第一上采样层、第三卷积层、第四卷积层、第二上采样层、第五卷积层、第六卷积层和第三上采样层构成;所述resnet50的输出是第一卷积层的输入,所述第三上采样层的输出构成预训练全卷积神经网络的输出,选取adam优化器对预训练全卷积神经网络进行梯度更新,并使用focalloss损失函数对预训练全卷积神经网络进行训练;

3)将训练完成的预训练全卷积神经网络中解码器子网络权重进行初始化后,得到一个新的全卷积神经网络,选取adam优化器对所述的全卷积神经网络进行梯度更新,并使用focalloss损失函数对所述的全卷积神经网络进行训练;

4)对训练好的全卷积神经网络进行测试,测试时首先对用于测试的胃肠道间质瘤病理切片图像进行预处理,得到n块大小为512×512的图像块,同时记录下每个图像块左上角的坐标,批处理大小为128,将所述的n块大小为512×512的图像块输入训练好的全卷积神经网络中,输出得到n个概率图,并根据每个图像块左上角的坐标,重新拼接成与预处理前胃肠道间质瘤病理切片图像大小相同的概率图,设置阈值为0.5后得到核分裂象区域的二值图。

本发明的基于迁移学习的胃肠道间质瘤中核分裂象检测系统,利用多种不同病例的病理切片数据集构建用一个相对较大的病理切片图像数据集,训练出一个高性能的深度神经网络的预训练模型做为主干网络,对胃肠道间质瘤数据集进行训练,实现对胃肠道间质瘤中核分裂象的准确快速判断。本发明可为病理医生对于核分裂象的检测提供有效的中间数据,实现对病人病情的快速判别,降低病理医生的误诊率。

附图说明

图1是本发明基于迁移学习的胃肠道间质瘤中核分裂象检测系统中的训练流程图;

图2是本发明基于迁移学习的胃肠道间质瘤中核分裂象检测系统中的应用流程图。

具体实施方式

下面结合实施例和附图对本发明的基于迁移学习的胃肠道间质瘤中核分裂象检测系统做出详细说明。

本发明的基于迁移学习的胃肠道间质瘤中核分裂象检测系统,包括如下步骤:

1)对病理切片图像数据进行预处理,包括:

(1)将除胃肠道间质瘤病理切片图像数据集c以外的多种不同病例的病理切片图像数据集汇总为一个综合病理切片图像数据集t,并对综合病理切片图像数据集t和胃肠道间质瘤病理切片图像数据集c进行染色均一化处理,以适应不同染色条件下导致的切片中颜色深浅不一问题。

如:经过专业医生从数据集中选定目标图像hsource,将数据集中除hsource以外的其他病理切片图像选定为htarget,以hsource的颜色基为标准替换htarget颜色基,同时保留htarget的相对染色密度,染色均一化矩阵vsource表示为:

其中p99表示99分位数,wtarget表示相对光密度分离出的颜色基矩阵。

然后,使用反向比尔-朗伯变换将每个通道和每个像素的源光密度与目标图像进行染色均一化,再将其转换回像素强度空间,公式表示为:

c表示图像的三通道,x表示像素位置,target表示选定目标图像,ic,x,source表示转换后的每个像素点值,i0表示最大强度值,e为自然常数。

(2)由专业医生对综合病理切片图像数据集t中图像和胃肠道间质瘤病理切片图像数据集c中图像进行手工标注,所述的手工标注是在综合病理切片图像数据集t中标注出病灶、血管和脂肪的区域,在胃肠道间质瘤病理切片图像数据集c中标注出核分裂象区域,根据手工标注的结果生成与每一张病理切片图像对应的掩膜图像yit和与每一张胃肠道间质瘤病理切片图像对应的掩膜图像其中,i表示综合病理切片图像数据集t中的图像索引,j表示胃肠道间质瘤病理切片图像数据集c中的图像索引;

(3)在40×图层下对综合病理切片图像数据集t中的每一张病理切片图像进行不重叠裁剪切块,同时对该张病理切片图像所对应掩膜图像yit在相同坐标下进行裁剪切块,得到综合病理切片图像块数据集其中,每个图像块的分辨率为512×512,xi和yi分别表示在第i张病理切片图像中图像块的左上角点在横坐标轴与纵坐标轴上的坐标,n表示综合病理切片图像数据集t中病理切片图像的数量;在40×图层下对胃肠道间质瘤病理切片图像数据集c中的每一张病理切片图像进行不重叠裁剪切块,同时对该张病理切片图像所对应掩膜图像在相同坐标下进行裁剪切块,得到胃肠道间质瘤病理切片图像块数据集其中,每个图像块的分辨率为512×512,cj和dj分别表示在第j张病理切片图像中图像块的左上角点在横坐标轴与纵坐标轴上的坐标,m表示胃肠道间质瘤病理切片图像数据集c中病理切片图像的数量;

2)构建预训练全卷积神经网络,包括编码器子网络和解码器子网络,其中,所述编码器子网络是由resnet50构成;所述的解码器子网络是由依次连接的第一卷积层、第二卷积层、第一上采样层、第三卷积层、第四卷积层、第二上采样层、第五卷积层、第六卷积层和第三上采样层构成;所述resnet50的输出是第一卷积层的输入,所述第三上采样层的输出构成预训练全卷积神经网络的输出,选取adam优化器对预训练全卷积神经网络进行梯度更新,并使用focalloss损失函数对预训练全卷积神经网络进行训练;

本发明是使用综合病理切片图像块数据集at对预训练全卷积神经网络进行训练,训练流程图如图1所示,训练中,批处理大小设置为64,预训练全卷积神经网络输出的概率图中的每个像素点的质对应图像块中每个像素点属于病灶区域的概率大小,训练50轮后得到更新权重后的预训练全卷积神经网络。

全卷积神经网络中包含的resnet50是参考了vgg19网络,在其基础上进行了修改,并通过短路机制加入了残差单元,利用残差学习来解决退化问题。直接使用步长为2的卷积做下采样,并且用globalaveragepool层替换了全连接层,相比普通网络每两层间增加了短路机制,这就形成了残差学习,当网络更深时,其进行的是三层间的残差学习,三层卷积核分别是1×1,3×3和1×1。

对于一个堆积层结构,输入为x时学习到的特征记为h(x),可以学习到残差f(x)=h(x)–x。因为残差学习相比原始特征直接学习更容易。当残差为0时,此时堆积层仅仅做了恒等映射,网络性能不会下降,实际上残差不会为0,这也会使得堆积层在输入特征基础上学习到新的特征,从而拥有更好的性能。

残差单元可以表示为:

yl=h(xl)+f(xl,wl)

xl+1=f(yl)

其中xl和xl+1分别表示的是第l个残差单元的输入和输出,f是relu激活函数,基于上式,求得从浅层l到深层l的学习特征为:

利用链式规则,可以求得反向过程的梯度:

式子的第一个因子表示的损失函数到达l的梯度,小括号中的1表明短路机制可以无损地传播梯度。

resnet50的每个卷积操层后面都依次连接一个批归一化层、一个relu非线性激活层和一个池化操作层;

每个卷积层都依据以下公式来提取特征图:

其中为向下取整,xin表示输入特征图大小,xout表示输出特征图大小,padding表示填充特征图像素点的大小,s表示步长,b表示卷积的核大小;

relu非线性激活层给神经元引入了非线性因素,relu非线性激活层公式如下:

f(x)=max(0,x)

批归一化就是通过规范化函数,将全卷积神经网络的每一层中的任意神经元输入值的分布强行拉回到均值为0方差为1的标准正态分布,所述规范化函数如下式:

式中,

k∈sand||s||=r

k∈sand||s||=r

其中,λd为第d个神经元原始激活值,为经过规范化操作后的规范值;η是通过神经元集合s中包含的r个神经元各自的激活值求出的均值,τ是为了增加训练稳定性而加入的小的常量数据,为根据均值和集合s中神经元各自激活值求出的激活值标准差,和ρd表示在训练过程中神经元学习到对应的两个调节因子;

所述的池化操作层用于对relu非线性激活层的输出进行特征融合和降维,池化操作层公式如下:

其中为向下取整,xin表示输入特征图大小,xout表示输出特征图大小,padding表示填充特征图像素点的大小,s表示步长,e表示池化窗口大小;

在池化操作层中,采用如下公式实现预训练全卷积神经网络中池化操作梯度的计算:

其中,loss表示为损失函数值,pooling_in表示为池化操作层输入,pooling_out表示为池化操作层输出,pooling.backward表示为池化操作层的反向传播。

解码器子网络中的上采样层使用的是双线性插值,关于线性插值的解释是,已知数据(a0,w0)与(a1,w1),计算[a0,a1]区间内某一位置a在直线上的w值:

双线性插值是有两个变量的插值函数的线性插值扩展,核心思想是在两个方向分别进行一次线性插值。例如需要得到未知函数f在点p=(a,w)的值,假设我们已知函数f在q11=(a1,w1)、q12=(a1,w2),q21=(a2,w1)以及q22=(a2,w2)四个点的值。分别在a方向和w方向进行线性插值,得到最后结果:

3)将训练完成的预训练全卷积神经网络中解码器子网络权重进行初始化后,得到一个新的全卷积神经网络,选取adam优化器对所述的全卷积神经网络进行梯度更新,并使用focalloss损失函数对所述的全卷积神经网络进行训练;其中,对全卷积神经网络进行训练时,是使用胃肠道间质瘤病理切片图像块数据集ac进行训练,批处理大小设置为64,全卷积神经网络输出的概率图中的每个像素点的质对应胃肠道间质瘤病理切片图像块中每个像素点属于核分裂象区域的概率大小,训练50轮后得到最终训练好的全卷积神经网络。

本发明的步骤2)和步骤3)中所述的adam优化器的更新规则如下:

(1)计算t时间梯度的指数移动平均数

首先计算梯度

其中,gt表示在t时间步上对参数θt所求的梯度,表示梯度算子,j(θt-1)表示一个可微分的随机标量函数;

根据梯度计算t时间梯度的指数移动平均数mt,公式如下:

mt=β1mt-1+(1-β1)gt

将一阶矩向量m初始化为0,β1为指数衰减率,默认为0.9,用于控制权重分配;

(2)计算梯度平方的指数移动平均数vt,公式如下:

将二阶矩向量v初始化为0,β2为指数衰减率,默认为0.999,用于控制之前的梯度平方的影响情况;

(3)由于一阶矩向量m初始化为0,会导致t时间梯度的指数移动平均数mt偏向于0,要对t时间梯度的指数移动平均数mt进行偏差纠正,降低偏差对训练初期的影响:

其中,为进行偏差纠正后的梯度均值;

(4)因为二阶矩向量v初始化为0导致训练初始阶段梯度平方的指数移动平均数vt偏向0,对梯度平方的指数移动平均数进行纠正,公式如下:

其中,为进行偏差纠正后的二阶原始矩估计;

(5)更新网络的参数θt,公式如下:

其中,α为学习率,默认学习率α的初始值为0.001,θt-1为更新前的网络的参数,常数ε=10-8,避免除数变为0;

在对全卷积神经网络进行训练时,随着训练次数的增加,学习率α逐渐衰减,衰减公式为:

其中,decayrate表示为衰减率,epoch_num表示为训练的次数,α0表示为初始学习率。

本发明的步骤2)和步骤3)中所述的focalloss损失函数是基于交叉熵损失ce的改进,所述的交叉熵损失ce表达式如下:

其中p表示预测概率,label表示标签值;

而综合病理切片图像块数据集at中的病灶区域一般相对于整张病理切片图像面积占比较小,因此在交叉熵损失ce的表达式中加上一个参数ξ,即:

再加上超参数γ,得到所述的focalloss损失函数lfl,公式为:

其中,超参数γ使得减少易分类病理切片图像的损失,使得全卷积神经网络更关注于困难的、错分的病理切片图像,参数ξ用于平衡类别不均衡。

4)对训练好的全卷积神经网络进行测试,测试流程图如图2所示,测试时首先对用于测试的胃肠道间质瘤病理切片图像进行预处理,得到n块大小为512×512的图像块,同时记录下每个图像块左上角的坐标,批处理大小为128,将所述的n块大小为512×512的图像块输入训练好的全卷积神经网络中,输出得到n个概率图,并根据每个图像块左上角的坐标,重新拼接成与预处理前胃肠道间质瘤病理切片图像大小相同的概率图,设置阈值为0.5后得到核分裂象区域的二值图。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1