基于深度学习的乳腺癌病理切片中癌症区域的检测方法与流程

文档序号:17624687发布日期:2019-05-10 23:31阅读:1346来源:国知局
基于深度学习的乳腺癌病理切片中癌症区域的检测方法与流程

本发明属于人工智能领域,涉及一种基于深度学习的乳腺癌病理切片中的癌症区域检测方法。



背景技术:

乳腺癌(breastcancer)是一种从乳房组织发展而来的癌症腺癌是乳腺导管上皮细胞发生异常增生,超过自我修复能力而发生的恶性肿瘤。它是一种严重危害女性身心健康的常见恶性疾病,不但危及患者生命,还能造成女性器官的损毁,已成为50岁以上妇女恶性肿瘤致死的主要原因之一。它在临床上表现为微钙化簇和乳腺肿块,早期无症状,具有发病隐匿,愈后差等特点。

前哨淋巴结活检术(sentinellymphnodebiopsy,slnb)是一种安全、精确的手术方式,已逐渐替代腋窝淋巴结清扫术成为早期乳腺癌治疗的标准术式,是评估癌细胞是否沿淋巴管转移扩散和淋巴结分期的金标准。该技术的创伤小,降低术后患者的上肢水肿发病率,减少并发症发生概率,明显改善患者术后的生活质量。活检过程中收集的组织通常用苏木精和曙红(h&e)染色,然后由专家进行分析。病理学家通过前哨淋巴结活检术来评估组织的微观结构和元素,将其分为正常组织,非恶性(良性)和恶性病变,并进行预后评估。在此过程中,评估整个载玻片组织扫描的相关区域。染色增强细胞核(紫色)和细胞质(粉红色),以及其他感兴趣的结构。在分析染色组织时,病理学家分析整个组织结构,以及细胞核组织,密度和变异性。例如,具有浸润癌的组织显示出结构的变形以及更高的核密度和变异性,而在正常组织中,结构得以维持并且细胞核组织良好。

据美国癌症协会(americancancersociety,acs)研究表明,早期的乳腺癌在癌细胞未扩散的情况下,5年存活率高达98%。早期发现和诊断是降低乳腺癌发病率和死亡率的最有效途径。早预防、早发现、早诊断、早治疗,是乳腺癌防治的关键。在乳腺癌诊断中,常用的方法有触诊式诊断、组织学诊断、细胞学诊断、影像学诊断等。这些诊断方法比较复杂,实际使用时一般都需要依靠人工手动操作完成,且这些人工提取特征的方法易导致部分特征信息的丢失,使得诊断识别性能不太理想,在准确率、漏检率上都存在不足。

为解决现有技术中的缺点和不足,本发明提出一种基于深度学习的乳腺癌病理切片中癌症区域的检测方法,将深度学习与病理切片图像识别相结合,辅助医生诊断乳腺癌。

本发明所采用的癌症区域检测方法包括如下步骤:

步骤一、数据预处理,使用灰度阈值方法提取数据集切片中的组织部分,用于后续裁剪合理的目标检测区域;所述的数据集为乳腺癌病理切片;

步骤二、将原始的乳腺癌病理切片分为训练样本、验证样本和测试样本,再使用网格裁剪方法,从切片的组织区域中裁剪相同大小的图片样本,并缩小图片的尺寸为原尺寸的1/3;

步骤三、将训练样本和验证样本分别放在分类的数据文件中,在训练过程中,针对数据集合中的正负样本不均衡问题,使用等概率采样的实时过采样方法来解决,针对数据集合中的有些类别样本数量少的问题,使用随机裁剪、旋转、翻转和颜色增强方法来解决;

步骤四、将采样出来的样本依次放入卷积神经网络中进行训练,卷积神经网络采用使用inception和resnet原则设计构造的inception-resnet-v2网络;

步骤五、通过带标签的数据训练,误差自顶向下传输,对每一层的参数进行微调,将网络的训练结果和在验证集合上的运行准确率进行可视化实时显示,根据验证集合上的准确值和损失值曲线进行网络微调;

步骤六、设定运行多个代数后,至验证集的准确率达到最高;保存所有训练过程中的参数和模型,训练过程结束后将测试样本输送到网络中,进行无标签图像预测分类,预测测试图像并计算代表相应分类可能性;最后输出为正常组织、良性、原位癌和浸润癌,把预测样本结果合成一张切片大小的图像就是最后的切片癌症区域检测结果。

本发明的有益效果:

1)本发明提出的自动化乳腺癌病理切片癌症区域检测系统可以辅助病理医生诊断乳腺癌,减轻医生压力,减小人工误差,充分发挥了深度学习的自我学习的优势,利用深层网络提取到增强型的高级特征,实验结果表明我们学习到的特征具有更高的区分性;

2)该系统还结合乳腺癌诊断的特点,原位癌和浸润癌的区分需要更多关于组织的信息,根据该特点使用了缩放的方法和inception结构,充分整合组织的信息,提高了分类的准确性;

3)针对该数据集切片中各个类别乳腺癌区域大小差别大的特点,系统地使用了类别等概率的实时过采样方法和多种在医疗疾病图像上合理的数据增强方法,解决了数据不平衡和良性、原位癌类别数据量很少的问题。

附图说明

图1是本发明基于深度学习的乳腺癌癌症区域检测方法的基本流程图。

图2是部分深度学习网络结构图;

图3(a)是原始的病理切片;

图3(b)是医生标注的癌症区域;

图3(c)是采用本发明的癌症区域标注结果。

具体实施方式

本发明采用一个inception-resnet深度卷积神经网络来完成该4分类任务。该网络先用小尺寸卷积核进行检测卷积和池化方法来减小计算量。接下来是一个卷积组和多个残差卷积组的串联,用来实现多尺度的特征提取,同时使用残差方法可以减小优化难度,加快训练速度,最重要的作用是能够让网络从深度中得到足够的增益效果。网络的最后是全局平均池化,不仅可以用来减小计算量,还可以起到正则化的效果,提高模型的在实际使用中的准确率。

如图1所示,以下举例说明本发明整个过程的具体实施方式如下:

1、利用国际图像分析和识别会议(iciar)数据库2018年对乳腺癌病理切片癌症区域检测挑战公开的10张标记好的训练集乳腺癌病理切片图像和20张作为测试集的切片图像,此数据从国际上领先的医学研究所收集,且由多名病理学家标注。训练方式为带标签的数据进行有监督的学习;

2、对病理切片图像通过灰度阈值方法提取其中的组织区域,首先把图像的颜色空间从rgb转换到hsv空间,设置固定的阈值,提取出组织区域;

3、在乳腺癌病理切片的组织区域上通过网格裁剪出需要的样本,同时针对样本图像小,不能容纳足够的组织信息的特点,使用缩放方法,把样本图像缩小3倍,包含了足够的信息来进行接下来的网络模型中的分类操作;

4、输入层中,针对良性和原位癌样本小的特点,首先结合乳腺癌病理切片没有固定方向的特点,系统地使用合理的数据增强技术,包括随机裁剪、旋转、左右翻转等几何变换的数据增强技术。同时也使用了随机亮度、锐化等颜色变换的数据增强技术。在训练的时候实时进行数据增强,能够增大数据集的多样性,扩充训练样本集,有效提高分类器的泛化能力。最后用类别等概率的实时过采样方法,来解决数据集的各个类别数据不平衡的问题;

5、采用动量优化方法进行权重参数和偏移量的调整,模拟物理里动量,积累之前的动量来替代真正的梯度。下降初期时,使用上一次参数更新,下降方向一致,能够进行很好的加速,下降中后期时,在局部最小值来回振荡的时候,使得更新幅度增大,跳出陷阱,在梯度改变方向的时候,能够在相关方向加速梯度下降,抑制振荡,从而加快收敛;

6、将训练好的各层中的权重参数矩阵和偏移量,对应地赋值给网络中的各层,则该网络具有乳腺癌的特征提取和识别的功能。最后对测试集的样本进行预测分类,将结果对应合并,最后结果过程如图3(a)~(c)所示。

如图2所示,本发明在实施过程中构建的神经网络,主要由卷积组、残差模块和分类器三个部分构成,在模型中使用了随机失活来避免过拟合的现象。但模型训练过程中依然存在过拟合。为了解决这个问题,我们在图像数据集上使用了数据增强,例如随机裁剪、水平翻转、随机旋转、随机亮度变换和随机锐化等。

为了在不增大样本图片从而导致计算量增大的情况下,保证样本图片中有足够的组织信息用于分类,该方法使用了缩放方法,裁剪出比输入样本图片大3倍的图片,然后缩小3倍,和输入样本图片一样的尺寸构建数据集。

在这里所使用的用于乳腺癌上的inception-resnet网络最初是在imagenet上训练,该数据集包含了大约100万张自然图像和1000个标签/分类。由于我们的任务是4分类,因此调整了网络结构,把原本的分类层输出层神经元个数改为4个,从而满足了该项任务4分类的要求。

实验结果证明了该方法具有更高的特异性和灵敏度,说明了数据增强和缩放方法,以及该网络,对于模型识别是有一定提升效果的。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1