一种乳腺癌评分系统中的细胞有丝分裂检测方法与流程

文档序号:11433397阅读:1266来源:国知局

本发明涉及一种乳腺癌评分系统中的细胞有丝分裂检测方法。



背景技术:

女性乳腺是由皮肤、纤维组织、乳腺腺体和脂肪组成的,乳腺癌是发生在乳腺腺上皮组织的恶性肿瘤。乳腺癌中99%发生在女性,男性仅占1%,乳腺癌是女性排名第一的常见恶性肿瘤。

全球乳腺癌发病率自20世纪70年代末开始一直呈上升趋势。美国8名妇女一生中就会有1人患乳腺癌。中国不是乳腺癌的高发国家,但不宜乐观,近年我国乳腺癌发病率的增长速度却高出高发国家1~2个百分点。

在乳腺癌的诊断过程中,病理医生首先从乳腺病变区域中提取组织样本,提取的样本被制作成组织切片。切片通常由h&e(hematoxylin&eosin)进行着色,目的是显示细胞的成分,h着色使得细胞核呈现蓝色,而e着色使得细胞质和结缔组织呈现粉红色。随后病理学家运用高倍显微镜来分析这些活组织切片,并根据诺丁汉评分系统(nottinghamgradingsystem)对乳腺癌进行病理分级。诺丁汉评分系统是由世界卫生组织推荐的乳腺癌国际评分系统。该系统综合评价了h&e着色切片的三种形态学特征,即腺小管的构成、细胞核的多形性以及有丝分裂的个数,病理医生根据以上提到的三种形态学特征的良性和恶性程度给出1-3分的打分,最后三个分值的总和(在1-9分范围内)便是该患者的诺丁汉评分系统的分值。医生最后根据该分值的高低确定相应的治疗方案。因此病理医生对三种形态学特征的准确打分非常重要。

对乳腺癌评级而言,有丝分裂细胞的个数是一个重要的指标。因为它对肿瘤的扩散和侵略性进行了评估。在临床实验中,病理学家对h&e着色的切片在显微镜放大的情况下人工计算有丝分裂的个数,通常放大40倍,在40倍视角下的可见区域被称为高能量区域(highpowerfield,hpf)。当前的病理诊断都是基于病理学家的个人经验,对于同一个切片,不同的病理学家由于经验的差别等因素对病理图像的人工分析具有差异性,即使是同一个病理学家在不同的时间段受疲劳程度以及心情好坏等的影响也会产生不同的诊断结果。针对这种情况,迫切需要一种基于图像分析的自动化分析工具来对数字病理学切片进行量化评估。这种量化的描述不仅能帮助临床诊断(如减少不同的观察者或者同一个观察者在不同时间段之间的诊断差异性),而且能够帮助病理学家理解使用某种具体诊断方法的潜在原因。此外,还能帮助研究人员理解疾病产生的生物学机理。

随着数字病理学的发展,病理切片经过扫描转化为数字图像,进而可以采用计算机视觉技术辅助病理医生诊断。早期方法多采用数字图像处理技术,但鲁棒性较差,检测效果不佳。近年来,以深度学习(deeplearning,dl)为代表的神经网络获得了突破性进展,利用卷积神经网络(convolutionalneuralnetwork,cnn)进行图像识别获得了广泛应用。

但是,对于cnn图像识别技术,有丝分裂细胞的检测是一个非常具有挑战性的课题。一方面对于研究者来说缺乏足够多可利用的数据;另一方面,有丝分裂细胞本身比较小并且形状和纹理变化很大,因此很容易跟其他物体、甚至是切片获取过程中引入的噪声混淆。

有丝分裂的四个主要阶段为有丝分裂前期、中期、后期和末期。在不同的阶段,细胞核的形状变化非常大。在大多数阶段,有丝分裂的细胞核和非有丝分裂的细胞核非常相似,或者是类似于其他深蓝色的点,没有经过专业训练的人很难区分它们。另一个复杂的问题是,在有丝分裂的末期,细胞核会分裂成两个深蓝色的斑点,即一个有丝分裂会有两个不同的细胞核,但它们还不是完整意义上的单个细胞。一个有丝分裂的末期被认为是一个单一的有丝分裂,不能认为是两个有丝分裂。



技术实现要素:

本发明的目的在于针对现有技术中存在的不足,提供一种乳腺癌评分系统中的细胞有丝分裂检测方法。

为实现上述目的,本发明解决其技术问题所采用的技术方案是:

一种乳腺癌评分系统中的细胞有丝分裂检测方法,包括如下步骤:

a、病理医师对乳腺癌数字化切片中的roi区进行人工标注,获取细胞有丝分裂的图像;

b、读入数字化切片文件图像,将图像切割成小块,通过查询病理医师标注文件中的信息,得到该小块图像中是否包含有丝分裂的信息,并对有丝分裂的位置予以标记,由此获得两类样本集,即:有丝分裂样本,不含有丝分裂样本;

c、设计细胞有丝分裂生成模型;

d、将不含有丝分裂的样本作为模拟训练集,模拟得到有丝分裂细胞样本;

e、将模拟得到的有丝分裂的样本作为训练样本,医生标注的有丝分裂的样本作为验证样本,启动cnn神经网络,开始训练,让网络自动学习有丝分裂的特征,建立识别模型。

作为优选,所述步骤c中,设计细胞有丝分裂生成模型,细胞的膨胀系数p1,腐蚀深度p2,椭圆腐蚀长短轴比p3,腐蚀角度p4,利用mga生成多组[p1,p2,p3,p4]的数值。

进一步优选,所述步骤c中,p1,p2,p3,p4均为一定长度n的矢量。

进一步优选,所述步骤d中,将模拟训练集,作如下变换:利用颜色识别每个样本中的细胞核;在一个样本中,随机选择若干个细胞核作变换,首先按p1作膨胀,然后在p4的角度腐蚀p2的深度,用于腐蚀的椭圆长短轴比为p3,[p1,p2,p3,p4]随机选择一组;记录经过变换,模拟得到的有丝分裂细胞。

作为优选,所述步骤d中,将获得的训练集样本随机旋转并做镜像操作,以及增加色彩噪音进行数据增强。

进一步优选,所述步骤e中,获取验证样本的识别准确率,以此作为mga的评价指标,评价模拟有丝分裂的模型有效性;比较mga生成的多组[p1,p2,p3,p4]参数,按优胜劣汰的策略淘汰识别准确率低的参数,保留准确率高的参数,并作交叉变异操作,随机生成新的[p1,p2,p3,p4]参数;从步骤d到e开始迭代,按预设的准确率指标结束,由此得到最优的[p1,p2,p3,p4]参数及cnn有丝分裂识别模型。

本发明半监督学习方式,通过病理医师对有丝分裂细胞进行标注,生成初始样本集,分为2类:含有丝分裂的样本和不含有丝分裂的样本,然后利用mga随机产生有丝分裂模型参数,随机地修改不含有丝分裂的样本,然后利用cnn神经网络学习样本特征,并用医生标记的含有丝分裂的样本作验证,通过不断迭代有丝分裂模型参数,最终获得用于识别有丝分裂的cnn模型。

本发明的有益效果在于:

本发明提出一种结合微种群遗传算法(microgeneticalgorithm,mga)和卷积神经网络cnn识别细胞有丝分裂的方法,通过遗传算法随机生成有丝分裂模型参数,利用cnn对其进行训练获得识别有丝分裂的检测模型,解决了训练样本量不足和常规图像识别方法通用性,鲁棒性不高的问题。

具体实施方式

本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。

实施例1:一种乳腺癌评分系统中的细胞有丝分裂检测方法,包括如下步骤:

a、病理医师对乳腺癌数字化切片中的roi区进行人工标注,获取细胞有丝分裂的图像;

b、读入数字化切片文件图像,将图像切割成小块,通过查询病理医师标注文件中的信息,得到该小块图像中是否包含有丝分裂的信息,并对有丝分裂的位置予以标记,由此获得两类样本集,即:有丝分裂样本,不含有丝分裂样本;

c、设计细胞有丝分裂生成模型;

d、将不含有丝分裂的样本作为模拟训练集,模拟得到有丝分裂细胞样本;

e、将模拟得到的有丝分裂的样本作为训练样本,医生标注的有丝分裂的样本作为验证样本,启动cnn神经网络,开始训练,让网络自动学习有丝分裂的特征,建立识别模型。

实施例2:一种乳腺癌评分系统中的细胞有丝分裂检测方法,包括如下步骤:

a、病理医师对乳腺癌数字化切片中的roi区进行人工标注,获取细胞有丝分裂的图像;

b、读入数字化切片文件图像,将图像切割成小块,通过查询病理医师标注文件中的信息,得到该小块图像中是否包含有丝分裂的信息,并对有丝分裂的位置予以标记,由此获得两类样本集,即:有丝分裂样本,不含有丝分裂样本;

c、设计细胞有丝分裂生成模型,细胞的膨胀系数p1,腐蚀深度p2,椭圆腐蚀长短轴比p3,腐蚀角度p4,利用mga生成多组[p1,p2,p3,p4]的数值,p1,p2,p3,p4均为一定长度n的矢量;

d、将不含有丝分裂的样本作为模拟训练集,,作如下变换:利用颜色识别每个样本中的细胞核;在一个样本中,随机选择若干个细胞核作变换,首先按p1作膨胀,然后在p4的角度腐蚀p2的深度,用于腐蚀的椭圆长短轴比为p3,[p1,p2,p3,p4]随机选择一组;记录经过变换,模拟得到的有丝分裂细胞,模拟得到有丝分裂细胞样本,将获得的训练集样本随机旋转并做镜像操作,以及增加色彩噪音进行数据增强;

e、将模拟得到的有丝分裂的样本作为训练样本,医生标注的有丝分裂的样本作为验证样本,启动cnn神经网络,开始训练,让网络自动学习有丝分裂的特征,建立识别模型,所述步骤e中,获取验证样本的识别准确率,以此作为mga的评价指标,评价模拟有丝分裂的模型有效性;比较mga生成的多组[p1,p2,p3,p4]参数,按优胜劣汰的策略淘汰识别准确率低的参数,保留准确率高的参数,并作交叉变异操作,随机生成新的[p1,p2,p3,p4]参数;从步骤d到e开始迭代,按预设的准确率指标结束,由此得到最优的[p1,p2,p3,p4]参数及cnn有丝分裂识别模型。

实施例3:一种乳腺癌评分系统中的细胞有丝分裂检测方法,包括如下步骤:

1)病理医师选取乳腺癌数字化切片(wholeslideimage,wsi)中的roi区(regionofinterest)进行人工标注,获取细胞有丝分裂的图像;

2)将图像切割成小块(patch),如:每个patch的尺⼨为128x128像素,通过查询病理医师标注文件中的信息,得到该patch中是否包含有丝分裂的信息,并对有丝分裂的位置予以标记,由此获得两类样本集,即:有丝分裂样本,不含有丝分裂样本;

3)设计细胞有丝分裂生成模型,细胞的膨胀系数p1,腐蚀深度p2,椭圆腐蚀长短轴比p3,腐蚀角度p4,为了模拟多种可能性,p1,p2,p3,p4均为一定长度n的矢量(如n=1000);

4)利用mga生成多组[p1,p2,p3,p4]的数值;

5)将不含有丝分裂的样本作为模拟训练集,作如下变换:

a)利用颜色识别每个样本中的细胞核;

b)在一个样本中,随机选择若干个细胞核作变换,目的是将其修改成模拟的有丝分裂细胞,首先按p1作膨胀,然后在p4的角度腐蚀p2的深度,用于腐蚀的椭圆长短轴比为p3,[p1,p2,p3,p4]随机选择一组;

c)记录经过变换,模拟得到的有丝分裂细胞;

6)将获得的训练集样本随机旋转90°,180°,270°,并做镜像操作,以及增加色彩噪音进行数据增强;

7)将模拟得到的有丝分裂的样本作为训练样本,医生标注的有丝分裂的样本作为验证样本,启动cnn神经网络(如:googlenet),开始训练,让网络自动学习有丝分裂的特征,建立识别模型;

8)训练结束后,获取验证样本(金标准)的识别准确率,以此作为mga的评价指标,评价模拟有丝分裂的模型有效性;

9)比较mga生成的多组[p1,p2,p3,p4]参数,按优胜劣汰的策略淘汰识别准确率低的参数,保留准确率高的参数,并作交叉变异操作,随机生成新的[p1,p2,p3,p4]参数;

10)从步骤5)到9)开始迭代,按预设的准确率指标结束,由此得到最优的[p1,p2,p3,p4]参数及cnn有丝分裂识别模型。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1