基于数据增强的肺结节检测方法及系统与流程

文档序号：14251181阅读：679来源：国知局

本发明涉及肺结节检测领域，具体涉及一种基于数据增强的肺结节检测方法及系统。

背景技术：

早期的肺癌在医学影像上呈现为一小团阴影，即肺结节。迄今为止，国内外已经出现了很多检测肺结节的工具。传统的x射线是一种简单、廉价、并广泛应用的胸片检测方式。然而，它检测早期肺癌的能力受技术和医生水平的限制而且识别率并不能得到很好的保证。影响最大、识别率最高的是多层螺旋ct技术，但其高辐射的危害也制约着这种技术的使用。随着医学影像技术的发展，胸片的分辨率和对比度都有了很大的提高，很多医院还是会利用胸片做一次初步诊断，而且一次胸片的辐射量不到ct的十分之一。

相对于ct图像，胸片的干扰因素很多，即使经验丰富的医生，偶尔也会因为长期看片的疲劳和压力发生漏诊误诊的情况。为了减少医生的工作量和压力，提高肺结节的检出率，很多研究人员开始从事计算机辅助诊断系统的研究。

在肺结节的诊断过程中，由于胸片的干扰因素多。现在常用的肺结节分割技术，例如基于边缘的分割方法、基于区域的分割方法、基于特征空间的分割方法，往往效率很低而且效果并不理想。

技术实现要素：

针对现有技术的不足，本发明提供了一种基于数据增强的肺结节检测方法及系统，解决了肺结节检测效率低的缺陷。

为实现以上目的，本发明通过以下技术方案予以实现：

根据本发明的第一方面，提供一种基于数据增强的肺结节检测方法，包括：

一种基于数据增强的肺结节检测方法，其特征在于，包括：

解析出图像数据库中的胸片正位图，将所述胸片正位图转换成jpg图像；

利用自适应直方图均衡化算法对转换成jpg图像的胸片正位图进行预处理，并将进行预处理后的所述胸片正位图按预设比例分为训练集、验证集及测试集；

利用所述训练集及所述验证集训练和调整卷积神经网络模型，并通过所述测试集评测所述卷积神经网络模型的准确率；

在所述训练集及所述验证集上将胸片正位图中抠出的肺结节区域作为模型训练的负样本，将胸片正位图中其他区域随机裁剪作为模型训练的正样本，对所述负样本进行变形处理以增强负样本数量；

利用滑动窗口将整张的jpg图像的胸片正位图分成不重叠的图像块，然后将所述图像块输入到所述卷积神经网络模型中判断所述图像块的为正样本或负样本；

如果所述图像块为负样本，则所述胸片正位图上存在肺结节区域。

进一步地，所述将进行预处理后的所述胸片正位图按预设比例分为训练集、验证集及测试集，包括：

将进行预处理后的所述胸片正位图按7:1:2的比例分为训练集、验证集及测试集。

进一步地，所述在所述训练集及所述验证集上将胸片正位图中抠出的肺结节区域作为模型训练的正样本，包括：

根据xml文件中的标注信息抠出所述肺结节区域，将肺结节区域作为模型训练的正样本；

其中，所述图像数据库为肺部影像数据库，所述肺部影像数据库包括针对胸片正位图上肺结节的xml标注文件。

进一步地，所述对至少两个所述负样本进行融合处理以增强负样本数量，包括：

将至少两个所述负样本中的肺结节区域采用高斯融合算法进行融合处理，形成新的负样本，将所述新的负样本作为训练数据。

进一步地，所述利用滑动窗口将整张的jpg图像的胸片正位图分成不重叠的图像块，包括：

所述滑动窗口的步长设定为100，将整张的jpg图像的胸片正位图分成不重叠的图像块。

根据本发明的第二方面，提供一种基于数据增强的肺结节检测系统，包括：

转换模块，用于解析出图像数据库中的胸片正位图，将所述胸片正位图转换成jpg图像；

划分模块，用于利用自适应直方图均衡化算法对转换成jpg图像的胸片正位图进行预处理，并将进行预处理后的所述胸片正位图按预设比例分为训练集、验证集及测试集；

训练模块，用于利用所述训练集及所述验证集训练和调整卷积神经网络模型，并通过所述测试集评测所述卷积神经网络模型的准确率；

增强模块，用于在所述训练集及所述验证集上将胸片正位图中抠出的肺结节区域作为模型训练的负样本，将胸片正位图中其他区域随机裁剪作为模型训练的正样本，对所述负样本进行变形处理以增强负样本数量；

检测模块，用于利用滑动窗口将整张的jpg图像的胸片正位图分成不重叠的图像块，然后将所述图像块输入到所述卷积神经网络模型中判断所述图像块的为正样本或负样本；

判断模块，用于如果所述图像块为负样本，则所述胸片正位图上存在肺结节区域。

进一步地，所述划分模块包括：

划分子单元，用于将进行预处理后的所述胸片正位图按7:1:2的比例分为训练集、验证集及测试集。

进一步地，所述增强模块包括：

第一增强子单元，用于根据xml文件中的标注信息抠出所述肺结节区域，将肺结节区域作为模型训练的正样本；

其中，所述图像数据库为肺部影像数据库，所述肺部影像数据库包括针对胸片正位图上肺结节的xml标注文件。

进一步地，所述增强模块包括：

第二增强子单元，用于将至少两个所述负样本中的肺结节区域采用高斯融合算法进行融合处理，形成新的负样本，将所述新的负样本作为训练数据。

进一步地，所述检测模块包括：

检测子单元，用于所述滑动窗口的步长设定为100，将整张的jpg图像的胸片正位图分成不重叠的图像块。

本发明实施例提供了一种基于数据增强的肺结节检测方法及系统。具备以下有益效果：

本发明利用滑动窗口及卷积神经网络对胸片上的肺结节进行端到端检测和定位，可提高肺结节的检测效率，降低假阳性率；并通过对负样本进行变形处理，可以克服胸片数据不足导致的模型的过拟合现象。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例示出的一种基于数据增强的肺结节检测方法的流程图。

图2是本发明一实施例示出的一种基于数据增强的肺结节检测系统的模块框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

使用timeline，即用时光轴、时间线的方式来展示用户的社交信息，在时间的维度上让用户查看自己的社交信息、个人印迹或自己喜爱的资讯。以数据中心底层数据分析为依托，抽取、拼装学生在校期间的数据，以时间轴的形式展现、记录学生从入学到离校的整个大学生涯。由此提供以下实施例：

图1是本发明一实施例示出的一种基于数据增强的肺结节检测方法的流程图。如图1所示，本发明提供的一种基于数据增强的肺结节检测方法，包括以下步骤：

在步骤100中，解析出图像数据库中的胸片正位图，将所述胸片正位图转换成jpg图像。

在本发明一实施方式中，所述图像数据库为胸片数据库，采用来源于全称为肺部影像数据库(lidc数据库，lungimagingdatabaseconsortium)，该数据库是由美国癌症研究协会建立的一个统一的肺部图像数据库。所述图像数据库包括290例胸部x光扫描图，其中每份x光扫描图包括一份或几份dicom文件(必有一份为胸片正位图)以及一份针对胸片正位图上肺结节的xml标注文件。

在该步骤中，通过解析290例胸部x光扫描图所包含的dicom文件，定位到其中的胸部像素信息，以确定所述胸片正位图。将所述胸片正位图转换成jpg图像，以便于对所述胸片正位图进行处理及识别。

在步骤200中，利用自适应直方图均衡化算法对转换成jpg图像的胸片正位图进行预处理，并将进行预处理后的所述胸片正位图按预设比例分为训练集、验证集及测试集。

自适应直方图均衡化算法是一种重要的空间域图像处理方法，是图像增强、图像压缩和图像识别的基础。利用所述自适应直方图均衡化算法对所述胸片正位图进行图像的局部处理，例如，提高局部胸片正位图进行图像的对比度改进以获得更多的图像细节。

然后，把290例胸片数据按照7:1:2分为训练集、验证集和测试集。该步骤将胸片数据进行分集处理，用于训练图像识别模型。

在步骤300中，利用所述训练集及所述验证集训练和调整卷积神经网络模型，并通过所述测试集评测所述卷积神经网络模型的准确率。

深度学习在图像领域有了很突出的表现，尤其是卷积神经网络，其在人脸识别和手写数字识别领域有着非常高的识别率。此外，各种基于卷积神经网络的样本扩大方案也被广泛使用，解决了训练样本少的问题。因此可利用卷积神经网络模型训练实现图像识别。

通过所述训练集及所述验证集训练和调整卷积神经网络模型，可以提高卷积神经网络模型学习效率，通过所述测试集来提高卷积神经网络模型的准确率。三个分集相互作用，可使得卷积神经网络模型对肺结节识别的准确性。

在步骤400中，在所述训练集及所述验证集上将胸片正位图中抠出的肺结节区域作为模型训练的负样本，将胸片正位图中其他区域随机裁剪作为模型训练的正样本，对所述负样本进行变形处理以增强负样本数量。

在该步骤中，可根据xml文件中的标注信息抠出所述肺结节区域，将肺结节区域作为模型训练的负样本。其中，所述图像数据库为肺部影像数据库，所述肺部影像数据库包括针对胸片正位图上肺结节的xml标注文件。作为一种实施方式，在训练集和验证集上，根据数据集中的xml文件中的标注信息抠出肺结节区域patch(大小为300*300像素)作为模型训练的负样本，正样本则从余下区域随机裁剪300*300像素大小的patch。

在对所述负样本进行处理时，将至少两个所述负样本中的肺结节区域采用高斯融合算法进行融合处理，形成新的负样本，将所述新的负样本作为训练数据。例如，对于负样本所在的patch图像，将抠出patch图像中肺结节所在的区域，采用高斯融合算法与其他负样本patch图像的肺结节区域相融合，构造出新的负样本patch图像，最终将把负样本数据扩展到n*(n-1)倍。扩充负样本的样本数量，可防止数据集太少造成的模型过拟合。

采用卷积神经网络模型训练正、负样本(即二分类模型)，初始学习速率可设为0.001。这样，我们就可以利用这个模型来判断一个300*300像素大小的肺部patch图像样本的正负类型。如果所述图像块为负样本，则所述胸片正位图上存在肺结节区域。若果所述图像块为负样本，则所述胸片正位图上不存在肺结节区域，为正常。

在步骤500中，利用滑动窗口将整张的jpg图像的胸片正位图分成不重叠的图像块，然后将所述图像块输入到所述卷积神经网络模型中判断所述图像块的为正样本或负样本。

在一实施例中，在测试集上采用基于卷积神经网络模型的滑动窗口的方法检测肺结节，即把一个整张胸部jpg图像不重叠分成许多300*300的patch图像(图像块)，然后把得到的patch图像输入到训练所得到的卷积神经网络模型中去判断正负类型。如果为正样本则此patch包含可疑肺结节区域，否则不含可疑区域。综合考虑时间和检测能力，所述滑动窗口的步长设定为100。

在步骤600中，如果所述图像块为负样本，则所述胸片正位图上存在肺结节区域。

由上述实施例可知，本发明采用基于滑动窗口的卷积神经网络(cnn)对胸片上的肺结节进行端到端检测和定位。并且通过一系列的图像数据增强方案，提高模型的鲁棒性，降低了假阳性率。克服胸片数据不足导致的模型的过拟合现象。

图2是本发明一实施例示出的一种基于数据增强的肺结节检测系统的模块框图。如图2所示，本发明提供一种基于数据增强的肺结节检测系统，包括：

转换模块210，用于解析出图像数据库中的胸片正位图，将所述胸片正位图转换成jpg图像；

划分模块220，用于利用自适应直方图均衡化算法对转换成jpg图像的胸片正位图进行预处理，并将进行预处理后的所述胸片正位图按预设比例分为训练集、验证集及测试集；

训练模块230，用于利用所述训练集及所述验证集训练和调整卷积神经网络模型，并通过所述测试集评测所述卷积神经网络模型的准确率；

增强模块240，用于在所述训练集及所述验证集上将胸片正位图中抠出的肺结节区域作为模型训练的负样本，将胸片正位图中其他区域随机裁剪作为模型训练的正样本，对所述负样本进行变形处理以增强负样本数量；

检测模块250，用于利用滑动窗口将整张的jpg图像的胸片正位图分成不重叠的图像块，然后将所述图像块输入到所述卷积神经网络模型中判断所述图像块的为正样本或负样本；

判断模块260，用于如果所述图像块为负样本，则所述胸片正位图上存在肺结节区域。

进一步地，所述划分模块210包括：

划分子单元，用于将进行预处理后的所述胸片正位图按7:1:2的比例分为训练集、验证集及测试集。

进一步地，所述增强模块240包括：

第一增强子单元，用于根据xml文件中的标注信息抠出所述肺结节区域，将肺结节区域作为模型训练的正样本；

其中，所述图像数据库为肺部影像数据库，所述肺部影像数据库包括针对胸片正位图上肺结节的xml标注文件。

进一步地，所述增强模块240还包括：

第二增强子单元，用于将至少两个所述负样本中的肺结节区域采用高斯融合算法进行融合处理，形成新的负样本，将所述新的负样本作为训练数据。

进一步地，所述检测模块250包括：

检测子单元，用于所述滑动窗口的步长设定为100，将整张的jpg图像的胸片正位图分成不重叠的图像块。

上述基于数据增强的肺结节检测系统对应上述基于数据增强的肺结节检测方法，具体系统的实施例可参考所述方法的实施例。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙晓;夏平平;丁帅;杨善林
技术所有人：合肥工业大学
我是此专利的发明人

上一篇：学生体质健康大数据分析系统的制作方法
上一篇：一种基于互联网的老年人健康评估体系的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。