基于深度学习与迁移学习的图像识别方法与流程

文档序号：11654999阅读：3879来源：国知局

本发明属于图像识别技术领域，具体地涉及一种基于深度学习与迁移学习的图像识别方法。

背景技术：

随着大数据时代的到来，深度学习技术被越来越多地运用到图像识别的应用中。深度学习是一种源于人工神经网络的强大技术。而人工神经网络则受自然界生物的神经网络启发，通过构建多层次的神经元，加上大量数据的反复训练，进而达到类似人类的准确识别图像的能力。

在图像识别领域，深度学习技术已被无数事实证明是目前最有效的手段。理论上说，参数越多的模型复杂度越高，能力也越大，但也意味着训练效率相对更低，也更易与陷入过拟合。神经网络层数越多，每轮训练向前传递的误差更为发散，同时，计算误差所需时间复杂度更是随层数的增加呈指数型增大。

在传统的机器学习的框架下，学习的任务就是在给定充分训练数据的基础上来学习一个分类模型；然后利用这个学习到的模型来对测试样本进行分类与预测。然而，我们看到机器学习算法在当前的图像识别研究中存在着一个关键的问题：一些新出现的领域中的大量有标记的训练图片数据非常难得到。图形识别在医疗领域的发展非常快速，传统的机器学习需要对每种疾病图像都标定大量训练数据，这将会耗费大量的人力与物力。而没有大量的标注数据，会使得很多与学习相关研究与应用无法开展。这往往需要我们去重新标注大量的训练数据以满足我们训练的需要，但标注新数据是非常昂贵的，需要大量的人力与物力。迁移学习可以从现有的数据中迁移知识，用来帮助将来的学习。

目前，对于图像识别类产品，人们更多关注的是计算机对人脸、车牌、运动目标等生活图像的识别。而对于医学领域的图像识别，由于缺乏专业图像素材以及医学专家的支持，许多图像识别任务存在训练时间过长、样本数量不足以支撑卷积神经网络的训练、模型在新样本上表现不佳等诸多问题。

技术实现要素：

本发明的目的在于针对现有技术的缺陷，提供一种能够提高图像识别准确度的基于深度学习与迁移学习的图像识别方法。

本发明的技术方案如下：一种基于深度学习与迁移学习的图像识别方法包括如下步骤：一、准备阶段：读取预训练模型，并读取图片目录，划分训练集、验证集以及测试集；二、训练阶段：构造全连接神经网络分类器，并将图片集作为所述预训练模型的输入，使用与所述预训练模型的输出更新所述全连接神经网络分类器；三、存储阶段：存储模型结果。

优选地，在步骤一中，准备阶段具体包括如下步骤：检查与训练模型是否存在；如果否，则下载所述预训练模型；如果是，则读取读取所述预训练模型，并读取图片目录，划分训练集、验证集以及测试集。

优选地，在步骤二中，所述训练阶段具体包括如下步骤：在读取所述预训练模型后，构造所述全连接神经网络分类器；开始新的训练迭代；将图片集作为所述预训练模型的输入，使用与所述预训练模型的输出更新所述全连接神经网络分类器；检查是否达到规定迭代次数，如果否，则跳转到所述开始新的训练迭代步骤；如果是，则执行步骤三。

优选地，在训练阶段的训练迭代中，具体包括如下步骤：根据标签随机读取若干图片；随机对图像进行翻转和平移；使用所述预训练模型提取变形后图像的特征值；将所述特征值作为所述全连接神经网络分类器的输入，并更新神经网络参数；判断是否达到规定的采样次数，如果是，则结束；如果否，则返回根据标签随机读取若干图片步骤。

优选地，在步骤三的存储阶段之后还包括预测阶段，所述预测阶段包括如下步骤：读取所述预训练模型的结果模型；接收新图片作为所述结果模型的输入；根据所述结果模型的输出，得到阳性概率；判断是否仍有图片需要预测，如果是，则跳转到接收新图片作为所述结果模型的输入的步骤；如果否，则结束。

本发明提供的技术方案具有如下有益效果：

所述基于深度学习与迁移学习的图像识别方法结合深度学习与迁移学习的应用，从而在极有限的训练时间、训练样本数量的基础上，为使用者提供相对准确的膀胱癌诊断结果；

而且，在训练阶段，训练数据集需求量极大缩小，深度神经网络通常需要上万张图像的用意训练，本模型仅仅使用约500张原始图像用以训练；

此外，在训练阶段，训练时间大幅缩短，300秒以内即可完成相应的训练，并且预测模型在新样本上的表现良好，预测准确率达到了85％以上。

附图说明

图1是本发明实施例提供的基于深度学习与迁移学习的图像识别方法的流程示意图；

图2是图1所示基于深度学习与迁移学习的图像识别方法的训练阶段中训练迭代的流程示意图；

图3是图1所示基于深度学习与迁移学习的图像识别方法的预测阶段的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

除非上下文另有特定清楚的描述，本发明中的元件和组件，数量既可以单个的形式存在，也可以多个的形式存在，本发明并不对此进行限定。本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。可以理解，本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。

请参阅图1，本发明实施例提供的基于深度学习与迁移学习的图像识别方法具体地包括如下步骤：

一、准备阶段：读取预训练模型，并读取图片目录，划分训练集、验证集以及测试集。

具体的，在步骤一中，准备阶段具体包括如下步骤：

检查与训练模型是否存在；

如果否，则下载所述预训练模型；如果是，则读取读取所述预训练模型，并读取图片目录，划分训练集、验证集以及测试集。

二、训练阶段：构造全连接神经网络分类器，并将图片集作为所述预训练模型的输入，使用与所述预训练模型的输出更新所述全连接神经网络分类器。

在训练阶段，针对深度神经网络训练时间长和计算量大的缺点，训练阶段采用inceptionv3网络作为深度学习的主体结构。inceptionv3是一种卷积神经网络。卷积神经网络由卷积层、池化层循环叠加构成。卷积层通过共享权重和偏倚，即让一组神经元使用相同的权重和偏倚，能有效节省训练开销。卷积层通过多个feature-map将提取的图像特征交由池化层简化、浓缩处理；然后再由第二卷积层在此基础上继续提取特征……如此层层递进，最终形成一个高效的提取图像特征的卷积神经网络。

而且，获取卷积神经网络提供的特征之后，使用迁移学习的方法，在已有的上述卷积神经网络的基础上搭建新的一层专门用于膀胱癌检测的神经网络分类器，从而既利用了卷积神经网络强大的特征提取能力，又实现了对特定种类图像的高精度预测。

具体的，在步骤二中，所述训练阶段具体包括如下步骤：

在读取所述预训练模型后，构造所述全连接神经网络分类器；

开始新的训练迭代；

将图片集作为所述预训练模型的输入，使用与所述预训练模型的输出更新所述全连接神经网络分类器；

检查是否达到规定迭代次数，如果否，则跳转到所述开始新的训练迭代步骤；如果是，则执行步骤三。

实际上，针对原始训练样本不足的问题，除了利用迁移学习方法，训练阶段还采取图像增强手段，例如，通过旋转、翻转、平移等，尽可能多地增大训练集规模。

请参阅图2，在训练阶段的训练迭代中，具体包括如下步骤：

根据标签随机读取若干图片；

随机对图像进行翻转和平移；

使用所述预训练模型提取图像的特征值；

将所述特征值作为所述全连接神经网络分类器的输入，并更新神经网络参数；

判断是否达到规定的采样次数，如果是，则结束；如果否，则返回根据标签随机读取若干图片步骤。

而且，为了缓解训练阶段的低效性，一方面可以通过利用天数科技底层平台的高效计算，从而有效提高模型在新样本上的预测能力；另一方面，还可以通过dropout方法提高训练模型在新样本上的预测能力。即，dropout通过在每一轮训练中，随机选择若干比例的神经元，使其与其它节点的连接权重不发生更新，表面上看似乎对训练资源有所浪费，而实际结果却表明，通过这种方式所训练出的模型反而具有更强大的泛化能力。

三、存储阶段：存储模型结果。

四、预测阶段：根据存储的所述模型结果对新图片进行预测。

请参阅图3，在步骤四中，所述预测阶段包括如下步骤：

读取所述预训练模型的结果模型；

接收新图片作为所述结果模型的输入；

根据所述结果模型的输出，得到阳性概率；

判断是否仍有图片需要预测，如果是，则跳转到接收新图片作为所述结果模型的输入的步骤；如果否，则结束。

相较于现有技术，本发明提供的技术方案具有如下有益效果：

而且，在训练阶段，训练数据集需求量极大缩小，深度神经网络通常需要上万张图像的用意训练，本模型仅仅使用约500张原始图像用以训练；

此外，在训练阶段，训练时间大幅缩短，300秒以内即可完成相应的训练，并且预测模型在新样本上的表现良好，预测准确率达到了85％以上。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕艳洁;戴川
技术所有人：南京天数信息科技有限公司
我是此专利的发明人

上一篇：一种旋转锁止机构及其应用的车锁的制造方法与工艺
上一篇：一种基于MFC交互式人脸图像属性标注方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。