图像分类方法、装置及计算机可读存储介质与流程

文档序号:13662165阅读:191来源:国知局
图像分类方法、装置及计算机可读存储介质与流程

本发明涉及图像处理技术,特别涉及一种图像分类方法、装置及计算机可读存储介质。



背景技术:

随着多媒体技术与计算机设备网络的广泛应用,网络上出现大量图像数据。如何能够有效的管理这些图像文件,自动识别和分类这些图像的内容变的越来越重要。

目前,随着机器学习方法的不断完善和发展,深度学习算法越来越受到重视,其中卷积神经网络就是深度学习中一种重要的算法,目前已成为图像识别领域的研究热点。基于卷积神经网络的图像分类技术能够自动从图像中提取特征信息,通过提取的特征进行图像表达。

然而,针对不同具体领域或者不同类别的图像,基于卷积神经网络进行分类时,往往需要分别建立与该领域或者类别对应的网络模型,每个网络模型包含的层级与整体架构通过训练的方式进行确定,而为了获取更好的特征表达能力以取得更好的分类精度,尤其是针对分类精度要求更高的领域,往往需要针对同一领域或类别的图像分别获得更多相同或者同类的原始图像数据作为训练数据,以增加网络深度、扩大网络规模,通过更多训练数据来将网络模型的各个层级的架构分别基于前一层级的架构确定后再进行搭建,从而网络模型训练方式复杂,且训练得到的网络模型对图像的分类精度不够稳定。



技术实现要素:

为解决现有存在的技术问题,本发明实施例提供一种训练方式简单、且可提高分类精度稳定性的图像分类方法、装置及计算机可读存储介质。

为达到上述目的,本发明实施例的技术方案是这样实现的:

一种图像分类方法,包括:获得原始图像、以及所述原始图像中所包括的对象的类别;调整所述原始图像的显示参数满足取值条件;根据所述显示参数的分布需要满足的分布条件,对所述原始图像的所述显示参数进行变换获得新图像;基于调整后的原始图像和新图像构造的训练集、以及所包括对象的类别,训练神经网络模型;基于训练后的所述神经网络模型,判断待预测图像中所包括对象的类别。

一种图像分类装置,包括:获取模块,用于获得原始图像、以及所述原始图像中所包括的对象的类别;调整模块,用于调整所述原始图像的显示参数满足取值条件;变换模块,用于根据所述显示参数的分布需要满足的分布条件,对所述原始图像的所述显示参数进行变换获得新图像;训练模块,用于基于调整后的原始图像和新图像构造的训练集、以及所包括对象的类别,训练神经网络模型;预测模块,用于基于训练后的所述神经网络模型,判断待预测图像中所包括对象的类别。

一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例所提供的图像分类方法。

本发明实施例中,通过获取原始图像、以及所述原始图像中所包括的对象的类别,调整原始图像的显示参数满足取值条件获得调整后的原始图像,根据显示参数的分布需要满足的分布条件对原始图像的显示参数进行变换获得新图像,获取的新图像的数量可以通过显示参数的分布需要满足的分布条件而进行调整,从而可以基于调整后的原始图像和新图像,构造更多有效的用于训练神经网络模型的训练集,针对同一领域或类别的原始图像的数量较少的情况下也能够获得稳定的分类精度;基于调整后的原始图像和新图像构造的训练集、以及所包括对象的类别,训练神经网络模型是可以已知的神经网络模型为基础进行训练,通过训练更新神经网络模型的权重,得到训练后的神经网络模型进行预测,从而训练方式更加简单。

附图说明

图1为本发明一实施例中图像分类方法的应用场景示意图;

图2为本发明一实施例中图像分类方法的流程图;

图3为本发明一实施例中bp神经网络的神经元模型示意图;

图4为本发明一实施例中bp神经网络模型的示意图;

图5为本发明一实施例中卷积神经网络的卷积层操作示意图;

图6为本发明一实施例中卷积神经网络的池化层示意图;

图7为本发明一具体实施例中图像分类方法的流程图;

图8为本发明另一具体实施例中图像分类方法的流程图;

图9为图8所示实施例中神经网络模型的结构示意图;

图10为本发明一实施例中图像分类装置的硬件结构示意图;

图11为本发明另一实施例中图像分类装置的结构示意图。

具体实施方式

以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

对本发明进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。

1)对象,本文中指用于进行分类的对象,如人和物体等。

2)样本图像,即包括有对象的成像的图像,例如jpeg等各种数字格式的图像。

3)图像锐化(也称为图像增强),通过各种手段提升样本图像中对象的成像特性,扩大样本图像中对象的成像区域与其他区域的区别度。

4)损失函数(lossfunction)也叫代价函数(costfunction),是神经网络优化的目标函数。

5)神经网络(neuralnetworks,nn),是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。

本发明实施例提供图像分类方法、实施图像分类方法的图像分类装置、以及存储用于实现图像分类方法的可执行程序的存储介质。就图像分类方法的实施而言,本发明实施例提供终端侧和服务器侧实施的方案,将对图像分类的示例性实施场景进行说明。

如图1所示,为实现本发明实施例提供的图像分类方法的图像分类应用对待预测图像在服务器进行类别判断的一个可选的应用场景示意图,用户通过在终端中安装图像分类应用客户端,于图像分类应用中输入待预测图像,可以获得服务器对该待预测图像进行特征提取、类别判断后的分类结果。其中,图像分类应用可以是针对不同图像所包含的对象,通过神经网络训练确定神经网络模型,从而得到的分别针对不同图像所包含的对象进行识别以确定类别的图像分类应用。以图像所包含的对象为人脸为例,图像分类应用是指针对待预测图像中所包含的人脸的预设部位(眼睛或其它部位)或者整体特征(组成脸部的全部特征)进行识别以确定类别的图像分类应用。类别是指针对对应的对象进行分类的维度,该分类的维度可以是对象在外观上所呈现的外在特性,以眼部为例,如丹凤眼、三角眼等;也可以是对象的外观所隐含的内在特性,仍以眼部为例,如性格、年龄、疾病等。

以原始图像为眼部图像、原始图像中所包含的对象为眼睛、以及对象的类别为丹凤眼、三角眼、柳叶眼、狐狸眼和杏眼五种类别为例,用户在终端中安装图像分类应用客户端,图像分类应用中输入待预测眼部图像,服务器获取该待预测眼部图像,提取该待预测眼部图像中眼睛的形状特征,根据提取的形状特征与训练神经网络模型时进行类别确定时对应的形状特征的相似度,从而确定该待预测眼部图像中眼睛的类别为丹凤眼、三角眼、柳叶眼、狐狸眼或者杏眼,并发送给终端。

以原始图像为眼底图像、原始图像中所包含的对象为眼睛眼球、以及对象的类别为正常、温和非增值性、中度非增值性、重度非增值性及增值性五种类别为例,用户在终端中安装图像分类应用客户端,通过图像分类应用输入待预测眼底图像,服务器获取该待预测眼底图像,提取该待预测眼底图像中眼球的结构特征,根据所提取的结构特征与训练神经网络模型时进行类别确定时对应的结构特征的相似度,从而确定该待预测眼底图像中眼睛的类别为正常、温和非增值性、中度非增值性、重度非增值性或者增值性,并发送给终端。

上述应用场景的描述均是以原始图像为人体局部位置眼睛的图像为例,然而并不局限于此,其它领域或者类别的图像也可以采用采用本发明实施例的图像分类方法,实现训练神经网络模型和预测图像所包括对象的类别。

请参阅图2,为本发明实施例提供的图像分类方法的一个可选的流程示意图,将分别对各个步骤进行说明。

步骤101,获得原始图像、以及所述原始图像中所包括的对象的类别。

原始图像是指针对需要确定类别的目标物体所拍摄或者绘制的图片。对象是指需要确定类别的目标物体。对象的类别是指需要对目标物体进行分类的维度。所述原始图像中所包含对象的类别可以根据对目标物体分类的需求而预先确定。在一个具体的实施方式中,原始图像可以是基于互联网中当前已公开的图像库中收集得到,并根据预先确定的类别对原始图像中所包含的对象的类别予以明确。

步骤103,调整所述原始图像的显示参数满足取值条件。

图像的显示参数是指图像所携带的可以用于调整图像的显示效果的数值信息。通常显示参数包括分辨率、尺寸和颜色,在本实施例中,图像的显示参数主要包括图像的方向、尺寸、亮度、对比度、长宽比例、分辨率、颜色等。取值条件是指针对对应的显示参数而分别预设的数值范围。通过调整原始图像的显示参数满足相应的预设的数值范围,用于提高用于训练神经网络模型的图像质量,加快训练速度和提高准确率。

步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像。

显示参数是指图像所携带的可以用于调整图像的显示效果的数值信息,主要包括图像的方向、尺寸、亮度、对比度、长宽比例、分辨率、颜色等。分布条件是指针对不同的显示参数预先设置的需要满足的条件,如平均分布、随机分布和高斯分布等。根据显示参数的分布需要满足的分布条件,对原始图像进行实时的变换而获得更多的新图像,实现数据扩增,增加用于训练神经网络模型的训练数据。

步骤107,基于调整后的原始图像和新图像构造的训练集、以及所包括对象的类别,训练神经网络模型。

基于调整后的原始图像和新图像构建训练集,可以是基于调整后的原始图像为样本图像构造多批次的训练集,也可以是基于新图像为样本图像构建多批次的训练集,还可以是基于调整后的原始图像和新图像共同作为样本图像构造多批次的训练集。基于调整后的原始图像和新图像构造训练集,可以利用相对较少的原始图像获得更多有效的训练集,从而获得更好的训练精度。将不同批次的训练集分别输入神经网络模型进行训练,形成多次迭代,针对同一次迭代而言,所采用的训练集可以使用均采用原始图像所形成的训练集、或者使用均采用新图像所形成的训练集,从而在一次迭代中,所采用的训练集中的数据分别是经过基本相同的处理,避免因图像处理而带来的训练误差,提升神经网络模型的训练精度。针对不同次的迭代而言,所分别采用的训练集则可以分别选择均采用原始图像所形成的训练集和均采用新图像所形成的训练集中的任意一种。

其中,神经网络模型可以是基于已知的图像数据集预训练得到的神经网络模型,该神经网络模型可以是bp神经网络模型、卷积神经网络模型或者其变形。

bp神经网络的基本组成单元是神经元,如图3所示,为一典型的神经元模型的示意图,其中,x1、x2…xm表示输入,ω1、ω2、ωm表示突触权值,∑表示求和节点,f(.)表示激活函数,y表示输出、如图4所示,为将多个神经元根据一定规则连接而形成的神经网络模型的示意图,n对应为输入层,n1~ns对应为中间层,m对应为输出层。从图3及图4可知,bp神经网络模型主要包括输入层、隐含层(中间层)和输出层。输入层神经元个数与输入数据的维数相同,输出层神经元个数与需要拟合的数据个数相同,隐含层神经元个数与层数根据实际训练目标来设定。

卷积神经网络是基于生物自然视觉认知机制启发设计而成的深度学习架构,主要包括卷积层、池化层、全连接层。其中,卷积层是指完成图像卷积操作的层,卷积操作是指用一个卷积核与图像对应区域进行卷积得到一个值,然后不断的移动卷积核和求卷积,以完成对整个图像的卷积。卷积神经网络中,卷积层的计算通常涉及卷积操作概念之外,还包括深度和步长概念,其中深度决定同一区域的神经元个数,即几个卷积核对同一区域进行卷积操作,步长是指卷积核移动像素的个数,如图5所示,为以输入层的高度和宽度是7*7,深度是3,两个过滤器filter,每个filter的高度和宽度分别是3*3,深度是3,卷积核大小为3*3为例,说明卷积层的卷积操作示意图,最左边的输入层(inputvolume)和第一个过滤器(filterw0)进行计算,输入层的第一层和filterw0的第一层进行运算,输入层的第二层和filterw0的第二层进行运算,输入层的第三层和filterw0的第三层进行运算,最后三层结果累加起来,获得了输出层(outputvolume)的第一个结果矩阵;依次类推,最左边的inputvolume和第二个过滤器(filterw1)进行计算,获得了outputvolume的第二个结果矩阵。池化层位于卷积层之间,用于将上一层输入数据的预设块区域压缩成一个值,从而逐步压缩减少数据和卷积参数的数量,减少过拟合现象。

如图6所示,为池化层操作示意图,其中,池化层采用2*2区域中最大值来代表整个区域。全连接层主要用于学习,将学到的训练集中分布式特征表示映射到样本标记空间,以得到神经网络模型的权重。

训练神经网络模型主要包括加载训练集和训练模型参数。加载训练集,即将基于调整后的原始图像和新图像构造的训练集、以及所包括对象的类别输入初始的神经网络模型进行迭代训练,通过前向传导、利用标注信息和代价函数来计算代价、通过反向传播代价函数梯度更新每一层中的参数,以调整初始的神经网络模型的权重,直至所述神经网络模型的损失函数满足收敛条件,得到训练后的神经网络模型。

步骤109,基于训练后的所述神经网络模型,判断待预测图像中所包括对象的类别。

将待预测图像输入训练后的神经网络模型,通过神经网络模型抓取待预测图像中所包含对应的特征,将提取的特征与模型训练过程中对应不同类别的图像映射到样本标记空间的特征的相似度,判断待预测图像中所包含的对象为相应类别的概率,从而确定该待预测图像中所包含的对象的类别。

本发明实施例所提供的图像分类方法,通过获取原始图像、以及所述原始图像中所包括的对象的类别,调整原始图像的显示参数满足取值条件获得调整后的原始图像,根据显示参数的分布需要满足的分布条件对原始图像的显示参数进行变换获得新图像,从而可以基于调整后的原始图像和新图像,构造更多有效的用于训练神经网络模型的训练集,针对同一领域或类别的原始图像的数量较少的情况下也能够获得稳定的分类精度;基于调整后的原始图像和新图像构造的训练集、以及所包括对象的类别进行训练时,可以已知的神经网络模型为基础进行训练,更新权重后得到训练后的神经网络模型来对待预测图像进行预测,训练方式更加简单。

在一个可选的实施例中,所述训练神经网络模型,包括:初始化神经网络模型;将所述训练集包括的图像以及对应的类别输入所述神经网络模型进行迭代训练,直至所述神经网络模型的损失函数满足收敛条件,得到用于对所述待预测图像分类的单一神经网络模型。

根据待预测图像中所包含的对象的数量不同,本发明实施例所提供图像分类方法中,训练神经网络模型的方式不同,且得到用于对所述待预测图像分类的神经网络模型也相应不同。当待预测图像所包含的对象为一个时,初始化神经网络模型是指初始化神经网络模型的参数,以搭建初始的神经网络模型。初始化神经网络模型的参数主要包括初始化神经网络模型中层与层之间的连接参数,即神经网络中边的权重。

在可选的实施例中,初始化神经网络模型的参数还可以包括初始化神经网络模型中的迭代次数、批处理大小、学习率、神经网络层数等。本发明实施例中,初始的神经网络模型可以是基于预训练好的图像数据集预训练的神经网络模型,如在imagenet、resnet,vgg,densenet等已知图像数据集上预训练得到的inceptionv1、v2、v3、v4等卷积神经网络模型,当然,初始化神经网络模型中所采用的初始的神经网络模型并不局限于此,也可以是基于预训练好的其它图像数据集预训练好的任意神经网络模型。通过初始化神经网络模型,利用基于预训练好的图像数据集预训练的神经网络模型的参数搭建初始的神经网络模型,大大简化了神经网络模型的训练难度;结合基于调整后的原始图像和新图像构造的训练集、以及所包括对象的类别对初始的神经网络模型进行训练以更新权重,从而在有效减小训练难度的前提下并确保分类精度的稳定性。

根据待预测图像所包含的对象的数量为一个,将训练集包括的图像以及对应的类别输入所述神经网络模型进行迭代训练,直至所述神经网络模型的损失函数满足收敛条件,得到用于对所述待预测图像分类的神经网络模型为单一神经网络模型。其中,得到单一神经网络模型的实施方式中,利用基于预训练好的图像数据集上预训练好的神经网络模型的参数搭建初始的神经网络模型,具体包括,根据待预测图像所包含的对象的类别的数量n,使用实现对应数量n分类的softmax分类层替换该预训练好的神经网络模型中原有分类层,搭建初始的神经网络模型。

训练神经网络模型中,在初始化神经网络模型之后,主要还包括加载训练集和训练模型参数。加载训练集,即将调整后的原始图像和新图像构造的训练集、以及所包括对象的类别输入初始的神经网络模型进行迭代训练,通过前向传导、利用标注信息和代价函数来计算代价、通过反向传播代价函数梯度更新每一层中的参数,以调整初始的神经网络模型的权重,直至所述神经网络模型的损失函数满足收敛条件,得到最终的神经网络模型。其中,初始的神经网络模型是指进行训练之前的神经网络模型;最终的神经网络模型是指训练之后的神经网络模型。

在另一个可选的实施例中,图像分类方法还包括:根据k损失函数(kappaloss)和多分类的对数损失函数(categorical_crossentropy)以预设比例组合,得到神经网络模型的损失函数。

损失函数(lossfunction)也叫代价函数(costfunction),是神经网络优化的目标函数,神经网络训练或者优化的过程就是最小化损失函数的过程,损失函数值越小,对应预测的结果和真实结果的值就越接近。在一个具体的实施例中,将k损失函数和多分类的对数损失函数以预设比例组合,如60%的k损失函数与40%的和多分类的对数损失函数,形成混合损失函数,从而可以支持softmax分类层对含有高斯强噪声和一些具备振幅较大的异常点所形成的数据具有更高的准确率。

在一个实施例中,步骤109,基于训练后的所述神经网络模型,判断待预测图像中所包括对象的类别,包括:在单一神经网络模型中,提取所述待预测图像中的图像特征,将所提取的图像特征进行降采样处理;将降采样处理的特征映射到所述对象属于不同类别的概率。

针对单一神经网络模型而言,待预测图像中所包含的对象为一个,通过训练后得到的单一神经网络模型提取待预测图像中所包含的对象的图像特征,将提取的图像特征进行降采样处理,将降采样处理的特征,即降维后的特征向量输入分类层,通过分类层输出相应对象属于不同类别的概率,从而获得待预测图像的分类结果。

在另一个可选的实施例中,所述训练神经网络模型,包括:初始化神经网络模型;根据所述原始图像中所包含的至少两个对象,初始化与所述神经网络模型顺序连接的级联层、全连接层、以及与所述对象对应的分类层,得到用于对所述待预测图像分类的组合神经网络模型;将所述训练集包括的图像以及对应的类别输入所述组合神经网络模型进行迭代训练,直至损失函数满足收敛条件。

当待预测图像所包含的对象为两个或者两个以上时,初始化神经网络模型是指初始化神经网络模型的参数,以搭建初始的神经网络模型;并根据待预测图像(原始图像)中所包含的对象的数量,初始化与初始的神经网络模型顺序连接的级联层、全连接层及分别对对象对应的分类层,以搭建初始的组合神经网络模型。初始化神经网络模型的参数主要包括初始化神经网络模型中层与层之间的连接参数,即神经网络中边的权重。

可选的,初始化神经网络模型的参数还可以包括初始化神经网络模型中的迭代次数、批处理大小、学习率、神经网络层数等。本发明实施例中,初始的神经网络模型可以是基于预训练好的图像数据集上预训练好的神经网络模型,如基于预训练好的imagenet、resnet,vgg,densenet等图像数据集上预训练得到的inceptionv1、v2、v3、v4等卷积神经网络模型,当然,该初始化神经网络模型中所采用的初始的神经网络模型并不局限于此,而也可以是基于预训练好的其它图像数据集上预训练好的任意神经网络模型,通过利用基于预训练好的图像数据集上预训练好的神经网络模型的参数搭建初始的神经网络模型。

初始的组合神经网络模型是以初始的神经网络模型而搭建。将训练集包括的图像以及对应的类别输入所述初始的组合神经网络模型进行迭代训练,直至所述组合神经网络模型的损失函数满足收敛条件,得到用于对所述待预测图像分类的最终的组合神经网络模型。其中,在得到组合神经网络模型的实施方式中,根据原始图像中所包含的对象的数量,初始化与所述初始的神经网络模型顺序连接的级联层、全连接层、以及与所述对象对应的分类层,得到用于对所述待预测图像分类的初始的组合神经网络模型,具体包括:将初始的神经网络模型的最后一个卷积层依次连接级联层、全连接层、以及与对象分别对应的两个或者两个以上的分类层,搭建初始的组合神经网络模型。

训练神经网络模型的过程中,在初始化神经网络模型之后,主要还包括加载训练集和训练模型参数。加载训练集,即将调整后的原始图像和新图像构造的训练集、以及所包括对象的类别输入初始的组合神经网络模型进行迭代训练,通过前向传导、利用标注信息和代价函数来计算代价、通过反向传播代价函数梯度更新每一层中的参数,以调整初始的组合神经网络模型的权重,直至所述神经网络模型的损失函数满足收敛条件,得到最终的组合神经网络模型。初始的神经网络模型是指基于预训练好的图像数据集上预训练好的神经网络模型;初始的组合神经网络模型是指根据待预测图像中所包含的对象的数量、以及初始的组合神经网络模型而构造的进行训练之前的神经网络模型;最终的组合神经网络模型是指训练之后的神经网络模型。如此,通过利用基于预训练好的图像数据集预训练的神经网络模型为基础,构造用于对待预测图像进行分类的神经网络模型,可以大大简化神经网络模型的搭建,训练方式更加简单,且便于快速获得稳定的分类精度。

需要说明的是,待预测图像所包含的对象为两个或者两个以上时,其中所述两个或者两个以上的对象应是指相同的或者对称的对象。以待预测图像为眼底图像为例,眼底图像中所包含的对象可以为左眼眼球或者右眼眼球,因此可以根据眼底图像中所包含的对象为两个,搭建、训练组合神经网络模型。可以理解的是,仍以待预测图像为眼底图像为例,眼底图像中所包含的对象均为眼球,因此可以根据眼底图像中所包含的对象为一个,搭建、训练单一神经网络模型;或者以待预测图像中所包含的对象分别为左眼眼球和右眼眼球,分别搭建、训练对应的单一神经网络模型。

在一个实施例中,步骤109,基于训练后的所述神经网络模型,判断待预测图像中所包括对象的类别,包括:在组合神经网络模型中,利用所述组合神经网络模型从至少两个对象的待预测图像中对应提取图像特征;将所提取的图像特征级联,并进行降采样处理;将降采样处理的图像特征,分别映射到所述至少两个对象属于不同类别的概率。

针对组合神经网络模型而言,待预测图像中所包含的对象为两个或者两个以上,通过训练后得到的组合神经网络模型提取待预测图像中所包含的对象的图像特征,通过级联层对两个或者两个以上的对象的图像特征级联,通过全连接层对提取的图像特征进行降采样处理,将降采样处理的特征,即降维后特征向量分别输入对应的分类层,通过分类层分别输出相应对象属于不同类别的概率,从而获得待预测图像的分类结果。

在另一个实施方式中,步骤103,调整所述原始图像的显示参数满足取值条件,包括:检测所述原始图像中所包括对象的成像区域;调整所述原始图像的尺寸,直至所述原始图像所包括对象的成像区域的尺寸一致。

以尺寸作为原始图像的显示参数,并以对象的成像区域的尺寸作为取值条件。将原始图像的尺寸调整至所包含的对象的成像区域的尺寸一致,从而使得原始图像中所包含的对象的尺寸一致。以原始图像为眼底图片、原始图像中所包含的对象为眼球为例,对象的成像区域是指眼球的成像区域,通过调整原始眼底图片的尺寸,使得不同原始眼底图片中的眼球具有相同的尺寸,如300像素(pixels)。调整使得原始图像的尺寸使得对象的成像区域的尺寸一致,便于统一原始图片中所包含的对象的尺寸,避免后续训练神经网络模型由于对象尺寸太小而影响训练精度、且避免由于对象尺寸不同而造成训练误差。

在又一个实施方式中,步骤103,调整所述原始图像的显示参数满足取值条件,包括:基于所述原始图像需要满足的识别度,对所述原始图像的各个颜色通道进行图像增强处理。

图像增强是指增强图像中的有用信息以改善图像的视觉效果。颜色通道是指保存图像颜色信息的通道。每个图像都有一个或者多个颜色通道,每个颜色通道用于存放图像中颜色元素的信息,所有颜色通道中颜色叠加混合产生图像中像素的颜色。识别度是指图像的清晰可辨识程度。其中,图像增强手段可以包括如下几种方式:第一,对比度拉升,采用了线性函数对图像的灰度值进行变换;第二,gamma校正,采用了非线性函数(指数函数)对图像的灰度值进行变换;第三,直方图均衡化,将原始图像的直方图通过积分概率密度函数转化为概率密度为1(理想情况)的图像,提高对比度,通过直方图均衡化实现特定区域的展宽,使得整个图像向亮的区域变换;第四,直方图规定化,针对直方图均衡化的结果,将原始图像的直方图转化为规定的直方图的形式,目标图像的直方图的确定需要参考原始图像的直方图,并利用多高斯函数得到;第五,同态滤波器,图像的灰度图像f(x,y)可以看做为入射光分量i(x,y)和反射光分量r(x,y)两部分组成:f(x,y)=i(x,y)*r(x,y),入射光比较的均匀,随着空间位置变化比较小,占据低频分量段,反射光由于物体性质和结构特点不同从而反射强弱很不相同的光,随着空间位置的变化比较的剧烈,占据着高频分量,基于图像是由光照谱和反射谱结合而成的原理设计的;第六,基于hsv空间的彩色图像增强方法,将rgb图像转化为其他空间的图像,如将rgb空间的图像转换为hsv空间的图像,其中hsv分别指色调,饱和度,亮度,通过调整hsv三个不同的量而进行增强。

通过上述第一至第三种方式,可以对感兴趣的图像区域,即需要提取特征的对象成像区域进行展宽,对不感兴趣的区域,即不需要提取特征的背景区域进行压缩,达到图像增强的效果。通过上述第一至第五种方式,适用于对灰度图像进行图像增强处理,通过第六种方式,适用于对彩色图像进行图像增强处理。

本发明实施例中,以颜色通道作为图像的显示参数、并以需要满足的预设的识别度作为取值条件,对原始图像的各个颜色通道采用图像增强方式进行增强处理,从而强调图像的整体或者局部特征,将原来不清晰的图像变得清晰并强调出需要提取的特征,扩大图像中不同特征之间的差别。其中,对原始图像的各个颜色通道采用图像增强方式进行增强处理中,图像增强方式可以根据需要选择上述第一至第六种图像增强手段中的其中之一或者多个进行结合。如,在一个具体的实施例中,所述基于所述原始图像需要满足的识别度,对所述原始图像的各个颜色通道进行图像增强处理,包括:针对原始图像中每个像素的每个颜色通道进行s1~s3步骤的处理:s1,以像素点为中心确定预设大小的像素区域范围,确定对应的所述像素区域范围内的颜色平均值,并获得所述每个像素的每个颜色通道的颜色值与所述颜色平均值的差值;s2,将所述差值乘以预设值;s3,将每个像素加上预设比例的灰度值。通过获取每个像素的每个颜色通道的颜色值与预设像素区域范围内的差值,并乘以预设值,可以增加所述像素间的区别度,加快所述图像用于训练神经网络模型时的训练速度。其中,预设值的取值范围可以是[1-8],优选为4,预设比例的灰度值取值可以是50%,具体为128。通过所述s1~s3步骤,对所述原始图像的各个颜色通道进行图像增强处理,可以抑制不需要提取的特征,使得改善图像质量、丰富信息量、加强原始图像的判读和识别效果。

在再一个实施例中,所述步骤103,调整所述原始图像的显示参数满足取值条件,包括:对所述原始的图像中对象的未成像区域进行裁剪;调整裁剪后的图像符合预设尺寸。

裁剪是指从整体中获取所需要局部的动作。以尺寸作为原始图像的显示参数,并以图像整体尺寸符合预设尺寸作为取值条件,将原始图像的未成像区域进行裁剪,使得原始图像的尺寸与预设尺寸一致。以原始图像为眼底图片、原始图像中所包含的对象为眼球为例,对象的成像区域是指眼球的成像区域,通过以眼球为中心将原始眼底图片中包含在眼球之外的未成像区域进行裁剪,从而调整裁剪后的原始眼底图片的整体尺寸与预设尺寸一致,便于统一原始图像的中所包含的对象成像区域的尺寸,减少原始图像中的无信息区域的面积,提高所述原始图像用于训练神经网络模型时的训练速度和精度。

在一个实施例中,调整所述原始图像的显示参数满足取值条件,包括首先调整原始图像的尺寸使得对象的成像区域的尺寸一致,然后对原始图像的各个颜色通道进行图像增强处理,再对图像中对象的未成像区域进行裁剪,其中进行图像增强处理之前先调整图像中对象的成像区域尺寸,从而可以通过图像增强加强图像中的局部特征时相对更加凸显线条特征,先调整图像中对象的成像区域的尺寸并进行图像增强处理后进行裁剪,可以最大程度减少图像中无信息区域的面积,提高图像处理的效率。

在另一个实施例中,步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,包括:根据所述图像的至少一种类别的显示参数所处的取值空间、以及在所述取值空间所满足的分布条件,确定根据所述原始图像的显示参数相较于所述分布条件所缺失的显示参数;将所述原始图像的显示参数向所述缺失的显示参数进行变换得到新图像。

图像的至少一种类别的显示参数可以是指图像的方向、尺寸、亮度、对比度、长宽比例、分辨率、以及颜色中的至少一种。取值空间是指与不同类别的显示参数对应的取值范围,通过针对不同类别的显示参数设置取值空间,将图像以不同显示参数的取值空间及分布条件设置图像变换条件,从而获得更多可用于训练神经网络模型的新图像。

以显示参数的类别为图像的方向,对应的取值空间为水平翻转或90度翻转,分布条件为平均分布为例,步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,具体包括:根据一轮训练数据中包含的原始图像的方向以平均分布作为分布条件,将所述原始图像以百分之五十的概率进行水平翻转或90度翻转,得到新图像形成新的一轮或者多轮训练数据。

以显示参数的类别为图像的长宽比例,对应的取值空间为对长或宽的裁剪比例范围,分布条件为随机分布为例,步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,包括:根据一轮训练数据中包含的原始图像的长宽比例的裁剪比例范围以随机分布作为分布条件,将所述原始图像的长或宽以符合所述裁剪比例范围内的任意比例进行随机裁剪,得到新图像形成新的一轮或者多轮训练数据。具体可以是将所述原始图像的长和宽分别以初始长度和宽度为基础,随机裁剪0%~15%。

以显示参数的类别为图像的亮度,对应的取值空间为图像的亮度增减值范围,分布条件为随机分布为例,步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,具体包括:根据一轮训练数据中包含的原始图像的亮度调整的亮度增减值范围以随机分布作为分布条件,将所述原始图像的亮度以符合所述亮度增减值范围内的亮度值进行随机增加,得到新图像形成新的一轮或者多轮训练数据。具体可以是将所述原始图像的亮度加上亮度增减值范围内的任意亮度值,该亮度增减值范围为负10至10坎德拉/平方米(cd/m2)之间。

以显示参数的类别为图像的亮度,对应的取值空间为图像的亮度增减比例范围,分布条件为随机分布为例,步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,具体包括:根据一轮训练数据中包含的原始图像的亮度增减比例范围以随机分布作为分布条件,将所述原始图像的亮度以符合所述亮度增减比例范围内的比例进行随机增加,得到新图像形成新的一轮或者多轮训练数据。具体可以是将所述原始图像的亮度调整为初始亮度的75%~125%。

以显示参数的类别为图像的对比度,对应的取值空间为图像的对比度增减比例范围,分布条件为随机分布为例,步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,包括:根据一轮训练数据中包含的原始图像的对比度增减比例范围以随机分布作为分布条件,将所述原始图像的亮度以符合所述对比度增减比例范围内的比例进行随机增加,得到新图像形成新的一轮或者多轮训练数据。具体可以是将所述原始图像的对比度调整为初始对比度的75%~125%。

以显示参数的类别为图像的尺寸,对应的取值空间可以为图像的缩放比例范围,分布条件为随机分布为例,步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,具体包括:根据一轮训练数据中包含的原始图像的缩放比例范围以随机分布作为分布条件,将所述原始图像以符合所述缩放比例范围内的比例进行随机增加,得到新图像形成新的一轮或者多轮训练数据。具体可以是将所述原始图像的缩放为原始大小的90%~110%。

以显示参数的类别为图像的方向,对应的取值空间为图像方向的旋转方向范围,分布条件为随机分布为例,步骤105,根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,具体包括:根据一轮训练数据中包含的原始图像进行旋转的旋转方向范围以随机分布作为分布条件,将所述原始图像以符合所述旋转方向范围内的比例进行随机增加,得到新图像得到新的一轮或者多轮训练数据。具体可以是将所述原始图像的方向以初始方向为基础,随机以旋转方向范围内任意角度进行旋转,该旋转方向范围为负180度至180度之间。

可以理解的,根据显示参数的分布需要满足的分布条件,对原始图像的显示参数进行变换获得新图像的步骤,显示参数的类别并不局限于上述实施例给出的类别,且对原始图像进行变换获得新图像时候,可以采用上述实施例中对图像进行变换的技术手段的其中之一或者多个的组合,针对每一轮训练数据随机进行以下任意一种扩增操作:1、将所述训练图像以预设概率值进行水平翻转;2、随机将所述原始图像的宽和高基于第一比例范围值进行裁剪;3、随机将所述原始图像的亮度基于第二范围值进行加减运算;4、随机将所述原始图像的亮度基于第三比例范围值进行乘除运算;5、随机将所述原始图像的对比度基于第四比例范围值进行乘除运算;6、随机将所述原始图像的宽和高基于第五比例范围值进行缩放处理;7、随机将所述原始图像基于第六比例范围值进行旋转;通过对每一轮训练数据进行实时数据扩增操作,从而获得更多用于训练神经网络模型的更多轮有效的训练数据。

请参阅图7,以原始图像为眼底图像、以基于imagenet上训练好的inceptionv3训练单一神经网络模型为例,对本发明实施例提供的图像分类方法进行说明如下:

s11、获得原始眼底图像,以及原始眼底图像中所包含的对象的类别;作为一种可选的方案,该对象的类别包括可辅助识别眼球的视网膜病变特征的五种类别,正常,温和非增值性、中毒非增值性、重度非增值性、及增值性。

s12,调整原始眼底图像的显示参数满足取值条件,获得调整后的原始眼底图像;作为一种可选的方案,调整原始眼底图像的显示参数满足取值条件包括对原始眼底图像进行缩放,使得原始眼底图像中的眼球具有相同的半径,如300pixels;对原始眼底图像中的每个像素的每个通道减去预设像素区域范围内的预设像素值,将每个像素值乘以预设固定值,再将每个像素值加上预设比例的灰度值;对原始眼底图像的未成像的无信息区域进行裁剪;将原始眼底图像缩放到预设大小,如宽为299pixels,高为299pixels。

s13,根据显示参数的分布需要满足的分布条件,对原始眼底图像的显示参数进行变换获得新眼底图像。作为一种可选的方案,根据显示参数的分布需要满足的分布条件,对原始眼底图像的显示参数进行变换的方式包括如下至少一种:将原始眼底图像或新眼底图像以预设概率值进行水平翻转;随机将原始眼底图像的宽和高基于第一比例范围值进行裁剪;随机将原始眼底图像的亮度基于第二范围值进行加减运算;随机将原始眼底图像的亮度基于第三比例范围值进行乘除运算;随机将原始眼底图像的对比度基于第四比例范围值进行乘除运算;随机将原始眼底图像的宽和高基于第五比例范围值进行缩放处理;随机将原始眼底图像基于第六比例范围值进行旋转。

s14,以与对象的类别数量相同的softmax分类层替换基于imagenet上训练好的inceptionv3中的原有softmax,搭建初始的神经网络模型,该初始的神经网络模型为单一神经网络模型;作为一种可选的方案,对象的类别数量相同的softmax分类层为五分类softmax,以五分类softmax替换基于imagenet上训练好的inceptionv3中的原有softmax搭建初始的神经网络模型。可以理解的,根据本发明前述实施例的描述可知,inceptionv3可以由其它基于图像数据集的神经网络模型所替代。

s15,基于调整后的原始眼底图像和新眼底图像构造的训练集、以及所包括对象的类别,训练神经网络模型。作为一种可选的方案,基于调整后的原始眼底图像和新眼底图像构造的不同批次的训练集,输入初始的神经网络模型进行训练,多次迭代直至所述神经网络模型的损失函数满足收敛条件,以获得训练后的神经网络模型。

s16,将待预测的眼底图像输入训练后的神经网络模型,判断该待预测图像的类别;作为一种可选的方案,待预测图像的类别的判断结果为正常,温和非增值性、中毒非增值性、重度非增值性、或增值性。

请参阅图8,以原始图像为眼底图像、以基于imagenet上训练好的inceptionv3训练组合神经网络模型为例,对本发明实施例提供的图像分类方法进行说明如下:

s21、获得原始眼底图像,以及原始眼底图像中所包含的对象的类别;作为一种可选的方案,该对象的类别包括可辅助识别眼球的视网膜病变特征的五种类别,正常,温和非增值性、中毒非增值性、重度非增值性、及增值性。

s22,调整原始眼底图像的显示参数满足取值条件,获得调整后的原始眼底图像;作为一种可选的方案,调整原始眼底图像的显示参数满足取值条件包括对原始眼底图像进行缩放,使得原始眼底图像中的眼球具有相同的半径,如300pixels;对原始眼底图像中的每个像素的每个通道减去预设像素区域范围内的预设像素值,将每个像素值乘以预设固定值,再将每个像素值加上预设比例的灰度值;对原始眼底图像的未成像的无信息区域进行裁剪;将原始眼底图像缩放到预设大小,如宽为299pixels,高为299pixels。

s23,根据显示参数的分布需要满足的分布条件,对原始眼底图像的显示参数进行变换获得新眼底图像。作为一种可选的方案,根据显示参数的分布需要满足的分布条件,对原始眼底图像的显示参数进行变换的方式包括如下至少一种:将原始眼底图像或新眼底图像以预设概率值进行水平翻转;随机将原始眼底图像的宽和高基于第一比例范围值进行裁剪;随机将原始眼底图像的亮度基于第二范围值进行加减运算;随机将原始眼底图像的亮度基于第三比例范围值进行乘除运算;随机将原始眼底图像的对比度基于第四比例范围值进行乘除运算;随机将原始眼底图像的宽和高基于第五比例范围值进行缩放处理;随机将原始眼底图像基于第六比例范围值进行旋转。

s24,以基于imagenet上训练好的inceptionv3中的最后一个平均池化层依次连接级联层、全连接层、及分别与左眼眼球对应的分类层和与右眼眼球对应的分类层,搭建初始的神经网络模型,如图9所示,该初始的神经网络模型为组合神经网络模型。根据本发明前述实施例的描述可知,inceptionv3可以由其它基于图像数据集的神经网络模型所替代。

s25,基于调整后的原始眼底图像和新眼底图像构造的训练集、以及所包括对象的类别,训练神经网络模型。作为一种可选的方案,基于调整后的原始眼底图像和新眼底图像构造的不同批次的训练集,输入初始的神经网络模型进行训练,多次迭代直至所述神经网络模型的损失函数满足收敛条件,以获得训练后的神经网络模型。

s26,将待预测的眼底图像输入训练后的神经网络模型,判断该待预测图像的类别;作为一种可选的方案,该组合神经网络模型用同一个inceptionv3分别接收左眼的眼底图像和右眼的眼底图像作为输入,通过inceptionv3的平均池化层产生两个相同维数,如2048维的特征向量。通过级联层将两个相同维数的特征向量进行级联形成一个特征向量,如4096维的特征向量。通过全连接层进行降采样得到降维后的特征向量,如512维的特征向量。降维后的特征向量分别输入与左眼眼球对应的分类层和与右眼眼球对应的分类层,从而分别得到对应的分类结果。待预测图像的类别的判断结果为正常,温和非增值性、中毒非增值性、重度非增值性、或增值性。

上述图像分类方法中,原始图像均是以眼底图像为例进行说明,由于眼睛是人体最重要的器官之一,人从外界获取的信息主要是通过眼睛来实现的,一旦发生眼疾,轻则影响视力,重则致盲致残。视力的缺损势必让患者的生活质量大打折扣。隐匿性眼病如青光眼、糖尿病视网膜病变等在早期无视力改变的症状,而眼底照相是早期发现隐匿性眼病的有效方法。眼底照相是近年来用得比较多的眼底检查,就是利用特殊的一起如数码相机,和眼底镜连接,将眼底的图像在计算机设备上显示,可以打印下来保存在病历,还可以再治疗前后做个对比。它能够客观的记录眼底后极部视网膜形态学变化,具有较好的客观性、重复性和可对比性。目前,用眼底图像进行眼底筛查,是由读片中心的眼科专家对眼底图像进行读片分级,可以使患者得到早期的治疗,延缓病情进展,实现从疾病治疗到疾病预防的转变。但是,采用眼底照相技术的眼底筛查项目通常会产生大量需要分级的眼底照片,其中,大部分眼底照片是正常视网膜,这种情况将导致眼科专家的大部分的分级工作时间消耗在没有任何眼部疾病征兆的正常眼底照片中,不仅分类的准确率依赖于读片的眼科专家的个人水平,而且分类效率非常低,通过本发明实施例提供的图像分类方法,可以高效、高准确率、自动化的对眼底图像进行分类,使用方法简单,判断速度快,在对眼底图片没有专业的识别能力的前提下,也可以快速地得到准确的判断结果,便于提高对眼底图片的分类效率,极大的减少专业人士的工作量,判断结果不依赖于个人的专业水平,分类精度高且具有较好的稳定性。

可以理解的,上述图7或图8所示实施例中,原始图像还可以是包含有待进行分类的对象的其它图像,可适用于通过神经网络模型进行对象类别的预测时,可用于构建训练集的原始图像的数量较少的任何其它应用场景,如待分类的对象是眼睛、对象的类别可以包括眼睛不同形状的五种类别:丹凤眼、三角眼、柳叶眼、狐狸眼和杏眼,相应的原始图像为眼部图像,基于如上述图7或图8所示实施例的相同技术构思,可以构建单一神经网络模型或者组合神经网络模型作为初始的神经网络模型,并基于眼部图像作为原始图像对显示参数进行调整获得调整后的原始图像、以及对显示参数进行变换获得新图像,通过基于调整后的原始图像和新图像构建的训练集,对初始的神经网络模型进行训练获得训练后的神经网络模型,在进行预测时,将包含眼睛的待预测眼部图像输入训练后的神经网络模型,相应得到类别的判断结果为丹凤眼、三角眼、柳叶眼、狐狸眼或者杏眼。本实施例中对眼部图像中眼睛形状的识别,是针对图像中所包含的对象进行分类的维度可以是对象在外观上所呈现的外在特性的一种方式的举例。

又如待分类的对象是人的双手,对象的类别可以包括双手不同形状的四种类别:方形手、篦形手、圆锥形手和尖形手,相应的原始图像为手部图像,基于如上述图7或图8所示实施例的相同技术构思,可以构建单一神经网络模型或者组合神经网络模型作为初始的神经网络模型,并基于手部图像作为原始图像对显示参数进行调整获得调整后的原始图像、以及对显示参数进行变换获得新图像,通过基于调整后的原始图像和新图像构建的训练集,对初始的神经网络模型进行训练获得训练后的神经网络模型,在进行预测时,将包含手的待预测手部图像输入训练后的神经网络模型,相应得到类别的判断结果可以为方形手、篦形手、圆锥形手或者尖形手。本实施例中,对手部图像中进行手形的识别,是针对图像中所包含的对象进行分类的维度可以是对象在外观上所呈现的外在特性的又一种方式的举例,其中手形的判断也可以映射到对个人的性格或者习惯等内在特性的判断,如具有方形手的人通常被认为理性性格、工作能力强、有领导能力的手形;圆锥形手的人通常被认为感性性格、才华洋溢、有谋略能力的手形等等。

可以理解的,在本发明实施例所揭示的技术构思下,原始图像还可以是包含其它对象并需要对该对象进行分类、且包含有类别的图像数量较少的其它图像,通过对原始图像进行调整、根据原始图像的显示参数的分布需要满足的分布条件,对原始图像的显示参数进行变换获得新图像,基于原始图像和新图像构造用于训练神经网络模型的训练集,针对训练样本数量较少的情况下,通过原始图像和新图像共同形成更多的训练集以训练神经网络模型,从而能够获得足够的分类维度和确保分类精度,因此,本发明实施例所提供的图像分类方法可适用于对更广范围内的对象进行分类,具有更强的实用性。

本发明实施例提供的图像分类方法可以采用终端侧或服务器侧实施,就图像分类装置的硬件结构而言,请参阅图10,为本发明实施例提供的图像分类装置100的一个可选的硬件结构示意图,该图像分类装置100可以是移动电话、计算机设备、平板设备、个人数字处理、医疗设备等。该图像分类装置100包括:至少一个处理器101、存储器102、至少一个网络接口104和用户接口106。图像分类装置中的各个组件通过总线系统105耦合在一起。可以理解的,总线系统105用于实现这些组件之间的连接通信。总线系统105除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图10中将各种总线都标为总线系统。

其中,用户接口106可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解,存储器102可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom,readonlymemory)、可编程只读存储器(prom,programmableread-onlymemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram,staticrandomaccessmemory)、同步静态随机存取存储器(ssram,synchronousstaticrandomaccessmemory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类别的存储器。

本发明实施例中的存储器102用于存储各种类别的数据以支持图像分类装置100的操作。这些数据的示例包括:用于在图像分类装置100上操作的任何可执行程序,如操作系统1021和应用程序1022;原始图像;对原始图像进行变换获得的新图像等;其中,操作系统1021包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序1022可以包含各种应用程序,例如媒体播放器(mediaplayer)、浏览器(browser)等,用于实现各种应用业务。实现本发明实施例提供的图像分类方法可以包含在应用程序1022中。

上述本发明实施例揭示的方法可以应用于处理器101中,或者由处理器101实现。处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器、数字信号处理器(dsp,digitalsignalprocessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器101可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器101可以是微处理器或者任何常规的处理器等。结合本发明实施例所提供的图像分类方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成前述方法的步骤。

在示例性实施例中,图像分类装置100可以被一个或多个应用专用集成电路(asic,applicationspecificintegratedcircuit)、dsp、可编程逻辑器件(pld,programmablelogicdevice)、复杂可编程逻辑器件(cpld,complexprogrammablelogicdevice),用于执行前述方法。

在示例性实施例中,请参阅图11,是本发明一实施例提供的图像分类装置的结构示意图,该图像分类装置包括:获取模块11,用于获得原始图像、以及所述原始图像中所包括的对象的类别;调整模块13,用于调整所述原始图像的显示参数满足取值条件;变换模块15,用于根据所述显示参数的分布需要满足的分布条件,对所述原始图像的所述显示参数进行变换获得新图像;训练模块17,用于基于调整后的原始图像和新图像构造的训练集、以及所包括对象的类别,训练神经网络模型;预测模块19,用于基于训练后的所述神经网络模型,判断待预测图像中所包括对象的类别。

在一个实施例中,所述训练模块17包括初始化单元及单一模型训练单元,所述初始化单元,用于初始化神经网络模型;所述单一模型训练单元,用于将所述训练集包括的图像以及对应的类别输入所述神经网络模型进行迭代训练,直至所述神经网络模型的损失函数满足收敛条件,得到用于对所述待预测图像分类的单一神经网络模型。

该装置还包括损失函数确定模块,用于根据k损失函数和多分类的对数损失函数以预设比例组合,得到所述神经网络模型的损失函数。

在另一个实施例中,所述训练模块17包括初始化单元、组合单元及组合模型训练单元,所述初始化单元,用于初始化神经网络模型;所述组合单元,用于根据所述原始图像中所包含的至少两个对象,初始化与所述神经网络模型顺序连接的级联层、全连接层、以及与所述对象对应的分类层,得到用于对所述待预测图像分类的组合神经网络模型;所述组合模型训练单元,用于将所述训练集包括的图像以及对应的类别输入所述组合神经网络模型进行迭代训练,直至损失函数满足收敛条件。

在一个实施例中,所述预测模块19,具体用于在单一神经网络模型中,提取所述待预测图像中的图像特征,将所提取的图像特征进行降采样处理;将降采样处理的特征映射到所述对象属于不同类别的概率。

在另一个实施例中,所述预测模块19,具体用于在组合神经网络模型中,利用所述组合神经网络模型从至少两个对象的待预测图像中对应提取图像特征;将所提取的图像特征级联,并进行降采样处理;将降采样处理的图像特征,分别映射到所述至少两个对象属于不同类别的概率。

在一个实施例中,所述调整模块13包括检测单元及调整单元,所述检测单元,用于检测所述原始图像中所包括对象的成像区域;所述调整单元,用于调整所述原始图像的尺寸,直至所述原始图像所包括对象的成像区域的尺寸一致。

在另一个实施例中,所述调整模块13包括增强单元,用于基于所述原始图像需要满足的识别度,对所述原始图像的各个颜色通道进行图像增强处理。

在又一个实施例中,所述调整模块13包括裁剪单元及尺寸单元,所述裁剪单元,用于对所述原始的图像中对象的未成像区域进行裁剪;所述尺寸单元,用于调整裁剪后的图像符合预设尺寸。

所述调整模块13可以同时包括检测单元、调整单元、增强单元、裁剪单元及尺寸单元。所述检测单元,用于检测所述原始图像中所包括对象的成像区域;所述调整单元,用于调整所述原始图像的尺寸,直至所述原始图像所包括对象的成像区域的尺寸一致;所述增强单元,用于基于所述原始图像需要满足的识别度,对所述原始图像的各个颜色通道进行图像增强处理;所述裁剪单元,用于对所述原始的图像中对象的未成像区域进行裁剪;所述尺寸单元,用于调整裁剪后的图像符合预设尺寸。

在一个实施例中,所述变换15包括确定单元及变换单元,所述确定单元,用于根据所述图像的至少一种类别的显示参数所处的取值空间、以及在所述取值空间所满足的分布,确定根据所述原始图像的显示参数相较于所述分布条件所缺失的显示参数;所述变换单元,用于将所述原始图像的显示参数向所述缺失的显示参数进行变换得到新图像。

需要说明的是:上述实施例提供的图像分类装置在进行图像分类时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的图像分类装置与图像分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

在示例性实施例中,本发明实施例还提供了一种可读存储介质,例如包括可执行程序的存储器,上述可执行程序可由处理器执行,以完成前述方法的步骤。可读存储介质可以是fram、rom、prom、eprom、eeprom、flashmemory、磁表面存储器、光盘、或cd-rom等存储器;也可以是包括上述存储器之一或任意组合的各种设备,如移动电话、计算机设备、平板设备、个人数字助理、医疗设备等。

本发明实施例还提供了一种图像分类装置,该图像分类装置包括处理器及用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行所述计算机程序时,执行:一种图像分类方法,包括:获得原始图像、以及所述原始图像中所包括的对象的类别;调整所述原始图像的显示参数满足取值条件;根据所述显示参数的分布需要满足的分布条件,对所述原始图像的所述显示参数进行变换获得新图像;基于调整后的原始图像和新图像构造的训练集、以及所包括对象的类别,训练神经网络模型;基于训练后的所述神经网络模型,判断待预测图像中所包括对象的类别。

所述处理器还用于运行所述计算机程序时,执行:所述训练神经网络模型,包括:初始化神经网络模型;将所述训练集包括的图像以及对应的类别输入所述神经网络模型进行迭代训练,直至所述神经网络模型的损失函数满足收敛条件,得到用于对所述待预测图像分类的单一神经网络模型。

所述处理器还用于运行所述计算机程序时,执行:根据k损失函数和多分类的对数损失函数以预设比例组合,得到所述神经网络模型的损失函数。

所述处理器还用于运行所述计算机程序时,执行:所述训练神经网络模型,包括:初始化神经网络模型;根据所述原始图像中所包含的至少两个对象,初始化与所述神经网络模型顺序连接的级联层、全连接层、以及与所述对象对应的分类层,得到用于对所述待预测图像分类的组合神经网络模型;将所述训练集包括的图像以及对应的类别输入所述组合神经网络模型进行迭代训练,直至损失函数满足收敛条件。

所述处理器还用于运行所述计算机程序时,执行:所述基于训练后的所述神经网络模型,判断待预测图像中所包括对象的类别,包括:在单一神经网络模型中,提取所述待预测图像中的图像特征,将所提取的图像特征进行降采样处理;将降采样处理的特征映射到所述对象属于不同类别的概率。

所述处理器还用于运行所述计算机程序时,执行:所述基于训练后的所述神经网络模型,判断待预测图像中所包括对象的类别,包括:在组合神经网络模型中,利用所述组合神经网络模型从至少两个对象的待预测图像中对应提取图像特征;将所提取的图像特征级联,并进行降采样处理;将降采样处理的图像特征,分别映射到所述至少两个对象属于不同类别的概率。

所述处理器还用于运行所述计算机程序时,执行:所述调整所述原始图像的显示参数满足取值条件,包括:检测所述原始图像中所包括对象的成像区域;调整所述原始图像的尺寸,直至所述原始图像所包括对象的成像区域的尺寸一致。

所述处理器还用于运行所述计算机程序时,执行:所述调整所述原始图像的显示参数满足取值条件,包括:基于所述原始图像需要满足的识别度,对所述原始图像的各个颜色通道进行图像增强处理。

所述处理器还用于运行所述计算机程序时,执行:所述调整所述原始图像的显示参数满足取值条件,包括:对所述原始的图像中对象的未成像区域进行裁剪;调整裁剪后的图像符合预设尺寸。

所述处理器还用于运行所述计算机程序时,执行:所述根据显示参数的分布需要满足的分布条件,对所述原始图像的显示参数进行变换获得新图像,包括:根据所述图像的至少一种类别的显示参数所处的取值空间、以及在所述取值空间所满足的分布条件,确定根据所述原始图像的显示参数相较于所述分布条件所缺失的显示参数;将所述原始图像的显示参数向所述缺失的显示参数进行变换得到新图像。

作为另一可选的实施例,该图像分类装置可以为图1中所示的服务器,包括通过系统总线连接的处理器、内存储器、网络接口和非易失性存储介质。其中,处理器用于实现计算功能和控制服务器工作的功能,该处理器被配置为执行本发明实施例提供的图像分类方法。非易失性存储介质存储有操作系统、数据库和用于实现本发明实施例提供的图像分类方法的图像分类装置。网络接口用于连接终端。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1