一种训练图像分类模型的方法和装置与流程

文档序号：17131936发布日期：2019-03-16 01:22阅读：122来源：国知局

本发明涉及图像识别领域，尤指一种训练图像分类模型的方法和装置。

背景技术：

移动互联网、智能手机以及社交网络的发展带来了海量图片信息，有文章显示，instagram每天图片上传量约为6000万张；whatsapp每天的图片发送量为5亿张；国内的微信朋友圈也是以图片分享为驱动。不受地域和语言限制的图片逐渐取代了繁琐而微妙的文字，成为了传词达意的主要媒介。图片成为互联网信息交流主要媒介的原因主要在于两点：第一，从用户读取信息的习惯来看，相比于文字，图片能够为用户提供更加生动、容易理解、有趣及更具艺术感的信息；第二，从图片来源来看，智能手机为用户带来方便的拍摄和截屏手段，帮助用户更快的用图片来采集和记录信息。

但伴随着图像成为互联网中的主要信息载体，难题随之出现。当用户需要查找图像的时候，往往需要翻阅每一张的图像，直到找到合适的图像为止。从上述描述中可以看出，目前缺少一种有效的图像分类模型，可以为图像进行有效的分类，因此用户查找图像中的内容的效率低下。

技术实现要素：

为了解决上述技术问题，本申请提供了一种训练图像分类模型的方法和装置，其能够训练出高效的图像分类模型，所训练出的图像分类模型能够提高用户查找图像中的内容的效率。

为了达到本发明目的，本申请提供了一种训练图像分类模型的方法，该方法包括下列步骤：

步骤一、提取所输入的所有类别的图像的特征；

步骤二、采用聚类算法对所提取的图像的特征进行聚类，以生成所有类别的图像的视觉码书；其中，视觉码书包括多个视觉码字，每个视觉码字代表相似特征的聚类中心，一个视觉码字作为图像的一个特征类别；

步骤三、提取所输入的所有类别的图像之中的第一类别的图像的特征；

步骤四、根据欧氏距离最近邻原则，采用视觉码书对所提取的第一类别的图像的特征进行特征包模型bof量化，以计算出第一类别的图像的各个特征在视觉码书中分别出现的频率；

步骤五、根据第一类别的图像的各个特征在视觉码书中分别出现的频率，生成第一类别的图像的bof量化直方图，作为第一类别的图像的分类模型；

对所有类别的图像依次执行步骤三、步骤四以及步骤五，直到生成所有类别的图像的bof量化直方图为止。

进一步地，在一个可选的实施例中，在生成所有类别的图像的bof量化直方图的步骤之后，该方法还包括：

当接收到第二图像时，提取第二图像的特征；

根据欧氏距离最近邻原则采用视觉码书对第二图像的特征进行bof量化，以计算出第二图像的各个特征在视觉码书中分别出现的频率，作为第二图像的bof量化直方图；

将第二图像的bof量化直方图与所有类别的图像的分类模型进行相似度匹配，以确定第二图像的类别。

进一步地，在一个可选的实施例中，步骤四包括：

计算第一类别的图像的每个特征与视觉码书中的每个视觉码字的欧式距离；

比较各个特征之中的每个特征分别与视觉码书中的各个视觉码字之间的欧式距离，依据欧式距离最近邻原则选取与各个特征之中的第一特征距离最小的视觉码字作为第一特征的特征类别匹配；

统计各个视觉码字匹配的图像特征的数量，并且将在视觉码书中的直方图统计频率高于设定阈值的视觉码字所匹配的特征认作第一类别的图像的特征；

根据第一类别的图像的特征，生成第一类别的图像的bof量化直方图。

进一步地，在一个可选的实施例中，将第二图像的bof量化直方图与所有类别的图像的分类模型进行相似度匹配，以确定第二图像的类别的步骤包括：

根据巴氏系数算法，计算第二图像bof量化直方图与各个类别的图像的bof量化模型的相似度；

将第二图像的类型判定为相似度最高的图像类型。

为了达到本申请的目的，本发明实施例提供了一种训练图像分类模型的装置，该装置包括视觉码书生成模块以及分类模型训练模块；其中，

视觉码书生成模块用于执行下列步骤：

步骤一、提取所输入的所有类别的图像的特征；

分类模型训练模块用于执行下列步骤：

步骤三、提取所输入的所有类别的图像之中的第一类别的图像的特征；

步骤五、根据第一类别的图像的各个特征在视觉码书中分别出现的频率，生成第一类别的图像的bof量化直方图，作为第一类别的图像的分类模型；

对所有类别的图像依次执行步骤三、步骤四以及步骤五，直到生成所有类别的图像的bof量化直方图为止。

进一步地，在一个可选的实施例中，该装置还包括图像分类模块；

图像分类模块用于：在分类模型训练模块生成所有类别的图像的bof量化直方图之后，

当接收到第二图像时，提取第二图像的特征；

将第二图像的bof量化直方图与所有类别的图像的分类模型进行相似度匹配，以确定第二图像的类别。

进一步地，在一个可选的实施例中，分类模型训练模块用于：

计算第一类别的图像的每个特征与视觉码书中的每个视觉码字的欧式距离；

统计各个视觉码字匹配的图像特征的数量，并且将在视觉码书中的直方图统计频率高于设定阈值的视觉码字所匹配的特征认作第一类别的图像的特征；

根据第一类别的图像的特征，生成第一类别的图像的bof量化直方图。

进一步地，在一个可选的实施例中，图像分类模块用于：

根据巴氏系数算法，计算第二图像bof量化直方图与各个类别的图像的bof量化模型的相似度；

将第二图像的类型判定为相似度最高的图像类型。

本发明实施例的有益效果在于：上述方案中，采用聚类算法对所提取的图像的特征进行聚类，以生成所述所有类别的图像的视觉码书；根据欧氏距离最近邻原则，采用所述视觉码书对所提取的第一类别的图像的特征进行特征包模型bof量化，以计算出所述第一类别的图像的各个特征在所述视觉码书中分别出现的频率，根据所述第一类别的图像的各个特征在所述视觉码书中分别出现的频率，生成一种类别的图像的分类模型；重复上述步骤以生成所有类别的图像的分类模型；从而可以为用户提供高效的图像分类模型，上述图像分类模型可以根据图像中的内容而对图像进行分类，使得用户可以根据分类得到的图像的类别而仅仅查找一种或者几种类别的图像就能得到用户需要的图像，从而提高了用户查找图像中的内容的效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例提供的训练图像分类模型的方法的流程图；

图2为本发明实施例提供的训练图像分类模型的装置的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

一方面，本发明实施例提供了一种训练图像分类模型的方法，如图1所示，该方法包括步骤s101-步骤s109。

步骤s101，提取所输入的所有类别的图像的特征。

在本发明实施例提供的方法中，首先输入大量图像，这些图像可以是各种类别的图像，通过在后续的步骤中提取各种类别的图像的特征，可以提取各种类别的图像的特征，这些图像的特征用于生成视觉码书以及训练图像分类模型。

此外，图像的特征可以包括图像的色彩、纹理、空间结构等等。在步骤s101中，分别提取所输入的各个类别的图像的特征，这些特征将在后续的步骤中进行归类和统计。

步骤s103，采用聚类算法对所提取的图像的特征进行聚类，以生成所有类别的图像的视觉码书；其中，视觉码书包括多个视觉码字，每个视觉码字包括代表相似特征的聚类中心，一个视觉码字作为图像的一个特征类别。

在此，聚类算法可以包括k均值聚类算法、模糊c均值聚类算法等等。在将步骤s101中所提取的特征进行归类和统计的时候，可以根据所提取的特征的属性而将特征分成多种类别，每种类别的特征有自身的聚类中心，聚类中心是这种类别的特征最集中的地方，代表着这种类别的特征最相近的方面，每个聚类中心代表一个视觉码字，每个聚类中心表示不同的特征类别，即可以根据聚类中心所表示的特征来代表一种特征类别。

步骤s105，提取所输入的所有类别的图像之中的第一类别的图像的特征。

由于在步骤s101中，所提取的图像的特征是所有类别的图像的特征，因此在步骤s105中仅仅根据在此之前的分类而提取出第一类别的图像的特征，以用于后续的聚类，并且在聚类的过程中训练分类模型。

步骤s107，根据欧氏距离最近邻原则，采用视觉码书对所提取的第一类别的图像的特征进行特征包模型bof量化，以计算出第一类别的图像的各个特征在视觉码书中分别出现的频率。

其中，可以将一个特征表示成三维空间中的一个点(x1，y1，z1)，将在步骤s103中归类时得出的一个聚类中心表示为三维空间中的另外一个点(x2，y2，z2)，那么上述特征与这个聚类中心之间的欧式距离可以表示成：

其中，d表示上述特征与这个聚类中心之间的欧式距离。

由于在提取图像的特征的时候，是将各类特征聚类到多个聚类中心，因此上述的特征(x1，y1，z1)与各个聚类中心之间分别有各自的欧式距离。例如，如果聚类中心的数量是20(换句话说，就是视觉码书的长度是20)，则特征(x1，y1，z1)与20个聚类中心之间分别有20个距离值(d1，d2……d20)。

此时，将这20个距离值进行比较，以选取出距离特征(x1，y1，z1)最近的聚类中心(视觉码字)，数学表达式可以为min(d1，d2……d20)，这样的聚类中心作为该特征(x1，y1，z1)的特征类别匹配。

步骤109，根据第一类别的图像的各个特征在视觉码书中分别出现的频率，生成第一类别的图像的bof量化直方图，作为第一类别的图像的分类模型。

当对所有特征重复上述计算与各个聚类中心的欧式距离、比较距离值以确定作为各个特征的特征类别匹配的聚类中心的步骤之后，此时可以统计视觉码书中的各个视觉码字(即，聚类中心)匹配到的图像的特征的数量；然后，根据统计出的特征的数量(也就是统计频率)生成该图像的bof量化直方图，在bof量化直方图中频率高于设定阈值的特征对应的视觉码字所代表的特征可以视作具有第一类图像的特征。

对所有类别的图像依次执行步骤s105-步骤s109，直到生成所有类别的图像的bof量化直方图为止，在这个过程中，采用各个类别的图像作为测试图像，来训练图像分类模型。另外需要说明的是，一类图像可以由一类特征(一个视觉码字)表示，也可以由多类(多个视觉码字)表示。

本发明实施例的有益效果在于：上述方案中，采用聚类算法对所提取的图像的特征进行聚类，以生成所有类别的图像的视觉码书；根据欧氏距离最近邻原则，采用视觉码书对所提取的第一类别的图像的特征进行特征包模型bof量化，以计算出第一类别的图像的各个特征在视觉码书中分别出现的频率，根据第一类别的图像的各个特征在视觉码书中分别出现的频率，生成一种类别的图像的分类模型；重复上述步骤以生成所有类别的图像的分类模型；从而可以为用户提供高效的图像分类模型，上述图像分类模型可以根据图像中的内容而对图像进行分类，使得用户可以根据分类得到的图像的类别而仅仅查找一种或者几种类别的图像就能得到用户需要的图像，从而提高了用户查找图像中的内容的效率。

进一步地，在一个可选的实施例中，在步骤s109之后，该方法还包括：

当接收到第二图像时，提取第二图像的特征；

根据欧氏距离最近邻原则，采用视觉码书对第二图像的特征进行bof量化，以计算出第二图像的各个特征在视觉码书中分别出现的频率，作为第二图像的bof量化直方图；

将第二图像的bof量化直方图与所有类别的图像的分类模型进行相似度匹配，以确定第二图像的类别。

进一步地，在一个可选的实施例中，步骤s107包括：

对输入的图像进行特征提取，选取码书视觉码书中距离测试样本特征欧氏距离最小的视觉码字作为该特征的特征类别匹配，具体决策算法的步骤如下：

计算第一类别的图像的每个特征与视觉码书中的每个视觉码字的欧式距离；

比较每个特征与视觉码书中的各个视觉码字之间的欧式距离，选取与该特征距离最小的视觉码字作为该特征的特征类别匹配；

统计各个视觉码字匹配的图像特征的数量，并且根据与特征匹配的视觉码字在视觉码书中的直方图统计频率是否高于设定阈值来确定该特征是否作为这类图像的特征：如果匹配到码书中直方图统计频率高于设定阈值，则该视觉码字的特征可以认为是该类图像的特征；根据这类图像的特征，生成该图像的bof量化直方图。

进一步地，在一个可选的实施例中，该方法还包括：

根据巴氏系数算法，计算第二图像bof量化直方图与各个类别的图像的bof量化模型的相似度；

将第二图像的类型判定为相似度最高的图像类型。

其中，巴氏系数算法是：

其中，ρ代表图像相似度值(巴氏系数因子值)，i代表数据点(在本申请中指的是特征点)，n是数据点的总量，p,p’分别代表图像分类模型的量化直方图与候选图像的量化直方图数据，对每个相同i的数据点乘积开平方以后相加得出的结果即为图像相似度值(巴氏系数因子值)，ρ的范围为0到1之间，0表示极其不同，1表示极为相似。

例如，视觉码书长度为8，图像分类模型的量化直方图对应的频率值为[0.20.10.30.40000]，其中量化直方图频率值p1+p2+……+pn＝1，对应8个视觉码字，候选图像的直方图如果与图像分类模型的量化直方图一致的话，根据巴氏系数算法的出来的结果为1，代表极为相似，可判别为一类。相反如果候选图像直方图频率值与图像分类模型的量化直方图频率值完全没有重叠，例如[00000.20.10.30.4]，那么套用公式计算出来p的值为0，代表完全不匹配。

另一方面，本发明实施例还提供了一种训练图像分类模型的装置，该装置包括视觉码书生成模块201以及分类模型训练模块203。

视觉码书生成模块201用于执行下列步骤：

步骤一、提取所输入的所有类别的图像的特征；

分类模型训练模块203用于执行下列步骤：

步骤三、提取所输入的所有类别的图像之中的第一类别的图像的特征；

步骤五、根据第一类别的图像的各个特征在视觉码书中分别出现的频率，生成第一类别的图像的bof量化直方图，作为第一类别的图像的分类模型；

对所有类别的图像依次执行步骤三、步骤四以及步骤五，直到生成所有类别的图像的bof量化直方图为止。

进一步地，在一个可选的实施例中，该装置还包括图像分类模块。

图像分类模块用于：在分类模型训练模块203生成所有类别的图像的bof量化直方图之后，

当接收到第二图像时，提取第二图像的特征；

将第二图像的bof量化直方图与所有类别的图像的分类模型进行相似度匹配，以确定第二图像的类别。

进一步地，在一个可选的实施例中，分类模型训练模块203用于：

计算第一类别的图像的每个特征与视觉码书中的每个视觉码字的欧式距离；

统计各个视觉码字匹配的图像特征的数量，并且将在视觉码书中的直方图统计频率高于设定阈值的视觉码字所匹配的特征认作第一类别的图像的特征；

根据第一类别的图像的特征，生成第一类别的图像的bof量化直方图。

进一步地，在一个可选的实施例中，该图像分类模块用于：

根据巴氏系数算法，计算第二图像bof量化直方图与各个类别的图像的bof量化模型的相似度；

将第二图像的类型判定为相似度最高的图像类型。

虽然本发明所揭露的实施方式如上，但上述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈英南;商晓;胡玉鹏
技术所有人：郑州云海信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。