一种图像处理方法及装置与流程

文档序号：11952050阅读：149来源：国知局

本发明涉及图像处理技术，尤其涉及一种图像处理方法及装置。

背景技术：

随着互联网业务的迅速发展，以及第四代(4G)通讯技术的快速普及，人们从网络获得的信息量越来越大，图片的传播量也日益增长。于此同时，各种违规图片的传播也严重干扰人们、尤其是未成年人的正常生活与身心健康，影响社会的运行秩序，造成不良的社会影响、带来负能量，同时危害到运营商的企业形象。为此，我们需要采取手段，对违规图片进行分类、识别，过滤，创造更加绿色、健康的互联网环境。

现有的图片过滤技术主要是直接对色情图片进行识别。例如肤色人脸识别，可通过图片分割找出身体与脸部区域，再通过区域占比的方式来判断图片是否涉黄。或者，根据纹理特征点分析，分析出纹理特征点再通过分类判断。此外比较简单的方法还有直接通过图像的文字标签来判断图像是否违规。现有色情图片过滤技术有比较好的判断准确率，一般可以达到90％，但同样会带来一定的误判率，误判率在10％左右。而真实的情况是违规的图片占总的图片的5％，所以假设图片库中一共有10000张的网络图片，那么违规图片大约有500张，而正常图片约有9500张。如果使用现有的图片过滤技术，大约可以过滤出违规图片1450张，其中，正常图片被误判为违规图片的大约有950张。过滤后违规图片占比仅32％，误判情况相当严重，因此还需要对过滤的图片进行后续处理。从上面可以看出，现有图片过滤技术误判率比较大，经过过滤后仍有大量图片需要人工判定，造成人力资源的浪费，并且大量混杂图片也影响人工判断准确性。

技术实现要素：

有鉴于此，本发明实施例为解决现有技术中存在的至少一个问题而提供一种图像处理方法及装置，具有图像分类针对性强、更加准确，图像匹配效率高，查全率高误判率低的技术优点。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种图像处理方法，所述方法包括：

利用预设的图片分类模型对待处理图像进行分类，得到分类结果；其中，所述图片分类模型是利用支持向量机法对分类图片库中的图片进行训练而得到的，所述分类结果表明所述待处理图像所属的分类图片库；

按照所述分类结果从所述待处理图像所属的分类图片库获取作为对比图像的第一图像，所述第一图像为所述待处理图像所属的分类图片库中的一张图像；

计算所述待处理图像与所述对比图像之间的哈希距离；

根据所述哈希距离将所述待处理图像进行去除或保留。

在本发明的一种实施例中，所述图片分类模型采用方式形成：对初步过滤后的图片进行筛选，得到初级训练库；

对所述初级训练库中的图片进行分类，得到初步分类图片库；

对初步分类图片库中的每张图片进行仿射变换，得到作为标准分类的分类图片库；

利用支持向量机法对所述分类图片库中的图片进行训练，得到图片分类模型。

在本发明的一种实施例中，所述利用支持向量机法对分类图片库中的图片进行训练，得到图片分类模型，包括：

将所有的所述分类图片库中图片统一为一个颜色模型；

对采用统一颜色模型表示的每一所述分类图片库中的图片进行量化；

采用支持向量机法对所述分类图片库中不同类别图片进行两两模拟，得到图片分类模型。

在本发明的一种实施例中，所述利用预设的图片分类模型对待处理图像进行分类，得到分类结果，包括：

利用二叉树分类法和图片分类模型对待处理图像进行分类，得到分类结果。

在本发明的一种实施例中，所述根据所述哈希距离将所述待处理图像进行去除或保留，包括：

判断所述哈希距离是否大于等于预设阈值，得到判断结果；

当所述判断结果表明所述哈希距离大于预设阈值时，将所述待处理图像去除。

在本发明的一种实施例中，所述根据所述哈希距离将所述待处理图像进行去除或保留，还包括：

当所述判断结果表明所述哈希距离小于预设阈值时，从所述待处理图像所属的分类图片库获取作为对比图像的第二图像，所述第二图像与所述第一图像不同；

计算所述待处理图像与所述对比图像之间的哈希距离；

根据所述哈希距离将所述待处理图像进行去除或保留。

第一方面，本发明实施例提供一种图像处理装置，所述装置包括分类单元、获取单元、计算单元和处理单元，其中：

所述分类单元，用于利用预设的图片分类模型对待处理图像进行分类，得到分类结果；其中，所述图片分类模型是利用支持向量机法对分类图片库中的图片进行训练而得到的，所述分类结果表明所述待处理图像所属的分类图片库；

所述获取单元，用于按照所述分类结果从所述待处理图像所属的分类图片库，获取作为对比图像的第一图像，所述第一图像为所述待处理图像所属的分类图片库中的一张图像；

所述计算单元，用于计算所述待处理图像与所述对比图像之间的哈希距离；

所述处理单元，用于根据所述哈希距离将所述待处理图像进行去除或保留。

在本发明的一种实施例中，所述装置还包括形成单元，用于形成所述图片分类模型；其中，所述形成单元进一步包括筛选模块、分类模块、变换模块和训练模块，其中：

所述筛选模块，用于对初步过滤后的图片进行筛选，得到初级训练库；

所述分类模块，用于对所述初级训练库中的图片进行分类，得到初步分类图片库；

所述变换模块，用于对初步分类图片库中的每张图片进行仿射变换，得到作为标准分类的分类图片库；

所述训练模块，用于利用支持向量机法对所述分类图片库中的图片进行训练，得到图片分类模型。

在本发明的一种实施例中，所述训练模块进一步包括统一子模块、量化子模块和模拟子模块，其中：

所述统一子模块，用于将所有的所述分类图片库中图片统一为一个颜色模型；

所述量化子模块，用于对采用统一颜色模型表示的每一所述分类图片库中的图片进行量化；

所述模拟子模块，用于采用支持向量机法对所述分类图片库中不同类别图片进行两两模拟，得到图片分类模型。

在本发明的一种实施例中，所述分类单元，用于利用二叉树分类法和图片分类模型对待处理图像进行分类，得到分类结果。

在本发明的一种实施例中，所述处理单元进一步包括判断模块和去除模块，其中：

所述判断模块，用于判断所述哈希距离是否大于等于预设阈值，得到判断结果；

所述去除模块，用于当所述判断结果表明所述哈希距离大于预设阈值时，将所述待处理图像去除。

在本发明的一种实施例中，所述处理单元还包括获取模块、计算模块和处理模块，其中：

所述获取模块，用于当所述判断结果表明所述哈希距离小于预设阈值时，从所述待处理图像所属的分类图片库获取作为对比图像的第二图像，所述第二图像与所述第一图像不同；

所述计算模块，用于计算所述待处理图像与所述对比图像之间的哈希距离；

所述处理模块，用于根据所述哈希距离将所述待处理图像进行去除或保留。

本发明实施例提供的图像处理方法及装置，利用预设的图片分类模型对待处理图像进行分类，得到分类结果；按照所述分类结果从所述待处理图像所属的分类图片库获取作为对比图像的第一图像，所述第一图像为所述待处理图像所属的分类图片库中的一张图像；计算所述待处理图像与所述对比图像之间的哈希距离；根据所述哈希距离将所述待处理图像进行去除或保留如此，具有图像分类针对性强、更加准确，图像匹配效率高，查全率高误判率低的技术优点。

附图说明

图1-1为网络上图片重复的一种示意图；

图1-2为本发明实施例一图片分类模型的形成过程示意图；

图1-3为本发明实施例一中二层的哈希小波变换的示意图；

图1-4为本发明实施例一中相似图像条状化的示意图；

图2为本发明实施例二图像处理方法的实现流程示意图；

图3-1为本发明实施例三图像处理方法的实现流程示意图；

图3-2为本发明实施例三中二叉树分类法的流程示意图；

图4为本发明实施例四图像处理方法的实现流程示意图；

图5为本发明实施例五图像处理装置的组成结构示意图；

图6-1为本发明实施例六图像处理装置的组成结构示意图；

图6-2为本发明实施例六中形成单元的组成结构示意图；

图6-3为本发明实施例六中训练模块的组成结构示意图；

图7为本发明实施例七图像处理装置的组成结构示意图。

具体实施方式

下面举例来说明背景技术中存在的问题，网络中图片的重复比例较大，部分图片完全重复，部分图片经缩放、裁剪或者水印处理后，仍与原图重复，如图1-1所示，图1-1中包括左上的a图、右上的b图、左下的c图和右下d图4张子图，这4张子图除了水印和比例大小外，图片的内容几乎是一样的，因此，这4张子图在很大程度上是重复的。现有技术的图片过滤技术适用于规模比较小的图片库，随着图片库的增大，误判比例就会越来越大，从而导致人工二次审核的负担也更大，因此，需要找到更好的方法减少人力成本。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

实施例一

为了解决上述的技术问题，本发明实施例先提供一种图片分类模型，图1-2为本发明实施例一图片分类模型的形成过程示意图，如图1-2所示，具体过程包括以下步骤：

步骤S101，初步过滤后的图片10经过筛选后，形成初级训练库11；

这里，经初步过滤后的图片10作为系统的输入，当然，系统的输入还可以是未经初步过滤的图片，这里是以经初步过滤后的图片10为例。在具体实现过程中，可以将经初步过滤后的图片存在一个单独的图片库中，该图片库中包括一定比例的违规图片，如果采用常规的处理方式将会存在较大的误判率。

步骤S102，对初级训练库11中的图片进行分类，形成初步分类图片库；对初步分类图片库中的每张图片进行缩放、裁剪、模糊、水印等仿射变换，以对初步分类图片库进行扩容，得到作为标准分类的分类图片库12。

在具体实现的过程中，筛选、分类可以采用机器智能筛选和分类，也可以采用人工筛选、分类，从而挑选出典型图片，这些经典图片用作分类图片库，分类图片库可以分为K类图片库，例如，身体整体类图片库(以下简称身体整体库)、面部类图片库(以下简称面部库)、动物类图片库(以下简称动物库)、风景类图片库(以下简称风景库)等等，其中K为大于等于1的整数。

步骤S103，利用支持向量机法对分类图片库12中的图片进行训练，从而得到图片分类模型13。

这里，步骤S103中包括以下步骤S1031至步骤S1033：

步骤S1031，颜色模型转换；

具体来说，将分类图片库12中图片统一为一个颜色模型；将各个分类图片库12中图片可以采用HSV(色调H、饱和度S、亮度V)颜色模型来统一表示。一般来说，分类图片库12中的图片是RGB(红色R、绿色G、蓝色B)模型的，所以步骤S1031可以是将RGB模型的图片转换为(—>)HSV模型的图片。

步骤S1032，颜色模型量化；

具体来说，对采用统一颜色模型表示的图片进行量化；在步骤S1031中，图片可以采用HSV模型来表示，那么在该步骤中可以对每一图片对应的颜色空间中的色调H、亮度V的直方图做N维量化处理，换句话说，对颜色空间的色调H在其数值范围内进行N等分，对颜色空间的亮度V在其数值范围内进行N等分，这样每张图片可以采用色调H向量和亮度V向量来表示，也就是一个2N维向量表示。

具体来说，一张x*y大小图片A，其中图片A在水平方向上的像素个数为x个，图片A在垂直方向上的像素个数为z个。一般来说，图片A色调采用角度度量，角度取值范围为0°～360°，换句话说，对色调H在其数值范围内N等分，也就是将角度0°～360°进行N等分然后计算图片A中的像素分别落入色调H的N等分区间内的像素数目，然后将图片A采用色调H来表示成向量即为其中k₁为落入角度0°～360°的第一个区间内的像素个数，k₂为落入角度0°～360°的第二个区间内的像素个数，同理，k_n为落入角度0°～360°的第N个区间内的像素个数。由以上记载可知：落入N等分区间内的像素(k₁,k₂,...k_n)与图片A的像素的总数目x*z之间具有如下关系：k₁+k₂+,...+k_n＝x*z。

一般来说，图片A亮度V的取值范围为0～255，换句话说，对亮度V在其数值范围内N等分，也就是将0～255进行N等分然后计算图片A中的像素分别落入亮度V的N等分区间内的像素数目，然后将图片A采用亮度V来表示成向量即为其中k_n+1为落入0～255的第一个区间内的像素个数，k_n+2为落入0～255的第二个区间内的像素个数，同理，k_n+n为落入0～255的第N个区间内的像素个数。由以上记载可知：落入N等分区间内的像素(k_n+1,k_n+2,...k_2n)与图片A的像素的总数目x*z之间具有如下关系：k_n+1+k_n+2+,...+k_2n＝x*z。

对于图片A，将图片A采用色调H来表示成N维向量即为图片A采用亮度V来表示成N维向量即为如果将图片A采用色调H和亮度V来表示成2N向量即为其中中的下标A表示图片A，箭头→表示向量。

步骤S1033，核函数模拟；

具体来说，由支持向量机法对分类图片库中不同类别图片两两模拟，因此将会有K(K-1)/2个图片分类模型13。

这里，两两选取经人工进行图片挑选、变换的分类图片库，来构造支持向量机法的模型。例如，假设分类图片库中A、B、C、D、E五个分类库，则需要训练出A-B、A-C、A-D、A-E、B-C、B-D、B-E、C-D、C-E、D-E这10个训练完成模型，其中分类A可以是身体整体库、分类B可以是面部库、分类C可以是动物库、分类D可以是风景库、分类E可以是其他库。在具体实施的过程中，训练可采用离线训练的方式操作，这样不影响系统在线分类过滤的效率。

对于参加模拟的两个分类图片库用y来表示，假设对身体整体库(第一类图片库)与动物库(第二类图片库)进行模拟，身体整体库为正类，用y＝1(正 1)表示；动物库为负类，由y＝-1(负1)表示。

则关于分类图片库的核函数可表示为：

$<mrow> <mi>δ</mi> <mo>=</mo> <mi>y</mi> <mrow> <mo>(</mo> <mi>w</mi> <msub> <mover> <mi>x</mi> <mo>&RightArrow;</mo> </mover> <mi>i</mi> </msub> <mo>+</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

公式(1)中，δ表示核函数；表示第i张图片的2N维图片向量，其中下标i表示第i张图片，1≤i≤m，因此有w表示图片分类的分割函数。现将公式(1)表示为

为了使得身体整体库和动物库中的样本点距离尽可能的大，则maxδ(x)转化为其中满足条件y_i(wx_i-1)≥0(i＝1,2,...2n)，下标i表示样本数。这样问题即转化为线性规划问题，N维向量可在(N+1)维线性空间求解，于是所构造的核函数可以这两类分开。新样本点若满足y(wx_i+b)≥0，则将y所代表的分类图片库划分为正类，否则将y所代表的分类图片库划分为负类。需要说明的是，对于本领域的技术人员来说，上述的公式(1)可以参见支持向量机(SVM)教材有关的分类器中的相关内容来实现，或者采用各种现有技术来实现，这里不再赘述。

从图1-2可以看出，本发明实施例提供的图片分类模型的形成过程大致为：利用支持向量机法对经仿射变换与作为标准的分类图片库中的图片进行训练，根据训练结果来形成图片分类模型。

实施例二

基于前述的实施例一，本发明实施例提供一种图像处理方法，该方法应用于电子设备，所述电子设备是指具有计算能力的设备，例如，个人计算机、服务器、工业控制计算机、笔记本电脑等。本发明实施例提供的图像处理方法所实现的功能可以通过电子设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该电子设备至少包括处理器和存储介质。

图2为本发明实施例二图像处理方法的实现流程示意图，如图2所示，该图像处理方法包括：

步骤201，利用预设的图片分类模型对待处理图像进行分类，得到分类结果；

这里，所述图片分类模型是利用支持向量机法对分类图片库中的图片进行训练而得到的，所述分类结果表明所述待处理图像所属的分类图片库。本实施例中有关所述图片分类模型的描述，请参阅上述的实施例一而理解，为了节约篇幅和使说明书看起来简洁，这里不再赘述。

这里，所述待处理图像可以是经初步过滤后的图片，在具体实施的过程中，可以从经过初步过滤后的图片库获取一张图片作为待处理图片，需要说明的是，经过初步过滤后的图片库中存在大量的违规图片，这是由于初步过滤存在较大的误判率。

步骤202，按照所述分类结果从所述待处理图像所属的分类图片库获取作为对比图像的第一图像，所述第一图像为所述待处理图像所属的分类图片库中的一张图像；

步骤203，计算所述待处理图像与所述对比图像之间的哈希距离；

步骤204，根据所述哈希距离将所述待处理图像进行去除或保留。

这里，步骤203和步骤204的具体过程如下：计算相比较图片的hash值的汉明距离Thre，其中，相比较图片是指所述待处理图像与所述对比图像，因此，计算计算相比较图片的hash值的汉明距离Thre，是指计算所述待处理图像与所述对比图像之间的哈希距离，其中哈希距离计算方法如公式(3)所示，汉明距离Thre值越小表明图像相似度越高，反之则相似度越低。

$<mrow> <mi>Thre</mi> <mo>=</mo> <mrow> <mo>(</mo> <mi>hashVector</mi> <mn>1</mn> <mo>-</mo> <mi>hashVector</mi> <mn>2</mn> <mo>)</mo> </mrow> <mo>/</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>*</mo> <msqrt> <mi>norm</mi> <mrow> <mo>(</mo> <mi>hashVector</mi> <mn>1</mn> <mo>)</mo> </mrow> <mo>*</mo> <mi>norm</mi> <mrow> <mo>(</mo> <mi>hashVector</mi> <mn>2</mn> <mo>)</mo> </mrow> </msqrt> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>$

公式(3)中，向量hashVector1为待处理图像，hashVector2为对比图像，norm表示对向量取范数。

本领域的技术人员可以根据实际情况如实验情况来设定阈值，之后根据汉明距离与阈值之间的大小关系来判断两张图片是否为重复图片。如果是重复图片，则将重复图片删除，减少随后系统中人工判定的工作量。

本发明实施例中，所述图片分类模型采用方式形成：

步骤S11，对初步过滤后的图片进行筛选，得到初级训练库；

步骤S12，对所述初级训练库中的图片进行分类，得到初步分类图片库；

步骤S13，对初步分类图片库中的每张图片进行仿射变换，得到作为标准分类的分类图片库；

步骤S14，利用支持向量机法对所述分类图片库中的图片进行训练，得到图片分类模型。

这里，步骤S14，所述利用支持向量机法对分类图片库中的图片进行训练，得到图片分类模型，包括：

步骤S141，将所有的所述分类图片库中图片统一为一个颜色模型；

步骤S142，对采用统一颜色模型表示的每一所述分类图片库中的图片进行量化；

步骤S143，采用支持向量机法对所述分类图片库中不同类别图片进行两两模拟，得到图片分类模型。

本发明实施例中，由于初步过滤后的图片库中重复图片占总图片很大比例，因此，需要对过滤后的图片进行匹配，可以采用的图片匹配算法包括以下几种：

1)二进制编码匹配算法，二进制编码匹配算法是一种通过比较图片的二进制编码来判断图片是否完全重复的算法，该算法具有快速准确的特点，但是该算法只能匹配完全相同的图片，两张图片有任何改动，该算法都会判定两张图片为不同图片。

2)感知哈希算法，又称为灰度算法匹配算法，用图片的平均灰度值或纹理值来计算哈希值，再由两个图片哈希值的汉明距离来判断图像是否匹配。该算法对于颜色差异较大图片效果明显；但是随着图片库增大，每张图片需要比较次数增多，背景相似图片也增多，该算法误判率相对较大。

3)尺度不变特征转换(Scale-invariant feature transform，SIFT)法，又称为特征点比较算法，通过SIFT等技术获得多个局部图像特征点，再通过图像局部特征点比较判断图像是否匹配。该算法在图片匹配时，对于旋转、尺度缩放、亮度变化保持不变形。但该算法需要向量维度较大，计算量很大，对于大规模图片搜索和匹配效率很低、实用性较差。

本发明实施例中，利用预设的图片分类模型对待处理图像进行分类，得到分类结果；按照所述分类结果从所述待处理图像所属的分类图片库获取作为对比图像的第一图像，所述第一图像为所述待处理图像所属的分类图片库中的一张图像；计算所述待处理图像与所述对比图像之间的哈希距离；根据所述哈希距离将所述待处理图像进行去除或保留；由此可见，本实施例提供的技术方案可准确的将输入图片(待处理图像)分为若干类，有助于下一步的图片匹配处理和后续人工处理；该算法在匹配处理过程中同样可以应对各种图片篡改，找出重复图片，并降低不同图片识别为同一个图片的误判率；此外该算法具有较好的自动学习能力；而且如果输入图片发生较大变化，该算法可以重建训练库，对输入图片重分类，因此具有较好的实用价值。与现有方法相比，本实施例提供的技术方案具有图像分类针对性强、更加准确，图像匹配效率高，查全率高误判率低的技术优点。

实施例三

图3-1为本发明实施例三图像处理方法的实现流程示意图，如图3-1所示，该图像处理方法包括：

步骤301，利用预设的图片分类模型对待处理图像进行分类，得到分类结果；

这里，所述图片分类模型是利用支持向量机法对分类图片库中的图片进行训练而得到的，所述分类结果表明所述待处理图像所属的分类图片库；

步骤302，按照所述分类结果从所述待处理图像所属的分类图片库获取作为对比图像的第一图像；

这里，所述第一图像为所述待处理图像所属的分类图片库中的一张图像；

步骤303，计算所述待处理图像与所述对比图像之间的哈希距离；

步骤304，判断所述哈希距离是否大于等于预设阈值，得到判断结果；

步骤305，当所述判断结果表明所述哈希距离大于预设阈值时，将所述待处理图像去除，从所述待处理图像所属的分类图片库获取作为对比图像的第三图像，所述第三图像与所述第一图像不同，进入步骤303；

步骤306，当所述判断结果表明所述哈希距离小于等于预设阈值时，从所述待处理图像所属的分类图片库获取作为对比图像的第二图像，所述第二图像与所述第一图像不同，进入步骤303。

本发明实施例中，在步骤301，所述利用预设的图片分类模型对待处理图像进行分类，得到分类结果，包括：利用二叉树分类法和图片分类模型对待处理图像进行分类，得到分类结果。

这里，由于二叉树分类法可将新来样本点(待处理图像)分为正负两类，但可能样本点会满足多个分类条件，因此，在本发明实施例中采用二叉树分类法，能够避免分类重复。假设有S1、S2、S3、S4和S5共五类，二叉树分类法如图3-2所示，N类样本中，每个样本经过(N-1)次比较分入所对应的图片聚类。这样在建立好训练模型之后，所有输入图片都可经过有限次比较，分入不同的图片类别。为一步的图片匹配除重工作于最后人工过滤判定做好充足的准备。

经过该步骤的分类流程，可将输入图片(待处理图像)分类。根据网络图片特点，输入图片中相同图片或相同图片经仿射变换的比例较高，约30％。下面提出一种改进版的小波哈希算法即随机小波哈希算法，可将每类图片库中重复图片提取，可以有效的提高图片查全率并且降低误判率。

实施例四

在本发明以下提供的实施例中，利用支持向量机法对经仿射变换与作为标准的分类图片库中的图片进行训练，根据训练结果制作分类模型(训练完成模型)，分类模型用于对新流入图片再分类，其中，新流入图片作为系统输入，新流入图片可以是经初步过滤后的图片，也可以是未经初步过滤的图片；然后对于再分类后的图片，利用随机小波哈希算法进行匹配，去除重复图片。

图4为本发明实施例四图像处理方法的实现流程示意图，如图4所示，该图像处理方法包括：

步骤401，利用预设的图片分类模型42对待处理图像41进行分类，得到分类结果；

这里，分类结果就是形成已分类图像43。

这里，所述待处理图像是经初步过滤后的图片10，当然待处理图像还可以是未经初步过滤的图片，这里是以经初步过滤后的图片10为例。在具体实现过程中，可以将经初步过滤后的图片存在一个单独的图片库中，该图片库存在色情等违规图片，如果采用常规的处理方式，会存在较大的误判率。

这里，所述利用预设的图片分类模型对待处理图像进行分类，得到分类结果，包括：利用二叉树分类法和图片分类模型对待处理图像进行分类，得到分类结果。

这里，所述待分类图像需要与分类图片库中颜色模型一致，在具体实施的过程中，可以采用HSV(色调H、饱和度S、亮度V)颜色模型表示。每个H向量、V向量的直方图做N维量化处理，处理后每张图片由2N维向量表示。

这里，利用图片分类模型对所述待分类图片做分类可以采用二叉树分类判断法，判断经分类后的确定所述待分类图像所属的类别；所有的待分类图像经过分类后均可根据该分类模型分入K类输入图片。

步骤402，利用随机小波哈希算法计算所述已分类图像43与所述分类图片库中的图片之间的哈希距离；

这里，步骤402包括以下步骤：

步骤4021，图像灰度值转换；

一般来说，分类图片库中的分类图片库12中的图片是RGB模型的，因此，可以将RGB模型的彩色图像转化为灰度值图像P_x*z，其中x为图像在水平方向上的像素点的数目，z为图像在垂直方向上像素点的数目。

步骤4022，图像归一化处理；

这里，将灰度值图像P_x*z转化为正方形图像P_{minx*z*minx*z}，min(x,z)的含义为取x与z之间的最小值。

步骤4023，对图片进行二层的哈希小波变换；

这里，用哈希小波对正方形图像P_{min(x,z)*min(x,z)}做二层的哈希小波变换，得到原图像比例1/16的近似图像与低频小波信息，这里之所以对正方形图像P_{min(x,z)*min(x,z)}进行哈希小波变换，只因为哈希小波变换后的图像能够保留图像最不易篡改的信息，因此可以对图像进行缩放、水印等处理。

图1-3为本发明实施例一中二层的哈希小波变换的示意图，如图1-3所示，哈希小波算法每次会将图片分解为横向、纵向、斜向及图片近似分解为四个子图像，由于本发明实施例中采用的是两层的哈希小波变换，因此，会得到如图1-3所示的7张图像，其中，图像30是对正方形图像P_{min(x,z)*min(x,z)}进行第一次哈希小波变换后得到的横向图，图像40是对正方形图像P_{min(x,z)*min(x,z)}进行第一次哈希小波变换后得到的纵向图，图像50是对正方形图像P_{min(x,z)*min(x,z)}进行第一次哈希小波变换后得到的纵向图，图像21是对正方形图像P_{min(x,z)*min(x,z)}进行第二次哈希小波变换后得到的为原图像比例1/16的近似图像PHarr_(p1*p2)，图像22是对正方形图像P_{min(x,z)*min(x,z)}进行第二次哈希小波变换后得到的横向图，图像23是对正方形图像P_{min(x,z)*min(x,z)}进行第二次哈希小波变换后得到的纵向图，图像24是对正方形图像P_{min(x,z)*min(x,z)}进行第二次哈希小波变换后得到的斜向图。其中，横向、纵向、斜向是指图像的纹理变化方向。

步骤4024，小波矩阵随机化；

这里，先将相似图像条状化，图1-4为本发明实施例一中相似图像条状化的示意图，如图1-4所示，其中，图像211为相似图片，其余条状图像212、213、214、215和216为图像211经随机条状切割后的图像内容。然后，用各种随机矩阵(Random Matrix，约100个)与小波信息矩阵(Wavelet Matrix)做向量乘积，每个乘积结果可以得到原小波信息矩阵的部分信息。最终，汇总得到Hash值，Hash值为100个小波信息矩阵的信息。每个图片用一个100维的Hash值表示。此步骤为保证小波信息矩阵的鲁棒性，可避免因部分小波矩阵的内容发生改变，影响整体结果，也就是可以平均化小波的噪音。

hash₁＝RandomMatrix_1*l×WaveletMatrix_l*1 (2)；

公式(2)中，hash₁为计算后的随机哈希值，RandomMatrix为随机矩阵，WaveletMatrix为小波信息矩阵，(P₁，P₂分别为小波信息矩阵的行数与列数)，其中r、t为随机矩阵的维度，然后将小波矩阵随机化。以此类推，哈希向量hashVector＝(hash₁,hash₂,...hash_n)(n＝100)。

步骤4025，计算汉明距离；

这里，计算与分类结果对应的分类图片库中图片与已分类图像43之间的汉明距离。

步骤403，阈值判定45与分类除重或保留；

若满足阈值判定条件，则说明该图片为重复图片，将该图片删除；否则，归为原有类别。

本发明实施例提供的技术方案，具有如下优点：根据实验表明利用随机矩阵比较小波哈希值，对缩放、水印、裁剪等多种图片变换均具有鲁棒性。所以无论是完全相同的图片，还是经过仿射变换的图片，该算法都可将重复图片找出，并且在图像训练分类之后比较，非常有效的降低了重复图片匹配的误判率 (即不同图片被匹配上)，同时也提高了算法的运行效率；经过分类后哈希值比较次数大大减少。

实施例五

基于前述的方法实施例，本发明实施例提供一种图像处理装置，该装置中的分类单元、获取单元、计算单元和处理单元都可以通过前述电子设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在具体实施例的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图5为本发明实施例五图像处理装置的组成结构示意图，如图5所示，该图像处理装置500包括分类单元501、获取单元502、计算单元503和处理单元504，其中：

所述分类单元501，用于利用预设的图片分类模型对待处理图像进行分类，得到分类结果；其中，所述图片分类模型是利用支持向量机法对分类图片库中的图片进行训练而得到的，所述分类结果表明所述待处理图像所属的分类图片库；

所述获取单元502，用于按照所述分类结果从所述待处理图像所属的分类图片库，获取作为对比图像的第一图像，所述第一图像为所述待处理图像所属的分类图片库中的一张图像；

所述计算单元503，用于计算所述待处理图像与所述对比图像之间的哈希距离；

所述处理单元504，用于根据所述哈希距离将所述待处理图像进行去除或保留。

本发明实施例中，所述分类单元，用于利用二叉树分类法和图片分类模型对待处理图像进行分类，得到分类结果。

本发明实施例中，所述分类单元501利用预设的图片分类模型对待处理图像进行分类，得到分类结果；所述获取单元502按照所述分类结果从所述待处理图像所属的分类图片库，获取作为对比图像的第一图像；所述计算单元503计算所述待处理图像与所述对比图像之间的哈希距离；所述处理单元504根据所述哈希距离将所述待处理图像进行去除或保留；如此，具有图像分类针对性强、更加准确，图像匹配效率高，查全率高误判率低的技术优点。

实施例六

基于前述的方法实施例，本发明实施例提供一种图像处理装置，该装置中的形成单元、分类单元、获取单元、计算单元和处理单元，以及形成单元所包括的各模块，甚至模块中所包括的子模块，都可以通过前述电子设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在具体实施例的过程中，处理器可以为中央处理器、微处理器、数字信号处理器或现场可编程门阵列等。

图6-1为本发明实施例六图像处理装置的组成结构示意图，如图6-1所示，该图像处理装置600包括形成单元505、分类单元501、获取单元502、计算单元503和处理单元504，其中：

所述形成单元505，用于形成所述图片分类模型；

所述计算单元503，用于计算所述待处理图像与所述对比图像之间的哈希距离；

所述处理单元504，用于根据所述哈希距离将所述待处理图像进行去除或保留。

本发明实施例中，如图6-2所示，所述形成单元505进一步包括筛选模块 5051、分类模块5052、变换模块5053和训练模块5054，其中：

所述筛选模块5051，用于对初步过滤后的图片进行筛选，得到初级训练库；

所述分类模块5052，用于对所述初级训练库中的图片进行分类，得到初步分类图片库；

所述变换模块5053，用于对初步分类图片库中的每张图片进行仿射变换，得到作为标准分类的分类图片库；

所述训练模块5054，用于利用支持向量机法对所述分类图片库中的图片进行训练，得到图片分类模型。

这里，如图6-3所示，所述训练模块5054进一步包括统一子模块5541、量化子模块5542和模拟子模块5543，其中：

所述统一子模块5541，用于将所有的所述分类图片库中图片统一为一个颜色模型；

所述量化子模块5542，用于对采用统一颜色模型表示的每一所述分类图片库中的图片进行量化；

所述模拟子模块5543，用于采用支持向量机法对所述分类图片库中不同类别图片进行两两模拟，得到图片分类模型。

本发明实施例中，所述分类单元，用于利用二叉树分类法和图片分类模型对待处理图像进行分类，得到分类结果。

实施例七

基于前述的方法实施例，本发明实施例提供一种图像处理装置，该装置中的分类单元、获取单元、计算单元和处理单元，以及处理单元中所包括的各模块，都可以通过前述电子设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在具体实施例的过程中，处理器可以为中央处理器、微处理器、数字信号处理器或现场可编程门阵列等。

图7为本发明实施例七图像处理装置的组成结构示意图，如图7所示，该图像处理装置700包括分类单元501、获取单元502、计算单元503和处理单元 504，其中所述处理单元504进一步包括判断模块5041、去除模块5042、获取模块5043、计算模块5044和处理模块5045，其中：

所述计算单元503，用于计算所述待处理图像与所述对比图像之间的哈希距离；

所述判断模块5041，用于判断所述哈希距离是否大于等于预设阈值，得到判断结果；

所述去除模块5042，用于当所述判断结果表明所述哈希距离大于预设阈值时，将所述待处理图像去除。

所述获取模块5043，用于当所述判断结果表明所述哈希距离小于预设阈值时，从所述待处理图像所属的分类图片库获取作为对比图像的第二图像，所述第二图像与所述第一图像不同；

所述计算模块5044，用于计算所述待处理图像与所述对比图像之间的哈希距离；

所述处理模块5045，用于根据所述哈希距离将所述待处理图像进行去除或保留。

本发明实施例中，所述装置700还可以包括形成单元505，如图6-2所示，所述形成单元505进一步包括筛选模块5051、分类模块5052、变换模块5053和训练模块5054，其中：

所述筛选模块5051，用于对初步过滤后的图片进行筛选，得到初级训练库；

所述分类模块5052，用于对所述初级训练库中的图片进行分类，得到初步分类图片库；

所述变换模块5053，用于对初步分类图片库中的每张图片进行仿射变换，得到作为标准分类的分类图片库；

所述训练模块5054，用于利用支持向量机法对所述分类图片库中的图片进行训练，得到图片分类模型。

这里，如图6-3所示，所述训练模块5054进一步包括统一子模块5541、量化子模块5542和模拟子模块5543，其中：

所述统一子模块5541，用于将所有的所述分类图片库中图片统一为一个颜色模型；

所述量化子模块5542，用于对采用统一颜色模型表示的每一所述分类图片库中的图片进行量化；

所述模拟子模块5543，用于采用支持向量机法对所述分类图片库中不同类别图片进行两两模拟，得到图片分类模型。

本发明实施例中，所述分类单元，用于利用二叉树分类法和图片分类模型对待处理图像进行分类，得到分类结果。

这里需要指出的是：以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本发明装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解，为节约篇幅，因此不再赘述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：安宁宇;粟栗;张峰;檀鹏;
技术所有人：中国移动通信集团公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。