一种基于模糊聚类的图片检索方法

文档序号:6627233阅读:194来源:国知局
一种基于模糊聚类的图片检索方法
【专利摘要】本发明公开了一种基于模糊聚类的图片检索方法,包括如下步骤:S11,为图片库中图片构建特征值库,并为每张图片进行编号;S12,从图片库中选取图片间的相互距离均大于距离阙值A1的N张图片,对其余图片进行第一次归类,形成N类图片集;S13,对N类图片集中所含图片数量大于数量阙值的类执行步骤S12,直到所有的类均小于数量阙值为止,得到M个代表点;S14,对图片库中的所有图片根据与M个代表点的相似程度,划分到相似程度最高的代表点所代表的图片集中;S15,对于待检索的输入图片,对其特征值化,分别计算其与所有代表点之间的相似度,选取相似度距离最近的若干个代表点进行检索。本发明在保证检索效率的基础上缩小了检索范围,降低了检索的工作量。
【专利说明】一种基于模糊聚类的图片检索方法

【技术领域】
[0001]本发明涉及一种图片检索方法,尤其涉及一种基于模糊聚类的图片检索方法,属于信息检索【技术领域】。

【背景技术】
[0002]图片是多媒体信息的重要呈现形式之一。它通过颜色、纹理、形状等丰富的视觉特征,直观、生动地使抽象数据形象化、真实化地呈现给大众。随着互联网信息传播的愈发便捷和移动终端功能的不断完善,图像信息将成为继文字之后的又一种主要的信息载体,被广泛应用于信息检索、数据挖掘、人机交互等领域。但由于图片本身存在蕴含信息复杂、环境相关性强、高层语义抽象困难、检索模式计算量大和面向海量图片的组织架构不完善等问题,与图片信息处理相关,尤其是与互联网中海量图片的检索、分析、组织管理相关的研究成为计算机领域的一个研究难点。
[0003]现有的图片检索的基本模型是根据检索图片与被检索库图片进行相似度一一比较,经过排序后选出最接近的若干张图片作为返回值,这种模型需要在每次检索时对整个图片库进行一次遍历操作,当检索访问过多时会对后来的访问者带来较长时间的等待,而且这种等待时间会随着访问者的不断增多而进一步增长。图片检索的结果来源于收集的图片库,如果要满足不同访问者的需要,或适用于不同类型图片的检索输入,图片库的规模就需要足够大,这样才能保证检索的准确度,但过大的图片库使检索的负载和响应时间呈倍增长,无法到达实时检索的要求。
[0004]为了解决上述问题,在专利号为ZL 201010195710.6的中国发明专利中,公开了一种图像检索方法,包括训练和检索两个部分;训练部分包括以下步骤:特征点的提取;特征点的补充和匹配关系的确定;同类点集的生成;特征点集聚类;图像数据库中每幅图像特征矢量的生成;检索部分包括以下步骤:提取待检索图片的特征点,生成特征点集;计算各个特征点描述子向量到各个聚类中心的距离,以最小距离确定当前特征点所属聚类;计算待检索图片的特征点所属各个聚类的频数;基于待检索图片的特征点所属聚类的频数和所述的各聚类的概率对数生成一个特征矢量并单位化;计算待检索图片的特征矢量到图片库各图像特征矢量的欧拉距离,选取距离最小的图像输出为检索结果。


【发明内容】

[0005]本发明所要解决的技术问题在于提供一种基于模糊聚类的图片检索方法。
[0006]为实现上述的发明目的,本发明采用下述的技术方案:
[0007]—种基于模糊聚类的图片检索方法,包括如下步骤:
[0008]S11,为图片库中图片构建特征值库,并为每张图片进行编号;
[0009]S12,以编号为操作对象,从图片库中选取图片间的相互距离均大于距离闕值Al的N张图片,对其余图片进行第一次归类,形成N类图片集;
[0010]S13,对N类图片集中所含图片数量大于数量闕值的类执行步骤S12,选取的图片间相互距离均大于距离闕值A2,每类形成不同数量的子类别,继续在符合所含图片数量大于数量闕值的子类别中执行步骤S12,直到所有的类均小于数量闕值为止,得到M个代表占.
[0011]S14,对图片库中的所有图片,根据与M个代表点的相似程度,划分到相似程度最高的代表点所代表的图片集中,完成整个图片库类别的划分过程;
[0012]S15,对于待检索的输入图片,对其特征值化,分别计算该图片与所有代表点之间的相似度并按照大小顺序排列,选取相似度距离最近的若干个代表点,在选取的代表点所代表的图片集中进行检索,将检索结果合并后返回给用户。
[0013]其中较优地,从图片库中选取N张图片的过程包括如下步骤:
[0014]S121,在图片库中随意选取一张图片P,以这张图片为输入在图片库中进行检索,寻找相似度距离最大的图片Qp
[0015]S122,以图片Q1为检索输入并将图片集划分为和Q1的相似度距离大于距离闕值Al的部分SH1,并得到相似度距离最大的图片Q2。
[0016]S123,循环执行步骤S22,每次的检索图片为上一次循环得到的最不相似图片QN,被检索的图片集为上一次循环得到的SHn,直到SHnS空为止,所得到的Q1……QnN张图片即为需要选出的N个代表点。
[0017]一种基于模糊聚类的图片检索方法,包括如下步骤:
[0018]S21,对图片库中的图片进行编号,并将图片映射为特征值码,使用字节哈希将其分配到节点上,再存储到分布式文件系统中;
[0019]S22,从分布式文件系统中随机读取一个特征值码作为初始点,为每个节点分配一个map函数,在每个map函数中寻找与其相似度距离最大的点,再发送到reduce函数处进行合并,挑选出整个图片库与其相似度距离最远的点Q1 ;
[0020]S23,以点Q1为新的初始点,计算每个节点中与点Q1相似度距离最大的点,合并到reduce函数处取最大值,得到和Q1的相似度距离大于距离闕值Al的图片集SH1以及最不相似的图片Q2,在SH1中重新将图片对应的特征值码分配到节点上,并为每个节点分配一个map函数,继续按照上述步骤寻找相似度距离最远的点Q3,每次的初始点为上一次循环得到的最不相似图片Qn,被检索的图片集为上一次循环得到的SHn,多次循环直到SHn为空为止,得到N个代表点。
[0021]S24,为每个代表点分配一个map函数,每个map函数根据图片库中其余图片与已知代表点的相似度距离划分类别,同一类别映射到一个reduce函数处,根据类别中图片数量的大小判断是否可以单节点执行;
[0022]S25,对于不能单节点执行的类别内继续使用步骤S23寻找代表点,选取与Qn的相似度距离大于距离闕值A2的图片集SHn作为被检索的图片集,直到所有类别可以单节点执行为止,得到M个代表点;
[0023]S26,收集所有代表点,为每个代表点分配一个map函数,每个map函数分别计算图片库中其余图片与代表点的相似度距离,进行最后分类,同类使用reduce函数合并后存为文件;
[0024]S27,对于待检索的输入图片,对其特征值化,分别计算该图片与所有代表点之间的相似度并按照大小顺序排,选取相似度距离最近的若干个代表点,在选取的代表点所代表的文件中查找最后结果并返回。
[0025]其中较优地,在选取的代表点所代表的图片集中进行检索过程包括如下步骤:
[0026]S151,为每类图片集分配一个map函数,将每类图片集中包含的图片对应的特征值码,使用字节哈希将其分配到节点上。
[0027]S152,map函数计算同一节点上图片集中图片与检索图片的相似度距离,并根据距离大小对其进行排序,把排序后的结果发送给reduce函数。
[0028]S153, reduce函数接受各个map函数传送来的排序后的结果,对其进行合并、排序,得到最终的图片检索结果。
[0029]其中较优地,在对图片进行处理时,均只对其对应的所述编号进行操作,而不对图片进行提取,只有在所述检索结果合并后,再依照图片和编号的对应关系从图片库中提取图片,返还给用户。
[0030]其中较优地,在计算图片之间的相似度距离时,使用两种特征值的组合对图片进行表示,采用几何平均数作为两种特征值的组合公式,计算图片间的相似度距离。
[0031]其中较优地,所述距离闕值A2为小于距离闕值Al的任意数。
[0032]本发明提供的基于模糊聚类的图片检索方法,通过选取代表点,将图片库中的图片按照代表点进行分类处理,检索时,只需计算输入的图片与代表点的相似度距离,选取相似度距离较小的若干个代表点所在的类别进行图片进一步检索,在保证检索效率的基础上,缩小了检索的范围,降低了检索的工作量,有效地满足了用户实时检索的需求。

【专利附图】

【附图说明】
[0033]图1为本发明所提供的基于模糊聚类的图片检索方法的流程图;
[0034]图2为本发明的一个实施例中,实现从图片库中选取N张图片的流程图。

【具体实施方式】
[0035]下面结合附图和具体实施例对本发明的技术内容作进一步的详细说明。
[0036]本发明提供了一种基于模糊聚类的图片检索方法,包括如下步骤:首先根据图片库所依赖的相似度计算模型和高维特征空间中图片分布的疏密程度来选取适当数量的代表点,这些代表点本身也可以是图片,保证图片聚集程度越高的区域代表点的数量越多,反之,图片聚集程度越低的区域代表点的数量越少,代表点的相对距离按照密度的高低尽量分开,保证其他图片在归类时可以体现足够的趋向性;在选定代表点后将剩余图片按照与这些代表点的远近划分到不同的区域中去,形成一个个高维子空间,即各类图片集;最后在检索时将输入图片划分到若干个高维子空间中,在高维子空间中进行检索,并将检索结果合并返还给用户。如图1所示,下面对这一过程做详细具体的说明。
[0037]S11,为图片库中图片构建特征值库,并为每张图片进行编号。
[0038]在为图片库中图片构建特征值库时,使用两种特征值的组合对图片进行表示,以保证所涵盖的信息量足以明显表示图片内容,在本发明所提供的实施例中,使用CEDD(Color and Edge Directivity Descriptor)和边缘直方图两种特征值进行构建,特征值组合CEDD和边缘直方图不仅涵盖了图片的颜色、纹理和轮廓三种属性,对辨别图片的主体对象有较好的效果,而且单位特征值所占内存空间小,易于存储。以特征值组合CEDD和边缘直方图为基准为图片库中的图片构建特征值库,并对每张图片进行编号。在本发明所提供的实施例中,对图片进行处理时,均只对其对应的编号进行操作,不对图片进行提取,只有最后检索结果合并后,再依照图片和编号的对应关系从图片库中提取图片,返还给用户。例如:进行图片间的相似度距离计算时,只提取图片编号对应的特征值,进行相似度距离的计算,并不对图片进行提取,降低了操作了复杂性,提高了检索的效率。
[0039]S12,以编号为操作对象,从图片库中选取图片间的相互距离均大于距离闕值Al的N张图片,对其余图片进行第一次归类,形成N类图片集。
[0040]根据特征值库中存储的图片的特征值,采用几何平均数作为两种特征值的组合公式,计算图片间的相互距离,几何平均数的优势在于避免了对特征值的归一化,且和单纯乘法计算相比保证了组合与单一特征值的值域接近,更有利于距离值大小的比较。从图片库中选取图片间的相互距离均大于距离闕值Al的N(N为正整数,下同)张图片,作为N个代表点。以选取的N张图片为基准,按照其余图片与N张图片的相似度距离大小,对其余图片进行第一次归类,形成N类图片集。在N类图片集的选取过程中,图片均用对应的编号代替,不去图片库中提取图片,降低了操作了复杂性,提高了处理效率。
[0041]如图2所示,从图片库中选取N张图片的过程包括如下步骤:
[0042]S121,在图片库中随意选取一张图片P,以这张图片为输入在图片库中进行检索,寻找最不相似(相似度距离最大)的图片%。
[0043]在寻找与图片P最不相似的图片Q1时,根据征值库中存储的图片的特征值,采用几何平均数作为两种特征值的组合公式,计算图片间的相互距离,找出与图片P距离最大的图片,即为图片Qi。
[0044]S122,以图片Q1为检索输入并将图片集划分为和Q1的相似度距离大于距离闕值Al的部分SH1,并得到最不相似的图片Q2。
[0045]S123,循环执行步骤S22,每次的检索图片为上一次循环得到的最不相似图片QN,被检索的图片集为上一次循环得到的SHn,直到SHnS空为止,所得到的Q1……QnN张图片即为需要选出的N个代表点。
[0046]S13,对N类图片中所含图片数量大于数量闕值H的类执行步骤S12,此次选取的相互距离均大于距离闕值A2,每类形成不同数量的子类别,继续在符合所含图片数量大于数量闕值H的类中执行步骤S12,直到所有的类均小于数量闕值H为止,形成M(M为正整数,下同)类图片集,即存在M个代表点。其中,距离闕值A2为小于距离闕值Al的任意数,而Al和A2根据图片库的分布情况和系统在检索时准确度与响应时间的不同需要进行设定。通过设置Al和A2可以适当的调节图片类的大小和相对密度,提高了检索的灵活性。
[0047]S14,对图片库中的所有图片,根据与M个代表点的相似度程度,划分到相似程度最高的代表点所代表的图片集中,完成整个类别的划分过程。
[0048]对选取的M个代表点,将图片库中其余的图片分别计算其与这M个代表点的相似度距离,根据相似度距离的大小将其划分到不同的图片集中,完成整个图片库类别的最终划分。
[0049]S15,对于待检索的输入图片,对其特征值化,分别计算该图片与所有代表点之间的相似度并按照大小顺序排,选取相似度距离最近的若干个代表点,在这些代表点所代表的图片集中查找最后结果并返回。
[0050]当用户输入待检索的图片后,使用两种特征值的组合对图片进行表示,然后采用几何平均数作为两种特征值的组合公式,计算图片与代表点之间的相似度距离,并按照其取值的大小对其进行排序。根据需求选取距离最近的几个代表点,将图片分别划分到这几个代表点所代表的图片集中对图片进行检索。在本发明所提供的实施例中,将待检索的图片分别划分到这几个代表点所代表的图片集中对图片进行检索时,并不提取图片库中的图片,只提取图片编号所对应的特征值,进行相似度距离的计算,按照大小顺序排,并将结果进行合并,再依照图片和编号的对应关系从图片库中提取图片,返还给用户。
[0051]在本发明所提供的实施例中,在不同类别的图片集中进行检索的过程采用分布式的集群处理,类与类之间存在一定的独立性,在集群中合理分配类的存储节点可以保证检索请求分发到少数的几个节点上,加强了系统的可扩展性。而且,划分的类别代表点在位置上也存在远近的差异,差异小的在检索时被同时计算的可能性大,可以放在同一个节点上进行处理。
[0052]MapReduce是当前主流的分布式计算模型之一,将计算分解为映射(Map)和化简(Reduce)两种处理阶段,可以极大地方便用户在不了解分布式计算原理和实现方法时将程序部署到分布式集群中并进行计算。MapReduce模型的基本流程是首先对数据的单个元素进行操作,这一步称之为映射(Map),即将待处理的原始数据转化为初步处理过的数据,由于这一步的操作中数据之间不存在依赖关系,所以可以将数据分配给不同节点并行计算,在Hadoop中Map的输出数据是按照键值对的形式组织的,再对键值对中的key值进行哈希操作后将其分配到对应节点上去,通过整合排序数据将进入化简(Reduce)阶段。化简阶段对同一键值的数据进行合并或其他处理得到单一数据结果,进而完成整个操作。这个处理流程可以保证处理的每个阶段不存在必经的处理节点而造成计算瓶颈。
[0053]MapReduce模型通过对每一个任务的反馈来保证计算的可靠性,每个节点会按照一定的时间间隔发送运行的状态,系统当与某一节点失去联系时就会将分配给该节点的任务分配给其他节点。根据数据本地化原则,系统一般尽量将处理程序传递给存储对应数据的节点上来避免网络的负载过重,提升效率。
[0054]在本发明所提供的实施例中,将基于模糊聚类的图形检索方法中在不同类图片集中对图片进行检索的过程转化为MapReduce模型的处理方法,MapReduce模型是一种由映射和化简组成的基于分治思想的计算模型,在不同类图片集中对图片进行检索时的独立性适用于该模型,可以根据选取的图片集的类别将其转化为若干个MapReduce任务,转化后,在每类图片集中对图片进行检索的过程包括如下步骤:
[0055]S151,为每类图片集分配一个map函数,将每类图片集中包含的图片对应的特征值码,使用字节哈希将其分配到节点上。
[0056]在为每类图片集分配map函数时,可以为每类图片集分配一个map函数,当划分的类别代表点在位置上存在远近的差异小时,也可以为多类图片集分配一个map函数。在本发明所提供的实施例中,为每类图片集分配一个map函数。
[0057]S152,map函数计算同一节点上图片集中图片与检索图片的相似度距离,并根据距离大小对其进行排序,把排序后的结果发送给reduce函数。
[0058]S153, reduce函数接受各个map函数传送来的排序后的结果,对其进行合并、排序,得到最终的图片检索结果。
[0059]在本发明所提供的基于模糊聚类的图片检索方法中,代表点选择的过程是在每类内部完成的,完全独立于其他类的运算,适合于分布式计算。整个检索过程除了最后一个步骤将每幅图片划分到具体类别中进行相似度计算时需要有图片数和类别数乘积的计算量以外,其余部分计算量较小,不会造成时间复杂度随图片库变大而呈指数型增长的情况,可适用于在图片库的规模较大时进行检索,能有效地满足不同访问者的需要,适用于不同类型图片的检索输入。
[0060]除此之外,本发明所提供基于模糊聚类的图形检索方法并不依据类别中心点作为聚类标准,而是通过空间中差异较大的几张基准图片判别其余图片的趋向性,而选取基准图片的迭代次数与选取的距离阈值以及图片库的稀疏度的相对程度有关,而与图片库的大小无关,而且每次类别划分并不存在迭代过程。图片的最终类别划分是在所有基准图片都选取结束后才确定的,而基准图片与其所代表的类的大小和空间稀疏度有紧密关系,图片相对密集的区域,基准图片也相对较多,这样可以保证类别的大小相对均匀且按照稀疏度划分。第一次聚类后的其余聚类过程均在类内进行,符合分布式计算中分治算法的基本要求。
[0061]在本发明的另一个实施例中,将基于模糊聚类的图形检索方法中在不同类图片集中选取代表点的过程转化为MapReduce模型的处理方法,MapReduce模型是一种由映射和化简组成的基于分治思想的计算模型,在代表点选择时的独立性适用于该模型,可以转化为若干个MapReduce任务,具体包括如下步骤:
[0062]S21,对图片库中的图片进行编号,并将其映射为特征值码,使用字节哈希将其分配到节点上,再存储到分布式文件系统中。
[0063]S22,从分布式文件系统中随机读取一个特征值码作为初始点,为每个节点分配一个map函数,在每个map函数中寻找与其相似度距离最大的点,再发送到reduce函数处对其进行合并,挑选出整个图片库与其相似度距离最远的点%。
[0064]S23,以点Q1为新的初始点,计算每个节点中与点Q1相似度距离最大的点,合并到reduce函数处取最大值,得到和Q1的相似度距离大于距离闕值Al的图片集SH1以及最不相似的图片Q2,在SH1中重新将图片对应的特征值码分配到节点上,并为每个节点分配一个map函数,继续按照上述步骤寻找相似度距离最远的点Q3,每次的初始点为上一次循环得到的最不相似图片Qn,被检索的图片集为上一次循环得到的SHn,多次循环直到SHn为空为止,得到N个代表点。
[0065]S24,为每个代表点分配一个map函数,每个map函数根据图片库中其余图片与已知代表点的相似度距离划分类别,同一类别映射到一个reduce函数处,根据类别中图片数量的大小判断是否可以单节点执行。
[0066]在本发明所提供的实施例中,根据类别中图片数量的大小判断是否可以单节点运行是判断类别中图片数量是否大于设定的数量闕值,当类别中图片数量大于设定的数量闕值时,该类别不可以单节点执行,转向步骤S25,当类别中图片数量不大于设定的数量闕值时,该类别可以单节点执行,不进行下一步的划分。
[0067]S25,对于不能单节点执行的类别内继续使用步骤S23寻找代表点,选取与Qn的相似度距离大于距离闕值A2的图片集SHn作为被检索的图片集,直到所有类别可以单节点执行为止,得到M个代表点。
[0068]S26,收集所有代表点,为每个代表点分配一个map函数,每个map函数分别计算图片库中其余图片与代表点的相似度距离,进行最后分类,同类使用reduce函数合并后存为文件。
[0069]S27,对于待检索的输入图片,对其特征值化,分别计算该图片与所有代表点之间的相似度并按照大小顺序排,选取相似度距离最近的若干个代表点,在这些代表点所代表的文件中查找最后结果并返回。
[0070]在本发明所提供的实施例中,在选取的代表点所代表的图片集中进行检索过程与上述步骤S151?S153相同,在此便不再赘述。
[0071]综上所述,本发明所提供的基于模糊聚类的图片检索方法,根据图片库所依赖的相似度计算模型和高维特征空间中图片分布的疏密程度来选取适当数量的代表点,不仅涵盖了图片的颜色、纹理和轮廓三种属性,对辨别图片的主体对象有较好的效果,而且单位特征值所占内存空间小,易于存储。在选定代表点后将剩余图片按照与这些代表点的远近划分到不同的区域中去,形成一个个高维子空间,即不同类别的图片集;最后在检索时将输入图片划分到若干个高维子空间中,在高维子空间中进行检索,并将检索结果合并返还给用户。其中,在高维子空间中进行检索的过程采用分布式的集群处理,能有效的提高检索的效率,满足用户实时检索的要求。
[0072]以上对本发明所提供的基于模糊聚类的图片检索方法进行了详细的说明。对本领域的技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。
【权利要求】
1.一种基于模糊聚类的图片检索方法,其特征在于包括如下步骤: S11,为图片库中图片构建特征值库,并为每张图片进行编号; S12,以编号为操作对象,从图片库中选取图片间的相互距离均大于距离闕值Al的N张图片,对其余图片进行第一次归类,形成N类图片集,所述N为正整数; S13,对N类图片集中所含图片数量大于数量闕值的类执行步骤S12,选取的图片间相互距离均大于距离闕值A2,每类形成不同数量的子类别,继续在符合所含图片数量大于数量闕值的子类别中执行步骤S12,直到所有的类均小于数量闕值为止,得到M个代表点,所述M为正整数; S14,对图片库中的所有图片,根据与M个代表点的相似程度,划分到相似程度最高的代表点所代表的图片集中,完成整个图片库类别的划分过程; S15,对于待检索的输入图片,对其特征值化,分别计算该图片与所有代表点之间的相似度并按照大小顺序排列,选取相似度距离最近的若干个代表点,在选取的代表点所代表的图片集中进行检索,将检索结果合并后返回给用户。
2.如权利要求1所述的基于模糊聚类的图片检索方法,其特征在于从图片库中选取N张图片的过程包括如下步骤: 5121,在图片库中随意选取一张图片P,以这张图片为输入在图片库中进行检索,寻找相似度距离最大的图片Q1 ; 5122,以图片Q1为检索输入并将图片集划分为和Q1的相似度距离大于距离闕值Al的部分SH1,并得到相似度距离最大的图片Q2 ; 5123,循环执行步骤S22,每次的检索图片为上一次循环得到的最不相似图片Qn,被检索的图片集为上一次循环得到的SHn,直到SHnS空为止,所得到的Q1……QnN张图片即为需要选出的N个代表点。
3.一种基于模糊聚类的图片检索方法,其特征在于包括如下步骤: S21,对图片库中的图片进行编号,并将图片映射为特征值码,使用字节哈希将其分配到节点上,再存储到分布式文件系统中; S22,从分布式文件系统中随机读取一个特征值码作为初始点,为每个节点分配一个map函数,在每个map函数中寻找与其相似度距离最大的点,再发送到reduce函数处进行合并,挑选出整个图片库与其相似度距离最远的点Q1 ; S23,以点Q1为新的初始点,计算每个节点中与点Q1相似度距离最大的点,合并到reduce函数处取最大值,得到和Q1的相似度距离大于距离闕值Al的图片集SH1以及最不相似的图片Q2,在SH1中重新将图片对应的特征值码分配到节点上,并为每个节点分配一个map函数,继续按照上述步骤寻找相似度距离最远的点Q3,每次的初始点为上一次循环得到的最不相似图片Qn,被检索的图片集为上一次循环得到的SHn,多次循环直到SHn为空为止,得到N个代表点,所述N为正整数; S24,为每个代表点分配一个map函数,每个map函数根据图片库中其余图片与已知代表点的相似度距离划分类别,同一类别映射到一个reduce函数处,根据类别中图片数量的大小判断是否可以单节点执行; S25,对于不能单节点执行的类别内继续使用步骤S23寻找代表点,选取与Qn的相似度距离大于距离闕值A2的图片集SHn作为被检索的图片集,直到所有类别可以单节点执行为止,得到M个代表点,所述M为正整数; S26,收集所有代表点,为每个代表点分配一个map函数,每个map函数分别计算图片库中其余图片与代表点的相似度距离,进行最后分类,同类使用reduce函数合并后存为文件; S27,对于待检索的输入图片,对其特征值化,分别计算该图片与所有代表点之间的相似度并按照大小顺序排,选取相似度距离最近的若干个代表点,在选取的代表点所代表的文件中查找最后结果并返回。
4.如权利要求1或3所述的基于模糊聚类的图片检索方法,其特征在于在选取的代表点所代表的图片集中进行检索过程包括如下步骤: S151,为每类图片集分配一个map函数,将每类图片集中包含的图片对应的特征值码,使用字节哈希将其分配到节点上; S152,map函数计算同一节点上图片集中图片与检索图片的相似度距离,并根据距离大小对其进行排序,把排序后的结果发送给reduce函数; S153, reduce函数接受各个map函数传送来的排序后的结果,对其进行合并、排序,得到最终的图片检索结果。
5.如权利要求1或3所述的基于模糊聚类的图片检索方法,其特征在于: 在对图片进行处理时,只对其对应的所述编号进行操作,而不对图片进行提取;在所述检索结果合并后,再依照图片和编号的对应关系从图片库中提取图片,返还给用户。
6.如权利要求1或3所述的基于模糊聚类的图片检索方法,其特征在于: 在计算图片之间的相似度距离时,使用两种特征值的组合对图片进行表示,采用几何平均数作为两种特征值的组合公式,计算图片间的相似度距离。
7.如权利要求1或3所述的基于模糊聚类的图片检索方法,其特征在于: 所述距离闕值A2为小于距离闕值Al的任意数。
【文档编号】G06F17/30GK104298713SQ201410472785
【公开日】2015年1月21日 申请日期:2014年9月16日 优先权日:2014年9月16日
【发明者】刘瑞, 左源, 张辉 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1