图片排序方法及装置的制造方法

文档序号:8258525阅读:340来源:国知局
图片排序方法及装置的制造方法
【技术领域】
[0001] 本发明涉及计算机技术领域,尤其涉及一种图片排序方法及装置。
【背景技术】
[0002] 随着互联网技术的快速发展,网络图片数据正在以惊人的速度快速增加。普通互 联网用户要利用这样海量的数据资源,必然需要对图片进行检索。使用关键字检索图片通 常会得到很多与关键字有一定关联图片,但是通常还同时会得到很多与用户需要的结果关 联很少或者根本没有什么关联的图片。
[0003] 近年来,以Google、Bing、Baidu为代表的搜索引擎运营商都提供了图片搜索的功 能为普通用户进行海量网络图片数据检索提供服务。对图片的检索目前有两种方式:使用 关键字的图片检索和基于内容的图片检索。使用关键字检索图片是目前最流行的方式,它 能够利用基于用户输入的图片标签(tag)信息来进行精准的图片语义匹配。但是,由于普 通用户搜索时用词不准确、不专业,与图片所搭配的文章中的文字涵盖内容广等原因导致 搜索结果中往往包含很多不符合用户需求的图片。基于内容的图片检索(ContentBased ImageRetrieval,CBIR)是近些年计算机视觉和信息检索领域的研究热点,研究目标是利 用图片自身的视觉信息进行有效检索(以图搜图)。然而图片本身的视觉信息的多样性,以 及"语义鸿沟"的存在,使得CBIR的检索效果离实际使用仍有一段距离。
[0004] 总而言之,目前图片检索方式无法给用户带来满意的结果,根据用户本身提供的 具体信息重新把已经得到的图片组织和排序,使用户花尽量少的精力就能看到更多符合要 求的图片就成为了一个重要的需求。

【发明内容】

[0005] 本发明提供一种图片排序方法及装置,使得图片的搜索结果的排序更加准确,较 为符合用户的搜索意图。
[0006] 本发明第一方面提供了一种图片排序方法,所述方法包括:
[0007] 利用初始关键词进行图片搜索,根据所述初始关键词对应的搜索结果,计算得到 所述搜索结果的锚文本概念集合,并计算得到所述锚文本概念集合中的锚文本概念之间 的关联度权值,以所述锚文本概念集合中的锚文本概念为顶点、所述顶点之间的连线为顶 点的边,所述顶点的边具有所述锚文本概念之间的关联度权值,构成锚文本概念图结构 AnchorConceptGraphACG;所述锚文本概念之间的关联度权值表示所述锚文本概念之间 的语义关联度大小;
[0008] 利用所述锚文本概念获取训练正样本,并利用所述训练正样本训练分类器得到训 练好的分类器;
[0009] 利用所述ACG和所述训练好的分类器进行概念投影得到概念投影向量,根据所述 概念投影向量计算所述初始关键词对应的搜索结果中各图片之间的ACG距离,根据所述 ACG距离对所述初始关键词对应的搜索结果中的各图片进行排序。
[0010] 结合第一方面,在第一方面的第一种可能的实施方式中,所述根据所述初始关键 词对应的搜索结果,计算得到锚文本概念集合,具体包括:
[0011] 利用初始关键词q进行图片搜索得到搜索结果,所述搜索结果包括所述初始关键 词q对应的图片集合rq和为所述图片集合rq*图片所配的文本集合I;;
[0012] 提取所述图片集合rq中的每一张图片的视觉特征;
[0013] 对于所述图片集合^中的图片Ik,将视觉特征与所述图片Ik最为相似的K个图 片组成所述图片ik的相似图片集合,并将所述相似图片集合中的所有图片 所配的文本中出现频率最高的T个词作为候选词,得到所述图片Ik的含义的候选词集合 %,即% ,其中,Ik表示所述图片集合rq中第k个图片,k= 1,2,3,....,N6, N6为所述图片集合^中的图片数量,表示图片Ik的第i个候选词,i= 1,2, 3,......,T,T为预设正整数;
[0014] 对所述候选词集合中的每一个所述候选词进行权值计算,得到所述候选 词 < 的权值./〔, ;
[0015] 将所述候选词集合%s中的权值G 最大的Mq个候选词分别与所述初始关键词 q组合,合并,得到Mq个锚文本概念,形成锚文本概念集合&,其中,Mq为预设的所述初始关 键词q对应的锚文本概念集合&中的元素个数。
[0016] 结合第一方面的第一种可能的实施方式,在第一方面的第二种可能的实施方式 中,所述对所述候选词集合% ;中的每一个所述候选词进行权值计算,得到所述候选词 <的权值),具体包括:
[0017] 根据所述候选词4的出现频率的大小计算所述候选词?;t的权值,所述 候选词4的出现频率越大,所述权值6 )越大。
[0018] 结合第一方面或第一方面的第一种或第二种可能的实施方式,在第一方面的第三 种可能的实施方式中,所述计算得到所述锚文本概念集合中的锚文本概念之间的关联度权 值,具体包括:
[0019] 统计网页中与所述锚文本概念同时出现在一个文档中的词,并从中找到最能表征 所述锚文本概念语义的前N1个词,根据预设赋值方法为所述前N1个词赋予权值,利用所述 前N1个词的权值形成所述锚文本概念对应的向量,其中,N1为预设正整数;
[0020] 计算任意两个所述锚文本概念对应的向量之间的相似度,作为对应的两个所述锚 文本概念之间的关联度权值。
[0021] 结合第一方面,在第一方面的第四种可能的实施方式中,所述利用所述锚文本概 念自动获取训练正样本,利用所述训练正样本训练分类器得到训练好的分类器,具体包 括:
[0022] 利用所述锚文本概念作为关键词进行图片搜索或统计,得到所述锚文本概念的搜 索结果集合,并选取所述锚文本概念%对应的一个搜索结果集合中排在前N2个的图片作 为所述锚文本概念%对应的正样本集合,其中N2为预设整数,i= 1,2, 3, . . .,Mq ;
[0023] 提取所述锚文本概念%对应的正样本集合中N2个图片的视觉特征,作为所述锚 文本概念对应的正样本的特征集合,其中N2为预设整数,i= 1,2, 3, . . .,Mq ;
[0024] 利用所述锚文本概念对应的正样本的特征集合训练所述分类器得到所述训练好 的分类器。
[0025] 结合第一方面,在第一方面的第五种可能的实施方式中,所述利用所述ACG和所 述分类器进行概念投影得到概念投影向量,根据所述概念投影向量计算所述初始关键词对 应的搜索结果中各图片之间的ACG距离,具体包括:
[0026] 提取所述初始关键词对应的搜索结果中图片的视觉特征,利用所述ACG和所述分 类器,计算所提取的视觉特征属于各个所述锚文本概念所属类别的概率,作为所述概念投 影对应的图片的初始概念投影向量;
[0027] 根据所述初始概念投影向量,计算所述图片之间的ACG距离。
[0028] 结合第一方面的第五种可能的实施方式,在第一方面的第六种可能的实施方式 中,所述根据所述初始概念投影向量,计算所述图片之间的ACG距离,具体包括:
[0029] 利用公式/< = 〇^)>,.,对所述初始关键词对应的图片的所述图 片初始概念投影向量Pi进行平滑处理,其中,Pi表示所述初始关键词对应的第i个所述图 片的初始概念投影向量,表示第i个平滑后的概念投影向量,《表示控制扩散率的阻尼 系数,京表示列单位化相关矩阵,示=W/D1,D为对角元素A,. = 的对角矩阵,Mq为 预设的所述初始关键词q对应的锚文本概念集合&中的元素个数;
[0030] 利用公式而= If -€{ = |(/-a^)、A -巧)|,计算第i个所述图片和第j个 所述图片之间的ACG距离distAa:。
[0031] 结合第一方面或第一方面的第一种至第六种中任一可能的实施方式,在第一方面 的第七种可能的实施方式中,在所述根据所述ACG距离对所述初始关键词对应的搜索结果 中的各图片进行重排序之后,还包括:
[0032] 采用具有相似视觉和语义信息的图片逻辑组织方式展示所述各图片的重排序结 果。
[0033] 结合第一方面的第七种可能的实施方式,在第一方面的第八种可能的实施方式 中,所述具有相似视觉和语义信息的图片逻辑组织方式包括:
[0034] 采用边框将所述各图片中属于同一所述锚文本概念所属类别的图片展示在一 起;
[0035] 或者,采用距离大小的差异来展现所述各图片中属于不同所述锚文本概念所属类 别的图片;
[0036] 或者,采用分层递归的结构展示所述各图片中每一类属于同一所述锚文本概念所 属类别的图片;
[0037] 或者,采用缩略图层叠的方
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1