图片搜索方法及搜索系统的制作方法

文档序号:6337737阅读:279来源:国知局
专利名称:图片搜索方法及搜索系统的制作方法
技术领域
本发明涉及搜索引擎技术,尤其涉及一种图片搜索方法及搜索系统。
背景技术
随着互联网上信息的飞速增长,网络上充斥了越来越多的冗余信息,而对于在 网络上搜寻自己所需要信息的互联网用户而言,面对这些漫无边际的信息无疑像大海捞 针。搜索引擎的出现无疑在一定程度上为用户的搜索需求带来了很大便利。搜索引擎是 一种在网络上应用的软件系统,其以一定的策略在网络上搜集和发现信息,并在对信息 进行处理和组织后,为用户提供互联网上的信息搜索服务。通常,这种软件系统提供一 个网页界面,让用户在客户端通过浏览器软件提交搜索词,然后很快返回一个可能和用 户输入的搜索内容相关的信息列表。这个列表通常会包括上万个条目,每个条目代表一 篇搜索到的相关网页。过去十几年以来,相应地,众多的互联网搜索引擎及对应的网站应运而生,这 中间的佼佼者包括百度公司的百度搜索(www.baidu.com)和谷歌公司的谷歌搜索(www. google.cn)。随着网络技术的不断发展,用户对搜索引擎的要求已经不再满足于只是对文本 的搜索,很多用户还希望可以通过搜索引擎对网络图片进行搜索。然而,在目前的图片 搜索系统中,如谷歌、YAHOO、BING等均是采用基于文本的搜索技术。基于文本的图 片搜索是将图片作为数据库存储的对象,用关键字或自由文本对其进行描述。然而,对 于图片中包含的视觉特征,如颜色或形状等,无法用文本对这些视觉特征进行客观的描 述。当需要根据图片中包含的视觉特征搜索图片时,基于文本的搜索技术将不再适用。 举例说明现在多数使用搜索引擎的用户经常遇到这样的问题,在网站或电脑上看到一 张图片,该图片可能是人物、风景、物品等,而并不知道该图片中的人物是谁、风景是 在哪儿、物品是什么,如图1所示,该图片10是用户在网站上看到的一个物品,当用户 想了解该图片10中的物品是什么时,很难将该物品的视觉特征用语言描述出来,即便表 达能力较好的用户将其视觉特征描述出来了,也很难在现有的搜索引擎中找到与该图片 相似的图片和相应的文本信息,导致搜索效率低下,使用网络流量较大。中国专利申请第200910300147.1号,揭示了一种图片搜索系统及方法,该方法 首先提取查询图片的视觉特征,再根据查询图片的视觉特征及图片索引数据库中各个图 库图片的索引信息计算各个图库图片的相似度,并且利用分布式架构执行搜索任务,最 后快速地搜索出与查询图片相似的图库图片。该系统包括提取模块,用于提取查询图片 的视觉特征,并将查询图片的视觉特征发送给各个计算子节点服务器;分配模块,用于 根据图片索引数据库的大小以及计算子结点服务器的数量给各个计算子结点服务器分配 搜索任务,以使各个计算子结点服务器根据各个图库图片的索引信息及查询图片的视觉 特征计算各个图库图片的相似度并返回各个图库图片的相似度及索引信息;汇总模块, 用于对各个计算子结点服务器返回的各个图库图片的相似度及索引信息进行汇总;排序模块,用于将汇总后的各个图库图片的相似度发送给排序服务器,以使排序服务器根据 各个图库图片的相似度对各个图库图片进行排序;输出模块,用于接收排序服务器的排 序结果,并根据该排序结果输出各个图库图片的索引信息。然而这种图片搜索系统及方 法均不是提供对全网图片的搜索,且只能根据图片搜索到其相似的图片,而并不能搜索 到与之相对应的文本信息。有鉴于此,需要提供一种图片搜索方法及搜索系统,可根据图片本身搜索其相 似图片和对应文本信息,满足用户需求。

发明内容
本发明的目的在于提供一种改进的基于图片的搜索方法,其不仅可以通过图片 搜索相似图片,还可以根据图片搜索到与之相对应的文本信息。本发明的目的还在于提供一种实现上述基于图片的搜索方法的搜索系统。为实现上述发明目的之一,本发明的一种基于图片的搜索方法,包括以下步 骤Si、接收并处理上传图片;S2、计算所述图片局部特征;S3、通过所述图片局部特征在图片特征索引中搜索相似图片;S4、通过所述相似图片在文本索引中搜索文本数据;S5、输出所述相似图片与所述文本数据。作为本发明的进一步改进,在所述S5前,还包括排序步骤,对搜索到的所述相似图片和所述文本数据进行排序。作为本发明的进一步改进,所述排序参考因素为图片相似度。作为本发明的进一步改进,所述排序参考因素为图片相似度、死链状态,以及 网页权值。作为本发明的进一步改进,所述Sl步骤包括SlU接收用户上传图片;S13、根据图片的内容签名分发所述上传图片。作为本发明的进一步改进,在所述S13步骤前,还包括S12、压缩所述上传图片若上传图片大于设定阈值,则将所述上传图片压缩 后,再进入S13步骤。作为本发明的进一步改进,所述S2步骤包括判断上传图片是否为本地图片;若不是本地图片,则下载所述URL地址的图片;计算所述图片局部特征。作为本发明的进一步改进,所述S5步骤包括S51、将排序后的搜索结果缓存;S52、将所述搜索结果拼装后输出结果页面;S53、将所述结果页面输出。作为本发明的进一步改进,所述图片特征索引和所述文本索引的建立方法包括通过网络数据获取网络图片的URL ;获取所述图片的文本信息;计算所述图片的局部特征;查询存储的已有图片特征;判断在已有图片特征中是否存在与所述局部特征相似的图片特征;若存在与所述局部特征相似的图片特征,则对所述图片的文本信息和图片特征 标记至少一个索引号;重复上述步骤,建立索引。作为本发明的进一步改进,所述图片特征索引和所述文本索引的建立方法包 括通过网络数据获取网络图片的URL ;获取图片的URL;计算所述图片的局部特征;查询存储的已有图片特征;判断在已有图片特征中是否存在与所述局部特征相似的图片特征;若存在与所述局部特征相似的图片特征,则对所述图片的文本信息和图片特征 标记至少一个索引号;重复上述步骤,建立索引。作为本发明的进一步改进,所述图片特征索引和所述文本索引的建立方法包 括通过网络数据获取网络图片的URL ;计算所述图片的局部特征;查询存储的已有图片特征;判断在已有图片特征中是否存在与所述局部特征相似的图片特征;若存在与所述局部特征相似的图片特征,则对所述图片的文本信息和图片特征 标记至少一个索引号;重复上述步骤,建立索引。作为本发明的进一步改进,在查询存储的已有图片特征后,还包括建缩略图 库,所述缩略图库可将缩略图插入到线上缩略图访问服务系统中。作为本发明的进一步改进,在通过网络数据获取网络图片的URL步骤中,所述 网络数据为展示数据,所述网络图片为展示图片。作为本发明的进一步改进,建立所述已有图片特征,包括以下步骤在全网图片数据中提取图片;分布式计算所述图片的图片特征;存储所述图片特征。作为本发明的进一步改进,在“分布式计算所述图片的图片特征”步骤之前, 还包括判断该图片是否已计算过图片特征;
若未计算过图片特征,则进行“分布式计算所述图片的图片特征”步骤。作为本发明的进一步改进,在“分布式计算所述图片的图片特征”之前,还包 括判断该图片是否已计算过图片特征;若已计算过所述图片的图片特征,则回到“在全网图片数据中提取图片”步骤 中,提取下一图片。作为本发明的进一步改进,所述分布式计算图片特征是载入视觉字典,将图片 相关的特征量化到视觉字。相应地,作为实现上述另一目的,本发明的一种基于图片的搜索系统包括WEB服务器和分发拼装模块用于接收并处理上传图片,以及输出搜索到的所 述相似图片与所述文本数据;特征提取模块用于计算所述图片局部特征;图片特征索引模块用于通过所述图片局部特征在所述图片特征索引模块中搜 索相似图片;文本索引模块用于通过所述相似图片在所述文本索引模块中搜索文本数据。作为本发明的进一步改进,所述WEB服务器的功能还包括用于负责与用户浏 览器交互,支持用户在浏览器上进行图片上传的POST请求,维持与用户的连接,并将用 户上传的图片发送给所述分发拼装模块,并维持与所述分发拼装模块的连接,等待所述 分发拼装模块返回的结果页面,再得到该所述结果页面后将其返回至所述用户浏览器。作为本发明的进一步改进,所述分发拼装模块的功能还包括用于接收所述 WEB服务器传递的图片,并根据图片内容签名发送给不同的特征提取模块,以及将搜索 结果拼装为结果页面并返回至所述WEB服务器。作为本发明的进一步改进,所述特征提取模块的功能还包括用于对搜索到的 所述相似图片与所述文本数据进行缓存和排序。作为本发明的进一步改进,所述排序参考因素为图片相似度。作为本发明的进一步改进,所述排序参考因素为图片相似度、死链状态,以及 网页权值。作为本发明的进一步改进,所述一个分发拼装模块对应多个特征提取模块。作为本发明的进一步改进,所述一个特征提取模块对应多个图片特征索引模块 和多个文本索引模块。作为本发明的进一步改进,所述图片搜索系统还包括URL图片下载模块用于 当用户上传图片URL地址时,下载URL地址上的图片,并将所述图片发送至特征提取模 块。作为本发明的进一步改进,为建立所述图片特征索引模块和所述文本索引模 块,所述图片搜索系统还包括图片获取模块用于通过网络数据获取网络图片的URL ;文本获取模块用于获取所述图片的文本信息;图片特征计算模块用于计算所述图片的局部特征;特征存储模块用于查询存储的已有图片特征;
索引建立模块用于建立文本索引模块和图片特征索引模块。作为本发明的进一步改进,所述图片搜索系统还包括缩略图建库模块用于建 立缩略图库,将缩略图插入到线上缩略图访问服务系统中。作为本发明的进一步改进,所述网络数据为展示数据,所述网络图片为展示图 片。作为本发明的进一步改进,为了建立所述特征存储模块,所述图片搜索系统还 包括图片数据存储模块用于存储全网图片数据;图片传输模块用于在所述图片数据存储模块中提取图片,并将所述图片传输 至分布式计算平台,以及,接收所述分布式计算平台计算完成的图片特征,并将该图片 特征传输至所述的所述特征存储模块;分布式计算平台用于分布式计算所述图片的图片特征。作为本发明的进一步改进,所述分布式计算图片特征是载入视觉字典,将图片 相关的特征量化到视觉字。与现有技术相比,本发明的有益效果是通过本发明的基于图片的搜索方法和 系统,不仅可实现在全网通过图片搜索与之相似的图片,还可以根据图片搜索与之相对 应的文本信息,满足用户需求,提高搜索效率,节约网络流量,同时,本发明通过空间 划分,进行视觉字量化和进行索引,解决了大数据量的查询效率问题,使得上几十亿的 图片,检索只需要几百毫秒。


图1是本发明中具体实例中的待搜索图片;
图2是本发明图片搜索引擎结果页面;
图3是本发明一实施方式图片搜索系统的模块图4是本发明一实施方式图片搜索方法的流程图5是本发明Sl步骤的子流程图6是本发明S2步骤的子流程图7是本发明S6步骤的子流程图8是本发明图片特征索引和文本索引建立方法的流程图9是本发明为建立图片特征索引模块和文本索引模块的系统模块图
图10是本发明特征存储模块建立方法的流程图11是本发明为建立特征存储模块的系统模块图。
具体实施例方式以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并 不限制本发明,本领域的普通技术人员根据这些实施方式所轻易做出的结构、方法、或 功能上的变换均包含在本发明的保护范围内。本发明的图片搜索方法及搜索系统的搜索思维与文本搜索方法及搜索系统的搜 索思维完全不一样。文本搜索方法及搜索系统实现了文本到图片的关联,而本发明则是实现了图片到文本的关联,它可以通过接收用户上传的图片来搜索和该图片相关的文本 或者其他信息。其主要解决的问题是寻找图片的相关文本信息,以及寻找更高质量图片 的需求。如图2所示,本发明的图片搜索方法及搜索系统可通过用户在浏览器20中上传 待搜索的本地图片或上传待搜索图片的URL地址对待搜索图片进行搜索。例如,当待搜 索图片为本地图片时,首先应点击上传本地图片按钮201,并通过浏览器20上传本地图 片完成后,点击确认按钮203进行搜索;当待搜索图片为网络图片时,则可首先点击输 入图片URL地址按钮202,并输入图片相应的URL地址后点击确认按钮203进行搜索。通过对图片的搜索可返回一条或多条搜索结果,每一条搜索结果可包括相似图 片栏204和文本栏205,该搜索结果可按照相似图片栏204中的结果图片与待搜索图片的 相似度进行排序,优选地,相似度越高的结果图片越靠前显示,该文本栏205中可显示 与该结果图片相应的文本信息,例如,该结果图片的长宽信息、格式信息、名称、相关 报道等。举例说明参照图1、图2,用户在一网站上看到了图片10,并想了解该图片 10中的物品是什么,则可打开本发明的图片搜索系统,并输入该图片10的URL地址,点 击确认按钮203,本发明的图片搜索系统即会根据该图片10进行搜索,并得到多条搜索 结果,从搜索结果的文本信息中,可让用户了解到,该待查图片10中的物品为苹果公司 出品的“IPAD”。满足用户了需求,提高了搜索效率,节约了网络流量。为实现上述技术效果,如图3所示,本发明的图片搜索系统包括WEB服务 器100、分发拼装模块102、特征提取模块104、图片特征索引模块106、文本索引模块 108。WEB服务器100和分发拼装模块102用于接收并处理用户上传图片。其中, WEB服务器100:用于负责与用户浏览器20交互,支持用户在浏览器20上进行图片上 传的POST请求,维持与用户的连接,并将用户上传的图片发送给分发拼装模块102,并 维持与分发拼装模块102的连接,等待分发拼装模块102返回的结果页面,再得到该结果 页面后将其返回至用户浏览器20。分发拼装模块102:用于负责页面建立和各种错误的处理。该分发拼装模块102 可接收WEB服务器100传递的图片,并根据图片内容签名发送给不同的特征提取模块 104,另外,该分发拼装模块102还负责将搜索结果拼装为结果页面并返回至WEB服务器 100。特征提取模块104:用于计算图片局部特征。优选地,该局部特征可包括角 点、Sift等。需要说明的是该特征提取模块104除了用于图片的特征计算外,还用于对 搜索结果进行缓存和排序。该特征提取模块104可接收分发拼装模块102传递的图片, 转换各种图片的格式后计算图片特征,并将计算出的图片特征发送至图片特征索引模块 106进行相似图片查询,在相似图片查询得到结果后,向文本索引模块108查询该结果的 文本数据,并将查询结果(相似图片+文本数据)发送至分发拼装模块102。图片特征索引模块106:用于搜索上述计算出的图片特征搜索,并返回相似图 片的搜索结果该图片特征索引模块106可接收特征提取模块104提取的图片特征,并进行 查询,将查询到的图片的内容签名返回给特征提取模块104。优选地,本发明的图片特征 索引模块可设置为多个,在每一个图片特征索引模块中查找该图片特征,并返回给特征提取模块104。文本索引模块108 根据特征提取模块104的查询请求,对相似图片的相应文本 数据进行搜索,并返回文本数据至特征提取模块104。优选地,本发明的文本索引模块可 设置为多个,在每一个文本索引模块中查找相似图片对应的文本数据,并返回给特征提 取模块104。值得一提的是本发明的图片搜索系统还可以进一步地包括URL图片下载模块 110,该图片URL图片下载模块用于当用户上传图片URL地址时,特征提取模块104会 将该URL地址发送至图片URL图片下载模块,并在该模块中下载该URL上的图片后, 将该图片返回至特征提取模块104,并通过特征提取模块104向图片特征索引模块106和 文本索引模块108发出查询请求,得到相似图片以及相应文本数据。优选地,本发明采用了多个特征提取模块104协同多个图片特征索引模块106和 文本索引模块108的分布式模式,使得图片检索速度较快,反应时间较短。相应地,如图4所示,本发明的图片搜索方法包括以下步骤Si、接收并处理上传图片。如上所述,该图片为用户通过浏览器所提交,优选 地,其可通过上传本地图片或上传图片URL地址完成。S2、计算所述图片特征。计算所接收到的图片的局部特征,优选地,该局部特 征可包括角点、Sift等。S3、通过所述图片特征在图片特征索引中搜索相似图片;S4、通过所述相似图片在文本索引中查询文本数据;S5、搜索结果排序。对搜索到的相似图片和文本数据进行排序,排序原则一般 地是依照图片相似度进行,即与输入图片越相似的图片排名越靠前。当然,在本发明的 其他实施方式中,该排序除了可参考图片相似度之外,还需要依据死链状态,以及网页 权值,即是先对图片相似度、死链状态、网页权值的进行非线性计算,并根据计算结果 进行排序。值得一提的是在本发明中,该步骤是为了更好的提升用户体验,提高搜 索效率,而并非本发明的图片搜索方法的必要步骤,在其他实施方式中,可以省略该步 马聚οS6、输出搜索结果。将搜索到的相似图片和文本按照图2所示的方式输出至用 户浏览器,以供用户参考。如图5所示,所述Sl具体包括SlU接收用户上传图片。S12、压缩所述图片;浏览器的JS对于大于一个设定阈值的图片进行压缩,并 将压缩后的图片发送至WEB服务器。值得一提的是在本发明中,该步骤是为了更好 的提升用户体验,减少网络流量,而并非本发明的图片搜索方法的必要步骤,在其他实 施方式中,可以省略该步骤。S13、分发所述图片;WEB服务器接收到该图片后,发送至分发拼装模块,并 由该分发拼装模块根据图片的内容签名发送给不同的特征提取模块。如图6所示,在本发明的另一实施方式中,所述S2步骤包括S21、判断上传图片是否为本地图片;若是,则进入S23、若不是,则进入 S22 ;
S22、下载所述URL地址的图片,并进入S23 ;S23、计算所述图片特征。如图7所示,所述S6具体包括S61、将排序后的搜索结果缓存;S62、将搜索结果拼装后输出结果页面,所述结果页面包括正常结果页面、错误 结果页面、无结果页面;S63、将结果页面输出至用户浏览器。如图8所示,为了实现上述S3、S4步骤,在本发明的图片搜索系统中,首先需 要建立图片特征索引和文本索引。其中,对于图片特征索引和文本索引的建立方法包括 以下流程S31、通过网络数据获取网络图片的URL;该图片数据可通过网络抓取方法, 将互联网上的图片抓取至本地服务器,该抓取方法本领域普通技术人员已能通过现有技 术熟练掌握,在此不再赘述。S32、获取上述图片的文本信息;S33、计算所述图片的局部特征;优选地,在本发明中,是通过分布式计算平台 对图片的特征进行计算,该分布式计算平台可载入视觉字典,将相关的特征量化到视觉 字典,该局部特征可包括角点、Sift等。S34、查询存储的已有图片特征;S35、判断在已有图片特征中是否存在与所述局部特征相似的图片特征;S36、若有相似特征的图片特征,则建立文本信息索引和图片特征标记至少一 个索引号;优选地,一张图片的特征可能包括多个,每个特征都可对应一个索引号,这 样,即可使得一张图片对应多个索引号,而相同的索引号又可能对应多张图片。S37、若无相似特征的图片特征,则过滤掉该图片;S38、重复上述步骤,通过索引号建立索引。S39、优选地,在本发明最佳实施方式中,还会建立一缩略图库,建立缩略图库 的主要目的是将缩略图插入到线上缩略图访问服务系统中,需要做的事情就是生成相应 的缩略图字典即可。该缩略图库的建立方法,本领域的普通技术人员已能通过现有技术 熟练掌握,在此不再赘述。值得一提的是当对一个含有图片的网页进行抓取时,即会给该网页中的图片 一个内部ID,并且给该网页中的文本信息一个相应的内部ID,这样,当通过图片特征找 到相似的图片后,即可通过该图片的内部ID,搜索到相应内部ID文本信息,这样即可将 该图片索引与该文本索引进行关联。使得在通过图片特征搜索到图片时,一并可以搜索 到该图片的文本信息,以满足用户需求。另外,在本发明的另一实施方式中,上述S31和S32的顺序也可以颠倒,即先获 取文本信息,再获取与该文本信息相应的图片URL,其余步骤相同,仍然可建立图片特 征索引和文本索引。在本发明的再一实施方式中,上述S31和S32也可同时进行,即在 获取图片URL的同时,也获取与该图片相应的文本信息,其余步骤相同,仍可建立图片 特征索引和文本索引。优选地,在S31中获得的网页图片数据为展示数据,该“展示数据”是指在一般搜索引擎下可搜索到的图片;该“展示图片”是指被展现于搜索结果中次数较多的图 片。相应地,如图9所示,为建立图片特征索引模块和文本索引模块,本发明的图 片搜索系统还包括图片获取模块31 用于通过网络图片数据获得图片对应的URL ;该图片数据可 通过网络抓取方法,将互联网上的图片抓取至本地服务器,该抓取方法本领域普通技术 人员已能通过现有技术熟练掌握,在此不再赘述。文本获取模块32 获取上述图片的文本信息。图片特征计算模块33:用于计算图片的图片特征;优选地,在本发明中,是通 过分布式计算平台对图片的特征进行计算,该分布式计算平台可载入视觉字典,将相关 的特征量化到视觉字典,该特征可包括角点、Sift等。特征存储模块34:用于存储图片特征,并可查询该图片特征,判断是否存在相 似特征的图片。索引建立模块35 用于建立文本索引模块和图片特征索引模块。缩略图建库模块36:用于建立缩略图库,建立缩略图库的主要目的是将缩略图 插入到线上缩略图访问服务系统中,需要做的事情就是生成相应的缩略图字典即可。为了提高建立文本信息库和图片特征库的效率,使得在建库时候不需要等待图 片的特征计算(因图片特征计算是比较耗时的),方便图片特征比对,因此需要首先提 供一用于查询存储的已有图片特征的特征存储模块,如图10所示,建立所述已有图片特 征,包括SlOU在存储的图片数据中提取图片,优选地,该图片数据为全网图片数据。S102、判断该图片是否已计算过图片特征;S103、若未计算过图片特征,则对图片进行分布式计算,计算图片特征;需要 载入视觉字典,将相关的特征量化到视觉字。若已计算过图片特征,则回到SlOl步骤 中,提取下一图片。S104、存储该图片特征。相应地,如图11所示,为建立该特征存储模块,本发明的图片搜索系统还包 括图片数据存储模块101:用于存储从网页中抓取下的图片数据,优选地,该图 片数据为全网图片数据。图片传输模块102 用于在图片数据存储模块101中提取图片,并将图片传输至 分布式计算平台,同时,接收分布式计算平台计算完成的图片特征,并将该图片特征传 输至所述的特征存储模块。该图片传输模块102还可以用于判断该图片是否已计算过图 片特征,若未计算过图片特征,则对图片发送至分布式计算平台103;若已计算过图片 特征,重新再图片数据存储模块101中提取图片数据。分布式计算平台103:用于分布式计算所述图片的图片特征,其需要载入视觉 字典,将相关的特征量化到视觉字。通过上述的图片数据存储模块101、图片传输模块102、分布式计算平台103算 出的图片特征,即可存储一数据库,形成特征存储模块34,以便在图片特征建库时运
通过上述的描述可知,通过本发明的基于图片的搜索方法和系统,不仅可实现 在全网通过图片搜索与之相似的图片,还可以根据图片搜索与之相对应的文本信息,满 足用户需求,提高搜索效率,节约网络流量,同时,本发明通过空间划分,进行视觉字 量化和进行索引,解决了大数据量的查询效率问题,使得上几十亿的图片,检索只需要
几百毫秒。应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含 一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当 将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人 员可以理解的其他实施方式。上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说 明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方 式或变更均应包含在本发明的保护范围之内。
权利要求
1.一种图片搜索方法,其特征在于,所述图片搜索方法包括以下步骤51、接收并处理上传图片;52、计算所述图片局部特征;53、通过所述图片局部特征在图片特征索引中搜索相似图片;54、通过所述相似图片在文本索引中搜索文本数据;55、输出所述相似图片与所述文本数据。
2.根据权利要求1所述的图片搜索方法,其特征在于,在所述S5前,还包括 排序步骤,对搜索到的所述相似图片和所述文本数据进行排序。
3.根据权利要求2所述的图片搜索方法,其特征在于,所述排序参考因素为图片相似度。
4.根据权利要求2所述的图片搜索方法,其特征在于,所述排序参考因素为图片相似 度、死链状态,以及网页权值。
5.根据权利要求1所述的图片搜索方法,其特征在于,所述Sl步骤包括 SlU接收用户上传图片;S13、根据图片的内容签名分发所述上传图片。
6.根据权利要求5所述的图片搜索方法,其特征在于,在所述S13步骤前,还包括 S12、压缩所述上传图片若上传图片大于设定阈值,则将所述上传图片压缩后,再进入S13步骤。
7.根据权利要求1所述的图片搜索方法,其特征在于,所述S2步骤包括 判断上传图片是否为本地图片;若不是本地图片,则下载所述URL地址的图片; 计算所述图片局部特征。
8.根据权利要求1所述的图片搜索方法,其特征在于,所述S5步骤包括551、将排序后的搜索结果缓存;552、将所述搜索结果拼装后输出结果页面;553、将所述结果页面输出。
9.根据权利要求1所述的图片搜索方法,其特征在于,所述图片特征索引和所述文本 索引的建立方法包括通过网络数据获取网络图片的URL; 获取所述图片的文本信息; 计算所述图片的局部特征; 查询存储的已有图片特征;判断在已有图片特征中是否存在与所述局部特征相似的图片特征; 若存在与所述局部特征相似的图片特征,则对所述图片的文本信息和图片特征标记 至少一个索引号;重复上述步骤,建立索引。
10.根据权利要求1所述的图片搜索方法,其特征在于,所述图片特征索引和所述文 本索引的建立方法包括通过网络数据获取网络图片的URL ;获取图片的URL; 计算所述图片的局部特征; 查询存储的已有图片特征;判断在已有图片特征中是否存在与所述局部特征相似的图片特征; 若存在与所述局部特征相似的图片特征,则对所述图片的文本信息和图片特征标记 至少一个索引号;重复上述步骤,建立索引。
11.根据权利要求1所述的图片搜索方法,其特征在于,所述图片特征索引和所述文 本索引的建立方法包括通过网络数据获取网络图片的URL ; 计算所述图片的局部特征; 查询存储的已有图片特征;判断在已有图片特征中是否存在与所述局部特征相似的图片特征; 若存在与所述局部特征相似的图片特征,则对所述图片的文本信息和图片特征标记 至少一个索引号;重复上述步骤,建立索引。
12.根据权利要求9或10或11所述的图片搜索方法,其特征在于,在查询存储的已 有图片特征后,还包括建缩略图库,所述缩略图库可将缩略图插入到线上缩略图访问服 务系统中。
13.根据权利要求9或10或11所述的图片搜索方法,其特征在于,在通过网络数据 获取网络图片的URL步骤中,所述网络数据为展示数据,所述网络图片为展示图片。
14.根据权利要求9或10或11所述的图片搜索方法,其特征在于,建立所述已有图 片特征,包括以下步骤在全网图片数据中提取图片; 分布式计算所述图片的图片特征; 存储所述图片特征。
15.根据权利要求14所述的图片搜索方法,其特征在于,在“分布式计算所述图片的 图片特征”步骤之前,还包括判断该图片是否已计算过图片特征;若未计算过图片特征,则进行“分布式计算所述图片的图片特征”步骤。
16.根据权利要求14所述的图片搜索方法,其特征在于,在“分布式计算所述图片的 图片特征”之前,还包括判断该图片是否已计算过图片特征;若已计算过所述图片的图片特征,则回到“在全网图片数据中提取图片”步骤中, 提取下一图片。
17.根据权利要求14所述的图片搜索方法,其特征在于,所述分布式计算图片特征是 载入视觉字典,将图片相关的特征量化到视觉字。
18.—种图片搜索系统,其特征在于,所述图片搜索系统包括WEB服务器和分发拼装模块用于接收并处理上传图片,以及输出搜索到的所述相似图片与所述文本数据;特征提取模块用于计算所述图片局部特征;图片特征索引模块用于通过所述图片局部特征在所述图片特征索引模块中搜索相 似图片;文本索引模块用于通过所述相似图片在所述文本索引模块中搜索文本数据。
19.根据权利要求18所述的图片搜索系统,其特征在于,所述WEB服务器的功能还 包括用于负责与用户浏览器交互,支持用户在浏览器上进行图片上传的POST请求, 维持与用户的连接,并将用户上传的图片发送给所述分发拼装模块,并维持与所述分发 拼装模块的连接,等待所述分发拼装模块返回的结果页面,再得到该所述结果页面后将 其返回至所述用户浏览器。
20.根据权利要求18所述的图片搜索系统,其特征在于,所述分发拼装模块的功能还 包括用于接收所述WEB服务器传递的图片,并根据图片内容签名发送给不同的特征提 取模块,以及将搜索结果拼装为结果页面并返回至所述WEB服务器。
21.根据权利要求18所述的图片搜索系统,其特征在于,所述特征提取模块的功能还 包括用于对搜索到的所述相似图片与所述文本数据进行缓存和排序。
22.根据权利要求21所述的图片搜索系统,其特征在于,所述排序参考因素为图片相 似度。
23.根据权利要求21所述的图片搜索系统,其特征在于,所述排序参考因素为图片相 似度、死链状态,以及网页权值。
24.根据权利要求18所述的图片搜索系统,其特征在于,所述一个分发拼装模块对应 多个特征提取模块。
25.根据权利要求18或24所述的图片搜索系统,其特征在于,所述一个特征提取模 块对应多个图片特征索引模块和多个文本索引模块。
26.根据权利要求18所述的图片搜索系统,其特征在于,所述图片搜索系统还包括 URL图片下载模块用于当用户上传图片URL地址时,下载URL地址上的图片,并将 所述图片发送至特征提取模块。
27.根据权利要求18所述的图片搜索系统,其特征在于,为建立所述图片特征索引模 块和所述文本索引模块,所述图片搜索系统还包括图片获取模块用于通过网络数据获取网络图片的URL;文本获取模块用于获取所述图片的文本信息;图片特征计算模块用于计算所述图片的局部特征;特征存储模块用于查询存储的已有图片特征;索引建立模块用于建立文本索引模块和图片特征索引模块。
28.根据权利要求27所述的图片搜索系统,其特征在于,所述图片搜索系统还包括缩 略图建库模块用于建立缩略图库,将缩略图插入到线上缩略图访问服务系统中。
29.根据权利要求27所述的图片搜索系统,其特征在于,所述网络数据为展示数据, 所述网络图片为展示图片。
30.根据权利要求27所述的图片搜索系统,其特征在于,为了建立所述特征存储模 块,所述图片搜索系统还包括图片数据存储模块用于存储全网图片数据;图片传输模块用于在所述图片数据存储模块中提取图片,并将所述图片传输至分 布式计算平台,以及,接收所述分布式计算平台计算完成的图片特征,并将该图片特征 传输至所述的所述特征存储模块;分布式计算平台用于分布式计算所述图片的图片特征。
31.根据权利要求30所述的图片搜索系统,其特征在于,所述分布式计算图片特征是 载入视觉字典,将图片相关的特征量化到视觉字。
全文摘要
本发明提供一种图片搜索方法,包括接收并处理上传图片;计算所述图片局部特征;通过所述图片局部特征在图片特征索引中搜索相似图片;通过所述相似图片在文本索引中搜索文本数据;输出所述相似图片与所述文本数据。与现有技术相比,本发明的有益效果是通过本发明的基于图片的搜索方法和系统,不仅可实现在全网通过图片搜索与之相似的图片,还可以根据图片搜索与之相对应的文本信息,满足用户需求,提高搜索效率,节约网络流量,同时,本发明通过空间划分,进行视觉字量化和进行索引,解决了大数据量的查询效率问题,使得上几十亿的图片,检索只需要几百毫秒。
文档编号G06F17/30GK102012934SQ20101057456
公开日2011年4月13日 申请日期2010年11月30日 优先权日2010年11月30日
发明者文林福 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1