按图像进行查询的搜索和检索系统的制作方法

文档序号:6567897阅读:188来源:国知局
专利名称:按图像进行查询的搜索和检索系统的制作方法
技术领域
本发明一般涉及允许按图像进行査询的搜索的方法、系统和计算机程序产品, 尤其涉及允许用相关联的隐式或显式元数据进行按图像査询搜索以便导航通过一
组类似的对象并标识满足查询准则的对象的方法、系统和计算机程序产品。
背景技术
万维网(WWW)由其上全世界的企业、政府、团体和个人维护被称为网页的
相互链接的计算机文件的互连计算机的广阔网络组成。用户通过通常被称为因特网
浏览器的计算机软件程序来导航这些页面。松散的www非常巨大,使得用户主
要依赖于因特网搜索引擎来检索信息或定位企业。这些搜索引擎使用各种手段来确 定用户定义的搜索与所检索的信息的相关性。
一般,由搜索引擎呈现的每一搜索结果包括由搜索引擎标识为满足用户搜索
表达的各个条目的列表。每一条目或"命中"包括指向统一资源定位器(URL)位 置或网页的超链接。除超链接以外,某些搜索结果页面包括描述网页内容的简短概 述或摘要。
用于访问因特网上文字素材的一种常用技术是经由"关键字"组合, 一般在 两个词语或词项之间带有布尔运算符,用户输入由字母数字搜索表达或关键字组成 的查询。响应于査询,搜索引擎筛选可用的网站来将搜索查询的词语与元数据储存 库中的词语进行匹配,以便定位所请求的信息。
该基于词语匹配的搜索引擎通过将查询的词语与元数据储存库中的文档的索 引词语进行比较来解析该储存库以定位匹配。如果在査询和一个或多个文档的词语 之间存在词语匹配,则搜索引擎标识这些文档并以HTML页面形式返回搜索结果。
而且,不仅WWW素材的数量日益增加,而且数字化素材的类型也日益增加。 例如,有可能将字母数字文本、数据、音频录音、图片、照片、附图、图像、视频 和印刷品存储为各种类型的数字化数据。然而,这样大数量的素材价值很小,除非 可容易查询、浏览或检索到所需信息。尽管为访问特定类型的文字素材开发了某些技术,但这些技术最适于访问图形或其它专门的素材。因此,存在仍显著未充分利 用的大量发布的素材。
结果,允许用户按照内容和上下文来进行搜索,而不被限于文字搜索变得日
发明概述
本发明针对增强和加速基于图像的查询的图像查询系统及其关联方法和计算 机程序产品(此处被统称为"本系统")。为此,本发明提供了用隐式和显式相关
联的元数据进行数字图像查询以及对来自存储在本地、联网或web链接的储存库 上的图像的大型集合的视觉相似图像或其它相关信息进行检索。
本发明允许个体采用或使用数字图片并将隐式和显式的数据附加至该图像, 使得在查询中这些数据将伴随该图片。如果它是通过因特网或任何其它介质发送 的,则伴随的文本或另外的音频文件总是与该数字图片相关联。
被附加至图片的注释素材将是可査询、可浏览和可检索的,使得当图像被并 入数据库时,隐式和显式数据将有助于定位相关图像或信息。例如,如果像是照片 位置的文字素材被添加到数码相片,则对同一位置的物体的按图像查询对该搜索将 得到匹配。而且,如果由数据库获取了与例如新闻事件的特定事件相关的多个图像, 则用户可按特定事件、或按特定主题或按位置、按图片的日期对提交的所有照片进 行图像查询或文字搜索。可搜索的组合将随存储在文件中的素材的类型变化而变 化。
基于本发明,现在有可能使每一图片进入描述关于该图片属性的分开的数据 库数据储存库,且当与众多其它带照片标签的图片联结时,有可能建立图片的数据 库,其中每一图片具有描述该图片内容的信息。因此,当与众多其它图片联结时, 这将形成可作为一组图片或作为单个图片而被搜索和处理的图片的数据库。
附图简述
本发明的各种特征和实现它们的各种方式将参考以下描述、权利要求书和附 图来详细描述,其中适当地重用参考标号以指示所引用的项目之间的对应性,附图 中


图1是可在其中实现本发明的按图像进行査询系统的计算机工作站环境的高 层框图;图2示出了可在其中使用图1的工作站和査询系统的示例性联网计算环境;
图3是可在其中实现本发明的按图像进行査询搜索系统的照相机或照相电话 环境的高层框图;以及
图4是示出图1的査询系统的操作的过程流程图。
优选实施例的详细描述
图1示出了可在其中实现本发明的按图像进行査询系统10的代表性计算机工 作站IIO。通过蜂窝电话、数码相机、扫描仪或从因特网或另一计算机下载来为査 询选择数字图像并将其输入到工作站110。工作站110可以是例如连接至多个外围 设备的个人计算机(PC)。而且,注意到工作站110可以是照相机或移动电话。 一般,工作站110包括中央处理单元(CPU) 112和用于连接中央处理单元112和 工作站110的其它组件并允许其间通信的总线114。
工作站110还可包括经由总线114将中央处理单元112连接至一个或多个接 口设备(诸如键盘118、鼠标120)和/或其它接口设备122、 123 (诸如触摸屏、数 字化板等)的用户接口适配器116。总线114还经由显示适配器126将诸如监视器 或液晶显示(LCD)屏的显示设备124连接至中央处理单元112。总线114还将中 央处理单元112连接至存储器128和存储设备130,诸如硬盘驱动器、磁盘驱动器、 磁带驱动器等。
数字图片经由任何常规方式被传送到第一工作站110的存储器'128,诸如经由 物理上将磁盘装载入硬盘驱动器,或通过照相机和存储器之间的有线或无线通信来实现。
系统10包括可具体化成诸如磁盘、硬盘或CD-ROM的用于数据处理系统的 各种已知介质中任一种的软件程序代码或计算机程序产品。
代码可分布在这样的介质上,或可经由某种类型的网络从一个计算机系统的 存储器或存储分发至其它计算机系统以供这样的其它系统的用户使用。或者,程序 代码可被具体化在存储器内并由中央处理单元访问。用于将软件程序代码具体化在 存储器、物理介质和/或经由网络分发软件代码的技术和方法是公知的,且将不在 此处进一步讨论。
在替换实施例中,系统IO包括模块化且可嵌入在工作站110或主机服务器247 (图2)内或在其上安装的软件或计算机程序产品。
工作站110可例如经由通信信道或调制解调器132与其它计算机或计算机网
6络115通信。或者,工作站110可使用诸如蜂窝数字分组数据(CDPD)卡的无线 接口来通信。工作站110可在局域网(LAN)或广域网(WAN)中与这样的其它 计算机相关联。工作站110也可以是带另一计算机的客户机/服务器安排中的客户 机。
系统10还包括可能带有大量候选图像以及关于图像的关联信息集合的数据 库。该系统的一个目的是从集合中检索匹配图像查询的一个或多个图像和关联信 息。该系统基于用作搜索的图像的内容并基于注释图像的隐式和显式数据在图像集 合中执行搜索。该系统具有将显示最相关结果的评级准则。
现在参考图2,示出了可在其中实现本发明的视觉査询系统10的数据处理网 络240。网络240包括例如多个网络,诸如无线网络242和因特网244,它们各自 可连接多个独立工作站,诸如工作站IIO、 150、 160、 170、 180。此外,可包括一 个或多个局域网(LAN),其中局域网可包括耦合至主机处理器的多个智能工作 站。
网络242和244也可包括大型机或服务器,诸如使用传输控制协议/因特网协 议(TCP/IP)连接来访问数据储存库248的网关246或应用程序服务器247。网关 246可经由通信链接250A来耦合至另一网络242。网关246也可分别使用通信链 接250B、 250C来直接耦合至一个或多个工作站110、 150。
网关246可远离网络242,类似地,工作站IIO、 150、 160、 170、 180可远离 网络242和244。工作站110可使用诸如TCP/IP的联网协议,经由诸如手机网络、 射频网络、卫星网络之类的多个替换连接介质连接至无线网络242。
无线网络242使用诸如传输控制协议或用户数据报协议(UDP)的网络连接 250A经因特网协议、X.25、帧中继、综合业务数字网络(ISDN)、公共交换电话 网络(PSTN)等连接至网关246。工作站110或者还可使用拨号连接来直接连接 至网关246。此外,网络242和244可按照图2中所述类似的方式连接至一个或多 个其它网络(未示出)。
在使用中,用户计算机,即160可使用有线连接或无线连接来连接至具体化 按图像进行查询系统10的服务器(或网关)246。有线连接是使用诸如电缆和电话 线的物理介质的连接,而无线连接则使用诸如卫星链路、射频波和红外波的介质。 众多连接技术可用于这些各种介质,诸如使用计算机的调制解调器经电话线建立 连接;使用诸如令牌环或以太网的局域网卡;使用蜂窝调制解调器来建立无线连接 等。用户的计算机160可以是具有处理和通信能力的任何类型的计算机处理器,包括膝上型、手持式或移动计算机;车载设备;台式机;大型机等。远程服务器246 类似地可以是具有处理和通信能力的众多计算机类型中的一种。
图3宽泛地示出了标准数码相机10 (或数码相机电话)的操作特征300。这 些特征包括用于捕捉图像的图像捕捉设备302以及用于以数字格式存储一个或多 个图像的存储设备304。 CPU306与存储器308协作来控制数码相机的操作。包含 在存储设备304中的信息然后被引入网络接口 310,用于将数字图像传输给诸如因 特网或任何其它类型的有线或无线通信的通信网络312。
照相机300可对图像附加隐式数据,诸如日期和时间戳。此外,照相机300 可同样包括向图像附加GPS定位、或对照相机电话而言附加GSM定位的自动图像 地理编码。自动图像地理编码可通过GPS接收器插件314来实现。日期、时间和 GPS/GSM戳是作为像素附加到数字图片的持久、不可修改、固有的信息。
可向图像注释文字属性以允许从数据库组织和定位图像。此外,附加的信息 可通过锚文本或备用文本来与图像相关联。通过已知的信息提取技术,该数据可从 注释文本或锚文本中提取出,并用于在图像数据库248中搜索各种项目。重要的是 注意到,该数据不限于文字数据,而且也可包括声音数据。这是重要的,因为藉此 本发明的搜索能力不仅限于文字数据还将包括搜索音频数据的能力。可在搜索过程 中采用与本发明相关联的各种输入设备,诸如声音识别设备。
将图像数据标签应用程序加载到诸如照相机、照相机电话或任何其它存储器 设备的工作站IIO的存储器内。该数据应用程序允许用户输入图像相关数据,使得 可用相关联信息对图像加上标签。该注释数据可易于由系统IO访问,使得注释素 材可用于定位相关文档以及归类图像用于将来的搜索。
本系统10因此启用包括以数据和照片均被存储为一个文件的方式注释有隐式 和/或显式的元数据的按图像进行查询搜索。整个文件因此可从诸如第一工作站110 的一个存储器设备转到诸如服务器246的第二存储器设备。
图4的流程图示出了用于实现图1和3的视觉查询系统的方法400。在步骤 410处,用户通过照相机或照相手机获取图像,或选择图像并将其存储在工作站110 的存储器中。在步骤412处,査询系统允许用户用文字或音频数据对该图像注释以 进一步增强搜索并将搜索提交给应用程序服务器以供相干信息的浏览和检索。作为 示例,图像査询可以是埃菲尔铁塔的图片。显式元数据,即注释文本,如下叙述 埃菲尔铁塔、巴黎、法国以及元旦。隐式数据包括时间和日期戳以及拍摄照片时照 相机的GPS坐标。
8査询系统在步骤414处使用照片匹配技术来分析图像,并进一步针对元数据
相似性来对元数据进行解析。系统io可包括联合数据库系统。各组分数据库经由
计算机网络互连,且可在地理上是分散的。例如,系统10可使用经解析的元数据 来创建对诸如在线百科全书或地图绘制服务的其它数据库的子査询,或使用子査询 来标识指向在图像査询中使用的那一位置或项目的赞助广告。为此,系统10在步
骤416处可将査询解构成子查询,以便在步骤418处提交给相关的组分数据库管理 系统。系统10在步骤420处合成来自储存库248和其它联合数据库的查询的结果 集,并在步骤422处向用户提供搜索集。系统因此具有统一的前端用户界面,允许 用户用单个査询在多个数据库中存储和检索数据——即使组分数据库是不同种类 的。
系统10可在步骤424处使用用于数据分类的隐式和显式元数据来选择在数据 库248中存储査询图像的图像。此外,附加于图片的注释素材将是可查询、可浏览 和可检索的,使得当图像被并入数据库时,隐式和显式数据将有助于根据相关查询 定位该图像。例如,如果诸如照片的GPS位置的注释素材被添加到数码相片上, 则对同一地理编码位置上物体按图像进行查询将得到对该搜索的匹配。
作为系统10的示例,如果多个摄影师发送了与一事件相关的带有标题的图像, 则系统可搜索关于该特定事件提交的所有照片,并返回该搜索的图像集合。
可以理解,此处描述的本发明特定实施例仅说明了本发明的原理的某些应用。 可以理解,尽管出于说明的目的详细描述了本发明的示例性实施例,但可进行各种 修改,而不背离本发明的精神和范围。从而,本发明不受除所附权利要求书以外的 限制。
权利要求
1. 一种通过图像查询搜索数据库的方法,包括以下步骤将图像输入具有数据输入设备的第一工作站;使用所述数据输入设备用关联数据显式地注释所述图像从而产生带有注释的图像;用所述带有注释的图像搜索候选图像的数据库;以及生成包括一个或多个记录的结果集。
2. 如权利要求l所述的方法,其特征在于,还包括用照相机捕捉图像并使隐 式数据与所述图像相关联的步骤。
3. 如权利要求2所述的方法,其特征在于,所述隐式数据包括所述图像的时 间、日期和地理编码位置的至少其中之一。
4. 如权利要求2所述的方法,其特征在于,所述用关联数据显式地注释所述 图像的步骤包括使用文字或音频数据的至少其中之一注释所述图像。
5. 如权利要求4所述的方法,其特征在于,所述用带有注释的图像搜索数据库的步骤包括通过图像识别和解析所述关联数据来分析所述图像的步骤。
6. —种图像检索系统,包括工作站,包括存储在所述工作站中的图像;输入装置,用于使用显式数据来注释所述图像以创建査询图像;带有关联数据的候选图像的数据库;图像比较装置,用于将所述查询图像与所述候选图像进行比较以建立所述查 询图像和各个候选图像之间的相应的图像相似性;元数据比较装置,用于将所述查询图像的所述显式数据与所述候选图像的数 据进行比较;以及呈现装置,用于至少呈现带有最大的图像和数据相似性的候选图像。
7. 如权利要求7所述的系统,其特征在于,所述输入装置是数据标签应用程序。
8. 如权利要求7所述的系统,其特征在于,所述存储在工作站中的图像还包 括隐式元数据。
9. 如权利要求9所述的系统,其特征在于,所述隐式元数据包括时间和曰期戳以及地理编码位置中的一个或多个。
10. 如权利要求IO所述的系统,其特征在于,所述元数据比较装置包括将所述査询图像的显式和隐式数据与所述候选图像的数据进行比较。
11. 一种含有用于实现基于内容和元数据的图像查询的指令代码的计算机程序产品,包括用于用关联数据注释图像的第一指令代码集;以及通过使用所述图像和带注释的数据的所述内容来确定来自候选图像的数据库 的候选图像的相关性的第二指令代码集。
12. 如权利要求ll所述的计算机程序产品,其特征在于,所述图像包括带有隐式元数据的图像,并且所述第二指令代码集解析所述隐式和带注释的数据。
全文摘要
公开了增强并加速基于图像进行查询的图像查询系统及其关联方法和计算机程序产品。为此,本发明提供了用隐式和显式关联元数据进行数字图像查询以及对来自存储在本地、联网或web链接的储存库上的图像的大型集合的视觉相似图像或其它相干信息进行检索。
文档编号G06F17/30GK101535986SQ200680022658
公开日2009年9月16日 申请日期2006年5月12日 优先权日2005年6月29日
发明者B·D·布里威, E·B·沃特森, N·A·怀特, R·J·马克贝茨 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1