专利名称:语义可视搜索引擎的制作方法
技术领域:
本发明一般地涉及可视信息分析和语义搜索。更具体地,本发 明涉及存储在例如移动电子设备的设备中的内容的特征提取、特征 和对象匹配以及特征选择。
背景技术:
随着近些年移动设备上的图像文件、视频文件、音频文件等的 多媒体数据库逐渐变得更大,对用于数据库分类、搜索和管理的全 面和精确系统的需求显著增加。在早些的移动设备中,存储空间十 分有限,这导致相对小数目的多媒体对象存储在设备上。由于仅少 量的对象被存储,所以精确地分类、搜索和管理实质上不太重要。 然而,由于存储能力已经增加,因此已经向移动设备用户提供在例 如移动电话的单个设备上存储成百并且甚至成千的对象的能力。然 而,由于存储的对象太多,用户具有寻找先前存储的对象或组织他 或她的所有多媒体文件以便稍后访问的困难时间。
在图像检索领域,现有的基于内容的图像检索(CBIR)系统通 过查找从目标图像提取的类似低级特征来搜索相关图像。该方法的 一个问题在于"类似低级特征"不会必然地确保"类似语义内容"。 这是由于若干种因素。第一,两个"类似语义内容"可能最终具有 不同的表现。例如,可以存在类间对象变化(例如,山脉不必看起 来类似)。第二,"类似低级特征"可能对应于概念上不类似的对 象。例如,色彩直方图不能轻易地区分红玫瑰与日落。第三,图像 总是包含背景混乱,这经常会干扰低级特征匹配。尽管人类可以轻 易地从语义类似内容识别永久性特征(例如,脸部具有代表眼部的 黑色椭圆区域),但对于计算算法来说,仍极难自动地将永久性特征与低级特征分离。
尽管有多种尝试通过基于内容的图像检索来解决上面的问题,
但每个尝试均具有其自身的缺陷。例如,签发给Jain等人的US专 利号5,893,095公开了 一种基于内容的图像检索系统,其基于匹配从 目标图像提取的低级特征。此类的"原始"特征包括色调、饱和度 和强度直方图、边缘密度等。然而并且如上所述,这些低级特征不 总是对应于图像语义。
先前开发的通用图像识别/检索系统用于根据四类低级特征来识 别图像,即平均色彩、色彩直方图、紋理和形状。在该系统下,用 户能够人工地在图像内添加用户定义的形状和/或感兴趣的区域以精 炼搜索结果。这些用户指定的特征经常是很有意义的并且可以产生 精确的结果。然而,输入这些特征是乏味的并且对于大多数用户来 i兌太难。
除了上述的尝试,还有许多尝试使用机器学习以便进行特征选 择。例如, 一个系统涉及使用AdaBoost ( "Adaptive Boosting"的缩 写)学习算法来训练脸部检测器。给定一组训练脸部图像,永久性 的面部特征,例如前额和眼部周围的高对比度区域被自动地选择。 尽管该方法演示了监督学习以便特征选择的可行性,但由于背景混 乱的存在,其不能直接应用地图像数据库检索。
在另 一 个方法中,选择局部永久性特征并且接着以合并的概率 模型来表示。该模型有效地适应了类间对象变化。然而,该方法计 算量大并且因此选择的特征的数目有限(在一个实施中仅限于六个 特征)。该方法不能净皮直4妄应用于移动应用。
发明内容
本发明提供一种语义可视搜索引擎,其使用在例如移动电话的 设备和其他移动电子设备中。利用本发明,使用监督的学习方法可 将永久特征与低级特征分离。永久性特征可用于分类和批注新的目 标图像。用户可接着使用关键词和/或模板项目来通过相应的数据库进行搜索。
利用本发明,可基于"语义"对象类来搜索例如图像和视频的 相关项目。另外,利用本发明,从图像和视频编码搜索得到的结果 比由常规系统生成的结果更为精确和更为有意义。
通过下面结合附图的详细描述,本发明的这些和其他目标、优 势和特征,连同其操作的组织和方式将变得明显,其中在下面描述 的若干附图中,相同的元件具有相同的标号。
图1是可以在实现本发明中使用的移动电话的透视图2是图1中的移动电话的电话电路的示意图; 图3(a)是示出实现本发明原理的系统的学习处理的示图;图3 (b)是示出实现本发明原理的系统的分类处理的示图;并且图3(c)
是实现本发明原理的系统的搜索处理的示图4是根据本发明 一个实施方式的如何从图像提取低级特征的
示图;以及
图5是示出实现本发明的各种实施方式的流程图。
具体实施例方式
图1和图2示出其中本发明可被实现的一个示例性移动电话12。 然而,应当理解,本发明不旨在限定于一个特定类型的移动电话12 或其他电子设备。例如,本发明可以被集成进组合的个人数字助理 (PDA)和移动电话、PDA、集成消息收发设备(IMD)、台式计算 机和笔记本计算机。图1和2中的移动电话12包括壳体30、以液晶 显示器形式的显示器32、小键盘34、麦克风36、听筒38、电池40、 红外端口 42、天线44、根据本发明的一个实施例的通用集成电路卡 UICC形式的智能卡46、读卡器48、无线接口电路52、编解码器电 路54、控制器56和存储器58。各个电路和元件都是本领域公知的 类型,例如Nokia移动电话系列。本发明的搜索系统包括三个相关的处理学习、分类和搜索。 学习处理通过使用监督的学习方法来解决先前讨论的特征选择问 题。输入包括一组相同类的样本图像(例如,脸部的图像)。输出 包括从低级特征选择的常见永久性特征,该低级特征从示例图像导 出。图3(a)示出学习处理的简化例子,其中输入包括一对样本项目 300,并且作为监督学习处理305的结果,在输出中识别出永久性特 征310。
在分类处理中,在学习处理期间识别的永久性特征被用于分类 和批注新的目标图像。如图3(b)中所示,输入包括一个或多个目 标项目320,而输出包括分配给目标项目320的批注330。作为语义 图像分类处理325的结果,生成输出。
根据本发明,可以使用不同的搜索方案。如图3(c)中所示, 用户可以提交关鍵词340和/或模板350。系统接着可使用特征选择 360和基于特征项目匹配370来返回多个4企索项目380。
在搜索方案的第一个中,用户提交一个或多个关键词。作为响 应,具有相同或类似批注的检索项目380被返回。在第二个方案中, 提供一个或多个模板350和一个或多个关键词340。在该情形下,从 模板项目或项目350提取的低级特征首先被预过滤,并且接着随后 与目标项目的特征进行匹配。预过滤用于排除或最小化背景混乱。 最为类似的项目或多个项目被检索并且为用户可用。在第三个方案 中,仅一个或多个模板项目350被提供有不感兴趣的指定对象。在 该方案中,最为类似的低级特征被匹配。
对于低级特征提取,当涉及图像时,图像被转化成多尺度 (multi-scale)局部特征矢量,该矢量包括待处理的候选低级特征。 应该注意到尽管"图像"在这里被明确地讨论,但本发明可以被应 用到例如音频文件的非图像内容。低级特征围绕图像中的突点局部 地提取。图4是该处理的示图,其中三种不同类型的特征(形状、 色彩和紋理强度)从在三个不同尺度处的各种突点410提取。
对于学习处理,输入是针对语义内容的每个分类的 一 组示例图像。该组示例图像或项目在数目可以成百或更多。语义内容包括潜 在相关项目的简短描述,例如"脸部"、"飞机"、"山脉"和其 他。每个示例图像转化成多尺度局部特征矢量,它们是将要处理的 候选低级特征。使用监督的学习方法,可以选择与特定的对象类关 联的永久性特征(例如,"眼部"对于"脸部"或"车轮"对于"汽 车")。这些选择的特征构成特定对象类的概率模型并且可用于随 后的分类和搜索处理。
应该注意到本发明包括通用框架并且不依赖于被实现的学习方
法的性质。在本发明的一个实施方式中,AdaBoosting被用于选择特 征。AdaBoosting是可视特征选择域中的有效学习方法。然而,可选 的学习方法,包括但不限于支持向量机器(SVM )模式识别、Bayesian 统计和其他的方法也可结合本发明来实施。
对于分类处理,目标图像首先转化成多尺度局部特征。这些提 取的特征随后与永久性特征进行匹配,这些永久性特征被表示为概 率模型。如果计算的概率大于特定的阈值,则宣告成功的匹配并且 相应对象分类的批注被输出。例如,如果由用户保存的目标图像具 有包含脸部的某个概率,则将与目标图像关联的批注之一是"脸部"。 也应该注意到概率阈值从本发明的各种实施方式中的示例图^f象或项 目学习。在本发明的一个实施方式中,在这点上无需用户干预。
在搜索步骤中并且如上所讨论,当提供模板项目和关键词时, 根据感兴趣的分类的概率模型,首先对来自模板项目的低级特征进 行预过滤。该预滤波对于排除或最小化背景混乱是重要的,背景混 乱经常干扰后续的图像匹配处理。选择的特征与相同分类的目标图 像或项目匹配。该匹配使用了基于稳健的局部特征的图像匹配方法。 此类特定方法在Lixin Fan的"Intra-Class Variation, Affme Transformation and Background Clutter:Towards Robust Image Matching"详细讨论并且通过参考并入在此。
如果仅模板图像或项目提供有不感兴趣的指定对象,则搜索处 理使用如这里所述的基于低级特征的图像匹配。再次,此类特定方法在Lixin Fan的 "Intra-Class Variation, Affme Transformation and Background Clutter:Towards Robust Image Matching" i羊纟田i寸^仑。长口果 仅输入关键词,则系统查找具有与批注相同或类似的关键词的存储 的图像。例如,如果单词"脸部"被输入,则系统可返回具有如批 注"脸部"的图像。
图5示出本发明的各种实施方式的实现的流程图。在图5的步 骤500处,多个图像或其他项目被转换成多个候选低级特征。对于 多个项目中的每个,围绕相应项目中的突点来局部地提取候选低级 特征。在步骤510处,上述类型的监督学习方法用于从多个候选低 级特征选择永久性低级特征。永久性的低级特征与预定的对象分类 关联。这些预定的对象分类可描述通用对象(例如,汽车、飞机等); 人体的一部分(例如脸部),地理陆标(例如,山脉、树木等)或 其他项目。
在步骤520处,当新的项目将要被分类时,目标项目被转化为 多个多尺度局部特征。在步骤530处,对于多个多尺度局部特征的 每个,使用概率模型,多尺度局部特征与永久性低级特征关联。通 过这种方式,例如,如果目标项目具有脸部,则该特4正将被匹配于 具有脸部的其他项目并且该项目因此可以^皮分类。
在步骤540处,输入项目由用户输入进系统,请求对其进行搜 索。输入项目可包括用于搜索的模板和/或关键词。接着响应于步骤 550处的询问,类似于输入项目的项目可提供给用户。如上讨论,精 确的处理可根据用户是否仅输入关键词,仅输入模板或二者来变化。 应该注意到搜索结果也可包括本地执行和/或位于远程位置所执行的 搜索的结果,并且被搜索的项目可以位于本地和/或远端。
在方法步骤的通常环境中描述了本发明,其可以通过包括计算 机可冲丸行指令的程序产品在一个实施例中实现,例如程序代码,可 由计算机在网络互连环境中执行。通常,程序模块包括执行特定任 务或实现特定抽象数据类型的例行程序、程序、对象、组件、数据 结构等。计算机可执行指令,相关联的数据结构和程序模块代表用于执行在此公开的方法的步骤的程序代码的例子。这种可执行指令 功能的相应动作的例子。
本发明的软件和web执行可以使用标准编程技术完成,该标准 编程技术具有基于规则的逻辑和其它逻辑用于完成不同的数据库搜 索步骤、相关性步骤、比较步骤和决定步骤。本发明也可以使用任 意常见的编程语言(例如(:/0++或汇编语言)来直接实施在软件中。 本发明也可以实现在硬件中并且用于消费设备中。还应当注意此处 和权利要求书中使用的词语"组件"和"模块"意欲包含使用一行
或多行软件代码的执行,和/或硬件执行,和/或用于接收手动输入的 设备。
为了示意和描述的目的已经对本发明的实施例进行了前述描 述。不旨在穷举或者将本发明限制在所公开的精确形式下,并且修 改和变化可以参照上述教导做出,或者从本发明的实践中获得。选 择和描述的实施例用于解释本发明的原理及其实际应用以使本领域
以适应于特定的预期应用。
权利要求
1. 一种用于将移动电子设备上的多个项目进行分类的方法,包括将多个项目转化成多个候选低级特征,对于多个项目的每个,围绕相应的项目中的突点局部地提取候选低级特征;以及使用监督的学习方法从多个所述候选低级特征选择永久性低级特征,所述永久性低级特征与预定的对象分类关联。
2. 根据权利要求1所述的方法,其中所述监督的学习方法包括 AdaBoosting学习算法。
3. 根据权利要求1所述的方法,其中所述监督的学习方法包括 Bayesian统计的4吏用。
4. 根据权利要求1所述的方法,其中监督的学习方法包括SVM 模式识别。
5. 根据权利要求1所述的方法,其中多个项目包括视频。
6. 根据权利要求1所述的方法,其中多个项目包括图像。
7. 根据权利要求1所述的方法,进一步包括 将目标项目转化成多个多尺度局部特征; 以及对于多个多尺度局部特征的每个,使用概率模型将多尺度局部 特征与所述永久性低级特征进行匹配。
8. 根据权利要求7所述的方法,其中如果多尺度局部特征和永 久性低级特征之间计算的匹配概率大于预定的阈值,则所述多尺度 局部特征与所述永久性低级特征匹配。
9. 根据权利要求8所述的方法,其中通过使用所述监督的学习 方法来确定所述预定的阈值。
10. 根据权利要求7所述的方法,进一步包括 接收来自用户的输入;以及向用户返回与所述输入共享某些类似性的至少一个项目。
11. 根据权利要求IO所述的方法,其中所述输入包括关键词,并且其中至少一个项目包括类似于关键词的批注。
12. 根据权利要求IO所述的方法,其中所述输入包括模板项目,识别出至少一个项目。
13. 根据权利要求IO所述的方法,其中所述输入包括模板项目和所述关4建词,并且至少一个项目的返回包括使用感兴趣的分类的概率模型来预过滤所述模板项目中的低级 特征;以及将所述预过滤的低级特征与相同分类中的目标图像进行匹配, 所述分类由关键词来识别。
14. 一种用于将移动电子设备上的多个项目进行分类的计算机 程序产品,包括用于将多个项目转化成多个候选低级特征的计算机代码,对于 多个项目的每个,围绕相应的项目中的突点局部地提取候选低级特 征;以及用于使用监督的学习方法从多个所述候选低级特征选择永久性 低级特征的计算机代码,所述永久性低级特征与预定的对象分类关联。
15. 根据权利要求14所述的计算机程序产品,进一步包括 用于将目标项目转化成多个多尺度局部特征的计算机代码;以及用于对于多个多尺度局部特征的每个,使用概率模型将多尺度 局部特征与永久性低级特征进行匹配的计算机代码。
16. 根据权利要求15所述的计算机程序产品,其中如果多尺度 局部特征和永久性低级特征之间计算的匹配概率大于预定的阈值, 则所述多尺度局部特征与所述永久性低级特征匹配。
17. 根据权利要求16所述的计算机程序产品,其中通过使用所 述监督的学习方法来确定所述预定的阈值。
18. 根据权利要求15所述的计算机程序产品,进一步包括 用于接收来自用户的输入的计算机代码;以及 用于向用户返回与所述输入共享某些类似性的至少一个项目的计算机代码。
19. 根据权利要求18所述的计算机程序产品,其中所述输入包 括关键词,并且其中至少一个项目包括类似于关键词的批注。
20. 根据权利要求18所述的计算机程序产品,其中所述输入包 括模板项目,并且其中所述输入中的低级特征与所述永久性低级特 征进行比较以识别出至少一个项目。
21. 根据权利要求18所述的计算机程序产品,其中所述输入包 括模板项目和所述关4建词,并且至少一个项目的返回包括用于使用感兴趣的分类的概率模型来预过滤模板项目中的低级 特征的计算机代码;以及用于将所述预过滤的低级特征与相同分类中的目标图像进行匹 配的计算机代码,所述分类由关键词来识别。
22. —种电子设备,包括 处理器,以及存储单元,其操作性地连接到处理器并且包括用于将多个项目转化成多个候选低级特征的计算机代码, 对于多个项目的每个,围绕相应的项目中的突点局部地提取候选低 级特征;以及用于使用监督的学习方法从多个所述候选低级特征选择永 久性低级特征的计算机代码,所述永久性低级特征与预定的对象分 类关联。
23. 根据权利要求22所述的电子设备,其中所述存储单元进一 步包括用于将目标项目转化成多个多尺度局部特征的计算机代码;以及用于对于多个多尺度局部特征的每个,使用概率模型将多尺度局部特征与永久性低级特征进行匹配的计算机代码。
24. 根据权利要求23所述的电子设备,其中如果多尺度局部特 征和永久性低级特征之间计算的匹配概率大于预定的阈值,则所述多尺度局部特征与永久性低级特征匹配。
25. 根据权利要求24所述的电子设备,其中通过使用所述监督 的学习方法来确定所述预定的阈值。
26. 根据权利要求25所述的电子设备,其中所述存储单元进一 步包括用于接收来自用户的输入的计算机代码;以及 用于向用户返回与所述输入共享某些类似性的至少一个项目的 计算机代码。
全文摘要
一种用于使得系统根据例如图像或视频剪辑的项目的语义意义来对它们进行学习、分类和搜索的改进方法、设备和计算机程序产品。根据本发明,可以使用监督的学习方法来将永久性特征与低级特征分离。永久性特征用于分类和批注新的目标项目。用户可接着使用关键词和/或模板项目来通过相应的数据库进行搜索。
文档编号G06F17/30GK101305368SQ200680041967
公开日2008年11月12日 申请日期2006年9月27日 优先权日2005年9月28日
发明者范力欣 申请人:诺基亚公司