语义可视搜索引擎的制作方法

文档序号：6569597阅读：148来源：国知局

专利名称：语义可视搜索引擎的制作方法
技术领域：
本发明一般地涉及可视信息分析和语义搜索。更具体地，本发明涉及存储在例如移动电子设备的设备中的内容的特征提取、特征和对象匹配以及特征选择。
背景技术：
随着近些年移动设备上的图像文件、视频文件、音频文件等的多媒体数据库逐渐变得更大，对用于数据库分类、搜索和管理的全面和精确系统的需求显著增加。在早些的移动设备中，存储空间十分有限，这导致相对小数目的多媒体对象存储在设备上。由于仅少量的对象被存储，所以精确地分类、搜索和管理实质上不太重要。然而，由于存储能力已经增加，因此已经向移动设备用户提供在例如移动电话的单个设备上存储成百并且甚至成千的对象的能力。然而，由于存储的对象太多，用户具有寻找先前存储的对象或组织他或她的所有多媒体文件以便稍后访问的困难时间。
在图像检索领域，现有的基于内容的图像检索(CBIR)系统通过查找从目标图像提取的类似低级特征来搜索相关图像。该方法的一个问题在于"类似低级特征"不会必然地确保"类似语义内容"。这是由于若干种因素。第一，两个"类似语义内容"可能最终具有不同的表现。例如，可以存在类间对象变化(例如，山脉不必看起来类似)。第二，"类似低级特征"可能对应于概念上不类似的对象。例如，色彩直方图不能轻易地区分红玫瑰与日落。第三，图像总是包含背景混乱，这经常会干扰低级特征匹配。尽管人类可以轻易地从语义类似内容识别永久性特征(例如，脸部具有代表眼部的黑色椭圆区域)，但对于计算算法来说，仍极难自动地将永久性特征与低级特征分离。
尽管有多种尝试通过基于内容的图像检索来解决上面的问题，
但每个尝试均具有其自身的缺陷。例如，签发给Jain等人的US专利号5,893,095公开了一种基于内容的图像检索系统，其基于匹配从目标图像提取的低级特征。此类的"原始"特征包括色调、饱和度和强度直方图、边缘密度等。然而并且如上所述，这些低级特征不总是对应于图像语义。
先前开发的通用图像识别/检索系统用于根据四类低级特征来识别图像，即平均色彩、色彩直方图、紋理和形状。在该系统下，用户能够人工地在图像内添加用户定义的形状和/或感兴趣的区域以精炼搜索结果。这些用户指定的特征经常是很有意义的并且可以产生精确的结果。然而，输入这些特征是乏味的并且对于大多数用户来 i兌太难。
除了上述的尝试，还有许多尝试使用机器学习以便进行特征选择。例如，一个系统涉及使用AdaBoost ( "Adaptive Boosting"的缩写)学习算法来训练脸部检测器。给定一组训练脸部图像，永久性的面部特征，例如前额和眼部周围的高对比度区域被自动地选择。尽管该方法演示了监督学习以便特征选择的可行性，但由于背景混乱的存在，其不能直接应用地图像数据库检索。
在另一个方法中，选择局部永久性特征并且接着以合并的概率模型来表示。该模型有效地适应了类间对象变化。然而，该方法计算量大并且因此选择的特征的数目有限(在一个实施中仅限于六个特征)。该方法不能净皮直4妄应用于移动应用。

发明内容
本发明提供一种语义可视搜索引擎，其使用在例如移动电话的设备和其他移动电子设备中。利用本发明，使用监督的学习方法可将永久特征与低级特征分离。永久性特征可用于分类和批注新的目标图像。用户可接着使用关键词和/或模板项目来通过相应的数据库进行搜索。
利用本发明，可基于"语义"对象类来搜索例如图像和视频的相关项目。另外，利用本发明，从图像和视频编码搜索得到的结果比由常规系统生成的结果更为精确和更为有意义。
通过下面结合附图的详细描述，本发明的这些和其他目标、优势和特征，连同其操作的组织和方式将变得明显，其中在下面描述的若干附图中，相同的元件具有相同的标号。

图1是可以在实现本发明中使用的移动电话的透视图2是图1中的移动电话的电话电路的示意图；图3(a)是示出实现本发明原理的系统的学习处理的示图；图3 (b)是示出实现本发明原理的系统的分类处理的示图；并且图3(c)
是实现本发明原理的系统的搜索处理的示图4是根据本发明一个实施方式的如何从图像提取低级特征的
示图；以及
图5是示出实现本发明的各种实施方式的流程图。
具体实施例方式
图1和图2示出其中本发明可被实现的一个示例性移动电话12。然而，应当理解，本发明不旨在限定于一个特定类型的移动电话12 或其他电子设备。例如，本发明可以被集成进组合的个人数字助理 (PDA)和移动电话、PDA、集成消息收发设备(IMD)、台式计算机和笔记本计算机。图1和2中的移动电话12包括壳体30、以液晶显示器形式的显示器32、小键盘34、麦克风36、听筒38、电池40、红外端口 42、天线44、根据本发明的一个实施例的通用集成电路卡 UICC形式的智能卡46、读卡器48、无线接口电路52、编解码器电路54、控制器56和存储器58。各个电路和元件都是本领域公知的类型，例如Nokia移动电话系列。本发明的搜索系统包括三个相关的处理学习、分类和搜索。学习处理通过使用监督的学习方法来解决先前讨论的特征选择问题。输入包括一组相同类的样本图像(例如，脸部的图像)。输出包括从低级特征选择的常见永久性特征，该低级特征从示例图像导出。图3(a)示出学习处理的简化例子，其中输入包括一对样本项目 300，并且作为监督学习处理305的结果，在输出中识别出永久性特征310。
在分类处理中，在学习处理期间识别的永久性特征被用于分类和批注新的目标图像。如图3(b)中所示，输入包括一个或多个目标项目320,而输出包括分配给目标项目320的批注330。作为语义图像分类处理325的结果，生成输出。
根据本发明，可以使用不同的搜索方案。如图3(c)中所示，用户可以提交关鍵词340和/或模板350。系统接着可使用特征选择 360和基于特征项目匹配370来返回多个4企索项目380。
在搜索方案的第一个中，用户提交一个或多个关键词。作为响应，具有相同或类似批注的检索项目380被返回。在第二个方案中，提供一个或多个模板350和一个或多个关键词340。在该情形下，从模板项目或项目350提取的低级特征首先被预过滤，并且接着随后与目标项目的特征进行匹配。预过滤用于排除或最小化背景混乱。最为类似的项目或多个项目被检索并且为用户可用。在第三个方案中，仅一个或多个模板项目350被提供有不感兴趣的指定对象。在该方案中，最为类似的低级特征被匹配。
对于低级特征提取，当涉及图像时，图像被转化成多尺度 (multi-scale)局部特征矢量，该矢量包括待处理的候选低级特征。应该注意到尽管"图像"在这里被明确地讨论，但本发明可以被应用到例如音频文件的非图像内容。低级特征围绕图像中的突点局部地提取。图4是该处理的示图，其中三种不同类型的特征(形状、色彩和紋理强度)从在三个不同尺度处的各种突点410提取。
对于学习处理，输入是针对语义内容的每个分类的一组示例图像。该组示例图像或项目在数目可以成百或更多。语义内容包括潜在相关项目的简短描述，例如"脸部"、"飞机"、"山脉"和其他。每个示例图像转化成多尺度局部特征矢量，它们是将要处理的候选低级特征。使用监督的学习方法，可以选择与特定的对象类关联的永久性特征(例如，"眼部"对于"脸部"或"车轮"对于"汽车")。这些选择的特征构成特定对象类的概率模型并且可用于随后的分类和搜索处理。
应该注意到本发明包括通用框架并且不依赖于被实现的学习方
法的性质。在本发明的一个实施方式中，AdaBoosting被用于选择特征。AdaBoosting是可视特征选择域中的有效学习方法。然而，可选的学习方法，包括但不限于支持向量机器(SVM )模式识别、Bayesian 统计和其他的方法也可结合本发明来实施。
对于分类处理，目标图像首先转化成多尺度局部特征。这些提取的特征随后与永久性特征进行匹配，这些永久性特征被表示为概率模型。如果计算的概率大于特定的阈值，则宣告成功的匹配并且相应对象分类的批注被输出。例如，如果由用户保存的目标图像具有包含脸部的某个概率，则将与目标图像关联的批注之一是"脸部"。也应该注意到概率阈值从本发明的各种实施方式中的示例图^f象或项目学习。在本发明的一个实施方式中，在这点上无需用户干预。
在搜索步骤中并且如上所讨论，当提供模板项目和关键词时，根据感兴趣的分类的概率模型，首先对来自模板项目的低级特征进行预过滤。该预滤波对于排除或最小化背景混乱是重要的，背景混乱经常干扰后续的图像匹配处理。选择的特征与相同分类的目标图像或项目匹配。该匹配使用了基于稳健的局部特征的图像匹配方法。此类特定方法在Lixin Fan的"Intra-Class Variation, Affme Transformation and Background Clutter:Towards Robust Image Matching"详细讨论并且通过参考并入在此。
如果仅模板图像或项目提供有不感兴趣的指定对象，则搜索处理使用如这里所述的基于低级特征的图像匹配。再次，此类特定方法在Lixin Fan的 "Intra-Class Variation, Affme Transformation and Background Clutter:Towards Robust Image Matching" i羊纟田i寸^仑。长口果仅输入关键词，则系统查找具有与批注相同或类似的关键词的存储的图像。例如，如果单词"脸部"被输入，则系统可返回具有如批注"脸部"的图像。
图5示出本发明的各种实施方式的实现的流程图。在图5的步骤500处，多个图像或其他项目被转换成多个候选低级特征。对于多个项目中的每个，围绕相应项目中的突点来局部地提取候选低级特征。在步骤510处，上述类型的监督学习方法用于从多个候选低级特征选择永久性低级特征。永久性的低级特征与预定的对象分类关联。这些预定的对象分类可描述通用对象(例如，汽车、飞机等)；人体的一部分(例如脸部)，地理陆标(例如，山脉、树木等)或其他项目。
在步骤520处，当新的项目将要被分类时，目标项目被转化为多个多尺度局部特征。在步骤530处，对于多个多尺度局部特征的每个，使用概率模型，多尺度局部特征与永久性低级特征关联。通过这种方式，例如，如果目标项目具有脸部，则该特4正将被匹配于具有脸部的其他项目并且该项目因此可以^皮分类。
在步骤540处，输入项目由用户输入进系统，请求对其进行搜索。输入项目可包括用于搜索的模板和/或关键词。接着响应于步骤 550处的询问，类似于输入项目的项目可提供给用户。如上讨论，精确的处理可根据用户是否仅输入关键词，仅输入模板或二者来变化。应该注意到搜索结果也可包括本地执行和/或位于远程位置所执行的搜索的结果，并且被搜索的项目可以位于本地和/或远端。
在方法步骤的通常环境中描述了本发明，其可以通过包括计算机可冲丸行指令的程序产品在一个实施例中实现，例如程序代码，可由计算机在网络互连环境中执行。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例行程序、程序、对象、组件、数据结构等。计算机可执行指令，相关联的数据结构和程序模块代表用于执行在此公开的方法的步骤的程序代码的例子。这种可执行指令功能的相应动作的例子。
本发明的软件和web执行可以使用标准编程技术完成，该标准编程技术具有基于规则的逻辑和其它逻辑用于完成不同的数据库搜索步骤、相关性步骤、比较步骤和决定步骤。本发明也可以使用任意常见的编程语言(例如(:/0++或汇编语言)来直接实施在软件中。本发明也可以实现在硬件中并且用于消费设备中。还应当注意此处和权利要求书中使用的词语"组件"和"模块"意欲包含使用一行
或多行软件代码的执行，和/或硬件执行，和/或用于接收手动输入的设备。
为了示意和描述的目的已经对本发明的实施例进行了前述描述。不旨在穷举或者将本发明限制在所公开的精确形式下，并且修改和变化可以参照上述教导做出，或者从本发明的实践中获得。选择和描述的实施例用于解释本发明的原理及其实际应用以使本领域
以适应于特定的预期应用。
权利要求
1. 一种用于将移动电子设备上的多个项目进行分类的方法，包括将多个项目转化成多个候选低级特征，对于多个项目的每个，围绕相应的项目中的突点局部地提取候选低级特征；以及使用监督的学习方法从多个所述候选低级特征选择永久性低级特征，所述永久性低级特征与预定的对象分类关联。
2. 根据权利要求1所述的方法，其中所述监督的学习方法包括 AdaBoosting学习算法。
3. 根据权利要求1所述的方法，其中所述监督的学习方法包括 Bayesian统计的4吏用。
4. 根据权利要求1所述的方法，其中监督的学习方法包括SVM 模式识别。
5. 根据权利要求1所述的方法，其中多个项目包括视频。
6. 根据权利要求1所述的方法，其中多个项目包括图像。
7. 根据权利要求1所述的方法，进一步包括将目标项目转化成多个多尺度局部特征；以及对于多个多尺度局部特征的每个，使用概率模型将多尺度局部特征与所述永久性低级特征进行匹配。
8. 根据权利要求7所述的方法，其中如果多尺度局部特征和永久性低级特征之间计算的匹配概率大于预定的阈值，则所述多尺度局部特征与所述永久性低级特征匹配。
9. 根据权利要求8所述的方法，其中通过使用所述监督的学习方法来确定所述预定的阈值。
10. 根据权利要求7所述的方法，进一步包括接收来自用户的输入；以及向用户返回与所述输入共享某些类似性的至少一个项目。
11. 根据权利要求IO所述的方法，其中所述输入包括关键词，并且其中至少一个项目包括类似于关键词的批注。
12. 根据权利要求IO所述的方法，其中所述输入包括模板项目，识别出至少一个项目。
13. 根据权利要求IO所述的方法，其中所述输入包括模板项目和所述关4建词，并且至少一个项目的返回包括使用感兴趣的分类的概率模型来预过滤所述模板项目中的低级特征；以及将所述预过滤的低级特征与相同分类中的目标图像进行匹配，所述分类由关键词来识别。
14. 一种用于将移动电子设备上的多个项目进行分类的计算机程序产品，包括用于将多个项目转化成多个候选低级特征的计算机代码，对于多个项目的每个，围绕相应的项目中的突点局部地提取候选低级特征；以及用于使用监督的学习方法从多个所述候选低级特征选择永久性低级特征的计算机代码，所述永久性低级特征与预定的对象分类关联。
15. 根据权利要求14所述的计算机程序产品，进一步包括用于将目标项目转化成多个多尺度局部特征的计算机代码；以及用于对于多个多尺度局部特征的每个，使用概率模型将多尺度局部特征与永久性低级特征进行匹配的计算机代码。
16. 根据权利要求15所述的计算机程序产品，其中如果多尺度局部特征和永久性低级特征之间计算的匹配概率大于预定的阈值，则所述多尺度局部特征与所述永久性低级特征匹配。
17. 根据权利要求16所述的计算机程序产品，其中通过使用所述监督的学习方法来确定所述预定的阈值。
18. 根据权利要求15所述的计算机程序产品，进一步包括用于接收来自用户的输入的计算机代码；以及用于向用户返回与所述输入共享某些类似性的至少一个项目的计算机代码。
19. 根据权利要求18所述的计算机程序产品，其中所述输入包括关键词，并且其中至少一个项目包括类似于关键词的批注。
20. 根据权利要求18所述的计算机程序产品，其中所述输入包括模板项目，并且其中所述输入中的低级特征与所述永久性低级特征进行比较以识别出至少一个项目。
21. 根据权利要求18所述的计算机程序产品，其中所述输入包括模板项目和所述关4建词，并且至少一个项目的返回包括用于使用感兴趣的分类的概率模型来预过滤模板项目中的低级特征的计算机代码；以及用于将所述预过滤的低级特征与相同分类中的目标图像进行匹配的计算机代码，所述分类由关键词来识别。
22. —种电子设备，包括处理器，以及存储单元，其操作性地连接到处理器并且包括用于将多个项目转化成多个候选低级特征的计算机代码，对于多个项目的每个，围绕相应的项目中的突点局部地提取候选低级特征；以及用于使用监督的学习方法从多个所述候选低级特征选择永久性低级特征的计算机代码，所述永久性低级特征与预定的对象分类关联。
23. 根据权利要求22所述的电子设备，其中所述存储单元进一步包括用于将目标项目转化成多个多尺度局部特征的计算机代码；以及用于对于多个多尺度局部特征的每个，使用概率模型将多尺度局部特征与永久性低级特征进行匹配的计算机代码。
24. 根据权利要求23所述的电子设备，其中如果多尺度局部特征和永久性低级特征之间计算的匹配概率大于预定的阈值，则所述多尺度局部特征与永久性低级特征匹配。
25. 根据权利要求24所述的电子设备，其中通过使用所述监督的学习方法来确定所述预定的阈值。
26. 根据权利要求25所述的电子设备，其中所述存储单元进一步包括用于接收来自用户的输入的计算机代码；以及用于向用户返回与所述输入共享某些类似性的至少一个项目的计算机代码。
全文摘要
一种用于使得系统根据例如图像或视频剪辑的项目的语义意义来对它们进行学习、分类和搜索的改进方法、设备和计算机程序产品。根据本发明，可以使用监督的学习方法来将永久性特征与低级特征分离。永久性特征用于分类和批注新的目标项目。用户可接着使用关键词和/或模板项目来通过相应的数据库进行搜索。
文档编号G06F17/30GK101305368SQ200680041967
公开日2008年11月12日申请日期2006年9月27日优先权日2005年9月28日
发明者范力欣申请人:诺基亚公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：范力欣
技术所有人：诺基亚公司
我是此专利的发明人

上一篇：使用生物测定数据的数字权限管理的制作方法
上一篇：针对异类存储系统的基于Web服务的数据复制的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。