用于寻找图像集合中的代表性图像的系统和方法

文档序号：6599011阅读：121来源：国知局

专利名称：用于寻找图像集合中的代表性图像的系统和方法
技术领域：
本发明涉及用于寻找图像集合中的代表性图像的系统和方法。
背景技术：
随着信息存储技术的发展，存储装置的存储能力日益提高，所存储的信息量也越来越大。现实生活中，在诸如电子相册之类的包含大量电子图像的图像集合中，常常存在数量众多的、未经组织的各种图像，导致用户难以快速掌握图像集合的整体内容。在此情况下，如果能够自动寻找出最能代表图像集合中的所有图像的内容的一个或多个图像(即，所谓的代表性图像)，则这将极大地改进用户体验。
专利申请NO.US20070094251提出了一种用于文档图像数据库的导航系统。对于用户输入的搜索关键词，该系统通过采用文本搜索来收集图像，通过使用图像视觉特征来对图像自动分组，并显示每组的代表性图像。然而，在该系统中，需要用户手动输入文本关键词。事实上，在实际应用中，很多情况下用户不能获知诸如电子相册的图像集合中包含的关键词，因此用户常常只能试探性地输入搜索关键词，而该搜索关键词常常不能概括整个图像集合，因此不能令人满意地得到图像集合的代表性图像。专利申请No. US5995978提出了一种对于语义主题的富呈现(richpresentation) 方法。该语义主题可以是一个或多个关键词、人名、事件、场景等。由于图像集合中可能包含多个语义主题，因此为了导航图像集合，首先需要确定包括哪些主题。然而，由于语义主题检测技术目前尚不成熟，导致该方法的性能不够理想。

发明内容
有鉴于上述问题，本发明提出了一种用于寻找图像集合中的代表性图像的方法和系统，其能够以有效的方式自动寻找图像集合中的代表性图像，从而有助于用户快速掌握图像集合的整体内容，改进用户体验。根据本发明的一方面，提供了一种用于寻找图像集合中的代表性图像的方法，包括基于每个图像的元数据信息和/或由用户输入的标记信息，从包括多个图像的集合中的每个图像提取该图像的文本特征；基于每个图像的所述文本特征，获取该集合的多样性数据，用于表示该集合中的任何两个图像的内容之间的差异性；基于所述多样性数据来计算每个图像的代表性分数，用于表示该图像的内容相对于该集合中的所有图像的内容的代表性；以及基于所述代表性分数，选择代表该集合中的所有图像的内容的一个或多个图像。此外，所述方法还可包括从该集合中的每个图像提取该图像的视觉特征；以及基于每个图像的所述视觉特征，获取该图像的显著性数据，用于表示该图像的内容在该集合中的普遍性；其中，所述代表性分数还基于所述显著性数据。此外，在所述方法中，所述选择代表该集合中的所有图像的内容的一个或多个图像可包括基于每个图像的代表性分数，对集合中的所有图像的代表性分数进行排序；以及基于所述排序的结果，选择代表该集合中的所有图像的内容的一个或多个图像。
此外，在所述方法中，所述提取每个图像的文本特征可包括基于该集合中的所有图像的元数据信息和/或由用户输入的标记信息，创建该集合的文本关键词库；从该集合的文本关键词库中选择一个或多个文本关键词，创建文本特征空间，其中所述文本特征空间的维度等于所选择的文本关键词的数量；以及基于所述每个图像的元数据信息和/或由用户输入的标记信息，通过所述文本特征空间形成每个图像的文本特征。此外，在所述方法中，创建所述文本特征空间可包括统计该集合的文本关键词库中的每个文本关键词的出现频率；以及选择其出现频率处于预定范围内的文本关键词，以创建所述文本特征空间。根据本发明另一方面，提供了一种用于寻找图像集合中的代表性图像的系统，包括文本特征提取器，被配置为基于每个图像的元数据信息和/或由用户输入的标记信息，从包括多个图像的集合中的每个图像提取该图像的文本特征；多样性数据获取器，被配置为基于每个图像的所述文本特征，获取该集合的多样性数据，用于表示该集合中的任何两个图像的内容之间的差异性；代表性分数计算器，被配置为基于所述多样性数据来计算每个图像的代表性分数，用于表示该图像的内容相对于该集合中的所有图像的内容的代表性；以及代表性图像选择器，被配置为基于所述代表性分数，选择代表该集合中的所有图像的内容的一个或多个图像。此外，所述系统还可包括视觉特征提取器，被配置为从该集合中的每个图像提取该图像的视觉特征；以及显著性数据获取器，被配置为基于每个图像的所述视觉特征，获取该图像的显著性数据，用于表示该图像的内容在该集合中的普遍性；其中，所述代表性分数还基于所述显著性数据。此外，在所述系统中，所述代表性图像选择器可包括排序器，被配置为基于每个图像的代表性分数，对集合中的所有图像的代表性分数进行排序；以及选择器，被配置为基于所述排序的结果，选择代表该集合中的所有图像的内容的一个或多个图像。此外，在所述系统中，所述文本特征提取器可包括文本关键词库创建器，被配置为基于该集合中的所有图像的元数据信息和/或由用户输入的标记信息，创建该集合的文本关键词库；文本特征空间创建器，被配置为从该集合的文本关键词库中选择一个或多个文本关键词，创建文本特征空间，其中所述文本特征空间的维度等于所选择的文本关键词的数量；以及文本特征形成器，被配置为基于所述每个图像的元数据信息和/或由用户输入的标记信息，通过所述文本特征空间形成每个图像的文本特征。此外，在所述系统中，所述文本特征空间创建器可包括统计器，被配置为统计该集合的文本关键词库中的每个文本关键词的出现频率；以及文本关键词选择器，被配置为选择其出现频率处于预定范围内的文本关键词，以创建所述文本特征空间。根据本发明实施例，能够基于每个图像的元数据信息和/或由用户输入的标记信息，从包括多个图像的集合中的每个图像提取该图像的文本特征，基于文本特征获取该集合的多样性数据，从而得到每个图像的代表性分数，并基于每个图像的代表性分数选择集合的代表性图像。因此，能够以有效的方式自动寻找图像集合中的代表性图像。此外，根据本发明实施例，除上述多样性数据外，还能够从该集合中的每个图像提取该图像的视觉特征，基于每个图像的所述视觉特征，获取该图像的显著性数据，基于多样性数据和显著性数据两者，得到每个图像的代表性分数，并基于每个图像的代表性分数选择集合的代表性图像。因此，能够综合考虑多样性和显著性两方面，以更有效的方式得到更充分代表图像集合内容的代表性图像。

图1是示出根据本发明一实施例的代表性图像寻找系统100的示例性配置的框图；图2是示出根据本发明另一实施例的代表性图像寻找系统200的示例性配置的框图；图3是更详细示出根据本发明实施例的代表性图像寻找系统200的示例性配置的框图；图4是示意性示出根据本发明一实施例的代表性图像寻找方法的流程图。图5是示意性示出根据本发明另一实施例的代表性图像寻找方法的流程图。图6是更详细示出在根据本发明实施例的代表性图像寻找方法中的文本特征提取步骤的过程的流程图。图7是通过示例性的两组图像(A)和(B)表现多样性的含义的图。图8是通过示例性的图像表现显著性的含义的图。图9是示意性示出图像的文本特征空间的图。
具体实施例方式以下将参考附图详细描述本发明的实施例。图1是示出根据本发明第一实施例的代表性图像寻找系统100的示例性配置的框图。如图1所示，根据本发明第一实施例的代表性图像寻找系统100包括文本特征提取器 101、多样性数据获取器102、代表性分数计算器103和代表性图像选择器104。在根据本发明第一实施例的代表性图像寻找系统100中，文本特征提取器101基于每个图像的元数据信息和/或由用户输入的标记信息，从包括多个图像的集合中的每个图像提取该图像的文本特征。所述元数据信息包括与图像自身的属性相关的信息。例如，在所述图像为照片的情况下，所述元数据信息包括拍摄时间、拍摄地点、相机参数等。所述标记信息包括由用户定义的与图像相关的信息，例如图像标题、图像说明等。稍后将参考图 3更详细地描述文本特征提取器的配置和操作。多样性数据获取器102基于每个图像的所述文本特征，获取该集合的多样性数据。所述多样性数据用于表示该集合中的任何两个图像的内容之间的差异性，其反映了图像集合的多元化程度。图7是通过示例性的两组图像(A)和(B)直观地表现多样性的含义的图。在图7 中，存在示例性的两组图像㈧和(B)，其中㈧组图像中包含了很多同质的图像，因此其多样性较低；而(B)组图像中包括了表现不同位置、不同视图的图像，因此其多样性较高。由此可知，多样性数据的确定有助于代表性图像的确定。例如，在电子相册的情况下，如果两张照片具有非常接近的拍摄时间，意味着它们趋于具有相似的视觉表现，从而不应将它们同时选为代表性图像。又例如，用户为放入同一文件夹的照片命名特殊的名称，如 “年会”，则这些照片很可能记录相同事件，因此不应将它们同时选为代表性图像。
具体地，多样性数据获取器102可基于每个图像的所述文本特征，如下获取矩阵形式的多样性数据(以下适当时称为多样性矩阵)假设图像集合X= IxiIi = O,…，M-1}中存在M张图像，其中Xi表示第i个图像。对应地，第i个图像的文本特征矢量表示为、=[tn，ti2，…，tiK]T，其中K表示稍后将详细描述的文本特征空间的维度。该图像集合的多样性矩阵可表示为D= [du](MXM)，其中每个元素Clij表示第i个图像和第j个图像之间的差异性。作为非限制性实施例，可基于稍后将详细描述的文本特征空间中的每两个图像之间的距离，获取多样性矩阵D中的每个元素Clij。作为一个示例，基于欧几里得距离，通过如下等式(1)获取多样性矩阵D中的每个元素Clij
权利要求
1.一种用于寻找图像集合中的代表性图像的方法，包括基于每个图像的元数据信息和/或由用户输入的标记信息，从包括多个图像的集合中的每个图像提取该图像的文本特征；基于每个图像的所述文本特征，获取该集合的多样性数据，用于表示该集合中的任何两个图像的内容之间的差异性；基于所述多样性数据来计算每个图像的代表性分数，用于表示该图像的内容相对于该集合中的所有图像的内容的代表性；以及基于所述代表性分数，选择代表该集合中的所有图像的内容的一个或多个图像。
2.如权利要求1所述的方法，还包括从该集合中的每个图像提取该图像的视觉特征；以及基于每个图像的所述视觉特征，获取该图像的显著性数据，用于表示该图像的内容在该集合中的普遍性；其中，所述代表性分数还基于所述显著性数据。
3.如权利要求1或2所述的方法，其中，所述选择代表该集合中的所有图像的内容的一个或多个图像包括基于每个图像的代表性分数，对集合中的所有图像的代表性分数进行排序；以及基于所述排序的结果，选择代表该集合中的所有图像的内容的一个或多个图像。
4.如权利要求1所述的方法，其中所述提取每个图像的文本特征包括基于该集合中的所有图像的元数据信息和/或由用户输入的标记信息，创建该集合的文本关键词库；从该集合的文本关键词库中选择一个或多个文本关键词，创建文本特征空间，其中所述文本特征空间的维度等于所选择的文本关键词的数量；以及基于所述每个图像的元数据信息和/或由用户输入的标记信息，通过所述文本特征空间形成每个图像的文本特征。
5.如权利要求4所述的方法，其中，创建所述文本特征空间包括统计该集合的文本关键词库中的每个文本关键词的出现频率；以及选择其出现频率处于预定范围内的文本关键词，以创建所述文本特征空间。
6.一种用于寻找图像集合中的代表性图像的系统，包括文本特征提取器，被配置为基于每个图像的元数据信息和/或由用户输入的标记信息，从包括多个图像的集合中的每个图像提取该图像的文本特征；多样性数据获取器，被配置为基于每个图像的所述文本特征，获取该集合的多样性数据，用于表示该集合中的任何两个图像的内容之间的差异性；代表性分数计算器，被配置为基于所述多样性数据来计算每个图像的代表性分数，用于表示该图像的内容相对于该集合中的所有图像的内容的代表性；以及代表性图像选择器，被配置为基于所述代表性分数，选择代表该集合中的所有图像的内容的一个或多个图像。
7.如权利要求6所述的系统，还包括视觉特征提取器，被配置为从该集合中的每个图像提取该图像的视觉特征；以及显著性数据获取器，被配置为基于每个图像的所述视觉特征，获取该图像的显著性数据，用于表示该图像的内容在该集合中的普遍性；其中，所述代表性分数还基于所述显著性数据。
8.如权利要求6或7所述的系统，其中，所述代表性图像选择器包括排序器，被配置为基于每个图像的代表性分数，对集合中的所有图像的代表性分数进行排序；以及选择器，被配置为基于所述排序的结果，选择代表该集合中的所有图像的内容的一个或多个图像。
9.如权利要求6所述的系统，其中所述文本特征提取器包括文本关键词库创建器，被配置为基于该集合中的所有图像的元数据信息和/或由用户输入的标记信息，创建该集合的文本关键词库；文本特征空间创建器，被配置为从该集合的文本关键词库中选择一个或多个文本关键词，创建文本特征空间，其中所述文本特征空间的维度等于所选择的文本关键词的数量；以及文本特征形成器，被配置为基于所述每个图像的元数据信息和/或由用户输入的标记信息，通过所述文本特征空间形成每个图像的文本特征。
10.如权利要求9所述的系统，其中，所述文本特征空间创建器包括统计器，被配置为统计该集合的文本关键词库中的每个文本关键词的出现频率；以及文本关键词选择器，被配置为选择其出现频率处于预定范围内的文本关键词，以创建所述文本特征空间。
全文摘要
本发明提供了一种用于寻找图像集合中的代表性图像的方法和系统，该方法包括基于每个图像的元数据信息和/或由用户输入的标记信息，提取每个图像的文本特征；基于每个图像的文本特征，获取该集合的多样性数据；基于多样性数据来计算每个图像的代表性分数；以及基于代表性分数，选择该集合的代表性图像。此外，该方法还可提取每个图像的视觉特征，基于每个图像的视觉特征，获取该图像的显著性数据，并基于多样性数据和显著性数据两者，计算每个图像的代表性分数，从而选择该集合的代表性图像。通过本发明，能够以有效的方式自动寻找图像集合中的代表性图像。
文档编号G06F17/30GK102193934SQ20101012200
公开日2011年9月21日申请日期2010年3月11日优先权日2010年3月11日
发明者刘媛, 徐盈辉, 朱才志, 李滔, 王刚申请人:株式会社理光

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘媛;王刚;李滔;徐盈辉;朱才志
技术所有人：株式会社理光
我是此专利的发明人

上一篇：用于识别激光点的设备、方法和系统的制作方法
上一篇：表格模板定义方法和装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。