表示图像组的方法和装置的制作方法

文档序号：6574371阅读：112来源：国知局

专利名称：表示图像组的方法和装置的制作方法
技术领域：
本发明涉及一种表示图像组尤其是用色彩表示图像组，和用于搜索及恢复图像的方法和装置。
背景技术：
有各种已知的使用可视特征例如图像中呈现的色彩来表示图像的技术。例如，在一项已知的技术中，每个像素被指定一个颜色值，并且通过为多个颜色值范围设置框(bin)和对图像中的像素数进行计数可得到颜色直方图，所述像素在每个范围中具有一个颜色值。然后颜色直方图可用于表示图像。在另一项已知的技术中，图像中的一个或多个主色被识别，并且该主色被用于表示图像。
本发明特别关心的是图像组。例如，图像组可以是视频图像(帧或画面)序列，或者是图像以某种方式与之关联的任何源的任何图像组。例如，图像组可以是影像中的单一场景或连续镜头。现有技术中已知的这样一个图像组的术语为GroupOfFrames/GroupOfPictures(帧组/图像组)。下面该术语将被称作GoFGoP。在本说明中，术语图像将被用于说明组中的帧/画面，而不管其是否是视频帧或镜头还是静态画面。此外，术语图像和图像区域是可互换的，除非从上下文是显而易见的。
用于表示图像组的一个方法是从图像组中选择一单个图像，并且将该单个图像作为整个图像组的表示。然后使用表示单个图像的已知技术来表示该单个图像。例如，该单个图像可以是图像序列中出现的最先或最后的图像，或者根据感兴趣的可视特征对图像组进行分析以识别所述组中的图像，该图像特别的在某些方面代表所述图像组。
另一个方法为集结图像组。现有的MPEG-7 Visual Standard(可视标准)(ISO/IEC 15938-3)允许使用GoFGoP色彩描述符对视频段或图像组中的色彩进行描述。例如，这在Manjunath、Salembier和Sikora编写的书Introduction to MPEG-7 Multimedia content descriptioninterface(ISBN 0-471-48678-7)的部分13.5中有详细的介绍。其中介绍了三种聚集图像组的技术均值、中值和交集。
在每一个技术中，色彩直方图被得到用于组中的每个图像，如上所述。在求均值技术中，色彩直方图被累积，然后每个累积的框(bin)值被N除以产生一平均直方图，其中N为所述组中图像的数量。在中间值技术中，对于每个框值，图像组的直方图值以升序或降序排列，并且为各个框指定中间值。对于每个框，通过采用图像组直方图中的最小直方图值而获得交集直方图。换句话说，交集直方图表示所有图像中出现的特定颜色或颜色范围(相当于一个框)的像素的数量。
那么，在每种情况下，使用一可升级的颜色描述符(见上述书中的部分13.4)来表示聚集直方图(均值、中值和交集)，其是将基于哈尔变换的编码方案应用于颜色直方图的值。
Tong Lin和Hong-Jiang Zhang的论文“通过连续画面编组进行自动视频场景提取”涉及将连续的画面编组成场景。对形成连续镜头的一组帧进行分析以确定每个帧中的主色对象，然后确定持续整个帧组的主色对象。这对于一个连续镜头将产生一个主色直方图。对不同连续镜头的主色直方图进行比较。如果两个连续镜头之间的相关性是高的，则所述连续镜头被编组成一个场景。

发明内容
本发明的各个方面在后附的权利要求中阐明。

将参照附图对本发明的实施例进行说明，其中图1为根据本发明的实施例的系统的方框图；图2a、2b和图3至5为说明根据本发明的实施例的合并图像描述符的方法的坐标图；图6表示合并图像以形成一超级图像。
具体实施例方式
根据本发明一实施例的系统在图1中示出。该系统包括一控制单元12，例如用于控制系统操作的计算机，该控制单元12至少包括一存储器和一处理器，所述系统还包括一连接到控制单元12的显示单元14，例如监视器，用于显示包括图像和文本的输出，和一指示(pointing)设备16，例如鼠标，用于给控制单元12输入指令。该系统还包括一存储数字形式的多个图像组的图像数据库18和存储描述符信息的描述符数据库，将在下面更加详细的说明，所述描述符信息用于存储在图像数据库8中的每组图像。在该例子中，每组图像对应于视频序列中的一连续镜头。有各种已知的技术用于将视频序列分割成连续镜头，这里将不对其进行详细说明。本发明能够应用于任何图像组，或图像区域，包括图像中的区域。图像能够以组的形式存储，或者，例如，可以有一个识别符指示哪些图像属于相同的组。
图像数据库18和描述符数据库20的每一个都被连接到控制单元12。该系统还包括一个搜索引擎22，它是一个在控制单元12控制下的计算机程序，并且运行在描述符数据库20上。
在本实施例中，该系统的元件提供在单一位置上，例如图像库，其中该系统的部件被永久连接。
描述符数据库20存储储存在图像数据库中的所有图像的描述符和额外的该图像数据库中的所有图像组的描述符。该图像和图像组描述符如下所述的得到。
每个图像具有一个与之相关的图像描述符，其根据图像中的主颜色表示各个图像。在本实施例中，图像描述符基本上如在我们同时未决的申请WO 00/67203中所述的获得，其内容通过参考而被并入本文。
获得图像描述符的简短概述如下。每个图像具有多个像素，并且每个像素在有关的颜色空间中具有一个与之相关的颜色值，例如RGB。
颜色值和相应的像素在颜色域中被集结成群以便确定主色和哪些颜色对应于各个主色。这可使用合适的群集算法来实现，例如广义劳埃德算法，如在上述的MPEG-7书中的部分13.3.1中所述的。
从该聚类过程得到的簇矩心被用作主色值，并且用于形成各个簇的像素组被存储用于计算另外的域(权值和颜色方差)，如下所述。
可选择的，可使用直方图方法获得主色，如在WO 00/67203中所述。
在那种情况下，通过在有关的颜色空间中选择预定数量的颜色值或颜色值的范围而获得图像的颜色直方图，并且图像中的具有每个颜色值或具有有关范围中的一个值的像素数被计数。
通常，直方图将具有一个或多个峰值，并且各个峰值(或者其子集，例如预定数量的最高峰值)被选作为主色，同时颜色值/像素在颜色域中关于主色被聚类。
一旦颜色值已经被聚类，则对于每个主色就确定了颜色方差值，表示对于每个主色各个簇的颜色值以主色为中心变化。主色可被看作是有关簇中颜色分布的平均值。
可使用下式表示方差的计算CVj=1NΣk=0N-1(mj-Pkj)2]]>其中j指明颜色分量，mj为主色的第j个分量，pkj为第k个像素值的第j个分量，且总和超过了与所考虑的主色相应的N个像素。
所述描述符也包括一个对于每个主色的加权值，其是图像中每个主色的相关有效值的量度。在该例子中，加权值为对应于主色值的簇中的像素数与图像中的像素的总数的比。加权值可以表示为百分数。
主色值和它们的各个方差和加权值被结合以形成图像的颜色描述符。描述符也可以具有其它的分量，例如次数n，表示主色的数量。描述符也可以包括协方差值Cij，其中对于每个主色和簇，以及方差值，i和j代表有关颜色空间中的颜色分量。
每个图像的颜色描述符被存储在描述符数据库中。
着重注意主色描述符与图像的直方图表示不同。主色描述符包括图像中的主色的值，其在早先的处理步骤中已经被确定。图像的直方图表示包括主色，但是没有识别主色。主色描述符也可以包括其它值，例如对应于关于该主色或每个主色的颜色分布的方差，但直方图表示不涉及计算或确定该方差或其它值。例如，主色描述符的其它分量可以包括表示图像中的主色的影响的加权值、图像中的主色数和对应于图像中的主色的像素的空间同质性。
根据一第一实施例，一组图像组的描述符如下获得。
图像组中的每个图像的图像描述符从描述符数据库中被恢复。然后图像描述符被结合以形成一个组描述符。
组描述符具有类似于图像描述符(主色、方差、加权值等)的格式。优选的，组描述符中的主色数在1和8之间。然而，主色数可以不受限制或者可以设置一个预定最大值。图像描述符中的主色数也可以不受限制或者可以通过一预定的最大值进行限制。图像描述符的最大值和组描述符的最大值可以不必相同，使得，例如，图像描述符具有比组描述符多的主色。
在该例子中，在一组中有两个图像，并且两个各自的图像描述符被如下合并。
概括的，图像描述符基于颜色空间中的簇的接近度通过合并图像中的簇而被结合。
图2a和2b为两个图像的颜色空间中的簇的抽象表示。图2a表示第一图像，而图2b表示第二图像。在每种情况下，圆圈表示各自主色的一个簇。为了简化的目的，颜色空间以二维形式示出，虽然颜色空间通常处于三维中。此外，簇不必对应于颜色空间中的圆圈，但为了简化的目的而被这样示出，而且圆圈并未给出簇的加权值的任何指示。下面，诸如在图2a和2b中所示的表示(也就是，根据主色和各个簇的表示)将被描述为簇描述符。
图2a和2b的两个簇描述符被结合以形成簇超级描述符。这在图3中示出。
接着，使用颜色空间中的适当的距离测量，超级描述符中的每对簇(如上所定义的)之间的距离被确定。在该例子中，所述距离为颜色空间中的欧几里得距离。
在该例子中，在第一图像中有两个主色和两个簇，而在第二图像中具有三个主色和三个簇，分别从1到5编号。每个主色对应于RGB颜色空间中的一个点，由图2到5中的叉表示。一对簇之间的距离为3-D RGB空间中的簇矩心之间的距离。第一和第二图像中的每对主色之间的距离被计算，在本例子中包括来自相同图像的簇。选择给出最小距离测量的主色对。
下面，对应于该两个主色的簇被合并。
在该例子中，如图3所示，两个最靠近的簇为簇1和3，并且它们被如下合并。
合并簇的主要的或有代表性的颜色值为两个簇的主色的加权均值，其中加权值被如上定义。因此，对于两个主色m1、m2和各自的加权值W1、W2，所述合并的主色m具有值m＝w1m1+w2m2其中w1、w2分别为有关的加权值，W1/W1+W2和W2/W1+W2。
使用合并起来的两个簇的方差，合并的簇的方差也被计算。在该例子中，每个颜色分量被独立的处理，并且假定合并的簇的方差为两个高斯分布的加权和。这将产生下面的合并簇的方差的公式σ2=w1σ12+w2σ22+(m1+m2)2]]>其中σ12、σ22为分簇的方差，m1、m2为它们的平均数，而w1、w2为有关的加权值，如上所定义的。
合并簇的加权值W为W1+W2。
合并簇被看作是新簇，具有如上所述的加权值、平均值和方差。
这表示在图4中，其中簇1和3被合并以形成一新簇6。
接着进行所述合并步骤的另一次迭代。在第一次迭代中合并的两个簇1和3被排除在进一步的考虑之外，并且由合并的簇6代替，如图4所示。
然后通过在颜色空间中识别包括合并簇6的最近的簇对并合并它们，合并步骤被重复，如上面略述的。
在本例子中，在第二次迭代中，簇2和4为最近的簇对。它们被合并以产生一新的簇7，其具有主色、加权值和方差，它们如由上述的图2和4的主色、加权值和方差获得。合并的簇7代替簇2和4，如图5所示。
合并迭代被重复直到预定条件被满足。例如，预定条件可以是合并被继续直到留下预定数量的和簇(合并的簇的和，在第一和第二图像中原始保留的簇)。可选择的，预定条件可以是合并被继续直到每个保留的簇对之间的距离大于一给定值。可选择的，该方法可包含预定数量的迭代。一个以上的预定条件可被结合。
在目前情况下，合并被重复直到留下预定数量(三个)的簇。
在上面的例子中，合并的簇在进一步的迭代中被考虑。然而，也可将它们排除在进一步的迭代之外。此外，在上面的例子中，在第一和/或任何随后的迭代中，簇可与相同的图像中的其它簇合并，但是可选择的，簇可以仅与出现在另外的图像中的簇合并。这减小了距离测量的数目。
虽然根据簇进行了说明，但应该理解合并对描述符中的值起作用，也就是主色、方差和加权值，并且不需要分析簇本身。
一旦完成了迭代，留下的簇就用于形成组描述符。尤其是，对于每个最后的簇，存在一个有代表性的或主要的颜色、各自的方差和各自的加权值。它们连同表示最后簇数的次数m一起被结合以形成组描述符。组描述符也可以包括其它因数，例如颜色空间的指数，或表示中使用的颜色量化。该组描述符为GoFGoP主色描述符。
在上面的例子中，在图象组中只有两个图像。然而，该方法也可以应用于包含多于两个图像的组。组中的每个图像的簇描述符可都被结合，以形成一个超级描述符，如上所述。可选择的，图像组可被结合成子图像组，例如两个或三个组，在序列中或不在序列中，然后子组的描述符以相似的方式结合。
当组中的图像的数目巨大时，上面的方法潜在的涉及巨大数量的簇，并且涉及巨大数量的簇之间的距离的计算。
考虑到上述，上述方法的方差考虑了这样的事实视频连续镜头或视频集中的多数图像将是非常相似的并且相应的描述符将是类似的。这意味着多数簇在每帧的基础上能被合并而没有精度的重大损失。
更详细的说，方差考虑的是序列中一组图像的图像。如在上述的例子中，图像描述符已经被导出并且存储在描述符数据库中。一组图像中的第一和第二图像的簇描述符被恢复。接着，图像对中的每个簇之间的距离被确定。如果任何簇对之间的距离小于预定的阈值，则簇对被合并。图像对中的合并的簇和任何剩下的簇被集中成一个超级描述符，如在上面的例子中所述的。然后通过合并靠近的簇并形成一个新的超级描述符，下一个图像的簇描述符被恢复并以相同的方式与前两个图像的超级描述符合并。当所有图像的簇描述符都已经被考虑了时，使用所有剩下的簇合并结果得到的超级描述符，如在第一个例子中所述。
在上面的说明中，簇描述符已经被导出。可选择的，图像可被恢复或提供，并且在进行簇合并之前就能从图像导出描述符。
在上述的第一实施例中，通过集结组中的每个图像的描述符而导出GoFGoP描述符。
在第二实施例中，图像在图像或像素域中被集结，然后从集结的图像导出主色描述符以产生GoFGoP主色描述符。因此，如果在组中有N个图像8，每个图像包含m×m个像素，则超级图像9可被看作是(N×m)×m的像素阵列，如图6所示。
与第一实施例形成对比，第二实施例不使用每幅图像的图像描述符，而是直接对图像起作用。
在图象已经被集结之后，使用上述的与第一实施例有关的技术，从超级图像导出主色描述符。
第二实施例的优点为在提取处理中没有精度损失。然而，在考虑所有图像时，就需要大量的复杂性，尤其是需要大量的存储器。为了克服复杂性的问题，在时间和/或空间上可对图像进行二次取样。
上面，图像在图像或像素域中被集结，然后从集结的图像导出主色描述符以产生GoFGoP主色描述符。可选择的，每个图像在颜色域中被集结(例如，以每个图像的直方图的形式)并且从集结的直方图导出主色描述符。例如，可从存储器中导出或恢复每个图像的颜色直方图。接着，通过将它们加起来而结合颜色直方图以形成一超级图像直方图，其可通过形成超级图像的图像数标准化。最后，使用上述的与第一实施例有关的技术从超级图像直方图导出主色描述符。换句话说，超级图像直方图的峰值(主色)以及各自的方差和加权值被选择。
可使用在导出主色描述符之前集结图像的其它技术。例如，不是将每幅图像的直方图加起来，而是计算图像组的均值、中值或交集。然后从得到的均值、中值或交集直方图导出主色组描述符。
在第二实施例的方差中，其在图像/像素域和颜色/直方图域中用于集结，图像组在时间上被二次取样，如下所述。在该例子中，每幅图像的簇描述符被导出或恢复。基于簇描述符的相似性决定使用哪一幅图像来导出GoFGoP描述符。
来自图像组的序列中的第一图像形成初始超级图像。下列图像被放弃直到一图像和加到超级图像(最初为第一图像)的最后的图像的簇描述符之间的相似性满足预定的决定条件。如果一个图像满足该条件，则它就被加到超级图像。然后将组中的下列图像与加到超级图像的最后图像进行比较直到预定的条件被再次满足，或者直到组中的所有图像都已经被考虑，等等。然后从得到的超级图像导出主色描述符。
图像相似性的一个可能决定判据为各个主色描述符之间的匹配函数的值，例如在我们共同的未决申请WO 00/67203中所述的，或者使用如在上述的MPEG-7书中所述的匹配函数。另外的判据可以是上面所述的“即时”合并的结果。如果所有簇都已经被并入现有的描述符，则在这种情况下的“决定判据”将被满足。避免提取所有图像的主色的另外一种方法是计算一个粗略颜色直方图并使用该直方图匹配函数值作为判据。
所有这些判据都需要指定另外的参数在第一种情况下低于它匹配函数值被认为是小的的阈值，以及在第二种情况下的合并阈值。一个可选择的方法是适应该阈值以便收集的图像数不会超过一个规定的界限，该方法特别适用于有限存储器的情况。
第三实施例从图像组的主色描述符组导出GoFGoP主色描述符。更加特别的，对于一组图像，从描述符数据库检索各个主色描述符(或者如果他们还未导出，则导出它们)。
对于每个主色描述符，所述描述符和该组中的剩余描述符中的每个之间的距离被测量。对于每个描述符这将产生一组距离测量结果，所述距离测量结果可被加起来以为每个描述符给出一个总的距离测量结果。具有最小总的距离测量结果的描述符被选作为代表描述符，并被看作是GoFGoP主色描述符。
选择有代表性的描述符的其他方法可被使用，优选的包含测试或比较，其至少涉及该组的图像的一些图像描述符。作为另外的例子，如果被实现用于整个描述符，则这可基于如在MPEG-7中定义的失真测量完成。
能够预先丢弃非常近的描述符以减少计算。
上面阐明了用于导出GoFGoP描述符，尤其是GoFGoP主色描述符的各种方法。
对于GoFGoP描述符有各种应用，例如用于搜索和恢复图像组。例如，用户希望搜索与输入图像或图像组对应的图像组。
下面概略的说明了一种搜索方法。
参照图1，通过用户使用一适当的装置，例如扫描仪或数字相机，或者通过从计算机显示的图像范围中选择一个询问图像，或者通过选择任何这种图像的一个区域而输入了一个询问图像。该图像的主色描述符被导出，如上所述。然后将询问主色描述符与存储在描述符数据库中的每个GoFGoP主色描述符进行比较。GoFGoP主色描述符与单图像主色描述符的格式相同，于是进行匹配，例如，使用如在WO 00/67203或类似物中的匹配函数，或者如在上述的MPEG-7书的部分13.3.2中所述的匹配函数。询问描述符也可以选择的与存储在所述数据库中的单图像描述符进行比较。
匹配函数的结果被整理，并且匹配函数为其指示最接近的匹配的图像组被恢复。最接近的匹配的一个或多个图像被显示。
可使用提出询问的其他方法。可通过选择一组图像并为该组提取如上所述的GoFGoP描述符来提出询问。例如，通过选择一个帧范围或隐含性，例如通过在一视频中选择一关键帧，则可明确选择该组，然后使用合适的算法导出包括该关键帧的一“连续镜头”。
例如，根据本发明的系统可提供在一图像库中。可选择的，数据库可远离系统的控制单元定位，可通过临时的线路例如电话线或通过网络例如互联网而被连接到控制单元。例如，图像和描述符数据库可提供在永久储存器中或便携式数据存储介质上，例如CD-ROM或DVD。
如上面根据本发明第一实施例所述的系统为计算机系统的形式。计算机可以是标准计算机，使用适当的程序已经对所述计算机进行了编程以用于执行根据本发明实施例的方法。所述程序可存储在任何适当的存储介质上，包括固定的或永久的储存器或可移动存储装置。使用特定的硬件和/或软件，包括，例如特定芯片可对该系统进行修改。在特定适合的装置中也可实现本发明，所述装置包括特定的硬件和/或软件。
在上面的说明中，已经根据红、绿和蓝颜色分量对颜色表示进行了说明。当然，可使用其它表示，例如使用色调、饱和度和亮度表示或者YUV坐标系，或者在任何其它颜色空间中的颜色分量的子集，例如在HIS中仅使用色调和饱和度。
如上所述的本发明的实施例使用了为图像和图像组导出的描述符。然而，图像描述符可以用于图像的区域，并且相似的GoFGoP描述符可基于图像的区域产生。区域可以是矩形框，或者可以使用不同形状和尺寸的区域。可选择的，可为对应于目标的图像的区域导出描述符，例如汽车、房子或人。在其中任何一种情况下，可为所有图像或其一部分导出描述符。此外，通过将上面的方法应用于形成一组图像区域的图像中的多个区域可为单一图像导出GoFGoP描述符。
在检索过程中，用户例如使用指示设备通过绕其旋转来描述图像的一个区，而不是输入单一颜色查询或选择一个图像块，于是控制单元为该区域导出一个描述符并使用它以上述相似的方式进行检索。此外，不是利用已经存储在图像数据库中的图像来引发检索，而是使用例如图像扫描仪或数字相机来将图像输入到系统中。在了在这样的情形下进行检索，该系统又会首先自动的或者通过用户确定来为该图像或图像的区域导出描述符。
可以使用硬件或软件来实现本发明的适当方面。
在上述实施例中，使用高斯函数来对每一种代表颜色的簇分布进行近似，并且这些函数的平均值、方差和协方差被用于描述符值。然而，可使用其它函数或参数来对分量分布进行近似，例如，使用类似正弦和余弦的基函数，描述符是基于这些函数的。
权利要求
1.一种表示图像组(8)的方法，该方法包括为该图像组确定一个或多个主色值(1-5)和根据所述主色值中的一个或多个导出一个表现该图像组的主色表示，其中至少该图像组中的一些图像是由各自的根据该图像的一个或多个主色值的主色表示所代表，并且其中每个主色表示具有一个或多个包括至少一个主色值的分量，该方法还包括结合多个所述主色表示或选择一个主色表示作为该组的代表，其特征在于在颜色空间中基于主色的接近度结合所述表示中的一个或多个分量。
2.如权利要求1所述的方法，其中每个主色表示具有一个或多个包括可选地用于每个主色值的分量，表明图像关于主色值的颜色分布方差的方差，表明图像中主色的影响的加权值，图像中主色的数量，和对应于图像中的主色的像素的空间同质性。
3.如前述任何一个权利要求所述的方法，包括在时间或空间上对所述图像组(8)进行二次取样。
4.如权利要求3所述的方法，其中根据它们与所述组中的其它图像的相似性而省略或包括图像。
5.如权利要求3或权利要求4所述的方法，其中所述二次取样包括权利要求1所述的步骤。
6.一种表示图像组(8)的装置，该装置包括为该图像组确定一个或多个主色值(1-5)和根据所述主色值中的一个或多个导出一个表现该图像组的主色表示的装置，其中至少该图像组中的一些图像是由各自的根据该图像的一个或多个主色值的主色表示所代表，并且其中每个主色表示具有一个或多个包括至少一个主色值的分量；以及结合装置，用于结合多个所述主色表示或选择一个主色表示作为该组的代表，并且在颜色空间中基于主色的接近度结合所述表示中的一个或多个分量。
7.如权利要求6所述的装置，包括用于存储图像数据和/或描述符数据的存储装置，处理装置，和包括用于执行权利要求1到5的任何一个所述的方法的指令的控制装置。
全文摘要
一种表示图像组的方法包括为该图像组确定一个或多个主色值和根据所述主色值中的一个或多个导出一个表现该图像组的主色表示。
文档编号G06K9/46GK101038592SQ20071008527
公开日2007年9月19日申请日期2004年7月5日优先权日2003年7月4日
发明者L·西普林斯基申请人:三菱电机株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｌ.西普林斯基
技术所有人：三菱电机株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。