图像处理的制作方法

文档序号：6569532阅读：234来源：国知局

专利名称：图像处理的制作方法
技术领域：
本发明涉及图像处理。
背景技术：
目前已经开发出了用于对文本信息项或者至少对具有一些文本内
容的项目(item)进行索引和搜索的技术。作为此类技术的一个例子来讲，可以由文本项(例如，字分布)生成特征数据，并且可以以特;f正数据的比较为基础实施项目之间的比较。
但是，就图像项而言，只有少数几种有用的技术。一种简单的技术是使某些文本与图像相关。该技术的简单情况可以是标题，或者该技术可以涉及更为详细的"元数据"，例如，说明书的段落、图像中的项目或人的清单、图像的俘获时间、其俘获所涉及的项目的清单等。之后，可以采用基于文本的搜索技术识别类似的图像。当然，提供精确、有用的元数据既耗费时间，又代价昂贵。
其他技术基于图像自身建立特征数据。这些特征数据可以包括颜色特性、紋理特性等。但是，这仍然是有限的，因为对于观察者而言表现相同事物的两幅图像可能具有迥然不同的图像特性。例如，某一个具体的人的一对图像可能因背景不同而具有迥异的图像特性。

发明内容
本发明提供了一种图像处理方法，其包括的步骤有划分处于测试当中的图^象，以形成多个图部分，每一部分表示一组
具有类似图像特性的像素，至少某些部分是相连的；从包括一个或多个图像部分的子集导出特征数据；将来自所述图像部分的子集的特征数据与指示相应的参考图像部
分的特征数据进行比较，以检测处于测试当中的图像部分与参考图像部
分之间的相似度。
本发明首先将图像划分成具有相似的图像特性的部分(区域等)，
之后从各个部分建立特征数据，以实现与其他参考部分的比较，由此解决了上述问题，其中，(例如)所述参考部分是该图像或其他图像中的部分，乃至是对图像部分给出一般表示的人为创建的部分。由此能够降低由与当前比较无关的图像部分导致的变化度。
就本发明的另一方面而言，还提供了一种图像处理方法，其包括的
步骤有
划分处于测试当中的图像，以形成多个图部分，每一部分表示一组
具有类似图像特性的像素，至少某些部分是相连的，所述划分步骤包括
(i) 从处于测试当中的图像的像素导出图像特性数据；
(ii) 根据其相应的图像特性数据将像素汇集成图像部分。本发明的其他方面的子特征同样适用于这一方面。在权利要求中进一步限定了本发明的各个方面和特征。

现在将参考附图，仅通过举例的方式描述本发明的实施例，在附图
中
图1示意性地示出了一种图像处理系统；图2a和2b示意性地示出了将图像划分成多个图像部分；图3是示出了图像划分过程的示意性流程图；图4示意性地示出了带有黑边界的图像；图5示意性地示出了图像内的搜索区域；图6示意性地示出了在图像内生成簇的早期阶段；图7示意性地示出了主要部分过滤处理；图8是示出了特征矢量的生成的示意性流程图；图9示意性地示出了量化的RGB空间；图IO示意性地示出了量化边界；图11示意性地示出了特征直方图的生成；图12示意性地示出了随机映射处理；图13示意性地示出了加权颜色量化处理；图14示意性地示出了加权马尔可夫模型的生成；图15示意性地示出了作为视频获取和/或处理设备的例子的便携式摄像机；
图16示意性地示出了作为便携式数据处理设备的个人数字助理；图17示意性地示出了基于网络的购物方案；
图18示意性地示出了用户选择显示；以及
图19示出了图17的设备的操作的示意性流程图。
具体实施例方式
图1是基于通用计算机10的图像处理系统的示意图，所述通用计算机10具有包括用于程序和数据的磁盘存储器30的处理器单元20、连接至诸如Ethernet或Internet的网络50的网络接口卡40、诸如阴极射线管或液晶显示装置的显示装置60、键盘70和诸如鼠标的用户输入装置 80。所述系统在程序控制下工作，所述程序存储在磁盘存储器30内，并且(例如)通过网络50、可拆卸》兹盘(未示出)或^兹盘存^f渚器30上的预安装提供。
一般而言，将图像处理设备设置为将图像划分为各个图像部分。之后，根据所述部分导出所谓的特征数据。这样能够实现在部分级上进行图像比较，也就是说，可以将测试图像的一个或多个部分的(由特征数据表示的)特性与该图像中，或者(在更普遍的情况下)与其他图像中的其他部分的特性进行比较，以检测出可认为与测试中的图像或者与测试中的图像的所选部分"类似"的参考图像。或者，可以将所述特征数据与人为生成的(或者有可能在多种情况下求平均得到的)参考特征数据进行比较，所迷参考数据(例如)可以给出一部蓝色车辆的一般表示，而未必给出具体的蓝色车辆的确切表示。
图2a示意性地示出了示例图像，图2b示意性地示出了由图2a的图像导出的图像部分(例如，部分75)的样本集合。一般地，图2b所示的部分由黑色边界包围，但是，其目的仅在于能够将所述部分方便地表现在纸上。所述黑色边界未必存在于(有可能未存在于)实际的经划分的图像中。
所述系统可以使特征数据与所述部分中的每者相关——例如，采用单个值表示该部分的图像(例如，颜色)特性，或者将多值特征数据统称为表示该部分的各种不同的图像特性的"特征矢量"。
所述图像处理系统可以在不同的操作模式下工作。在第一种模式中，将一组图像汇集到磁盘存储器30或者通过网络50连接的网络磁盘驱动器上，并对其进行划分，排序和索引，以供搜索操作之用。第二种模式是实际搜索，所述实际搜索涉及当前图像与经索引和排序的数据的比较。另一种操作^t式是准实时搜索或比较操作。对此而言，未必要对
图像数据进行预划分、索引和排序；相反，可以根据对此类信息的需求
而从所要比较的图像导出特征数据。
因此，应当认识到，在下述实施例中，可以"预先"扭4行诸如，划分图像和推导特征数据的操作，从而实现后续的图像或者图像部分之间的特征数据的比较。或者，可以根据需要执行所述操作。还应当认识到，可以通过一个系统生成(部分或全部)特征数据，并在另一个系统上采用所述特征数据进行比较。
通过常规的方式将图像加载到磁盘存储器30上。优选将其作为数据库结构的部分存储，其能够实现更为简单的项目检索和索引，但这不
是必须的。
还应当认识到，未必将特征数据和/或图像存储到本地磁盘驱动器 30上。可以将数据存储到经由网络50连接至系统10的远程驱动器上。或者，可以按照分布方式存储信息，例如，可以将信息存储到跨越网络的各个站点中。如果将信息存储到不同的internet站点或网络站点中，那么可以采用第二级信息存储器对任选具有相关概述的与远程信息的 "链接"(例如，URL)、摘要和与该链接相关的元数据进行本地存储。因此，除非用户选择了相关链接，否则无法访问远程保存的信息。
在另一个例子中，可以跨越诸如研究组、报纸发行商、医疗业务体系的网络化工作组存储图像和/或特征数据。一种混合的方案可能涉及一些本地存储的项目和/或一些跨越局域网存储的项目和/或一些跨越广域网存储的项目。在这种情况下，所述系统可以在对他人俘获或准备的类似图像进行定位方面发挥作用。或者，在正在准备新的电视节目的情况下，可以釆用本系统检测以前的具有类似内容的节目，由此检验其原创性。
还应当认识到，图1的系统10只是能够采用从划分后的图像导出的特征数据的可能系统中的一个例子。尽管设想采用一般为非便携式计算机(也可能是具有信号处理功能的便携式计算机)的功能相当强大的计算机执行初始(划分)阶段，但是可以在便携式设备上，例如，在"个人数字助理"(具有显示器和用户输入装置的，通常与人的一只手相匹配的数据处理装置)、笔记本电脑等便携式计算机乃至移动电话、视频编辑设备或摄像机等装置上执行后面的信息访问阶段。
一般来讲，实际上可以采用任何具有显示器的装置实施操作的信息访问阶段。在下文中，将参考图10和11说明其他合适的装置的例子。所述处理不局限于图像或部分的具体数量。
图3示出了图像划分处理的流程图。将参考图4到图7说明图3的处理步骤。
在图3中，在步骤100中，检测所要划分的图像周围是否存在黑色边界。出现这种边界的原因通常是图像俘获格式与图像存储/传输格式不匹配。例如，如果在宽屏模式中俘获图像，但是按照非宽屏^t式存储，那么如图4所示，就会在图像中插入黑色边界。这里，在前面的某处理阶段中，向图像270施加了上方和下方黑色边界280。如果在步骤100 中检测到了这样的黑色边界，那么在步骤110中，将所述边界删除。其涉及避免相关像素参与随后的处理，即图像剪切(cropping)，以便在
设置一个标志，其表示(a)已经执行了剪切，(b)已经剪切的区域的尺寸。这样允许在下文所述的步骤230中恢复所述边界。
如果画面整体上都非常黑，那么可以预先确定(例如)50像素的最大边界宽度，以避免剪切掉整幅图像。
在步骤110中去除边界之后，或者在步骤100中未检测到边界的存在之后，控制转到步骤120，在该步骤中，从处于测试当中的图1^象提取所谓的"特征，，。其执行过程如下。参考图5，在处于测试当中的图像 270，的每一像素位置290上，确定围绕所述像素位置的像素块。在图5 中，将示例块示意性地表示为块285。典型地，所述块可以是9x9像素。对于每一个这样的块而言，确定颜色特性R(红色)、G(绿色)和B (蓝色)的中值，以及Cb和Cr(色差值)。通过这种方式，使每一像素位置具有相关的由五个值(R、 G、 B、 Cb、 Cr)构成的组，但是这些值不代表像素的实际颜色特性，而是代表围绕所述像素位置的块的中值。这些针对每一像素位置的由五个颜色特性值构成的组表示在步骤 120中提取的特征。
在步骤130中，使所述特征归一化。在本实施例中执行所述操作的方式是使跨越与单个图像相关的整个像素组的R值归一化，从而使之具有平均值0，和标准偏差l。所述条件同样适用于跨越所述图像的G值，等等。
在步骤140中，开始将像素集簇到一起的处理。具体而言，步骤140 涉及对所述簇的集合的中心初始化。
在多维(R, G， B, Cb, Cr)颜色(或特征)空间内表示所述蔟，而不是(在这一阶段内)在图像空间内通过联系相邻区域来表示所述簇。因此，其目的在于将具有类似颜色特性的像素集结起来，而不是(必须) 将图像空间域内靠在一起的像素集结起来。
按照下述说明设置簇的中心。
设置由2nUmber-。f-van福es个簇，即，32个簇构成的初始组。在(R, G,
B, Cb, Cr)空间内，将这些簇的中心设置为对应于各个变量R、 G、 B、 Cb、 Cr具有最小值或最大值的位置的集合。初始的32个簇中心在颜色空间内的坐才示的例子如下
(Rmin，Gmin,Bmin,Crmin，Cbmin) (Rmax, Gmax，Bmax， Crmax, Cbmax)
由此完成了步骤140，即，簇中心的初始化。之后，控制转到步骤 150,在该步骤中，将每一像素分配给在颜色空间中与该像素最近的簇中心。采用常规数学方法计算颜色空间内的像素位置与簇中心之间的距离，所述数学方法包括片全测颜色空间内的两个位置之间的欧几里德距离。在步骤150结束时，将处于测试当中的图《象中的所有^象素都分配含会了簇中心。
在步骤160中，去除所有空的簇。因此，每次重复执行步骤150到 200时，簇的数量都倾向于减少。
在步骤170中，将彼此靠近程度(在五维颜色空间内)超过了簇合并阈值的所有簇合并到一起。
在步骤180中，重新计算簇中心。如上所述，将簇中心初始化为五个变量值在颜色空间内的极值。在步骤180中，重新计算簇中心，使之成为该簇内的所有像素(在颜色空间内)的平均位置。因而，(例如)，结合簇内的所有像素的R值形成平均R值，所述平均R值形成了该簇的簇中心的新的R坐标。
在步骤190中，针对每一簇计算被称为"簇内距离"(wcd)的变量。用于推导wcd的公式如下 Wcd二i:距离(像素，蔟中心)
相应地，wcd表示(在颜色空间内)像素与相应的蔟中心之间的位移的总和。
在步骤200中，通过执行测试检-睑所有wed值的和(总wed )自上次计算之后是否发生了变化。当然，第一次经过步骤150到200构成的环将产生第一个wcd值，因而步骤200中的测试结果将是肯定的，并且控制将返回至步骤150。因此，在新计算的总wcd值与前一重复过程中计算的对应值之间进行比较。
步骤200中的测试可以是绝对的，即，"总wcd发生了任何改变吗？"，或者可以应用阈值测试，即，"总wcd的变化小于阈值量吗？"
在适当数量的重复之后，步骤200将探测到自上次重复之后总wcd 未发生变化，并且控制转到步骤210,在步骤210中集簇操作结束。
至此，可以认为在由五个变量(R, G, B, Cb, Cr)表示的特征空间(颜色空间)内将像素集簇到了一起。现在将考虑使像素在图像空间域内集结，其目的在于形成少量的图像部分，所述图像部分各个相连，并且表示图像的类似部分，至少其颜色特性是类似的。这里，对所期望的"少" 量没有明确的定义，其完全取决于图像内容。
如果在图像域内表示一直执行到步骤210的集簇过程，从而在图像的显示版本中将同一簇内的像素集结到一起，那么结果的例子可以如图 6所示，其中，图像270"的连续像素组300来自相同的簇。注意，在图 6中，可以通过几个截然不同的图像区域表示(颜色空间内的)一个簇。
在将图6中每一带边界的区域300看作一个图像区域的情况下，在步骤220中，实施所谓的主要部分过滤，以消除细小区域。图7示意性地示出了所述主要部分过滤，其中，在中心像素310的周围存在像素阵列。像素310实际上落在由大的区域330包围的小区域320内。主要部分过滤的作用在于检查包围像素310的像素阵列，并将像素310分配给在所述像素阵列当中具有最大表示的区域。在图7的例子中，可以看出，所述操作涉及将像素310分配给区域330。所述方法同样适用于小区域 320内的其他像素，因而实际上区域320将消失。在实践当中，主要部分过滤步骤一般采用9x9像素阵列。
在步骤230中，如有必要，可以重新添加在步骤110中去除的黑色边界。
在步骤240中，执行连接部分分析，以确定每一簇内的哪些像素是相连的。连接部分分析涉及对像素进行水平和垂直扫描，以检^T(图像域内的)相邻像素是否属于相同的簇。为属于同一簇的相连像素提供相同的区域编号。为属于同一簇的不相连的像素提供单独的区域编号。在这一处理之后，至少存在与处理之前一样多的区域，通常会多出一个区域。注意，如果认为存在一些不相连的区域是可以接受的，那么可以省略这一阶段。
在步骤250中，重新设置簇的数量，使之等于当前的图像区域的数
量，其中，在簇和区域之间具有——对应关系。按照上述说明计算每一最新建立的簇的簇中心。
最后，在步骤260中，使所有留下的小区域(小于500个像素的区域)与最近的相邻区域合并。其执行过程如下。
对于小于IOO个像素的区域而言，与所对应的簇中心最接近所要合并的区域的蔟中心的相邻区域合并。对于介于100和500像素之间的区域而言，按照下属说明计算"合并代价"
合并代价=(像素的数量)1/2+与任何空间相邻区域的最小簇间距离如果合并代价小于预定阈值，那么合并所述区域。
否则不合并所述区域。
在下文中将描述这样一种系统，其中，借助所述系统，可以采用经划分的图像作为基础，利用特征矢量来比较所述图像的部分和其他图像中的图^^部分。图^^划分的其他应用包括
1. 基于区域的视频编码(例如，在低比特率上)。可以通过描述每一区域覆盖的面积以及描述其颜色和/或紋理对区域(部分)进行编码。对于移动电话、手提装置、IP上视频等采用的比特率非常低的视频编码而言，这种方法尤为有用，因为在这些应用当中，屏幕分辨率一般较低，而且将图像区域显示为单一的颜色/紋理也不会对感受到的主观质量造成太大影响。
2. 基于区域活跃性的视频编码。将图像划分成各个区域，并采用基于对象的编码方案对其进行编码。在量化过程中，平滑(低活跃性)区域的处理比带有紋理(高活跃性)区域的处理更难，因为紋理一般更易于隐藏量化噪声。
3. 图像/视频合成。将图像/视频划分成对象。其允许在不需要常规
的"蓝屏"色度键控的情况下选择所要提取或插入到其他视频/图像中的对象。
4. CCTV(闭合电路TV)分析。将CCTV图像划分成对象，从而使用户能够在自动监视过程中(例如，在人群计数、可疑行为分析、车辆跟踪、交通分析、运动探测等计算机监视操作过程中)选择所要忽略的或者所要予以特殊关注的图像的对象或区域。
5. 设备视觉观察应用，例如，对传送带上的(可能未知)的对象等计数。
6. 医疗图〗象划分和诊断，例如，细l包4企测。
7. 航空摄影分析，例如，划分成不同的均质区域，以及将所述区域划分成不同的土地应用。
至此描述的处理实现了将图像划分成相应的图像部分。现在，为了能够使所述部分相互比较，或者使所述部分与其他参考部分(或相对于一般参考部分生成的数据)进行比较，一种合适的做法是从每一部分推导特征数据(例如，所谓的"特征矢量")。现在，将说明一种从每一图像部分推导特征矢量的技术。
针对上文，下述说明可能涉及处于通过上述处理标识的部分内的像素。或者，可以将下述处理应用于整幅图像。也就是说，尽管所述处理在对图像进行划分的情况下尤为有效，但是不对图像进行划分的情况下，也可以应用所述处理。
图8是示出了特征矢量的生成的示意性流程图。为了避免对图8的本质造成混淆，所述流程图仅包括四个步骤(步骤405、415、425和435 )。在这些步骤之间，示意性地示出了相应的输入/输出(作为数据400、410、 420、 430和440)。
所述处理从输入图像400中的(按照上述说明标识的)区域402开始。如上所述，可以将所要说明的处理应用于整幅图像，或者应用于图像内的区域。
首先，在步骤405中，对于R、 G、 B(在这一处理中未采用Cr和 Cb )颜色特性中的每者，将部分内的像素的颜色特性量化成四个不同的值。所述三个变量的四个值给出了 64个可能的级别。图9中示出了 64 级色立方体(colour cube)的示意性表示。这里，黑点(为了图示的清晰起见，很多黑点都没有示出)表示RGB空间内的可能的量化点。将R、 G和B值均量化成最近的所述点。
在这一实施例中，通过三个8位值表示原始RGB值，因此R、 G和 B可以具有处于0和255之间的值。通过设置量化边界给出处于32、 96、 160和224上的量化子范围的中心。这表示将0到255的总范围划分成了四个基本相等的子范围。
由步骤405的量化处理得到了量化的图像数据410。
颜色空间的量化是所述系统的重要部分，因为原始特征矢量的尺寸 (参考下文)是颜色调色板尺寸的平方。例如，如果颜色调色板由24 位RGB空间内的所有离散点构成，那么调色板尺寸为2563,原始特征矢量尺寸为2566,在很多种情况下所述值是不实用的。通过对色度-饱和度-纯度(HSV)空间的非线性量化和对24位RGB空间的线性量化的试-睑表明，24位RGB空间的量化因量化误差而导致的问题较少，当然也可以采用其他量化方案。
在步骤415中生成了马尔可夫模型。
对于每一像素而言，所述处理标识出围绕该像素的3x3方阵列中的8个相邻像素。这里，所述的相邻像素仅限于当前区内的像素，如果像素处于当前区域的边缘上，那么认为其相邻像素少于8个。
建立一个二维的64 x 64bin (即4096bin )直方图作为所述区域的所谓的马尔可夫模型。
按照下述说明建立直方图。
对于每一像素而言，其自身的量化像素值(处于64值范围内，并且按照预定顺序编号为值1到64)沿直方图的一个轴形成了一个位置。同样在值1到64的范围内表述的每一相邻像素的值沿直方图的另一轴形成了一个位置。相应地，对于特定的中心像素而言，可能存在多达8 个不同的bm,所述bin由对应的相邻l象素值标识。累力口 ( increment)这些bm中的每者，其中，每一 bin表示相应的^象素的一非列(permutation) 和相邻像素特性。更一般而言，每一bm表示连续像素组内的特性的排列，在本实施例中，所述连续像素组包括两个像素，但是其可以包括更多的像素。从一个角度来讲，可以认为所述马尔可夫模型表示图像部分的紋理。
之后，针对下一像素的中心像素值及其八个相邻像素值重复所述处
理。由此，在正在考虑的整个区域上，将产生一个64 x 64bin二维直方
图11示意性地示出了特征直方图的生成，但是其参考了极为简化的情况，即仅有3个(而不是64个)量化RGB值0、 1、 2。在局部图像区域450内，将3x3像素扫描窗口 455布置在中心像素460的周围。 (在这一简化的例子中，3值颜色空间内的)中心1象素的颜色定义了处于图11的底部的直方图中的行。每一相邻像素的颜色定义了列。在行和列的交叉处，累加所述bin。在所示的例子中，扫描窗口中心像素具有颜色指数l。其总共具有8个相邻像素，其中，5个具有颜色指数0, 2个具有颜色指数1， l个具有颜色指数2。其导致了，在所述 bm中的第l行，第0列处使马尔可夫模型增加5，在所述bm中的第l 行，第1列处，使其增加2,在所述bm中的第1行，第2列处，使其增力口 1。
之后，使所述直方图归一化。可以在逐区域的基础上，和/或跨越与整幅图像相关的直方图的集合执行所述操作。通过所述归一化处理，使得一行内的所有值的和等于1。参考下述归一化方程，所述方程是指附图中简化的3x3的例子<formula>formula see original document page 15</formula>在图8中给出了举例的归一化马尔可夫模型数据的示意性表示，并
将其表示为数据420。
之后，在步骤425中生成特征矢量。
通过连结(对应于图像或者对应于特定的图像区域的)二维归一化马尔可夫直方图中的所有的642个值形成4096值矢量，由此形成了所述特征矢量。所述连结根据预定的但是任意的顺序发生。在图8中提供了所述特征矢量的示范性例子，并将其作为数据430,其中，将所述特征矢量称为"原始"特征矢量。注意，为了图示的清晰起见，并未示出所有的4096个值。
之后，在步骤435中，通过主要部分分析或随机映射将4096值矢量减为200值矢量。在其他部分将对所述随机映射技术进行详细说明，该技术涉及采用200 x 4096随机矩阵乘以所述4096值矢量，可以按照预先设置的形式存储所述随机矩阵，以供本技术之用。图12提供了这一随机映射处理的示意性表示，其中，通过使1xN矢量与由随机数构成的NxM矩阵进行矩阵相乘将1 xN矢量减为1 xM矢量。前面7>开的工作表明，尽管所得的矢量可以短得多，但是在随机映射处理之后它们的点积基本保持相同。
所述随机映射处理的输出为200值"减少"特征矢量，其指示图像或每一图像部分的颜色特性。在图8中示出了作为数据440的示意性例子，但是为了清晰起见，这里也没有示出所有的200个值。这一示意性表示的要点在于认识到所减少后的特征矢量短于原始特征矢量。
当然，应当认识到，减少后的特征矢量未必是200个值的长度。这一数量是一种合理的折中选择，其兼顾了缩短的要求(为了便于存储和应用于其他处理)和具有足以精确地表示颜色特性的长度的要求。但是，也可以采用其他长度。
为了比较两个图像部分(或者至少比较采用参考特征数据导出的特征数据)，要确立其特征矢量之间的距离。较短的距离意味着较大的相似性。
采用这种技术的一个例子是，用户从诸如图2B所示的经划分的图 ^象中选4奪一个或多个部分。例如，用户可以选4f附图标记为75的部分。从该部分导出特征矢量，并将其与来自同一图像内的其他部分的特征矢量以及来自其他图像中的部分(即位于用于检验相似图像部分的数据库中)的特征矢量进行比较。注意，归一化处理意味着，如果具有不同尺寸的图像部分的颜色特性是相似的，那么仍然可以将其检测为彼此相似。
可以预先针对所有的部分生成特征矢量，或者可以按照需要生成特征矢量。在保存图像的数据库的混合方案中，可以针对所存储的图像预先生成特征矢量。在使新图像与所述数据库进行比较时，由该图像单独 (或者由该图像的部分)生成特征矢量。
如果用户选择了不止一个部分，那么存在各种不同的方式来处理这一情况。可以单独处理所述部分，并针对每一所选部分导出对应的结果组(相似的部分)。或者，可以将用户选择的部分结合处理，从而合并用户选择的部分与处于测试当中的部分之间的距离，并导出具有最小的合并距离的结果组。通常通过使两个或更多的距离相乘来完成两个(或多个)用户选择部分与处于测试当中的部分之间的距离的合并。还可能使所述距离与一个以上的处于测试当中的部分相关，只要所有的处于测试当中的部分都属于同一图像即可。在这种情况下，在所述乘法当中采用测试图像中的部分与每一用户选择部分的最小距离。之后，所述系统返回具有最小总体距离的测试图像。
现在将说明一种能够为上述技术带来提高的改进。在一些情况下，
采用少量的量化级(64个量化级)意味着量化级之间的边界过于明显。
颜色特性中的小的变化就可能导致分配给像素的量化级的剧烈变化。因而(例如)稍微亮一些的天空区域在其内的量化级的变化的影响下就可能导致与其他天空区域之间具有非常差的相关性。
对于这一特点的解决方案是将来自图11中的每一相邻像素的贡献
(contribution)分配给各个bin。因而，像以前一样，在垂直轴上设置每一中心像素值(对于所述中心像素值可能存在几个贡献)，但是，对
于每一相邻像素而言，根据该相邻像素(在颜色空间内)与最近的量化级之间的距离将非整数贡献加到多个bm中。现在，将参考图13和14 说明所述方案的例子。
图13和14的方案提供的主要差异在于降低了量化误差的影响。所述变化将影响颜色量化步骤405和马尔可夫才莫型生成步骤415。下文中将说明加权将怎样影响前述算法。
按照与上文相同的方式划分24位RGB空间。但是，这里并非将特定像素颜色量化成一个调色板颜色，而是将其量化成几个调色板颜色，并记录对每一调色板颜色的贡献。
图13示意性地示出了图9的量化点的子集。每一点C1,.C12表示3 维RGB空间中的量化RGB颜色。实际的(非量化)像素不太可能直接落在一个量化点上，一般都落在量化点之间。在图13中，正在考虑的像素落在RGB空间中的位置480上。将RGB空间中像素位置480与量化点Cn之间距离示为Ln。
可以说，实际的颜色由最近的调色板颜色的贡献构成。要想计算每一调色板颜色的贡献，则获取最大距离Dmax(在图13中将其示为量化点C4与量化点C10之间的线，其表示量化网才各中的最大距离)，并减去调色板颜色和实际颜色之间的距离。由此得到了相应的权重值wn。
如果^又重wn〉0,那么在下述处理中采用调色一反颜色；否则弃用该值，或将其设为零。
因此，对于每一实际颜色而言，将形成发挥作用的调色板颜色及其权重的集合。使每一所述集合归一化，从而使每一集合的权重的和为1。
从原理上，按照与上文所述的相同的方式形成马尔可夫模型，但是这里并非采用一种调色板颜色表示每一像素，而是采用带有权重的调色板颜色的集合表示每一像素。
图14示意性地示出了这种情况，其中，该图示出了处于扫描窗口 455'内的中心^象素460'和周围的8个4象素的4又重w0、 wl和w2构成的组。如前所述，采用仅有三种颜色的调色板(量化颜色空间)。
在确定相邻像素对所述模型作出的贡献时，所述二维直方图中的几个单元都受到影响，而不是只有一个单元受到影响。将中心像素的权重的列矢量与相邻像素的权重的行矩阵相乘，以形成与马尔可夫模型矩阵具有相同维度的矩阵，由此找到对直方图的适当的贡献。将这些矩阵中的每者添加至所述模型矩阵。
例如，考虑图15中的中心像素460，和相邻像素"n"之一之间的变换，可以看出，对于每一个这样的关系而言，存在对马尔可夫模型的9 个贡献。注意，这里的示意性例子提供了具有3种颜色的调色板和尺寸为3x3的马尔可夫^t型，因此具有9个贡献。实际应用中的调色板具有64种颜色和尺寸为64 x 64的马尔可夫矩阵，因此对每一相邻4象素而言，其贡献是尺寸为64 x 64 (如果将权重wnO的颜色设为零，参考上文)或高达64 x 64 (如果弃用了所述颜色)的矩阵。
如前所述，在扫描了整个区域的情况下，使马尔可夫模型矩阵归一化，从而使每一行的和等于1。
图15示意性地示出了作为视频获取和/或处理设备的例子的便携式摄像机500,所述便携式摄像机包括带有相关镜头520的图像俘获装置510、数据/信号处理器530、磁带存储器540、磁盘或其他随机存取存储器550、用户控制装置560和带有取景器580的显示装置570。常规便携式摄像机或其他备选装置的其他特征(例如，不同的存储介质或者不同的显示屏装置)对于本领域技术人员而言是显而易见的。
550上，并在显示装置570上观看与所存储的数据相关的SOM,并采用用户控制装置560对其进行上述控制。
图16示意性地示出了作为便携式数据处理设备的例子的个人数字助理(PDA) 600,其具有显示屏610连同数据处理和存储装置(未示出)，其中，所述显示屏610具有显示区域620和提供用户控制的触摸敏感区域630。本领域技术人员同样清楚这一领域中的各种替代选牙奪。如上所述，可以结合图1的系统4吏用所述PDA。
可以采用通过上述处理导出的特征矢量训练和/或填充(populate ) 用于显示的自组织图(map),例如，GB-A-2393275中公开的图。
可以通过集合将图像或材料划分成某一分类，在所述分类中，所有的图像或部分具有处于分类特征矢量的阈值距离内的特征矢量。可以按照解析的方式设置所述分类特征矢量，或者将其作为经用户判断以共同的概念(例如，海滩景观)为联系纽带的一组图像或部分的平均特征矢量加以推导。
总结所述特征矢量生成技术可知，提供了一种作为旋转、平移和缩放不变量的基于颜色的特征矢量。可以采用所述特征矢量，利用图像的全部或部分搜索图像数据库。所述特征矢量以马尔可夫模型为基础，所述马尔可夫模型描述了图像内的颜色变换。为了能够使用基于颜色特性的马尔可夫模型，开发出了这样一种技术，其将RGB颜色空间量化为表示马尔可夫模型中的状态的调色板颜色空间。
现在将参考图17到19说明上述技术的另一应用。
图17示意性地示出了基于网络的购物方案，其中，经由网络710(例如局域网，或(更一般来讲)internet)将用户的数据处理设备或 "客户端"700连接至纟见频处理器720和在线购物服务器740。
所述设备还包括特征数据检测器730、比较逻辑750和参考特征数据存储器760。注意，客户端、视频服务器和在线商店这三个区域的功能划分是随意的，在大多数情况不会对技术层面造成太大的影响。具体而言，可以将单元730、 750和760中的每者作为客户端、视频服务器或在线商店的部分实现。此外，可以将视频服务器和客户端作为单个客户端处理器实现。为了便于说明，只是简单地提供了图
17所示的具体方案。
在下述说明中还将参考示出了处于客户端700的示意性用户选择显示的图18以及图19所示的示意性流程图。所述流程图与图17的具体示范性方案相关。
视频服务器接受视频数据(步骤900 ),其涉及将视频数据上载到视频数据服务器中(或与其相关)的视频数据存储器上。在步骤910 中，视频服务器采用上述技术将视频图像中的每者(或子集)划分成部分。在步骤920中，通过特征数据检测器730导出特征数据，并使之与定义哪一部分(用于显示的)具有该特征数据的数据相关，其中在该流程图中将所述处理称为"标识，，特征数据。换言之，图像中的每一部分(或某些部分)具有相关的特征数据，所述部分和特征数据通过标识lt据〗皮此相关。
显然，如果通过诸如图15所示的俘获设备的俘获设备生成了视频数据，或者如果通过对其进行预处理导出了部分和/或特征数据，那么未必需要步骤910和920的全部。类似地，没有在视频服务器内存储碎见频数据的技术必要性；视频服务器可以基本实时工作，以便将视频数据传送到客户端。此外，不必预先推导特征数据(甚至部分划分)；当用户在客户端选择部分时(参考下文)，可以根据需要对所述内容进行推导。
在步骤930中，在客户端显示视频图^^。图18示出了所显示的图像的例子。这里，通过附图标记表示两个图像部分与汽车的后部相关的部分800和与人的裤子相关的部分810。可以(例如，通过框取或者通过光标变化，其采取的方式实质上与光标经过Microsoft Internet ExplorerTM中的超级链接所采取的方式类似)在显示器上标识通过所述部分划分处理(步骤910)标识的部分，或者无需提供标识。用户具有诸如鼠标、指轮、触摸敏感屏等指向装置。用户能够指
示所显示的图像上的区域，从而选择图像中的某一部分(在步骤940 中)。可以采用鼠标按钮等选择控制指示所选的区域。如果用的指示 (和/或点击)落在某一所划分的部分内(不管是否已经进行了划分处理)，都将与该部分相关的特征数据发送至比较逻辑750。这里，在步骤950中，将所述特征数据与参考特征数据存储器760中存储的参考特征数据进行比较。
现在将说明参考特征数据的推导。
在图19的步骤980和990中示意性i也示出了这一处理的一个例子，其中，对图像进行分析，并推导参考特征数据。就应当对哪些图像进行分析而言，首先应当考虑参考特征数据的用途。参考特征数据的作用在于对标识某种类型的产品的图像部分给出一般指示。例如， (在理想情况下)应当与部分800的特征数据进行比较的参考特征数据将对车辆做一般指示，或者具体指示轿车，乃至指示某种颜色或风格的轿车。相应地，对于这种情况而言，一种生成参考特征数据的方
法是对表示所述产品类别的一幅或多幅图像进行分析(划分或者由其推导特征数据)。可以通过对多个这样的图像的分析结果求平均，由
此获得更为一般的结果。一种备选的方式是以分析的方式，即，通过判断哪些是与车辆的部分相关的图像部分的可能的图像特性，进而确定所述特性表示哪些特征数据来生成参考特征数据。一般来讲，通过参考特征数据存储器760保存参考特征数据的多个例子，其中每者与相应的产品或服务类型相关。
在4壬一种情况下，均可以在步骤950中，通过比4吏逻辑750 4佥测所检测到的用户选择的图像部分的特征数据与参考特征数据的例子之间的对应关系。这里，可以选择最佳匹配，或者可以应用"匹配度，，阈值，从而仅准许至少具有一定的统计学意义的匹配，所有的这些方式均采用已知的匹配4支术。
在发现匹配时，将与匹配参考特征数据相关的类型的产品或月l务 (也可能是对应于所述产品的internet地址或超级链接)发送至在线商店。在步骤960中，(如果采用上述超级链接，那么根据所述超级链接的目标)将商店入口或者所销售的具体项目或二者发送至客户端700。通过客户端显示所述商店和/或项目的细节(例如，在显示屏的子窗口内)，如果希望，用户可以按照一般的方式，例如，通过(有可能采用指向装置)操作购买菜单项目或控制按钮执行购买(在步骤
970中)。
可以通过在线商店或第三方管理所述系统。在4壬何一种情况下，都能够提请所述(或其他)在线商店供应商以图像(或视频)以及相关超级链接或购物信息的形式提供数据，所述数据可选地与相关参考特征数据。作为这一操作的回报，可以预先，或者根据用户对于该商店相关的项目的选择，或者在用户实施购买(即"点击付费")时，或者在上述情况的任意组合下为系统管理者付费。
应当i^识到，这些4支术未必仅适用于碎见频图〗象，也可以采用由一幅或多幅静止图像构成的系列。
权利要求
1.一种图像处理方法，其包括步骤划分处于测试当中的图像，以形成多个图部分，每一部分表示一组具有类似图像特性的像素，至少一些部分是相连的；从包括一个或多个图像部分的子集导出特征数据；将来自所述图像部分的子集的特征数据与指示相应的参考图像部分的特征数据进行比较，以检测处于测试当中的图像部分与参考图像部分之间的相似度。
2. 根据权利要求1所述的方法，其中所述参考图像部分是一个或多个其他图像的相应图像部分；以及所述比较步骤用于检测处于测试当中的图像与所述一个或多个其他图像之间的相似度。
3. 根据权利要求1或2所述的方法，其中，所述划分步骤包括 Ci)从处于测试当中的图像的像素中导出图像特性；(ii) 根据其相应的图像特征数据将像素汇集成图像部分。
4. 根据权利要求3所述的方法，其中，所述划分步骤还包括(iii) 根据图像特性数据差异检测图像部分的分离度；以及(iv) 合并其分离度低于阈值分离度的图像部分。
5. 根据权利要求4所述的方法，其中，递归执行步骤(iii)。
6. 根据权利要求3到5中的任何一项所述的方法，其包括步骤(v) 对所述图像部分进行空间过滤，所述空间过滤倾向于将来自小图像部分的像素重新分配给大图像部分。
7. 根据权利要求3到6中的任何一项所述的方法，其包括步骤检测处于测试当中的图像是否具有黑色边界；在划分步骤之前去除所述边界；以及在所述划分步骤之后重新施加所述边界。
8. 根据前述权利要求中的任忖一项所述的方法，其中，所述特征数据至少指示颜色特性。
9. 根据前述权利要求中的任何一项所述的方法，其中，所述特征数据至少指示图像紋理特性。
10. 根据前述权利要求中的任何一项所述的方法，其包括步骤从每一图像部分导出相应的特征数据；以及其中，与处于测试当中的图像相关的图像部分的子集包括一个以上的图像部分，并采用来自所述子集中的所有图像部分的特征数据的组合执行所述比较步骤。
11. 根据前述权利要求中的任何一项所述的方法，其中，每一部分是连续的。
12. 根据前述权利要求中的任何一项所述的方法，其包括步骤生成指示多个参考图像部分的特征数据，每一参考图像部分具有相关数据项目；检测用户对从处于测试当中的图像导出的图像部分的选择；访问与被检测为与用户选择的图像部分最为相似的参考图像数据相关的数据项目。
13. 根据权利要求12所述的方法，其中所述相关数据项目是超级链接；以及访问所述相关数据项目的步骤包括访问与该超级链接相关的超级链接目标。
14. 根据权利要求12或13所述的方法，其中，访问相关数据项目的步骤包括向用户提供指示与所述参考图像部分相关的商品或服务的购买价格的数据。
15. 根据权利要求14所述的方法，其包括步骤检测用户购买控制操作，所述购买控制操作指示用户希望购买所述商品或服务。
16. 根据权利要求12到15中的任何一项所述的方法，其中，检测用户选择的步骤包括显示处于测试当中的图像至少一部分；以及检测用户对指向装置的操作，所述操作对准了所述图像部分。
17. —种包括程序代码的计算机软件，当在计算机上执行时，所述程序代码执行根据前述权利要求中的任何一项所述的方法。
18. 用于提供根据权利要求17所述的计算机软件的介质。
19. 根据权利要求18所述的介质，所述介质为存储介质。
20. 根据权利要求18所述的介质，所示介质为传输介质。
21. —种图像处理设备，包括用于划分处于测试当中的图像，以形成多个图像部分的装置，每一部分表示一组具有类似图像特性的像素，至少一些部分是相连的；用于从包括一个或多个图像部分的子集导出特征数据的装置；用于将来自所述图像部分的子集的特征数据与指示相应的参考图像部分的特征数据进行比较，以检测处于测试当中的图像部分与参考图像部分之间的相似度的装置。
22. —种包括根据权利要求21所述的图像处理设备的图像俘获设备。
23. —种图像处理方法，其包括步骤划分处于测试当中的图像，以形成多个图部分，每一部分表示一组具有类似图像特性的像素，至少一些部分是相连的，所述划分步骤包括(i) 从处于测试当中的图像的像素导出图像特性数据；(ii) 根据其相应的图像特性数据将像素汇集成图像部分。
24. —种图像处理设备，包括用于划分处于测试当中的图像，以形成多个图像部分的装置，每一部分表示一组具有类似图像特性的像素，至少一些部分是相连的，所述划分装置包括用于从处于测试当中的图像的像素导出图像特性数据的装置；用于根据其相应的图像特性数据将像素汇集成图像部分的装置。
全文摘要
一种图像处理方法，包括的步骤有划分处于测试当中的图像，以形成多个具有类似图像特性的连续图像部分；从包括一个或多个图像部分的子集导出特征数据；将来自所述图像部分的子集的特征数据与从一幅或多幅其他图像的相应的图像部分导出的特征数据进行比较，以检测处于测试当中的图像与所述一幅或多幅图像之间的相似度。
文档编号G06K9/46GK101300575SQ200680040833
公开日2008年11月5日申请日期2006年9月29日优先权日2005年10月31日
发明者J·R·索尔普, M·C·朗, M·J·威廉斯, P·E·普雷尔, R·M·S·波特, R·贝尔斯富德申请人:索尼英国有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Ｍ.Ｃ.朗;Ｒ.Ｍ.Ｓ.波特;Ｐ.Ｅ.普雷尔;Ｒ.贝尔斯富德;Ｊ.Ｒ.索尔普;Ｍ.Ｊ.威廉斯
技术所有人：索尼英国有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。