基于椭圆颜色模型的混合的图像分类的制作方法

文档序号：6454520阅读：187来源：国知局

专利名称：基于椭圆颜色模型的混合的图像分类的制作方法
技术领域：
本发明涉及成像领域。更具体而言，本发明涉及改进的成像分类。
背景技术：
存在若干种比较图像的方式。另外，对于比较图像，存在许多不同的实现方式。一种实现方式是基于图像的内容而不是关键字来进行搜索。
基于内容的图像检索系统是这样一种图像检索系统，其通过利用图像的内容而不是文本标签来对来自数字库(通常是数据库)的图像进行分类、检测和检索。
传统的基于内容的图像和视频检索系统利用已被补充了与图像相关联的诸如标题、关键字或字幕之类的文本的图像或视频帧。用户例如通过利用这些关键字向系统提交文本查询来从图像数据库中检索所需的图像。与所输入的关键字相匹配的图像被检索出来。但是，对于较大的图像数据集合，是不可能在每个图像有文本索引与之相对应的情况下存储所有图像的。手工地向每个图像赋予特定的标题、关键字和字幕也是非常麻烦的。另外，基于文本的搜索也具有其固有的缺陷。
一些基于内容的系统利用指定的形状或对象来检索图像。例如，为了找到狗的图像，这种系统将会被提供以狗的形状的规格。但是，由于狗有着多种形状和大小，因此这限于找出与指定的形状相匹配的狗。

发明内容
一种基于椭圆颜色模型来对图像分类的方法被用在若干种应用中。从
具有所关注区域(region of interest)的图像集合生成一个或多个颜色模型。然后，多个图像集合被用于训练。一个图像集合具有所关注区域，另一图像集合不具有所关注区域。通过利用这两个图像集合，实现了集合之间的最大差异，从而使得颜色模型最大程度地代表所需的对象。然后，利用最优颜色模型，能够搜索一组图像，并且基于这些图像包含所需对象的概率来检索图像。
在一个方面中，一种对图像分类的方法包括从一个或多个第一图像生成一个或多个颜色模型；从所述一个或多个颜色模型中选择一个或多个最优颜色模型，其中所述一个或多个最优颜色模型代表所述一个或多个第一图像中的颜色；以及将来自一个或多个第二图像的一个或多个颜色分布与所述一个或多个最优颜色模型进行比较。所述一个或多个颜色模型是椭圆的。所述一个或多个颜色模型是在色相、饱和度、值颜色空间中生成的。该方法还包括利用具有一个或多个所关注区域的一个或多个第三图像和不具有所关注区域的一个或多个第四图像来训练所述一个或多个颜色模型。训练还包括使所述具有一个或多个所关注区域的一个或多个第三图像与所述不具有所关注区域的一个或多个第四图像之间的差异最大化。该方法还包括基于与所述一个或多个最优颜色模型的相似度来检索所述一个或多个第二图像。所述一个或多个最优颜色模型与所述一个或多个颜色分布之间的距离越小，则相似度就越高。关键字被用于选择所述一个或多个第一图像。所述一个或多个第一图像是由用户选择的。所述一个或多个最优颜色模型和所述一个或多个颜色分布是在因特网上被比较的。或者，所述一个或多个最优颜色模型和所述一个或多个颜色分布是在从由以下各项构成的组中选择出来的计算设备上被比较的个人计算机、膝上型计算机、数字照相机、数字摄像机、手持设备、iPod⑧和家庭娱乐系统。
在另一个方面中，一种对图像分类的方法包括从具有所关注区域的第一图像集合生成一个或多个颜色模型；利用具有一个或多个所关注区域的第二图像集合和不具有所关注区域的第三图像集合来训练所述一个或多个颜色模型；将所述一个或多个颜色模型与来自第四图像集合的一个或多个颜色分布进行比较；以及基于所述一个或多个颜色模型与所述一个或多个颜色分布之间的比较来从所述第四图像集合中检索一个或多个图像。所述一个或多个颜色模型是椭圆的。所述一个或多个颜色模型是在色相、饱和度、值颜色空间中生成的。训练还包括使所述具有一个或多个所关注区域的第二图像集合与所述不具有所关注区域的第三图像集合之间的差异最大化。所述一个或多个颜色模型与所述一个或多个颜色分布之间的距离越小，则相似度就越高。关键字被用于选择所述第一图像集合。所述第一图像集合是由用户选择的。所述一个或多个颜色模型和所述一个或多个颜色分布是在因特网上被比较的。或者，所述一个或多个颜色模型和所述一个或多个颜色分布是在从由以下各项构成的组中选择出来的计算设备上被比较的个人计算机、膝上型计算机、数字照相机、数字摄像机、手持设
备、iPod⑧和家庭娱乐系统。
在另一方面中，一种优化用于对图像分类的颜色模型的方法包括为一个或多个第一图像中的每一个生成颜色模型；搜索用于使所述一个或多个第一图像和一个或多个第二图像之间的统计距离最大化的颜色模型；通过将用于使所述统计距离最大化的颜色模型添加到颜色模型集合来更新该颜色模型集合；以及重复搜索和更新，直到所述统计距离被最大化为止。所述一个或多个第一图像包含一个或多个所关注区域，并且所述一个或多个第二图像不具有一个或多个所关注区域。所述颜色模型是椭圆的。所述颜色模型是在色相、饱和度、值颜色空间中生成的。对颜色模型的优化是在从由以下各项构成的组中选择出来的计算设备上执行的个人计算机、膝上型计算机、数字照相机、数字摄像机、手持设备、iPod⑧和家庭娱乐系统。
在另一个方面中，一种用于比较多个图像的系统包括一个或多个第一图像；从所述一个或多个第一图像生成的一个或多个颜色模型；具有一个或多个所关注区域的一个或多个第二图像，用于训练所述一个或多个颜色模型；不具有所关注区域的一个或多个第三图像，用于训练所述一个或多个颜色模型；一个或多个第四图像；从所述一个或多个第四图像生成的一个或多个颜色分布；以及用于将所述一个或多个颜色模型与所述一个或多个颜色分布进行比较的程序。所述一个或多个颜色模型是椭圆的。所述一个或多个颜色模型是在色相、饱和度、值颜色空间中生成的。所述一个或多个第四图像是基于所述一个或多个颜色模型与所述一个或多个颜色分布的相似度来检索的。所述一个或多个颜色模型与所述一个或多个颜色分布之间的距离越小，则相似度就越高。关键字被用于选择所述一个或多个第一图像。所述一个或多个第一图像是由用户选择的。所述一个或多个颜色模型和所述一个或多个颜色分布是在因特网上被比较的。或者，所述一个或多个颜色模型和所述一个或多个颜色分布是在从由以下各项构成的组中选择出来的计算设备上被比较的个人计算机、膝上型计算机、数字照相机、数字摄像机、手持设备、iPod⑧和家庭娱乐系统。
在另一个方面中，一种捕捉和显示设备包括接收单元，用于接收图像数据；耦合到所述接收单元的显示单元，用于显示图像数据；以及耦合到所述接收单元和所述显示单元的程序，用于通过以下步骤来比较所述图像数据从一个或多个所选图像生成一个或多个颜色模型；从所述一个或多个颜色模型中选择一个或多个最优颜色模型，其中所述一个或多个最优颜色模型代表所述一个或多个所选图像中的颜色；以及将来自所述图像数据的一个或多个颜色分布与所述一个或多个最优颜色模型进行比较。所述一个或多个颜色模型是椭圆的。所述一个或多个颜色模型是在色相、饱和度、值颜色空间中生成的。所述捕捉和显示设备从由以下各项构成的组中选择出来的个人计算机、膝上型计算机、数字照相机、数字摄像机、手
持设备、iPod⑧和家庭娱乐系统。

图1A-C图示出了 HSV颜色空间的不同表示。图1D图示出了示例性的椭圆颜色模型。
图2图示出了确定使U(T)最大化的颜色模型集合T的过程的流程图。图3图示出了比较图像的过程的流程图。
图4图示出了根据本发明工作的具有外部控制器的媒体存储设备的框图。
图5图示出了示出在处理内容流以生成索引数据库期间控制器和媒体存储设备所实现的步骤的流程图。
图6图示出了示出在内容流的重放期间控制器和媒体存储设备所实现的步骤的流程图。图7图示出了实现这里描述的方法的示例性系统,
具体实施例方式
对于诸如对象检测、图像分割和基于内容的检索之类的应用，颜色经常被用作对象或区域的特性。对于皮肤颜色检测应用，已经开发出许多基于颜色的图像分类算法。基于颜色的图像分类一般使用诸如高斯模型和贝叶斯分类器之类的颜色建模。
这里描述了一种基于训练的统计颜色建模方法。具有所关注的区域的图像的集合被用于为每个图像生成椭圆颜色模型。然后，两个训练图像集合被用于训练颜色模型。一个图像集合包含具有所关注区域的图像，另一图像集合包含不具有所关注区域的图像。然后通过使两个训练集合之间的统计距离最大化，来从颜色模型集合中选择最优颜色模型的集合。
为了从给定图像生成颜色模型，使用色相、饱和度、值(Hue, Saturation, Value,简称为HSV)颜色空间。在HSV颜色空间内，色相也是颜色类型(例如红色、蓝色或绿色)。一般地，色相的范围是0至360 或者0-100%。饱和度是颜色的活跃性(vibrancy)，其中范围是从0-100%。颜色的饱和度越低，就存在越多的灰色，并且颜色看起来就越暗淡。值也被称为颜色的亮度(brightness)，其范围是从0-100%。图1A-C 图示出了 HSV颜色空间的不同表示。图1A示出了轮盘形式的HSV颜色空间。图1B将其示为圆柱，图1C将颜色空间示为圆锥。对于所关注区域中的每个像素，颜色值被投射在极坐标系统中的HS平面上。为了确定椭圆模型，HS平面被转换成笛卡儿坐标，其中坐标x = (Xl, x2)T，以计算平均值和协方差矩阵。假定所选择的颜色在该平面上具有二元正态分布，其平均值为
,M、
〃
并且协方差矩阵为
i7 =
《《:
V《2 S
(1)
(2)
二元正态密度在以下椭圆上是恒定的<formula>formula see original document page 12</formula> (3)
所选择的颜色的分布被估计处于通过在式(3)中取c = 1.5而确定的椭圆内。整个图像中的椭圆模型内的像素的百分比被用于估计图像具有所需颜色的总概率。
图1D图示出了示例性的椭圆颜色模型。如上所述，图像的像素的颜色表示102被映射在颜色空间上。然后，利用式(1-3)，确立最优的椭圆 100，该最优椭圆IOO被用作稍后的比较的颜色模型。
以下式子被用来判定给定的图像与颜色模型的匹配程度。对于被测试
的给定图像/， /与颜色模型r之间的距离被定义为
<formula>formula see original document page 12</formula> (4) 其中f是颜色椭圆模型中的像素的量，f是在同一颜色模型内/的像素的量。？和f都被表示为整个图像中的像素的百分比。使用百分比而不是绝对数字，以允许比较不同大小的图像。如果在/中有比颜色椭圆模型中更多
的像素，则距离d(/，7)能够为负。如果图像包含大量所需的颜色像素，则距离d(/, T)趋向于较小，因此确定此图像是相似的图像。如果图像不包含许多所需颜色像素，则距离d(/,7)较大，因此确定此图像不是相似图像。假定存在多个颜色模型的集合
<formula>formula see original document page 12</formula> (5)
图像/和颜色模型集合T之间的颜色匹配函数被定义为
<formula>formula see original document page 12</formula>(6) 问题在于选择代表性颜色模型集合来对图像分类。模型选择过程开始
于具有所关注区域的图像的集合Ia和不具有所关注区域的图像的集合Ib。对于颜色模型集合T，假定针对Ia e I J勺D(Ia, T)具有均值Ma和标准偏差
da;针对Ib e I b的D(Ib, T)具有均值;/fe和标准偏差(7b。与颜色模型集合T相
对应的图像集合Ia和Ib之间的统计距离被定义为
<formula>formula see original document page 12</formula>(7)
优化过程是要找到使统计距离U(T)最大化的颜色模型集合T。
图2图示出了确定使U(T)最大化的颜色模型集合T的过程的流程图。在步骤200中，集合T的值被设定为等于》。在步骤202中，生成针对每个/a e I a的颜色模型ra。在步骤204中，搜索使统计距离U(T)最大化的颜色模型ra: ra = argmax U({ra} u T)。在步骤206中，利用T — {ra} u T 来更新集合T。重复步骤204和206，直到统计距离U(T)达到最大为止。在步骤204中，已经处于集合T中的颜色模型能够再次被选择。如果发生这种情况，则在步骤206中重复的颜色模型被添加到集合T。在步骤208 中，随后判定统计距离U(T)是否已达到最大。如果判定统计距离U(T)己经达到最大，则该过程结束。否则，该过程返回到步骤204，以搜索使统计距离U(T)最大化的颜色模型。
如果图像集合Ia和Ib包含大量图像，则对统计距离U(T)的计算变得很耗时。在这种情形下，图像集合Ia和Ib的子集能够被选择用于每次迭代。
当为每次迭代选择子集时，选择子集的方法能够是随机的或者有序的。
在最优颜色模型集合被获得后，式(6)的颜色匹配函数被用于评估图像具有所需颜色的对象的概率。图像分类的阈值设定取决于特定的应用。对于诸如皮肤颜色、蓝天和绿树之类的所关注区域中的颜色具有高斯或近高斯分布的情形，颜色模型匹配方法的效果最好。
如果图像中的所关注区域具有多种颜色，例如红花加绿叶，则该区域被分割成多个对象并被分别分类。然后分类结果被组合以便最终输出。例如，如果需要玫瑰的图像，则花的部分具有不同的颜色(例如红色)，茎和叶具有不同的颜色(例如绿色)，而图像的其余部分包含其他颜色。为了正确地确定要搜索的颜色模型，图像被分解成不同的片段。花的部分被剪切，并且茎和叶被剪切，并被放到其自己的单独的图像中。每个片段具有其自己的使用上述式子的颜色模型。一旦确立了针对玫瑰的两个颜色模型，就能将它们与其他颜色模型相比较以确定图像之间的相似度。颜色模型能够被用于任何能够受益于这种信息的应用，例如通过将一个或多个颜色模型与数据库内的图像相比较来进行搜索的搜索引擎。优选地，与颜色模型相匹配的图像被找到并按相似度的顺序被显示。例如，利用玫瑰的示例，具有很高的红和绿浓度的图像首先被显示，而缺乏这种颜色的图像最后被显示，或者根本不被显示。另外，由于红色不是所使用的唯一颜色，因此红色的汽车不应该出现在列表中很靠前的位置，因为很有可能它缺乏来自玫瑰的茎的绿色。因此，通过为图像的每个不同的方面使用多个颜色模型，提高了搜索的精确度。如果需要，多个颜色模型能够被用于提供更高的精度，例如红玫瑰和绿茎和蓝天。在这种场景中，存在三种很不相同的颜色，并且很有可能每种颜色有足够数目的像素。因此，能够实现三个颜色模型。
图3图示出了这里描述的方法的流程图。在步骤300中，从具有所关注区域的第一图像集合生成一个或多个椭圆颜色模型。例如，提供玫瑰图像的集合，其中以花的部分作为所关注区域。从该玫瑰图像集合生成专注
于花的部分的颜色模型。然后，在步骤302中，利用具有一个或多个所关
注区域的第二图像集合和不具有所关注区域的第三图像集合来训练该一个
或多个颜色模型。在步骤304中，使具有一个或多个所关注区域的第二图像集合与不具有所关注区域的第三图像集合之间的差异最大化，从而选择最佳的一个或多个颜色模型。一旦确立了最佳颜色模型，在步骤306中就将该一个或多个颜色模型与第四图像集合相比较。在一些实施例中，基于与该一个或多个颜色模型的比较，来自第四图像集合的一个或多个图像被检索出来。
这里描述的方法能够被用于的应用之一是也称为按图像内容查询 (QBIC)的基于内容的图像检索(CBIR)，以及基于内容的可视信息检索(CBVIR) 。 CBIR是计算机视觉在搜索大数据库中的数字图像的图像检索问题中的应用。"基于内容"是指该搜索使用图像的内容本身，而不依赖于诸如标题、字幕或关键字之类的元数据。CBIR之所以被需要和有用，是因为基于元数据的系统的局限，以及因特网的带宽和处理力的增大。关于图像的文本信息很容易利用当前技术来搜索，但是要求这些描述被某人输入，而当应对极大量的数据时这是很麻烦且不可行的。另外，对文本的关键字搜索具有其自己的缺陷，例如要求用户准确地表达其搜索，否则搜索的结果可能是什么也没找到。
CBIR系统是以若干种不同方式来实现的。一种示例允许用户类似于关键字搜索那样作出请求，例如"兔子"，并且任何兔子的图像会被检索出来。但是，与搜索单词"兔子"的关键字搜索不同，该搜索寻找具有兔子的图像的匹配颜色。此外，在搜索的文本输入版本中能够包括颜色标签，例如"白兔"，以进一步指定需要哪类兔子，因为兔子有多种颜色。其他系统按用户提供的样本图像来进行搜索。如上所述，搜索开始于所提供的样本图像的集合。然后搜索检索相似的图像。结果以多种方式被返回，并且在一些实施例中它们按照基于最近匹配的升序被排序。另一种返回结果的方法仅返回具有落在指定的可接受范围内的相似度的那些图像。
或者，不是在因特网上进行搜索，实现这里描述的方法的CBIR是在局部内联网上或者甚至是在用户的计算设备(例如个人计算机、膝上型计算机、数字照相机、数字摄像机、手持设备、iPod⑧和家庭娱乐系统)上执行的。例如，如果用户希望找到计算机上其孩子的所有图片，则它们能够使用上述技术并且检索出像孩子的所有图片。
这里描述的方法的另一个应用是内容识别系统。用于对音频/视频内容数据流内对象的出现编制索引的内容识别系统处理数据流以生成与内容流相对应的内容索引数据库。通过把利用这里描述的图像分类技术的识别技术应用到内容流内的内容以标识对象并对所标识的对象编制索弓i ，来对内容流进行处理。在一个实施例中，内容流是在其被存储在媒体存储设备之内时被处理的。或者，内容流是在其被存储在媒体存储设备之后被处理的。在处理期间通过识别技术动态标识索引数据库内包括的对象。在内容流被处理时，针对每个对象的条目在索引数据库内被生成。在一些实施例中，每个条目包括对象标识符和该对象的相应位置。位置涉及特定内容存储在媒体存储设备内何处。一旦内容索引数据库被生成，其随后就能够被用于迅速地定位和导航到内容流内的内容和对象的具体出现。能够被标识和编入索引的对象包括内容流内的任何可标识的信息，包括形状、对象、事件和视频流内的运动。在一些实施例中，内容索引数据库与内容流被存储在同一媒体存储设备上。
具有外部控制器的媒体存储设备在图4中图示出。媒体存储设备400 包括接口电路402，用于向耦合到媒体存储设备400的其他设备发送通信和从中接收通信。接口电路402耦合到缓冲控制器404。缓冲控制器404 还耦合到RAM 406和读/写通道电路408。读/写通道电路408耦合到媒体存储设备400内存储数据的介质410。读/写通道电路408控制介质410上的存储操作，包括从介质410读取数据和向介质410写入数据。外部控制器420耦合到缓冲控制器404，用于对存储在介质410上的数据流的处理、分类和索引编制进行控制。
在流被处理时，控制器420内的识别引擎分析内容流内的内容以标识出内容流内的适当对象。如上所述，适当的对象在处理期间被识别引擎动态标识。在内容流内的适当对象被标识时，这些所标识的对象在内容流内的出现于是被记录在索弓I数据库内。一旦内容流被处理并且索弓i数据库被生成，用户随后就能够跳到内容流内所需对象出现的位置，以便査看或编辑内容流。
在图5中图示出了一流程图，该流程图示出在一些实施例中在处理内容流以生成索引数据库期间控制器420和媒体存储设备400所实现的步骤。该过程开始于步骤500。在步骤502，标识将要被编入索引并被包括在索引数据库中的对象。如上所述，该标识是由用户手工执行的，或者是由识别技术在处理期间动态执行的。在步骤504，识别引擎或识别技术于是被应用到内容流，以分析内容流并确定所标识的对象在内容流内的出现。
在步骤506，判定内容流内当前正被分析的内容是否包括所标识的对象。如果当前正被分析的内容包括所标识的对象，那么在步骤508，为索引数据库生成条目，其中包括对象类别内的对象标识符条目和标识出内容在位置类别内的相应位置的条目。当在步骤508为索引数据库生成条目之后，或者如果在步骤506判定当前正被分析的内容不包括所标识的对象，则在步骤510判定在内容流内是否有更多内容或者这是否是内容流的末尾。如果判定内容流尚未被完全处理，则该过程跳回步骤504，以继续处理内容流。如果在步骤510判定内容流己全被处理，则该过程在步骤512 结束。
在图6中图示出了一流程图，该流程图示出在一些实施例中在具有相应索引数据库的内容流的重放期间控制器420和媒体存储设备400所实现的步骤。该过程开始于步骤600。在步骤602，用户标识出其希望在内容流内定位的对象。在步骤604，利用来自对象类别和位置类别的条目，在索引数据库内定位与所标识的对象相对应的条目并且对准对象的第一次出
现的位置。在步骤606，在内容流内定位对象的第一次出现。在步骤 608，对象的该次出现于是被重放给用户。在步骤610，随后判定用户是否希望定位和重放对象的下一次出现。如果用户希望定位和重放对象的下一次出现，则在步骤612定位对象的下一次出现。然后该过程跳到步骤608 以重放该下一次出现。如果在步骤610判定用户不希望定位和重放对象的下一次出现，则该过程在步骤614结束。
作为本发明的内容识别系统和索引数据库的操作的示例，用户将其孩子生日的视频记录在视频记录器内的磁带上。该视频包括音频和视频成分。视频随后被从磁带记录到媒体存储设备400。在控制器420结合媒体存储设备400的控制之下，通过向视频成分应用识别技术以确定所标识的对象在内容流内的每次出现来处理视频以生成索引数据库。如上所述，这种处理或者发生在视频被记录在媒体存储设备400上时(如果用户的系统具有在线执行处理的处理能力的话)，或者发生在视频被记录在媒体存储设备400之后。在处理期间，视频被分析，以确定所标识的对象的每次出现。当在视频内找到所标识的对象的一次出现时，于是就将与该出现相对应的条目添加到索引数据库。例如，如果用户标识出其希望视频内生曰蛋糕的每次出现被编入索引，那么识别技术被应用到视频内容流以确定视频内生日蛋糕的每次出现。这些出现被标识并且被编入索引数据库内，如上所述。如果用户随后希望查看这些出现或者基于这些出现来编辑视频，则系统将利用索引数据库来重放视频内生日蛋糕的这些出现或者基于视频内生日蛋糕的出现来编辑视频。
或者，搜索系统不是生成索引数据库，而是被如下实现用户能够请求搜索某个事物，例如生日蛋糕，系统搜索视频，并且涉及生日蛋糕的图像/视频被排队以被查看。
图7图示出了实现这里描述的方法的示例性系统。一个或多个第一图像700包含将要被比较的图像。在该示例中，具有绿茎的红玫瑰是所需的图像。从该一个或多个第一图像700，生成一个或多个椭圆颜色模型702和702'。颜色模型702来自红玫瑰，颜色模型702，来自图像700的绿茎。一个或多个第二图像704包含用于训练该一个或多个颜色模型702的一个或多个所关注区域。在这里，具有红花的图像被用来训练颜色模型702。同样地，具有与花茎相似的绿色的图像将被用于训练颜色模型702，。一个或多个第三图像706不包含所关注区域，例如具有白云和蓝水的图像。这种图像提供了对比，并且帮助训练颜色模型702和702，，以选择匹配图像。在训练之后选择一个或多个最优颜色模型。该一个或多个最优颜色模型提供了对该一个或多个第一图像700的最佳表示。一个或多个第四图像 708是将要与该一个或多个第一图像700相比较的图像。从该一个或多个第四图像708生成一个或多个颜色分布710和710，。基于该一个或多个颜色分布710和710'与该一个或多个颜色模型702和702'的相似度来比较该一个或多个第四图像。一种程序能够利用上述颜色模型来比较图像并检索相似的图像。
基于椭圆颜色模型来对图像分类的方法被用于若干种应用中。从具有所关注区域的图像集合生成一个或多个颜色模型。然后，多个图像集合被用于训练。一个图像集合具有所关注区域，另一图像集合不具有所关注区域。通过使用这两个图像集合，利用以上式子，达到集合之间的最大差异，使得颜色模型最大程度地代表所需的对象。然后，利用最优颜色模型，收集一组图像，并且基于这些图像包含所需对象的概率来检索图像。
在操作中，这里描述的图像比较方法能够最初基于具有或者不具有所关注区域的指定图像来确定最佳椭圆颜色模型。在一些实施例中，使用 HSV颜色空间。然后，利用所确定的颜色模型，其他图像被比较，其中最相似的图像被选择、检索或以指定的方式使用。例如，如果该方法工作在图像搜索和检索系统内，则与颜色模型最相符的图像按照基于相似度的顺序被检索出来。
任何受益于基于颜色的图像匹配的改进方法的应用都能够实现这里描述的方法。除了上述应用之外，另一种应用包括具有自动对焦的数字照相机，以使得自动对焦能够对焦在皮肤颜色上。其他应用包括但不限于画廊和博物馆管理、建筑图像和设计、室内设计、地球资源的遥感和管理、地理信息系统、科学数据库管理、天气预报、零售、织物和时尚设计、商标和著作权数据库管理、法律实施和罪案调查以及图片归档、通信系统、以及检査系统(包括电路检查系统)。
己经就包括帮助理解本发明的构造和操作的原理的细节的具体实施例描述了本发明。这里对具体实施例及其细节的这种提及并不是想要将所附权利要求的范围限制于此。本领域的技术人员很容易明白，在选择用来举例说明的实施例中可以进行各种其他修改，而不脱离权利要求所限定的本发明的精神和范围。
权利要求
1. 一种对图像分类的方法，包括a. 从一个或多个第一图像生成一个或多个颜色模型；b. 从所述一个或多个颜色模型中选择一个或多个最优颜色模型，其中所述最优颜色模型代表所述一个或多个第一图像中的颜色；以及c. 将来自一个或多个第二图像的一个或多个颜色分布与所述一个或多个最优颜色模型进行比较。
2. 如权利要求1所述的方法，其中，所述一个或多个颜色模型是椭圆的。
3. 如权利要求1所述的方法，其中，所述一个或多个颜色模型是在色相、饱和度、值颜色空间中生成的。
4. 如权利要求1所述的方法，还包括利用具有一个或多个所关注区域的一个或多个第三图像和不具有所关注区域的一个或多个第四图像来训练所述一个或多个颜色模型。
5. 如权利要求4所述的方法，其中，训练还包括使所述具有一个或多个所关注区域的一个或多个第三图.像与所述不具有所关注区域的一个或多个第四图像之间的差异最大化。
6. 如权利要求1所述的方法，还包括基于与所述一个或多个最优颜色模型的相似度来检索所述一个或多个第二图像。
7. 如权利要求6所述的方法，其中，所述一个或多个最优颜色模型与所述一个或多个颜色分布之间的距离越小，则相似度就越高。
8. 如权利要求1所述的方法，其中，关键字被用于选择所述一个或多个第一图像。
9. 如权利要求1所述的方法，其中，所述一个或多个第一图像是由用户选择的。
10. 如权利要求1所述的方法，其中，所述一个或多个最优颜色模型和所述一个或多个颜色分布是在因特网上被比较的。
11. 如权利要求1所述的方法，其中，所述一个或多个最优颜色模型和所述一个或多个颜色分布是在从由以下各项构成的组中选择出来的计算设备上被比较的个人计算机、膝上型计算机、数字照相机、数字摄像机、手持设备、iPod⑧和家庭娱乐系统。
12. —种对图像分类的方法，包括a. 从具有所关注区域的第一图像集合生成一个或多个颜色模型；b. 利用具有一个或多个所关注区域的第二图像集合和不具有所关注区域的第三图像集合来训练所述一个或多个颜色模型；C.将所述一个或多个颜色模型与来自第四图像集合的一个或多个颜色分布进行比较；以及d.基于所述一个或多个颜色模型与所述一个或多个颜色分布之间的比较来从所述第四图像集合中检索一个或多个图像。
13. 如权利要求12所述的方法，其中，所述一个或多个颜色模型是椭圆的。
14. 如权利要求12所述的方法，其中，所述一个或多个颜色模型是在色相、饱和度、值颜色空间中生成的。
15. 如权利要求12所述的方法，其中，训练还包括使所述具有一个或多个所关注区域的第二图像集合与所述不具有所关注区域的第三图像集合之间的差异最大化。
16. 如权利要求12所述的方法，其中，所述一个或多个颜色模型与所述一个或多个颜色分布之间的距离越小，则相似度就越高。
17. 如权利要求12所述的方法，其中，关键字被用于选择所述第一图像集合。
18. 如权利要求12所述的方法，其中，所述第一图像集合是由用户选择的。
19. 如权利要求12所述的方法，其中，所述一个或多个颜色模型和所述一个或多个颜色分布是在因特网上被比较的。
20. 如权利要求12所述的方法，其中，所述一个或多个颜色模型和所述一个或多个颜色分布是在从由以下各项构成的组中选择出来的计算设备上被比较的个人计算机、膝上型计算机、数字照相机、数字摄像机、手持设备、iPod⑧和家庭娱乐系统。
21. —种优化用于对图像分类的颜色模型的方法，包括a. 为一个或多个第一图像中的每一个生成颜色模型；b. 搜索用于使所述一个或多个第一图像和一个或多个第二图像之间的统计距离最大化的颜色模型；c. 通过将用于使所述统计距离最大化的颜色模型添加到颜色模型集合来更新该颜色模型集合；以及d. 重复对颜色模型的搜索和对颜色模型的更新，直到所述统计距离被最大化为止。
22. 如权利要求21所述的方法，其中，所述一个或多个第一图像包含一个或多个所关注区域，并且所述一个或多个第二图像不具有一个或多个所关注区域。
23. 如权利要求21所述的方法，其中，所述颜色模型是椭圆的。
24. 如权利要求21所述的方法，其中，所述颜色模型是在色相、饱和度、值颜色空间中生成的。
25. 如权利要求21所述的方法，其中，对颜色模型的优化是在从由以下各项构成的组中选择出来的计算设备上执行的个人计算机、膝上型计算机、数字照相机、数字摄像机、手持设备、iPod⑧和家庭娱乐系统。
26. —种用于比较多个图像的系统，包括a. —个或多个第一图像；b. 从所述一个或多个第一图像生成的一个或多个颜色模型；c. 具有一个或多个所关注区域的一个或多个第二图像，用于训练所述一个或多个颜色模型；d. 不具有所关注区域的一个或多个第三图像，用于训练所述一个或多个颜色模型；e. —个或多个第四图像；f. 从所述一个或多个第四图像生成的一个或多个颜色分布；以及g. 用于将所述一个或多个颜色模型与所述一个或多个颜色分布进行比较的程序。
27. 如权利要求26所述的系统，其中，所述一个或多个颜色模型是椭圆的。
28. 如权利要求26所述的系统，其中，所述一个或多个颜色模型是在色相、饱和度、值颜色空间中生成的。
29. 如权利要求26所述的系统，其中，所述一个或多个第四图像是基于所述一个或多个颜色模型与所述一个或多个颜色分布的相似度来检索的。
30. 如权利要求29所述的系统，其中，所述一个或多个颜色模型与所述一个或多个颜色分布之间的距离越小，则相似度就越高。
31. 如权利要求26所述的系统，其中，关键字被用于选择所述一个或多个第一图像。
32. 如权利要求26所述的系统，其中，所述一个或多个第一图像是由用户选择的。
33. 如权利要求26所述的系统，其中，所述一个或多个颜色模型和所述一个或多个颜色分布是在因特网上被比较的。
34. 如权利要求26所述的系统，其中，所述一个或多个颜色模型和所述一个或多个颜色分布是在从由以下各项构成的组中选择出来的计算设备上被比较的个人计算机、膝上型计算机、数字照相机、数字摄像机、手持设备、iPod⑧和家庭娱乐系统。
35. —种捕捉和显示设备，包括a. 接收单元，用于接收图像数据；b. 耦合到所述接收单元的显示单元，用于显示图像数据；以及c. 耦合到所述接收单元和所述显示单元的程序，用于通过以下步骤来比较所述图像数据i. 从一个或多个所选图像生成一个或多个颜色模型；ii. 从所述一个或多个颜色模型中选择一个或多个最优颜色模型，其中所述一个或多个最优颜色模型代表所述一个或多个所选图像中的颜色；以及iii. 将来自所述图像数据的一个或多个颜色分布与所述一个或多个最优颜色模型进行比较。
36. 如权利要求35所述的系统，其中，所述一个或多个颜色模型是椭圆的。
37. 如权利要求35所述的系统，其中，所述一个或多个颜色模型是在色相、饱和度、值颜色空间中生成的。
38. 如权利要求35所述的系统，其中，所述捕捉和显示设备是从由以下各项构成的组中选择出来的个人计算机、膝上型计算机、数字照相机、数字摄像机、手持设备、iPod⑧和家庭娱乐系统。
全文摘要
一种基于椭圆颜色模型来对图像分类的方法被用在若干种应用中。从具有所关注区域的图像集合生成一个或多个颜色模型。然后，多个图像集合被用于训练。一个图像集合具有所关注区域，另一图像集合不具有所关注区域。通过利用这两个图像集合，实现了集合之间的最大差异，从而使得颜色模型最大程度地代表所需的对象。然后，利用最优颜色模型，能够搜索一组图像，并且基于这些图像包含所需对象的概率来检索图像。
文档编号G06K9/00GK101421746SQ200780013363
公开日2009年4月29日申请日期2007年4月2日优先权日2006年4月11日
发明者李平山申请人:索尼株式会社;索尼电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李平山
技术所有人：索尼株式会社;索尼电子有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。