使用副传感器优化视频通信的制作方法

文档序号:7646723阅读:161来源:国知局
专利名称:使用副传感器优化视频通信的制作方法
1.发明领域本发明涉及视频通信领域,并且尤其涉及使基于将视频摄像机与一个诸如热传感器镶嵌这样的副传感器(secondary sensor)耦合的图像传送最佳的方法和系统。
2.现有技术的说明视频通信要消耗相对大的传输带宽,已经开发出并且要继续开发一些系统来减小所需带宽,或者使现有带宽的使用最佳。图像数据流的MPEG编码例如使用各种技术来减小要被传送和存储的数据量。为了便于参考,这里使用的术语带宽包括要被存储或被传输视频图像的被编码数据量。使用离散余弦变换(DCT)从空间上减小每个图像 内或一的一部分中的被编码信息的大小。使用运动估测技术暂时减小被编码信息的大小,这是基于连续图像之间的差值或移动来实现的。基于所需清晰度,使用量化来减小被编码信息的大小,或基于可用的带宽来减小大小和清晰度。每种技术都倾向于使带宽分配最佳从而当解码接收图像并显示时可以区分图像特性而不会引入能观察到的变形。
即使使用MPEG编码的带宽最优化技术,对于低带宽系统还是需要一些折中。例如,经互联网通信的视频图像一般都需要小尺寸图像,从而提供小于相同图像数据流的全分辨率DVD版本的分辨率。供视频会议通信的视频图像通常以小于一般电视广播帧速率一半的速率编码,因此在显示器上会造成图像的延迟和不连续。
在这里作为参考由Je-chang Jeong申请并公开于12 December1995的美国专利5475433“FUZZY-CONTROLLED CODING METHOD AND APPRATUSTHEREFOR”公开了另一种优化视频图像的MPEGA编码方法,它是基于特性的组合调整上述编码技术的参数。例如,在缺少细节将不会在快速移动景象中看出来的前题下,至少以小于相对静态图像的清晰度编码带有大量运动的图像序列。以相同方式,使用该图像的复杂程度以及其亮度以及可用的带宽量来调整被传输图像的量化程度、以及清晰度。
已经建议其它一些技术来提高带宽分配处理,其中多数依赖于将图像分割为“目标”或“目标区”。例如,MOEG4允许将目标从其背景中分离出来,并由此允许将该目标以不同于背景并好于背景的清晰度编码。希望这种编码技术特别适合于视频会议,其中将受限带宽的多数分配给景象中的人“目标”,而将最小的带宽分配给背景。以这种方式,尽管背景中的运动可以表现出交错和潜在地模糊不清,但是景象中的人目标将会清晰体现,并且具有较高帧速率从而能减小延迟和不连续。这些依赖于目标的编码技术还可以促进绘画般的艺术效果,其中可以用不同于背景景象或其他目标来编码所选目标。
然而,这些分配带宽或在编码图像中为感兴趣目标提供绘画艺术效果的改进技术需要识别图像中的每个目标。但是,目标识别是一项复杂的处理工作,它通常需要处于用户设备可行的成本范围内的处理设备。当前目标识别设备的高成本以及相对低的精度使其排除在多数得益于优化编码的应用比如视频会议以及互联网视频通信之外。
本发明的一个目的是提供一种能促进视频图像带宽分配最优化的目标识别方法和系统。本发明的另一个目的是提供一种具有基于目标源分配的低成本视频系统。本发明的又一个目的是提供一种促进带宽分配优化的低成本视频系统。本发明的再一个目的是提供一种从背景图像中识别出一个目标的装置。
通过提供一种能检测到与视频摄像机相同景象的副传感器。使用副图像来识别对应于感兴趣目标的视频图像区。然后以好于该视频图像其他区域的清晰度水平编码感兴趣的被识别出的区域。用来检测诸如视频会议场景中的一些人这样的活体目标的一个最佳副传感器可以是惯用的红外线热传感器矩阵。通过以非常粗水平清晰度将该视频图像对应于热传感器矩阵活体温度区的区域编码,可以将可用带宽分配用于以高清晰度或以较高帧速率来传送较高温度区。副图像还可被用作针对惯用目标识别应用的“前端滤波器”,由此增加这些应用的有效性和精度。
参考附图并借助于例子来详细解释本发明,其中

图1示出了根据本发明的编码系统的一个实例框图;图2示出了根据本发明的摄像机系统的一个例子;图3示出根据本发明的编码系统的一个实例流程这些附图中相同的标记表示相同或对应的特性和功能。
图1示出了根据本发明的编码系统100的一个实例框图。编码系统100包括一个视频图像源110,相应的副图像120以及编码器150。为了便于参考,在这里使用术语图像定义对应于收集设备观察景物区域内目标的值阵列。例如,视频图像110一般对应于有关在视频摄像机观察景物范围内的可视光线收集到的值阵列。该值阵列可以是各种格式中的任何一种,并且尽管在图中表示为一个值阵列,但是它可以是一系列值数据流。
如同下面进一步讨论的那样,根据本发明的副图像120不是视频图像110的派生物,而是基本上体现了与经用于收集视频图像110的传感器的可替换传感器收集到的视频图像相同的景象。在一个最佳实施例中,该副图像120表示为经一个红外线热传感器收集到的景象,尽管还可以使用其他副传感设备。优选地,该副传感器捕获能促使视频图像110中的潜在感兴趣目标101识别的景物特性。红外线传感器尤其适合于检测诸如人类这样的活体目标,即使在目标被完全包装的时候。例如,当特定颜色与潜在的感兴趣目标有关时,可以使用诸如特定可视颜色检测器这样的其他传感器。如图所示,副图像120的分辨率可以不同于视频图像110。例如,在一个低成本实施例中,该副图像120可以是64×64的热值阵列,而视频图像110可以是330×485或更大的亮度和色度值阵列。基于其成本/性能之间的权衡来选择副图像120的分辨率。副图像120的分辨率确定了用来确定感兴趣目标101外形的精度,并由此确定可以获得的编码优化度,但是,用来产生高分辨率图像120的传感器成本基本上高于产生低分辨率图像120的传感器成本。例如,在用于识别场景中新闻的专业系统中可以保证这样一种高成本,并且这种专业系统可以基于新闻内容来替换合适的图像背景。
为了便于参考和理解,使用基于热辐射来识别潜在目标或视频图像中的感兴趣区域以及调整对这些目标或感兴趣编码过程中所提供的清晰度水平的例子来说明本发明。如同这些公开的内容对于本领域技术人员而言将是显然的那样,可以使用副图像的其它特性来控制视频图像的编码,比如基于特定颜色来识别目标。以类似方式,可以根据被检测到的特性来调整诸如亮度、颜色强度、帧速率等等其他编码参数。在本发明的上下文中,影响图像编码的任何参数或特性都被称为“编码参数”。例如,代替直接调整背景区细节的编码水平,可以将这些区域内的亮度和色度值设定为一个恒定值,由此减小这些区中需要被编码的信息内容。
如图1所示,使用副图象120来控制由用于将视频图象110编码的编码器150所使用的编码参数160。例如,将目标101显示为重叠在图象110、120上。在前述红外线传感器例子中,如果该目标101是一个热源,则对应于由红外线发射目标101重叠的红外线图象120的传感区将具有高于周围区域的检测值。部分由红外线发射目标101重叠的区域将具有低于完全由红外线发射目标101重叠区域的一个平均检测值,但是其值高于没有包含红外线发射源的区域的值。如果,如图所示,副图象120的区域121包含对应于区域121中存在活体目标(发热体)的特性(较高的热检测值),则编码器150以好于没有显示发热体存在的副图象120中区域的清晰度水平将对应于区域121的视频图象110编码。可以改变这种清晰度水平,例如,通过修改在MPEG编码中的DCT量化值所用的量化阶梯大小来实现。另外,还可以调整其他编码参数160来替代量化参数的调整。例如,通过与包含其他区域的相比多传送包含感兴趣区域的 来获得较高帧速率的感觉。
注意,区域121的特性可以是能影响视频图象110中相应区域111编码清晰度水平的许多参数160中的一种。例如,可以使用在上述US专利5475433中描述的“模糊逻辑”系统来确定依赖于包括一个或多个副图象120特性的各种因素的编码清晰度水平。在这里作为参考、由Shing-Chi Tzou、Zhiyong Wang以及Janwun Lee于1998年12月23日申请、序列号为09/220292、代理人摘要PHA23597的待审US专利申请“MOTION-ANALSIS BASED BUFFER REGULATION SCHEME”中公开了使用包含用来为视频图象中每个MPEG标准块确定量化阶梯大小的额定值的一个图象映射。基于数据块的当前以及前一个特性动态调整每个块的额定值。如引用的US专利5474433所述,调整该额定值从而产生用于其内容变换很快的“动态”块的较粗糙清晰度。使用图象映射可以连续提高视频图象的表现力。例如,将图象中的“静态”块连续以越来越精细的清晰度编码,以服从于可用带宽,从而可以使用带宽中任何潜在的“间歇”以改进图片品质。该发明以及待审发明的一个最佳组合将支持对于由副图象120识别的感兴趣区域的连续精细编码,而不是潜在的不感兴趣区域。即为,例如,可以给识别出的感兴趣区域以较高的优先权以便于分配可用带宽,在以预定可以接受的清晰度水平展现感兴趣区之后将带宽分配给不感兴趣的区域。
如同所公开的内容对于本领域技术人员将是显然的那样,可以使用各种技术使副图象120的区域特性与视频图象110的区域清晰度相关。可以使用副图象120区域特性的滤波性或内插性来确定视频图象110每个区域、块的相应的量化因子从而使用现有技术中的惯用技术减小副图象120每个区域边缘部分的不连续。在一种清楚的目标识别方法中,可以将副图象120用作针对惯用目标识别应用的“前端滤波器”。在这样一个实施例中,将目标识别应用构造成为潜在目标优先搜索由副图象120的区域特性识别出的感兴趣区。同样,如果将目标识别应用设计用来发现那些已知对应于相对于副图象120的最小尺寸区域的目标,则可以将搜索限制在包含具有占用最小尺寸区域的所需特性的连续块的副图象区域。当目标识别应用识别出一个感兴趣的目标,编码器150可以以较精细水平的清晰度来编码视频图象110的各个区,或者,如果直接编码支持诸如MPEG-4编码这样的依赖于目标的编码,则编码器150使用相关量化参数将识别出的区域编码为一个清楚的目标。编码的特定细节以及其相关的清晰度依赖性将根据所使用的特定编码方法,并且用于基于目标或感兴趣区域识别使清晰度水平最佳的其他技术对于本领域技术人员而言将是显然的。
图2示出了根据本发明的摄像机系统200的一个例子。摄像机系统200包括一个用于收集视频图象(图1中的110)的摄像机210,以及用来收集副图象(图1中的120)的副传感器220。为了使副图象120能对应视频图象110,摄像机210的可视区215和传感器220的可视区225应该基本上是对应的。在一个理想的实施例中,使用由摄像机使用来产生视频图象110的同样的光学系统并通过集成在摄像机210中的传感器220来产生副图象120,从而可以获得准确的对应性。但是,如图2所示,不需要准确的对应性。图2示出了与摄像机210相邻的一个副传感器220,所示传感器220的结构是作为“任意”一种通用视频摄像机210,或根据本发明作为位于包括内部编码器(图1的150)的摄像机210上的一个可移动附件。
根据传感器220相对于摄像机210的特定结构,存在其中可视区215、224基本对应的一个区域275。在该区域275中,如图1所示,图像110、120之间的对应性基本是线性的。根据所需精度,可以将超过对应区域275区域内的图像110、120之间的映射定义为使用现有技术中通用逼近技术的更为复杂的坐标变换。如果摄像机210具有变焦能力,则可视区215将因此而缩短或延伸。在一个理想实施例中,摄像机210的焦距变化将影响副传感器可视区225的相应变化。另外,在较低成本实施例中,可视区225可以固定。在该实施例中,将可视区225设置为其中可能出现感兴趣目标的“典型”区域。由于该实施例中摄像机210的镜头拉伸设置,因此将超出副传感器220可视区225的摄像机210可视区215中的视频图像110区设置为默认粗糙水平清晰度。以类似方式,由于摄像机210的镜头拉入设置,除了需要影响上述特性值的内插以防止边缘不连续之外,可以忽略超出摄像机210可视区215的副图像120的区域。还可以使用为了提高图像110、120之间相关性的辅助方法。例如,可以通过比较图像110、120的特性并使用现有技术中公知的最小二乘方误差曲线拟合技术来确定适当的坐标变换,从而确定图像110、120之间坐标变换合适的参数。
可以使用现有技术中公知各种设备中的任何一种来提供图2的副传感器220以便产生图1的副图像120。在红外线领域,一般使用热成像阵列。常规可用的热阵列提供具有64×64区域(121)的图像(图1中的120),还可以使用更大以及更小的阵列。于2000年2月29日由Kimata等人申请在这里作为参考的US专利6031231“INFRARED FOCALPLANE ARRAY”提供了对于被安排在半导体衬底上的温度检测单元的二维红外线聚焦面阵列的概述。于1989年9月19日由Antoine Y.Messiou等人申请在这里作为参考的US专利4868391“INFRARED LENS ARRAYS”提供了一种被以不同角度安排以便提供一个宽可视区的菲涅耳透镜阵列,将该阵列构造成基本为平板状。在391专利中,每个透镜具有一个公共聚焦点,激励一个单独的温度检测单元。在本发明一个优选低成本实施例中,安排菲涅耳透镜阵列来直接将热能量施加到位于半导体衬底上的一些温度检测单元。来自这些温度检测单元的输出对应图1的图像120。
注意,传感器220中的各个检测单元的可视区不需要一致。例如,在本发明的一个最佳实施例中,对应于图像120周边区域的菲涅耳透镜比对应于图像120中心区域的菲涅尔透镜具有更宽的可视区,这是因为很可能感兴趣目标或区域一般将被设置在靠近视频图像110的中心的位置。
还应该注意,传感器220可以响应常规红外线相机。在这样一个实施例中,将红外线相机220和视频摄像机210安装在通用载体上,并且由一个公共控制系统控制。每个相机210、220将其相应图象110、120提供给编码器150以便进行上述处理。
可以将编码器150设置在能直接从相机210和传感器220中读出图象110、120的设备中,并且可以插入到相继210或传感器220中。以类似方式,编码器150、相继210以及传感器220可以体现为一个单一设备。编码器150还可以是能够从由相机210和传感器220记录或传送中获得图象110、120的一个独立设备。优选地,为每个图象110、120提供一个时间标记以便于视频图象110和副图象120之间的同步。注意,相继210和传感器220的帧速率不需要相同,仅仅假设副图象120能够与视频图象110基本在时间上相关。对于公开的内容,这些以及其它系统结构对于本领域技术人员将是显然的。
图3示出了根据本发明的编码系统的流程图实例。为了便于理解起见,参考图1和2以及直接的MPEG编码来描述该流程图,而不描述上述实施例的细节。如同对于本领域技术人员是显然的那样,本发明不局限于该例子。
在310,确定了副图象120和视频图象110之间如上所述的相关性。在320,确定了默认量化因子。该默认量化因子对应于产生相对粗糙水平清晰度的常规MPEG编码中的量化阶梯大小。可以基于可用带宽、优先的图象品质、优先图象的总体动态复杂性等等来确定该默认因子。为了方便起见,在330将该默认量化因子分配给视频图象110的每个区,并随后通过环路340-360基于诸如来自副图象120的发热目标轮廓这样的副图象120特性来有选择地修正它。
在环路340-360中连续处理副图象120的每个区。在该例子中,在345,使用一个简单的门限检测来确定每个区是否对应“感兴趣区”。副图象120的每个区121都具有相关性,诸如对应于区域121内被检测到热量的电阻或电压,并且使用该特性的一个检测值确定该区是否是“感兴趣区”。如果该检测值超出门限值,则在350调整视频图象110的相应区111的量化因子以便于以精细水平的清晰度实现编码。如上所述,可以将环路340-360替换为基于内插每个区121的检测值从而为视频图象110的每个区进行合适量化因子的连续确定。以类似方式,可以将环路340-360替换或增大为如同在US专利5475433中所述的模糊逻辑系统,或在上述待审申请09/220292中所讨论的渐进步骤。以类似方式,可以将环路340-360替换为通用的目标识别系统,如上所述,该目标识别系统使用图象120的检测特性以实现有效目标搜索。
在370,使用上述基于副图象120确定的量化因子将视频图象110编码。编码和量化因子还可以依赖于诸如可用带宽、复杂程度以及移动等等其他参数,使用现有技术中公知技术或如同在待审US专利申请09/220292中所公开的技术。
上述内容仅仅说明了本发明的原理。对于公开内容而言,其他是是离合应用对于本领域技术人员将是显然的。例如,尽管本发明是以优化传送图象所需带宽的形式出现,但是,这里呈现的编码方法可以等同地应用于优化用于存储图像的存储需要,并且可用于优化诸如视频磁带这样的记录介质的容量。本领域技术人员将可以了解到,可以作出各种装置,尽管在这里没有明确描述或示出,这些装置体现了本发明的原则并且都包括在后面权利要求的范围内。
权利要求
1.一种视频编码系统(100),被构造成接收至少一个视频图象(110)和至少一个相应的副图象(120),该系统包括编码器(150),使用依赖于该副图象(120)对应区(121)特性的编码参数(160)来将视频图象(110)模式的若干区中的每个区(111)编码,并由此而产生视频图象(110)的编码。
2.根据权利要求1的视频编码系统(100),进一步包括一个图象监测器(210),用于检测第一可视区(215)中的可视光,并由此产生至少一个对应于第一可视区(215)的视频图象(110),以及一个热检测器,检测基本上对应于图象检测器(210)第一可视区(215)的至少一部分的第二可视区(225)内的红外线发射,并由此产生相应的副图象(120)。
3.根据权利要求1的视频编码系统(100),其中相应副图象(120)的至少一部分提供一个目标相关模式(101),以及将编码器(150)构造成基于目标相关模式(101)将视频图象(110)内的目标编码。
4.根据权利要求3的视频编码系统(100),进一步包括一个目标识别系统,基于至少一个相应副图象(120)来实现目标模式(101)的识别。
5.根据权利要求1的视频编码系统(100),其中进一步将编码器(150)构造成基于至少一种下列参数来编码若干区中的每个区(111)运动参数、复杂性参数、亮度参数以及带宽参数。
6.根据权利要求1的视频编码系统(100),其中编码参数(160)对应于视频图象(110)编码的清晰度水平。
7.根据权利要求6的视频编码系统(100),其中副图象(120)相应区(121)的特性是与副图象(120)相应区(121)有关的温度检测值。
8.根据权利要求7的视频编码系统(100),其中进一步将编码器(150)构造成基于至少一种下列参数来编码若干区中的每个区(111)运动参数、复杂性参数、亮度参数以及带宽参数。
9.一种相机系统(200),包括视频摄像机(210),收集对应于视频摄像机(210)第一可视区(215)的视频图象(110),副检测器(220),可操作地与视频摄像机(210)相连,收集对应于基本上对应第一可视区(215)的至少一部分的第二可视区(225)的副图象(120),从而基于相关的副图象(120)来随后实现对视频图象(110)内感兴趣区(101)的识别。
10.根据权利要求9的相机系统(200),其中副检测器(220)包括一个热检测器。
11.根据权利要求9的相机系统(200),进一步包括一个编码器(150),将构造成根据相应副图象(120)的特性来编码视频图象(110)并由此产生一个编码输出。
12.根据权利要求11的相机系统(200),进一步包括至少下列一个部分一个发射机,构造成将编码输出发送给接收机,以及记录器,构造用来存储编码输出。
13.根据权利要求11的相机系统(200),进一步包括一个目标识别系统,使用副图象(120)来实现目标相关模式(101)的识别,以及其中将编码器(150)构造成基于目标相关模式(101)将视频图象(110)内的目标编码。
14.根据权利要求11的相机系统(200),其中进一步将编码器(150)构造成基于至少一种下列参数来编码若干区中的每个区(111)运动参数、复杂性参数、亮度参数以及带宽参数。
15.根据权利要求11的相机系统(200),其中相应副图象(220)的特性对应于第二可视区(225)内的热发射的检测。
16.根据权利要求11的相机系统(200),其中将编码器(150)构造成使用依赖于相应副图象(120)特性的量化因子来编码视频图象(110)。
17.根据权利要求16的相机系统(200),其中量化因子进一步依赖于至少一种下列参数运动参数、复杂性参数、亮度参数以及带宽参数。
18.一种将视频图象(110)编码的方法,包括接收对应于视频图象(110)至少一部分的副图象(120),确定(310)该副图象(120)与视频图象(110)之间的相关性,根据所述副图象(120)的对应区(121)特性,将一个编码因子结合到视频图象(110)若干区中的每个区(111),以及基于所述相关编码因子,将视频图象(110)若干区中的每个区(111)编码(370)。
19.根据权利要求18的方法,其中副图象(120)包括一个热映射。
20.根据权利要求18的方法,其中编码参数(160)影响对视频图象(110)每个区(111)编码的清晰度水平。
全文摘要
提供副传感器以便检测到与视频摄像机相同的景象。使用源于副传感器的图像来识别对应于感兴趣目标的视频图像区域。能够以比该视频图像中的其它区域更好的清晰度来将感兴趣的被识别区域编码。用于检测诸如视频会议景象中的一些人这样的有生命目标的一种最佳副传感器是一种惯用的红外线热传感器矩阵。通过以一般较低的清晰度来编码对应于该热传感器矩阵的周围温度区域的视频图像区,可以将可用的带宽分配以便以较好的清晰度或以较高的帧速率传送较高温度区域。还可以将该副传感器用作针对于一般目标识别应用的“前端滤波器”,由此可以增加这些应用的有效性和精确性。
文档编号H04N7/26GK1393111SQ01802968
公开日2003年1月22日 申请日期2001年7月23日 优先权日2000年8月8日
发明者M·巴克姆特斯基 申请人:皇家菲利浦电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1