具有模式检测的视频处理系统及其使用方法

文档序号：7998449阅读：260来源：国知局

具有模式检测的视频处理系统及其使用方法
【专利摘要】本发明公开了一种具有模式检测的视频处理系统及其使用方法，所述系统用于将视频信号处理为处理后的视频信号，所述视频信号包括图像序列，所述系统包括：模式识别模块，用于基于编码反馈数据检测图像序列中的感兴趣模式并作为其响应产生模式识别数据，其中所述模式识别数据指明感兴趣的模式；及连到所述模式识别模块的视频编解码器，其基于图像序列产生处理后的视频信号及在处理图像序列时产生编码反馈数据。
【专利说明】具有模式检测的视频处理系统及其使用方法
[0001]相关申请交叉引用
[0002]本申请要求2012年 4 月 18 日申请的、题为 “VIDEO PROCESSING SYSTEM WITHPATTERN DETECTION AND METHODS FOR USE THEREWITH” 的美国临时申请 61/635，034 的优先权，其内容通过引用组合于此。
【技术领域】
[0003]本发明涉及装置如视频编码器/解码器中使用的编码。
【背景技术】
[0004]对于现代视频处理装置，视频编码已成为很重要的问题。鲁棒的编码算法使视频信号能用减小的带宽传输并保存在更小的存储器中。然而，这些编码方法的准确度面向用户细看，用户越来越习惯更高的分辨率和更好的图片质量。已公布针对许多编码方法的标准，包括H.264，其也称为MPEG-4、部分10或高级视频编码(AVC)。在该标准提出许多强大的技术的同时，进一步的改善是可能的以提高这些方法的实施性能和速度。对于需要大量计算和存储的高分辨率视频信号，视频编码是计算复杂的任务。
[0005]通过比较本发明和常规/传统方法，常规/传统方法的另外的局限和缺点对本领域技术人员将显而易见。

【发明内容】

[0006]本发明提供一种用于将视频信号处理为处理后的视频信号的系统，所述视频信号包括图像序列，所述系统包括:模式识别模块，用于基于编码反馈数据检测图像序列中的感兴趣模式并作为其响应产生模式识别数据，其中所述模式识别数据指明感兴趣的模式；及连到所述模式识别模块的视频编解码器，其基于图像序列产生处理后的视频信号及在处理图像序列时产生编码反馈数据。
[0007]本发明还提供一种用于将视频信号编码为处理后的视频信号的方法，所述视频信号包括图像序列，所述方法包括:在经编码器部分对图像序列进行编码时产生编码器反馈数据；基于所述编码器反馈数据检测图像序列中的感兴趣模式；当检测到感兴趣模式时产生模式识别数据，其中所述模式识别数据指明感兴趣模式。
【专利附图】

【附图说明】
[0008]图1为根据本发明实施例的视频处理系统的框图表示。
[0009]图2为根据本发明实施例的视频处理系统的框图表示。
[0010]图3为根据本发明实施例的视频处理系统的框图表示。
[0011]图4为根据本发明另一实施例的模式识别模块的框图表示。
[0012]图5为根据本发明另一实施例的镜头数据的时间框图表示。
[0013]图6为根据本发明另一实施例的镜头数据的时间框图表示。[0014]图7为根据本发明另一实施例的后处理模块的框图表示。
[0015]图8为根据本发明另一实施例的可搜索索引的表格表示。
[0016]图9为根据本发明实施例的视频处理系统的框图表示。
[0017]图10为根据本发明另一实施例的模式识别模块的框图表示。
[0018]图11为根据本发明另一实施例的模式检测模块的框图表示。
[0019]图12为根据本发明另一实施例的图像的绘画表示
[0020]图13为根据本发明实施例的补充模式识别模块的框图表示。
[0021]图14为根据本发明另一实施例的镜头数据的时间框图表示。
[0022]图15为根据本发明另一实施例的候选区域检测模块的框图表示。
[0023]图16为根据本发明另一实施例的图像的绘画表示。
[0024]图17-19为根据本发明另一实施例的多个图像的绘画表示。
[0025]图20为根据本发明实施例的视频分布系统的框图表示。
[0026]图21为根据本发明实施例的视频存储系统的框图表示。
[0027]图22为根据本发明实施例的视频服务器的框图表示。
[0028]图23为根据本发明实施例的方法的流程图表示。
[0029]图24为根据本发明实施例的方法的流程图表示。
[0030]图25为根据本发明实施例的方法的流程图表示。
[0031]图26为根据本发明实施例的方法的流程图表示。
[0032]图27为根据本发明实施例的方法的流程图表示。
[0033]图28为根据本发明实施例的方法的流程图表示。
[0034]图29为根据本发明实施例的方法的流程图表示。
[0035]图30为根据本发明实施例的方法的流程图表示。
[0036]图31为根据本发明实施例的方法的流程图表示。
[0037]图32为根据本发明实施例的方法的流程图表示。
[0038]图33为根据本发明实施例的方法的流程图表示。
[0039]图34为根据本发明实施例的方法的流程图表示。
[0040]图35为根据本发明实施例的方法的流程图表示。
[0041]图36为根据本发明实施例的方法的流程图表示。
[0042]图37为根据本发明实施例的方法的流程图表示。
【具体实施方式】
[0043]图1示出了根据本发明实施例的视频处理系统102的框图表示。具体地，视频处理系统102包括视频编解码器103和模式识别模块125。视频编码/解码和模式识别均为计算复杂的任务，尤其对高分辨率视频进行编码/解码和模式识别时。一些时间和空间信息，如码块的运动向量和统计信息及镜头分割对两个任务均有用。这样，如果一起开发这两个任务，它们可共享信息并节省实施这些任务所需要的努力。
[0044]具体地，视频系统包括接收模块100，如视频服务器、机顶盒、电视接收机、个人计算机、有线电视接收机、卫星广播接收机、宽带调制解调器、3G收发器、网络节点、电缆头端器或能够从一个或多个源接收一个或多个视频信号110的其它信息接收器或收发器，前述源如视频内容提供商、广播电缆系统、广播卫星系统、因特网、数字视频光盘播放器、数字录像机、或其它视频源。视频处理系统102连到接收模块100以经视频编解码器103的操作对一个或多个视频信号110进行编码、解码或/或转码从而形成处理后的视频信号112。
[0045]在本发明的实施例中，视频信号110可包括广播视频信号，如电视信号、高清晰度电视信号、增强的高清晰度电视信号、或已在无线媒质上直接或通过一个或多个卫星或其它中继站或通过电缆网、光网络或其它传输网络进行传输的其它广播视频信号。此外，视频信号110可从保存的视频文件产生、从记录介质如磁带、磁盘或光盘播放，及可包括在公共或专用网络如局域网、广域网、城域网或因特网上传输的流传输视频信号。
[0046]视频信号110和处理后的视频信号112中的每一个可以是以多种模拟视频格式中的任一格式进行格式化的模拟音频/视频(A/V)信号中的不同信号，前述格式包括国家电视系统委员会(NTSC)制式、逐行倒相(PAL)制式、或顺序传送彩色与记忆(SECAM)制式。视频信号110和/或处理后的视频信号112中的每一个可以是未压缩的数字音频/视频格式的数字音频/视频信号，前述格式如高清晰度多媒体接口(HDMI)格式化数据、国际电信同盟推荐标准BT.656格式化数据、内部集成电路声音(I2S)格式化数据、和/或其它数字A/V数据格式。
[0047]视频信号110和/或处理后的视频信号112中的每一个可以是压缩数字视频格式的数字视频信号，前述格式如H.264、MPEG-4部分10高级视频编码(AVC)或其它数字格式如运动图像专家组(MPEG)格式(如 MPEGl、MPEG2 或 MPEG4)、Quicktime 格式、Real Media格式、Windows Media Video (WMV)、或音频视频交叉存取(AVI)格式、或另一数字视频格式，或标准或专用。当视频信号110接收为数字视频和/或处理后的视频信号112以数字视频格式产生时，数字视频信号可非必须地加密，可包括对应的音频，及可格式化以经一个或多个容器格式传输。
[0048]前述容器格式的例子为加密的因特网协议(IP)包如IP TV、数字传输内容保护(DTCP)等中使用的包。在该情形下，IP包的净荷包含几个传送流(TS)包及IP包的整个净荷均被加密。容器格式的其它例子包括卫星/有线广播等中使用的、加密的TS流。在这些情形下，TS包的净荷包含分成包的基本流(PES)包。另外，数字影碟(DVD)和蓝光光碟(BD)使用PES流，其中每一 PES包的净荷均被加密。
[0049]在运行时，视频编解码器130将视频信号110编码、解码或转码为处理后的视频信号112。模式识别模块125与视频编解码器103协作地运行，并行或一前一后，并基于在编码、解码或转码视频信号110时产生的、来自视频编解码器103的反馈数据。模式识别模块125处理视频信号110中的图像序列以检测感兴趣的模式。当检测到一个或多个感兴趣的模式时，作为响应，模式识别模块125产生模式识别数据156，其指明感兴趣的模式。模式识别数据可采取这样的数据形式，其识别模式和对应的特征如颜色、形状、大小信息、数量和运动、物体或特征的识别、及这些模式或特征在图像序列的特定图像区域中的位置、和包含这些特定物体或特征的序列中的特定图像。
[0050]由视频编解码器103产生的反馈可呈现许多不同的形式。例如，在时间和空间信息由视频编解码器103用于消除冗余时，该信息也可由模式识别模块125用于检测或识别特征如天空、草地、海洋、墙壁、建筑物及建筑特征如建筑类型、建筑层数等、移动的交通工具和动物(包括人)。在编码时估计的或在解码时取回的、运动向量形式的时间反馈(或通过非常低分辨率的光流得到的运动信息)可由模式识别模块125用于经多种运动组算法进行的、基于运动的模式区分或识别。此外，时间信息可由模式识别模块125用于通过时间噪声滤波而改善识别，从而为识别图像序列中的最佳图像及为识别跨一系列图像的时间特征提供多个候选图片。空间信息如统计信息，例如从输入YUV估计的或为输入流取回的方差、频率分量和比特消耗，可用于通过多种不同的分类器进行的、基于纹理的模式区分和识别。更多的识别特征如结构、纹理、颜色和运动特征可用于精确的模式区分和识别。例如，行结构可用于辨识和表征人造物体如建筑和交通工具。随机运动、刚体运动和相对位置运动分别在区分水、交通工具和动物时有效。来自编码或解码的、辨识图像序列中视频镜头之间的转变的镜头转变信息可用于开始新的模式检测和重新组织并为跨多个图像的时间识别提供分界点。
[0051]此外，来自模式识别模块125的反馈可用于引导视频编解码器103进行的编码或转码。在模式识别之后，可取回更具体的结构和统计信息，这些信息可引导方式决策和速率控制以提高视频信号110的编码或转码质量和性能。模式识别也可产生辨识具有不同特性的区域的反馈。这些前后关系更正确及分组的运动向量可提高质量并节约编码比特，尤其在低比特率情形下。在模式识别之后，估计的运动向量可根据反馈进行分组和处理。具体地，模式识别反馈可由视频编解码器103在编码或转码视频信号110时用于图像或图像序列的不同区域的比特分配。通过模式识别和编解码器一起运行，它们可彼此提供有力的帮助。
[0052]视频处理系统102可结合下面参考图2-34描述的许多可选功能和特征进行实施。
[0053]图2示出了根据本发明实施例的视频处理系统102的框图表示。具体地，视频处理系统102包括具有解码器部分240和编码器部分236的视频编解码器103，其根据H.264标准、MPEG-4标准、VC-1 (SMPTE标准421M)或其它标准运行以对经信号接口 198接收的视频输入信号进行解码、编码、转码流或转码从而产生处理后的视频信号112。在对视频信号110进行编码、解码和/或转码时，视频编解码器103连同编码反馈产生或取回视频信号110的内容的解码图像序列以传给模式识别模块125。模式识别模块125基于图像序列运行以产生模式识别数据156和传回视频编解码器103的模式识别反馈。具体地，模式识别模块125可经聚类、统计模式识别、句法模式识别或经其它模式检测算法或方法运行以检测视频信号110的图像或图像序列(帧或场)中的感兴趣的模式并作为响应产生模式识别数据 156。
[0054]处理模块230可使用单一处理装置或多个处理装置实施。前述处理装置可以是微处理器、协处理器、微控制器、数字信号处理器、微计算机、中央处理单元、可现场编程门阵列、可编程逻辑装置、状态机、逻辑电路、模拟电路、数字电路、和/或基于保存在存储器如存储模块232中的操作指令操纵信号(模拟和/或数字)的任何装置。存储模块232可以是单一存储装置或多个存储装置。前述存储装置可包括硬盘驱动器或其它磁盘驱动器、只读存储器、随机存取存储器、易失性存储器、非易失性存储器、静态存储器、动态存储器、闪存、高速缓冲存储器、和/或保存数字信息的任何装置。应注意，当处理模块经状态机、模拟电路、数字电路和/或逻辑电路实施其一个或多个功能时，保存相应操作指令的存储器可能嵌入在包括状态机、模拟电路、数字电路和/或逻辑电路的电路内或在该电路的外部。
[0055]处理模块230和存储模块232经总线250连到信号接口 198和多个其它模块，如模式识别模块125、解码器部分240和编码器部分236。在本发明的实施例中，信号接口 198、视频编解码器103和模式识别模块125中的每一个均结合处理模块230和存储模块232运行。视频处理系统102的每一模块根据处理模块230的具体实施可以软件、固件或硬件实施。还应注意，本发明的软件实施可保存在有形存储介质如磁盘或光盘、只读存储器或随机存取存储器上，及也可产生为制造物品。在示出特定总线体系结构的同时，使用一个或多个模块之间的直接连接和/或另外的总线的备选体系结构也可根据本发明进行实施。
[0056]图3示出了根据本发明实施例的视频处理系统102的框图。如先前所述，视频编解码器103基于视频信号产生处理后的视频信号112，取回或产生图像序列310，且还产生编码反馈数据300。在编码反馈数据300可包括其它时间或空间编码信息的同时，编码反馈数据300包括辨识图像序列中对应于多个视频镜头的时间段的镜头转变数据，多个视频镜头中的每一个包括图像序列310中的多个图像。
[0057]模式识别模块125包括镜头分割模块150，其基于编码反馈数据300将图像序列310分割为对应于多个镜头的镜头数据154。模式检测模块175分析镜头数据154并产生模式识别数据156，其结合多个镜头中的至少一个辨识至少一感兴趣的模式。
[0058]在实施例中，镜头分割模块150基于包括例如由预处理信息产生的镜头转变数据152的编码反馈数据300运行，如预处理信息如编码时的方差及减小的运动成本；及基于解码时的参考和比特消耗信息。镜头转变数据152不仅可包括在编码反馈数据300中，而且可由视频编解码器103产生以用在GOP结构决策、方式选择和速率控制中从而提高编码质量和性能。
[0059]例如，编码预处理信息如方差和减小的运动成本可用于镜头分割。基于它们的历史追踪，如果方差和减小的运动成本发生引人注目地变化，则发生突然的镜头转变；当方差保持单调变化及运动成本在单调方差变化的开始和结束点上涨和降低时，有逐渐的镜头转变，如淡入、淡出、叠化和擦除。在解码时，可类似地使用帧参考信息和比特消耗。输出的镜头转变数据152不仅可用于GOP结构决策、方式选择和速率控制以提高编码质量和性能，而且可用于图像序列310的时间分割，及作为帧率不变的镜头级搜索特征的启动。
[0060]索引数据115可包括文本串，其辨识在视频存储和检索时使用的感兴趣的模式，尤其是用于查找感兴趣的视频(如与运动或烹饪有关)、找出包含某些画面(如一男一女在沙滩上)的视频、某一主题(如关于美国南北战争)、某些场所(如埃菲尔铁塔)、某些物品(如百达翡丽手表)、某些主题(如浪漫、战斗、恐怖)等。为视频编索引可细分为五个步骤:基于领域特有属性建模、分割、提取、表示、组织。在编码时使用的一些功能如镜头(时间上和视觉上连接的帧)和场景(时间和前后关系连接的镜头)分割也可用于视觉的编索引。
[0061]在运行时，模式检测模块175经聚类、统计模式识别、句法模式识别或经其它模式检测算法或方法运行以检测图像或图像序列310中的感兴趣的模式并作为响应产生模式识别数据156。这样，每一镜头中的物体/特征可与包含这些物体和特征的镜头关联，其可用于编索引及在索引的视频中搜索关键物体/特征及搜索包含这些物体/特征的镜头。索引数据115可用于在服务器、机顶盒或其它视频处理系统中基于提取的信息和算法进行场景分割，前述算法如基于先验视场知识的隐马尔可夫模型(HMM)算法。
[0062]考虑视频信号110包含视频广播的例子。索引数据115表明，交替显示主持人镜头和现场镜头可体现新闻广播；人群镜头和运动镜头交替显示可体现运动事件。场景信息也可用于速率控制，与编码时镜头转变时的量化参数(QP)初始化类似。索引数据115可用于经人工检查产生更多高级的有目的和前后关系的描述。例如，基于上面提及的结果，操作员可处理索引数据115以为图像序列310提供另外的描述符，例如将图像序列描述为“约10人(亚当、布赖恩…)在皇后公园的草地上露天观看埃尔顿.约翰现场表演”。
[0063]索引数据115可包含模式识别数据156和其它分级索引信息如:包括方差、全局运动和比特数等的帧级时间和空间信息；镜头级物体和文本串或特征的其它描述如视频的文本区域、人和动作描述、物体信息和背景纹理描述等；场景级表示如视频种类(新闻广播、情景喜剧、商业、电影、运动或纪录片等)，及呈现为文本串、数值分类符或其它数据描述符的高级语境级描述和表示。
[0064]此外，模式识别数据156形式的模式识别反馈298或来自模式识别模块125的其它反馈可用于引导视频编解码器103进行的编码或转码。在模式识别之后，更具体的结构和统计信息可产生为模式识别反馈298，例如其可引导方式决策和速率控制以提高视频信号110的编码或转码质量和性能。模式识别模块125也可产生辨识具有不同特性的区域的模式识别反馈296。这些前后关系更正确及分组的运动向量可提高质量并节约编码比特，尤其在低比特率情形下。在模式识别之后，估计的运动向量可根据模式识别反馈298进行分组和处理。具体地，模式识别反馈298可由视频编解码器103在编码或转码视频信号110时用于图像或图像序列的不同区域的比特分配。
[0065]图4示出了根据本发明另一实施例的模式识别模块125的框图。如图所示，模式识别模块125包括镜头分割模块150，其基于编码反馈数据300将图像序列310分割为对应于多个镜头的镜头数据154，如镜头转变数据152。模式检测模块175分析镜头数据154并产生模式识别数据156，其结合多个镜头中的至少一个辨识至少一感兴趣的模式。 [0066]编码反馈数据300可在对视频信号110解码、对视频信号110编码或对视频信号110转码时由视频编解码器103产生。视频编解码器103可基于图像统计、画面数据组等产生镜头转变数据152。如上所述，编码预处理信息如方差和减小的运动成本可用于产生镜头转变数据152以进行镜头分割。基于它们的历史追踪，如果方差和减小的运动成本发生引人注目地变化，则发生突然的镜头转变；当方差保持单调变化及运动成本在单调方差变化的开始和结束点上涨和降低时，有逐渐的镜头转变，如淡入、淡出、叠化和擦除。在解码时，可类似地使用帧参考信息和比特消耗。输出的镜头转变数据152不仅可用于GOP结构决策、方式选择和速率控制以提高编码质量和性能，而且可用于图像序列310的时间分割，及作为帧率不变的镜头级搜索特征的启动。
[0067]另外的编码反馈数据300也可由模式检测模块175使用。编码反馈数据可包括一个或多个图像统计，及模式识别模块125可基于这些图像统计产生模式识别数据156以辨识特征如脸、文本、人动作、及其它物体和特征。如结合图1所述，视频编解码器103用于消除冗余的时间和空间信息也可由模式检测模块175用于检测或识别特征如天空、草地、海洋、墙壁、建筑、移动的交通工具和动物(包括人)。在编码时估计的或在解码时取回的、运动向量形式的时间反馈(或通过非常低分辨率的光流得到的运动信息)可由模式检测模块175用于经多种运动组算法进行的、基于运动的模式区分或识别。空间信息如统计信息，例如从输入YUV估计的或为输入流取回的方差、频率分量和比特消耗，可用于通过多种不同的分类器进行的、基于纹理的模式区分和识别。更多的识别特征如结构、纹理、颜色和运动特征可用于精确的模式区分和识别。例如，行结构可用于辨识和表征人造物体如建筑和交通工具。随机运动、刚体运动和相对位置运动分别在区分水、交通工具和动物时有效。
[0068]除了分析镜头数据154中包括的静态图像之外，镜头数据154可包括图像序列310中的多个图像，及模式检测模块175可基于跨镜头内的多个图像进行的时间识别而产生模式识别数据156。镜头内的轻微运动及跨多个镜头的图像累积可增强图像的分辨率以进行模式分析，可从不同的角度提供三维数据以分析和识别三维物体，及其它运动可有助于基于检测到的运动识别物体和其它特征。
[0069]模式检测模块175产生如结合图3所述的模式反馈数据298或可由视频编解码器103在将视频信号110处理为处理后的视频信号112时使用的其它模式识别反馈。模式检测模块175的运行可结合下面的另外的例子描述。
[0070]在运行例子中，视频处理系统102是网络服务器、远程会议系统安全系统或机顶盒的一部分，其产生支持面部识别的索引数据115。模式检测模块175基于编码反馈300运行，其包括在编码时估计的或在解码时取回的运动向量(或通过非常低分辨率的光流得到的运动信息)及用于粗略划分候选面部的肤色模型。模式检测模块175跨多个图像追踪候选面部区域并基于这些图像中的一个或多个检测图像中的面孔。编码反馈300中的镜头转变数据152可用于开始新的一系列面孔检测和追踪。
[0071]例如，模式检测模块175可经图像序列310中的颜色检测运行。模式检测模块175从图像序列310产生颜色偏差校正的图像及从颜色偏差校正的图像产生颜色变换的图像。之后，模式检测模块175运行以检测颜色变换的图像中对应于肤色的颜色。具体地，模式检测模块175可使用变换空间中的椭圆皮肤模型运行，如变换的YCb(；空间的Cb(；子空间。具体地，在假定高斯(Gaussian)肤色分布的情形下,可构建对应于恒定不变马氏(Mahalanobis)距离的外形的参数椭圆以基于Cb(；子空间中的二维投影辨识检测的区域322。作为模型,来自Heinrich-Hertz-1nstitute图像数据库的对应于皮肤小片的853，571像素可用于该目的，然而，在本发明的更宽范围中可使用其它模型。
[0072]在实施例中，模式检测模块175跨多个图像追踪候选面部区域并基于面部运动标识在跨多个图像的候选面部区域中检测面部区域，其中面部运动包括下述的至少一个:眼球运动及嘴巴运动。具体地，候选面孔可基于模式检测模块175对面部特征的另外的识别而确认进行面部检测，前述面部特征如眨眼(两只眼睛眨在一起，这将面部运动与其它运动区分开；眼睛具有固定分隔的对称定位，这提供使头部大小和朝向规格化的手段)、面部形状、大小、运动和相对位置、眉毛、眼睛、鼻子、嘴巴、颧骨和下颌。这些面部特征中的任何特征可从镜头数据154提取并由模式检测模块175用于消除错误检测。另外，模式检测模块175可采用时间识别基于多个图像中包括的不同面部角度提取三维特征，以提高面部识别的准确度。使用时间信息，包括不良照明、部分覆盖、大小和姿势敏感性的面部检测问题可基于前述面部追踪得以部分解决。此外，基于多个观察角度的轮廓，可提取更准确的及三维的特征如眼窝、鼻子和下巴轮廓。
[0073]除了产生模式识别数据156用于索引之外，表明已检测到面孔的模式识别数据156和面部区域的位置也可用作模式识别反馈298。模式识别数据156可包括面部特征数据如流中的位置、面部形状、大小和相对位置、眉毛、眼睛、鼻子、嘴巴、颧骨和下颌、皮肤纹理及皮肤的看得见的细节(个人皮肤中清晰可见的线、图案和斑点)，甚或增强的、规格化的和压缩的面部图像。作为响应，编码器部分236可基于面部区域的位置引导图像序列的编码。此外，包括面部信息的模式识别反馈298可用于在编码期间引导方式选择和比特分配。此外，模式识别数据156和模式识别反馈298还可指明眼睛或嘴巴在面部区域中的位置以由编码器部分236用于将更大的分辨率分配给这些重要的面部特征。例如，在非常低比特率的情形下，编码器部分236可避免在闪烁的眼睛和/或讲话的嘴巴附近的区域中使用帧间编码方式，从而将更多的编码比特分配给这些面部区域。
[0074]在另外的运行例子中，视频处理系统102是网络服务器、远程会议系统安全系统或机顶盒的一部分，其产生支持文本识别的索引数据115。这样，文本数据如汽车车牌号、店铺标记、建筑名称、字幕、名签、及图像序列310中的其它文本部分可进行检测和识别。文本区域通常具有明显的、可帮助检测和识别的特征。这些区域具有相当高的频率；它们通常具有规则形状的高反差；它们通常对齐并等距间隔；它们趋于随背景或物体一起移动。
[0075]编码反馈300可由模式检测模块175用于帮助检测。例如，来自编码或解码的镜头转变数据可用于开始新的一系列文本检测和追踪。从输入YUV估计的或从输入流取回的统计信息如方差、频率分量和比特消耗可用于文本划分。边缘检测、YUV投影、对齐和间隔信息等也可用于另外划分感兴趣的文本区域。在运动补偿时可为辨识的文本区域取回运动向量形式的编码反馈数据300。之后，可提取可靠的结构特征如线、端部、奇点、形状和连通性。
[0076]在该运行方式下，模式检测模块175产生模式识别数据156，其可包括检测到文本的指示、文本区域的位置及使文本区域与对应的视频镜头关联的索引数据115。模式检测模块175还可用于通过识别文本区域中的文本而产生文本串，并进一步产生包括与对应视频镜头关联的文本串的索引数据115。模式检测模块175可经培训的分级和模糊分类器、神经网络和/或向量处理引擎运行以识别文本区域中的文本并产生候选文本串。这些候选文本串随后可非必须地通过后处理或视频数据的另外的离线分析和处理而修改为最终文本。
[0077]模式识别数据156可包括在模式识别反馈298中并由编码器部分236用于引导图像序列的编码。这样，文本区域信息可引导方式选择和速率控制。例如，在小文本区域中可避免小分区方式；运动向量可围在文本周围；及在文本区域中可避免高分层隔距，甚至在非常低的比特率情形下，保持文本的足够复制。
[0078]在另一运行例子中，视频处理系统102是网络服务器、远程会议系统安全系统或机顶盒的一部分，其产生支持人动作识别的索引数据115。这样，人动作区域可连同人动作描述的确定一起确定，如人数、身体大小和特征、姿势类型、姿态、速度和动作如踢、扔、抓、跑、走、跌倒、闲逛、丢掉物品等可被检测和识别。
[0079]编码反馈300可由模式检测模块175用于帮助检测。例如，来自编码或解码的镜头转变数据可用于开始新的一系列动作检测和追踪。为该目的可采用来自编码或解码的运动向量(或对于非常低的分辨率，通过光流等获得的运动信息)。
[0080]在该运行方式下，模式检测模块175产生模式识别数据156，其可包括检测到人的指示、人的区域的位置及包括例如人动作描述符并使人动作与对应的视频镜头关联的索引数据115。模式检测模块175可将人动作识别的过程细分为:移动物体检测、人辨识、追踪、动作理解和识别。具体地，模式检测模块175可辨识多个图像中的多个移动物体。例如，运动物体可与背景分开。之后，模式检测模块175可从多个移动物体区分一个或多个人。人运动可以是非刚性和周期性的运动。基于形状的特征，包括脸和头部的颜色和形状、宽高比、肢体位置和面积、人体倾斜角度、脚之间的距离、投影和轮廓特征等，可用于帮助区分。这些形状、颜色和/或运动特征可经分类器如神经网络识别为对应于人动作。人的动作可跨镜头中的图像进行追踪，及特定类型的人动作可在多个图像中识别。呈现为一组角和边缘等的个体可使用算法准确追踪，如基于模型的和基于起作用的轮廓的算法。总移动信息可经卡尔曼滤波器或其它滤波器技术获得。基于追踪信息，动作识别可通过隐马尔可夫模型、动态贝叶斯(Bayesian)网络、句法方法或经其它模式识别算法进行实施。
[0081]模式识别数据156可包括在模式识别反馈298中并由编码器部分236用于引导图像序列的编码。这样，人动作的存在和位置可引导方式选择和速率控制。例如，在镜头内，移动预测信息、轨迹分析或由模式检测模块175产生并作为模式识别反馈298输出的其它人动作描述符可帮助视频编解码器103在编码时进行运动估计。
[0082]图5示出了根据本发明另一实施例的镜头数据154的时间框图表示。在该例子中，呈现视频信号110包括运动事件如足球比赛的图像序列310，其由镜头分割模块150处理为镜头数据154。来自视频编解码器103的编码反馈数据300包括镜头转变数据，其表明图像序列中的哪些图像落在所示四个镜头中的哪一镜头内。时间序列中的第一镜头为解说员镜头，第二和第四镜头为比赛镜头，及第三镜头为观众镜头。
[0083]图6示出了根据本发明另一实施例的镜头数据154的时间框图表示。继续图5的例子，模式检测模块175基于每一镜头中包括的图像及来自视频编解码器103的时间和空间编码反馈数据300分析四个镜头中的镜头数据154，以将第一镜头识别为解说员镜头，将第二和第四镜头识别为比赛镜头，及将第三镜头识别为观众镜头。
[0084]模式检测模块175结合每一镜头产生模式识别数据156，其将第一镜头辨识为解说员镜头，将第二和第四镜头辨识为比赛镜头，及将第三镜头辨识为观众镜头。模式识别数据156与镜头转变数据152关联以确定每一镜头在图像序列310中的位置及确定具有对应模式识别数据156的每一镜头，非必须地，通过图像确定镜头内的区域和/或包括所辨识的主题的一个或多个图像内的区域。
[0085]图7示出了根据本发明另一实施例的后处理模块160的框图表示。具体地，后处理模块160进一步处理索引数据115以产生可搜索索引162。在实施例中，后处理模块160通过关联来自多个镜头的共同内容而从索引数据115产生可搜索索引162。考虑结合图6呈现的例子，第二和第四镜头将匹配在一起，因为二者均为比赛镜头，并放在共用标签下的分级结构中，但保留对应于每一镜头的图像范围。
[0086]在另一实施例中，后处理模块可处理模式识别数据156以提供另外的模式识别能力。考虑结合图6的例子，其中视频信号由用户家中数字录像机(DVR)形式的视频处理系统102接收。视频信号110由DVR处理以产生处理后的视频信号112进而保存在该装置的内部硬盘上供以后重放。索引数据115在保存处理后的视频信号时由视频处理系统102产生。此外，DVR将索引数据115发送给后处理模块160，其或在DVR本机中，或实施在远程服务器中，该远程服务器可由DVR经因特网或其它网络连接进行访问。
[0087]后处理模块160非实时地分析非必须随处理后的视频信号112 —起包括的索引数据115，以产生可搜索索引162，及非必须地，基于另外的模式识别产生另外的索引。这样，可搜索索引162非必须地执行另外的模式识别以辨识镜头中的名人或其它人、特定建筑物、文本、产品、场所，属于通过模式识别数据156辨识的类型和/或在感兴趣的区域中。可搜索索引数据162保存在远程服务器上或保存在DVR本身上以使用户能经DVR或服务器的搜索特征查找和访问所保存的视频记录部分，其包含特征如包括得分的镜头、具有特定人物的镜头、具有特定物体或场所的镜头等。
[0088]在结合图6的另一例子中，视频信号由编解码器形式的视频处理系统102接收，其经网络服务器实施为所执行的编码的一部分以将视频上传到社会媒体网络如YouTube或Facebook等。视频信号110由编解码器处理以产生处理后的视频信号112进而保存在服务器上供以后由用户或其它用户重放。索引数据115在保存处理后的视频信号时由视频处理系统102产生。此外，服务器将索引数据115发送给后处理模块160，其或在服务器本机中，或实施在远程服务器中，该远程服务器可由服务器经因特网或其它网络连接进行访问。后处理模块160非实时地分析非必须随处理后的视频信号112—起包括的索引数据115，以产生可搜索索引162，及非必须地，基于另外的模式识别产生另外的索引。如先前例子中一样，可搜索索引162非必须地执行另外的模式识别以辨识镜头中的名人或其它人、特定建筑物、文本、产品、场所，属于通过模式识别数据156辨识的类型和/或在感兴趣的区域中。可搜索索引数据162保存在服务器上或保存在远程服务器上以使用户能经搜索特征查找和访问所保存的视频记录部分，其包含特征如包括得分的镜头、具有特定人物的镜头、具有特定物体或场所的镜头等。
[0089]图8不出了根据本发明另一实施例的可搜索索引162的表格表不。在结合图6和7的另一例子中，可搜索索引162呈现为表格形式，其中观众镜头和比赛镜头放在共同标签下的索引结构中。对应于每一镜头的图像范围由对应的地址范围指明，地址范围可用于快速查找视频内的特定镜头或特定的一组镜头。
[0090]图9示出了根据本发明实施例的视频处理系统102的框图表示。具体地，示出了视频处理系统102的特定实施例，其中模式识别模块125’以与模式识别模块125类似的方式运行，但与视频编解码器103的编码器部分236结合。在该实施例中，编码反馈300采取编码器反馈296的形式，及模式识别反馈数据298在将视频信号110编码为处理后的视频信号112时由编码器部分236使用。编码器部分236在对视频信号110编码时产生编码器反馈数据296。
[0091]在运行时，模式识别模块125’基于编码器反馈数据296检测视频信号110的图像序列310中的感兴趣的模式。图像序列310可在结合图3所述的处理视频信号110时直接从视频信号110提取或经编码器部分236接收。模式识别模块125’产生模式识别数据以指明感兴趣的模式。如先前所述，感兴趣的模式可以是面孔、文本、人动作、或宽范围的其它特征或物体。
[0092]在该实施例中，编码器部分236基于包括模式识别数据156的模式识别反馈296产生处理后的视频信号112。具体地，编码器部分236基于表明检测到感兴趣的模式的模式识别反馈296引导视频信号110的编码。例如，模式识别反馈296可包括辨识感兴趣区域的区域标识数据，及编码器部分236可基于区域标识数据引导视频信号110的编码。
[0093]如先前所述，编码反馈数据296包括辨识图像序列310中对应于多个视频镜头的时间段的镜头转变数据，如镜头转变数据152。模式识别模块125’可产生对应于多个视频镜头中的至少一个的模式识别数据156。镜头可包括图像序列310中的多个图像，及模式识别模块125’可基于跨多个镜头进行的时间识别而产生模式识别数据156。模式识别模块125’还可产生模式识别数据156形式的索引数据115，其包括感兴趣模式的标识和源自编码反馈数据296或其它数据的镜头转变数据152，前述其它数据包括多个视频镜头中包括感兴趣模式的至少一对应镜头的标识。
[0094]图10示出了根据本发明另一实施例的模式识别模块125’的框图表示。模式识别模块125’以与结合图4所述的模式识别模块125类似的方式运行。编码器反馈数据296可包括结合反馈数据300所述一样的数量。在该实施例中，镜头分割模块150’以与镜头分割模块150类似的方式运行以分割直接来自视频信号110或从视频信号110提取的图像序列310.模式检测模块175分析镜头数据154并产生模式识别数据156，其结合多个镜头中的至少一个镜头辨识至少一感兴趣的模式。
[0095]与编码反馈数据300类似，编码器反馈296可在对视频信号110编码或对视频信号110转码时由视频编码器部分236产生。视频编码器部分236可基于图像统计、画面数据组等产生镜头转变数据152。如上所述，编码预处理信息如方差和减小的运动成本可用于产生镜头转变数据152以进行镜头分割。基于它们的历史追踪，如果方差和减小的运动成本发生引人注目地变化，则发生突然的镜头转变；当方差保持单调变化及运动成本在单调方差变化的开始和结束点上涨和降低时，有逐渐的镜头转变，如淡入、淡出、叠化和擦除。镜头转变数据152不仅可用于GOP结构决策、方式选择和速率控制以提高视频编码器部分236的编码质量和性能，而且可输出为编码器反馈数据296的一部分以用于图像序列310的时间分割，及作为帧率不变的镜头级搜索特征的启动。
[0096]另外的编码器反馈296也可由模式检测模块175使用。编码反馈数据可包括一个或多个图像统计，及模式识别模块125可基于这些图像统计产生模式识别数据156以辨识特征如脸、文本、人动作、及其它物体和特征。如结合图1所述，视频编解码器103用于消除冗余的时间和空间信息也可由模式检测模块175用于检测或识别特征如天空、草地、海洋、墙壁、建筑、移动的交通工具和动物(包括人)。在编码时估计的或在解码时取回的、运动向量形式的时间反馈(或对非常低的分辨率通过光流得到的运动信息)可由模式检测模块175用于经多种运动组算法进行的、基于运动的模式区分或识别。空间信息如统计信息，例如从输入YUV估计的或为输入流取回的方差、频率分量和比特消耗，可用于通过多种不同的分类器进行的、基于纹理的模式区分和识别。更多的识别特征如结构、纹理、颜色和运动特征可用于精确的模式区分和识别。例如，行结构可用于辨识和表征人造物体如建筑和交通工具。随机运动、刚体运动和相对位置运动分别在区分水、交通工具和动物时有效。
[0097]如先前所述，除了分析镜头数据154中包括的静态图像之外，镜头数据154可包括图像序列310中的多个图像，及模式检测模块175可基于跨镜头内的多个图像进行的时间识别而产生模式识别数据156。镜头内的轻微运动及跨多个镜头的图像累积可增强图像的分辨率以进行模式分析，可从不同的角度提供三维数据以分析和识别三维物体，及其它运动可有助于基于检测到的运动识别物体和其它特征。
[0098]图11示出了根据本发明另一实施例的模式检测模块175或175’的框图表示。具体地，模式检测模块175或175’包括用于检测图像序列310的至少一图像中的检得区域322的候选区域检测模块320。在运行时，候选区域检测模块320可检测特定模式或将识别为特定区域类型的其它感兴趣区域的存在。前述模式的例子为人脸或其它面孔、人动作、文本或其它物体或特征。模式检测模块175或175’非必须地包括区域清洁模块324，其基于检得区域322产生清洁区域326，如经形态操作。模式检测模块175或175’还包括区域增长模块328，其扩展清洁区域326以产生辨识包含感兴趣模式的区域的区域标识信号330。所辨识的区域类型332和区域标识数据可输出为模式识别反馈数据298。
[0099]例如，考虑镜头数据154包括人脸及模式检测模块175或175’产生对应于人脸的区域的情形，候选区域检测模块320可基于对应于脸部特征如肤色的像素色值的检测产生检得区域322。区域清洁模块可产生包含这些面部特征的、更邻近的区域，及区域增长模块可使该区域增长以包括周围的头发和其它图像部分从而确保整个脸部均包括在区域标识信号330所辨识的区域中。
[0100]如先前所述，编码器反馈数据296包括镜头转变数据如镜头转变数据152，其辨识图像序列310中用于使镜头数据154与图像序列310中特定的一组图像结合的时间段。候选区域检测模块320还基于运动向量数据运行以通过镜头数据154中的图像追踪候选区域的位置。运动向量、镜头转变数据和其它编码器反馈数据296也被使得可用于区域追踪和累积模块334和区域识别模块350。区域追踪和累积模块334提供累积的区域数据336，其包括感兴趣的候选区域的时间累积以使能经区域识别模块350进行时间识别。这样，区域识别模块350可基于特征如面部运动、人动作、三维造型及基于前述时间识别而识别和提取的其它特征产生模式识别数据。
[0101]图12示出了根据本发明另一实施例的图像370的绘画表示。具体地，示出了图像序列310的图像例子，其包括特定足球体育场的一部分作为足球比赛视频广播的一部分。根据该例子，模式检测模块175或175’产生包括在模式识别反馈数据298和模式识别数据156中的、表明存在文本的区域类型数据332及表明在该特定图像中包含前述文本的区域372的区域标识数据330。模式识别模块350基于该区域372运行，及非必须地基于包括该文本的其它累积区域以产生包括识别的文本串“Lucas Oil Stadium”的、另外的模式识别数据156。
[0102]图13示出了根据本发明实施例的补充模式识别模块360的框图表示。在图12的实施例基于经模式识别模块350的运行识别文本串“Lucas Oil Stadium”而进行描述的同时，在另一实施例中，模式检测模块175产生的模式识别数据156可能仅包括模式描述符、区域类型和区域数据，用于经补充识别模块360离线识别为特征/物体识别数据362。在实施例中，补充识别模块360实施一个或多个模式识别算法。在上面结合图12的例子描述的同时，补充识别模块360可结合先前描述的任何其它例子使用以识别脸、特定人物、人动作、或模式识别数据156表明的其它特征/物体。实际上，模式识别模块350的功能包括在补充识别模块360中，而不是包括在模式检测模块175或175’中。
[0103]补充识别模块360可使用单一处理装置或多个处理装置实施。前述处理装置可以是微处理器、协处理器、微控制器、数字信号处理器、微计算机、中央处理单元、可现场编程门阵列、可编程逻辑装置、状态机、逻辑电路、模拟电路、数字电路、和/或基于保存在存储器中的操作指令操纵信号(模拟和/或数字)的任何装置。前述存储器可以是单一存储装置或多个存储装置。前述存储装置可包括硬盘驱动器或其它磁盘驱动器、只读存储器、随机存取存储器、易失性存储器、非易失性存储器、静态存储器、动态存储器、闪存、高速缓冲存储器、和/或保存数字信息的任何装置。应注意，当补充识别模块360经状态机、模拟电路、数字电路和/或逻辑电路实施其一个或多个功能时，保存相应操作指令的存储器可能嵌入在包括状态机、模拟电路、数字电路和/或逻辑电路的电路内或在该电路的外部。
[0104]图14示出了根据本发明另一实施例的镜头数据154的时间框图表示。具体地，镜头数据154的各个镜头结合在图12描述的足球比赛的视频广播示出。所示第一镜头为包括图像370的体育场镜头。对应于该镜头的索引数据包括镜头标识，即体育场镜头和文本串“Lucas Oil Stadium”。其它索引数据表明第二和第四镜头为比赛镜头及第三镜头为观众镜头。
[0105]如先前所述，这样产生的索引数据可用于产生该视频的可搜索索引，连同其它视频一起作为视频搜索系统的一部分。视频处理系统102的用户可搜索“Lucas Oil Stadium”的视频，不仅辨识特定的视频广播，而且辨识视频内的特定镜头，如包含图像370的镜头，其包含文本区域如产生搜索串“Lucas Oil Stadium”的文本区域372。
[0106]图15示出了根据本发明另一实施例的候选区域检测模块320的框图表示。在该实施例中，区域检测模块320经图像310中的颜色的检测运行。颜色偏差校正模块340从图像310产生颜色偏差校正的图像342。颜色空间变换模块344从颜色偏差校正的图像342产生颜色变换的图像346。颜色检测模块从颜色变换的图像346的颜色产生检得区域322。
[0107]例如，继续结合图3所述的例子，其中检测到人脸，颜色检测模块348可运行以检测颜色变换的图像346中对应于肤色的颜色，其使用变换空间中的椭圆皮肤模型，如变换的YCbC;空间的Cb(；子空间。具体地，在假定高斯肤色分布的情形下，可构建对应于恒定不变马氏距离的外形的参数椭圆以基于Cb(；子空间中的二维投影辨识检得区域322。作为模型,来自Heinrich-Hertz-1nstitute图像数据库的对应于皮肤小片的853，571像素可用于该目的，然而，在本发明的更宽范围中可使用其它模型。
[0108]图16示出了根据本发明另一实施例的图像380的绘画表示。具体地，示出了图像序列310的图像例子，其包括踢足球的运动员作为足球比赛的视频广播的一部分。根据该例子，模式检测模块175或175’产生包括在模式识别反馈数据298和模式识别数据156中的、表明存在人动作的区域类型数据332及表明在该特定图像中包含人动作的区域382的区域标识数据330。模式识别模块350或补充模式识别模块360基于该区域382及基于其它累积区域运行，其它累积区域包括包含“踢”的类似区域以产生另外的模式识别数据156，其包括人动作描述符如“足球运动员”、“踢”或表征该特定人动作的其它描述符。
[0109]图17-19示出了根据本发明另一实施例的图像390、392和394的绘画表示。具体地，示出了图像序列310的图像例子，示出了作为足球比赛的视频广播的一部分的、踢足球之后的情形。根据该例子，模式检测模块175或175’产生包括在模式识别反馈数据298和模式识别数据156中的、表明物体存在如存在足球的区域类型数据332及表明在每一对应的图像390、392和394中包含足球的区域391、393和395的区域标识数据330。
[0110]模式识别模块350或补充模式识别模块360基于累积区域391、393和395运行，其包括包含“踢”的类似区域以产生另外的模式识别数据156，其包括人动作描述符如“足球运动员”、“踢”、关于球的距离、高度、轨迹的信息、和/或表征该特定动作的其它描述符。
[0111]应注意，在图9-19的描述集中在产生编码反馈数据296和基于模式识别数据298引导编码的编码器部分236的同时，类似的技术也可结合解码器部分240或视频编解码器103进行的转码使用以产生由模式识别模块125用于产生模式识别反馈数据的编码反馈数据300，模式识别反馈数据由视频编解码器103或解码器部分240用于引导图像序列的编码或转码。
[0112]图20示出了根据本发明实施例的视频分布系统75的框图表示。具体地，视频信号50由视频编码系统52编码为已编码的视频信号60以经传输通路122传给视频解码器62。视频解码器62进而可对已编码的视频信号60解码以在显示装置如电视机10、计算机20或其它显示装置上显示。视频处理系统102可实施为视频编码器52或视频解码器62的一部分以从视频信号50的内容产生模式识别数据156和/或索引数据115。
[0113]传输通路122可包括根据无线局域网协议如802.11协议、WIMAX协议、蓝牙协议等运行的无线通路。此外，传输通路可包括根据有线协议如通用串行总线协议、以太网协议或其它高速协议运行的有线通路。
[0114]图21示出了根据本发明实施例的视频存储系统79的框图表示。具体地，装置11为具有内置数字视频录像机功能的机顶盒、独立的数字视频录像机、DVD录像机/播放机或记录或保存数字视频信号以在视频显示装置如电视机12上显示的其它装置。视频处理系统102可实施在装置11中作为所保存视频信号的编码、解码或转码的一部分，以产生模式识别数据156和/或索引数据115。
[0115]在示出这些特定装置的同时，视频存储系统79可包括硬盘、闪存装置、计算机、DVD刻录机、或能够根据结合在此所述的本发明特征和功能所述的方法和系统产生、保存、编码、解码、转码和/或显示视频信号的任何其它装置。
[0116]图22示出了根据本发明实施例的视频服务器80的框图表示。视频系统如实施为网络服务器、万维网服务器或其它网络节点或视频系统的视频服务器80包括视频处理系统102，其在存储和/或传输视频库82中的多个视频文件或视频流时产生可搜索索引162。视频服务器80包括接口如结合用户浏览器实施的万维网接口。视频服务器80的用户可提供搜索项398以在视频内容内辨识视频和特定镜头，这些视频和特定镜头包括名人或其它人物、特定建筑物、感兴趣的文本、产品、场所、特定的人动作或其它感兴趣的物体/特征。在该情形下，搜索模块86将搜索项398与可搜索索引比较以从视频库82查找与搜索项398匹配的、一个或多个匹配视频信号。来自视频库82的一个或多个匹配视频信号可由用户基于搜索结果选择作为视频信号84进行流传输或下载。
[0117]例如，视频服务器80或其它视频系统采用视频处理系统102产生多个文本串，其结合视频的编码/解码和/或转码描述视频库82的这些视频。连到视频处理系统102的存储器88保存可搜索索引162，其包括多个文本串。搜索模块86通过将搜索项398或其它输入文本串与可搜索索引162的多个文本串进行比较而从视频库82辨识匹配视频。由于视频处理系统102产生多个文本串以对应于视频库82的视频的特定镜头，搜索模块86可进一步辨识匹配视频中包含对应于搜索项398的图像的匹配镜头。这样，用户可使用搜索项搜索视频库82中的特定人物、面孔、文本、人动作或其它识别的物体、事件、地方或其它事物，不仅产生视频库82的对应于这些搜索项的特定视频，而且致力于这些匹配视频中的特定镜头，其包含经搜索项398指明的、识别出的人物、面孔、文本、人动作或其它识别的物体、事件、地方或其它事物。
[0118]除了基于含文本的搜索项或其它描述符进行搜索之外，视频服务器80还为用户呈现基于视频片断如搜索片断399搜索视频库82的选项。搜索片断399可以是不同于视频库82中对应视频的分辨率、比特率和帧率。可搜索索引162可包含分辨率不变和比特率不变的帧级搜索特征，其可与搜索片断399中包含的镜头逐镜头地关联，以确定搜索片断399和视频库82的一个或多个视频之间的关联或匹配程度。
[0119]在运行例子中，视频处理系统102通过处理视频库中的视频信号产生可搜索索弓I。视频处理系统102产生分级搜索特征，包括帧级时间和空间信息如规格化方差如单一图片的方差矩阵、方差矩阵变化及遍及视频的多个图片的趋势、运动密度和遍及视频的运动密度变化、颜色信息和遍及视频的颜色信息变化、主要部分运动及比特消耗等。分级搜索特征还可包括镜头级特征如镜头转变时间间隔、镜头运动、统计特征和与镜头分割有关的显影特征。搜索特征保存在可搜索索引162中。响应于搜索请求，视频处理系统102在帧级或宏块级解码、编码或转码期间结合输入视频片断399产生类似分级搜索特征形式的索引数据115。搜索模块86通过使来自视频片断399的分级搜索特征与可搜索索引162中包含的对应特征匹配而从视频库82产生一个或多个匹配视频。关联可逐镜头地进行比较。
[0120]这样，视频片断可基于它们自己的、搜索层次中的多层中的搜索特征进行处理和搜索。例如，镜头级信息可用于初步查找潜在感兴趣的镜头，及帧信息可用于进一步使对应于视频库82中的视频的潜在镜头与视频片断399的对应镜头匹配。搜索模块基于视频镜头的至少一镜头级搜索特征与可搜索索引中的对应搜索特征的比较而查找可搜索索引中的潜在镜头。之后，搜索模块通过比较帧级特征和潜在镜头的对应特征而辨识至少一匹配视频。非必须地，搜索模块86可使由视频的不连续镜头组成的片断能被匹配，基于该镜头和分解搜索特征的帧级分解。在上面的例子中针对具有帧和分割级的两级层次进行描述的同时，也可以具有备选级或不同于上述的一个或多个级或除上述之外的一个或多个级。
[0121]在实施例中，可对每一搜索结果产生视频片断399的分级搜索特征和可搜索索引162的对应特征之间的匹配置信度，其可用于选择搜索结果进行输出、为用户排列搜索结果以指明最可能的匹配及随每一匹配视频报告置信度。搜索模块86可使用单一处理装置或多个处理装置实施。前述处理装置可以是微处理器、协处理器、微控制器、数字信号处理器、微计算机、中央处理单元、可现场编程门阵列、可编程逻辑装置、状态机、逻辑电路、模拟电路、数字电路、和/或基于保存在存储器中的操作指令操纵信号(模拟和/或数字)的任何装置。前述存储器可以是单一存储装置或多个存储装置。前述存储装置可包括硬盘驱动器或其它磁盘驱动器、只读存储器、随机存取存储器、易失性存储器、非易失性存储器、静态存储器、动态存储器、闪存、高速缓冲存储器、和/或保存数字信息的任何装置。应注意，当搜索模块86经状态机、模拟电路、数字电路和/或逻辑电路实施其一个或多个功能时，保存相应操作指令的存储器可能嵌入在包括状态机、模拟电路、数字电路和/或逻辑电路的电路内或在该电路的外部。视频库82和可搜索索引162可保存在存储器中如硬盘驱动器或其它磁盘驱动器、只读存储器、随机存取存储器、易失性存储器、非易失性存储器、静态存储器、动态存储器、闪存、高速缓冲存储器、和/或保存数字信息的任何装置。
[0122]图23示出了根据本发明实施例的方法的流程图。具体地，示出了结合在图1-22描述的一个或多个功能和特征使用的方法。在步骤400，连同编码反馈数据经视频编解码器产生处理后的视频，其包括辨识图像序列中对应于多个视频镜头的时间段的镜头转变数据，每一视频镜头包括图像序列中的多个图像。在步骤402，基于编码反馈数据处理镜头转变数据以将视频信号分割为对应于多个镜头的镜头数据。在步骤404，分析镜头数据以产生结合多个镜头中的至少一个辨识至少一感兴趣模式的模式识别数据。
[0123]编码反馈数据可结合至少下述之一产生:视频信号解码、视频信号编码和视频信号转码。镜头转变数据可基于至少一图像统计数据或基于画面数据组产生。编码反馈数据可包括至少一图像统计数据，及模式识别数据可基于至少一图像统计数据产生。多个镜头中的至少一个包括图像序列中的多个图像，及模式识别数据可基于跨多个图像进行的时间识别产生。
[0124]图24示出了根据本发明实施例的方法的流程图。具体地，示出了结合在图1-23描述的一个或多个功能和特征使用的方法。在步骤410，可搜索索引通过关联来自多个镜头的共同内容而从索引数据产生。
[0125]图25示出了根据本发明实施例的方法的流程图。具体地，示出了结合在图1-24描述的一个或多个功能和特征使用的方法。在步骤420，编码器反馈数据在经编码器部分对图像序列进行编码时产生。在步骤422，基于编码器反馈数据在图像序列中检测感兴趣模式。在步骤424，当检测到感兴趣模式时产生模式识别数据，其中该模式识别数据指明感兴趣模式。
[0126]在实施例中，处理后的视频信号基于包括模式识别数据的模式识别反馈产生。模式识别数据可包括感兴趣模式的标识，及图像序列的编码可基于指明感兴趣模式的标识的模式识别反馈进行引导。模式识别反馈还可包括辨识感兴趣区域的区域标识数据，及图像序列的编码可基于区域标识数据进行修改。
[0127]编码器反馈数据可包括辨识图像序列中对应于多个视频镜头的时间段的镜头转变数据。模式识别数据可产生为对应于多个视频镜头中的至少一个。多个镜头中的至少一个可包括图像序列中的多个图像，及模式识别数据可基于跨多个图像进行的时间识别产生。
[0128]图26示出了根据本发明实施例的方法的流程图。具体地，示出了结合在图1-25描述的一个或多个功能和特征使用的方法。在步骤430，产生索引数据，其包括感兴趣模式的标识和多个视频镜头中包括感兴趣模式的至少一对应镜头的标识。
[0129]图27示出了根据本发明实施例的方法的流程图。具体地，示出了结合在图1-26描述的一个或多个功能和特征使用的方法。在步骤440，在经编码器部分对图像序列进行编码时产生编码器反馈数据。在步骤442，基于编码器反馈数据检测图像序列中的面孔。在步骤444，当检测到面孔时产生模式识别数据，其中模式识别数据指明存在面孔。
[0130]在实施例中，编码器反馈数据包括辨识图像序列中对应于多个视频镜头的时间段的镜头转变数据。多个镜头中的至少一个可包括图像序列中的多个图像，及模式识别数据可基于跨多个图像进行的时间识别产生。时间识别可跨多个图像追踪候选面部区域并基于多个图像上候选面部区域中面部运动的标识检测面部区域，其中面部运动至少包括下述之一:眼球运动；和嘴巴运动。模式识别数据可包括指明面部区域的位置的模式识别反馈，及图像序列的编码可基于面部区域的位置进行引导。模式识别数据可包括进一步指明至少下述之一的位置的模式识别反馈:面部区域中的眼睛；及面部区域中的嘴巴。时间识别可跨多个图像追踪候选面部区域并基于多个图像中包括的不同面部角度提取三维特征。编码器反馈数据可包括至少一图像统计数据和/或运动向量数据。
[0131]图28示出了根据本发明实施例的方法的流程图。具体地，示出了结合在图1-27描述的一个或多个功能和特征使用的方法。在步骤450，在经编码器部分对图像序列进行编码时产生编码器反馈数据。在步骤452，基于编码器反馈数据检测图像序列中的文本区域。在步骤454，当检测到文本区域时产生模式识别数据，其中模式识别数据指明存在文本区域和文本串。
[0132]在实施例中，模式识别数据包括文本区域的位置，及图像序列的编码基于指明在至少一图像中存在文本及指明文本区域的位置的模式识别反馈进行修改。编码器反馈数据可包括至少一图像统计数据和/或运动向量数据。
[0133]图29示出了根据本发明实施例的方法的流程图。具体地，示出了结合在图1-28描述的一个或多个功能和特征使用的方法，其中编码器反馈数据包括辨识图像序列中对应于多个视频镜头的时间段的镜头转变数据。在步骤460，产生索引数据，其使文本区域与多个视频镜头中的至少一个关联。
[0134]图30示出了根据本发明实施例的方法的流程图。具体地，示出了结合在图1-29描述的一个或多个功能和特征使用的方法。在步骤470，通过识别文本区域中的文本产生文本串。在步骤472，产生索引数据，其包括文本串并使文本串与多个视频镜头中的至少一个关联。
[0135]图31示出了根据本发明实施例的方法的流程图。具体地，示出了结合在图1-30描述的一个或多个功能和特征使用的方法。在步骤480，在经编码器部分对图像序列进行编码时产生编码器反馈数据。在步骤482，基于编码器反馈数据检测图像序列中的人动作区域。在步骤484，当检测到人动作区域时产生模式识别数据，其中模式识别数据指明存在人动作区域。
[0136]在实施例中，模式识别数据包括人动作区域的位置，及视频编码器基于指明在至少一图像中存在人动作并指明人动作区域的位置的模式识别反馈引导图像序列的编码。编码器反馈数据可包括运动向量数据。
[0137]图32示出了根据本发明实施例的方法的流程图。具体地，示出了结合在图1-31描述的一个或多个功能和特征使用的方法，其中编码器反馈数据包括辨识图像序列中对应于多个视频镜头的时间段的镜头转变数据，每一视频镜头包括图像序列中的多个图像。在步骤490，产生索引数据，其使人动作的区域和描述符与多个视频镜头中的至少一个关联。
[0138]图33示出了根据本发明实施例的方法的流程图。具体地，示出了结合在图1-32描述的一个或多个功能和特征使用的方法。在步骤500，至少一人动作描述符通过识别人动作区域中的人动作产生。索引数据可包括与多个视频镜头中的至少一个关联的至少一人动作描述符。这些人动作描述符可基于跨多个图像进行的时间识别产生。
[0139]图34示出了根据本发明实施例的方法的流程图。具体地，示出了结合在图1-33描述的一个或多个功能和特征使用的方法。人动作描述符通过下述步骤产生:在步骤510，辨识多个图像中的多个移动物体；在步骤512，将至少一人与多个移动物体区分开；在步骤514，追踪多个图像中人的动作；及在步骤516，识别多个图像中的人动作。
[0140]图35示出了根据本发明实施例的方法的流程图。具体地，示出了结合在图1-34描述的一个或多个功能和特征使用的方法。在步骤520，保存可搜索索引，其包括对应于视频库中包含的视频的搜索特征。在步骤522，对视频信号进行解码，及在解码时产生视频信号的搜索特征。在步骤524，通过比较视频信号的搜索特征和可搜索索引的对应搜索特征而辨识视频库的至少一匹配视频。
[0141]搜索特征可包括至少一镜头级搜索特征和至少一帧级特征。步骤522可包括将视频信号的图像序列分割为对应于多个镜头的镜头数据，并基于镜头数据产生镜头级搜索特征。搜索特征可包括分级搜索特征。步骤524可包括基于视频信号的至少一镜头级搜索特征与可搜索索引中的对应搜索特征的比较在可搜索索引中查找潜在镜头。步骤524还可包括比较至少一帧级特征和潜在镜头的对应特征。
[0142]图36示出了根据本发明实施例的方法的流程图。具体地，示出了结合在图1-35描述的一个或多个功能和特征使用的方法。在步骤530，基于视频库的视频的处理产生可搜索索引。
[0143]图37示出了根据本发明实施例的方法的流程图。具体地，示出了结合在图1-36描述的一个或多个功能和特征使用的方法。在步骤540，产生对应于至少一匹配视频的匹配
置信度。
[0144]如在此使用的，术语“实质上”和“大约”对相应术语和/或物品之间的相对性提供行业接受的容限。前述行业接受的容限的范围从小于1%到50%，并对应于但不限于元件值、集成电路工艺变化、温度变化、起落时间、和/或热噪声。前述物品之间的相对性的范围为从几个百分点的差到量值差。如还在此使用的，术语“工作时连接到”、“连接到”和/或“连接”包括物品之间的直接连接和/或经插入于其间的物品(例如，包括但不限于部件、元件、电路和/或模块)的、物品之间的间接连接，对于间接连接，插入于其间的物品不修改信号信息，但可调节其电流水平、电压水平和/或功率水平。如进一步在此使用的，推断的连接(即一元件通过推断连接到另一元件)包括两个物品之间与“连接到”一样的方式直接和间接连接。如在此使用的，术语“用于”或“工作时连接到”指一物品包括一个或多个功率连接、输入、输出等以在启动时执行一个或多个相应的功能，及还可包括到一个或多个其它物品的推断连接。如在此使用的，术语“与……相关联”包括分开的物品的直接和/或间接连接和/或一物品嵌入在另一物品内。如在此使用的，术语“有利地比较”表明两个以上物品、信号等之间的比较提供所希望的关系。例如，当所希望的关系为信号I具有比信号2大的量值时，当信号I的量值大于信号2的量值或当信号2的量值小于信号I的量值时，可实现有利的比较。
[0145]如在此使用的，“处理模块”、“处理电路”和/或“处理单元”可以是单一处理装置或多个处理装置实施。前述处理装置可以是微处理器、微控制器、数字信号处理器、微计算机、中央处理单元、可现场编程门阵列、可编程逻辑装置、状态机、逻辑电路、模拟电路、数字电路、和/或基于电路的硬编码和/或操作指令操纵信号(模拟和/或数字)的任何装置。处理模块、处理电路和/或处理单元可以是或还包括存储器和/或集成存储元件，其可以是单一存储装置、多个存储装置、和/或另一处理模块、处理电路和/或处理单元的内含电路。前述存储装置可以是只读存储器、随机存取存储器、易失性存储器、非易失性存储器、静态存储器、动态存储器、闪存、高速缓冲存储器、和/或保存数字信息的任何装置。应注意，如果处理模块、处理电路和/或处理单元包括一个以上处理装置，处理装置可以集中定位(如经有线和/或无线总线结构直接连接在一起)或分布式定位(如经局域网和/或广域网间接连接的云计算)。还应注意，如果处理模块、处理电路和/或处理单元经状态机、模拟电路、数字电路和/或逻辑电路实施其一个或多个功能时，保存相应操作指令的存储器和/或存储元件可能嵌入在包括状态机、模拟电路、数字电路和/或逻辑电路的电路内或在该电路的外部。还应注意，存储元件可保存及处理模块、处理电路和/或处理单元运行对应于一个或多个图中所示的步骤和/或功能中的至少部分的硬编码和/或操作指令。前述存储装置或存储元件可包括在制造物件中。
[0146]本发明已在方法步骤的帮助下在上面描述，其说明了指定功能和关系的性能。这些功能模块和方法步骤的边界和顺序在此为方便描述已任意定义。只要指定功能和关系能被适当实现，可定义备选边界和顺序。因而，任何前述备选边界或顺序均在本发明的范围和精神内。此外，这些功能模块的边界为方便描述已任意定义。只要某些重要功能能适当实现，可定义备选边界。类似地，流程图模块也在此任意地定义以说明某些重要功能。为达到使用程度，流程图模块边界和顺序可能另外定义且依然执行某些重要功能。功能模块和流程图模块的前述备选定义及顺序因而也在本发明的范围和精神内。本领域一般技术人员还将认识到，在此的功能模块及其它说明性模块可按所示进行实施，或通过分开的部件、专用集成电路、运行适当软件的处理器等或其组合实现。
[0147]本发明已在一个或多个实施例中至少部分描述。本发明的实施例在此用于说明本发明、其方面、其特征、其概念和/或其例子。装置、制造物件、机器和/或体现本发明的过程的物理实施例可包括结合在此所述的一个或多个实施例描述的一个或多个方面、特征、概念、例子等。此外，从图到图，实施例可包括使用相同或不同附图标记的、同样或类似命名的功能、步骤、模块等，这样，这些功能、步骤、模块等可以是相同或类似的功能、步骤、模块等，或是不同的功能、步骤、模块等。
[0148]除非明确相反说明，在此给出的任一图中的元件之间的信号可以是模拟或数字信号、时间连续或离散、及单端或差分信号。例如，如果信号通路示为单端通路，其也表示差分信号通路。类似地，如果信号通路示为差分通路，其也表示单端信号通路。在在此描述一个或多个特定体系结构的同时，也可类似地实施其它体系结构，如本领域一般技术人员认识到的，其使用为明确示出的一个或多个数据总线、元件之间的直接连接、和/或其它元件之间的间接连接。
[0149]术语“模块”在本发明的多个实施例的描述中使用。模块包括处理模块、功能模块、硬件和/或保存在存储器上的软件，用于实现在此所述的一个或多个功能。应注意，如果模块经硬件实施，该硬件可独立运行和/或结合软件和/或固件运行。如在此使用的，模块可包含一个或多个子模块，每一子模块可以是一个或多个模块。
[0150]在本发明的多个不同功能和特征的特定组合已在此明确描述的同时，这些特征和功能的其它组合也是可能的。本发明不限于在此公开的特定例子，而是明确包括前述其它组合。
【权利要求】
1.用于将视频信号处理为处理后的视频信号的系统，所述视频信号包括图像序列，所述系统包括: 模式识别模块，用于基于编码反馈数据检测图像序列中的感兴趣模式并作为其响应产生模式识别数据，其中所述模式识别数据指明感兴趣的模式；及连到所述模式识别模块的视频编解码器，其基于图像序列产生处理后的视频信号及在处理图像序列时产生编码反馈数据。
2.根据权利要求1的系统，其中所述视频编解码器基于包括模式识别数据的模式识别反馈产生处理后的视频信号。
3.根据权利要求1或2的系统，其中所述视频编解码器基于表明检测到感兴趣模式的模式识别反馈至少弓I导下述之一:图像序列的转码和编码。
4.根据权利要求3的系统，其中所述视频编解码器包括通过对图像序列进行编码而产生处理后的视频信号的编码器部分，其中所述模式识别反馈还包括指明感兴趣区域的区域标识数据，及其中所述编码器部分基于所述区域标识数据弓I导图像序列的编码。
5.根据前面任一权利要求的系统，其中所述编码反馈数据包括镜头转变数据，所述镜头转变数据辨识图像序列中对应于多个视频镜头的时间段；非必须地，所述模式识别模块产生对应于所述多个视频镜头中的至少一个的模式识别数据。
6.根据权利要求5的系统，其中所述多个视频镜头中的至少一个包括图像序列中的多个图像，及其中所述模式识别模块基于跨所述多个图像进行的时间识别而产生模式识别数据。
7.根据权利要求5或6 的系统，其中所述模式识别模块还产生包括感兴趣模式的标识和多个视频镜头中包括感兴趣模式的至少一对应镜头的标识的索引数据。
8.用于将视频信号编码为处理后的视频信号的方法，所述视频信号包括图像序列，所述方法包括: 在经编码器部分对图像序列进行编码时产生编码器反馈数据；基于所述编码器反馈数据检测图像序列中的感兴趣模式；当检测到感兴趣模式时产生模式识别数据，其中所述模式识别数据指明感兴趣模式。
9.根据权利要求8的方法，其中所述处理后的视频信号基于包括所述模式识别数据的模式识别反馈产生。
10.根据权利要求8或9的方法，其中所述模式识别数据包括感兴趣模式的标识，及其中图像序列的编码基于指明感兴趣模式的标识的模式识别反馈进行修改。
11.根据权利要求10的方法，其中所述模式识别反馈还包括指明感兴趣区域的区域标识数据，及其中图像序列的编码基于所述区域标识数据进行修改。
12.根据权利要求8-11任一所述的方法，其中所述编码器反馈数据包括镜头转变数据，所述镜头转变数据辨识图像序列中对应于多个视频镜头的时间段；非必须地，所述模式识别数据产生为对应于所述多个视频镜头中的至少一个。
13.根据权利要求12的方法，其中所述多个视频镜头中的至少一个包括图像序列中的多个图像，及其中所述模式识别数据基于跨所述多个图像进行的时间识别而产生。
14.根据权利要求12或13的方法，还包括: 产生包括感兴趣模式的标识和多个视频镜头中包括感兴趣模式的至少一对应镜头的标识的索引数据。
15.根据权利要求8-14任一所述的方法，其中所述编码器反馈数据包括下述之一或二者: 至少一图像统计数据；及运动向量数据。
【文档编号】H04N7/26GK103428488SQ201310136205
【公开日】2013年12月4日申请日期:2013年4月18日优先权日:2012年4月18日
【发明者】赵勗罡, 李莹申请人:Vixs系统公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵勗罡;李莹
技术所有人：ViXS系统公司
我是此专利的发明人

上一篇：双路径d2d系统中的混合自动重传方法和频率调度方法
上一篇：全天候彩色摄像机白平衡处理方法及装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。