基于场景的适应性比特率控制的制作方法

文档序号：7989382阅读：136来源：国知局

基于场景的适应性比特率控制的制作方法
【专利摘要】本发明在此描述用于编码视频流的编码器。该编码器接收输入视频流，显示输入视频流中场景转换发生的位置的场景边界信息和每一场景的目标比特率。基于场景边界信息，编码器将输入视频流分成多个节。每一节包含多个暂时相邻图像帧。编码器根据目标比特率编码多节中的每一节，提供基于场景的适应性比特率控制。如果视频质量限制在低比特率被满足，则无须以更高的比特率编码相同的节，因为质量限制已被满足。
【专利说明】基于场景的适应性比特率控制
[0001]对相关申请的交互引用
[0002]此申请要求2011年I月28日递交的美国临时申请案61/437，193，以及2011年I月28日递交的美国临时申请案61/437，223的优先权。上述申请案的内容明示地以参考方式合并于此。
【技术领域】
[0003]本发明涉及视频和图像压缩技术，尤其涉及使用基於场景自适应性比特率控制的视频和图像压缩技术。
【背景技术】
[0004]随着视频流在日常用户中的持续普及和使用，有几个内在的局限需要被克服。例如，为获得该视频流，用户往往希望在只在有限带宽的因特网上观看视频。例如，用户可能希望通过移动电话连接或家用无线连接获得视频流。在某些情况下，通常利用预先下载(spooling content)内容的方式来补偿带宽的不足(即，下载内容至本地储存后再观看)。这种方法具有一些缺点。首先，用户不能有真正的“运行时间”体验，也就是说用户在打算观看节目时不能够实时观看。相反的，在观看节目之前，用户不得不经历内容预先下载的明显延迟。另一个缺点是储存空间的可用性一无论是提供商还是用户都不得不提供储存资源以保证预先下载内容可以被储存，即使是很短的时间，仍导致了昂贵的储存资源的不必要使用。
[0005]视频流(典型地包括图像部分和声音部分)可能需要大量的带宽，特别是高分辨率的视频流(例如高清视频)。音频典型地需要少得多的带宽，但是有时仍然需要考虑带宽的问题。一个视频流的方法是大量压缩视频流，以使得快速的视频传输可允许用户在运行时间(rune-time)或者实质上实时地观看内容(即，无需经历大量的预先下载延迟)。典型地，损失压缩(即，压缩并不是完全可逆的)提供了比无损压缩更高的压缩比例，但是大量的损失压缩提供了不良的用户体验。
[0006]为了减少传输数字视频信号的带宽需求，使用高效的数字视频编码是众所周知的，其中数字视频信号的数据率可能会大幅减少(出于视频数据压缩的目的)。为了保证互操作性，视频编码标准在促进数字视频在很多专业及消费应用程序中的被采用发挥了关键作用。最有影响力的标准传统由国际电信联盟(ITU-T)或是IS0/IEC (标准化/国际电工委员会的国际组织)的MPEG (运动图像专家组)15委员会所开发。ITU-T标准，公认的优点是通常针对实时通信(例如视频会议)，而大多数MPEG标准是优化储存(例如，数字多功能激光视盘(DVD)和广播(例如数字视频广播(DVB)标准))。
[0007]目前，大多数标准化的视频编码算法是基于混合视频编码。混合视频编码方法通常结合数个不同的无损和损失(lossless and lossy)压缩方案以达到所需的压缩增益。混合视频编码也是ITV-T标准的基础(H.26x标准例如H.261、H.263)和ISO/1EC标准(MPEG-X标准例如MPEG-l、MPEG-2和MPEG-4)。目前最新和最先进的视频编码标准是被称为H.264/MPEG-4先进视频编码(AVC)，是联合视频小组(JVT)、ITV-T联合小组和ISO/IEC MPEG组的共同努力的结果。
[0008]该H.264标准应用了被称为既定标准(例如MPEG-2)之基于块的运动之补偿混合转换编码的相同原则。因此，H.264的语法可依照标头的一般阶层而被组织，例如图像块、片块和宏块标头，以及数据，例如运动向量、块变换系数和量化规模等。然而，H.264标准分离了视频编码层(VCL，其描述了视频数据的内容)以及网络应用层(NAL，其格式化数据并提供标题信息)。
[0009]此外，H.264标准可以大幅提高编码参数的选择。例如，它允许宏块16x16的更详细的划分和操作，即如运动补偿过程可以在大小为4x4尺寸的宏块分割上执行。并且，样本块的运动补偿预测的选择过程中可能涉及先前译码储存图片的数量，而不是仅仅相邻的图片。即使在单一的帧内进行帧内编码，也有可能使用来自于同样帧的先前编码样本以形成块的预测。再者，伴随运动补偿所造成预测错误可能基于4x4块尺寸被转换和量化，而非传统的8x8的块尺寸。同样，回路程序分块滤波器现在是强制性的。
[0010]该H.264标准可被视为H.262/MPEG-2视频编码语法的超级集合，它使用相同的视频数据的全局结构，同时延长了可能的编码决策和参数的数量。具有多种编码决策的后果是可能取得良好的比特率和图像质量之间的权衡。然而，尽管H.264标准可能显著降低基于块编码的典型产出而被普遍承认，它也可能突出其它产出。事实上，H.264允许各种编码参数可能值的增加数量，因此导致改进编码程序的潜力增加，但是也导致了选择视频编码参数的敏感性的增加。
[0011]与其它标准相似，H.264不指定选择视频编码参数的规范程序，但是通过参考实施例描述，各种标准可被用于选择视频编码参数以达到编码效率、视频质量和实用性之间的适当平衡。然而，所述标准可能不会总是导致最佳或合适的适于所有类型内容和应用程序的编码参数的选择。例如，对于视频信号的特征而言，该标准可能不会导致视频编码参数的最优或可取选择是，或者基于获取编码的信号特征的标准可能对于当前的应用程序并不适
口 ο
[0012]众所周知，使用恒定比特率(CBR)编码或可变比特率(VBR)编码对视频数据进行编码。在这两种情况下，单位时间内的位数被限制，即，比特率不能超过某个阈值。通常，t匕特率表示为位每秒。CBR编码通常是具有额外填充恒定比特率的VBR编码的一种类型(例如，用O填充比特流)。
[0013]TCP/IP网络，例如因特网，不是“比特流”传输，而是传输容量随时变化的尽力网络。在尽力网络中使用CBR或者VBR方式编码和传输并不理想。有些协议以在因特网上传送视频。一个很好的例子就是HTTP自适应比特率视频流，其中视频流被分割成文件，并被作为文件经由HTTP连接进行传送。每一文件都包含预定播放时间的视频序列，并且比特率不同文件的大小不同。因此，某些文件可能小于其它文件。
[0014]因此，视频编码的改进系统将是有利的。
[0015]前述相关领域示例和相关的特征之目的系说明性质，而非排他性质。相关领域的其他特征将基于说明书的解读和附图的研究而清楚可见。

【发明内容】
[0016]本发明将描述编码视频流的编码器。编码器接收视频流输入，场景边界信息显示在输入视频流中的场景转换发生的位置和每个场景的目标比特率。编码器基于场景边界信息将输入视频流分为多个节。每ー节包括多个暂时相邻的图像帧。编码器根据目标比特率编码多个场景中的每ー个场景，基于场景提供适应性比特率。
[0017]本
【发明内容】
以简化的形式提供ー个概念的选择，并将在下面的实施方式中进ー步描述。本
【发明内容】
并非_在确定所要保护的主题的关键特征或基本特征，亦非用于限制所要保护的主题的范围。
【专利附图】

【附图说明】
[0018]本发明的一个或多个实施例通过举例的方式说明并且不受限于附图中的图例，其中相似的參考编号表示相似的组件。
[0019]图1阐述了编码器的一个例子；
[0020]图2阐述了编码输入视频流的样本方法的步骤；
[0021]图3是处理系统区块图，该处理系统可以被用于实现编码器实施的所述的某些技术。
【具体实施方式】
[0022]现在将描述本发明的各个方面。下面的说明提供具体的细节以透彻理解说明中的例子。然而，本领域技术人员将理解本发明的实现并不需要诸多细节。此外，ー些熟知的结构或功能可能不会被详细显示或描述，以避免对相关说明产生不必要的混淆。虽然附图描述作为功能独立的组件，但是这样的描述仅仅为了说明的目的。对于本领域技术人员而言，附图中描绘的组件可以被任意组合或分开成单独的组件。
[0023]在下面的说明书中使用的术语g在以最合理的方式被解释，即使它正被用干与本发明中某些具体例子的详细说明配合使用。然而，在下文中某些术语可能需要被强调，任何试图以限制方式进行解释的术语将在实施方式部分被公开和明确界定。
[0024]本说明书中提及的“实施例”、“一个实施例”或类似的表示意味着所述的特定的功能、结构、特征被包括在本发明的至少ー个的实施例中。在说明书中这样的表达的出现并不一定都是指代相同的实施例。
[0025]图1根据本发明的一个实施例阐述了编码器100的例子。编码器100接收输入视频流110并输出编码视频流120，编码视频流120可以在译码器被译码恢复。编码器100包括输入模块102、视频处理模块104和视频编码模块106。编码器100可以包括其它组件例如视频传输模块、參数输入模块、储存參数的内存等等。编码器100可以执行未在此特别说明的其它视频处理功能。
[0026]输入模块102接收输入视频流110。输入视频流110可以采取任何适当的形式也可以源于任何适当的资源，如内存，或者源于现场节目。输入模块102进ー步接收每个场景的场景边界信息和目标比特率。场景边界信息显示在输入视频流中场景转换发生的位置。
[0027]视频处理模块104分析输入视频流110并将视频流110基于场景边界信息分为多个场景中的每ー个场景的多个节。每ー节包括多个暂时相邻的图像帧。在一个实施例中，视频处理模块进一步将输入视频流分割成多个文件。每ー个文件包括一或多个节。在另ー个实施例中，视频文件的每一节的位置、分辨率、时间戳或者开始帧编号都被记入文件或数据库中。视频编码模块使用相关的目标比特率或者具有比特率限制的视频质量编码每一节。在一个实施例中，编码器进一步包括视频传输模块用于经由网络连接(如HTTP连接)传输文件。
[0028]在一些实施例中，视频图像帧的光学分辨率被检测并利用，以决定真实的或最佳的场景视频尺寸和场景分割。光学分辨率描述的分辨率上一个或多个视频图像帧可以不断地分解细节。由于捕获光学、记录媒体、原始格式的限制，视频图像帧的光学分辨率可能远小于视频图像帧的技术分辨率。视频处理模块可以检测每节中的图像帧的光学分辨率。基于每节中的图像帧的光学分辨率可以确定场景形式。此外，一节的目标比特率可基于每一节中的图像帧的光学分辨率被确定。对于一些光学分辨率较低的节，目标比特率可以较低，因为高比特率对于节的保真并无帮助。在某些情况下，电子高阶装置上转换低分辨率图像以适应更高分辨率的视频帧也可能会产生不必要的产出(artifacts)。这在旧的缩放技术中更是如此。通过恢复原始分辨率，我们将允许现代视频处理器以更有效的方式提高图像并避免编码产生不是原始图像一部分的产出。
[0029]视频编码模块可使用任何编码标准(例如H.264/MPEG-4AVC标准)编码每一节。
[0030]基于不同的场景，每一节可在传输不同比特率的视觉质量的不同水平被编码(例如，500Kbps、1Mbps、2Mbps)。在一个实施例中，如果在一定的低比特率满足光学或视频质量限制，即500Kbps，那么编码过程可能不会需要更高的比特率，避免了在更高的比特率编码场景，即IMbps或2Mbps。参考表一。在单个文件中储存那些场景的情况下，单个文件将只储存需要在更高比特率进行编码的场景。然而，在某些情况下，可能需要在高比特率(即IMbps)文件中储存所有的场景(在一些旧的自适应比特率系统中的遗留)，在这种特殊的情况下，被储存的节或者部分将是低比特率的，即500Kbps而不是高比特率的。因此，储存空间被节约了。(但是不如不储存场景重要)。参考表二。在系统不支持在单个视频文件中有多种分辨率的其它情况下，储存节将以确定的帧大小的文件中发生。为了减少在每一分辨率的文件的数量，有些系统会限制帧数大小，例如，SDTV，HD720p，HD1080p。参考表三。
[0031]表一
[0032]
【权利要求】
1.一种利用场景形式编码视频流的方法，该方法包括: 接收一输入视频流；接收场景边界信息，该场景边界信息显示在输入视频流中场景转换发生的位置和每一场景的目标比特率；基于该场景边界信息将该输入视频流分为多节，每一节包括多个暂时相邻的图像帧；以及根据该目标位编码多节中的每一节。
2.如权利要求1所述的编码视频流的方法，进一步包括:接收每一场景的最大容器尺寸。
3.如权利要求2所述的编码视频流的方法，其中编码步骤包括:根据该目标比特率和该最大容器尺寸，编码多节中的每一节。
4.如权利要求1所述的编码视频流的方法，进一步包括:将该输入视频流分割成多个视频文件，每一视频文件包含一或多个节。
5.如权利要求1所述的编码视频流的方法，进一步包括:将该输入视频流分割入一数据库和单个视频文件，每一视频文件无包含或包含一或多个节。
6.如权利要求1所述的编码视频流的方法，进一步包括:经由一HTTP连接传输多个文件。
7.如权利要求1所述的编码视频流的方法，进一步包括:检测每一节中的该图像帧的最佳光学分辨率。
8.如权利要求1所述的编码视频流的方法，其中至少一个该场景形式系基于该节中的该图像帧的一光学分辨率而被确定。
9.如权利要求1所述的编码视频流的方法，其中该节中的至少一目标比特率系基于该节中的该图像帧的一光学分辨率而被确定。
10.如权利要求1所述的编码视频流的方法，其中该节中的至少一视频影像的尺寸系基于该节中的该图像帧之该最接近的光学分辨率而被确定。
11.如权利要求1所述的编码视频流的方法，其中该编码步骤包括:根据该目标比特率基于一 H.264/MPEG-4AVC标准而对该多节中的每一节进行编码。
12.如权利要求1所述的编码视频流的方法，其中一给定场景形式包括一或多个的: 一1决进场景形式；一静止场景形式；一头部特写；一文件；一大多是黑色的图像；一短场景；一低兴趣场景形式；一火场景形式；一水场景形式；一烟场景形式；一演职员名单场景形式；一模糊场景形式；一离焦场景形式；一具有小于图像容器尺寸场景形式的一低分辨率之一图像；一杂项；或者一默认值。
13.一种利用场景形式对一视频流进行编码的编码设备，该设备包括: 一输入模块，接收一输入视频流；该输入模块接收场景边界信息，该场景边界信息显示在输入视频流中场景转换发生的位置和每一场景的目标比特率；一视频处理模块，基于该场景边界信息将该输入视频流分为多节，每一节包括多个暂时相邻的图像帧；以及一视频编码模块，根据该目标比特率编码多节中的每一节。
14.如权利要求13所述的编码设备，其中该输入模块进一步接收每一场景的光学图像尺寸。
15.如权利要求14所述的编码设备，其中该视频编码模块进一步根据该光学图像尺寸编码多节中的每一节。
16.如权利要求13所述的编码设备，其中该视频处理模块进一步分割该输入视频流为多个文件，且每一文件包含一或多个节。
17.如权利要求13所述的编码设备，其中该视频流被编码为单个文件并伴随具有每一部分的位置、起始帧、时间戳和分辨率的一文件。
18.如权利要求13所述的编码设备，进一步包括:一视频传输模块，经由一HTTP连接传输多个文件。
19.如权利要求13所述的编码设备，其中该视频处理模块进一步检测该节中的该图像中贞的一光学分辨率。
20.如权利要求13所述的编码设备，其中至少一个场景形式系基于该节中的该图像帧的一光学分辨率而被确定。
21.如权利要求13所述的编码设备，其中该节中的至少一个目标比特率系基于该节中的该图像帧的一光学分辨率而被确定。
22.如权利要求13所述的编码设备，其中该节中的至少一个视频质量限制系基于该节中的该图像帧的一光学分辨率而被确定。
23.如权利要求13所述的编码设备，其中该视频编码模块系根据基于H.264/MPEG-4AVC标准之该目标比特率而对多节中的每一节进行编码。
24.如权利要求13所述的编码设备，其中由该视频处理模块分配的一给定场景形式包括一或多个的: 一,决进场景形式；一静止场景形式；一头部特写；一文件；一大多是黑色的图像；一短场景；ー低兴趣场景形式；一火场景形式；一水场景形式；一烟场景形式；一演职员名单场景形式；一模糊场景形式；ー离焦场景形式；一具有小于图像容器尺寸场景形式的一低分辨率之ー图像；ー杂项；或者一默认值。
【文档编号】H04N7/24GK103493481SQ201280015700
【公开日】2014年1月1日申请日期:2012年1月26日优先权日:2011年1月28日
【发明者】罗德佛·瓦格斯·古耶瑞欧申请人:艾艾欧有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗德佛·瓦格斯·古耶瑞欧
技术所有人：艾艾欧有限公司
我是此专利的发明人

上一篇：传输管理系统、传输系统、程序、程序供应系统和维护系统的制作方法
上一篇：基于hvs模式的颜色转换的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。