一种基于对象的视频转码方法和装置的制作方法

文档序号：7892897阅读：122来源：国知局

专利名称：一种基于对象的视频转码方法和装置的制作方法
技术领域：
本发明属于视频编码技术领域，尤其涉及一种基于对象的视频转码方法和装置，用于在视频转码中隔离蚊式噪声。
背景技术：
视频技术和视频压缩标准的不断发展以及视频节目在不同应用环境中的需要，促使了视频转码研究的出现和不断发展。目前，视频转码技术已被人们广泛研究.具体来说，视频转码就是从一种视频编码流到另一种编码流的转换，目的是把输入的压缩流转换成符合接收端要求的压缩流。在数字电视广播领域和IPTV系统中的视频服务器端，为了使不同带宽的用户能够收看视频点播，视频服务器端需要利用转码器将高码率视频转换为低码率视频，视频码流的下降直接导致了图像质量下降，通常都需要对图像进一步增强，常用的增强方式是利用一些模板算子进行锐化处理，其结果表现为图像细节得到增强，图像更加清晰，但也同时在文字区域产生了蚊式噪声，导致视频图像出现闪烁。为了消除蚊式噪声，很多研究者从图像处理本身的角度开发了一系列技术解决相关问题，Anchor Bay研发了一个私有的不是很普遍的移除“蚊式噪音”以及其他压缩导致的伪影的方法，区别于那些通过移除太多细节或在动作画面引起混淆画面的方法来使得图像变得更差的降噪方法，VRS降噪的设计隔离了大多数令人讨厌的伪影。为了做到这点，Anchor Bay寻找到了画面中最有可能出现噪点的地方，并对其进行隔离和预示。另夕卜，郑世宝等人提出一种利用边缘检测、运动检测和中值滤波去除蚊式噪声的方法，即先对图像进行帧内处理，然后对经过帧内处理的连续的三帧图像进行帧间处理。具体为使用Lapalace算子对图像进行边缘检测，得到每个像素的边缘信息，如果某一像素为边缘像素或者它周围的四个像素中有两个以上的边缘像素，保留其值不变；否则，用一个中值滤波器对该像素进行滤波处理；进行运动检测，根据相邻帧之间的差异，判断当前帧中的像素是否运动，如果该像素是运动像素，则保留其值不变；如果是非运动像素，则将三帧中的对应点进行中值滤波的结果作为该像素的滤波结果。上述方法中的主要的缺陷是他们并不能从根本上解决消除纹式噪声，而且还增加了而外的计算开销。

发明内容
鉴于现有技术的缺陷，本发明提供一种基于对象的视频转码方法，其特征在于包括如下步骤步骤一、对输入视频流进行完全解码；步骤二、检测视频图像中文字区域并定位区域坐标；步骤三、利用坐标信息将整幅视频图像分为两个部分，一部分为文字区域，另一部分为非文字区域；步骤四、对于文字区域进行隔离，对于非文字区域，采用彩色图像锐化进行增强；
步骤五、对于两部分区域分别进行编码，并对两部分进行图像融合产生重新转码之后的图像。进一步，本发明所述的基于对象的视频转码方法，其特征在于步骤二具体为先将待转码视频解码为YUV格式，对Y分量计算图像边缘，并计算整个图像的边缘密度，得到一幅边缘密度图像，利用Otsu的方法对密度图进行分割并进行膨胀腐蚀操作，得到候选文字区域，然后利用事先训练好的SVM文字分类器进行识别，进而定位文字区域并得到区域坐标大小。进一步，本发明所述的基于对象的视频转码方法，其特征在于步骤四中对图像进去增强的步骤具体包括利用高斯滤波器对Y分量图像进行滤波得到滤波图像F，将图像Y和F做差得到差分图像，再将差分图像乘以一个放大系数，最后将差分图像叠加到滤波图像上就得到了最终的边缘增强图像。进一步，本发明所述的基于对象的视频转码方法，其特征在于步骤五中对文字区域进行编码的具体步骤为根据文字区域的位置信息，取得到相应的宏块的位置，然后对有文字的宏块进行单独的编码。此外，本发明还提供一种基于对象的视频转码装置，其特征在于包括如下模块解码模块，用于对输入视频流进行完全解码；文字区域定位模块，用于检测视频图像中文字区域并定位区域坐标；图像分割模块，用于利用坐标信息将整副视频图像分为两个部分，一部分为文字区域，另一部分为非文字区域；彩色图像增强模块，用于对于文字区域进行隔离，并对于非文字区域，采用彩色图像锐化进行增强；编码模块，用于对于两部分区域分别进行编码，并对两部分进行图像融合产生重新转码之后的图像。进一步，本发明所述的基于对象的视频转码装置，其特征在于文字区域定位模块先将待转码视频解码为YUV格式，对Y分量计算图像边缘，并计算整个图像的边缘密度，得到一幅边缘密度图像，利用Otsu的方法对密度图进行分割并进行膨胀腐蚀操作，得到候选文字区域，然后利用事先训练好的SVM文字分类器进行识别，即可比较准确的定位文字区域并得到区域坐标大小。进一步，本发明所述的基于对象的视频转码装置，其特征在于彩色图像增强模块利用一个高斯滤波器对Y分量图像进行滤波得到滤波图像F，将图像Y和F做差得到差分图像，在将差分图像乘以一个放大系数，最后将差分图像叠加到滤波图像上就得到了最终的边缘增强图像。进一步，本发明所述的基于对象的视频转码装置，其特征在于所述编码模块根据文字区域的位置信息，取得到相应的宏块的位置，然后对有文字的宏块进行单独的编码。本发明所述的基于对象的视频转码方法和装置利用模式识别技术先定位容易产生蚊式噪声的文字区域，对区域内、外图像进行分类处理编码，这样做的结果既增强了图像质量，同时有效地避免了蚊式噪声的产生，提高了输出图像的视觉质量。

图I是本发明基于对象的视频转码方法的示意图；图2是本发明基于对象的视频转码方法的流程图。
具体实施例方式为使本发明的上述目的、特征和优点更加明显易懂，下面结合附图和具体实施方式
对本发明作进一步详细的说明。在视频转码过程中，由于网络带宽对视频码流的限制导致图像质量下降，因此在二次编码前需要对视频图像进行一定的增强，而图像的文字区域在增强后产生了蚊式噪声，导致视频图像闪烁，本发明的目标就是通过一种自动识别文字区域，并对文字区域单独处理、编码的方式来防止蚊式噪声的产生。本发明在视频转码过程中采用全解全编结构，即由解码器和编码器串联而成，先对输入视频流进行完全解码，然后利用一个文字区域定位模块检测视频图像中文字区域并定位区域坐标，利用坐标信息将整副视频图像分为两个部分，一部分为文字区域，另一部分为非文字区域，对于文字区域进行隔离，对于非文字区域，采用一种彩色图像锐化方法进行增强，最后对于两部分区域分别进行编码，这样就可以增强图像细节的同时消除了蚊式噪声的影响。图I是本发明基于对象的视频转码方法的示意图；具体过程如下I)先将待转码视频解码为YUV格式，利用《》说明的方法在Y分量上进行文字区域检测。大致如下对Y分量计算图像边缘，并计算整个图像的边缘密度，得到一幅边缘密度图像，利用Otsu的方法对密度图进行分割并进行膨胀腐蚀操作，得到若干后选文字区域，此时利用一个事先训练好的SVM文字分类器进行识别，即可比较准确的定位文字区域并得到区域坐标大小。2)对图像Y分量进行图像增强。图像增强如下利用一个高斯滤波器对Y分量图像进行滤波得到滤波图像F，将图像Y和F做差得到差分图像，在将差分图像乘以一个放大系数，最后将差分图像叠加到滤波图像上就得到了最终的边缘增强图像，此时图像的细节信息得到明显增强，图像清晰度明显改善。Fdst = Fsrc^HguassianD = (Fsrc-Fdst) □ CE = Fdst+DFsrc为Y分量图像,Fdst为滤波图像,Hguassian为一个高斯核函数，D是差分边缘图像，C为放大系数(I. 5-5. O)，E为最终得到的边缘增强图。3)图像融合。利用I中提取到的文字区域坐标，将整副图像划分为两个部分，一个是文字区域，另一个是非文字区域，对于文字区域保留原始图像信息，有效地隔离了蚊式噪声，对于非文字区域，利用2)中得到的增强图像进行覆盖，这样就得到了一张融合后的增强图像。4)对于文字区域和非文字区域进行单独编码。通过上面方法得到文字区域的位置信息，根据位置信息取得到相应的宏块的位置，然后对有文字的宏块进行单独的编码。一般取有文字的宏块的QP = 20左右。其他宏块的QP值根据码率的大小重新计算，这样就保证了有文字区域的图像会很清晰，这样也就消除了蚊式噪声。
基于文字对象模型的编码方法，不仅可以将非文字区域进行有效地边缘增强，提高了图像的清晰度；同时对于文字区域进行隔离，有效避免了因为边缘增强带来的蚊式噪声。针对有文字信息的视频的区域做单独的编码处理来消除蚊式噪声，使有文字的区域更清晰。图2是本发明基于对象的视频转码方法的流程图；其包括如下步骤步骤一、对输入视频流进行完全解码；步骤二、检测视频图像中文字区域并定位区域坐标；步骤三、利用坐标信息将整幅视频图像分为两个部分，一部分为文字区域，另一部分为非文字区域；步骤四、对于文字区域进行隔离，对于非文字区域，采用彩色图像锐化进行增强；步骤五、对于两部分区域分别进行编码，并对两部分进行图像融合产生重新转码之后的图像。例如，要实现一个MPEG2的视频转成H264的视频，由于H264的压缩率很低，可以起到节约网络带宽的目的。这个转码算法是常用的一种情况。首先，对MPEG2的视频进行解码，解码成原始的视频流，如YUV。然后，对YUV的数据进行分析，把有文字信息的区域找至IJ，得到区域的坐标信息，把有文字信息的区域进行锐化处理，把这个坐标信息转变成宏块对应的信息，得到文字信息在哪个宏块出现，对有文字信息的宏块进行单独的编码。也就是文字区域的宏块所计算出来QP用更小的QP，而对于其他的部分采用更大的QP。这样的到的图像中的文字信息会更清晰，整幅图像的质量也不会受到很大影响。本发明利用模式识别技术先定位容易产生蚊式噪声的文字区域，对区域内、外图像进行分类处理编码，这样做的结果既增强了图像质量，同时有效地避免了蚊式噪声的产生，提高了输出图像的视觉质量。最后应当说明的是以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解依然可以对本发明的具体实施方式
进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。
权利要求
1.一种基于对象的视频转码方法，其特征在于包括如下步骤步骤一、对输入视频流进行完全解码；步骤二、检测视频图像中文字区域并定位区域坐标；步骤三、利用坐标信息将整幅视频图像分为两个部分，一部分为文字区域，另一部分为非文字区域；步骤四、对于文字区域进行隔离，对于非文字区域，采用彩色图像锐化进行增强；步骤五、对于两部分区域分别进行编码，并对两部分进行图像融合产生重新转码之后的图像。
2.根据权利要求I所述的基于对象的视频转码方法，其特征在于步骤二具体为先将待转码视频解码为YUV格式，对Y分量计算图像边缘，并计算整个图像的边缘密度，得到一幅边缘密度图像，利用otsu的方法对密度图进行分割并进行膨胀腐蚀操作，得到候选文字区域，然后，利用事先训练好的SVM文字分类器进行识别，进而定位文字区域并得到区域坐标大小。
3.根据权利要2所述的基于对象的视频转码方法，其特征在于步骤四中对图像进行增强的步骤具体包括利用高斯滤波器对Y分量图像进行滤波得到滤波图像F，将图像Y和F做差得到差分图像，再将差分图像乘以一个放大系数，最后将差分图像叠加到滤波图像上就得到了最终的边缘增强图像。
4.根据权利要I所述的基于对象的视频转码方法，其特征在于步骤5中对文字区域进行编码的具体步骤为根据文字区域的位置信息，取得相应宏块的位置，然后对有文字的宏块进行单独的编码。
5.一种基于对象的视频转码装置，其特征在于包括如下模块解码模块，用于对输入视频流进行完全解码；文字区域定位模块，用于检测视频图像中文字区域并定位区域坐标；图像分割模块，用于利用坐标信息将整幅视频图像分为两个部分，一部分为文字区域，另一部分为非文字区域；彩色图像增强模块，用于对于文字区域进行隔离，并对于非文字区域，采用彩色图像锐化进行增强；编码模块，用于对于两部分区域分别进行编码，并对两部分进行图像融合产生重新转码之后的图像。
6.根据权利要求5所述的基于对象的视频转码装置，其特征在于文字区域定位模块先将待转码视频解码为YUV格式，对Y分量计算图像边缘，并计算整个图像的边缘密度，得到一幅边缘密度图像，利用otsu的方法对密度图进行分割并进行膨胀腐蚀操作，得到若干后选文字区域，然后利用事先训练好的SVM文字分类器进行识别，进而定位文字区域并得到区域坐标大小。
7.根据权利要5所述的基于对象的视频转码装置，其特征在于彩色图像增强模块利用一个高斯滤波器对Y分量图像进行滤波得到滤波图像F，将图像Y和F做差得到差分图像，在将差分图像乘以一个放大系数，最后将差分图像叠加到滤波图像上就得到了最终的边缘增强图像。
8.根据权利要5所述的基于对象的视频转码装置，其特征在于所述编码模块根据文字区域的位置信息，取得到相应的宏块的位置，然后对有文字的宏块进行单独的编码。
全文摘要
一种基于对象的视频转码方法，其特征在于包括如下步骤步骤一、对输入视频流进行完全解码；步骤二、检测视频图像中文字区域并定位区域坐标；步骤三、利用坐标信息将整幅视频图像分为两个部分，一部分为文字区域，另一部分为非文字区域；步骤四、对于文字区域进行隔离，对于非文字区域，采用彩色图像锐化进行增强；步骤五、对于两部分区域分别进行编码，并对两部分进行图像融合产生重新转码之后的图像。本发明利用模式识别技术先定位容易产生蚊式噪声的文字区域，对区域内、外图像进行分类处理编码，这样做的结果既增强了图像质量，同时有效地避免了蚊式噪声的产生，提高了输出图像的视觉质量。
文档编号H04N21/2343GK102630043SQ201210093888
公开日2012年8月8日申请日期2012年4月1日优先权日2012年4月1日
发明者肖炳珠, 郝晔明, 魏东亮申请人:北京捷成世纪科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖炳珠;魏东亮;郝晔明
技术所有人：北京捷成世纪科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。