一种视频压缩方法及使用该方法的视频系统的制作方法

文档序号：7623129阅读：97来源：国知局

专利名称：一种视频压缩方法及使用该方法的视频系统的制作方法
技术领域：
本发明涉及数字图像处理领域，特别是一种视频压缩方法及使用该方法的视频系统。
背景技术：
随着因特网的发展，视频系统渐渐的被广泛应用到各个领域。视频会议系统，是利用视频、音频压缩技术及点到点或点到多点的通信技术，构筑在IP网络上的全新会议解决方案。该系统不同于传统的基于会议室的会议系统，它不需要固定的线路和固定的会议地点、不依赖于固定的设备和昂贵的硬件投资，与会者只需安坐在会议室、教室、办公室里或家中，随时随地，随便用一台笔记本电脑或PC，连上一条网络连接线，通过公用网络，连接到虚拟的会议呼叫中心(会议管理服务器)，就可以随时和各地的伙伴和同行进行数据、音频及视频的交流通讯。其中视频压缩技术是将视频数据根据用户对图像质量的要求及传输带宽的要求进行压缩的一种技术，以求在满足图像质量要求的同时实现占用较小的带宽，其中现有的视频压缩技术包括有H.263系列、MPEG-4、motionJPEG等。这些压缩标准的基本方法是将视频以帧为单位，对每一帧分别按I帧、P帧或B帧进行压缩，并与压缩后的语音数据一起传输。尽管现有的视频压缩方法已经有很高的压缩比，但是其中的视频流仍然占据了很大的比重。另外在很多应用场合，如一般家庭中的播号上网、手机等无线终端设备等其可用带宽在目前还十分有限，因此现有的这些视频压缩技术的应用仍不能满足用户对画面质量的要求。
因此，亟待提出一种可以有效解决上述问题的视频压缩方法及使用该方法视频系统。

发明内容
有鉴于此，本发明的目的在于提供一种视频压缩方法及使用该方法视频系统，其可以有效的降低特定应用中的视频流的码率。
为了达到上述目的，根据本发明的一方面，一种视频压缩方法，包括以下步骤获取视频图像序列，并确定当前帧图像及参考帧图像；对所述视频图像序列进行运动检测，根据预先设定的阈值来确定当前帧图像相对参考帧图像是否有大幅运动；如果是，则对当前帧图像进行数据压缩及传送；如果否，则不对当前帧图像数据进行压缩及传送。
优选的，获取的视频图像主要是发言者正面人脸的图像。
优选的，对当前帧图像关于是否有大幅运动的运动检测中，当前帧图像与参考帧图像的运动检测结果大于预先设定的阈值，则确定当前帧图像发生大幅运动，当前帧图像与参考帧图像的运动检测结果小于预先设定的阈值，则确定当前帧图像未发生大幅运动，其中大幅运动是指可能发生发言者转头、低头、仰头等动作等，没有大幅运动是指仅有包括表情动作、嘴形动作、眼睛动作等在内的面部动作。
优选的，所述对当前帧图像进行数据压缩是指按照H.263或MPEG-4等压缩标准进行压缩。
优选的，该方法还包括音频获取、音频压缩、音频数据传输、音频数据接受及音频数据解压缩步骤。
优选的，该方法进一步包括如下步骤视频数据接受；判断是否有当前帧图像，如果有，则对此帧图像进行解压缩并将解压结果进行图像显示，如果没有，将最近解压缩的一帧图像作为模板，然后基于解压出的语音信息及模板图像合成出随语音数据变化的面部图像。
优选的，图像合成步骤中还要对模板图像进行分析，包括检测出面部主要特征区域，如眼睛、嘴巴、下颚等，及主要特点。
根据本发明的另一方面，一种视频系统包括视频摄入模块，可以摄入画面主要包括正面人脸的图像序列；运动检测模块，用于对所述视频图像序列进行运动检测，根据预先设定的阈值来确定当前帧图像相对参考帧图像中正面人脸是否有大幅运动；视频压缩模块，根据运动检测结果来确定是否对当前帧图像进行压缩，如果确定当前帧图像与参考帧图像相比正面人脸有大幅运动，则对当前帧图像进行压缩；如果确定当前帧图像与参考帧图像相比正面人脸没有大幅运动，则不对视频摄入模块摄入的当前帧图像进行压缩。
优选的，该系统还包括用于摄入音频的音频摄入模块、将音频数据进行压缩的音频压缩模块及接收视频压缩模块及音频压缩模块的数据并将其协调发送的数据发送模块。
优选的，该系统进一步包括有接受并分离视频数据及音频数据的数据接收模块、对音频数据进行解压的音频解压模块、对视频数据进行解压的视频解压模块及视频合成模块，其中视频解压模块解压数据时首先码流中是否有当前帧图像数据，如果有，则对此帧图像进行解压缩并进行图像显示；如果没有当前帧图像，视频合成模块会将视频解压模块最近输出的一帧图像作为模板，并对该模板图像进行分析主要特征区域及主要特点，然后视频合成模块基于音频解压模块解压出的语音信息及模板图像中面部图像合成出随语音数据变化的面部图像。
对于本发明的视频系统通过特别设置运动检测模块来对摄入的发言者面部图像进行运动检测，并以检测结果来最终确定是否对当前帧图像进行压缩，如果发言者面部图像没有大幅运动可以实现连续多帧图像不进行压缩传输，改变了现有技术中将当前帧图像统统作压缩处理的做法，从而有效的降低了视频流的码率，并进一步降低了音视频流共同占用的带宽。另外，通过增设视频图像合成模块，利用模板帧图像及与此对应的语音信息合成出被省略的随着语音变化的面部图像，以满足用户的对画面质量的高要求。

图1是本发明视频系统的方框示意图；图2是本发明视频压缩方法的压缩过程流程图；及图3是本发明视频压缩方法的解压过程流程图。
具体实施例方式
在进行视频会议或其它视频应用时，在特定的一段时间内，需要将摄像机固定对准某位发言者，摄像机摄入的图像主要是发言者正面人脸的图像。针对此种情况，本发明提出了一种视频压缩方法及基于该方法的视频系统。但是需要指出的是，本发明的视频压缩方法及基于该方法的视频系统并不仅限于此种情况下的应用。
请参阅图1所示，本发明提出的视频系统至少包括数据发送端及数据接受端，其中数据发送端包括有视频摄入模块11、音频摄入模块12、运动检测模块13、视频压缩模块14、音频压缩模块15及数据发送模块16，数据接受端包括有数据接受模块21、视频解压模块22、音频解压模块23、视频合成模块24、视频输出模块25及音频输出模块26。
视频摄入模块11用于以指定帧率获取视频图像序列，比如24帧/秒或30帧/秒。通常，所述视频摄入模块11内置有用于感应外部光线以将光信号转换为模拟电信号的视频传感器及将模拟电信号转化为数字信号的模数转换器。因此，所述视频摄入模块11可以输出数字图像数据以供后续处理。在一个特定的实施例中，所述视频摄入模块11可以是一个摄像头或摄像机等。关于摄入图像并将模数转换的技术已经是所属技术领域内普通技术人员所能易于思及的，此处不再做进一步描述。
由于在进行视频会议或其它视频应用时，在特定的一段时间内，需要将视频输入模块固定对准某位发言者面部，视频输入模块摄入的图像主要是发言者正面人脸的图像，也就是说在此段时间内，视频摄入模块11摄入的图像序列之间可能除了发言者正面人脸的面部动作之外并没有其它的大的变化。针对这种情况，请结合参考图2，所述视频系统还特别提供了一个运动检测模块13，用于判断当前帧图像(第N帧)与参考帧图像相比发言者面部是否有大幅运动，如果没有，即可能只有包括表情动作、嘴形动作、眼睛动作等在内的面部动作，则不对当前帧图像进行后文将要提到的图像压缩及数据传输，并将此次参考帧图像作为下次运动检测的参考帧图像；如果有，即可能发生发言者转头、低头、仰头等动作或视频摄入模块11被移向别处，则对当前帧图像进行后文将要提到的图像压缩，并将当前帧图像更新为参考帧图像，将N自动加1并重复上述步骤，这样如果发言者面部图像在一段时间之内没有大幅运动可以实现连续多帧图像不进行数据压缩及传输，前述内容即是本发明提出的视频压缩方法的压缩步骤的核心。关于图像的运动检测技术已经记载于中星微电子有限公司的中国第200510076954.1号及第200510093336.8号专利申请中，此处仅做简要介绍。在一个实施例中，运动检测模块13将当前摄入的发言者面部图像确定为当前帧图像(第N帧)，并指定视频摄入模块11摄入的另一帧图像为参考帧图像，然后统计参考帧图像及当前帧图像内的运动信息并将两者的运动信息进行对比，再后将参考帧图像及当前帧图像内的运动信息的比较结果与预先设定的阈值相比较，如果超过了预先设定的阈值则确定当前帧图像与参考帧图像相比发言者面部有大幅运动，同时将并将当前帧图像更新为参考帧图像，如果未超过预先设定的阈值则确定当前帧图像与参考帧图像相比发言者面部没有大幅运动，将N自动加1并重复上述步骤。关于如何确定视频摄入模块11摄入的图像是否主要为发言者面部的图像可通过人脸检测技术来判断，比如可以判断人脸图像区域占整个图像区域的百分比，以百分比是否超过预定的阈值来判断是否主要为发言者面部的图像，所述的人脸检测技术已经是所属技术领域内的普通技术人员所能轻易获得的技术，此处不作赘述。
所述视频压缩模块14根据所述运动检测模块13的运动检测结果对视频摄入模块11摄入的当前帧图像进行压缩并将压缩后的数据输送至发送模块16。如果确定当前帧图像与参考帧图像相比发言者面部有大幅运动，则对视频摄入模块11摄入的当前帧图像进行压缩；如果确定当前帧图像与参考帧图像相比发言者面部没有大幅运动，则不对视频摄入模块11摄入的当前帧图像进行压缩。其中视频压缩模块14所采用的压缩技术可以是现有技术中的一些通用的图像压缩标准，比如，H.263系列、MPEG-4、或motion JPEG等。
所述音频摄入模块12用于采集视频会议时的声音信号，音频压缩模块15将视频输入模块12采集到的声音信号进行压缩以便于数据传送，然后将压缩后的数据输送给发送模块16。其中音频摄入模块12及音频压缩模块15均属于所属领域内的普通技术人员所显而易见的技术，所以此处不作赘述。
发送模块16用来协调接受到的视频压缩数据及音频压缩数据并将这些数据通过媒介发送出去，可以采用无线上网的方式发送，也可以采用有线上网的方式发送，只要能发送至互联网上即可。本发明的视频系统通过特别设置运动检测模块来对摄入的发言者面部图像进行运动检测，并以检测结果来最终确定是否对当前帧图像进行压缩，如果发言者面部图像一段时间内没有大幅运动可以实现连续多帧图像不进行压缩传输，改变了现有技术中将当前帧图像统统作压缩处理的做法，从而有效的降低了视频流的码率，并进一步降低了音视频流共同占用的带宽。
接收模块21用于从互联网上接受发送模块16发送的数据，并将数据分离成视频数据及音频数据，后将数据分别传送给视频解压模块22及音频解压模块23。其中音频数据经过音频解压模块23便直接通过音频输出模块输出26进行输出，同样，关于音频解压及音频输出技术此处亦不作赘述。
所述视频解压模块22也是通过通用的图像压缩标准进行解压缩，比如，H.263系列、MPEG-4、或motion JPEG等。然而由于数据发送端并没有对每一帧图像都进行压缩传输，所以本发明的在所述视频解压模块22图像解压之前，需要进行一个判断步骤。请结合参阅图3，解压数据时首先码流中是否有第N帧图像数据，如果有，则通过视频解压模块22对此帧图像进行解压缩并将解压结果输出给视频输出模块25进行图像显示；如果没有第N帧图像，视频合成模块24会将视频解压模块22最近输出的一帧图像作为模板，并对该模板图像进行分析，包括检测出面部主要特征区域，如眼睛、嘴巴、下颚等，及主要特点，然后视频合成模块24基于音频解压模块23解压出的语音信息及模板图像中面部主要特征区域及主要特点合成出随语音数据变化的面部图像；将N自动加1并重复上述步骤，上述内容为本发明提供的视频压缩方法的解压步骤的核心。其中对模板图像进行分析的步骤中可采用现有技术中的人脸检测技术，基于语音信息合成随语音数据变化的面部图像的技术请参考中星微电子有限公司的中国第200510082755.1号专利申请，此处不做进一步描述。
对于本发明的视频系统通过特别设置运动检测模块13来对摄入的发言者面部图像进行运动检测，并以检测结果来最终确定是否对当前帧图像进行压缩，如果发言者面部图像没有大幅运动可以实现连续多帧图像不进行压缩传输，改变了现有技术中将当前帧图像统统作压缩处理的做法，从而有效的降低了视频流的码率，并进一步降低了音视频流共同占用的带宽。另外，通过增设视频图像合成模块24，利用模板帧图像及与此对应的语音信息合成出被省略的随着语音变化的面部图像，以满足用户的对画面质量的高要求。
在介绍本发明视频系统时对本发明的视频压缩方法一并介绍，所属领域内的普通技术人员通过查看对本发明视频系统介绍均可以获知本发明的视频压缩方法，所以此处也就不对本发明视频压缩方法进行独立介绍。
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。
权利要求
1.一种视频压缩方法，其特征为，包括以下步骤获取视频图像序列，并确定当前帧图像及参考帧图像；对所述视频图像序列进行运动检测，根据预先设定的阈值来确定当前帧图像相对参考帧图像是否有大幅运动；如果是，则对当前帧图像进行数据压缩及传送；如果否，则不对当前帧图像数据进行压缩及传送。
2.根据权利要求1所述的方法，其特征为获取的视频图像主要是发言者正面人脸的图像。
3.根据权利要求2所述的方法，其特征为大幅运动是指可能发生发言者转头、低头、仰头等动作幅度大的动作，没有大幅运动是指可能仅有包括表情动作、嘴形动作、眼睛动作等在内的面部动作，其中对当前帧图像关于是否有大幅运动的运动检测中，当前帧图像与参考帧图像的运动检测结果大于预先设定的阈值，则确定当前帧图像发生大幅运动，当前帧图像与参考帧图像的运动检测结果小于预先设定的阈值，则确定当前帧图像未发生大幅运动。
4.根据权利要求1所述的方法，其特征为所述对当前帧图像进行数据压缩是指按照H.263或MPEG-4或motion JPEG等压缩标准进行压缩。
5.根据权利要求2所述的方法，其特征为其还包括音频获取、音频压缩、音频数据传输、音频数据接受及音频数据解压缩步骤。
6.根据权利要求5所述的方法，其特征为其还包括如下步骤视频数据接受；判断是否有当前帧图像，如果有，则对此帧图像进行解压缩并将解压结果进行图像显示，如果没有，将最近解压缩的一帧图像作为模板，然后基于解压出的语音信息及模板图像合成出随语音数据变化的发言者面部图像。
7.根据权利要求6所述的方法，其特征为图像合成步骤中还要对模板图像进行分析，包括检测出面部主要特征区域，如眼睛、嘴巴、下颚等，及主要特点。
8.一种视频系统，其特征为其包括视频摄入模块，可以摄入画面主要包括正面人脸的图像序列；运动检测模块，用于对所述视频图像序列进行运动检测，根据预先设定的阈值来确定当前帧图像相对参考帧图像中正面人脸是否有大幅运动；视频压缩模块，根据运动检测结果来确定是否对当前帧图像进行压缩，如果确定当前帧图像与参考帧图像相比正面人脸有大幅运动，则对当前帧图像进行压缩；如果确定当前帧图像与参考帧图像相比正面人脸没有大幅运动，则不对视频摄入模块摄入的当前帧图像进行压缩。
9.根据权利要求1所述的视频系统，其特征为其还包括用于摄入音频的音频摄入模块、将音频数据进行压缩的音频压缩模块及接收视频压缩模块及音频压缩模块的数据并将其协调发送的数据发送模块。
10.根据权利要求9所述的方法，其特征为其还包括有接受并分离视频数据及音频数据的数据接收模块、对音频数据进行解压的音频解压模块、对视频数据进行解压的视频解压模块及视频合成模块，其中视频解压模块解压数据时首先判断码流中是否有当前帧图像数据，如果有，则对此帧图像进行解压缩并进行图像显示；如果没有当前帧图像，视频合成模块会将视频解压模块最近输出的一帧图像作为模板，然后视频合成模块基于音频解压模块解压出的语音信息及模板图像中面部图像合成出随语音数据变化的面部图像。
全文摘要
本发明公开了一种视频压缩方法及视频系统，该视频系统包括视频摄入模块，可以摄入画面主要包括正面人脸的图像序列；运动检测模块，用于对所述视频图像序列进行运动检测，来确定当前帧图像相对参考帧图像中正面人脸是否有大幅运动；视频压缩模块，根据运动检测结果来确定是否对当前帧图像进行压缩，如果确定当前帧图像与参考帧图像相比正面人脸有大幅运动，则对当前帧图像进行压缩；如果确定当前帧图像与参考帧图像相比正面人脸没有大幅运动，则不对当前帧图像进行压缩。通过设置运动检测模块来对摄入的发言者面部图像进行运动检测，如果发言者面部图像一段时间内没有大幅运动可以实现连续多帧图像不进行压缩传输从而降低了视频流的码率。
文档编号H04N7/15GK1731859SQ20051009835
公开日2006年2月8日申请日期2005年9月9日优先权日2005年9月9日
发明者王浩, 黄英申请人:北京中星微电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王浩;黄英
技术所有人：北京中星微电子有限公司
我是此专利的发明人

上一篇：一种跨网关通信的方法
上一篇：多条无线链路的物理信道发射功率的异步重配置方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。