视频文件的切分方法及装置制造方法

文档序号：7801123阅读：109来源：国知局

视频文件的切分方法及装置制造方法
【专利摘要】本发明公开了一种视频文件的切分方法及装置，在上述方法中，将通过声纹识别获取到的音频文件划分为N个时间长度相同的音频数据段，再根据各个音频数据段的内容相似度对相邻的多个音频数据段进行合并，生成M个音频数据单元，其中，M<N，N和M均为正整数；分别获取每个音频数据单元对应的视频图像帧所在的GoP，并对该GoP以及与该GoP前后相邻的两个GoP进行码流分析；根据码流分析结果对与音频文件同步播放的视频文件进行切分。根据本发明提供的技术方案，提高了新媒体内容产生系统的效率和性能。
【专利说明】视频文件的切分方法及装置
【技术领域】
[0001]本发明涉及通信领域，具体而言，涉及一种视频文件的切分方法及装置。
【背景技术】
[0002]图1是根据相关技术的新闻节目大数据Map-Reduce并行处理流程的示意图。如图1所示，在Hadoop中的每个数据节点上运行Map作业,各自处理一路新闻电视节目。Map主要执行以下两种操作:
[0003]其一、是采用语音识别算法对电视新闻播音员的语音数据进行处理；
[0004]其二、是进行视频内容分析和视频切分输出新媒体数据。
[0005]其中，Map第一阶段的主要目的在于对视频段进行语音识别分析以获取语音关键词作为标签，并为新媒体内容搜索建立索引。而Map第二阶段的主要目的在于产生当今日益流行的三屏新媒体短视频内容。然后再由Reduce作业将新媒体内容进行分类聚合，从而适应于新媒体聚合门户应用。
[0006]然而，上述技术方案存在如下缺陷:相关技术中为了并行计算而简单切分文件会导致语音识别的准确率下降。另外，自动化切分新媒体内容缺乏紧密性、准确性和完整性。

【发明内容】

[0007]本发明提供了一种视频文件的切分方法及装置，以至少解决相关技术中为了并行计算而简单切分文件会导致语音识别的准确率下降的问题。
[0008]根据本发明的一个方面，提供了一种视频文件的切分方法。
[0009]根据本发明实施例的视频文件的切分方法包括:将通过声纹识别获取到的音频文件划分为N个时间长度相同的音频数据段，再根据各个音频数据段的内容相似度对相邻的多个音频数据段进行合并，生成M个音频数据单元，其中，M〈N，N和M均为正整数；分别获取每个音频数据单元对应的视频图像帧所在的视频图像组(GoP)，并对该GoP以及与该GoP前后相邻的两个GoP进行码流分析；根据码流分析结果对与音频文件同步播放的视频文件进行切分。
[0010]优选地，根据各个音频数据段的内容相似度对相邻的多个音频数据段进行合并，生成M个音频数据单元包括:按照预先设定的关键词类别分别对每个音频数据段中出现的多个关键词进行分类；对每种分类中的各个关键词的出现频率进行统计分析并在对每个关键词的出现频率进行降序排列后选取前X个关键词，其中，X为正整数；判断相邻的多个音频数据段中各自选取的前X个关键词的重复率是否超过预设阈值；如果是，则对相邻的多个音频数据段进行合并。
[0011]优选地，采用以下公式判断相邻的两个音频数据段中各自选取的前X个关键词的重复率是否超过预设阈值:
【权利要求】
1.一种视频文件的切分方法，其特征在于，包括: 将通过声纹识别获取到的音频文件划分为N个时间长度相同的音频数据段，再根据各个音频数据段的内容相似度对相邻的多个音频数据段进行合并，生成M个音频数据单元，其中，M〈N，N和M均为正整数；分别获取每个音频数据单元对应的视频图像帧所在的视频图像组GoP，并对该GoP以及与该GoP前后相邻的两个GoP进行码流分析；根据码流分析结果对与所述音频文件同步播放的视频文件进行切分。
2.根据权利要求1所述的方法，其特征在于，根据各个音频数据段的内容相似度对所述相邻的多个音频数据段进行合并，生成M个音频数据单元包括: 按照预先设定的关键词类别分别对每个音频数据段中出现的多个关键词进行分类；对每种分类中的各个关键词的出现频率进行统计分析并在对每个关键词的出现频率进行降序排列后选取前X个关键词，其中，X为正整数；判断所述相邻的多个音频数据段中各自选取的前X个关键词的重复率是否超过预设阈值；如果是，则对所述相邻的多个音频数据段进行合并。
3.根据权利要求2所述的方法，其特征在于，采用以下公式判断所述相邻的两个音频数据段中各自选取的前X个关键词的重复率是否超过所述预设阈值:
4.根据权利要求1所述的方法，其特征在于，根据码流分析结果对与所述音频文件同步播放的视频文件进行切分包括: 在对所述GoP以及与所述GoP前后相邻的两个GoP进行码流分析后，获取每个GoP内各个视频帧的宏块序号、DC分量数值、运动矢量残差值和帧内编码宏块数量；根据所述宏块序号和所述DC分量数值检测每个GoP中的关键帧；采用所述运动矢量残差值进行运动复杂度分析；根据相邻视频帧各自的帧内编码宏块数量统计所述相邻视频帧的帧内编码宏块数量的变化幅度；根据检测结果、运动复杂度分析结果以及变化幅度统计结果确定对所述视频文件的切分位置。
5.根据权利要求1至4中任一项所述的方法，其特征在于，采用Hadoop中的数据节点上运行的Map作业对所述音频文件进行划分，生成所述M个音频数据单元，以及对与所述音频文件同步播放的视频文件进行切分；采用Reduce作业对划分后的音频文件以及划分后的视频文件进行分类聚合。
6.一种视频文件的切分装置，其特征在于，包括: 处理模块，用于将通过声纹识别获取到的音频文件划分为N个时间长度相同的音频数据段，再根据各个音频数据段的内容相似度对相邻的多个音频数据段进行合并，生成M个音频数据单元，其中，M〈N，N和M均为正整数；分析模块，用于分别获取每个音频数据单元对应的视频图像帧所在的视频图像组GoP，并对该GoP以及与该GoP前后相邻的两个GoP进行码流分析；切分模块，用于根据码流分析结果对与所述音频文件同步播放的视频文件进行切分。
7.根据权利要求6所述的装置，其特征在于，所述处理模块包括: 分类单元，用于按照预先设定的关键词类别分别对每个音频数据段中出现的多个关键词进行分类；选取单元，用于对每种分类中的各个关键词的出现频率进行统计分析并在对每个关键词的出现频率进行降序排列后选取前X个关键词，其中，X为正整数；判断单元，用于判断所述相邻的多个音频数据段中各自选取的前X个关键词的重复率是否超过预设阈值；合并单元，用于在所述判断单元输出为是时，对所述相邻的多个音频数据段进行合并。
8.根据权利要求7所述的装置，其特征在于，所述判断单元，用于采用以下公式判断所述相邻的两个音频数据段中各自选取的前X个关键词的重复率是否超过所述预设阈值:
9.根据权利要求6所述的装置，其特征在于，所述切分模块包括:获取单元，用于在对所述GoP以及与所述GoP前后相邻的两个GoP进行码流分析后，获取每个GoP内各个视频帧的宏块序号、DC分量数值、运动矢量残差值和帧内编码宏块数量；检测单元，用于根据所述宏块序号和所述DC分量数值检测每个GoP中的关键帧；分析单元，用于采用所述运动矢量残差值进行运动复杂度分析；统计单元，用于根据相邻视频帧各自的帧内编码宏块数量统计所述相邻视频帧的帧内编码宏块数量的变化幅度；确定单元，用于根据检测结果、运动复杂度分析结果以及变化幅度统计结果确定对所述视频文件的切分位置。
10.根据权利要求6至9中任一项所述的装置，其特征在于，所述装置应用于Hadoop中的数据节点上运行的Map作业中，并采用Reduce作业对划分后的音频文件以及划分后的视频文件进行分类聚合。
【文档编号】H04N21/234GK103905742SQ201410143826
【公开日】2014年7月2日申请日期:2014年4月10日优先权日:2014年4月10日
【发明者】崔玉斌, 宿玉文申请人:北京数码视讯科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：崔玉斌;宿玉文
技术所有人：北京数码视讯科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。