一种视频文件相似性识别方法和装置与流程

文档序号:13912165阅读:1718来源:国知局

本发明涉及视频处理技术领域,特别涉及一种视频文件相似性识别方法和装置。



背景技术:

视频识别也是当前比较热门的领域。

视频识别主要有两种方式,一种是对视频文件本身进行哈希计算,两个视频文件的哈希值一致则认为两个视频文件是同一个视频文件;另一种方式是对视频图像进行比较识别,视频图像一致则认为两个视频文件是同一个视频文件。

哈希计算的方法比较方便快捷,但是对于文件内容的微小变化十分敏感,码率不同、帧率不同、画面有水标或字幕不同,都会使相同内容的两个视频文件的哈希值完全不同。而图像识别方法需要很大的运算量,识别过程比较漫长,只适用于某些特定的场景。



技术实现要素:

有鉴于此,本发明的目的在于一种视频文件相似性识别方法和装置,能够以较小的运算量,准确识别出码率、帧率、分辨率等指标不同,但内容有微小差别或无差别的两个视频文件。

为了达到上述目的,本发明提供了如下技术方案:

一种视频文件相似性识别方法,该方法包括:

分别提取第一视频文件、第二视频文件的时间特征序列;

对第一视频文件的时间特征序列和第二视频文件的时间特征序列进行相关性计算,如果相关性计算结果高于预设阈值,则确定第一视频文件和第二视频文件是同一内容的视频文件,否则,确定第一视频文件和第二视频文件不是同一内容的视频文件。

一种视频文件相似性识别装置,该装置包括:提取单元、识别单元;

所述提取单元,用于分别提取第一视频文件、第二视频文件的时间特征序列;

所述识别单元,用于对第一视频文件的时间特征序列和第二视频文件的时间特征序列进行相关性计算,如果相关性计算结果高于预设阈值,则确定第一视频文件和第二视频文件是同一内容的视频文件,否则,确定第一视频文件和第二视频文件不是同一内容的视频文件。

由上面的技术方案可知,本发明中,通过提取和比较两个视频文件的时间特征序列确定两个视频文件的相似性,相对于现有图像识别方法,运算量大大降低,相对于现有哈希算法,则可以准确识别出出码率、帧率、分辨率等指标不同,但内容有微小差别或无差别的两个视频文件,避免哈希算法中因文件内容有变化而导致的误判。

附图说明

图1是本发明实施例视频文件相似性识别方法流程图;

图2是本发明实施例视频文件相似性识别装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图并据实施例,对本发明的技术方案进行详细说明。

参见图1,图1是本发明实施例视频文件相似性识别方法流程图,如图1所示,该方法包括如下步骤:

步骤101、分别提取第一视频文件、第二视频文件的时间特征序列;

在本实施例中,提取视频文件的基础帧信息(i帧),并按照一定的规则排序,从而构成视频文件的时间特征序列,基于视频文件的时间特征序列进行相似性比较。对于是同一视频内容的两个视频文件来说,提取的基础帧信息按照相同的规则排序后形成的时间特征序列,其相关性是很高的,因此,可以根据两个视频文件的时间特征序列的相关性来判断两个视频文件是否是同一视频内容的视频文件。

提取第一视频文件的时间特征序列的具体方法为:提取第一视频文件从播放起始位置开始第一预设时长内的视频内容中的所有基础帧信息,将提取的第一视频文件的所有基础帧信息按照预设规则排列后作为第一视频文件的时间特征序列。

提取第二视频文件的时间特征序列的具体方法为:提取第二视频文件从播放起始位置开始第一预设时长内的视频内容中的所有基础帧信息,将提取的第二视频文件的所有基础帧信息按照预设规则排列后作为第二视频文件的时间特征序列。

在本实施例中,一基础帧信息可以包括以下内容:基础帧的播放序号、基础帧包括的总数据字节数、基础帧播放的相对起始时刻(也即基础帧相对于视频文件的播放起始时间的播放时刻)。

在本实施例中,可以基础帧的播放序号,进行基础帧信息的排序。具体地,

将提取的第一视频文件的所有基础帧信息按照预设规则排列的方法具体可以为:将提取的第一视频文件的所有基础帧信息按照播放序号从小到大的顺序排列,或者,将提取的第一视频文件的所有基础帧信息按照播放的相对起始时间从小到大的顺序排序。

将提取的第二视频文件的所有基础帧信息按照预设规则排列的方法具体可以为:将提取的第二视频文件的所有基础帧信息按照播放序号从小到大的顺序排列,或者,将提取的第二视频文件的所有基础帧信息按照播放的相对起始时间从小到大的顺序排序。

步骤102、对第一视频文件的时间特征序列和第二视频文件的时间特征序列进行相关性计算,如果相关性计算结果高于预设阈值,则确定第一视频文件和第二视频文件是同一内容视频文件,否则,确定第一视频文件和第二视频文件不是同一视频文件。

在本实施例中,对第一视频文件的时间特征序列和第二视频文件的时间特征序列的相关性计算可以采用现有技术方法,例如,a)统计学上以时间为参数的相关函数计算;b)欧氏空间的距离;c)动态时间弯曲算法下的距离;等等。

实际上,同一视频内容的两个视频文件,其播放总时长应该基本相同,如果两个视频文件的播放总时长差别过大,则说明两个视频文件不是同一视频文件。

基于上述原理分析,在本实施例中,在执行步骤101之前,可以先分别提取第一视频文件、第二视频文件的播放总时长,并计算第一视频文件的播放总时长与第二视频文件的播放总时长之间的差值,如果差值的绝对值小于第二预设时长,则继续执行步骤1,否则,可以直接确定第一视频文件和第二视频文件不是同一视频文件,并停止本次相似性识别过程(不再执行步骤101、102)。

在本实施例中,所述第一视频文件、第二视频文件均为采用h.264或mpeg4编码方式的视频文件。

以上结合图1对本发明实施例视频文件相似性识别方法进行了详细说明,本申请还提供了一种视频文件相似性识别装置,以下结合图2进行详细说明:

参见图2,图2是本发明实施例视频文件相似性识别装置的结构示意图,如图2所示,该装置包括:提取单元201、识别单元202;其中,

提取单元201,用于分别提取第一视频文件、第二视频文件的时间特征序列;

识别单元202,用于对第一视频文件的时间特征序列和第二视频文件的时间特征序列进行相关性计算,如果相关性计算结果高于预设阈值,则确定第一视频文件和第二视频文件是同一内容的视频文件,否则,确定第一视频文件和第二视频文件不是同一内容的视频文件。

图2所示装置中,

所述提取单元201,执行分别提取第一视频文件、第二视频文件的时间特征序列的操作之前,进一步用于:

分别提取第一视频文件、第二视频文件的播放总时长,并计算第一视频文件的播放总时长与第二视频文件的播放总时长之间的差值,如果差值的绝对值小于第二预设时长,则继续执行分别提取第一视频文件、第二视频文件的时间特征序列的操作,否则,确定第一视频文件和第二视频文件不是同一内容视频文件,并停止本次相似性识别过程。

图2所示装置中,

所述提取单元201,提取第一视频文件的时间特征序列时,用于:提取第一视频文件从播放起始位置开始第一预设时长内的视频内容中的所有基础帧信息,将提取的第一视频文件的所有基础帧信息按照预设规则排列后作为第一视频文件的时间特征序列;

所述提取单元201,提取第二视频文件的时间特征序列时,用于:提取第二视频文件从播放起始位置开始预设时长内的视频内容中的所有基础帧信息,将提取的第二视频文件的所有基础帧信息按照预设规则排列后作为第二视频文件的时间特征序列。

图2所示装置中,

所述基础帧信息包括基础帧的播放序号、基础帧包括的总数据字节数、基础帧播放的相对起始时间;

所述提起单元201,将提取的第一视频文件的所有基础帧信息按照预设规则排列时,用于:将提取的第一视频文件的所有基础帧信息按照播放序号从小到大的顺序排列,或者,将提取的第一视频文件的所有基础帧信息按照播放的相对起始时间从小到大的顺序排序;

所述提起单元201,将提取的第二视频文件的所有基础帧信息按照预设规则排列时,用于:将提取的第二视频文件的所有基础帧信息按照播放序号从小到大的顺序排列,或者,将提取的第二视频文件的所有基础帧信息按照播放的相对起始时间从小到大的顺序排序。

图2所示装置中,

所述第一视频文件为采用h.264或mpeg4编码方式的视频文件;

所述第二视频文件为采用h.264或mpeg4编码方式的视频文件。

从上面的内容可以看出,在本发明中,通过提取视频文件从播放起始位置开始一段时间内的基础帧信息,并以基础帧信息构成的序列为时间特征序列进行相关性计算,相对于现有技术中的哈希算法对码率、帧率、和/画面的微小变化的敏感度高,因此可以避免因码率、帧率、分辨率和画面的微小变化而导致的误判,具体来说,使用本发明提供的技术方案,既可以识别出具有相同视频内容但码率不同的两个视频文件;也可以识别出具有相同视频内容但采用不同编码器设置的两个视频文件,例如编码器设置是否使用b帧,连续出现b帧的数量;还可以识别出具有相同视频内容但帧速不同的两个视频文件,例如帧速为50帧/秒和25帧/秒;还可以识别出具有相同视频内容但一个添加了版权信息、另一个未添加版权信息的两个视频文件。另一方面,本发明仅利用基础帧信息构成的时间特征序列进行相关性计算,相对于现有技术中的图像识别方法,运算量大大降低。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1