视频文件内容确定方法及系统的制作方法

文档序号:6468711阅读:205来源:国知局
专利名称:视频文件内容确定方法及系统的制作方法
技术领域
本发明涉及多媒体技术领域,尤其涉及一种视频文件内容确定方法及系统。
背景技术
随着互联网迅速的发展以及在线视频服务的不断进步,互联网上传播着大 量的视频文件以提供给用户下载和在线观看。由于视频文件的制作方式和发布
者的不同,大量具有相同内容的视频文件往往以不同的形式出现,如不同的祸L 频格式、不同的视频尺寸等,这样互联网上就会存在大量内容相同的视频文件。
视频文件的大量冗余存在会带来许多问题,例如,搜索引擎将搜索到的大 量具有相同内容的视频文件呈现给用户时,用户需要选择要下载和观看的视频 文件,大量内容相同的视频文件必然会加大用户选择的困难程度。又例如,在 线视频网站中,内容相同的视频文件不但会影响用户的选择,而且会加大在线 视频网站的运营成本,如增加硬件存储资源等。
因此,急迫需要解决存在大量内容相同的视频文件的问题,而要解决该问 题,首先需要能够确定两个视频文件的内容是否相同,进而确定海量视频文件 中具有相同视频内容的视频文件。
目前,确定视频文件的内容是否相同,主要采用的是人工判断的方法,即 通过人工对视频文件进行查看来判断这些视频文件的内容是否相同,其耗费时 间及人力,成本较高,并且效率较低。

发明内容
本发明实施例提供一种确定视频文件内容相同的方法及系统,可解决人工方式判别两个视频文件内容是否相同,或多个视频文件中是否存在与待判断视 频文件内容相同的视频文件费时费力且效率不高的问题。
本发明实施例提供一种视频文件内容确定方法,该方法包括 获取第一视频文件的特征信息,并获取第二视频文件的特征信息或多个视
频文件的特征信息索引;
将所述第一视频文件的特征信息,与所述第二视频文件的特征信息或所述 特征信息索引进行比较;
根据所述第 一视频文件的特征信息与所述第二视频文件的特征信息的比 较结果确定所述第一视频文件与所述第二视频文件的视频内容是否相同,或根 据所述第一视频文件的特征信息与所述特征信息索引的比较结果确定所述多 个视频文件中是否有与所述第 一视频文件的内容相同的视频文件。
本发明实施例还提供一种视频文件内容确定系统,该系统包括
获取单元,用于获取第一视频文件的特征信息,并获取第二视频文件的特 征信息或多个视频文件的特征信息索引;
比较单元,用于将所述第一视频文件的特征信息与所述第二视频文件的特 征信息或所述特征信息索引进行比较,并根据所述第一视频文件的特征信息与 所述第二视频文件的特征信息的比较结果确定所述第 一视频文件与所述第二 视频文件的视频内容是否相同,或根据所述第一视频文件的特征信息与所述特 征信息索引的比较结果确定所述多个视频文件中是否有与所述第一视频文件 的内容相同的视频文件。
本发明实施例中,通过获取视频文件的特征信息,将视频文件的特征信息 进行比较,并根据比较结果确定视频文件的视频内容是否相同,达到了自动快 速识别两个视频文件内容是否相同或多个视频文件中是否有与待比较视频文 件的视频内容相同的视频文件的目的。


图l为本发明实施例提供的方法流程示意图; 图2为本发明实施例提供的系统结构示意图。
具体实施例方式
本发明实施例提供了一种确定视频文件内容的方法和系统,其可通过视频 文件的特征信息判断两个视频文件内容是否相同,或判断在多个视频文件中是 否有视频文件与待比较视频文件内容相同。
参见图1,本发明实施例提供的确定视频文件内容的方法,具体包括以下 步骤
步骤10:获取第一视频文件的特征信息,并获取第二视频文件的特征信息 或多个视频文件的特征信息索引。
比较视频文件的特征信息可有不同的比较方式,例如只需要比较两个视频 文件内容是否相同时,可直接比较两个视频文件的特征信息是否相同;需要判 断多个视频文件中是否有视频文件与待比较视频文件内容相同时,可将该待比 较文件的特征信息依次与所述多个视频文件中的各视频文件的特征信息进行 比较,也可先对多个视频文件建立特征信息索引,例如将多个视频文件中特征 信息相同的视频文件聚为 一类,则各类所对应的特征信息共同组成了所述特征 信息索引,将待比较文件的特征信息分别与所述特征信息索引进行比较及查 找,如采用二分查找法等,如此可提高比较的效率。二分查找法首先将有序表 中间位置记录的关键字与查找关键字比较,如果两者相等,则查找成功;否则 利用中间位置记录将表分成前、后两个子表,如果中间位置记录的关键字大于 查找关键字,则进一步查找前一子表,否则进一步查找后一子表。
所述特征信息及所述特征信息索引可为内容标识(Content ID, CID )码、 文件描述信息、内容特征信息中的一个或任意组合。其中,文件描述信息可为 文件标题、文件格式、文件大小、标题关键词、集数、视频时长等。内容特征 信息为视频帧图像的特征信息,其包括但不限于颜色直方图、颜色聚合向量、颜色集、颜色矩、颜色相关图、灰度共生矩阵、几何法(如Voronio棋盘格特征 法)、模型法(典型的方法是随机场模型法)、Tamura紋理特征、自回归紋理才莫 型、小波变换、边界特征法、傅里叶形状描述符法、几何参数法及形状不变矩等。
内容标识CID码是能够唯一标识互联网上资源的由若干个字节组成的字 符串,内容标识CID码是根据设置的算法对文件的内容数据进行计算后获得 的。设置的算法可以是对不同的数据处理得到不同的处理结果的任一算法,例 如哈希(hash)算法,哈希算法可以采用信息-摘要算法(Message-Digest Algorithm 5, MD5 ), MD4,安全散列算法(Secure Hash Algorithm, SHA),安 全散列算法(Secure Hash Standard, SHS)等算法作为公式。内容标识CID码 的获得包括但不限于以下两种方法第一种,提取文件的部分数据,将提取的 部分数据进行哈希(hash)运算,将运算结果作为该文件的CID码的值。比如, 可以提取视频文件的前面32k字节、中间32k字节和尾部32k字节的数据,将 提取的数据通过哈希运算,如md5计算出一个值,将该值作为视频文件的CID 码的值;第二种,将文件的全部数据进行哈希运算,将运算结果作为该视频文 件的CID码的值。
较佳地,当需要确定多个视频文件中是否有与第一视频文件内容相同的视 频文件时,可为多个视频文件建立视频资源特征库,较佳地,可为主要的视频 资源特征建立索引,方便快速查找。其中,内容标识CID码可作为视频特征资 源的唯一主键存在,用于唯一标识一个视频文件。视频标题关键词、集数、内 容特征信息等特征在库中可建立索引。例如,可提取视频标题关键词,建立标 题中包含该视频标题关键词的视频文件与该视频标题关键词的对应关系,则根 据该视频标题关键词,则可快速查找到包含该标题关键词的视频文件。
获取视频文件的文件描述信息的具体方法有多种,下面以其中两种进行举 例说明
第一种,视频文件所在的网页通常会包含该视频文件的文件描述信息,例如文件标题、文件格式、文件大小等,通过资源抓取程序如网络蜘蛛(Spider) 可以从视频文件所在的网页上获取视频文件的文件描述信息;资源抓取程序通 常釆用为网站配置网页模板或通过程序智能分析的方式从网页中获取视频资 源的标题、文件格式、导演、演员以及下载链接等相关信息。例如某视频资源 网站的视频资源介绍页面中,文本"影片名"后面的文本为视频资源的名称, 文本"导演"后面的文本为该影片的导演名称等,则可根据该规律配置网页 模板,资源抓取程序根据该模板将所述某视频资源网站的视频资源介绍页面中 的视频资源相关信息抓取并保存。
第二种,视频文件的文件头一般会包含视频文件的文件描述信息,因此可 以从视频文件的文件头获取该视频文件的文件描述信息。
较佳地,可预先建立视频信息标准库,用于存储标准的视频文件的文件描 述信息。文件描述信息可包含视频的标题、导演、演员、内容介绍、视频发布 年份,视频播放时长等信息。视频信息标准库通过spider程序抓取互联网专业 影视网站获取影视信息,同时采用人工编辑方式辅助更新影视信息标准库。当 初步获取了视频文件的文件描述信息后,可根据视频信息标准库对文件描述信 息进行标准化。例如根据初步获取的视频标题与视频信息标准库中的标题进行 提取标题关键词,同时对导演、演员等其他信息进行差异对比,将视频文件的 信息进行标准化。
获取视频文件的内容特征信息的具体方法为首先,按照预定的帧截取规 则,在视频文件中该截取规则规定的相应的位置处截取该截取规则规定的相应 帧数的视频帧;然后,计算截取出的各个视频帧的内容特征信息,将计算得到 的内容特征信息作为视频文件的内容特征信息。所述预定的帧截取规则可为 从视频文件的某一时刻开始,按预定的时间间隔截取固定数量的视频帧。需要 说明的是,由于视频文件对应的视频分辨率的大小往往有差别,则较佳地,在 计算视频帧的内容特征信息之前,可将截取的各视频文件的视频帧转化为一致 的视频分辨率。步骤ll,将所述第一视频文件的特征信息,与所述第二视频文件的特征信 息或所述特征信息索引进行比较。
步骤12,根据所述第一视频文件的特征信息与所述第二视频文件的特征信 息的比较结果确定所述第一视频文件与所述第二视频文件的视频内容是否相 同,或根据所述第 一视频文件的特征信息与所述特征信息索引的比较结果确定 所述多个视频文件中是否有与所述第一视频文件的内容相同的视频文件。
本发明实施例可以#4居-视频文件的内容特征信息确定^L频文件是否相同, 在此对颜色直方图信息和/或颜色聚合向量的确定方法进行详细说明。首先对颜 色空间、颜色直方图和RGB颜色空间与HS V颜色空间的关系进行说明
颜色空间,是为了使视频帧的各种颜色能按照一定的次序排列并容纳在一 个空间内,而将三维坐标轴与颜色的三个独立参数对应起来,使每一个颜色都 有一个对应的空间位置。反过来,在坐标空间中的任何一点都代表一个特定的 颜色,将该空间称为颜色空间。颜色空间是三维的,是颜色的坐标表示。釆用 不同的坐标系统,同 一种颜色在坐标空间中的位置是不同的。
颜色直方图,描述的是不同颜色在整个视频帧中所占的比例,而并不关心 每种颜色所处的空间位置。计算颜色直方图需要将颜色空间划分成若干个小的 颜色空间分区,每个分区成为颜色直方图的一个块。然后通过计算颜色落在每 个颜色空间分区内的像素数可以得到颜色直方图。
RGB颜色空间是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化 以及它们相互之间的叠加来得到各式各样的颜色的。RGB颜色空间使用 RGB模型为图像中每一个像素的RGB分量分配一个0-255范围内的强度 值。HSV颜色空间中,H、 S、 V分别表示色相、饱和度和亮度。HSV颜色空 间与RGB空间的转换关系如下<formula>formula see original document page 14</formula>下面对如何计算截取出的视频帧的颜色直方图的方法进行具体说明
首先,将一见频帧的颜色空间转化为-见觉均衡的颜色空间(如HSV空间); 然后,将HSV颜色空间按一定尺度量化成若千个颜色空间分区,对于每个颜 色空间分区,计算该颜色空间分区所包含的各个颜色在视频帧中的像素数,将 计算出的像素数相加得到该颜色空间分区内的像素数;得到每个颜色空间分区 内的像素数后,在以颜色空间分区和颜色空间分区内的像素数为坐标轴的二维 坐标空间中,绘制得到视频帧的颜色直方图。
在得到视频帧的颜色直方图后,可以根据颜色直方图得到视频帧的颜色聚 合向量。具体的,首先,将视频帧的颜色空间转化为-见觉均衡的颜色空间(如 HSV空间);然后,将HSV颜色空间按一定尺度量化成若干个颜色空间分区; 接着,对于每个颜色空间分区找到视频帧中包含该颜色空间分区中的颜色的 连续区域,若该连续区域的像素数大于设定的聚合阈值,则将该连续区域内的 像素作为该颜色空间分区的聚合像素,否则,将该连续区域内的像素作为该颜 色空间分区的非聚合像素;计算该颜色空间分区中的聚合像素和非聚合像素的 个数,将计算得到的聚合像素和非聚合像素的个数作为该颜色空间分区的聚合 向量;最后,每个颜色空间分区的聚合向量构成了视频帧的颜色聚合向量。
视频帧的颜色聚合向量可以表达为<(a|,A),(a2,A),...,( ,&)>,其中",和 A分别代表颜色直方图的第/个颜色空间小区中的聚合像素和非聚合像素的个 数。
下面以实例来说明颜色直方图和颜色聚合向量的计算方法 假设转化后的HSV颜色空间,其三个颜色分量的取值范围分别为H:[O, 360°), S:
, V:
, HSV颜色空间可以按如下方式量化
一般HSV颜色空间按三个坐标轴可分别等分为(h, s, v)等,假设(h, s, v)分别为(8, 3, 3)、 (18, 3, 3)和(12, 5, 5)等分方式。若(h, s, v) = (8, 3, 3),即将H轴等分为8份,每份对应的区间为[0°, 45°), [45°, 90。), ...。 [315°, 360°),其值可由O, 1, 2,…7表示。类似的,S轴等分为3份,V轴等分为3份。对于视频帧上的任意一点a,其在HSV颜色空间 的表示若为(hi, sl, vl),则可以按HSV的量化区间的划分将其映射到相 应的区间中去。如(h, s, v) = (92°, 0.73, 0.36),则经过量化后,可以表 示为(2, 2, 1 )。
对于一个视频帧,首先需要将该视频帧由HSV颜色空间表示(有时需要按 RGB颜色空间到HSV颜色空间的转化公式转化-见频帧),然后选取适当的量化 尺度,如(18, 3, 3),将HSV空间量化为162个颜色空间小区,同时将图^f象 的每个像素映射到相应的区间中,如像素(92°, 0.73, 0.36),其映射后的结 果为(4, 2, 2)。然后需要统计落在每个量化区间的像素数,例如像素(92°, 0.73, 0.36)对应的量化值(4, 2, 2),其记数加1。此时可以得到此视频帧的 量化后的颜色直方图。将两个视频文件的相应时刻的视频帧的颜色直方图进行 比较,则可得出视频帧内容是否相同,如果两个视频文件分别在多个对应的时 刻所截取的视频顿内容都相同,则可确定两个视频文件的内容是相同的。
同样的,在将视频帧的HSV颜色空间量化成若千个颜色空间小区后,就 可以计算视频帧的颜色聚合向量,假设某个视频帧中,对于第i个颜色空间分 区,其包含的颜色为黑色a和黑色b两个颜色,将黑色a和黑色b两个颜色作 为一个颜色,对该颜色设定的聚合阈值为20,在视频帧中找到该颜色的三个像 素数大于20的连续区域,其包含的像素数分别为30、 65、 90,该颜色的其余 像素总数为60,则A)可表示为(185, 60),依次类推,于是得到的 颜色聚合向量可以表示为< (a。 b!), ( 185, 60), ... (ak, bk),..〉。得到了颜 色聚合向量后,将其进行比较,如果相同,则两个视频帧的内容相同。
步骤11和步骤12中,所述将第一视频文件的特征信息与第二视频文件的 特征信息进行比较,并根据比较结果确定第一视频文件与第二视频文件的视频 内容是否相同的方式可以有多种,下面以其中的四种进行说明
第 一种,通过比较CID码和内容特征信息来确定第 一视频文件与第二视频 文件的视频内容是否相同,具体流程如下步骤S01:比较第一视频文件与第二视频文件的CID码是否相同,如果相 同,则确定第一^L频文件与第二^L频文件的4见频内容相同,流程结束;否则, 到步骤S02;
步骤S02:比较第一视频文件与第二视频文件的内容特征信息是否相同, 如果相同,则确定第一视频文件与第二视频文件的视频内容相同,否则,确定 第一^f见频文件与第二^L频文件的^L频内容不相同。
第二种,通过比较文件描述信息和内容特征信息来确定第一视频文件与第 二视频文件的视频内容是否相同,具体流程如下
步骤Sll:比较第一视频文件与第二视频文件的文件描述信息是否相同, 如果相同,则到步骤S12;否则,确定第一视频文件与第二视频文件的视频内 容不相同,流程结束;
步骤S12:比较第一视频文件与第二视频文件的内容特征信息是否相同, 如果相同,则确定第一视频文件与第二视频文件的视频内容相同,否则,确定 第 一视频文件与第二视频文件的^L频内容不相同。
第三种,通过比较内容特征信息来确定第 一视频文件与第二视频文件的视 频内容是否相同,具体方法为比较第一视频文件与第二视频文件的内容特征 信息是否相同,如果相同,则确定第一视频文件与第二视频文件的视频内容相 同,否则,确定第一视频文件与第二视频文件的一见频内容不相同。
第四种,通过比较CID码、文件描述信息和内容特征信息来确定第一视频 文件与第二视频文件的视频内容是否相同,具体流程如下
步骤S21:比较第一视频文件与第二视频文件的CID码是否相同,如果相 同,则确定第一视频文件与第二视频文件的视频内容相同,流程结束;否则, 到步骤S22;
步骤S22:比较第一视频文件与第二视频文件的文件描述信息是否相同, 如果相同,则到步骤S23;否则,确定第一视频文件与第二视频文件的视频内 容不相同,流程结束;步骤S23:比较第一视频文件与第二视频文件的内容特征信息是否相同, 如果相同,则确定第一视频文件与第二视频文件的视频内容相同,否则,确定 第一视频文件与第二视频文件的视频内容不相同。
步骤11和步骤12中,判断第一视频文件是否与多个视频文件中的某个视 频文件具有相同的内容的方式可以有多种,下面以其中的四种进行说明
第一种,通过第一视频文件的CID和内容特征信息确定多个视频文件中是 否存在与第一视频文件内容相同的视频文件,具体流程如下
步骤S31:在所述特征信息索引中查找与第一视频文件的CID码相同的 CID码,如果查找到,则确定多个视频文件中存在与第一视频文件内容相同的 视频文件,流程结束;否则,到步骤S32;
步骤S32:在所述特征信息索引中查找与第 一视频文件的内容特征信息相 同的内容特征信息,若查找到,则确定视频资源特征库中存在与该视频文件内 容相同的视频文件。较佳地,可将第一视频文件的相关信息加入视频资源特征 库中,同时为第一视频文件标注与所述内容相同的视频文件相同的标识ID,用 于确定相同内容视频文件,标识ID可为数字字母等任何可用于将不同内容视 频文件区别开的符号,例如可将视频内容为A的所有视频赋予标识ID "001", 而将视频内容为B的所有视频赋予标识ID "003"。若未查找到与该视频文件 内容相同的视频文件,可仅将新的视频文件的相关信息加入视频资源特征库 中,并建立一个新的标识ID。
第二种,通过第 一视频文件的文件描述信息和内容特征信息确定多个视频 文件中是否存在相同内容的视频,具体流程如下
步骤S41:在所述特征信息索引中查找与第一视频文件的文件描述信息相 同的文件描述信息,如能查到,则到步骤S42;否则,确定多个视频文件中不 存在与第一视频文件内容相同的视频文件,较佳地,可将第一视频文件的相关 信息(可包括标识ID)记入^L频资源特征库中,流程结束。
步骤S42:在所述特征信息索引中查找与第一视频文件的内容特征信息相同的内容特征信息,若能查到,则确定多个视频文件中存在与第一视频文件内 容相同的视频文件,较佳地,可将第一视频文件的相关信息加入视频资源特征
库中,并给予与所述内容相同的视频文件同样的标识ID;否则,将第一视频文 件相关信息加入视频资源特征库中,并给予第一视频文件新的标识ID。
第三种,通过第 一视频文件的内容特征信息来确定多个视频文件中是否存 在相同内容视频文件。具体方法为在所述特征信息索引中查找与第一视频文 件的内容特征信息相同的内容特征信息,若查找到,则确定多个视频文件中存 在与第一视频文件的内容相同的视频文件,否则,不存在。较佳地,可将第一 视频文件的相关信息记入视频资源特征库中,同时更新标识ID。
第四种,通过第一视频文件的CID码、文件描述信息和内容特征信息来确 定多个视频文件中是否存在相同内^f见频文件。具体流程如下
步骤S51:在所述特征信息索引中查找与第一视频文件的CID码相同的 CID码,若查找到,则确定多个视频文件中存在与第一视频文件内容相同的视 频文件,流程结束;否则,到步骤S52;
步骤S52:在所述特征信息索引中查找与第一^L频文件的文件描述信息相 同的文件描述信息(标题关键词,集数等),若查找到,则到步骤S53;否则, 确定多个视频文件中不存在与第一视频文件相同的视频文件,较佳地,可将第 一视频文件的相关信息记入视频资源特征库中,并为其建立新的标识ID,流程 结束。
步骤S53:在所述特征信息索引中查找与第一视频文件的内容特征信息相 同的内容特征信息,若查找到,则确定多个视频文件中存在与该视频文件内容 相同的记录,否则,不存在。较佳地,可将第一视频文件的相关信息加入视频 资源特征库中,并更新标识ID。
较佳地,当确定所述多个视频文件中不存在与第 一视频文件相同的视频文 件时,则可将第一^f见频文件的特征信息加入^L频资源特征库中,并建立新的特 征信息索引;或当确定所述多个视频文件中存在与第一视频文件CID码不同,但内容相同的视频文件时,将第 一视频文件的特征信息加入视频资源特征库
中。此时可获取CID码不同但实际内容相同的多个视频文件资源。所述建立新
的特征信息索引为将第 一视频文件所包含的视频资源特征库中其他视频文件 所没有的特征信息作为新的特征索引,也可为第一视频文件建立用于识别视频
文件内容的标识ID。
较佳地,在确定所述第 一视频文件与所述第二视频文件的视频内容相同之 后,该方法进一步包括根据设定的文件选取规则从所述第一视频文件和所述 第二视频文件中选择一个视频文件,将选择的视频文件进行保存;或
在确定所述多个视频文件中存在与第 一视频文件内容相同的视频文件之 后,该方法进一步包括从所述第一视频文件和所述内容相同的视频文件中选 择一个视频文件,将选择的视频文件进行保存。
根据本发明实施例方法在确定两个或更多的视频文件的视频内容相同之
视频文件中选取部分视频文件并保存,从而节省服务器端的存储资源,为用户 提供质量更高的视频文件。例如,为了给用户提供清晰度较高的视频,可以设 定文件选取规则为选取文件大小最大的视频文件,或分辨率最高的视频文件, 根据该规则服务器端仅保存内容相同的视频文件中最大的或分辨率最高的视 频文件,从而节省了服务器端的存储资源,并能够为用户提供清晰度较高的视 频文件。或者,服务器端可以保存内容相同的多个视频文件,但在向用户提供 视频文件时,根据设定的文件选取规则从内容相同的多个4见频文件中选取部分 视频文件并提供给用户。
在搜索引擎网站中,在根据本发明方法确定两个或更多的视频文件的视频 内容相同后,将内容相同的视频文件建立关联关系,例如,将内容相同的视频 文件的资源名称和/或关键字设为相同,或者为内容相同的视频文件设置相同并 唯一的内容标记。那么,用户在输入搜索关键词搜索视频文件时,搜索引擎搜 索到包含搜索关键词的视频文件后,将资源名称和/或关键字与该视频文件相同的其它视频文件也作为搜索结果返回给用户;或者,搜索引擎搜索到包含搜索 关键词的视频文件后,查找内容标记与该视频文件的内容标记相同的其它^L频 文件,将其它视频文件也作为搜索结果返回给用户。这样,达到了将内容相同 的视频文件同时返回给用户的效果。用户所在的客户端在显示搜索引擎返回的 视频文件时,可以分区域或分类别显示,将内容相同的视频文件排序在一起或 以同一类别进行显示,从而方便用户选择,可以将资源名称和/或关键字相同的 视频文件判别为内容相同的视频文件,或者将包含相同内容标记的视频文件判 别为内容相同的^L频文件。
对于视频网站而言,用户在上传视频文件时,系统将上传的视频文件与已 经保存的视频文件进行比较,判断上传的视频文件是否与已经保存的一个或多 个视频文件的内容相同,若是,则拒绝接受该上传文件,从而避免存储大量内 容相同的视频文件,节省存储空间。
参见图2,本发明实施例还提供一种视频文件内容确定系统,该系统包括 获取单元20、比较单元21,其中
获取单元20,用于获取第一视频文件的特征信息,并获取第二视频文件的 特征信息或多个视频文件的特征信息索引;
比较单元21,用于将所述第一视频文件的特征信息与所述第二^L频文件的 特征信息或所述特征信息索引进行比较,并根据所述第一视频文件的特征信息 与所述第二视频文件的特征信息的比较结果确定所述第 一视频文件与所述第 二视频文件的视频内容是否相同,或根据所述第一^L频文件的特征信息与所述 特征信息索引的比较结果确定所述多个视频文件中是否有与所述第一视频文 件的内容相同的一见频文件。
较佳地,所述获取单元20可包括标识码获取单元30、描述信息获取单元 31或内容特征获取单元32中的一个或多个,其中
标识码获取单元30,用于获取所述第一视频文件的内容标识CID码,和 所述第二视频文件或多个视频文件的特征信息索引中的内容标识CID码;描述信息获取单元31,用于获取所述第一视频文件的文件描述信息,和所
述第二视频文件或多个视频文件的特征信息索引中的文件描述信息;
内容特征获取单元32,用于获取所述第一视频文件的内容特征信息,和所
述第二视频文件或多个视频文件的特征信息索引中的内容特征信息。 较佳地,内容特征获取单元32可包括截取单元和计算单元,其中 截取单元,用于按照预先设定的帧截取规则截取所述第一视频文件和所述
第二视频文件的 一个或多个视频帧;
计算单元,用于计算截取的所述第一视频文件的一个或多个视频帧的内容
特征信息,将计算得到的内容特征信息作为所述第 一视频文件的内容特征信 台、
当用于将所述第 一视频文件的特征信息与所述第二视频文件的特征信息
进行比较时,可有不同实施例,比较单元21可包括第一单元、第二单元、第 三单元、第四单元中的任一个,其中
作为第一种实施例,比较单元21包括第一单元33,用于比较所述第一视 频文件与所述第二视频文件的CID码是否相同,若相同,则确定所述第一视频 文件与所述第二视频文件的视频内容相同;否则,比较所述第一视频文件与所 述第二视频文件的内容特征信息是否相同,如果相同,则确定所述第一视频文 件与所述第二视频文件的视频内容相同。
作为第二种实施例,比较单元21包括第二单元34 ,用于比较所述第一视 频文件与所述第二^L频文件的文件描述信息是否相同,若不相同,则确定第一 视频文件与第二视频文件的视频内容不相同;否则,比较所述第一视频文件与 所述第二视频文件的内容特征信息是否相同,若相同,则确定所述第一视频文 件与所述第二视频文件的视频内容相同。
作为第三种实施例,比较单元21包括第三单元35,用于比较所述第一视 频文件与所述第二视频文件的内容特征信息是否相同,如果相同,则确定第一 视频文件与第二视频文件的视频内容相同。作为第四种实施例,比较单元21包括第四单元36,用于比较所述第一3见 频文件与所述第二视频文件的CID码是否相同,若相同,则确定所述第一^L频 文件与所述第二^L频文件的^L频内容相同;否则,比较所述第一^L频文件与所 述第二视频文件的文件描述信息是否相同,若不相同,则确定所述第一^L频文 件与所述第二视频文件的视频内容不相同;否则,比较所述第一视频文件与所 述第二视频文件的内容特征信息是否相同,若相同,则确定所述第一视频文件 与所述第二^L频文件的一见频内容相同。
当比较单元21用于将所述第一视频文件的特征信息与所述特征信息索引 进行比较时,可有不同实施例,比较单元21可包括第五单元、第六单元、第 七单元、第八单元中的任一个,其中
作为第一种实施例,比较单元21包括第五单元37,用于在所述特征信息 索引中查找与第一视频文件的CID码相同的CID码,如果查找到,则确定多 个视频文件中存在与第一视频文件内容相同的视频文件;否则,在所述特征信 息索引中查找与第一视频文件的内容特征信息相同的内容特征信息,若查找
作为第二种实施例,比较单元21包括第六单元38,用于在所述特征信息 索引中查找与第一视频文件的文件描述信息相同的文件描述信息,若未查找 到,则确定多个视频文件中不存在与第一视频文件内容相同的视频文件;否贝寸, 在所述特征信息索引中查找与第一视频文件的内容特征信息相同的内容特征 信息,若查找到,则确定多个视频文件中存在与第一视频文件内容相同的视频 文件。
作为第三种实施例,比较单元21包括第七单元39,用于在所述特征信息 索引中查找与第一视频文件的内容特征信息相同的内容特征信息,若查找到, 则确定多个视频文件中存在与第 一视频文件相同内容的视频文件。
作为第四种实施例,比较单元21包括第八单元40,用于在所述特征信息 索引中查找与第一视频文件的CID码相同的CID码,若查找到,则确定多个视频文件中存在与第一视频文件内容相同的视频文件;否则,在所述特征信息
索引中查找与第一视频文件的文件描述信息相同的文件描述信息,若未查找
到,则确定多个视频文件中不存在与第一视频文件相同的视频文件;否则,在 所述特征信息索引中查找与第 一视频文件的内容特征信息相同的内容特征信 息,若查找到,则确定多个视频文件中存在与该视频文件内容相同的记录。
较佳地,所述多个视频文件的特征信息存储于视频资源特征库中,例如为 一个视频点播服务提供商的视频资源特征数据库,该数据库中存储了可供用户 进行点播的视频文件的特征信息。该系统可进一步包括
存储单元24,用于在确定所述第一视频文件与所述视频资源特征库中的任 何文件不存在相同的CID时,将所述第一视频文件的特征信息记录于视频资源 特征库中,并记录其建立新的特征信息索引;或用于当确定所述多个视频文件 中存在与第一视频文件CID码不同,但内容相同的视频文件时,将第一视频文 件的特征信息加入^L频资源特征库中。
较佳地,该系统还可进一步包括
整合单元22,用于在确定所述第一视频文件与所述第二视频文件的视频内 容相同时,根据设定的文件选取规则从所述第一^f见频文件和所述第二^f见频文件 中选择一个视频文件选择一个视频文件,将选择的视频文件进行保存;或者, 在确定所述多个视频文件中存在与第一视频文件内容相同的视频文件时,从所 述第 一视频文件和所述内容相同的视频文件中选择一个视频文件,将选择的3见 频文件进行保存。例如,为了给用户提供清晰度较高的视频,可以设定文件选 取规则为选取文件大小最大的视频文件,或分辨率最高的视频文件,根据该规 则服务器端仅保存内容相同的视频文件中最大的或分辨率最高的视频文件,从 而节省了服务器端的存储资源,并能够为用户提供清晰度较高的视频文件。
较佳地,该系统可进一步包括
聚类单元23,用于在确定所述第一视频文件与所述第二视频文件的视频内 容相同时,将所述第一视频文件与所述第二视频文件建立关联关系;在根据接收到的视频文件搜索请求搜索到所述第 一视频文件或所述第二视频文件后,根 据所述关联关系将所述第一视频文件和所述第二视频文件作为搜索结果进行
返回;或者,
在确定所述多个一见频文件中存在与第一^L频文件内容相同的—见频文件时, 将所述第一视频文件与所述内容相同的视频文件建立关联关系;在根据接收到 的视频文件搜索请求搜索到所述第 一视频文件或所述内容相同的视频文件后, 根据所述关联关系将所述第 一视频文件和所述内容相同的视频文件作为搜索 结果进行返回。
综上本发明实施例提供的方案中,通过获取视频文件的特征信息,将视频 文件的特征信息进行比较,并根据比较结果确定视频文件的视频内容是否相 同,达到了自动快速识别两个视频文件或多个视频文件中是否有与待比较视频 文件的视频内容相同的视频文件目的。
并且,根据本发明方法,提供视频内容的服务器端可以仅保存内容相同的 视频文件中的部分视频文件,从而节省服务器端的存储资源,按需为用户提供 视频文件。
在搜索引擎网站中,将内容相同的视频文件建立关联关系,用户在输入搜 索关键词搜索视频文件时,搜索引擎将具有关联关系的所有视频文件作为搜索 结果返回给用户,达到了将内容相同的视频文件同时返回给用户的效果用户所 在的客户端将内容相同的视频文件在同 一 区域中或以同 一 类别进行显示,,且 可在内容相同的视频文件旁显示各视频文件的相关信息(例如视频的分辨率 等),从而方便用户选择。
对于视频网站而言,可过滤用户重复上传的视频文件,从而避免存储大量 内容相同的视频文件,节省存储空间。
明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1、一种视频文件内容确定方法,其特征在于,该方法包括获取第一视频文件的特征信息,并获取第二视频文件的特征信息或多个视频文件的特征信息索引;将所述第一视频文件的特征信息,与所述第二视频文件的特征信息或所述特征信息索引进行比较;根据所述第一视频文件的特征信息与所述第二视频文件的特征信息的比较结果确定所述第一视频文件与所述第二视频文件的视频内容是否相同,或根据所述第一视频文件的特征信息与所述特征信息索引的比较结果确定所述多个视频文件中是否有与所述第一视频文件的内容相同的视频文件。
2、 如权利要求l所述的方法,其特征在于,所述特征信息为 内容标识CID码、文件描述信息、内容特征信息中的一个或任意组合,所述内容标识CID码为根据预定算法对视频文件进行计算后获得,所述预定算法 为对不同的视频文件的内容数据进行处理得到不同的处理结果的算法。
3、 如权利要求2所述的方法,其特征在于,所述内容特征信息为 颜色直方图信息和/或颜色聚合向量。
4、 如权利要求1所述的方法,其特征在于,在所述特征信息为内容特征 信息时,所述获取第 一视频文件的特征信息以及第二视频文件的特征信息包 括按照预先设定的帧截取规则截取所述第一视频文件和所述第二视频文件 的一个或多个视频帧;计算截取的所述第 一视频文件的 一个或多个视频帧的内容特征信息,将计 算得到的内容特征信息作为所述第一视频文件的内容特征信息;计算截取的所述第二视频文件的一个或多个视频帧的内容特征信息,将计 算得到的内容特征信息作为所述第二视频文件的内容特征信息。
5、 如权利要求2所述的方法,其特征在于,所述将所述第一视频文件的特征信息与所述第二视频文件的特征信息进行比较,根据比较结果确定所述第一视频文件与所述第二视频文件的视频内容是否相同包括比较所述第一视频文件与所述第二视频文件的CID码是否相同,如果相 同,则确定所述第一视频文件与所述第二视频文件的视频内容相同;否则,比 较所述第一视频文件与所述第二视频文件的内容特征信息是否相同,如果相 同,则确定所述第一视频文件与所述第二视频文件的视频内容相同;或者比较所述第一^L频文件与所述第二^L频文件的文件描述信息是否相同,如 果不相同,则确定第一视频文件与第二视频文件的视频内容不相同;否则,比 较所述第一视频文件与所述第二视频文件的内容特征信息是否相同,如果相 同,则确定所述第一视频文件与所述第二视频文件的视频内容相同;或者比较所述第 一视频文件与所述第二视频文件的内容特征信息是否相同,如 果相同,则确定第一视频文件与第二视频文件的视频内容相同;或者比较所述第一视频文件与所述第二视频文件的CID码是否相同,如果相 同,则确定所述第一视频文件与所述第二视频文件的视频内容相同;否则,比 较所述第一视频文件与所述第二视频文件的文件描述信息是否相同,如杲不相 同,则确定所述第一视频文件与所述第二^L频文件的视频内容不相同;否则, 比较所述第一视频文件与所述第二视频文件的内容特征信息是否相同,如果相 同,则确定所述第一视频文件与所述第二视频文件的视频内容相同。
6、如权利要求1所述的方法,其特征在于,所述将所述第一视频文件的 特征信息,与所述特征信息索引进行比较,根据比较结果确定所述多个视频文 件中是否有与所述第一视频文件的内容相同的视频文件,包括在所述特征信息索引中查找与第一视频文件的CID码相同的CID码,如 果查找到,则确定多个视频文件中存在与第一视频文件内容相同的视频文件; 否则,在所述特征信息索引中查找与第一视频文件的内容特征信息相同的内容 特征信息,若查找到,则确定视频资源特征库中存在与该视频文件内容相同的 视频文件;或者在所述特征信息索引中查找与第 一视频文件的文件描述信息相同的文件 描述信息,若未查找到,则确定多个视频文件中不存在与第一视频文件内容相同的视频文件;否则,在所述特征信息索引中查找与第一视频文件的内容特征 信息相同的内容特征信息,若查找到,则确定多个视频文件中存在与第一视频文件内容相同的视频文件;或者在所述特征信息索引中查找与第 一视频文件的内容特征信息相同的内容 特征信息,若查找到,则确定多个视频文件中存在与第一视频文件相同内容的视频文件;或者在所述特征信息索引中查找与第一视频文件的CID码相同的CID码,若 查找到,则确定多个视频文件中存在与第一视频文件内容相同的视频文件;否 则,在所述特征信息索引中查找与第一视频文件的文件描述信息相同的文件描 述信息,若未查找到,则确定多个视频文件中不存在与第一视频文件相同的视 频文件;否则,在所述特征信息索引中查找与第一^L频文件的内容特征信息相 同的内容特征信息,若查找到,则确定多个视频文件中存在与该视频文件内容 相同的记录。
7、 如权利要求6所述的方法,其特征在于所述多个视频文件的特征信息存储于视频资源特征库中; 当确定所述多个视频文件中不存在与第 一视频文件内容相同的视频文件 时,则将第一视频文件的特征信息加入视频资源特征库中,并建立新的特征信 息索引或建立用于识别视频文件内容的标识ID;或当确定所述多个视频文件中 存在与第一视频文件CID码不同,但内容相同的视频文件时,将第一视频文件的特征信息加入视频资源特征库中。
8、 如权利要求1所述的方法,其特征在于在确定所述第一^f见频文件与所述第二^L频文件的碎见频内容相同之后,该方 法进一步包括根据设定的文件选取规则从所述第一视频文件和所述第二视频 文件中选择一个视频文件,将选择的视频文件进行保存;或在确定所述多个视频文件中存在与第 一视频文件内容相同的视频文件之后,该方法进一步包括从所述第一视频文件和所述内容相同的视频文件中选 择一个视频文件,将选择的视频文件进行保存。
9、 如权利要求1所述的方法,其特征在于,在确定所述第一视频文件与 所述第二视频文件的^f见频内容相同之后,该方法进一步包括将所述第一视频文件与所述第二视频文件建立关联关系;搜索引擎在根据接收到的视频文件搜索请求搜索到所述第一视频文件或所述第二视频文件后,根据所述关联关系将所述第一视频文件和所述第二视频文件作为搜索结果进行返回。
10、 如权利要求9所述的方法,其特征在于,在将所述第一视频文件和所 述第二视频文件作为搜索结果进行返回之后,该方法进一步包括客户端将接收到的所述第一视频文件和所述第二视频文件在排序在一起 或以同一类别进行显示。
11、 一种视频文件内容确定系统,其特征在于,该系统包括 获取单元,用于获取第一视频文件的特征信息,并获取第二视频文件的特征信息或多个视频文件的特征信息索引;比较单元,用于将所述第一视频文件的特征信息与所述第二视频文件的特 征信息或所述特征信息索引进行比较,并根据所述第 一视频文件的特征信息与 所述第二视频文件的特征信息的比较结果确定所述第 一视频文件与所述第二 视频文件的视频内容是否相同,或根据所述第一视频文件的特征信息与所述特 征信息索引的比较结果确定所述多个视频文件中是否有与所述第一视频文件 的内容相同的视频文件。
12、 如权利要求11所述的系统,其特征在于,所述获取单元包括标识码 获取单元、描述信息获取单元或内容特征获取单元中的一个或多个,其中标识码获取单元用于获取所述第 一视频文件的内容标识CID码,和所述第 二视频文件或多个视频文件的特征信息索引中的内容标识CID码;描述信息获取单元用于获取所述第一视频文件的文件描述信息,和所述第二视频文件或多个视频文件的特征信息索引中的文件描述信息;内容特征获取单元用于获取所述第一视频文件的内容特征信息,和所述第 二视频文件或多个视频文件的特征信息索引中的内容特征信息。
13、 如权利要求12所述的系统,其特征在于,所述内容特征获取单元包括截取单元,用于按照预先设定的帧截取规则截取所述第一视频文件和所述 第二视频文件的 一个或多个-见频帧;计算单元,用于计算截取的所述第一视频文件的一个或多个视频帧的内容 特征信息,将计算得到的内容特征信息作为所述第 一视频文件的内容特征信 息;计算截取的所述第二视频文件的一个或多个视频帧的内容特征信息,将计 算得到的内容特征信息作为所述第二视频文件的内容特征信息。
14、 如权利要求11所述的系统,其特征在于,所述比较单元包括第一单 元、第二单元、第三单元、第四单元中的任一个,其中第一单元,用于比较所述第一视频文件与所述第二视频文件的CID码是否 相同,若相同,则确定所述第一视频文件与所述第二视频文件的视频内容相同; 否则,比较所述第一^L频文件与所述第二视频文件的内容特征信息是否相同, 如果相同,则确定所述第 一视频文件与所述第二视频文件的视频内容相同;第二单元,用于比较所述第一视频文件与所述第二视频文件的文件描述信 息是否相同,若不相同,则确定第一视频文件与第二视频文件的视频内容不相 同;否则,比较所述第一视频文件与所述第二视频文件的内容特征信息是否相 同,若相同,则确定所述第一视频文件与所述第二视频文件的视频内容相同;第三单元,用于比较所述第 一视频文件与所述第二视频文件的内容特征信 息是否相同,若相同,则确定第一视频文件与第二^l频文件的^L频内容相同;第四单元,用于比较所述第一视频文件与所述第二视频文件的CID码是否相同,若相同,则确定所述第一视频文件与所述第二视频文件的视频内容相同;否则,比较所述第一视频文件与所述第二视频文件的文件描述信息是否相同,若不相同,则确定所述第一视频文件与所述第二视频文件的视频内容不相同; 否则,比较所述第一视频文件与所述第二视频文件的内容特征信息是否相同, 若相同,则确定所述第一视频文件与所述第二视频文件的视频内容相同。
15、如权利要求11所述的系统,其特征在于,所述比较单元包括第五单 元、第六单元、第七单元、第八单元中的任一个,其中第五单元,用于在所述特征信息索引中查找与第一^L频文件的CID码相同 的CID码,如果查找到,则确定多个视频文件中存在与第一视频文件内容相同 的视频文件;否则,在所述特征信息索引中查找与第一^L频文件的内容特征信 息相同的内容特征信息,若查找到,则确定视频资源特征库中存在与该视频文 件内容相同的^L频文件;第六单元,用于在所述特征信息索引中查找与第一^L频文件的文件描述信 息相同的文件描述信息,若未查找到,则确定多个视频文件中不存在与第一视 频文件内容相同的视频文件;否则,在所述特征信息索引中查找与第一视频文 件的内容特征信息相同的内容特征信息,若查找到,则确定多个视频文件中存在与第 一视频文件内容相同的视频文件;第七单元,用于在所述特征信息索引中查找与第一^L频文件的内容特征信 息相同的内容特征信息,若查找到,则确定多个视频文件中存在与第一视频文 件相同内容的^L频文件;第八单元,用于在所述特征信息索引中查找与第一^L频文件的CID码相同 的CID码,若查找到,则确定多个视频文件中存在与第一视频文件内容相同的 视频文件;否则,在所述特征信息索引中查找与第一^L频文件的文件描述信息 相同的文件描述信息,若未查找到,则确定多个视频文件中不存在与第一视频 文件相同的视频文件;否则,在所述特征信息索引中查找与第一视频文件的内 容特征信息相同的内容特征信息,若查找到,则确定多个视频文件中存在与该 ^f见频文件内容相同的记录。
16、 如权利要求11所述的系统,其特征在于所述多个视频文件的特征信息存储于视频资源特征库中; 该系统进一步包括存储单元,用于当确定所述多个视频文件中不存在与 第一视频文件相同的视频文件时,将第一视频文件的特征信息加入视频资源特 征库中或建立用于识别^L频文件内容的标识ID;或用于当确定所述多个-见频文 件中存在与第一^L频文件CID码不同,但内容相同的视频文件时,将第一^见频 文件的特征信息加入^L频资源特征库中。
17、 如权利要求11所述的系统,其特征在于,该系统进一步包括 整合单元,用于在确定所述第一视频文件与所述第二视频文件的视频内容相同时,根据设定的文件选取规则从所述第一视频文件和所述第二视频文件中 选择一个视频文件,将选择的视频文件进行保存;或在确定所述多个视频文件中存在与第一视频文件内容相同的视频文件时, 从所述第 一视频文件和所述内容相同的视频文件中选择一个视频文件,将选择 的视频文件进行保存。
18、 如权利要求11所述的系统,其特征在于,该系统进一步包括 聚类单元,用于在确定所述第一视频文件与所述第二视频文件的视频内容相同时,将所述第一视频文件与所述第二视频文件建立关联关系;在根据接收 到的视频文件搜索请求搜索到所述第一视频文件或所述第二视频文件后,根据 所述关联关系将所述第一视频文件和所述第二视频文件作为搜索结果进行返 回;或在确定所述多个一见频文件中存在与第 一视频文件内容相同的视频文件时, 将所述第一视频文件与所述内容相同的视频文件建立关联关系;在根据接收到 的视频文件搜索请求搜索到所述第一视频文件或所述内容相同的视频文件后, 根据所述关联关系将所述第一视频文件和所述内容相同的视频文件作为搜索 结果进行返回。
全文摘要
本发明实施例公开了一种视频文件确定方法和系统。该方法包括获取第一视频文件的特征信息,并获取第二视频文件的特征信息或多个视频文件的特征信息索引;将所述第一视频文件的特征信息,与所述第二视频文件的特征信息或所述特征信息索引进行比较;根据所述第一视频文件的特征信息与所述第二视频文件的特征信息的比较结果确定所述第一视频文件与所述第二视频文件的视频内容是否相同,或根据所述第一视频文件的特征信息与所述特征信息索引的比较结果确定所述多个视频文件中是否有与所述第一视频文件的内容相同的视频文件。
文档编号G06F17/30GK101425082SQ200810185810
公开日2009年5月6日 申请日期2008年12月15日 优先权日2008年12月15日
发明者刘汉洲 申请人:深圳市迅雷网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1