用于比较视频的方法和设备的制作方法

文档序号：6496193阅读：146来源：国知局

用于比较视频的方法和设备的制作方法
【专利摘要】一种用于比较视频的方法，该方法包括：检测视频的帧中的局部特征，以及确定检测到的局部特征相较于它们在随后的第二帧中各自的位置而言在第一帧中的位置。为所述检测到的局部特征中的至少一部分生成移动指示符，以获得多个移动指示符，移动指示符代表局部特征相对于其在第二帧中的位置而言在第一帧中的位置，移动指示符包括方向。移动指示符根据方向范围被分组。对方向范围内的多个分组的移动指示符求和，以获得该方向范围的值。通过为多对帧确定检测到的局部特征相对于它们在随后的第二帧中各自的位置而言在第一帧中的位置，获得至少一个给定方向范围的时间序列值。对于至少一个方向范围，将第一视频的第一时间序列值同第二视频的第二时间序列值进行比较，以确定所述第一视频和第二视频的相似性。
【专利说明】用于比较视频的方法和设备
【技术领域】
[0001 ] 本发明涉及用于比较视频的方法和设备。
【背景技术】
[0002]在诸如YouTube、谷歌视频和雅虎视频这样的视频托管网站中，视频内容可由用户上传至网站，并通过搜索引擎由他人获得。统计显示，例如，在最受欢迎的视频分享网站之一的YouTune上，目前每天上传20亿个视频,合计每分钟上传24个小时的视频。社交网络站点的日渐流行使得用户能够更加容易获得视频，对它们进行编辑(例如，添加标识或注释)，并将修改后的视频上传至相同的视频分享网站或其它网站。这可能导致在相同的网站上分享一个视频的多个相似或相同的拷贝，不方便用户寻找他或她真正想要的内容，并增加了存储和提供视频所需的资源。
[0003]基于视频的整体内容和主观印象，视频可能被用户认为是“基本上相同的”，或者是复制品。例如，重复的视频内容可以包括具有相同或者几乎相同内容的视频序列，但是这些视频序列的文件格式不同，具有不同的编码参数，并且/或者长度不同。其它的不同可以是光度差异，如颜色和/或灯光变化，和/或在空间和/或时间域中所作的细微编辑操作，例如对字幕，标识和/或边框所作的增加或修改，和/或对帧进行的尺寸调整和裁剪。这些例子不应被理解为详尽的列举，还可以产生其它类型的不同。因此，视频拷贝能够包含对原始视频的各种失真，修改和格式转换，并且仍然被认为是原始视频的复制品。
[0004]重复视频的扩散使得用户很难，或者说不方便找到他或她真正想要的内容。举例而言，基于来自YouTube、谷歌视频和雅虎视频的样本查询，发现平均而言在搜索结果中列有超过27%的相似视频，在这些搜索结果中，流行的视频被复制最多。考虑到搜索结果中包括高百分比的重复视频，用户必须花费大量时间对其进行筛选以找到他们所需要的视频，并且必须重复观看那些已经观看过的相似视频拷贝。重复的结果使得用户的视频搜索、获取和浏览体验大打折扣。此外，因为要在网络上存储和传输重复的视频数据，这些重复的视频内容增加了网络开销。
[0005]通过在视频数据库中搜索查询视频的(精确的或近似的)拷贝，基于内容的拷贝检测(CBCD)技术使基于视频内容的检索变得容易。CBCD技术的应用给用户、内容制作人或拥有人以及网络运营商带来诸多好处。例如，通过检测重复视频，视频分享网站可以减少所存储的冗余视频拷贝的数量；如果不再需要浏览相似的结果，则用户可以得到更好的视频搜索体验；版权所有人可以更容易发现对他们的视频片段的重新使用；并且内容分发网络可以引导用户访问附近的视频拷贝，该拷贝的存在可能是未知的。
[0006]视频拷贝检测的问题是检测给定的视频中是否包含与目标视频中的序列在感知上相似的序列。具体而言，假定查询视频Q和目标视频T都是一系列的视频帧，视频Q包含一系列的巾贞Qs,目标视频T包含一系列的巾贞Ts,如果Qs和Ts之间的差异性低于噪声阈值，则该系列的帧Qs是该系列的帧Ts的拷贝或者接近拷贝。这两个视频的长度不受限制。查询视频Q可以长于或短于目标视频T。[0007]已经提出了基于对不同的视频特征进行识别，并对这些视频特征应用匹配方案，从而寻找视频拷贝的各种CB⑶技术。由于视频分享网站常常包含大型数据库，从这样大型的视频数据库中找到视频的相似或相同的拷贝，并向互联网用户提供实时响应，这是一个巨大挑战。
[0008]视频拷贝检测可以分为两个步骤:生成视频特征描述符和对描述符进行匹配。
[0009]视频特征可以由全局描述符和局部(local)描述符来表示。全局描述符(包括依次的度量)是从帧的整个区域获得的。局部描述符，例如Harris描述符或尺度不变量特征变换(SIFT)，可以通过将每个帧分割成多个区域并从突出的局部区域提取特征来获得。Harris描述符还被更具体地称为“Harris角落检测器”，其基于图像梯度的特征值来检测图像中的角。
[0010]举例来说，局部特征可以包括来自每个区域的颜色、纹理、角、和/或形状特征，或者其它特征，这些并非详尽列举。一般而言，全局特征描述符可以被有效地计算并压缩存储，但是相对于局部变化来说鲁棒性较低。局部特征描述符的鲁棒性更好，但是计算起来更昂贵并且需要更多的存储空间。

【发明内容】

[0011]根据本发明的第一个方面，一种用于比较视频的方法，该方法包括:对视频的帧中的局部特征进行检测，以及确定检测到的局部特征相较于它们在随后的第二帧中的各自的位置而言在第一帧中的位置。为检测到的局部特征中的至少一部分生成移动指示符，以获得多个移动指示符，移动指示符代表相对于局部特征在第二帧中的位置来说该局部特征在第一帧中的位置，移动指示符包括方向。移动指示符根据方向范围被分组。对方向范围内的多个分组的移动指示符求和，以获得该方向范围的值。通过为多对帧确定检测到的局部特征相较于它们在随后的第二帧中的各自的位置而言在第一帧中的位置，获得至少一个给定方向范围的时间序列值。对于至少一个方向范围，将第一视频的第一时间序列值同第二视频的第二时间序列值进行比较，以确定第一视频和第二视频的相似性。
[0012]因此，根据本发明，一个实施方式可以提供鲁棒性和区别性，这是因为该方法在检测重复视频的过程中使用局部特征。此外，因为其计算效率高，其能够提供相对快速的处理，并且，相对于先前已知的基于局部特征描述符的方法，所需存储空间更少。
[0013]可以对整个第一和第二视频进行处理并检查以进行匹配，但是在某些实施方式中，仅仅使用视频的片段来检测它们之间是否存在相似性。
[0014]在实施方式中，多个不同的特征检测器可供用于检测局部特征。特征检测器的例子包括Harris角点检测器，ORB, SIFT, Sobel，MSER和PCBR，并且它们可以检测边缘、角、斑点、或一些其它方面，或者各个方面的组合。在一些特征检测器中，局部特征称作关键点，该术语也在本说明书中合适的地方使用。已经在测试中证明FAST和ORB能够提供特别好的结果。
[0015]举例来说，可以通过利用SIFT或BRIEF或其它合适的算法来计算局部特征描述符，并应用描述符匹配在帧中寻找相应的局部特征来生成移动指示符。从相应特征的位置得到运动向量。匹配产生运动向量。因此，举例来说，借助BRIEF，海明(Hamming)距离可以用来匹配BRIEF描述符。一旦找到两个匹配的特征，从由两个特征的相对位置形成的向量计算出方向。
[0016]在一个实施方式中，移动指示符包括距离参数，并且如果它的距离参数位于给定尺寸范围内，移动指示符被包括在方向范围分组中，如果它的距离参数位于给定尺寸范围夕卜，则移动指示符不被包括在方向范围分组中。例如，如果使用像素来表述移动指示符的距离参数，则可以设定上限和下限阈值，使得只有那些尺寸在3和15个像素之间的移动指示符被包括在分组中，剩余部分被丢弃，不进行进一步处理。仅仅作为例子而言，3到15个像素之间的尺寸被称为可使用的有效范围。但是，不一定使用该范围，该范围不具有限制性。通过为距离参数设定合适的上限和下限阈值，能够降低错误匹配或非典型运动的可能性。也就是说，极长的移动指示符意味着关键点在帧中移动极快，如果视频以正常帧率提取的话，这是不可能的。极短的运动向量可以仅仅是固定点，该固定点不一致地被检测到，因此实际上不移动。在一个实施方式中，距离参数范围可以是固定的，并且可以是关注的视频的任意合适的范围。在另一个实施方式中，距离参数范围可以是变化的，以(举例来说)依靠所获得的结果进行调整来改善流程，或为了关注的不同类型的视频或视频的特征，或其它原因或期望的输出而进行调整。
[0017]在一个实施方式中，移动指示符根据方向范围被分组到四至十个方向范围中的一个中。因此，举例来说，可以有八个分组或储藏区(bin)，每个分组或储藏区具有角度为45度的范围，第一分组用于具有O到45度方向的移动指示符，第二分组用于具有大于45度到最多90度方向的移动指示符，以此类推。可以使用少于四个方向范围，但是这样会为复制品检测程序提供较少的信息。多于十个方向范围会产生更多的可用信息，但是会丧失一定的视频编辑鲁棒性。
[0018]当产生至少一个方向范围的时间序列值时，将第一视频的第一时间序列值与第二视频的第二时间序列值进行比较，以确定第一和第二视频的相似性。在一个实施方式中，举例来说，如果有八个方向范围或储藏区，仅来自第一储藏区的第一视频的时间序列与仅来自第一储藏区的第二视频的时间序列相比较，第一储藏区的方向范围是O到45度。这意味着不是所有的可用信息都在比较时被使用。
[0019]在另一个实施方式中，第一视频的多个时间序列被合并起来以产生第一时间序列签名。这可以包括所有的时间序列，或者，在另一个实施方式中，仅包括所有的时间序列的一个子集。对第二视频执行相同的过程，以产生第二时间序列签名。接下通过比较时间序列签名这一步骤来对时间序列进行比较，这些时间序列签名合并了来自每个视频的多个时间序列的信息。
[0020]在一个实施方式中，为了进一步减少确定第一和第二视频是否为复制品所需的时间，可以使用时间序列线性分割技术来将时间序列或时间序列签名压缩为线性倾斜(incline)/下降(decline)的离散列表，时间序列签名中使用了时间序列的合并。接下来可以实施主要(major)倾斜匹配技术来寻找被比较的时间序列或时间序列签名中可能的对齐位置。
[0021]因此,一个实施方式包括:将第一时间序列和第二时间序列分别分割为一系列的离散线性片段；对这些线性片段执行局部序列对齐；以及从分段的时间序列中选择主要倾斜和主要下降，并在执行对齐的过程中使用主要倾斜和主要下降，以确定第一和第二视频之间的相似性。在另一个实施方式中，对时间序列签名实施同样的操作。[0022]在一个实施方式中，将第一时间序列与第二时间序列对齐。计算对齐的第一时间序列和第二时间序列之间的最佳相似性距离，将最佳相似性距离与给定的阈值相比较以确定第一视频和第二视频是否是复制品。在另一个实施方式中可以对时间序列签名实施上述操作。
[0023]第一帧和第二帧可以彼此紧邻，或者可以存在相干帧。
[0024]在另一个实施方式中，多对帧由其它帧的间隔隔开，这些其它帧不被处理以用于对视频进行比较。举例来说，间隔可以是固定的，可变的，或任意的。在一个实施方式中，不同类型的间隔之间可以实施转换，例如，在处理视频的过程中从固定转换为随机，或者在另一个实施方式中，在处理过程中保持一种模式。在另一个实施方式中，可以不包括间隔。
[0025]根据本发明的第二个方面，设备被编程或配置为执行根据第一方面所述的方法。
[0026]根据本发明的第三方面，提供用于存储机器可执行程序的数据存储介质，该程序用于执行根据第一方面所述的方法。
【专利附图】

【附图说明】
[0027]下面仅以示例的方式，参照附图来描述本发明的一些实施方式，在这些附图中:
[0028]图1概略地示出了本发明的方法；
[0029]图2概略地示出了本发明的方法的多个方面；
[0030]图3概略地示出了本发明的方法的多个方面；
[0031]图4 (a)，4 (b)和4 (c)概略地示出了不同视频的方向储藏区随时间的变化；
[0032]图5概略地示出了用于实施如图1所示方法的设备。
【具体实施方式】
[0033]参照图1，重复视频检测程序中涉及的视频包括多个帧，并在I中被选择以进行处理。在步骤2中选择一对连续的帧。在该实施方式中，以每间隔10帧的间隔对帧进行取样。接下来每个取样的帧与其相邻的下一帧进行比较，以追踪局部特征移动。在2中，选择帧O和相邻帧I。
[0034]在3中，将帧应用至局部特征检测器，在该实施方式中，局部特征检测器是0RB。使用ORB对帧O进行分析，以提取局部特征，对帧I实施同样的程序。这产生了同帧O相关的关键点及同帧I相关的关键点。
[0035]在4中，关键点信息被应用至描述符匹配处理器，以确定这两个帧中的关键点之间的对应关系。当找到匹配时，在5中计算移动指示符或运动向量。
[0036]在6中，运动向量被应用至过滤器，以确保只有那些规定长度内的运动向量在随后的处理中被考虑到。
[0037]在7中，过滤后保留的运动向量的方向被确定，并被分组到合适的方向范围或储藏区中。在该实施方式中，共有八个储藏区，每个储藏区覆盖45度。
[0038]在8中，通过对多个关键点进行求和，计算每个储藏区的多个关键点的合计，以给予每个储藏区一个值。
[0039]对帧O和I实施该程序后，对将要考虑的下一对帧重复上述步骤。接下来的帧是帧11 (取样间隔=10)和帧12。一旦处理完这些帧，接下来的帧是帧21和帧22，以此类推。可以处理整个视频，或者只处理它的一个片段或多个片段。
[0040]对多对帧进行比较之后，获得每个储藏区的时间序列值或直方图。在9中，这些结果被合并在一起、跨越时间标准化，以向视频提供最终的时间序列签名。
[0041]以相同的方式对第二视频进行处理，以获得它自己的时间序列签名。
[0042]假定两个视频具有如上所计算的时间序列签名，则可以通过比较时间序列签名来确定视频的相似性。
[0043]在10中，在比较过程中，对于每个方向储藏区，通过使用线性分段来逼近(approximate)直方图的时间踪迹，并从线性片段中提取主要倾斜来引导寻找被比较的直方图之间可能存在的对齐，从而对时间序列签名进行比较。
[0044]计算得到在对齐位置上的两个视频之间的标准化的欧几里得(Euclidean)距离。如果最佳匹配相似性距离小于阈值，则这两个视频被认为是拷贝。
[0045]图2示出了视频的帧，该帧具有检测到的关键点和线，这些关键点和线表示相对于上一帧的移动方向(和幅度)。关键点被过滤，只保留那些被跟踪的运动的幅度落入预定范围(在该情况下为3到15像素)的关键点。这样做可以减少错误的关键点匹配。方向的直方图在顶部被可视化，每一条描述一个方向储藏区。在这种情况下，可以发现绝大部分的移动落入特定方向中。
[0046]图3示出了视频的另一帧，该帧具有检测到的关键点和跟踪的运动(与前图相似)。但是，可以发现移动的方向的变化更大，这在可视化的直方图中反映出来。
[0047]图4 (a)和4 (b)示出了不同视频的一个方向储藏区随时间的变化(值被跨越时间标准化)。左侧显示原始视频(影片21，影片27)，它们的相应查询(STlQuerylO，STlQueryl)被显示在右侧，视频转换在括号中显示。尽管对视频做出了很大的改变，但是可以发现左侧和右侧的直方图之间的大致相关性。
[0048]在评价本发明的方法时，在试验过程中使用了面向公众的视频数据库-MUSCLEVCD基准。数据库包括101个视频，总时长为80小时。数据库提供来自各个节目的视频:运动，纪录片，动画片，自制电影，黑白老电影，广告，等等。MUSCLE V⑶基准包含一系列地面真实数据ST1，用于对视频拷贝检测系统的性能和精确性进行评价。视频系列STl包括15个查询，合并起来的时长为2小时30分钟。它们是全长视频的拷贝，从5分钟到I小时长。查询视频经过外延转换，外延转换包括重新编码，以一定角度进行翻录，裁剪和改变颜色，变焦，增加噪音，模糊和字幕，等等。在使用测试过的方案的过程中，需要大约10分钟来搜索STl中的所有查询，而之前CIVR07团队所获得的最好分数是44分钟。
[0049]图5示出了用于实施如图1所示方法的设备。其包括用于存储将要被比较的视频的视频数据库存储器11，0RB特征检测器12，运动向量处理器13，方向储藏区存储器14，时间序列处理器15及时间序列前面计算器16。在比较器17中使用两个视频的时间序列签名对它们进行比较。
[0050]图中所示各个元件的功能(包括所有的标记为“处理器”的功能块)可以通过使用专用硬件，以及能够运行与合适软件相关的软件的硬件来提供。当由处理器提供时，功能可以由单个专用处理器提供，或由多个独立的处理器提供，一些独立的处理器可以被共享。此外，术语“处理器”的明确使用不应理解为单指能够运行软件的硬件，可以包括而不局限于数字信号处理器(DSP)，硬件，网络处理器，专用集成电路(ASIC)，现场可编程门阵列(FPGA)，用于存储软件的只读存储器(ROM)，随机存取存储器(RAM)，以及非易失存储器。还可以包括其它的传统和/或定制硬件。
[0051] 本发明可以在不偏离其基本特征的情况下以其它特定形式实现。所描述的实施方式只应理解为解释性的，而非限制性的。因此，本发明的保护范围由所附的权利要求而非上述描述来限定。落入权利要求的含义和等同范围内的所有改变都包含在权利要求的保护范围内。
【权利要求】
1.一种用于比较视频的方法，该方法包括: 检测视频的帧中的局部特征；确定检测到的局部特征相较于所述局部特征在随后的第二帧中各自的位置而在第一帧中的位置；为所述检测到的局部特征中的至少一部分生成移动指示符，以获得多个移动指示符，所述移动指示符代表局部特征相对于所述局部特征在所述第二帧中的位置而在所述第一中贞中的位置，所述移动指示符包括方向；根据方向范围将移动指示符分组；对方向范围内的多个分组的移动指示符求和，以获得该方向范围的值；通过为多对帧确定检测到的局部特征相较于所述局部特征在随后的第二帧中各自的位置而在第一帧中的位置，获得至少一个给定方向范围的时间序列值；以及对于至少一个方向范围，将第一视频的第一时间序列值与第二视频的第二时间序列值进行比较，以确定所述第一视频和第二视频的相似性。
2.如权利要求1所述的方法，其中所述移动指示符包括距离参数，并且如果所述移动指示符的距离参数位于给定尺寸范围内，则所述移动指示符被包括在方向范围分组中，且如果所述移动指示符的距离参数位于给定尺寸范围外，则所述移动指示符不被包括在方向范围分组中。
3.如权利要求1所述的方法，该方法包括: 获得第一视频的多个方向范围的多个第一时间序列值；将所述多个第一时间序列值合并，以产生第一时间序列签名；获得第二视频的多个方向范围的多个第二时间序列值；将所述多个第二时间序列值合并，以产生第二时间序列签名；以及比较第一时间序列签名和所述第二时间序列签名，以确定所述第一视频和第二视频的相似性。
4.如权利要求1所述的方法，该方法包括:在比较所述第一时间序列和第二时间序列以确定所述第一视频和第二视频的相似性的过程中，使用主要倾斜匹配。
5.如权利要求1所述的方法，该方法包括:将所述第一时间序列与所述第二时间序列对齐；计算对齐的第一时间序列与第二时间序列之间的最佳相似性距离；以及将所述最佳相似性距离与给定阈值进行比较，以确定所述第一视频和所述第二视频是否是重复视频。
6.如权利要求1所述的方法，该方法包括:当确定所述第二视频不是所述第二视频的复制品时，在存储所述第一视频的视频数据库中存储所述第二视频。
7.一种被编程或配置为执行方法的设备，所述方法包括以下步骤: 在视频的帧中检测局部特征；确定检测到的局部特征相较于所述局部特征在随后的第二帧中各自的位置而言在第一帧中的位置；为所述检测到的局部特征中的至少一部分生成移动指示符，以获得多个移动指示符，所述移动指示符代表局部特征相对于所述局部特征在所述第二帧中的位置在所述第一帧中的位置，所述移动指示符包括方向；根据方向范围将移动指示符分组；对方向范围内的多个分组的移动指示符求和，以获得该方向范围的值；通过为多对帧确定检测到的局部特征相较于所述局部特征在随后的第二帧中各自的位置在第一帧中的位置，获得至少一个给定方向范围的时间序列值；以及对于至少一个方向范围，将第一视频的第一时间序列值与第二视频的第二时间序列值进行比较，以确定所述第一视频和第二视频的相似性。
8.如权利要求7所述的设备，该设备可操作以执行以下步骤: 获得第一视频的多个方向范围的多个第一时间序列值；将所述多个第一时间序列值合并，以产生第一时间序列签名；获得第二视频的多个方向范围的多个第二时间序列值；将所述多个第二时间序列值合并，以产生第二时间序列签名；以及比较第一时间序列签名和所述第二时间序列签名，以确定所述第一视频和第二视频的相似性。
9.如权利要求7所述的设备，该设备包括用于检测局部特征的ORB检测器。
10.一种用于存储机器可执行程序的数据存储介质，所述机器可执行程序用于执行比较视频的方法，该方法包括: 检测视频的帧中的局部特征；确定检测到的局部特征相较于所述局部特征在随后的第二帧中各自的位置而在第一帧中的位置；` 为所述检测到的局部特征中的至少一部分生成移动指示符，以获得多个移动指示符，所述移动指示符代表局部特征相对于所述局部特征在所述第二帧中的位置而在所述第一中贞中的位置，所述移动指示符包括方向；根据方向范围将移动指示符分组；对方向范围内的多个分组的移动指示符求和，以获得该方向范围的值；通过为多对帧确定检测到的局部特征相较于所述局部特征在随后的第二帧中各自的位置而在第一帧中的位置，获得至少一个给定方向范围的时间序列值；以及对于至少一个方向范围，将第一视频的第一时间序列值与第二视频的第二时间序列值进行比较，以确定所述第一视频和第二视频的相似性。
【文档编号】G06K9/00GK103718193SQ201280039012
【公开日】2014年4月9日申请日期:2012年7月31日优先权日:2011年8月10日
【发明者】J·R·张, Y·任, F·常, T·L·伍德申请人:阿尔卡特朗讯公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J·R·张;Y·任;F·常;T·L·伍德
技术所有人：阿尔卡特朗讯公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。