媒体数据中的低复杂度重复检测的制作方法

文档序号：2825845阅读：121来源：国知局

媒体数据中的低复杂度重复检测的制作方法
【专利摘要】本发明描述了媒体数据中的代表性片段的时间位置的低复杂度检测。使用能够从媒体数据提取(例如，能够从媒体数据的分量获得)的一种或更多种特征类型中的第一类型将偏移值子集定位在媒体数据中的偏移值集合中。偏移值子集包括基于一个或更多个选择准则从偏移值集合中选择的值。使用一种或更多种特征类型中的第二类型基于偏移值子集标识候选种子时间点集合。
【专利说明】媒体数据中的低复杂度重复检测
[0001]相关的美国申请
[0002]本申请要求于2011年12月12日提交的美国临时专利申请第61/569，591号的优先权，其全部内容通过引用合并到本文中。本申请涉及于2010年12月30日提交的美国临时专利申请第61/428，578号、于2010年12月30日提交的美国临时专利申请第61/428，588号以及于2010年12月30日提交的美国临时专利申请第61/428，554号，其每个的全部内容通过引用合并到本文中。
【技术领域】
[0003]本发明总体上涉及媒体。更具体地,本发明的实施方式涉及媒体数据中的代表性片段的时间位置的低复杂度检测。
【背景技术】
[0004]媒体数据可以包括能够给收听者或观看者留下持久印象的代表性片段。例如，最流行的歌曲遵循在主歌部与副歌部之间交替的特定结构。通常，副歌部是歌曲中的最重复的部，也是歌曲中“吸引人的”部分。副歌部的位置通常与基本的歌曲结构有关，并且可以用于方便终端用户浏览歌曲收藏。
[0005]从而，在编码侧，代表性片段比如副歌部的位置可以在媒体数据比如歌曲中被标识，并且可以作为元数据与歌曲的编码比特流相关联。在解码侧，元数据使得终端用户能够在副歌部的位置处开始回放。当存储器处的媒体数据的合集比如歌曲合集被浏览时，副歌回放方便已知歌曲的即时识别和标识以及对于歌曲合集中未知歌曲的喜欢或不喜欢的快速评定。
[0006]在“聚类方法”(或状态方法)中，可以使用聚类技术将歌曲分割成不同部。基本的假定是:歌曲的不同部(比如主歌、副歌等)共享将一个部与其他部或歌曲的其他部分区分开的某些属性。
[0007]在“模式匹配方法”(或序列方法)中，假定副歌是歌曲中的重复部。重复部可以通过对歌曲的不同部进行相互匹配来识别。
[0008]“聚类方法”和“模式匹配方法”两者均要求根据输入音频剪辑计算距离矩阵。为了这样做，将输入音频剪辑划分成N个帧；从每个帧提取特征。然后，在输入音频剪辑的N个帧中的任意两个帧之间形成的总数的对中的每对帧之间计算距离。该矩阵的获得在计算上是昂贵的，并且要求高的存储器使用率，因为需要针对所有组合中的每个和逐个组合计算距离(这意味着NXN次的数量级，其中N是歌曲或输入音频剪辑中的帧的数量)。
[0009]该部分中所描述的方法是可以实行的方法，但不一定是前面已经设想或实行的方法。因此，除非另外指出，不应当假定该部分中所描述的方法中的任何方法仅由于它们包括在该部分中而视为现有技术。类似地，关于一个或更多个方法所识别的问题不应当假定已经基于该部分而在任何现有技术中被识别，除非另外指出。【专利附图】

【附图说明】
[0010]作为示例而非作为限制在附图中的多个图中示出了本发明，在附图中相似的附图标记指代相似的元素，在附图中:
[0011]图1A图示了根据本发明的实施方式的媒体处理系统的示例基本框图；
[0012]图1B图示了根据本发明的实施方式的通过若干迭代计算的示例距离矩阵；
[0013]图2图示了根据本发明的示例实施方式的示例媒体数据比如具有副歌部之间的偏移的歌曲；
[0014]图3图示了根据本发明的示例实施方式的示例距离矩阵；
[0015]图4图示了根据本发明的示例实施方式的粗声谱图的示例生成；
[0016]图5图示了根据本发明的示例实施方式的音调的示例螺旋；
[0017]图6图示了根据本发明的示例实施方式的示例频谱；
[0018]图7图示了根据本发明的示例实施方式的提取示例色度(chroma)的示例梳状图样；
[0019]图8图示了根据本发明的示例实施方式的将帧的谱乘以梳状图样的示例操作；
[0020]图9图示了根据本发明的示例实施方式的与在有限的频率范围上计算的色度图有关的第一不例加权矩阵；
[0021]图10图示了根据本发明的示例实施方式的与在有限的频率范围上计算的色度图有关的第二示例加权矩阵；
[0022]图11图示了根据本发明的示例实施方式的与在有限的频率范围上计算的色度图有关的第三示例加权矩阵；
[0023]图12图示了根据本发明的示例实施方式的使用感知激励的BPF的与具有钢琴信号(具有逐渐增大的八度音的音符)的形式的示例媒体数据相关联的示例色度图图示；
[0024]图13图示了根据本发明的示例实施方式的与图12中所示的钢琴信号相关联的但是使用闻斯加权的不例色度图图不;
[0025]图14图示了根据本发明的示例实施方式的媒体处理系统的示例详细框图；
[0026]图15图示了根据本发明的示例实施方式的包括指纹查询序列的示例指纹；
[0027]图16图示了根据本发明的示例实施方式的偏移值的示例直方图；
[0028]图17图示了根据本发明的示例实施方式的示例特征距离矩阵(色度距离矩阵)；
[0029]图18图示了根据本发明的示例实施方式的相似度矩阵的行的示例色度距离值、平滑距离值和所得到的用于场景变化检测的种子时间点；
[0030]图19A和图19B分别图示了根据本发明的示例实施方式的示例处理流程；以及
[0031]图20图示了根据本发明的可能实施方式的可以在其上实现本文中所描述的计算机或计算装置的示例硬件平台。
【具体实施方式】
[0032]在本文中描述了本发明的涉及媒体数据中的低复杂度重复检测的示例实施方式。在下面的描述中，出于说明的目的，为了提供对本发明的透彻的理解，阐述了大量具体细节。然而，将明显的是，可以在没有这些具体细节的情况下来实践本发明。在其他示例中，为了避免不必要地包括、模糊或迷乱本发明，不穷举地详细描述已知的结构和装置。[0033]在本文中根据下面的概述来描述示例实施方式:
[0034]1.总体概述
[0035]2.特征提取的框架
[0036]3.基于谱的指纹
[0037]4.色度特征
[0038]5.其他特征
[0039]5.1梅尔频率倒谱系数(MFCC)
[0040]5.2节奏特征
[0041]6.重复部分的检测
[0042]6.1指纹匹配
[0043]6.2检测显著的(候选)偏移
[0044]6.3色度距离分析
[0045]6.4计算相似度行
[0046]7.使用场景变化检测的精细
[0047]8.等级评定
[0048]9.其他应用
[0049]10.示例处理流程
[0050]10.1.示例重复检测处理流程一指纹匹配和搜索
[0051]10.2.示例重复检测处理流程一混合方法
[0052]11.实现机制一硬件概述
[0053]12.等同、扩展、替选以及其他
[0054]1.总体概述
[0055]该概述给出了本发明的示例实施方式的一些方面的基本描述。应当注意，该概述不是可能的实施方式的各个方面的广泛的或穷尽的概要。此外，应当注意，该概述不意在被理解为标识可能的实施方式的任何特别显著的方面或元素，也不意在具体地描写可能的实施方式的任何范围或总体上描写本发明。该概述仅以压缩和简化的方式给出了与示例可能实施方式有关的一些概念，并且应当仅被理解为如下的示例实施方式的更详细的描述的概念上的前序。
[0056]本发明的一种实施方式提供了检测媒体数据中的重复的低复杂度功能。使用可从媒体数据提取的一种或更多种特征类型中的第一类型从媒体数据中的偏移值集合中选择偏移值子集。偏移值子集包括基于一个或更多个选择准则从偏移值集合中选择的偏移值。使用一种或更多种特征类型中的第二类型从偏移值子集中识别候选种子时间点集合。在一些情况下，在该框架中特征的第一类型和第二类型仅在时间分辨率方面不同。例如，可以以较低时间分辨率使用特征来首先快速地标识在其处有可能出现重复的偏移值子集。当标识在其处重复是可能的偏移值子集后，然后基于对相同特征的较高时间分辨率版本的分析来标识在这些所选择的偏移值处的候选种子时间点集合。可以使用一个或更多个计算系统、设备或装置、集成电路装置和/或媒体播放、再现、渲染或流媒体设备执行示例处理。可以使用编码或记录在计算机可读存储介质上的指令或软件控制、配置、编程或引导系统、装置和/或设备。[0057]—种示例实施方式可以执行一个或更多个另外的重复检测处理，这可以在某种程度上涉及更多的复杂度。例如，在其中计算成本或等待时间较不重要或实现低复杂度重复检测的验证的应用中，示例实施方式还可以使用根据媒体内容的分量特征的一个或更多个媒体指纹的获得(例如，提取)或使用多个(例如，第二)偏移时间点子集来检测媒体中的重复。
[0058]如本文中所描述的，媒体数据可以包括但不限于以下项中的一项或更多项:歌曲、音乐作品、配乐、唱片、诗、视听作品、电影或多媒体表示。在各种实施方式中，媒体数据可以从以下项中的一项或更多项获得:音频文件、媒体数据库记录、网络流应用、媒体小型应用程序、媒体应用、媒体数据比特流、媒体数据容器、无线广播媒体信号、存储媒体、有线信号或卫星信号。
[0059]很多不同类型的媒体特征能够从媒体数据提取，捕获结构属性、包括和声和旋律的调性、音色、节奏、响度、立体声混合、或媒体数据的声源的量(quantity)。如本文中所描述的能够从媒体数据提取的特征可以与很多媒体标准中的任意标准、12平均律的调音系统或除12平均律的调音系统以外的不同的调音系统有关。
[0060]这些类型的媒体特征中的一种或更多种可以用于生成媒体数据的数字表示。例如，捕获媒体数据的调性、音色或调性和音色两者的类型的媒体特征可以被提取，并且用于生成媒体数据例如在时域或频域中的完全数字表示。完全数字表示可以包括总共N个帧。数字表示的示例可以包括但不限于快速傅里叶变换(FFT)、数字傅里叶变换(DFT)、短时傅里叶变换(STFT)、修正离散余弦变换(MDCT)、修正离散正弦变换(MDST)、正交镜像滤波器(QMF)、复杂正交镜像滤波器(CQMF)、离散小波变换(DWT)或小波系数。
[0061]根据一些技术，可以计算NXN距离矩阵以确定具有某些代表特性的特定段是否存在于媒体数据中和存在于媒体数据中何处。代表特性的示例可以包括但不限于某些媒体特征比如语音的不存在或存在、重复特性比如最多重复或最少重复等。
[0062]鲜明相反，根据本文中所描述的技术，数据表示可以首先被简化成指纹。如本文中所使用的，指纹可以具有比从其获得指纹的数字表示的数据量小几个数量级的数据量，并且可以被高效地计算、搜索和比较。
[0063]根据本文中所描述的技术，非常优化的搜索和匹配步骤用于针对指纹查询序列快速标识在媒体数据中在其处具有某些代表特性的段有可能重复的偏移值集合(或简单地为偏移)。
[0064]在一些实施方式中，媒体数据的整个持续时间中的一些或全部可以被划分成多个时间部，每个时间部开始于时间点。特定查询时间点处的查询序列可以由多个部之一中的指纹序列形成，其开始于特定时间点，该特定时间点可以被称为指纹序列的查询时间点。
[0065]动态指纹数据库可以用于存储媒体数据的指纹以与查询序列比较。在一种实施方式中，动态指纹数据库以如下方式被构造，该方式使得查询序列中的指纹以及另外地和/或可选地查询序列附近的一些指纹被从动态数据库中排除。
[0066]简单的线性搜索和比较操作可以用于确定与查询序列有关的动态数据库中的所有重复或相似的指纹序列。设置指纹查询序列、构造动态指纹数据库以及执行查询序列的线性搜索和比较操作以获得媒体数据中的相似或匹配序列的这些步骤可以对于所有时间点重复。对于每个查询时间点(tq)，我们记录在其处发现最好匹配序列的时间点(tm)。我们计算表示查询点与数据库中的其相应的匹配序列之间的时间差的等于απ-\)的偏移值。因此，可以为媒体数据建立与查询序列中每个对应的偏移值集合。
[0067]根据该偏移值集合，还可以基于一个或更多个选择准则从偏移值集合中选择显著偏移值或偏移值子集。在一个示例中，一个或更多个选择准则可以与偏移值的出现频率有关。与超过某个阈值的出现频率相关联的偏移值可以包括在偏移值子集中——这可以被称为显著偏移值。在一些实施方式中，可以使用表示偏移值的出现频率的一个或更多个直方图来标识显著偏移值。
[0068]示例低复杂度方法
[0069]在一些实施方式中，可以使用距离矩阵的低分辨率表示来标识显著偏移值。根据下面将描述的示例方法来计算低时间分辨率距离矩阵。一种实施方式使用假定表示整个歌曲或其他音乐内容的N个特征向量(f\、起作用。根据特征向量f(i)(其中i指代帧索引)计算全距离矩阵，其中，D (ο, i) =dist(f(i), f (i+o)),以及其中，ο表示偏移值的索引。对于子采样距离矩阵(例如，低时间分辨率)，根据D(o，t) =dist(f(Ki),f(Ki+o))简单跳过来自特征向量的某些帧，其中K表示子采样因子，表示整数例如K = 2、
3、4…。实现了一种子采样因子包括2的实施方式。
[0070]当计算低分辨率距离矩阵时，如下所述执行计算，以便获得在其处出现重复的显著偏移子集。首先，对距离矩阵的行进行平滑(例如，使用几秒长度的MA滤波器)。该平滑矩阵中的低值与其长度类似于平滑滤波器的长度的音频段对应。搜索平滑距离矩阵得到局部最小值的点以查找显著偏移。实施方式根据下面列举的示例步骤迭代地查找最小值: [0071]1.查找最小值(产生偏移，以及时间值:omin，nm,in)
[0072]dmin = min (D (o, i))，其中 dmin = D (omin, nm, in)。
[0073]2.将偏移值记录为显著偏移。
[0074]3.通过设置±rn) = 以在用于查找最小值的下一轮的某个范围内排除所查找到的最小值周围的值，其中，r。= 0，1，...，Rnrn = 0，1，...，Nn。(实现了如下实施方式:其中Nn等于帧的数量(=D的列的数量)，例如，排除所记录的显著偏移的所有列(时间帧))。
[0075]4.从示例步骤I开始重复，直到达到期望数量的显著偏移。一种实施方式用最小数量Mmin、最大数量Mmax以及色度距离值的阈值TH定义了显著偏移的数量。获得Mmin或更多偏移(例如，Mmin= 3)。然后检查关于色度距离值的条件以确保所查找的值足够低，例如，多达数量Mmax(例如，Mmax= 10)个偏移。根据全局最小值(例如，在第一迭代中查找到的最小值)确定阈值，例如dmin*1.25。这在某种程度上改变了上述示例步骤。例如，在一种实施方式中，步骤I和步骤4如下述改变如下。
[0076]1.查找最小值(产生偏移，以及时间值:omin，nm, in)
[0077]dmin = min (D (o, i))，其中 dmin = D (omin, nm, in)。
[0078]如果获得Mmin个偏移，则检查色度距离阈值:如果Clmin < TH则继续步骤2，否则停止。
[0079]4.从步骤I开始重复(例如，直到获得Mniax个偏移)。
[0080]图1B图示了示例距离矩阵1000，这通过四次(例如，4期间)迭代1001、1002、1003和1004来计算。所检测到的最小值使用黑色十字表示。在每次迭代之后，对于下一次迭代的搜索排除先前最小值周围的范围。
[0081]从而，本发明的示例实施方式提供了检测媒体数据中的重复的低复杂度功能。使用能够从媒体数据提取(例如，能够从媒体数据的分量获得)的一种或更多种特征类型中的第一类型从媒体数据中的偏移值集合中选择偏移值子集。偏移值子集包括基于一个或更多个选择准则从偏移值集合中选择的值。使用一种或更多种特征类型中的第二类型基于偏移值子集来标识候选种子时间点集合。可以使用一个或更多个计算系统、设备或装置、集成电路装置、和/或媒体播放、再现、渲染或流媒体设备来执行示例处理。可以使用编码或记录在计算机可读存储介质上的指令或软件来控制、配置、编程或引导系统、装置和/或设备。
[0082]一种示例实施方式可以执行一个或更多个另外的重复检测处理，这可以在某种程度上涉及较多的复杂度。例如，在其中计算成本或等待时间较不重要或实现低复杂度重复检测的验证的应用中，示例实施方式还可以使用根据媒体内容的分量特征的一个或更多个媒体指纹的获得(例如，提取)或使用多个(例如，第二)偏移时间点子集来检测媒体中的重复。
[0083]根据本文中所描述的技术，可以仅在时间差等于显著偏移值处在特征之间执行基于特征的比较或距离计算。根据本文中所描述的技术，可以避免如现有技术中所要求的使用覆盖媒体数据的整个持续时间的N个帧的整个距离矩阵。在一些可能的实施方式中，还可以对包括根据指纹分析的时间点的时间位置(例如，tm和tq)的有限时间范围执行显著偏移值处的特征比较。
[0084]在一种实施方式中，具有等于如本文中所描述的显著偏移值的时间差的特征之间的基于特征的比较或距离计算可以基于特征的第二类型，以标识候选种子时间点集合。第二特征类型可以与用于生成显著偏移值的特征类型相同。可替代地和/或可选地，这些基于特征的比较或距离计算可以基于与用于生成显著偏移值的特征类型不同的特征类型。
[0085]在一种实施方式中，具有等于如本文中所描述的显著偏移值的时间差的特征之间的基于特征的比较或距离计算可以产生与向量的欧几里得距离、均方差、误比特率、基于自相关的度量或汉明距离中的一个或更多个有关的相似度值或相异度值。在一种实施方式中，可以应用滤波器对相似度值或相异度值进行平滑。这样的滤波器的示例可以是但不限于巴特沃斯低通滤波器、滑动平均滤波器等。
[0086]在一种实施方式中，经滤波的相似度值或相异度值可以用于标识显著偏移值中每个的种子时间点集合。例如，种子时间点可以与经滤波的值中的局部最小值或最大值对应。
[0087]本发明的实施方式有效且高效地使得能够标识副歌部或在浏览歌曲的大部分时可能适合于重放或预览的简短部分、铃声等。为了播放媒体数据如歌曲中的一个或更多个代表性片段，一个或更多个代表性片段在媒体中的位置例如可以在编码阶段由媒体生成器编码在媒体数据比特流中。然后，媒体数据比特流可以由媒体数据播放器解码以恢复代表性片段的位置并且播放代表性片段中的任意片段。
[0088]在一种实施方式中，如本文中所描述的机制形成媒体处理系统的一部分,媒体处理系统包括但不限于:手持装置、游戏机、电视机、便携式电脑、上网本电脑、蜂窝式无线电话、电子书阅读器、销售点终端、台式电脑、计算机工作站、计算机亭或各种其他类型的终端和媒体处理单元。[0089]对本文中所描述的优选实施方式和总体原理以及特征进行的各种修改对本领域普通技术人员来说明显的。从而，本公开内容不意在限于示出的实施方式，而是应当符合与本文中所描述的原理和特征一致的最宽范围。
[0090]2.特征提取的框架
[0091]在一种实施方式中，如图1所示，在此媒体处理系统可以包括四个主要部件。特征提取部件可以从媒体数据如歌曲提取各种类型的特征。重复检测部件例如可以基于如以媒体数据的所提取的特征表示的媒体数据的时间部中的媒体数据的某些特性如歌曲的旋律、和声、歌词、音色,来查找媒体数据的重复的时间部。
[0092]在一种实施方式中，重复片段可以经受由场景变化检测部件执行的精细处理，这查找表示包括所选择的重复部的片段的正确的开始时间点和结束时间点。这些正确的开始时间点和结束时间点可以包括媒体数据中的一个或更多个场景处理不同特性的开始场景变化点和结束场景变化点。一对开始场景变化点和结束场景变化点可以表示候选代表性片段。
[0093]由等级评定部件执行的等级评定算法可以应用于从所有候选代表性片段中选择代表性片段的目的。在【具体实施方式】中，所选择的代表性片段可以是歌曲的副歌。
[0094]在一种实施方式中，本文中所描述的媒体处理系统可以被配置成执行指纹匹配和色度距离分析的组合。根据本文中所描述的技术，该系统可以以相对低复杂度高性能地操作来处理大量媒体数据。指纹匹配使得能够快速且低复杂度地在媒体数据中搜索重复的最好匹配的片段。在这些实施方式中，标识在其处出现重复的偏移值集合。
[0095]一种实施方式使用较低时间分辨率下的第一等级色度距离分析来标识在其处出现重复的偏移值集合。然后，仅在这些偏移处应用更准确的较高时间分辨率色度距离分析。相对于媒体数据的相同时间间隔，色度距离分析可以比指纹匹配分析更可靠和精确但以较高复杂度为代价。
[0096]相反，组合和/或混合(组合/混合)方法使用最初的低复杂度级来标识在其处出现重复的显著偏移值集合。在该低复杂度级处，实施方式可以使用指纹匹配来标识显著偏移或使用较低时间分辨率色度距离矩阵分析来起作用。这避免了高分辨率色度距离分析，除非应用于媒体数据中的某些显著偏移，在计算复杂度和存储器使用方面实现了显著节约。例如，在媒体数据的整个持续时间上应用高分辨率色度距离分析在处理复杂度和存储器消耗方面具有显著较多的计算代价。
[0097]从而，本发明的示例实施方式提供了检测媒体数据中的重复的低复杂度功能。使用能够从媒体数据提取(例如，能够从媒体数据的分量获得)的一种或更多种特征类型中的第一类型从媒体数据中的偏移值集合中选择偏移值子集。偏移值子集包括基于一个或更多个选择准则从偏移值集合中选择的值。使用一种或更多种特征类型中的第二类型基于偏移值子集来标识候选种子时间点集合。可以使用一个或更多个计算系统、设备或装置、集成电路装置、和/或媒体播放、再现、渲染或流媒体设备来执行示例处理。可以使用编码或记录在计算机可读存储介质上的指令或软件来控制、配置、编程或引导系统、装置和/或设备。
[0098]一种示例实施方式可以执行一个或更多个另外的重复检测处理，这可以在某种程度上涉及较多的复杂度。例如，在其中计算成本或等待时间较不重要或实现低复杂度重复检测的验证的应用中，示例实施方式还可以使用根据媒体内容的分量特征的一个或更多个媒体指纹的获得(例如，提取)或使用多个(例如，第二)偏移时间点子集来检测媒体中的重复。
[0099]如上所述，一些重复检测系统计算全距离矩阵，全距离矩阵包括由媒体数据的所有N个帧中的任意两帧形成的所有组合中的每个与每一个之间的距离。全距离矩阵的计算可能计算上昂贵并且要求高存储器使用。图2图示了具有所示的第一副歌部与第二副歌部之间的偏移的示例媒体数据如歌曲。图3示出了用于距离计算的具有两个维度时间和偏移的示例距离矩阵。偏移表示两个帧之间的时间滞后，根据时间滞后计算关于特征的相异度值(或距离)(或相似度)。将重复部表示为水平黑线，对应于相隔一定偏移的一部分连续帧到另一部分连续帧的低的距离。
[0100]根据本文中所描述的技术，可以避免计算全距离矩阵。替代地，可以分析指纹匹配数据来提供重复的近似位置以及(相邻重复)近似位置之间的相应偏移。从而，可以避免由不等于显著偏移之一的偏移值分离的特征之间的距离计算。在一些可能的实施方式中，还可以对包括根据指纹分析时间点(tm和tq)的时间位置的有限时间范围执行显著偏移值处的特征比较。在一种实施方式中，较低时间分辨率距离矩阵被计算以标识显著偏移集合。因此，即使根据本文中所描述的技术使用距离矩阵，这样的距离矩阵可以相对于根据其他技术的全距离矩阵仅包括针对其要计算距离的几行和几列，随之而来计算节约。
[0101]3.基于谱的指纹
[0102]指纹提取(例如，从内容分量的指纹获得)创建了可以用作媒体数据的基本部的标识符的紧凑的比特流表示。通常，出于检测媒体数据的不良倾向的目的，可以以如下方式设计指纹，该方式使得拥有对于各种信号处理/操纵操作包括编码、动态范围压缩(DRC)、均衡等的鲁棒性。然而，出于如本文中所描述的查找媒体数据中的重复部的目的，由于指纹的匹配出现在相同歌曲内，所以可以放松指纹的鲁棒性要求。必须由典型的指纹识别系统处理的恶意攻击在如本文所描述的媒体数据中将不存在或相对罕见。
[0103]此外，本文中的指纹提取可以基于粗声谱图表示。例如，在媒体数据为音频信号的实施方式中，音频信号可以被下混至单声道信号，并且可以另外地和/或可选地被下采样至16kHz。在一些实施方式中，媒体数据如音频信号可以被处理成但不限于单声道信号，并且还可以被划分成重叠块。可以根据重叠块中的每个来创建声谱图。可以通过沿时间和频率两者平均来创建粗声谱图。前述操作可以提供对声谱图中沿时间和频率的相对小的变化的鲁棒性。应当注意，在一种实施方式中，本文中的粗声谱图还可以以比声谱的其他部分强调声谱的某些部分的方式被选择。
[0104]图4图示了根据本发明的示例实施方式的粗声谱图的示例生成。(输入)媒体数据(例如，歌曲)首先被划分成具有步长大小Ttl = 16晕秒(ms)、持续时间Tdl = 2秒的块。对于音频数据的每个块(XJ，可以使用某个时间分辨率(例如，128采样或8ms)和频率分辨率(256采样FFT)来计算声谱图。所计算的声谱图S可以使用时间频率块来平铺。时间频率块每个内的声谱的幅度可以被平均以获得声谱图S的粗表示Q。S的粗表示Q可以通过对大小WfXWt的时间频率块中的频率系数的幅度求平均来获得。在此，Wf是块沿频率的大小，以及Wt是块沿时间的大小。其中，F表示块沿频率轴的数量，以及T是块沿时间轴的数量，因此Q具有大小(F*T)。可以在下面给出的表达式(I)中计算Q:
【权利要求】
1.一种用于媒体数据中的重复检测的方法，包括: 使用能够从所述媒体数据提取的一种或更多种特征类型中的第一类型来选择所述媒体数据中的偏移值集合中的偏移值子集，所述偏移值子集包括基于一个或更多个选择准则从所述偏移值集合中选择的值；以及基于所述一种或更多种特征类型中的第二类型在所述偏移值子集处的相似度/距离分析来标识候选种子时间点集合；其中，所述方法由一个或更多个计算装置执行。
2.根据权利要求1所述的方法，还包括: 从所述媒体数据提取所述第一特征类型的一个或更多个第一特征；基于所述一个或更多个第一特征来计算第一重复检测度量的第一距离值；以及应用所述第一重复检测度量的所述第一距离值以选择所述偏移值子集。
3.根据权利要求2所述的方法，其中，当基于所述第一特征选择所述偏移值子集时，所述方法还包括: 从所述媒体数据提取所述第二特征类型的一个或更多个第二特征；其中，所述第二特征类型和所述第一特征类型关于时间分辨率或频率分辨率的一种或更多种不同；基于所述一个或更多个第二特征计算第二重复检测度量的第二距离值；以及应用所述第二重复检测度量的所述第二距离值以标识所述候选种子时间点集合。
4.根据权利要求2所述的方法，其中，当基于所述第一特征选择所述偏移值子集时，所述方法还包括: 从所述媒体数据提取所述第二特征类型的一个或更多个第二特征；基于所述一个或更多个第二特征来计算第二重复检测度量的第二距离值；以及应用所述第二重复检测度量的所述第二距离值以标识所述候选种子时间点集合。
5.根据权利要求2所述的方法，其中，使用变换大小、变换类型、窗口大小、窗口形状、频率分辨率或时间分辨率中的一项或更多项来从与所述媒体数据有关的信号的表示获得或提取所述第二特征类型。
6.根据权利要求1所述的方法，其中，所述第一特征类型还包括从所述媒体数据得到的指纹集合，其中，所述方法还包括: 基于所述指纹集合来选择指纹查询序列集合，所述查询序列集合中的每个单独的指纹查询序列包括所述媒体数据针对开始于查询时间的时间间隔的简化表示；针对所述指纹查询序列集合确定指纹匹配序列集合，所述查询序列集合中的每个单独的查询序列与所述指纹匹配序列集合中的零个或更多个指纹匹配序列对应；以及基于所述查询序列集合和所述匹配序列集合来标识偏移值集合；其中，所述方法由一个或更多个计算装置执行。
7.根据权利要求6所述的方法，还包括基于将所述媒体数据的数字表示简化成所述媒体数据的简化维数二进制表示来生成所述指纹集合，其中，所述数字表示与以下项中的一项或更多项有关:快速傅里叶变换(FFT)、数字傅里叶变换(DFT)、短时傅里叶变换(STFT)、修正离散余弦变换(MDCT)、修正离散正弦变换(MDST)、正交镜像滤波器(QMF)、复杂正交镜像滤波器(CQMF)、离散小波变换(DWT)、色度特征或小波系数。
8.根据权利要求6所述的方法，其中，相对于对于检测恶意攻击鲁棒的指纹，所述指纹集合中的指纹提取简便。
9.根据权利要求6所述的方法，其中，针对所述指纹查询序列集合确定指纹匹配序列集合包括在动态构造的指纹数据库中搜索与指纹查询序列匹配的指纹匹配序列。
10.根据权利要求9所述的方法，其中，所述指纹查询序列开始于特定查询时间，以及其中，所述动态构造的指纹数据库排除在相对于所述特定查询时间的一个或更多个可配置的时间窗内的一部分或更多部分指纹。
11.根据权利要求6所述的方法，其中，基于所述查询序列集合和所述匹配序列集合来标识偏移值集合包括使用根据所述查询序列集合和所述匹配序列集合构造的一个或更多个直方图来确定显著偏移值集合。
12.根据权利要求1所述的方法，还包括: 使用能够从所述媒体数据提取的一种或更多种特征类型中的第一类型来标识所述媒体数据中的偏移值集合中的偏移值子集，所述偏移值子集基于一个或更多个选择准则被从所述偏移值集合中选择；以及使用所述一种或更多种特征类型中的第二类型基于所述偏移值子集来标识候选种子时间点集合，其中，所述方法由一个或更多个计算装置执行。
13.根据权利要求12所述的方法，还包括: 从所述媒体数据提取所述第一特征类型的一个或更多个第一特征；基于所述一个或更多个第一特征来计算第一重复检测度量的第一距离值；应用所述第一重复检测度量的所述第一距离值以标识所述偏移值子集；从所述媒体数据提取所述第二特征类型的一个或更多个第二特征；基于所述一个或更多个第二特征来计算第二重复检测度量的第二距离值；以及应用所述第二重复检测度量的所述第二距离值以标识所述候选种子时间点集合。
14.根据权利要求13所述的方法，其中，所述第一重复检测度量和所述第二重复检测度量中至少一个与以下项中的一项或更多项有关:向量的欧几里得距离、向量范数、均方差、误比特率、基于自相关的度量、汉明距离、相似度或相异度。
15.根据权利要求13所述的方法，其中，所述第一值和所述第二值包括一个或更多个归一化值。
16.根据权利要求13所述的方法，其中，使用所述一种或更多种特征类型中至少之一来部分地形成所述媒体数据的数字表示。
17.根据权利要求16所述的方法，其中，所述媒体数据的所述数字表示包括所述媒体数据的基于指纹的简化维数二进制表示。
18.根据权利要求13所述的方法，其中，所述一种或更多种特征类型中至少之一包括捕获结构属性、包括和声和旋律的调性、音色、节奏、响度、立体声混合或与所述媒体数据有关的声源的量的特征的类型。
19.根据权利要求18所述的方法，其中，所述立体声混合包括所述媒体数据的一个或更多个立体声参数，并且其中，所述一个或更多个立体声参数至少之一与以下项有关:相干性、通道间互相关(ICC)、通道间声级差(CLD)、通道间相位差(IPD)或通道预测系数(CPC)。
20.根据权利要求13所述的方法，其中，能够从所述媒体数据提取的所述特征用于基于以下项中的一项或更多项提供所述媒体数据的一个或更多个数字表示:色度、色度差、差分色度特征、指纹、梅尔频率倒谱系数(MFCC)、基于色度的指纹、节奏模式、能量或其他变型。
21.根据权利要求13所述的方法，其中，能够从所述媒体数据提取的所述特征用于提供与以下项中的一项或更多项有关的一个或更多个数字表示:快速傅里叶变换(FFT)、数字傅里叶变换(DFT)、短时傅里叶变换(STFT)、修正离散余弦变换(MDCT)、修正离散正弦变换(MDST)、正交镜像滤波器(QMF)、复杂正交镜像滤波器(CQMF)、离散小波变换(DWT)或小波系数。
22.根据权利要求13所述的方法，其中，所述第一特征类型的所述一个或更多个第一特征以及所述第二特征类型的所述一个或更多个第二特征与所述媒体数据的相同时间间隔有关。
23.根据权利要求13所述的方法，其中，所述第一特征类型的所述一个或更多个第一特征形成所述媒体数据针对所述媒体数据的第一时间间隔的表示，而所述第二特征类型的所述一个或更多个第二特征形成所述媒体数据针对所述媒体数据的第二不同时间间隔的表不。
24.根据权利要求23所述的方法，其中，所述媒体数据的所述第一时间间隔大于所述媒体数据的所述第二不同时间间隔。
25.根据权利要求23所述的方法，其中，所述第一时间间隔覆盖所述媒体数据的整个时间长度，以及其中，所述第二时间间隔覆盖所述媒体数据在所述媒体数据的所述整个时间长度内的一个或更多个时间部分。
26.根据权利要求13所述的方法，其中，通过计算所述第一类型的所述一个或更多个第一特征的距离值来标识所述偏移值集合；以及其中，通过计算所述第二类型的所述一个或更多个第二特征在所述偏移值集合处的距离值来从所述偏移值集合标识所述偏移值子集。
27.根据权利要求13所述的方法，其中，提取所述第一特征类型的所述一个或更多个第一特征相对于从所述媒体数据的相同部分提取所述第二特征类型的所述一个或更多个第二特征简便。
28.根据权利要求13所述的方法，其中，计算所述第一特征类型的所述一个或更多个第一特征的距离值相对于根据所述媒体数据的相同部分计算所述第二特征类型的所述一个或更多个第二特征的距离值简便。
29.根据权利要求13所述的方法，其中，所述媒体数据包括以下项中的一项或更多项:歌曲、音乐作品、配乐、唱片、诗、视听作品、电影或多媒体表示。
30.根据权利要求13所述的方法，还包括从以下项中的一项或更多项获得所述媒体数据:音频文件、媒体数据库记录、网络流应用、媒体小型应用程序、媒体应用、媒体数据比特流、媒体数据容器、无线广播媒体信号、存储媒体、有线信号或卫星信号。
31.根据权利要求30所述的方法，其中，所述媒体数据比特流包括以下项中的一项或更多项:高级音频编码(AAC)比特流、高效AAC比特流、MPEG-1/2音频层3(MP3)比特流、杜比数字(AC3)比特流、杜比数字+比特流、杜比脉冲比特流或杜比TrueHD比特流。
32.根据权利要求12所述的方法，还包括: 对一个或更多个偏移处的距离值应用一个或更多个滤波器；以及基于经滤波的值来标识场景变化检测的种子时间点集合。
33.根据权利要求12所述的方法，还包括: 对一个或更多个偏移的一个或更多个时间间隔处的距离值应用一个或更多个滤波器；以及基于经滤波的值来标识场景变化检测的种子时间点集合。
34.根据权利要求32或33中一项或更多项所述的方法，其中，所述一个或更多个滤波器包括滑动平均滤波器，以及其中，所述多个种子时间点中的至少一个种子时间点与经滤波的值中的局部最小值对应。
35.根据权利要求32或33中一项或更多项所述的方法，其中，所述一个或更多个滤波器包括滑动平均滤波器，以及其中，所述多个种子时间点中的至少一个种子时间点与经滤波的值中的局部最大值对应。
36.根据权利要求32或33所述的方法，其中，所述一个或更多个滤波器包括滑动平均滤波器，以及其中，所述多个种子时间点中的至少一个种子时间点与经滤波的值中的特定中间值对应。
37.根据权利要求6或13中一项或更多项所述的方法，还包括使用一个或更多个窗函数来提取一个或更多个色度特征。
38.根据权利要求6或13中一项或更多项所述的方法，还包括使用一个或更多个音乐激励的窗函数来提取所述色度特征中的一个或更多个。
39.根据权利要求6或13中一项或更多项所述的方法，其中，能够从所述媒体数据提取的所述特征与12平均律的调音系统有关。
40.根据权利要求6或13中一项或更多项所述的方法，其中，能够从所述媒体数据提取的所述特征与除12平均律的调音系统以外的调音系统有关。
41.一种被配置成执行根据权利要求1至40所述的方法中的任一方法的系统。
42.一种包括处理器并且被配置成执行根据权利要求1至40所述的方法中的任一方法的设备。
43.一种包括软件指令的计算机可读存储介质，所述软件指令当由一个或更多个处理器执行时使得执行根据权利要求1至40所述的方法中的任一方法。
【文档编号】G10H1/00GK103999150SQ201280061089
【公开日】2014年8月20日申请日期:2012年12月10日优先权日:2011年12月12日
【发明者】巴尔巴拉·雷施, 雷古纳森·拉达克里希南, 阿里希特·比斯瓦斯, 约纳什·恩德加德申请人:杜比实验室特许公司, 杜比国际公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：巴尔巴拉·雷施;雷古纳森·拉达克里希南;阿里希特·比斯瓦斯;约纳什·恩德加德
技术所有人：杜比实验室特许公司;杜比国际公司
我是此专利的发明人